AI 제품 개발에서 반복되는 역사적 패턴, AI 창업가들이 다시 밟고 있는 과오, 그리고 시간이 흐를수록 AI 모델 자체의 가치가 모든 것을 대체하게 되는 경향을 다룹니다.
요약:
최근 AI의 발전으로 다양한 제품
이 더 넓은 범위의 문제
를 풀 수 있게 되었습니다. 저는 YC 졸업생 데모데이에서 100개가 넘는 피치를 보며 이를 직접 체감했습니다. 이러한 문제들은 공통적으로, 제약된
AI로도 풀 수 있을 만큼 충분히 단순하다는 특징을 지닙니다. 그러나 AI의 진정한 힘은 유연성
에 있습니다. 일반적으로, 제약이 적은 제품
이 더 잘 작동하지만, 현재 AI 모델
은 이러한 제품을 대규모로 만든다고 보기엔 충분히 신뢰할 수 없습니다. 이런 상황은 AI 분야에서 여러 번 반복되어 왔습니다. 그리고 매번 승리의 전략은 똑같았습니다. AI 창업가들은 이 역사를 배워야 합니다. 그렇지 않으면 해고의 대가로 이 교훈들을 배울 수밖에 없을 겁니다.
2019년, 리차드 서튼(Richard Sutton)은 유명한 에세이 “쓴 교훈(The Bitter Lesson)”을 다음과 같이 시작했습니다.
“AI 연구 70년에서 얻을 수 있는 가장 큰 교훈은, 결국 계산을 활용하는 일반적인 방법이 가장 효과적이라는 점이다. 그 정도 차이는 매우 크다.”
AI의 역사를 보면, 연구자들은 시스템에 인간의 전문 지식을 심어 넣어 고도화하려고 반복적으로 시도해왔습니다. 그 결과는 항상 씁쓸했습니다: 정성 들여 만든 맞춤형 시스템들이 단순히 계산 성능을 높인 시스템에 추월당했습니다. 이는 음성 인식, 체스, 컴퓨터 비전 등에서 여지없이 드러났습니다. 만약 서튼이 오늘날 에세이를 썼다면 생성형 AI도 이 목록에 추가했을 것입니다. 그리고 그는 이렇게 경고합니다. 이 패턴은 아직 끝나지 않았다고요.
“AI 분야는 아직 이 교훈을 완전히 배우지 못했다. 우리는 여전히 똑같은 실수를 반복하고 있다. ... 우리가 생각하는 '사고 방식'을 시스템에 심어 넣는 것으로는 결국 효과를 볼 수 없다는 것을 뼈저리게 배워야 한다. 쓴 교훈이란 1) AI 연구자들이 전문 지식을 시스템에 집어넣으려 했고, 2) 단기적으로는 항상 효과적이며 연구자 입장에선 만족스럽지만, 3) 장기적으로는 성장이 정체되거나 오히려 발전을 막았으며, 4) 결국엔 계산만 키운 다른 전략이 돌파구가 됐다는 역사적 관찰에 근거한다.”
AI 연구의 맥락에서는 쓴 교훈이 “더 나음”에 대한 명확한 정의와 관련이 있습니다. 체스에서는 승률, 음성 인식에서는 단어 인식률과 같습니다. 그러나 이 글에서는 AI 제품
(응용 계층, 아래 그림 1 참고)에 집중합니다. 여기서 “더 나음”의 기준은 성능
과 시장 내 도입
입니다(도입은 2장에서 다룹니다). 지금은 제품의 성능ㅡ즉 경제적 가치를 창출할 수 있는 업무 대체량ㅡ에 집중해보겠습니다. 더 나은 성능은 더 복잡한 문제도 다룰 수 있음을 의미하며, 이는 더 큰 가치를 창출합니다.
그림 1. AI 제품 계층 예시. 이 글에서는 Application Layer(응용 계층)을 다룹니다.
일반적으로, AI 제품
은 AI 모델
을 패키징 소프트웨어
로 감싼 형태입니다. 다음 두 가지 방법으로 제품 성능을 높일 수 있습니다.
물론 두 방법 모두 병행할 수 있습니다. 하지만 중요한 통찰이 하나 있습니다. 모델이 발전할수록 엔지니어링의 가치는 줄어든다는 점입니다. 지금은 설계가 뛰어난 패키징 소프트웨어를 만드는 것만으로도 상당한 가치를 창출할 수 있습니다. 하지만 이는 현존 모델들이 여전히 많은 실수를 하기 때문이죠. 모델이 점점 더 신뢰성을 갖추면 상황이 달라집니다. 미래에는 모델을 단순히 컴퓨터에 연결하는 것만으로 대부분의 문제를 해결할 수 있게 되는 것입니다. 복잡한 엔지니어링은 필요 없겠지요.
그림 2. 패키징/엔지니어링의 가치가 모델 품질 상승 및 엔지니어링 투입 증가와 함께 감소함을 시각화.
이 그래프에서 볼 수 있듯이, 모델이 발전할수록 엔지니어링 노력의 가치가 줄어듭니다. 현재 모델은 여전히 많은 한계가 있기 때문에, 많은 기업이 엔지니어링을 통해 높은 부가가치를 창출하고 있습니다. YC 데모데이에서도 실제로 많은 기업들이 이런 방식으로 성과를 내고 있었습니다. 시장은 두 그룹으로 나눌 수 있습니다. 하나는 이미 대규모로 배포되어 있는 단순한 문제를 푸는 소수의 기업, 다른 하나는 다소 더 복잡한 문제에 도전하는 기업입니다. 이 두 번째 그룹은 뛰어난 엔지니어링 노력으로 성과를 내고 있지만, 이들의 경쟁우위가 다음 모델 릴리즈에서 한순간에 사라질 수 있다는 위기를 안고 있습니다.
예를 들어, 오픈AI의 o1 모델 출시로 인해 많은 AI 응용기업들이 자신들의 최적화된 prompt 전략이 의미 없어질까봐 불안해했습니다. 실제로 o1이 더 똑똑해진만큼, prompt 엔지니어링의 가치는 줄었습니다. 그림 2에서처럼 새로운 모델이 나올수록 기존 엔지니어링의 가치가 사라집니다.
본질적으로, 이런 엔지니어링의 목적은 AI를 제약해 실수를 줄이는 것입니다. 저는 수많은 해법에서 두 가지 주요 제약 유형을 발견했습니다:
특화(Specificity)
: 얼마나 특정 문제에 초점을 맞췄는가. 수직(vertical)
솔루션은 단일 문제에 특화된 패키징 소프트웨어를 의미하며, 수평(horizontal)
제품은 여러 유형의 문제를 소화합니다.자율성(Autonomy)
: AI가 얼마나 독립적으로 작동하는가. 앤트로픽(Anthropic) 기준으로, LLM과 도구들이 사전에 정의된 코드 경로(workflows)를 따르는 시스템이 있고, LLM이 필요한 도구 사용 및 작업 단계를 직접 결정하는 agent 시스템이 있습니다.이 두 가지 축으로 AI 제품을 분류할 수 있습니다:
수직(Vertical) | 수평(Horizontal) | |
---|---|---|
워크플로우(Workflow) | Harvey | ChatGPT |
에이전트(Agent) | Devin | Claude computer-use |
표 1: 유명 AI 제품 분류. ChatGPT는 메시지마다 사전 정의된 코드 경로를 따르므로 agent가 아닌 workflow로 분류될 수 있습니다.
예를 들어, 비즈니스 애널리스트가 투자 피치 슬라이드를 만드는 작업에 대해 각 카테고리별 구현 방식을 생각해보면:
수직 워크플로우
: 고정된 절차로, 회사 DB를 RAG 질의 → 소형 LLM 요약 → 대형 LLM이 핵심 수치 추출/계산 → 결과 검증 → 슬라이드 생성기를 거칩니다. 매번 같은 과정을 반복합니다.수직 에이전트
: LLM이 반복 루프를 돌며 작업 결과를 자체적으로 평가, 필요시 다양한 도구 사용 시점도 스스로 판단. 충분한 품질에 도달했다고 판단할 때 종료.수평 워크플로우
: ChatGPT 등은 작업의 일부만 도와주지, 전체 절차를 완료하진 못합니다. 전문성과 자율성이 부족하죠.수평 에이전트
: Claude computer-use 같은 시스템은 표준적인 기업 소프트웨어에 접근해, 자연어로 지시를 받고 인간처럼 컴퓨터를 조작하며 필요에 따라 방법을 바꿉니다.데모데이에 등장한 거의 모든 제품이 수직 워크플로우 유형이었습니다. 이는 현재 모델의 신뢰성이 낮아 다른 접근이 실용적이지 않기 때문이죠. 그 결과, 수직 워크플로우가 버거운 문제도 일단 이 틀에 끼워 맞춥니다. 하지만 엔지니어링이 아무리 발전해도 한계는 분명합니다. 현재 모델로 풀 수 없는 문제라면, 엔지니어링에 자원 쏟기보다 더 강력한 모델의 등장을 기다리는 편이 현명합니다. 레오폴드 아쉔브레너(Leopold Aschenbrenner)가 “Situational Awareness”에서 말했듯, 많은 경우 ‘엔지니어링 꼼수’보다 ‘모델 업그레이드’가 더 빠릅니다.
“결국, 재택 원격근로자를 자동화하는 데 필요한 엔지니어링 노동보다, 드랍인 모형을 쓸 수 있을 때까지 기다리는 것이 더 빠를 가능성이 높다.”
이 패턴은 익숙해야 합니다. 쓴 교훈으로 돌아가봅시다. AI 연구자들은 ‘적당한 성능’을 만들기 위해 끝없이 엔지니어링 해왔고, 결국 컴퓨팅을 키운 범용적 시스템에게 추월당했습니다. 오늘의 AI 제품 제작 방식과 놀라울 정도로 유사합니다. 그리고 두 가지 제약 유형에서 쓴 교훈이 어떻게 반복되는지 구체적으로 살펴보면 더욱 명확해집니다:
쓴 교훈의 관찰 | 자율성(Autonomy) | 특화(Specificity) |
---|---|---|
1) 연구자들은 에이전트에 지식을 심으려 한다 | 개발자가 자율적 agent를 시도했으나 신뢰할 수 없어 워크플로우(코드로 고정된 절차)로 변경 | 개발자가 범용 문서분석을 시도하다 실패 → 재무제표 전용, 특정 지표/검증 규칙만 하드코딩 |
2) 단기적으로는 항상 도움이 된다 | 신뢰성이 증가함 | 특화시 정확도가 향상. 모델이 좁은 범위만 다루면 되니까 |
3) 장기적으로는 성장이 정체/혁신 저해 | 하드코딩 워크플로우는 예상 밖 상황에 약함 | 특화 시스템은 확장 불가. 다른 업무(합병 문서 분석 등)는 별도 구축해야 함 |
4) 계산능력 확장 기반의 반대 접근이 결국 돌파구 | 신형 모델은 agent의 상황 판단 및 실수 교정이 가능 | 신형 모델은 어떤 형태의 문서든 전체적으로 이해, 별도 특화 불필요 |
해결 경로가 불투명한 문제일수록, 더 자율적인 제품이 더 높은 성능을 냅니다. 유연성이 성능의 핵심입니다.
이 글은 4부작 시리즈 중 첫 번째입니다. 역사를 보면, 전문지식을 주입한 AI 모델은 결국 계산성장만 추구한 모델에 무너졌습니다. 오늘날 AI product landscape은 이 흐름을 다시 보여주고 있습니다.
첫편에서는 관찰 위주로 썼지만, 제 견해도 스며들었을 겁니다. 현재 모델의 한계를 소프트웨어로 보완하는 것은, 모델 발전 속도를 감안할 때, 언젠가 지는 싸움으로 느껴집니다. YC의 파트너 Jarred가 Lightcone 팟캐스트에서 말한 것처럼 “LLM 1세대 앱(수직 워크플로우)은 대부분 다음 단계의 GPT 출시로 박살났다.”
샘 알트만은 더 좋은 모델 출시가 두렵지 않고 오히려 반기게 만드는 스타트업을 만들라고 꾸준히 이야기합니다. 지금 제가 만나는 많은 AI 창업가들은 새 모델을 기대하지만, 정작 본인들의 경쟁우위는 약해질 수 있습니다(그림 2 참조). 좋은 모델일수록 내 제품의 엣지를 없앨 수도 있습니다. 물론 시장 점유율 얘기가 아니라, 진짜로 더 어려운 문제를 더 잘 푸는 성능 관점입니다. 다음 편에서는 성능 외 시장 도입 차원에서 살펴보겠습니다. 아무리 성능이 좋아도 시장에서 이길 거란 보장은 없으니까요.
쓴 교훈은 통계 관점에서도 설명할 수 있습니다. 모델을 설계할 때, 보통 두 가지 선택지가 있습니다. 문제해결 방식이 매우 정밀 (high bias)하거나, 그보단 유연하지만 예측 불가성(고분산, high variance)이 높은 모델입니다. 쓴 교훈은 유연한 쪽을 택하라고 말합니다.
왜냐하면, 컴퓨팅과 데이터가 많아질수록 유연한 모델의 신뢰성이 높아지기 때문입니다. 농구에서 슛을 자꾸 연습하면, 폼이 불완전해도 점점 정확해지는 원리와 같습니다. 반면, 너무 경직된 모델은 구조적 한계에서 벗어날 수 없습니다.
이건 AI 제품 논의와 곧장 맞닿습니다. 수직 워크플로우와 특정 제약은 엄격한 규칙(고편향 모델)에 불과합니다. 현재는 신뢰성을 높이지만, 시간이 지나면 한계가 드러납니다. AI 자율성을 지금은 허용하지 않는 게 합리적으로 보이지만, 모델이 발전하면 더 나은 해법을 만들어낼 여지를 줍니다. 역사가 증명하듯 유연성을 외면하는 쪽이 늘 패했습니다.
그림 1: 수작업 feature engineering을 필요로 하는 전통 ML과, 데이터에서 중요한 내용을 end-to-end로 파악하는 딥러닝 비교.
전통 ML은 데이터에서 중요한 특성을 사람이 직접 뽑아야 합니다. 예를 들어 이미지라면 특정 모양을 세거나 성질을 재는 등 "피처" 선정이 필요합니다. 딥러닝은 이런 규칙을 자동으로 학습합니다.
그림 2: 자율주행 자동차의 feature extraction 예시. 시스템이 자동차, 보행자, 차선 등 객체를 자동으로 식별/추적함.
자율주행차 예로, 두 방식이 있습니다:
Feature engineering은 안전해보이기에 초창기 AI엔 표준적이었습니다. 하지만 George Hotz가 지적했듯 “AI 역사가 보여주듯 feature engineering 방식은 모두 end-to-end 방식에 대체된다.”
그림 3: Sholto Douglas 트윗
수직 특화 툴을 만드는 것은 feature engineering과 거의 같습니다. 중요한 정보를 사전에 정하는 것입니다. 모델의 자율성을 제한하는 것도 마찬가지입니다. 오늘은 더 나아 보일 수 있지만, 역사는 end-to-end 방식이 결국 승리함을 보여줍니다.
논의를 만들어 준 Axel Backlund에게 감사드립니다.