AI 응용 분야의 수직(Vertical) 솔루션과 수평(Horizontal) 제품 간 경쟁, 그리고 향후 몇 년간 AI 애플리케이션의 변화 시기를 예측합니다. 다양한 데이터와 사례를 바탕으로 스타트업과 창업자들이 고려해야 할 전략적 질문을 다룹니다.
이 글은 12월에 썼습니다. 막 이 글을 출판하려던 참에, Anthropic의 CEO가 “가상 협업자(virtual collaborator)”에 대한 계획을 설명하는 인터뷰를 했습니다. 이는 제가 이번 시리즈에서 "수평 AI 제품"이라 불렀던 것에 대한 훌륭한 설명입니다. OpenAI 역시 며칠 내로 "Operator"라는 자사의 버전을 출시할 것이라는 소문이 돌고 있습니다. 유출된 벤치마크에 따르면 Operator는 Claude의 컴퓨터 활용 대비 훨씬 더 나은 결과(22% vs 38%, OSWorld 벤치마크 기준)를 보여줍니다. 큰 도약이지만, 저는 3개월간의 진보가 이 정도일 것이라 이미 예상했었습니다(Claude의 컴퓨터 활용은 10월에 공개). 그러므로 12월에 했던 제 예측을 여전히 지지합니다.
미래에 대한 예측은 선명하게 남는 일이 드물지만, 한 번 해보겠습니다. 이전 두 챕터에서는 왜 수직 AI(Vertical AI) 애플리케이션이 문제에 직면했는지 살펴봤습니다: 더 범용적인(수평형) 솔루션과 성능 면에서 경쟁이 어렵고, 수평형 제품이 경쟁력을 갖추면 사업의 해자를 확보하기 어렵다고 했죠. 이로 인한 매우 그럴듯한 결과는, 각 산업별로 어느 시점에서 수직 솔루션에서 수평형 솔루션으로 시장이 전환된다는 점입니다. 하지만 가장 중요한 질문은 아직 남았습니다: 도대체 언제 이런 일이 벌어지는가? 10년이 걸린다면 지금 수직 앱을 만들어도 괜찮겠지만, 내년에 벌어진다면 이야기는 완전히 달라집니다. 이번 장에서는 향후 몇 년간 AI 애플리케이션이 어떻게 변화할지, 특히 주요 전환의 시기가 언제일지에 대한 저의 예측을 담았습니다. 4장에서는 이에 따라 창업가들은 어떤 전략을 세워야 할지 논의하겠습니다.
수직에서 수평 AI 제품의 전환은 모든 산업에서 동시에 일어나지 않습니다. 오히려, 각 모델 릴리즈 때마다 일부 산업이 한꺼번에 넘어가는 ‘배치(Batch)’로 이뤄질 것입니다. 일부 분야에서는 그 시간이 오래 걸릴 수 있지만, 오늘 주로 개발되는 수직 앱들은 대부분 비교적 단순하기에 전환 시기가 크게 차이가 나지 않을 거라 봅니다. 2027년까지는 수직 AI 제품이 활발히 살아남는 수직 시장이 극히 드물 것으로 봅니다.
가이드용 목차로, 아래 Figure 1에서 어떻게 앱 도입 양상이 바뀔지 요약해두었습니다. 여기서 “도입(adoption)”이란, 사람들이 새로운 문제를 해결하거나 기존 솔루션을 바꿀 때 어디로 가는지를 측정한다고 봅니다. 참고로 이 측정은:
예를 들어, A에서 B로의 흐름은 기존에 A를 쓰던 유저가 이제는 B를 구입해 문제를 푼다는 뜻입니다.
수직/수평, 워크플로우/에이전트란 용어 정의는 1장 참고. 다이어그램에선 단순화를 위해 수평 에이전트와 워크플로우를 하나로 묶었습니다. 실제로 같은 회사가 두 유형 모두 만들 가능성이 높기 때문에 타당합니다. 예컨대 ChatGPT도 워크플로우 기반을 유지하되, 더 에이전트다운 기능이 추가될 수 있습니다.
Figure 1: 2022~2027 솔루션 도입 패턴 변화 예상치. 기존 솔루션과 수평(워크플로우+에이전트)/수직 방식 간 사용자의 선택 흐름을 보여줍니다. 각 흐름의 두께는, 신규 솔루션 도입이나 기존 대체 시점에서의 상대적 채택 강도를 나타냅니다.
(1) ChatGPT 등장 전: 시장은 기존 소프트웨어가 지배
(2) ChatGPT 출시: 최초의 의미 있는 수평 AI 제품 등장
(3) GPT-3.5 API 출시: 첫 AI 기반 수직 앱 물결
(4) 2025년은, 모델 신뢰도가 실제 에이전트 활용에 충분해지는 전환점이 될 것입니다. 지금까지 에이전트란 주로 연구/파일럿 수준에 머물렀으나, 이젠 잠재적 파괴력이 드러나기 시작합니다. 성장 동력은 2가지: 기존 수직 제품이 워크플로우를 에이전트로 전환하거나, 아예 새롭게 등장하는 앱이 워크플로우의 한계를 넘어서 기존 소프트웨어를 대체할 것입니다.
(5) 에이전트의 부상에도 불구하고, 수직 워크플로우는 2025년 내내 여전히 시장을 지배할 것입니다. 이유는 ‘변경 비용’이 두 가지로 크기 때문: 유저가 익숙한 도구를 바꾸기 꺼리는 점, 그리고 개발자가 지난 수년 간 투자한 엔지니어링 자산을 쉽게 버리기 어렵기 때문이죠. 이들이 확보한 시장 지위가 큰 관성을 만들어냅니다.
(6) 메이저 수평 AI 제품들(ChatGPT, Claude, Gemini)은 다양한 수직 산업(Verticals)에서 쓰임새를 늘릴 기능을 추가할 것입니다. 이미 시작된 일입니다. 예를 들어, ChatGPT는 이제 데스크톱 앱들과 연동됩니다. 더 좋은 모델이 나오면 이런 작업도 공학적 노력이 크게 줄 것입니다. 이렇게 수평형 제품이 진화함에 따라, 유저들은 이미 쓰는 수평 AI로도 문제를 해결할 수 있음을 인식하게 되고, 수직 앱의 영업이 점점 어려워집니다.
(7) 수평 AI 에이전트와 인간 노동자 간 격차가 극적으로 좁혀집니다. 여전히 모든 분야에서 전문가급은 아니나, 지금까지 사람들이 각종 소프트웨어로 처리하던 대부분의 업무를 신뢰성 있게 수행합니다. 인간의 일자리는 아직 남아있지만, 수직 AI 솔루션은 도태되죠. 다음과 같은 변화가 예상됩니다:
a. 개인 사용자는 세무 신고, 구직, 쇼핑(비레저) 등 복잡한 임무도 자연스럽게 수평형 에이전트로 처리
b. 기업들은 주니어급 채용을 대폭 줄이고, 일부는 대규모 감원까지 단행. 단, 이론적 성능 대비 도입 속도는 느릴 수 있음
c. 최초의 1인(One-person) 유니콘 기업이 등장
(8) 기존 소프트웨어는 에이전트를 위한 인터페이스로 잔존 가치를 유지합니다. 이론상 에이전트가 필요한 소프트웨어를 직접 만들 수도 있지만, 에이전트를 계속 돌리는 비용이 크기에 현존 소프트웨어를 쓰는 게 실용적일 경우가 많습니다. 단, 기존 소프트웨어도 무료는 아닙니다. 오히려 전통적인 수평 소프트웨어가 살아남을 확률이 가장 높다고 생각합니다. 왜냐하면 에이전트 운영비는 인간보다는 훨씬 저렴하나, "에이전트를 쓰는 게 인간 시간을 아끼기 위해 전문 툴을 사는 것처럼 경제적으로 의미가 있는가"는 불확실하니까요.
(9) 결국 살아남는 수직 AI 앱은 2장에서 다룬 "방어 가능한 자원(defensible resource)"을 확보한 극소수뿐일 겁니다. 이들은 이 자원을 고가에 매각할 수도 있겠죠.
이 예측은 AI가 계속 발전할 것이라는 가정 하에 성립합니다. 곧 이 가정이 타당한지 논의하겠지만, 먼저 "계속된다"는 표현을 왜 썼는지 설명하죠. 많은 사람들이 "모델이 이미 정체됐다"고 주장합니다. 2024년 내내 GPT-4를 능가하는 눈에 띄는 발전이 없었다는 것이죠. 사실 12월 o3가 등장하기 전까지는 이런 이야기가 꽤 많았던 것 같습니다. Figure 2는 유명한 ARC-AGI 벤치마크에서 AI 성능이 시간 경과에 따라 어떻게 바뀌었는지 보여줍니다. 여러분이 직접 보고 판단해보시길 바랍니다.
Figure 2: ARC-AGI 벤치마크 상 성능 변화
o3가 없었더라도 2024년에 모델이 정체됐다는 주장은 터무니없다고 생각합니다. 사실 o3의 등장은 제 예측에 전혀 영향을 주지 않았습니다[1]. 결정적 혁신은 o1(역주: OpenAI o1 모델)에서 이미 일어난 셈이고, 역시 2024년에 출시된 것입니다. 아마도 테스트 시간 연산량(Compute)이 놀랍지 않을 수도 있습니다. 에이전트에 쓰기엔 너무 비싸니까요. 하지만 올해 초만 해도 GPT-4 turbo는 텍스트와 이미지까지만 지원됐습니다. 이후 OpenAI는 오디오·비디오까지 가능한 GPT-4o를 내놨죠. 출시 초기엔 GPT-4 대비 큰 지능 차이가 없었지만, 이후 단계적으로 성능이 많이 올라갔습니다. 이처럼 얼마나 더 좋아졌는지 잊기 쉽습니다.
2024년은 오픈 웨이트(공개 가중치) 모델에서도 큰 발전이 있었습니다. 박사급 과학질문 벤치마크에서, 연초에는 거의 랜덤 추측 수준이던 베스트 모델이, 7월에는 인간 전문가 수준에 절반 다가섰고, 연말엔 Deep Seek V3가 또 한 번 도약했습니다. 2023년엔 25-29(+4), 2024년엔 29-59(+20)로 올랐습니다.
Figure 3: GPQA Diamond에서의 오픈 웨이트 모델 성능
그러나 2024년 발전의 최대 공신은 Anthropic이었습니다. 연초 Claude 2(사실상 무쓸모)에서, 3월엔 Claude 3(State of the art), 6월엔 Claude 3.5 Sonnet(또 한 번 큰 도약)이 나왔습니다. Figure 4로 미뤄볼 때, 2024년 봄이 지금까지 기반 모델 진보가 가장 많았던 기간 같습니다. 그럼 가을은 어떨까요? Anthropic은 연말까지 Claude 3.5 Opus를 내놓겠다고 했지만 조용히 홈페이지에서 내렸습니다. 혹시 훈련이 "실패"했을까요? 진실은 Anthropic만 알지만, 많은 이들은 실패가 아니라, 공개하는 것의 경제적 이득이 없었기에 모델을 공개하지 않고 Claude 3.5 Sonnet의 합성 데이터를 뽑는 데 썼다는 분석을 내놨죠. 실제로 Sonnet은 10월에 또 업그레이드됐습니다. 이것이 모델 발전 정체라고 할 순 없습니다.
Figure 4: 최첨단 모델들의 벤치마크 집합 성적 변화
이 타임라인은 제 최선의 추정이나, 여러 변수로 경로가 달라질 수 있습니다. 주요 변수는:
모델 정체
2024년은 모델 정체의 해가 아니었으나, 2025년은 어떨까요? Ilya Sutskever는 NeurIPS 2024에서 프리트레이닝 스케일링(사전학습 확장)이 한계에 닿았다고 발표했습니다. 이 말은 AI 학습 전반이 한계란 뜻으로 많이 곡해됐으나, 사실 그는 "프리트레이닝에 한함"이라고 밝혔죠. 테스트 타임 compute(o1처럼) 등 다른 길이 여전히 있음을 말했습니다. 그리고 실제로 o3가 나오며 확실히 사전학습 외에도 발전할 길이 있음을 보였습니다.
또, Dylan Patel은 여기서 AI 업계 선두 기업들이 컴퓨팅 인프라에 역대 최고 투자세를 보이고 있어, "스케일링 법칙은 여전히 유효하다"고 말합니다. 심지어 언어모델 회의론자 Yann LeCun조차 최근 기조를 바꿨습니다. 12월에 그는 초지능이 "아주 멀긴 한데, 수 백년이 아니라, 수십년도 아닐 수 있고, 수 년 안일지도 모른다"라고 말했습니다(영상).
Figure 5: Illya Sutskever의 NeurIPS 2024 강연
규제
현행 규제안은 AI 발전을 눈에 띄게 늦출 가능성이 낮아 보입니다(참고: 저는 전문가가 아님). 대부분 소극적 규제이며, 이마저 도입에 난항이 많았습니다. 다만 한 번이라도 AI로 인한 큰 사회적 사고가 터진다면 여론이 급변하여 정치인들이 훨씬 더 적극적 개입을 할 수 있습니다.
신뢰 장벽
지금은 AI의 할루시네이션(환각)에 불안감을 보이지만, 언젠가 에이전트의 자율적 행동 자체에 대한 광범위한 신뢰장벽이 논란이 될 수 있습니다. 위 예측에도 초기 저항을 일부 감안하였으나, 시간이 지나면 이런 장벽도 희미해질 것입니다. 엘리베이터 무인운전이 처음엔 사람들이 무서워했던 사례처럼요. AI 에이전트도 초기 의심, 점진적 신뢰 획득을 거쳐 대중화될 겁니다.
AI 랩들의 주저
현 Claude 컴퓨터 활용은 유저가 계정정보를 줘도 웹사이트 로그인은 거부합니다. 이렇듯, 비록 2027년이 되면 기술적으로 가능하더라도, 랩들이 일부 소프트웨어 상호작용 권한을 제한할 수도 있습니다.
비싼 추론 비용(Inference)
OpenAI의 o3가 입증했듯, 특정 문제에 대해 막대한 인퍼런스 비용만 쓴다면 실제로 더 나은 결과를 얻을 수 있습니다. 예컨대 ARC 벤치마크 문제 하나 푸는 데 수천 달러가 듭니다. Paul Buchheit의 이론처럼(아래 Figure 6), 모든 수직 시장에서 돌아가는 수평형 에이전트가 기능은 되지만, 실제론 운영비 때문에 곤란할 수도 있습니다. 하지만 지금까지는 인퍼런스 비용이 꾸준히 하락해왔고, 모든 행동에서 "최대 인퍼런스 컴퓨트"를 쓰진 않을 것입니다.
Figure 6: Paul Buchheit의 트윗
기술 변화 예측은 원래 매우 어려운 일입니다. 위에서 말한 여러 걸림돌이 전체 타임라인을 송두리째 바꿀 수도 있습니다. 하지만 이 궤도가 맞다면, AI 애플리케이션 레이어의 스타트업은 어렵고 도전적인 환경에 처할 것입니다. 수평형 제품은 AI 랩들과의 경쟁에서 승산이 약하고, 수직 앱을 통한 가치 창출의 창도 매우 짧을 것입니다. Figure 7에서 보듯, 이 시장 내 스타트업의 합산 가치는 한때 올랐다가(초기 엔지니어링 노력으로 가치 창출), 곧 더 나은 모델로 엔지니어링 효용이 사라지며 역 U자 곡선을 그릴 것으로 봅니다.
Figure 7: AI 애플리케이션 레이어 스타트업의 가치 변화 전망, 3단계로 구분
창업자들에게 결론이 암울하게 느껴질 수 있습니다. 1,2장에 이런 식의 댓글을 많이 받았습니다 — "그럼 포기해야 하나요?". 하지만 제 주장은 결코 그렇지 않습니다. 세상엔 아직도 풀 문제가 무수히 많고, AI 앱만이 창업의 답은 아닙니다. 다음 스텝을 고민하는 창업자라면 이런 질문도 던질 수 있겠죠: 수직 앱을 만들면 장기적으로 전략적 거점(Strategic Positioning)이 될 수 있나? 그렇지 않다면, 또 무엇을 만들까? 4장에서 이 문제를 더 다루겠습니다!
노트:
[1] o3의 등장은 제 타임라인 예측을 바꾸지 않았습니다. 우리는 테스트 타임 Compute 확장에 의미 있는 이득이 있음을 이미 알았습니다. “Let's verify step by step” 논문이 2023년에 이를 증명했고, o1에서 구체적으로 실현됐죠. 한 번의 0→1 혁신(즉 초창기 버전)이 마지막 판일 리는 없습니다. AlphaZero 시리즈 역시 검증 가능한 영역에서는 ML이 매우 빠르게 인간을 뛰어넘는다는 걸 보여줬습니다. o1이 그 영역이 코딩/수학(자연어로 조작 가능한 Action space)도 포함한다는 걸 증명한 셈이고요. 반면, o1은 창의적 라이팅 같은 분야엔 강하지 않습니다. o3가 o1보다 훨씬 더 범용적이란 증거도 없습니다.
이 게시물은 Axel Backlund와의 논의를 바탕으로 작성되었습니다.