AI 에이전트 시장에서 성과가 불균형하게 나타나는 이유는 기술 난이도나 채택 용이성 자체가 아니라, 결국 데이터가 만들어내는 방어력(해자)에 달려 있다.
이론적으로는 지금쯤 우리 삶의 모든 문제마다 뛰어난 AI 에이전트가 하나씩 있어야 한다. 인재도 있고, 자본은 더더욱 있고, 모델은 점점 더 유능해지고 있다. 그런데 결과는 한쪽으로 치우쳐 있다. 영업 리드를 발굴하거나 고객 지원 티켓에 정확히 답하는 에이전트는 있는데, 왜 고품질 슬라이드는 꾸준히 만들어내지 못할까?
가장 단순한 설명은 ‘복잡성’일 수 있다. 더 쉬운 문제(예: 지원 문의 답변)가 자연스럽게 먼저 풀리고, 슬라이드 생성처럼 더 개방형인 문제는 더 많은 노력이 필요하다는 이야기다. 하지만 이 설명은 완전히 들어맞지 않는다. 코딩은 분명 쉬운 적용 분야가 아닌데도, 코딩 에이전트는 오늘날 우리가 가진 에이전트 중 가장 뛰어난 축에 속한다. 사실, 단일 에이전트 활용 사례 중에서도 개선 속도가 가장 빠르다.
어떻게 이런 일이 가능했을까? 채택이 쉬웠기 때문에 대규모 데이터 수집이 가능했고, 그 데이터가 코딩 에이전트를 빠르게 개선시키는 선순환을 만들었다. 모든 개발자는 승인 없이도 5분 만에 Cursor로 갈아탈 수 있었다. 그 결과 데이터 플라이휠(아래에서 더 설명)이 생겼고, Cursor 팀은 시간이 지날수록 더 나은 애플리케이션 경험을 만들 수 있었다. 지금은 우리 팀 전체가 코드 생성을 위해 Cursor의 Composer 모델을 굳게 신뢰할 정도다.
기술적 복잡성과 채택 난이도를 조합하면 흥미로운 2x2가 나온다:
‘채택이 쉬운’ 사분면 중 하나에 속하는 것이 성배라고 생각하고 싶을지도 모른다. 결국 더 나은 모델을 만들려면 더 많은 데이터가 필요하지 않은가? 물론 그런 방식으로 비즈니스를 만들 수 있다. 하지만 함정은 채택이 쉽다는 것은 대체도 쉽다는 것이다. 채택이 어려운 제품은 자체적인 데이터 해자를 가진다. 일단 기업에 깊게 내장되면, 그 기업이 어떻게 돌아가는지에 대한 학습이 쌓이고, 그 때문에 제품을 바꾸기 매우 어려워진다.
어느 사분면에 있든, 데이터만이 당신의 해자다.
‘풀기 쉽고 채택도 쉬운’ 사분면은 가장 뻔하게 공략하기 좋은 곳이다. 2023년만 해도, 구글의 소비자 검색이 사용자 질문마다 맞춤형 답변(재미있는 사실 찾기부터 의료 조언까지)으로 대체될 거라는 전망에는 대단한 통찰이 필요하지 않았다. 이 영역은 파운데이션 모델 제공자들의 주력 사용 사례가 되었고, Perplexity, You.com 같은 신규 진입자들도 이쪽으로 몰려들었다.
하지만 ‘풀기 쉽고 채택도 쉬운’ 사분면은 가치 함정(value trap) 이다. 당신에게 진입장벽이 낮다면, 프런티어 랩에게는 진입장벽이 아예 없거나(혹은 이미 만들어 둔 경우가 더 많다) 마찬가지다. 게다가 이런 ‘뻔한’ 사용 사례는 기존 챗 애플리케이션에서 사용량이 가장 많이 나오는 영역이기도 하다. 즉 어떤 사용 사례든 OpenAI, Google, Anthropic은 해당 영역을 개선하기 위한 수백만 개의 데이터 포인트를 모으고 있다. 지난주 공개된 ChatGPT Health는 이 방향에서 자연스러운 다음 단계처럼 보인다.
데이터 접근성뿐 아니라, 모델 제공자는 비용을 보조할 수 있고, 방대한 사용자 기반을 활용해 새로운 애플리케이션 영역도 빠르게 학습할 수 있다. 요컨대 당신은 높은 확률로 모델 제공자에게 짓눌릴 것이다.
흥미로운 곁가지로, 이 사분면에서는 충성도가 꽤 낮다. 우리는 사용 사례에 따라 여러 챗 에이전트를 번갈아 사용하며, 웹 검색 시장과 달리 누구나 비교적 비슷한 출발선에 서 있는 듯 보인다. 만약 지배적인 브랜드 리더가 등장한다면, 우리는 모델 제공자 쪽에 베팅하겠다.
겉보기에는 가장 어려운 문제 중 하나인 코딩이 왜 이렇게 빠르게 진전됐을까? 가장 중요한 이유는 채택이 쉬웠기 때문이다. 2023년에도 ChatGPT에 코드 스니펫을 붙여 넣기만 해도 큰 가치를 얻을 수 있었고, Cursor는 초기에 품질이 제한적이었음에도 그 과정을 훨씬 더 쉽게 만들었다. 대개 엔지니어는 자신의 IDE를 선택할 자유가 있으므로, IntelliJ나 VSCode에서 Cursor로 바꾸는 일은 큰 부담이 아니었다.
설치된 뒤에는 피드백 루프도 매우 빨랐다. 소프트웨어 엔지니어는 하루에 수십~수백 번 Cursor로 코드를 생성할 수 있다. 이게 데이터 플라이휠을 만들었다. 채택/거절된 제안 하나하나가 미래 모델 개선을 위한 학습 데이터가 된다. 이런 데이터가 확보되면 시간이 지날수록 모델 품질이 극적으로 좋아지는 것은 사실상 필연이다.
특히 같은 사분면에 있는 다른 시장(예: 슬라이드 생성)은 이런 수준의 미세하고 빈번한 피드백 루프가 없어서 개선이 훨씬 느렸다.
‘풀기 어려운’ 범주의 무엇이든 상당한 투자가 필요하다. 토큰 사용량, 기술 인재, 그리고 결국에는 모델 학습과 RL까지. 채택이 쉬우면 그 깊은 투자를 가능케 하는 강력한 데이터 수집 플라이휠이 생긴다.
프런티어 모델 랩은 이런 대중적으로 널리 쓰이는 생산성 에이전트를 자신들의 영역으로 보는 듯하다. 이미 코딩 에이전트를 두고 치열하게 경쟁하고 있고, 기존 문서 편집기를 넘어 오피스 스위트 생산성 도구를 더 출시하더라도 놀랍지 않을 것이다. 즉, 이 시장은 헤비급 싸움이 될 가능성이 크며, 작은 플레이어는 막대한 자본 지출 없이 경쟁하기 어렵다.
다만 이 영역에서도 락인(stickiness)은 여전히 낮다. 우리 중 많은 사람이 여러 코딩 에이전트를 함께 쓰고, 오피스 생산성 도구가 좋아지면 더 예쁜 슬라이드를 만들어주는 앱으로 옮기지 않을 이유가 없다. 락인의 논거는 회사별 커스터마이징(예: Cursor 규칙, 브랜드 템플릿)이지만, 상호운용성이나 단일 표준이 등장해 마이그레이션을 쉽게 만들 가능성도 있다.
지난 2년간 엔터프라이즈 AI 도입이 본격적으로 폭발한 영역이 여기에 해당한다. ‘풀기 쉽다’고 해서 제품 깊이가 없다는 뜻은 아니다. 다만 LLM이 이커머스 반품이나 비밀번호 재설정 같은 플레이북을 실행하는 모습은 쉽게 상상할 수 있다. 대부분의 기업은 AI에서 성과를 원하기 때문에, 즉시 도입 가능한 ‘뻔한’ 문제를 먼저 택해왔다. 그 덕분에 이 시장 리더들은 놀라운 속도로 매출을 성장시켰다.
이 사분면을 구분 짓는 핵심은 두 가지다. 첫째, 제품은 개인이 마음대로 도입할 수 없다. 지원 티켓이나 IT 헬프데스크 요청을 처리하는 에이전트를 사는 일은 조직 차원의 결정이며, 보통 구매 위원회가 개입한다. 둘째, 사용 사례의 상대적 단순함은 엔터프라이즈 통합의 어렵고 지루한 현실에 의해 상쇄된다. 레거시 시스템을 다룰 수 있는 팀은 압도적인 우위를 가진다.
이 통합 스토리 자체가 데이터 해자다. 이런 에이전트에서 나오는 데이터는 범용성이 떨어지고, 기업은 이를 모델 학습에 쓰는 것을 제한할 가능성이 크다. 그럼에도 당신은 각 고객사가 어떻게 일하는지에 대한 데이터를 쌓는다. 시간이 지날수록 제품 전체가 개선되기도 하지만, 무엇보다 각 고객에 대해 제품의 락인이 강해진다. 다음에 등장하는 에이전트는 그 학습된 전문성을 재현하기 어렵다.
이 영역에서 투자자들은 큰 스타트업들을 사실상의 기존 강자(de facto incumbents)로 대한다. 남은 혁신이 없다는 뜻은 아니다. 분명 있을 것이다. 다만 더 작은 스타트업이 Sierra나 Decagon 같은 회사와 경쟁할 수 있는 이유가 무엇인지가 즉각적으로 명확하진 않다. 또한 이들이 조달하는 자본이 주로 GTM에 쓰이는지, 아니면 코딩 특화 모델처럼 분명한 기술적 해자가 만들어지고 있는지는 불분명하다. 만약 전자뿐이라면, 스타트업은 비용 경쟁으로 내몰릴 수 있다.
예시 앱: SRE, 보안 운영(Security Ops)
‘채택도 어렵고 풀기도 어려운’ 문제는 네 사분면 중 (상대적으로) 가장 관심을 덜 받았다. 복잡한 엔지니어링/운영 워크플로를 해결했을 때의 잠재 가치는 매우 크다. 보통 사람이 몇 시간~며칠 걸리는 작업이기 때문이다. 하지만 이런 워크플로는 회사마다 커스터마이즈되어 있어, 평가와 구현이 ‘풀기 쉽고 채택이 어려운’ 제품보다 훨씬 번거롭다.
우리는 어려움-어려움 사분면에 베팅했고, 여기서 다음 성장 국면이 나올 것이라 본다. 어려움-어려움 시장은 앞으로 1~2년 안에 몇 가지 이유로 매우 빠르게 성장할 것이다. 첫째, 추론 모델이 이제 더 복잡한 작업을 처리하기 위한 계획 수립이 가능해져, 다단계 해법을 다루는 데 도움이 된다. 둘째, 문제를 푸는 복잡성의 상당 부분은 AI 바깥 단계(워크플로 구축 및 설정)에서 오는데, 코딩 에이전트가 더 좋아지면 이 작업이 더 쉽고 빨라질 것이다. 셋째, 기업들은 이미 손쉬운 과제를 적극적으로 수확 중이며, 그것들이 고갈되면 더 어려운 문제로 눈을 돌릴 것이다.
이 영역의 데이터 해자는 가장 복잡하며 잠재적으로 가장 가치가 크다. 한 회사의 워크플로에 대한 전문성이 쌓이면 복제하기가 매우 어렵다. 제품 교체는 숙련된 엔지니어를 해고하고 새 사람으로 바꾸는 것과 비슷해진다. AWS에 정통한 SRE 에이전트처럼 핵심 역량에 대한 전문성을 쌓을 기회도 있을 수 있다. 다만 코딩 에이전트 때처럼 개선 사이클이 빠르긴 어려운데, 데이터 양이 적고 검증 가능성이 더 낮기 때문이다.
이 시장의 각 영역에는 천문학적인 자금을 조달한 회사가 하나씩 존재하곤 하는데(종종 매출 성장보다 한참 앞선 수준으로), 우리는 이 회사들이 ‘풀기 쉽고 채택이 어려운’ 범주의 대응 회사들만큼 단단히 자리 잡았다고 보긴 어렵다. 이 시장은 아직도 긴 게임이 남아 있다.
이 지도는 고정된 것이 아니다. 두 축의 경계 모두 바뀔 수 있다. 복잡성 측면에서 우리는 몇 달마다 모델 역량이 극적으로 개선되는 것을 봐왔다. 하지만 모델 개선이 정체되는 듯 보이기도 해서, 이 축에 대한 관심은 줄고 있다.
진짜 흥미는 UX에 있다. 우리는 AI 애플리케이션의 UX 측면이 아직 충분히 탐구되지 않았다고 오래전부터 믿어왔다. 사용자가 제품을 채택하는 방식을 바꿔버리는 새로운 UX 패러다임이 등장하더라도 놀랍지 않다. 최근 가장 좋은 예는 웹에서의 Claude Code다. 코딩 에이전트를 웹 브라우저에서 누구나 쓸 수 있게 함으로써, IDE나 터미널 때문에 겁먹을 사용자들도 이런 도구에 접근할 수 있게 만들었다.
어떤 경로를 택하든, 우리는 앞으로 12~24개월 사이에 어려움-어려움 사분면에서 승자가 부상할 것이라 본다. Sierra와 Decagon의 성장만큼 매끈하진 않을 것이다. 평가 사이클이 더 길고, 구현은 더 복잡하며, 전체 성공률도 더 낮을 가능성이 크다. 하지만 기업들이 프로세스를 개선하고 데이터가 더 나은 모델을 가능케 하면서, 이 영역에서 막대한 매출이 만들어질 수 있다.