AI 발전의 진정한 원동력은 혁신적인 아이디어가 아니라, 확장되는 데이터셋임을 논하는 글. 연구와 시스템 혁신보다도 새로운 데이터 소스의 도입이 패러다임의 전환을 어떻게 이끌어왔는지 분석한다.
대부분의 사람들은 지난 15년간—특히 최근 5년 동안—AI가 믿을 수 없을 정도로 발전해왔다는 것을 알고 있다. 이러한 발전이 불가피 했던 것처럼 느껴질 수도 있다. 큰 패러다임 전환이 드물긴 하지만, 우리는 어쨌든 느리고 꾸준한 진전의 흐름 속에서 앞으로 나아가고 있다. 실제로 최근 몇몇 연구자들은 컴퓨터의 특정 능력(이 경우 특정 종류의 코딩 작업)이 시간이 지남에 따라 기하급수적으로 증가한다고 보며 “AI의 무어의 법칙”을 선언하기도 한다.
제안된 “AI의 무어의 법칙”. (2025년 4월 기준으로 개입 없이 1시간 동안 자율 에이전트를 운용할 수 있다고 믿는 사람은 자기기만 중이라고 말하고 싶다)
나는 여러 이유로 이 프레이밍에 전적으로 동의하지 않지만, 발전의 트렌드는 부정할 수 없다. 매년 우리 AI는 조금 더 똑똑해지고, 조금 더 빨라지며, 조금 더 저렴해진다. 끝이 보이지 않는다.
대부분의 사람들은 이러한 지속적인 개선이 학계(MIT, 스탠퍼드, CMU 등)와 산업계(Meta, Google, 일부 중국 연구소 및 기타 잘 알려지지 않은 기관)에서 나오는 안정적인 아이디어 공급으로 이루어진다고 생각한다.
실제로 특히 시스템 분야에서는 많은 연구 덕분에 발전이 있었다. 이는 특히 모델을 저렴하게 만드는 방법과 직결된다. 최근 몇 년간 주목할 만한 예시들을 골라보자면:
이렇듯 우리는 분명 무언가를 계속 알아내고 있다. 실제로는 그보다 더 멋진 일이다: 우리는 arXiv, 컨퍼런스, 소셜 미디어에서 발견을 공개적으로 공유하고, 매달 조금씩 더 똑똑해지는 전 지구적, 분산적 과학 실험에 동참 중이다.
이렇게 중요한 연구가 계속되는데도 왜 일부에서는 "진전이 느려지고 있다"고 주장할까? 여전히 불만이 많다. 최근 출시된 Grok 3와 GPT-4.5는 전작대비 개선 폭이 미미했다. 최신 수학 올림피아드 시험에서 언어모델이 평가될 때 5%의 점수만 받는 등, 최근 발표된 시스템 능력이 과장된 것 아니냐는 지적도 있다.
그리고 정말 큰 패러다임 전환—즉 진짜 돌파구—들을 연대기로 살펴보면, 그 속도는 다르다. 생각나는 몇 가지를 정리해보자:
이 네 가지(DNNs → 트랜스포머 LLM → RLHF → Reasoning)가 AI에서 벌어진 모든 주요 사건을 요약한다고 볼 수도 있다. 우리는 처음엔 이미지 인식 시스템(딥 뉴럴넷)을, 그다음엔 텍스트 분류기, 그 다음엔 챗봇, 지금은 추론 모델(정확히 뭐든지 간에)을 갖게 되었다.
만약 다섯 번째 돌파구를 만들고자 한다면, 먼저 기존 네 개 사례를 연구해볼 필요가 있다. 이들을 촉발한 진짜 혁신적인 연구 아이디어란 무엇이었을까?
사실 이러한 돌파구의 근본 원리는 1990년대, 그 이전에도 이미 존재했다고 할 만하다. 우리는 비교적 단순한 신경망 구조를 적용했고 감독학습(1, 2) 또는 강화학습(3, 4)을 적용해 왔다.
(크로스 엔트로피를 통한) 감독학습, 즉 언어모델 사전학습의 핵심은 1940년대 클로드 섀넌의 연구에서 기원한다.
강화학습—RLHF 및 Reasoning 훈련 시 사용하는 사후학습의 핵심—은 그보단 조금 더 새롭다. 1992년 정책 기울기(policy-gradient) 방법 도입으로 거슬러 올라갈 수 있고, 1998년 Sutton&Barto의 “Reinforcement Learning” 초판에도 당연히 실려있다.
요약하면, 이들 “주요 돌파구”는 이미 오래전부터 알아온 것을 새롭게 적용한 예다. 이는 다음 돌파구(위에서 말한 “비밀의 다섯 번째”)에 대한 중요한 함의를 준다. 그 혁신은 완전히 새로운 아이디어라기보다는, 이미 알고 있던 무언가의 재현일 가능성이 높다.
하지만 한 가지 빠진 점이 있다: 이 네 번의 돌파구 각각 새로운 데이터 소스로부터 배울 수 있게 해주었다는 것이다.
각각의 이정표는 해당 데이터 소스(ImageNet, 웹, 인간, 검증자)를 대규모로 활용한 첫 시점을 의미한다. 이때마다 남은 모든 유용한 데이터를 최대한 빨아들이고, 시스템을 효율적으로 만들어 데이터를 더 잘 쓰는 신기술 경쟁이 벌어진다(2025~2026년에는 Reasoning 모델에서 검증 가능한 데이터를 어떻게든 찾아내 카테고라이즈하고 검증받으려는 경쟁이 벌어질 것이다).
AI의 진보는 우리가 ImageNet을 수집했을 때 이미 불가피했을지 모른다. 당시 웹에서 수집한 공개 이미지 데이터 최대 규모였다.
실제로 보면, 핵심 기술 혁신이 없었다고 해도 큰 차이가 없었을 수도 있다. AlexNet이 등장하지 않았다면, 이미지넷에 적합한 다른 구조가 나왔겠지. 트랜스포머를 발견하지 않았다면, LSTM이나 SSM 같은 것으로 웹에서 쓸만한 데이터를 학습하는 방법을 어떻게든 찾아냈을 터다.
이건 결국 진짜로 데이터만 중요하다는 주장과 맞닿는다. 많은 연구자들이 학습 기법, 모델링 트릭, 하이퍼파라미터 조정 등 별별 노력을 다해도 결과를 가장 크게 바꾸는 것은 결국 데이터라는 사실을 지적해왔다.
특히, 일부 연구자들은 트랜스포머가 아닌 구조로 BERT류 모델 만들기에 매진했다. 1년 넘게 수백 가지 구조를 트윅했지만, 같은 데이터를 쓰면 결국 트랜스포머와 거의 동등한 성능만 냈다(여기서 쓴 건 SSM, state-space model).
이 등가성 발견은 꽤나 의미심장하다. 주어진 데이터셋에서 배울 수 있는 것에는 _상한선_이 있다는, 즉 아무리 학습법을 바꿔도 데이터셋이 가진 정보 한계 이상은 못 넘는다는 뜻이다.
아마도 새로운 아이디어에 대한 무관심은 The Bitter Lesson에서 깨달았어야 할 교훈이었을지 모른다. 정말 데이터만 중요하다면, 왜 전체 인원의 95%는 새로운 방법 연구에 집중할까?
결국 다음 패러다임 시프트는 RL 개선이나 새 신경망 구조가 아닌, 우리가 아직 접근하지 못했거나 제대로 활용하지 못한 새로운 데이터 소스가 열릴 때 일어날 것이다.
한 가지 분명한 후보는 영상 데이터다. 이 웹사이트에 따르면, 유튜브에는 초당 500시간 분량의 영상이 새롭게 올라온다. 텍스트로 된 모든 인터넷보다 훨씬 방대한 규모다. 영상은 단순한 문장뿐만 아니라 어조, 물리, 문화 등 텍스트로는 도저히 알 수 없는 풍부한 정보를 담고 있다.
따라서 컴퓨팅 파워가 충분히 좋아지거나 모델이 충분히 효율적이 되면, 구글은 유튜브 데이터 전체로 대규모 모델을 학습시킬 것이다(유튜브는 구글 자산이다!).
마지막 후보는, 실제 실체화된 데이터를 모으는 시스템, 즉 로봇이다. 우리는 지금 로봇의 카메라나 센서에서 얻은 막대한 정보를 GPU에서 대모델 학습에 맞게 활용할 수 있는 역량이 없다. 더 똑똑한 센서를 만들거나 컴퓨터를 키울 수 있으면, 이 데이터 또한 유리하게 사용할 수 있을 것이다.
다음 AI 대혁신이 유튜브, 로봇, 아니면 전혀 다른 무엇에서 나올지는 아무도 모른다. 우리는 지금 텍스트 언어모델 진영에 깊게 들어가 있으나, 동시에 텍스트 데이터 소진도 임박했다. AI 분야에서 더 나아가고 싶다면, 이제는 새로운 아이디어를 찾는 대신 새로운 데이터를 찾아야 할 때다.