AI에는 새로운 아이디어가 없다... 오직 새로운 데이터셋만 있을 뿐이다

ko생성일: 2025. 7. 15.갱신일: 2025. 7. 23.

AI 발전의 진정한 원동력은 혁신적인 아이디어가 아니라, 확장되는 데이터셋임을 논하는 글. 연구와 시스템 혁신보다도 새로운 데이터 소스의 도입이 패러다임의 전환을 어떻게 이끌어왔는지 분석한다.

AI에는 새로운 아이디어가 없다… 오직 새로운 데이터셋만 있을 뿐이다

대부분의 사람들은 지난 15년간—특히 최근 5년 동안—AI가 믿을 수 없을 정도로 발전해왔다는 것을 알고 있다. 이러한 발전이 불가피 했던 것처럼 느껴질 수도 있다. 큰 패러다임 전환이 드물긴 하지만, 우리는 어쨌든 느리고 꾸준한 진전의 흐름 속에서 앞으로 나아가고 있다. 실제로 최근 몇몇 연구자들은 컴퓨터의 특정 능력(이 경우 특정 종류의 코딩 작업)이 시간이 지남에 따라 기하급수적으로 증가한다고 보며 “AI의 무어의 법칙”을 선언하기도 한다.

이미지 1: AI가 수행할 수 있는 작업의 길이가 7개월마다 두 배로 증가

제안된 “AI의 무어의 법칙”. (2025년 4월 기준으로 개입 없이 1시간 동안 자율 에이전트를 운용할 수 있다고 믿는 사람은 자기기만 중이라고 말하고 싶다)

나는 여러 이유로 이 프레이밍에 전적으로 동의하지 않지만, 발전의 트렌드는 부정할 수 없다. 매년 우리 AI는 조금 더 똑똑해지고, 조금 더 빨라지며, 조금 더 저렴해진다. 끝이 보이지 않는다.

대부분의 사람들은 이러한 지속적인 개선이 학계(MIT, 스탠퍼드, CMU 등)와 산업계(Meta, Google, 일부 중국 연구소 및 기타 잘 알려지지 않은 기관)에서 나오는 안정적인 아이디어 공급으로 이루어진다고 생각한다.

실제로 특히 시스템 분야에서는 많은 연구 덕분에 발전이 있었다. 이는 특히 모델을 저렴하게 만드는 방법과 직결된다. 최근 몇 년간 주목할 만한 예시들을 골라보자면:

  • 2022년 스탠퍼드 연구진이 FlashAttention)을 도입해, 모든 곳에서 사용되는 언어모델 메모리 활용 효율화를 가져왔다
  • 2023년 Google에서 speculative decoding를 개발해 모든 모델 제공자가 추론 속도 향상에 사용(동시에 DeepMind에서도 개발되었음)
  • 2024년 인터넷 커뮤니티의 팬들이 Muon이라는 새로운 옵티마이저를 개발, 앞으로 언어모델의 학습법이 될 가능성 있음 (SGD, Adam보다 나음)
  • 2025년 DeepSeek이 DeepSeek-R1이라는 오픈소스 모델을 발표, 닫힌 AI 연구소(구글, 오픈AI) 모델에 필적하는 추론 능력을 공개함

이렇듯 우리는 분명 무언가를 계속 알아내고 있다. 실제로는 그보다 더 멋진 일이다: 우리는 arXiv, 컨퍼런스, 소셜 미디어에서 발견을 공개적으로 공유하고, 매달 조금씩 더 똑똑해지는 전 지구적, 분산적 과학 실험에 동참 중이다.

이렇게 중요한 연구가 계속되는데도 왜 일부에서는 "진전이 느려지고 있다"고 주장할까? 여전히 불만이 많다. 최근 출시된 Grok 3GPT-4.5는 전작대비 개선 폭이 미미했다. 최신 수학 올림피아드 시험에서 언어모델이 평가될 때 5%의 점수만 받는 등, 최근 발표된 시스템 능력이 과장된 것 아니냐는 지적도 있다.

그리고 정말 패러다임 전환—즉 진짜 돌파구—들을 연대기로 살펴보면, 그 속도는 다르다. 생각나는 몇 가지를 정리해보자:

  1. 딥 뉴럴 네트워크(DNN): 2012년 AlexNet 모델이 이미지 인식 대회에서 우승하며 본격화됨
  2. 트랜스포머 + LLM: 2017년 구글이 Attention Is All You Need에서 트랜스포머 제안, 이어서 BERT (구글, 2018), GPT(오픈AI, 2018) 등장
  3. RLHF(인간 피드백 강화학습): 2022년 오픈AI의 InstructGPT 논문에서 제안됨(내가 알기로는)
  4. 추론(Reasoning): 2024년 오픈AI가 O1 발표, DeepSeek R1로 이어짐

이 네 가지(DNNs → 트랜스포머 LLM → RLHF → Reasoning)가 AI에서 벌어진 모든 주요 사건을 요약한다고 볼 수도 있다. 우리는 처음엔 이미지 인식 시스템(딥 뉴럴넷)을, 그다음엔 텍스트 분류기, 그 다음엔 챗봇, 지금은 추론 모델(정확히 뭐든지 간에)을 갖게 되었다.

만약 다섯 번째 돌파구를 만들고자 한다면, 먼저 기존 네 개 사례를 연구해볼 필요가 있다. 이들을 촉발한 진짜 혁신적인 연구 아이디어란 무엇이었을까?

사실 이러한 돌파구의 근본 원리는 1990년대, 그 이전에도 이미 존재했다고 할 만하다. 우리는 비교적 단순한 신경망 구조를 적용했고 감독학습(1, 2) 또는 강화학습(3, 4)을 적용해 왔다.

(크로스 엔트로피를 통한) 감독학습, 즉 언어모델 사전학습의 핵심은 1940년대 클로드 섀넌의 연구에서 기원한다.

강화학습—RLHF 및 Reasoning 훈련 시 사용하는 사후학습의 핵심—은 그보단 조금 더 새롭다. 1992년 정책 기울기(policy-gradient) 방법 도입으로 거슬러 올라갈 수 있고, 1998년 Sutton&Barto의 “Reinforcement Learning” 초판에도 당연히 실려있다.

요약하면, 이들 “주요 돌파구”는 이미 오래전부터 알아온 것을 새롭게 적용한 예다. 이는 다음 돌파구(위에서 말한 “비밀의 다섯 번째”)에 대한 중요한 함의를 준다. 그 혁신은 완전히 새로운 아이디어라기보다는, 이미 알고 있던 무언가의 재현일 가능성이 높다.

하지만 한 가지 빠진 점이 있다: 이 네 번의 돌파구 각각 새로운 데이터 소스로부터 배울 수 있게 해주었다는 것이다.

  1. AlexNet과 그 후속작들은 15년간 컴퓨터 비전 발전을 이끈 대규모 이미지 레이블 데이터베이스 [ImageNet](http://(https//www.image-net.org/)을 열었다.
  2. 트랜스포머는 “인터넷” 전체 텍스트를 다운로드, 분류, 파싱하여 전체 학습 경쟁을 불러왔다(그리고 거의 다 했다는 주장도 있음)
  3. RLHF는 “좋은 텍스트”가 무엇인지 인간의 라벨에서 배울 수 있게 해주었다(대부분 직감에 기반함)
  4. Reasoning은 “검증자” 즉 계산기나 컴파일러처럼 언어모델의 출력을 평가할 수 있는 것으로부터 배울 수 있게 해준다

각각의 이정표는 해당 데이터 소스(ImageNet, 웹, 인간, 검증자)를 대규모로 활용한 첫 시점을 의미한다. 이때마다 남은 모든 유용한 데이터를 최대한 빨아들이고, 시스템을 효율적으로 만들어 데이터를 더 잘 쓰는 신기술 경쟁이 벌어진다(2025~2026년에는 Reasoning 모델에서 검증 가능한 데이터를 어떻게든 찾아내 카테고라이즈하고 검증받으려는 경쟁이 벌어질 것이다).

이미지 2: ImageNet에서 학습하고 검증하는 방법

AI의 진보는 우리가 ImageNet을 수집했을 때 이미 불가피했을지 모른다. 당시 웹에서 수집한 공개 이미지 데이터 최대 규모였다.

실제로 보면, 핵심 기술 혁신이 없었다고 해도 큰 차이가 없었을 수도 있다. AlexNet이 등장하지 않았다면, 이미지넷에 적합한 다른 구조가 나왔겠지. 트랜스포머를 발견하지 않았다면, LSTM이나 SSM 같은 것으로 웹에서 쓸만한 데이터를 학습하는 방법을 어떻게든 찾아냈을 터다.

이건 결국 진짜로 데이터만 중요하다는 주장과 맞닿는다. 많은 연구자들이 학습 기법, 모델링 트릭, 하이퍼파라미터 조정 등 별별 노력을 다해도 결과를 가장 크게 바꾸는 것은 결국 데이터라는 사실을 지적해왔다.

특히, 일부 연구자들은 트랜스포머가 아닌 구조로 BERT류 모델 만들기에 매진했다. 1년 넘게 수백 가지 구조를 트윅했지만, 같은 데이터를 쓰면 결국 트랜스포머와 거의 동등한 성능만 냈다(여기서 쓴 건 SSM, state-space model).

이 등가성 발견은 꽤나 의미심장하다. 주어진 데이터셋에서 배울 수 있는 것에는 _상한선_이 있다는, 즉 아무리 학습법을 바꿔도 데이터셋이 가진 정보 한계 이상은 못 넘는다는 뜻이다.

아마도 새로운 아이디어에 대한 무관심은 The Bitter Lesson에서 깨달았어야 할 교훈이었을지 모른다. 정말 데이터만 중요하다면, 왜 전체 인원의 95%는 새로운 방법 연구에 집중할까?

결국 다음 패러다임 시프트는 RL 개선이나 새 신경망 구조가 아닌, 우리가 아직 접근하지 못했거나 제대로 활용하지 못한 새로운 데이터 소스가 열릴 때 일어날 것이다.

한 가지 분명한 후보는 영상 데이터다. 이 웹사이트에 따르면, 유튜브에는 초당 500시간 분량의 영상이 새롭게 올라온다. 텍스트로 된 모든 인터넷보다 훨씬 방대한 규모다. 영상은 단순한 문장뿐만 아니라 어조, 물리, 문화 등 텍스트로는 도저히 알 수 없는 풍부한 정보를 담고 있다.

따라서 컴퓨팅 파워가 충분히 좋아지거나 모델이 충분히 효율적이 되면, 구글은 유튜브 데이터 전체로 대규모 모델을 학습시킬 것이다(유튜브는 구글 자산이다!).

마지막 후보는, 실제 실체화된 데이터를 모으는 시스템, 즉 로봇이다. 우리는 지금 로봇의 카메라나 센서에서 얻은 막대한 정보를 GPU에서 대모델 학습에 맞게 활용할 수 있는 역량이 없다. 더 똑똑한 센서를 만들거나 컴퓨터를 키울 수 있으면, 이 데이터 또한 유리하게 사용할 수 있을 것이다.

다음 AI 대혁신이 유튜브, 로봇, 아니면 전혀 다른 무엇에서 나올지는 아무도 모른다. 우리는 지금 텍스트 언어모델 진영에 깊게 들어가 있으나, 동시에 텍스트 데이터 소진도 임박했다. AI 분야에서 더 나아가고 싶다면, 이제는 새로운 아이디어를 찾는 대신 새로운 데이터를 찾아야 할 때다.