트랜스포머 기반 대규모 언어 모델(LLM)과 인간 수준 인지의 경계를 중심으로, AGI가 곧 도래한다는 주장에 회의적인 이유를 인지 원시요소·체화 인지·월드 모델·벤치마크·아키텍처 제약·담론 문제 등 여러 관점에서 정리한다.
2026년 2월 14일
OpenAI와 Anthropic의 CEO는 둘 다 인간 수준 AI가 바로 코앞에 와 있다고—그리고 때로는 이미 도달했다고—주장해 왔다. 이런 주장들은 엄청난 대중의 관심을 불러일으켰다. 이에 대한 기술적 검토도 일부 있었지만, 비판은 대중 담론까지 잘 도달하지 않는다. 이 글은 트랜스포머 기반 대규모 언어 모델과 인간 수준 인지 사이의 경계에 대해 내가 생각하는 바를 스케치한 것이다. 나는 10년도 더 전에 머신러닝 석사 학위를 받았고 지금은 AI 분야에서 일하지 않지만, 기반 연구를 폭넓게 읽어 왔다. 이 주제들에 대해 나보다 더 많이 알고 있다면 연락해 알려주었으면 한다. 더 깊이 생각을 발전시키고 싶다.
진화 신경과학 연구는 척추동물의 뇌에 하드와이어되어 있는 일련의 인지 원시요소(cognitive primitives)를 확인해 왔다. 그중에는 수 감각(number sense), 물체 영속성(object permanence), 인과성, 공간 항해(spatial navigation), 생물적 움직임과 무생물적 움직임을 구분하는 능력 등이 있다. 이런 능력은 물고기부터 유제류, 영장류까지 척추동물 전반에 걸쳐 공유되며, 수억 년 전의 공통 진화적 기원을 시사한다.
언어는 이런 원시요소 위에서 진화했다. 즉, 화자와 청자가 같은 인지적 토대를 공유한다는 전제 위에서 작동하는 의사소통 도구다. 양쪽이 항상 이런 원시요소를 갖고 있었기 때문에, 언어는 이를 당연한 것으로 여기며 명시적으로 말하지 않는다.
예를 들어 “Mary held a ball.”(메리는 공을 들고 있었다)라는 문장을 생각해 보자. 이를 이해하려면, 메리가 의도적 행동을 할 수 있는 생명체(animate entity)라는 것, 공은 별개의 경계가 있는 무생물 객체이며 시간이 지나도 연속적으로 존재한다는 것, 메리는 대략 사람 크기이고 서 있는 반면 공은 손에 들어갈 만큼 작다는 것, 메리의 손이 중력을 상쇄하는 위쪽 힘을 가한다는 것, 공은 손바닥을 통과할 수 없다는 것, 손아귀를 풀면 공이 떨어진다는 것, 그리고 메리 하나와 공 하나가 있으며 둘 다 순간순간 같은 개체로 지속되고 3차원 공간에서 서로 다른 영역을 점유한다는 것을 알아야 한다. 인간은 단 네 단어로부터 이 모든 것을 이해하지만, 텍스트에는 그 어떤 것도 쓰여 있지 않다. 현대 LLM은 이제 언어로부터 이 인지적 토대를 역공학하려 하고 있는데, 이는 극도로 어려운 과제다.
나는 이 관점이 현재 LLM 아키텍처에서 관찰되는 많은 한계를 이해하는 데 유용한 틀이라고 생각한다. 예를 들어 트랜스포머 기반 언어 모델은 수 감각이 없고 숫자 토큰에 대한 통계적 패턴만 있기 때문에 다자리 산술을 안정적으로 수행하지 못한다. 또한 구성적(compositional)·기호적(symbolic) 기계장치가 부족하기 때문에 단순한 논리 관계를 일반화하지 못한다. 즉 “A is B”로 학습한 모델이 “B is A”를 추론하지 못한다.
이런 반론이 가능하다: 요즘 AI는 텍스트만이 아니라 비디오로도 학습한다. 그리고 비디오 예측은 물체 영속성과 비슷한 것을 어느 정도 가르칠 수 있다는 것도 사실이다. 다음 프레임을 예측하려면 물체가 가림막 뒤로 지나갈 때 무슨 일이 일어나는지 모델링해야 하며, 이는 어떤 형태의 ‘지속성’ 표현과 비슷하다. 하지만 나는 현실이 더 미묘하다고 생각한다. 셸 게임(shell game)을 떠올려 보자. 구슬을 세 컵 중 하나 아래에 넣고 컵을 섞는다. 비디오 예측 모델은 “컵을 들어 올리면 보통 구슬이 있다” 같은 통계적 규칙성을 학습할 수도 있다. 하지만 섞는 동안 실제로 구슬을 추적하려면 더 깊은 무언가—공간을 가로지르는 연속적인 궤적을 가진 지속하는 개체 로서 구슬을 ‘붙잡아 두는’ 약속(commitment)—가 필요하다. 이는 단순한 시각 패턴이 아니다.
시각 모델의 약점은 이 틀과 잘 맞아떨어진다. 초기 GPT 기반 비전 모델은 기본적인 공간 추론조차 실패했다. 최근의 많은 진전은 방대한 양의 합성 학습 데이터 생성에서 나왔다. 하지만 그 과정에서도 우리는 시각 데이터로부터 현실 세계의 물리적·논리적 제약을 배우려 하고 있다. 예상대로 결과는 취약하다. 합성 셸 게임 데이터로 학습한 모델은 아마 구슬을 추적하는 법을 배울 수 있을 것이다. 하지만 그 학습이 다른 상황과 관계로 일반화되지는 않을 것이라고 의심한다. 그것은 물체 영속성이 아니라 ‘셸 게임 추적’일 것이다.
발달심리학자 엘리자베스 스펠키(Elizabeth Spelke)의 “핵심 지식(core knowledge)” 연구는 영아—심지어 시각이 없는 영아—도 물체를 경계가 있고 응집적이며 시공간적으로 연속적인 개체로 표상한다는 것을 보여준다. 이는 학습된 시각 기술이 아니다. 더 근본적인, 뇌가 모든 감각 입력을 조직하는 데 사용하는 표현 범주로 보인다. 물체는 정체성을 갖는다. 지속한다. 순간이동하거나 합쳐질 수 없다. 이런 “물체성(object-ness)”은 아마 시각 자체보다 더 오래된 것일 수 있다. 수억 년 동안 유기체는 물리 세계의 것들과 상호작용 해야 했고, 나는 우리 진화의 “학습 환경”의 이런 측면이 견고한 인지 원시요소의 핵심이라고 생각한다. 유기체는 단지 다음에 무슨 일이 일어날지 예측하기 위해 현실을 관찰하지 않는다. 행동하기 위해 지각하고, 지각하기 위해 행동한다. 물체 영속성은 장애물 뒤의 먹이를 추적하게 해 준다. 수 감각은 수적 열세인지 추정하게 한다. 논리적 조합은 도구를 만들고 쓰게 한다. 공간 항해는 집으로 돌아가게 한다. 모든 인지 원시요소는 풍부한 다감각 물리 세계에서의 행동과 직접 연결되어 있다.
로드니 브룩스(Rodney Brooks)가 지적했듯, 인간의 손재주(dexterity)조차 정교한 운동 제어와 풍부한 감각 피드백의 강한 결합이다. 현대 로봇은 그에 비해 이용 가능한 감각 정보가 훨씬 풍부하지 않다. LLM이 인터넷에 있는 방대한 텍스트·비디오·오디오 덕을 보았지만, 의도적 행동과 결합된 풍부한 다감각 지각 데이터셋을 대규모로 보유하고 있지는 않다. 그런 데이터를 수집하거나 생성하는 것은 매우 어렵다.
만약 AI가 체화된 경험을 수집할 수 있도록 시뮬레이션 환경을 만든다면 어떨까? 에이전트가 이런 인지 원시요소의 일부를 학습할 수 있는 학습 시나리오를 만들 수 있을까? 그리고 그것이 LLM을 개선하는 일반화로 이어질까? 이 방향을 찌르는 논문이 몇 개 있다.
구글 딥마인드의 SIMA 2가 그중 하나다. “체화 에이전트”라는 브랜딩에도 불구하고, SIMA 2는 주로 행동 복제(behavioral cloning)로 훈련된다. 인간 게임플레이 비디오를 보고 그들이 어떤 행동을 했는지 예측하도록 학습한다. 추론과 계획은 (Gemini Flash-Lite인) 베이스 모델에서 오는데, 이 베이스 모델은 인터넷 텍스트와 이미지로 사전학습되었다—체화 경험에서 나온 것이 아니다. 에이전트가 환경과 상호작용하는 RL 자기개선 단계가 있기는 하지만 부차적이다. 핵심 지능은 언어 사전학습에서 빌려온 것이다. SIMA 2는 많은 게임 과제에서 거의 인간 수준의 성능을 내지만, 실제로 보여주는 것은 강력한 언어 모델이 키보드 액션을 출력하도록 가르쳐질 수 있다는 점이다.
월드 모델 학습에서 얻은 통찰이 실제로 언어 이해로 전이되어 개선될 수 있을까? 딥마인드 연구자들은 이를 두 경쟁 목표 사이의 트레이드오프로 명시한다: “체화 역량(embodied competence)”(3D 세계에서 효과적으로 행동하기)과 “일반 추론(general reasoning)”(사전학습에서 오는 언어·수학 능력). 그들은 강력한 언어 모델임에도 기본 Gemini 모델이 체화 과제에서 성공률 3~7%에 그쳤음을 발견했는데, 이는 체화 역량이 언어 사전학습에서 ‘저절로’ 나오지 않는다는 것을 보여준다. 게임플레이 데이터로 파인튜닝한 뒤 SIMA 2는 체화 과제에서 거의 인간 수준을 달성하면서도 언어·수학 벤치마크에서 “미미한 퇴행”만 보였다고 한다. 하지만 이 프레이밍을 보라. 최선의 경우 는 체화 학습이 언어 능력을 크게 해치지 않는다는 것이다. 그것이 개선 한다는 증거는 없다. 두 능력은 모델 파라미터 공간의 서로 다른 영역에 자리하며, 공존하지만 의미 있게 상호작용하지 않는다. LLM은 수십억 개의 파라미터를 갖고 있으므로, 그 가중치 안에 언어를 예측하는 능력과 물리 세계를 모델링하는 능력이 분리된 형태로 들어갈 공간이 충분하다. 그 간극을 잇는 것—물리적 이해를 사용해 실제로 언어 추론을 개선하는 것—은 아직 입증되지 않았다.
딥마인드의 Dreamer 4도 이 방향을 시사한다. 언어 모델에서 지능을 빌려오는 대신, Dreamer 4는 게임플레이 영상으로부터 월드 모델을 학습한 다음, 그 월드 모델 안에서 시뮬레이션 롤아웃을 통해 RL 에이전트를 훈련한다. 에이전트는 행동하고, 월드 모델이 제공하는 결과를 관찰하고, 정책을 업데이트한다. 이는 지각-행동 결합에 더 가깝다. 에이전트가 행동 을 통해 학습하기 때문이다. 그러나 이 연구의 목표는 일반 지능이 아니라 로보틱스를 위한 샘플 효율적인 제어다. 에이전트는 미리 정의된 과제 마일스톤(나무 얻기, 곡괭이 제작, 다이아 찾기 등)에서 훈련·평가되며, 학습된 보상 모델로 점수를 매긴다. 이런 학습으로 얻은 표상이 추론·언어·혹은 학습된 제어 과제를 넘어서는 어떤 것에 일반화되는지 테스트한 사람은 없다. “시뮬레이션 연습으로 마인크래프트에서 다이아를 얻는 법을 학습하는 에이전트”와 “전이 가능한 인지 원시요소를 만들어내는 체화 경험” 사이의 간극은 엄청나게 크고, 전혀 탐색되지 않았다.
내가 이해하기로 우리는 다음을 어떻게 해야 하는지 모른다:
지각-행동이 결합된 학습 환경에 에이전트를 임베드하는 것
공간 추론이나 물체 영속성 같은 인지 원시요소를 학습하도록 만드는 목표함수와 학습 과정을 설계하는 것
이를 활용해 언어 모델을 개선하거나 일반 인공지능에 더 가까이 가는 것
최근 벤치마킹 작업은 우리가 얼마나 멀리 있는지를 강조한다. 스탠퍼드의 ENACT 벤치마크(2025)는 최전선 비전-언어 모델이 체화 인지의 징후—예컨대 어포던스(affordance) 인식, 행동-효과 추론, 장기 지평(long-horizon) 기억—를 보이는지 테스트했다. 결과는 뚜렷했다. 현재 모델은 인간에 비해 크게 뒤처져 있고, 과제가 더 긴 상호작용 지평을 요구할수록 격차는 더 커진다.
요컨대 월드 모델은 정말로 흥미로운 방향이며, 물체 영속성·인과성·어포던스 같은 기초 원시요소를 학습하는 경로가 될 수 있다. 하지만 이 작업은 아직 절대적인 초기 단계다. 트랜스포머는 믿기 어려운 도약이었고, 그 덕분에 이제 ENACT 같은 벤치마크로 인지의 경계를 더 잘 드러낼 수 있게 되었다. 나는 이 분야가 매우 유망하다고 생각하지만, 이 영역의 연구는 수십 년이 걸릴 수도 있다.
또한 가장 두드러진 “월드 모델”로는 얀 르쿤(Yann LeCun)이 있다. 그는 최근 Meta를 떠나 AMI Labs를 시작했다. 그의 JEPA(Joint Embedding Predictive Architecture)는 표현 학습(representation learning) 방법이다. 비디오 데이터로 비전 트랜스포머를 학습하되, 입력의 일부를 마스킹하고 원시 픽셀이 아니라 그에 대한 추상적 표현을 예측한다. 입력 공간이 아니라 표현 공간에서 예측한다는 것이 혁신이며, 이는 모델이 고수준 구조에 집중하고 예측 불가능한 저수준 디테일을 무시하게 한다. 이는 유용한 임베딩을 학습하기 위한 생성적 접근보다 분명 개선이다. 하지만 “월드 모델”이라는 브랜딩에도 불구하고 JEPA의 실제 구현(I-JEPA, V-JEPA, V-JEPA 2)은 여전히 수동적으로 관찰되는 비디오로 학습한다—물리 시뮬레이션에 임베드된 에이전트가 아니다. 지각-행동 결합도 없고, 환경과의 폐루프 상호작용도 없다. JEPA는 관찰로부터 학습하는 더 정교한 방식이지만, 위의 논리로 보자면 관찰만으로는 세계에서 행동함으로써 생겨나는 인지 원시요소를 만들어내기 어렵다.
ARC-AGI 벤치마크는 이런 원시요소가 어디에서 나타나는지 보여주는 중요한 사례를 제공한다. ARC 과제는 격자 기반 시각 퍼즐로, 추상 추론을 테스트한다. 공간적 조합, 대칭, 관계적 추상화, 소수 예시(few-shot) 일반화 등이 필요하다. 세계 지식이나 언어는 필요 없다—몇 개의 예시에서 추상 규칙을 추론해 새로운 사례에 적용하는 능력만 요구된다. 인간은 대체로 두 번 시도 안에 이런 과제를 쉽게 푼다. 2025년 3월 ARC-AGI-2가 출시되었을 때 순수 LLM은 0%를 기록했고, 최전선 추론 시스템도 한 자릿수 퍼센트에 그쳤다. 하지만 연말에는 모델을 반복적인 생성-검증-수정(generate-verify-refine) 사이클로 감싸는 스캐폴딩인 리파인먼트 루프(refinement-loop) 시스템이 세미-프라이빗 평가에서 54%까지 점수를 끌어올렸고, GPT-5.2를 사용해 공개 평가에서 75%까지도 달성하여 인간 평균 60%를 넘어섰다. 하지만 숫자만큼이나 진전의 성격이 중요하다.
이 진전의 성격은 많은 것을 말해준다. 리파인먼트 스캐폴딩 없이 단독으로 가장 높은 점수를 낸 모델—Claude Opus 4.5—은 37.6%다. 이를 54%로 올리려면 과제당 30달러를 들여 수십 번의 반복 생성-검증-수정 사이클을 돌리는 리파인먼트 하네스가 필요하다. 그리고 75%에 도달하려면 GPT-5.2의 가장 강한 추론 모드와 이런 하네스를 결합해야 한다. 이는 코어 트랜스포머 아키텍처에서 자연스럽게 나오는 행동이 아니다. 각 퍼센트포인트마다 훨씬 더 많은 컴퓨트를 요구하는, 스캐폴딩된 브루트포스 탐색이다. 85%의 ARC Prize 그랜드 프라이즈는 여전히 미수상 상태다.
ARC는 지능의 핵심처럼 보이는 추상 추론의 종류를 보여주기 때문에 중요하다. 인간에게 이런 능력은 체화 경험에서 비롯되었다. 체화 없이 순수 추상·논리 공간에서 작동하는 학습 방법이 에이전트에게 비슷한 원시요소를 가르칠 수도 있다는 가능성은 있다. 우리는 아직 모른다. 이 방향의 연구는 이제 막 시작되었고, ARC 같은 벤치마크가 LLM이 하는 일과 지능이 실제로 요구하는 것 사이의 경계를 더 선명하게 하면서 촉진되고 있다. 특히 벤치마크 자체가 그 방향으로 진화하고 있다. ARC-AGI-3는 탐색, 계획, 기억, 목표 획득이 필요한 상호작용적 추론 도전을 도입하여, 내가 지능의 핵심이라 주장하는 지각-행동 결합에 더 가까워진다.
여기서 흔한 반론을 다룰 필요가 있다. 최근 몇 년간 AI 모델이 많은 벤치마크를 포화시켰고 우리는 계속 새 벤치마크를 도입해야 한다. 이것은 목표를 계속 옮기는 것 아닌가? 나는 이 프레이밍이 맞지 않다고 생각한다. 벤치마크 포화는 그 벤치마크가 실제로 무엇을 측정하고 있었는지 배우는 방식이다. 그에 대응해 다른 벤치마크를 만드는 것은 목표 옮기기가 아니라, 측정 도구를 정교화하고 이해를 발전시키는 정상적인 과정이다. AGI의 “G”는 “General(일반)”을 의미한다. 진정한 일반 지능은 한 추론 과제에서 다른 과제로 전이되어야 한다. 어떤 모델이 한 벤치마크를 포화시키며 진짜로 추상 추론을 학습했다면, 유사한 능력을 테스트하는 다음 벤치마크는 쉬워야지 치명적이어서는 안 된다. 매 세대의 새 벤치마크가 일관되게 근본적 실패를 드러낸다는 사실은 그 격차의 성격에 대한 증거다. ARC 벤치마크 시리즈는 이를 잘 보여준다. ARC-AGI-1에서 ARC-AGI-3로의 진화는, AI를 좌절시키면서도 인간에게는 쉬운 과제를 찾기 위해 영웅적 노력이 필요했던 것이 아니다. 단지 경계가 어디인지에 대한 이해를 정교화했을 뿐이다. 인간에게는 사소하게 쉽지만 현재 모델에게는 불가능한 과제는 풍부하게 존재한다(위의 다자리 산술을 보라). 벤치마크 설계자들은 기괴한 엣지 케이스를 사냥하는 것이 아니라, AI가 갖고 있지 않은 기본 인지 능력의 광대한 영역을 지도화하고 있다.
이 글을 쓰는 동안 구글 딥마인드가 Gemini 3 Deep Think(2026년 2월 12일)를 공개했다는 것을 몰랐다. 이 모델은 ARC-AGI-2에서 84.6%를 기록해 85% 그랜드 프라이즈 기준에 거의 도달했다. 참고로 기본 Gemini 3 Pro 모델은 31.1%다. 53포인트의 전부가 추론 시점 컴퓨트—확장된 추론 사슬, 병렬 가설 탐색, 탐색(search)—에서 나온 것이다.
이 결과는 중요하다. 이 특정 모델의 아키텍처 세부사항을 찾지는 못했지만, ARC Prize 팀의 2025 제출물 분석은 “리파인먼트 루프”—반복적인 생성-검증-수정 사이클—가 진전을 이끄는 중심 주제라고 지적한다. 지능은 베이스 모델이 일반 추상 추론을 학습해서가 아니라 스캐폴딩에서 나오고 있다. ARC Prize 팀의 표현을 인용하면:
ARC-AGI-1/2 형식에 대해, 우리는 현재 그랜드 프라이즈 정확도 격차가 주로 엔지니어링에 의해 병목되고 있으며, 효율성 격차는 여전히 과학과 아이디어에 의해 병목되고 있다고 믿습니다. ARC Prize는 개방형 AGI 진전을 지향하며, 이전에 약속했듯 2026년에도 ARC-AGI-2 그랜드 프라이즈 대회를 계속 운영하여 완전히 개방적이고 재현 가능한 해법을 향한 진전을 추적할 것입니다.
AI 추론 시스템이 아무리 좋아도 AGI에 필요한 많은 결함과 비효율을 여전히 보입니다. 지식과 추론을 분리하는 방법 등 새로운 아이디어가 필요합니다. 또한 그 새로운 아이디어가 도착했을 때를 드러내 줄 새 벤치마크도 필요할 것입니다.
나는 이제 AGI-3(2026년 3월 공개)에서 에이전트들이 어떤 성과를 낼지 정말 궁금하다. 리파인먼트 루프/탐색/확장된 CoT 체인이 일반 추론에 효과적일까? 내 추측으로 이런 기법은 AGI 1·2의 기하학적 패턴 형식에 특히 잘 맞도록 특화되어 있고, 탐색·계획·기억·목표 획득을 요구하는 AGI-3에서는 성능이 크게 떨어졌다가, 시간이 지나 팀들이 스캐폴딩을 새 도전에 맞춰 조정하면서 다시 회복될 가능성이 크다.
현재 LLM을 구동하는 트랜스포머 아키텍처는 엄밀히 피드포워드(feed-forward)다. 정보는 토큰에서 연속된 레이어를 거쳐 출력으로 흐르고, 이전 토큰에서 이후 토큰으로 흐르지만, 결코 뒤로 흐르지 않는다. 이는 부분적으로 신경망을 학습하는 방법인 역전파(backpropagation)가 비순환(acyclic) 계산 그래프를 요구하기 때문이다. 하지만 강한 실용적 제약도 있다. 이 모델들은 수천억 개의 파라미터를 갖고, 수조 개의 토큰으로 학습되며, 계산 재사용에 크게 의존한다. 토큰 N+1을 처리할 때 LLM은 토큰 1부터 N까지의 모든 계산을 재사용한다(KV 캐싱이라고 부르는 기법). 이것이 대규모에서 학습과 추론을 가능하게 만든다. 하지만 이는 아키텍처를 단방향 흐름으로 고정해 버리기도 한다. 새 토큰을 처리하는 과정은 이전 토큰의 표현을 다시 방문하거나 수정할 수 없다. 역방향 흐름을 허용하는 어떤 아키텍처도 이 캐싱을 훼손하여, 대규모에서 실행 가능하게 만들기 위한 새로운 계산 기법을 요구할 것이다.
인간의 뇌는 근본적으로 다르게 작동한다. 뇌는 피드포워드 파이프라인이 아니다. 활성은 순환적·양방향 연결을 통해 반향(reverberate)하며, 결국 안정된 패턴으로 수렴한다. 시각 피질의 모든 피드포워드 연결에 대해 상호적인 피드백 연결이 존재하며, 이는 맥락 정보를 초기 처리 단계로 되돌려 보낸다. 얼굴을 인식하는 것은 단 한 번의 전방 패스 출력이 아니라, 여러 영역 사이에서 활동이 오가며 시스템이 해석에 수렴하는 분산된 과정의 결과다.
이는 인간 뇌 아키텍처가 일반 지능에 필수 라는 말이 아니다. 하지만 대비는 현재 LLM 아키텍처가 얼마나 제약적인지 맥락을 제공한다. 이런 제약을 정식화하는 동료심사 이론 연구가 증가하고 있다. Merrill과 Sabharwal은 현실적인(로그 정밀도) 산술을 사용하는 고정 깊이 트랜스포머가 복잡도 클래스 TC⁰에 속함을 보였다. 이는 정칙 언어(regular languages)조차 인식하지 못하거나 그래프에서 두 노드가 연결되어 있는지 판단하지 못한다는 뜻이다. 이런 문제들은 형식적으로 단순하며 기본 알고리즘으로 충분히 풀 수 있지만, 트랜스포머는 단 한 번의 전방 패스로는 원리적으로 해결할 수 없다고 증명된 것이다. 이는 더 많은 데이터나 컴퓨트로 극복할 엔지니어링 한계가 아니라, 아키텍처 자체의 수학적 성질이다. 그리고 Merrill과 Sabharwal은 더 나아가 이것이 트랜스포머의 높은 병렬화 가능성의 결과라고 주장한다. 즉, 그만큼 병렬화 가능하고 따라서 그만큼 확장 가능한 어떤 아키텍처도 비슷한 벽에 부딪힌다는 것이다.
그렇다면 대안 아키텍처는 어떤 모습일까? Gary Marcus는 오랫동안 뉴로심볼릭 AI 같은 접근을 옹호해 왔다. 이는 신경망과 명시적 기호 추론 모듈(논리, 구성성, 변수 바인딩)을 결합하는 하이브리드 시스템이다. 나는 피드백 연결을 갖는 신경 아키텍처—엄밀히 피드포워드가 아니라 정보가 뒤로 흐르고 안정 상태로 수렴할 수 있는 네트워크—가 인지 원시요소를 표현하는 법을 학습할 수 있다고 생각한다. 그러나 앞서 논의했듯 이런 아키텍처는 현재 트랜스포머를 대규모로 학습·배포 가능하게 만드는 계산상의 지름길을 깨뜨린다. 어떤 경우든, 뉴로심볼릭·순환(recurrent)·혹은 양방향 신경망을 현대 LLM 규모로 작동시키는 것은 열린 엔지니어링 및 연구 문제다.
한 독자가, 우리가 단 한 번의 피드포워드 패스를 하는 것이 아니라 이전 토큰을 다시 네트워크에 입력하는 반복 패스를 수행하므로, 연쇄적 사고(chain of thought)가 사실상 피드포워드 논증을 무효화한다고 지적했다. 따라서 트랜스포머는 자신의 컨텍스트 윈도우를 작업 공간으로 사용해 더 복잡한 문제를 푸는 데 활용할 수 있다. 이후 나는 같은 저자들의 후속 논문(Merrill & Sabharwal, ICLR 2024)을 찾았는데, 이는 이를 확인해 준다. 트랜스포머 단일 전방 패스는 TC⁰로 제한되지만, 모델이 중간 “연쇄적 사고” 토큰을 생성하도록—각 토큰이 이전 모든 토큰에 조건화된 새로운 전방 패스의 출력이 되도록—허용하면 계산 능력이 근본적으로 확장된다. 구체적으로, 다항식 개수의 CoT 단계가 허용되면 트랜스포머는 P 안의 어떤 문제도 풀 수 있다.
이는 현대의 “추론(reasoning)” 모델(OpenAI의 o-시리즈, Anthropic Claude의 확장 사고, DeepSeek R1)이 정확히 이런 방식을 쓰기 때문에 중요하다. 즉, 답을 내기 전에 긴 중간 추론 토큰 사슬을 생성한다. 이 이론적 결과는 원칙적으로 내가 위에서 설명한 TC⁰ 장벽을 넘어선다는 말이다.
나는 이 지점에서 반(反)-AI 미디어 과장의 피해자였음을 인정한다. Wired 기사와 동반 논문을 읽고 아키텍처 논증을 받아들였는데, 그들은 CoT가 복잡도에 미치는 영향을 대수롭지 않게 취급하며 기본 연산이 여전히 제한된 복잡도를 갖고 있고 토큰 예산이 너무 작다고 주장했다. 돌이켜보면 이는 형식적 결과에 제대로 답하지 못한다.
그럼에도 중요한 단서가 있다. 첫째, 이 이론 결과는 표현력—올바른 가중치가 있을 때 CoT를 가진 트랜스포머가 계산할 수 있는 것—에 관한 것이지, 모델이 실제로 학습하는 것에 대한 것이 아니다. 저자들도 “우리의 하한은 트랜스포머가 중간 단계를 효과적으로 사용하도록 학습할 수 있음을 직접적으로 함의하지 않는다”고 쓴다. 현재의 학습 방법(강화학습 포함)이 모델이 이 이론적 능력을 실제로 활용하도록 가르칠 수 있는지는 열린 질문이다.
둘째, P 결과는 트랜스포머가 어떤 특정 튜링 머신의 전이를 인코딩할 수 있고 CoT 토큰이 테이프 역할을 한다는 것을 보임으로써 성립한다. 하지만 AGI는 더 까다로운 것을 요구한다. 피드포워드 네트워크는 보편 튜링 머신—새 문제를 읽고 해결 전략을 구성해 실행할 수 있는 것—을 인코딩해야 한다. (어떤 똑똑한) 인간은 이를 할 수 있다. 고정 깊이 트랜스포머가 CoT를 통해 이것을 학습할 수 있는지, 설령 원칙적으로라도, “CoT가 P에 도달한다”보다 훨씬 강한 주장이다.
또한 ARC-AGI-2에서 최고 점수를 내는 시스템—예컨대 84.6%를 낸 Gemini 3 Deep Think—은 단순한 순차적 CoT를 넘어선다. 병렬 가설 탐색, 후보 해 탐색, 반복적 리파인먼트 루프를 사용한다. 이는 피드포워드 아키텍처에 대한 진정한 확장이다. 트랜스포머는 더 이상 혼자 작동하지 않고, 여러 번의 추론 패스를 조율하고 출력물을 평가하며 탐색을 조향하는 더 큰 프로그램에 임베드된다. 원래 버전의 글에서 나는 피드백 연결을 가진 대안 아키텍처가 필요할 수 있다고 제안했다. 실제로 등장하고 있는 것은 다른 형태다. 피드백은 모델 내부 가 아니라, 트랜스포머를 루프로 감싸는 스캐폴딩 외부 에서 일어난다. 이런 외부 스캐폴딩이 내가 상상한 내부적 순환을 궁극적으로 대체할 수 있을지는 두고 봐야 하지만, 진전은 내가 처음 생각했던 것보다 더 무시하기 어렵다.
그래서 아키텍처 논증은 내가 처음 말했던 것보다 약해졌지만, 완전히 사라진 것은 아니다. 이론적 상한은 TC⁰에서 P로 올라갔고, 이는 상당한 확장이다. 모델이 현재 학습 방법으로 실제로 그 상한에 도달할 수 있는지, 그리고 P가 지능을 특징짓는 유연하고 일반적인 추론에 충분한지 여부는 여전히 열린 질문이다.
대부분의 사람은 CEO의 선언을 통해 AGI를 접한다. 샘 알트먼은 OpenAI가 초지능 AI를 만드는 방법을 안다고 주장한다. 다리오 아모데이는 2026년이면 AI가 “대부분의 관련 분야에서 노벨상 수상자보다 더 똑똑할 수 있다”고 쓴다. 이런 말은 AGI가 임박했다는 전제에 대한 지속적인 투자에 의존하는 회사의 경영진이 하는 마케팅 발언이다. 기술적 논증이 아니다.
반면 실제 연구 공동체는 다른 이야기를 한다. 475명의 AI 연구자를 대상으로 한 AAAI(Association for the Advancement of Artificial Intelligence)의 2025년 설문은, 76%가 현재 AI 접근을 스케일업해 AGI에 도달하는 것이 “가능성이 낮다” 또는 “매우 가능성이 낮다”고 믿는다고 밝혔다. 연구자들은 장기 계획과 추론의 어려움, 학습 데이터 밖으로의 일반화, 인과 및 반사실적(counterfactual) 추론, 체화 및 현실 세계 상호작용 같은 구체적 한계를 언급했다. 이는 엄청난 괴리다.
2025년 가장 널리 논의된 AGI 예측 중 하나인 AI 2027 시나리오를 보자. 그 기저 모델의 첫 단계는 코딩 자동화인데, 이는 코딩 시간 지평에 관한 METR 연구의 외삽에 전적으로 기반한다. METR 연구는 AI가 50% 성공률로 완료할 수 있는 코딩 과제를 모으고, 그 과제의 지속 시간이 시간이 지남에 따라 어떻게 증가하는지 추적한다. 하지만 과제 지속 시간은 과제 복잡도의 척도가 아니다. ARC-AGI 벤치마크가 보여주듯, 인간에게는 몇 초면 풀리는 문제도 AI 시스템에는 수천 달러의 컴퓨트와 수십 번의 반복 리파인먼트 사이클이 필요하며, 그럼에도 85% 그랜드 프라이즈 기준은 여전히 미달이다. 흔한 코딩 과제에 초점을 맞추면 AI 학습 세트에 풍부하게 존재하는 분포 내(within distribution) 과제를 강하게 강조하게 된다. 또한 50% 성공 기준은, 에이전트가 전혀 진전하지 못하는 ‘까다로운 분포 밖(out of distribution)의 짧은 과제’를 무시하게 만든다. 2027 모델링의 두 번째 단계는 에이전트가 “연구 감각(research taste)”을 개발한다는 것이다. 내 관점에서는 연구 감각이 ARC가 강조하지만 METR 지표는 포착하지 못하는 단시간 인지 원시요소에 크게 의존할 가능성이 있다.
이 주제에 관심이 있다면 기술적 깊이를 찾아보길 권한다. 이 시스템들이 실제로 무엇을 할 수 있고 무엇을 못 하는지 이해하라. 진짜 이야기는 매혹적이다. 그것은 지능의 근본적 본질과, 우리가 그것을 이해하기까지 얼마나 멀리 남았는지에 관한 이야기다.
현재 AI에 반대로 베팅하기는 어렵다. 쏟아붓는 자본의 규모가 워낙 크기 때문이다. 내가 오랫동안 생각해 온 것 중 하나는 이거다. 혹시 어딘가의 연구소가 곧 이 문제를 뚫을 것이라면? 어쩌면 OpenAI나 Anthropic 내부를 포함해, 이런 문제들을 이미 해결해 가며 비밀로 하고 있는 연구소가 있을 수도 있지 않을까?
하지만 위에서 서술한 열린 질문들은 비밀 연구소가 해결할 수 있는 종류의 문제가 아니다. 이것들은 여러 분야—체화 인지, 진화 신경과학, 아키텍처 설계와 복잡도 이론, 학습 방법론과 일반화 가능성—에 걸친 오래된 문제다. 이런 문제를 풀려면, 여러 해에 걸쳐 학제 간으로 협업하는 전 지구적 연구 공동체가 필요하고, 그 과정에는 수많은 막다른 길도 있다. 이는 고위험·저보상 확률의, 실험실에서 연구자가 땜질하며 탐구하는 종류의 작업이다. 결승선을 향한 단거리 경주가 아니다.
이는 AI 회사들이 실제로 무엇을 하고 있는지 프레이밍하는 데도 도움이 된다. 그들은 GPU를 사들이고, 데이터 센터를 짓고, 제품 표면(product surface area)을 확장하고, 더 많은 자금을 확보한다. 즉 현재의 패러다임을 스케일업하고 있는데, 이는 위에서 강조한 근본 연구 문제를 진전시키는 것과는 크게 관련이 없다.
나는 AGI가 불가능하다고 말하는 것이 아니다. 심지어 우리 생애 안에 오지 않을 거라고 말하는 것도 아니다. 나는 적절한 아키텍처와 학습 방법을 사용한 신경망이 인지 원시요소를 표현하고 초인적 지능에 도달할 수 있다고 전적으로 믿는다. 또한 물리 세계와 거의 관련이 없는 논리/기호 시뮬레이션에서 훈련함으로써, 우리의 긴 진화 역사를 되풀이하지 않고도 이를 할 수 있을 것이다. 또한 LLM이 쓸모없다는 말도 아니다. 현재 기술만으로도 우리 사회는 근본적으로 변하고 있다(예: AI는 별로가 아니다(mid)가 아니다 - Dr. Cottom의 NYT 오피니언에 대한 반박).
다만 신경망의 기원이 1950년대에 있다는 것을 기억해야 한다. 현대적 역전파는 1986년에 대중화되었다. 현대 GPT를 가능하게 만든 많은 발전은 이후 수십 년에 걸쳐 점진적으로 발견되었다.
시퀀스 모델링에서 기울기 소실 문제를 해결한 LSTM(Long Short-Term Memory) 네트워크 — Hochreiter & Schmidhuber, 1997
입력의 관련 부분에 동적으로 집중할 수 있게 한 어텐션 메커니즘 — Bahdanau 외, 2014
수백 층 깊이의 네트워크를 학습 가능하게 만든 잔차 연결(residual connection, 스킵 레이어) — He 외, 2015
어텐션과 병렬화 가능한 학습을 결합해 순환 네트워크를 완전히 대체한 트랜스포머 아키텍처 — Vaswani 외, 2017
트랜스포머에는 근본적 한계가 있다. 매우 강력하고, 일반 지능이 무엇인지에 대해 많은 것을 가르쳐 주었다. 우리는 경계가 어디인지 점점 더 선명하게 이해하고 있다. 하지만 이런 문제들을 해결하려면 연구가 필요하다. 연구는 막다른 길과 정체 구간으로 가득한 비선형 과정이다. 수십 년이 걸릴 수도 있고, 그 이후에도 새로운 더 미묘한 문제를 발견할지 모른다.
← 이전