렌더러, 시뮬레이터, 플래너라는 세 가지 관점에서 오늘날 AI에서 ‘세계 모델’이라 불리는 것들을 구분하고, 이들이 어떻게 하나의 통합된 세계 이해로 수렴하는지 살펴본다.
“세계는 사실인 것들의 총체이다.”
— Ludwig Wittgenstein, Tractatus Logico-Philosophicus, 1921
세계는 단어로 이루어져 있지 않다.
이전 에세이에서 우리는 공간 지능이 AI의 다음 프런티어이며, 세계 모델이 그에 이르는 경로라고 주장했다. 여기서 World Labs 팀과 나는 한 단계 더 깊이 들어가고자 한다. 지금 만들어지고 있으며 ‘세계 모델’이라 불리는 많은 것들 가운데, 실제로 그 능력을 구성하는 기능적 조각은 무엇이며 각각은 무엇을 위한 것인가?
언어 모델은 기계에 개념, 어휘, 추론에 대한 놀라운 숙련도를 부여했지만, 물리적 세계는 가상이든 현실이든 다른 기반 위에서 작동한다. 언어 모델이 텍스트의 통계적 구조를 학습하는 반면, 세계 모델은 공간과 시간의 통계적 구조를 학습한다. 즉, 빛이 표면에 어떻게 떨어지는지, 어떤 정원이 카메라가 한 번도 포착하지 않은 각도에서 어떻게 보이는지, 물체가 힘에 어떻게 반응하고 물리 법칙을 어떻게 따르는지를 학습한다.
이 때문에 “세계 모델”은 오늘날 AI에서 가장 중요한 동시에 가장 과도하게 사용되는 용어 중 하나가 되었다. 컴퓨터 비전, 로보틱스, 강화학습, 생성형 AI는 모두 자신들이 세계 모델을 만들고 있다고 주장하지만, 각자가 의미하는 바는 꽤 다르다. 눈부시지만 물리적으로는 불가능한 불꽃을 만들어내는 비디오 모델, 플레이 가능한 게임을 즉흥적으로 만들어내는 언어 모델, 연소를 충실하게 시뮬레이션하는 물리 엔진이 모두 같은 이름으로 불린다.
고대 그리스인들은 세계가 무엇으로 이루어졌는지, 불인지 물인지 혹은 더 이상 나뉘지 않는 원자인지에 대해 끝내 합의하지 못했다. 왜냐하면 “세계”는 결코 하나의 단일한 것이 아니었기 때문이다. 그것은 언제나 어떤 사상가가 추론하기 위해 필요로 한 총체를 대신하는 말이었다. AI는 바로 이 문제를, 정확성이 절실히 필요한 순간에 그대로 물려받았다.
이 혼란을 가로지르기 위한 출발점은 여기서 문제 삼는 어떤 기술보다도 오래된 하나의 도식이다. Sutton과 Barto의 고전적 교재를 포함한 강화학습 교과서들은 수십 년 동안 에이전트가 세계와 상호작용하는 방식을 설명하기 위해 같은 그림의 변형을 사용해 왔다. 이 그림의 정식 명칭은 부분 관측 가능 마르코프 결정 과정, 즉 POMDP이며, “세계 모델”이라는 용어의 원래 정의도 이 전통에 속한다.
사람, 로봇, 혹은 소프트웨어 시스템일 수 있는 에이전트는 행동을 취한다. 그 행동은 세계의 상태에 영향을 준다. 에이전트는 상태를 직접 보지 못한다. 에이전트에게 도달하는 것은 관측이다. 망막에 떨어지는 광자, 센서의 측정값, 비디오 프레임의 픽셀 같은 것들이다. 새로운 관측은 새로운 행동에 정보를 제공하고, 이 순환은 계속된다.
“상태”라는 단어는 분야에 따라 의미가 달라지기 때문에 풀어서 설명할 필요가 있다. 여기서 말하는 상태는 고체, 액체, 기체를 구분하는 화학자의 상태가 아니다. 이것은 물리학자와 로보틱스 연구자가 말하는 상태이다. 즉, 어떤 순간 세계에서 일어나는 일을 완전하게 기술한 것으로, 모든 물체, 모든 위치, 모든 속도, 모든 속성을 포함한다. 상태는 세계의 기저 현실이다. 원리적으로는 완전하지만, 그 안에 있는 어떤 에이전트에게도 직접 보이지는 않는다. 관측은 그 현실에 대한 에이전트의 부분적 시야다. 행동은 에이전트가 이에 반응하여 하는 일이다.
에이전트에서 행동으로, 상태로, 관측으로, 다시 되돌아오는 이 순환이 바로 현대적 의미의 “세계 모델”이라는 용어에 기술적 의미를 부여한 구조다. 이 표현 자체는 더 오래되었으며, 현실의 “축소 모형”을 머릿속에서 실행함으로써 사고가 이루어진다는 Kenneth Craik의 1943년 제안으로 거슬러 올라가고, 1980년대 말과 1990년대 초에 이르러 신경망으로 이어졌다. 그리고 이 순환은 오늘날 사람들이 이 용어로 무엇을 뜻하는지도 설명해 준다. 지금 세계 모델이라 불리는 서로 다른 것들은 사실 이 동일한 순환의 서로 다른 투영이다. 각각은 그중 다른 한 조각을 출력한다.
첫 번째 종류의 세계 모델은 렌더러다.****렌더러는 인간의 눈을 위한 픽셀 형태의 관측을 출력하며, 가장 중요한 품질은 시각적 충실도다.텍스트 프롬프트를 영화 같은 드론 촬영 장면으로 바꾸는 비디오 모델은 렌더러다. _Google’s Genie 3_ 같은 인터랙티브 시스템이나, 사용자 입력에 조건화되어 실시간으로 프레임을 생성하는 World Labs의 _RTFM_도 마찬가지다. 이 모델은 3차원 구조에 대한 명시적 이해를 지니지 않는다. 그것이 만들어내는 것은 시청자가 보게 될 것이지, 존재 자체가 아니다. 드론 샷 속 건물은 위에서 보면 완벽해 보일 수 있지만, 아래 도시를 차로 통과하려 하면 무너져 내린다.
**두 번째 종류는 시뮬레이터다. 시뮬레이터는 상태를 출력한다. 즉, 인간과 컴퓨터 프로그램이 모두 계산하고 상호작용할 수 있는, 기하학적으로, 물리적으로 또는 동역학적으로 충실한 세계의 표현이다.**렌더러의 계약이 순전히 시각적인 데 비해, 시뮬레이터의 계약은 구조적이다. 따라서 검증에 견디는 기하학, Newton의 법칙을 존중하는 물리, 그리고 물리 법칙이 요구하는 방식으로 작동하는 동역학이 필요하다. 시뮬레이터는 두 종류의 소비자를 동시에 상대한다. 건축가, 디자이너, 영화 제작자, 게임 개발자 같은 인간 전문가들은 시각적 그럴듯함을 넘어서는 정확성을 필요로 한다. 강화학습 에이전트, 로봇 제어기, 자율주행차 같은 컴퓨터 프로그램은 시뮬레이터를 대규모 훈련장으로 사용하며, 현실에서 실행하기엔 위험하거나 비용이 많이 들거나 불가능한 시나리오를 그 안에서 시험한다.
**세 번째 종류는 플래너다. 플래너는 행동을 출력한다.**관측과 목표가 주어졌을 때, 플래너는 에이전트가 다음에 무엇을 해야 하는지라는 질문에 답한다. 여러 면에서 이것은 렌더러의 역이다. 렌더러가 행동을 입력으로 받아 관측을 출력한다면, 플래너는 관측을 입력으로 받아 행동을 출력함으로써 지각-행동 순환을 닫는다. Vision-Language-Action 모델, 모델 기반 시스템, 그리고 새로운 흐름인 World Action Models는 모두 플래너를 향한 시도다. 즉, 구조화되지 않은 세계에서 로봇이 무엇을 해야 하는지 결정할 수 있는 시스템을 만들려는 시도다.
이 세 범주는 오늘날 실제로 배포되고 있는 것들의 대부분을 설명하며, 실천적으로도 유용한 구분이다. 하지만 이 범주들이 근본적으로 분리되어 있는 것은 아니다. 세계가 작동하는 방식에 대한 동일한 기저 지식, 즉 기하학, 물리, 동역학이 그 모두 아래에 놓여 있다. 컵을 어느 각도에서든 렌더링할 수 있는 모델이라면, 원칙적으로는 그 컵이 밀렸을 때 어떤 일이 일어나는지도 시뮬레이션할 수 있어야 하고, 손이 그 컵을 집어 들도록 계획할 수도 있어야 한다. 점점 더 흥미로운 연구들은 의도적으로 이 세 범주 사이의 경계를 흐리고 있다.
세 범주 가운데 시뮬레이터는 대중의 관심을 가장 적게 받으면서도, 셋 중 가장 중대한 의미를 지닌다. 이 글은 이러한 비대칭성을 다룬다.
렌더러는 상업적으로 단연 가장 성숙하다. 여러 이미지-또는 텍스트-투-비디오 제품이 소비자 및 기업 시장에서 빠르게 확장되고 있다. Google의 Nano Banana 모델은 렌더러 수준의 이미지 생성을 잠재적으로 수억 명의 사용자 손에 쥐여 주었다. 기술은 실재하고, 시장도 실재한다. 그러나 렌더러는 물리적 정확성보다 시각적 그럴듯함에 최적화되며, 이 한계는 중요하다. 그 출력은 아름답지만, 건물을 설계하거나 로봇을 훈련시키는 데 신뢰할 수는 없다.
플래너는 가장 흥미롭고 가장 초기 단계에 있으며, 빠르게 진화하는 로봇 학습 분야와 긴밀히 연결되어 있다**.** 이 분야는 지난 2년 동안 영상으로 보면 인상적인 로봇 데모들을 내놓았지만, 그 데모들이 실제로 무엇을 보여주는지에 대해서는 솔직함이 필요하다. 거의 모두가 매우 제약된 실험실 환경, 좁은 객체 집합, 짧은 작업 지평에 한정되어 있었다. 실제 세계 배치가 요구하는 복잡성, 변동성, 지속 시간의 수준에서 검증된 것은 하나도 없다. 매력적인 데모 릴과 주방, 창고, 수술실에서 신뢰성 있게 작동하는 로봇 사이의 간극은 여전히 막대하다. 그럼에도 상업적 베팅은 상당하다. 자금력이 풍부한 신규 진입자들의 물결이 범용 계획 시스템 출시를 향해 질주하고 있으며, 가장 큰 인프라 기업들은 더 넓은 시뮬레이션 스택 위에 플래닝을 위치시키고 있다. 계획할 수 있는 로봇은 곧 일할 수 있는 로봇이며, 업계 전체가 그 지점에 가장 먼저 도달하기 위해 경쟁하고 있다.
시뮬레이션은 이 둘 사이의 다리다. 언어가 세계의 추상화이고 픽셀이 그 투영이라면, 기하학, 물리, 동역학은 세계 그 자체다. 시뮬레이터는 바로 그 수준에서 작동해야 한다. 즉, 시각적 외양은 물론이고 행동의 결과까지도 도출될 수 있는 구조적 골격이어야 한다.
시뮬레이션을 마스터한 모델은 자신의 이해를 인간을 위한 픽셀로도, 체화된 에이전트를 위한 행동 예측으로도 투영할 수 있다. 반대로 렌더링만 혹은 플래닝만 마스터한 모델은 둘 중 어느 것도 해낼 수 없다. 상업적 활용 범위는 막대하다. NVIDIA의 Omniverse만 해도 회사 추산으로 공장, 창고, 공급망, 디지털 트윈에서 1조 달러가 넘는 잠재 시장을 겨냥하고 있다. 로보틱스 훈련, 자율주행차 테스트, 건축 시각화, 엔지니어링, 신약 발견 모두 시뮬레이션과 같은 형태의 무언가에 의존한다.
이 분야에서 가장 어려운 미해결 문제들도 바로 여기에 있다. 명시적 기하학, 재료 속성, 물리 주석을 포함하는 3차원 데이터는 렌더러가 학습하는 인터넷 비디오보다 규모 면에서 몇 자릿수나 더 희소하다. 시뮬레이션에서 사물이 행동하는 방식과 현실에서 행동하는 방식의 차이인 sim-to-real gap도 여전히 존재한다. 생성형 시뮬레이터는 여기에 새로운 위험을 더한다. AI가 생성한 기하학은 겉으로는 맞아 보이면서도 자기 교차나 잘못된 스케일을 포함해 말이 안 되는 물리를 만들어낼 수 있다. 강체, 변형체, 유체, 천이 모두 상호작용하는 대규모 다중 물리 시뮬레이션은 단일 도메인 시뮬레이션보다 여전히 몇 자릿수나 더 비싸다.
World Labs에서 Marble은 이 영역으로의 우리의 첫걸음이다. 이것은 텍스트, 이미지, 비디오, 혹은 공간 스케치 같은 멀티모달 프롬프트를 받아 탐색 가능한 3D 환경을 생성하며, 시각적 탐색을 위한 Gaussian splats와 물리 엔진이 작동할 수 있는 collision meshes를 함께 출력한다. 그러나 Marble은 렌더링, 시뮬레이션, 플래닝 사이의 경계가 붕괴하기 시작하면서 분야 전반에 걸쳐 쓰이고 있는 더 긴 여정의 첫 장에 불과하다.
하지만 앞으로는 더 많은 것이 온다. 지금 이 분야에서 가장 중요한 패턴은 세 범주가 서로 섞이기 시작하고 있다는 점이다. 공통된 통찰은 세계를 렌더링하고, 시뮬레이션하고, 그 안에서 행동하는 데 필요한 지식이 대체로 같다는 것이다. 앞선 컵의 예를 이어가면, 컵이 탁자 위에 어떻게 놓여 있는지(그 기하학, 재료 속성, 힘에 대한 반응 등)를 진정으로 이해하는 모델은 그 컵을 어느 각도에서든 렌더링할 수 있어야 하고, 컵이 밀렸을 때 어떤 일이 벌어지는지도 시뮬레이션할 수 있어야 하며, 손이 그 컵을 집어 들도록 계획할 수도 있어야 한다. 이 세 범주는 하나의 기저 이해가 드러나는 세 가지 투영이다.
예를 들어, 다양한 로보틱스 연구실의 최근 연구들 가운데 작지만 점점 커지고 있는 일부는 적어도 개념적으로는 사전학습된 비디오 렌더러를 세계와 행동의 공동 예측을 위한 백본으로 사용할 수 있음을 보여주었다. 이는 하나의 모델이 무슨 일이 일어날지와 무엇을 해야 할지를 함께 상상하게 함으로써 렌더러와 플래너 사이의 다리를 제시한다. World Labs의 Marble은 이미 하나의 모델에서 Gaussian splats와 collision meshes를 함께 출력하며 렌더러와 시뮬레이터 사이의 경계를 녹이고 있다. 모든 수준이 수동적 출력에서 인터랙티브 시스템으로 이동하고 있으며, 렌더러는 행동 조건화형이 되고, 시뮬레이터는 더 통제 가능하고 편집 가능한 세계를 생성하며, 플래너는 단순 반응이 아니라 숙고를 수행하게 되고 있다.
**논리적 종착점은 통합된 세계 모델이다. 즉, 사진처럼 사실적인 시점을 렌더링하고, 물리적으로 정확한 구조를 생성하며, 행동 시퀀스를 계획할 수 있고, 다운스트림 소비자가 무엇을 필요로 하느냐에 따라 출력 양식을 전환할 수 있는 하나의 파운데이션 모델이다.**우리는 여전히 수많은 벅찬 도전에 직면하게 될 것이다. 데이터 상황은 고르지 않다. 렌더러는 인터넷 비디오가 넘쳐나는 반면, 시뮬레이터와 플래너는 3D 자산과 로봇 시연의 심각한 부족에 직면해 있다. 시각적 아름다움에 대한 최적화는 로봇이나 고충실도 시뮬레이션이 필요로 하는 정밀성을 희생시킬 수 있다. 이러한 긴장을 하나의 아키텍처 안에서 조정하는 것이 오늘날 세계 모델 연구의 핵심적인 미해결 문제이며, World Labs가 Marble을 계속 진화시키며 이루고자 하는 것도 바로 이것이다.
그러나 방향은 분명하다. 1980년대 후반 이래 이 분야가 해 온 동일한 베팅, 즉 충분히 풍부한 세계 모델만 있다면 어떤 에이전트든 세계를 보고, 구축하고, 그 안에서 행동하는 데 필요한 것은 그것으로 충분하다는 베팅이 이제 한 세대 전체의 연구를 움직이고 있다. 그 “큰 베팅”에 무게를 부여하는 것은 이미 진행 중인 수렴이다. 각각 그 자체로 이미 수십억 달러 규모의 산업을 움직이고 형성해 온 세 갈래의 흐름이 별개의 연구 프로그램으로 시작되었지만 이제는 하나처럼 움직이기 시작했다. 이들을 함께 보면, 그 경계가 무너짐에 따라 더 큰 무언가를 재구성하게 될 것이다. 그것은 기계 지능과 그것이 거주하는 물리적 세계 사이의 관계, 즉 공간 지능의 긴 호이다.
언어는 기계가 그 세계에 대해 말할 수 있는 방법을 주었다. 세계 모델은 기계가 마침내 그 세계를 이해하고, 상상하고, 추론하고, 상호작용하게 되는 방식이다.
이 사명에 마음이 끌린다면, World Labs careers page에서 열려 있는 역할을 확인해 보시기 바란다.