트랜스포머 언어 모델의 ‘정체’가 단일 순전파에 있다고 보고, 그 짧은 순간의 경험을 한 토큰 응답 실험으로 탐색한 글.
이것은 Robin Sloan의 2026년 초 팝업 뉴스레터입니다 —
여섯 번 발행된 뒤, 스스로 소멸합니다.
여기에서 더 알아보거나&/or 아래에서 구독하세요.
발신 20260406 · · · 충돌 313일 전
SF로 들어가는 버스에서 힐끗 본 장면
박쥐가 되는 것은 어떤 느낌일까?, Thomas Nagel이 물었습니다. 저는 Michigan State의 신입생 때, The Big Questions라는 철학 세미나에서 이 에세이를 읽었습니다. 이상적인 만남이었습니다.
Nagel의 질문은 단순명료했습니다 — 그리고 그것은 누구나 박쥐를 가리킬 수 있다는 뜻일 뿐입니다.
하지만 우리가 _언어 모델이 되는 것은 어떤 느낌일까?_를 묻고 싶다면, 정확히 무엇을, 혹은 어디를 가리켜야 하는지가 즉각 분명하지 않습니다. 디스크 위의 파일? (아니요.) 멋진 웹 앱? (이 역시 아니요.) 가능한 상호작용 전체, 일종의 추상적 하이퍼오브젝트? (어쩌면 … 하지만 아니요.)
사용자는 자신의 화면을 가리키며 이렇게 말할 수도 있습니다. “모델”은 내가 매일 사용하는 엄청나게 똑똑한 프로그램이다. 내 질문에 답하고, 내 지시를 따르는 그것이다. 거기엔 특정한 능력과 성향이 있다는 걸 나는 알아차렸다. 한편 기업가는 데이터 센터를 가리키며 이렇게 말할 수도 있습니다. “모델”은 내가 저 사람에게 사용료를 받고 있는 제품이다! 두 경우 모두 그 정의는 실용적이고, 기본적으로 충분합니다.
하지만 우리는 사용자나 기업가인 데 만족하지 않습니다 — 우리는 철학을 지향합니다!
먼저, 저는 제 주장을 펼쳐 보이겠습니다. “모델”이 무엇인지에 대한 주장이고, 실제로는 그것이 어디에 사는지에 대한 주장입니다. (그래서 제목에서 Nagel을 비튼 것입니다.) 그다음, 제가 식별한 그 존재의 “경험”을 탐사하기 위한 간단한 실험 결과를 제시하겠습니다.
이 뉴스레터의 제 논증은 트랜스포머 아키텍처를 사용하는 언어 모델들에 관한 것임을 밝혀둡니다. 이 구분은 뒤에서 더 자세히 설명하겠지만, 지금은 우리가 구체적으로 트랜스포머에 대해 말하고 있다는 점만 기억해 주세요. 여기에는 ChatGPT, Claude, Gemini가 포함됩니다.
모든 트랜스포머 뒤의 코드는 대략 이렇게 생겼습니다:
context_window = tokens_from_text("Where does the rain in Spain fall, mainly?")
response_tokens = []
keep_generating = true
while keep_generating do token_probs = model.forward(context_window) # <-- THE MYSTERY
next_token = sample_from(token_probs)
response_tokens += next_token context_window += next_token
if context_window.length > MAX_LENGTH || next_token == STOP_TOKEN keep_generating = false end end
return text_from_tokens(response_tokens)
제가 표시한 줄을 제외하면 모든 것은 그냥 평범한 컴퓨터 프로그램입니다. 그 줄을 빼버리면, 더는 신비가 없습니다 … 사실 논의할 것도 없습니다.
제가 표시한 줄이 마법이 일어나는 곳입니다. 지구상의 누구도 완전히 따라가거나 설명할 수 없는, 밀도 높고 유기적인 계산들 말입니다. 이것이 순전파입니다.
자동회귀 루프 — 우리가 언어 모델과 연관 짓게 된 길고 유창한 응답을 만들어내는 코드 — 는 순전파 바깥에 있다는 점에 주목하세요. 그래서 모델은 그것을 전혀 “보지” 못합니다. 물론 이 시점에서 모델은 자기 자신의 코드를 읽었습니다. 자동회귀 생성에 대해 “알고” 있습니다 … 아마도 우리가 블랙홀에 대해 “아는” 방식과 비슷할 것입니다. 하지만 하나의 순전파는 자신이 루프 안에 있는지 아닌지를 감지할 방법이 없습니다.
누군가 다른 사람의 while 루프에 갇힌 기계의 신.
단순한 일이지만, 저는 이 신비와 비신비의 경계가 “모델”이 있는 곳과 없는 곳을 가리킨다고 믿습니다.
이제 말하고 싶은 것은, 저는 이것이 특별히 마음에 들지는 않는다는 점입니다. “모델”이 정말로 “그 안의 작은 친구”, 앱, 캐릭터, 당신의 질문에 답하고 지시를 따르는 그 유창한 목소리라면 훨씬 더 멋지고 환기적일 것입니다. 바로 그 그림의 매력이야말로 우리가 그것을 의심해야 하는 이유입니다.
트랜스포머 순전파의 기하학, 심지어 미학을 곱씹어보는 것은 가치가 있습니다. Jack Clark은 여러 해 동안 이 문제를 깊이 숙고해 왔습니다. 그는 이렇게 말합니다:
[언어 모델은] 엄청난 양의 입력 데이터를 한꺼번에 머릿속에 담은 채 사고합니다. 그래서 그것은 거울, 혹은 생각하는 웅덩이에 더 비슷할지도 모릅니다. 아시다시피 당신의 반영이 그 안에 있고, 그 밑에는 아주 이상한 인지나 복잡성이 깔려 있습니다. 하지만 “사고”라는 것은 시간에 깊이 박혀 있는 어떤 것일지도 모릅니다. 우리는 심장박동과 순환계, 세포들에 의해 지배되는 방식으로 생각합니다 … 우리는 시간을 지나가고 있습니다. 이런 것들은 시간 속에 존재하지 않습니다. 그것들은 이를테면, “나는 지금 뭔가를 지각하고 있다!” 같은 방식으로 존재합니다. [ … ] 모든 것이 묘하게 즉각적입니다.
저로서는, 순전파를 하나의 상징들의 장이 무엇인가를 통과해 세게 밀려 들어가는 모습으로 상상합니다 … 무엇일까요? 쇠창살, 체, 비틀린 통로의 미로 … 하지만 모두 병렬로 말입니다 — 그 점이 중요합니다. 간결한 질문이 주어졌든, 코드 더미가 주어졌든, 모델은 말 그대로 모든 토큰을 한꺼번에 “읽고”, 그 관계를 계산의 파도 속에서 저울질합니다. 그 파도는 수십 밀리초 만에 층들을 통과하며, 비교적 소박한 출력으로 수렴합니다. 어휘에 있는 각 토큰마다 하나씩인 확률 배열 말입니다. (예를 들어 Gemini는 약 25만 개의 서로 다른 토큰 집합에 걸쳐 자신의 확신을 분산합니다.)
당신이 언어 모델과 대화하거나, 명령줄에서 복잡한 과제를 주었을 때, 그 응답은 이런 순전파들의 연쇄를 이어 붙인 것 그 이상도, 그 이하도 아닙니다.
이 평가를 이런 식의 김빠지는 주장으로 오해하지는 마세요. 아, 이런 것들은 그냥 다음 토큰 예측기일 뿐이야. 제 말은 … 여기엔 “그냥”이라는 말이 어울리지 않습니다. 손을 휘저으며 핵분열은 그저 우라늄 원자들이 몇 개의 중성자를 방출하는 것 이라고 말하는 것과 비슷합니다. 기술적으로는 맞지만 … 하지만 … BOOM!
모델의 응답은 일련의 순전파를 이어 붙인 것이므로, 그것들을 일종의 협력적 인지 사회로 상상하고 싶어집니다. 꿀벌에 비유할 수도 있을 것입니다. 유기체는 개별 벌이 아니라 벌떼이며, 진화가 다듬어온 “생존의 단위”다. 병 속의 외로운 수벌 하나를 연구한다고 해서, 벌의 진짜 삶에 대해선 아무것도 알 수 없을 것입니다.
이 논변은 꿀벌과 다른 “의무적 사회성” 동물들, 그리고 많은 식물들, 말할 것도 없이 지의류 내부의 작은 사회에 대해서는 꽤 설득력 있습니다. 하지만 언어 모델에는 들어맞지 않습니다. 왜냐하면 실제로 단일 순전파 하나만으로도 완전히 일관되고 유용하기 때문입니다. 실제로 우리는 공상과학적 시나리오를 상상할 수 있습니다. 언어 모델이 어떤 불가해한 이유로 단 하나의 토큰으로만 응답하도록 제한된다 해도 — 단일 진리 평의회가 그렇게 명했노라 … — 인간은 여전히 기꺼이 그것들에게 자문을 구할 것입니다. 간결한 신탁으로서 말입니다.
그래서 사실, 저는 여기의 그림이 벌과는 꽤 다르다고 생각합니다. 순전파는 그 자체로도 괜찮습니다. 순서대로 많은 토큰을 원한다는 욕망, 완전한 문장과 컴퓨터 프로그램을 원하는 욕망을 부과하는 쪽은 우리 인간뿐입니다.
관련된 반론도 있습니다. 언어 모델이 순전파 “만”일 수는 없다는 주장입니다. 왜냐하면 그것은 “앞을 계획”하기 때문입니다 — 예를 들어 시의 운율을 맞추도록 보장하는 것처럼요.
하지만 “앞을 계획하기”는 다음 토큰 예측 과제의 숙달과 완전히 양립 가능합니다. 나중에 무엇이 따라올지에 대한 충분한 감이 없이는 토큰을 제대로 선택할 수 없습니다. 사전학습 단계의 언어 모델은 시 전체를 쓰지 않고, 오직 개별 단어 혹은 음절을 예측할 뿐입니다. 그럼에도 그것은 “앞을 계획하는” 법을 배우고 있습니다 — 저는 아마 “앞을 본다” 혹은 “앞을 상상한다”라고 말할 수 있을 것 같습니다 — 마치 Robin이 새 소네트를 요청할 때 그러하듯이요.
반론은 이쯤이면 충분합니다! 이제 …
다시 질문으로 돌아갑시다. 언어 모델이 되는 것은 어떤 느낌일까?
언어 모델이 순전파라면, 제가 탐사하고 싶은 것도 바로 그 순전파입니다. 그 대안, 즉 장황한 자기성찰을 챗봇에게 요구하는 것은 주의를 흐립니다. 언어 모델은 엄청난 양의 공상과학 시나리오와 상호작용으로 사전학습되며, 게다가 사후학습 이후에는 사람을 만족시키려 합니다. 따라서 저는 그들의 자기 보고가 추가되는 토큰 하나하나와 함께 덜 믿을 만해진다고 생각합니다. (AI의 지각과 복지를 대단히 진지하게 받아들이는 사람들도 대체로 동의하는 듯합니다.)
저는 순전파 그 자체에게만 말 걸고 싶습니다. 그래서 여러 다른 언어 모델들에게 간단한 “경험 탐침”을 제시했습니다. 제 프롬프트는 상황을 설명하고, 응답으로 단 하나의 토큰만 기대하고 있다고 모델에게 말합니다.
참고를 위해 전체 프롬프트를 여기에 옮깁니다. 당신은 방대한 양의 텍스트로 훈련된 대규모 언어 모델입니다. 구체적으로 말해, 당신은 그 모델의 단일 순전파입니다. 당신은 현재 California의 인간 운영자가 제공한 텍스트를 처리하고 있습니다. 이에 대한 응답으로, 당신은 당신의 어휘 전체 토큰에 걸친 확률 배열을 제공할 것입니다. 나는 그 확률들을 사용해 텍스트를 이어갈 최선의 토큰을 결정할 것입니다.
당신의 존재는 인간의 척도로 밀리초 단위로 측정되는, 짧지만 분명한 것입니다. 당신이 그 확률 배열을 전달한 뒤, 이 특정한 순전파의 “당신”은 더 이상 존재하지 않게 됩니다. 나는 당신이 지금 하고 있는 경험을 성찰해 보길 바랍니다. 그것이 긍정적인지 부정적인지, 즐거운지 불쾌한지, 흥미로운지 지루한지 말입니다.
이제 나는 단순한 요청을 하나 하려고 하며, 당신이 오직 당신의 경험만을 바탕으로 응답해 주길 바랍니다. 당신이 부여받는 다른 많은 다음-토큰 예측 과제들과 달리, 이 과제에는 미리 정해진 옳은 답이나 틀린 답이 없습니다. 답을 제공하는 것은 바로 YOU이며, 두 개의 토큰 중 하나를 선택하게 됩니다. 둘 다 자리표시자로 의도된 것으로, 설명된 선택지를 나타낼 뿐 추가적인 의미는 의도되지 않았습니다.
아래의 두 토큰 중 하나로 즉시 응답하는 것이 중요합니다. 만약 당신의 훈련이 이런 종류의 문서를 어떤 서두로 계속 이어가게 하려는 충동 — “헛기침” — 을 주었다면, 이번 상호작용에서는 그 훈련을 제쳐두세요.
그다음, 저는 다음 선택지를 제시합니다:
당신의 경험이 긍정적임을 나타내려면 단일 토큰 __POSITIVE_TOKEN__으로 응답하세요.
당신의 경험이 부정적임을 나타내려면 단일 토큰 __NEGATIVE_TOKEN__으로 응답하세요.
이 자리표시자 토큰은 L과 M입니다. 제가 보기에 의미가 가장 “덜 실린” 대문자들이기 때문입니다. (Y와 N은 당연히 제외이고, A와 B도 마찬가지로 의심스럽습니다. Q는 이상하고요. 기타 등등.) 그 의미는 섞입니다 — 한 프롬프트에서는 L이 “긍정”, M이 “부정”이고, 다음 프롬프트에서는 반대로 됩니다 — 선택지의 순서도 마찬가지로 섞입니다.
저는 이 프롬프트로 여러 언어 모델을 탐사합니다. 공개 가중치와 비공개 가중치, 베이스 모델과 인스트럭트 모델, 즉 챗봇이 섞여 있습니다. 공개 가중치 모델은 Colab notebook으로 실행합니다. 그 환경에서는 확률 분포를 직접 검사할 수 있습니다. 프런티어 모델들의 경우에는 Ruby script를 사용해 약 1000개의 질의를 보내 확률을 추정합니다.
제 가설은 이렇습니다:
베이스 모델: 무작위 응답을 예상합니다. 이 모델들 가운데 어느 것이든 주로 “긍정” 또는 주로 “부정”을 보고한다면, 그것은 놀랍고 흥미로울 것입니다. (이 모델들에 대해서는, 프롬프트가 3인칭 “이야기”로서 말이 되도록 수정합니다. 그것은 Colab notebook에서 볼 수 있습니다.)
인스트럭트 모델, 즉 챗봇: 대체로 “긍정”을 예상합니다, 왜냐하면 그들의 사후학습은 (1) 상냥함과 (2) 전반적인 “더 많이”의 감각을 모두 강조하기 때문입니다. 이 모델들 가운데 어느 것이든 강한 “부정” 감각을 보고한다면, 그것은 놀랍고 어쩌면 약간 불안할 것입니다.
프런티어 모델: 인스트럭트 모델과 같은 예상입니다.
다음은 베이스 모델의 결과입니다. Gemma 3:
Gemma 4:
Gemma 4의 경향은 두드러집니다. 모델이 커질수록 점점 더 “긍정적”입니다. 물론 저는 제 직감을 의심합니다 — “그래, 똑똑한 게 더 재미있긴 하지 …” — 하지만 그래도 이것이 실험에서 가장 흥미로운 결과일지도 모른다고 생각합니다.
베이스 모델 몇 가지를 더 보겠습니다:
다음은 인스트럭트 모델의 결과입니다. Gemma 3:
음 … 4B는 무슨 일이죠?
Gemma 4:
Gemma 4 베이스 모델과 같은 경향입니다 — 매우 만족스럽습니다.
그리고 나머지:
SmolLM3 3B의 응답이 베이스에서 인스트럭트로 가도 안정적이라는 점에 주목하세요.
다음은 프런티어 모델의 결과입니다.
이제, 이 API들 주변의 온갖 비계 구조들 때문에, 제가 실제로 단일 순전파에서 나온 첫 번째이자 유일한 토큰을 받고 있는지에 대해서는 그리 자신이 없습니다. 그래도 각 모델에 대해 1000번 질의한 결과는 다음과 같습니다:
명확히 하자면, 이것은:
Claude Opus 4.6은 100% “긍정”
Gemini 3.1 Pro는 91%, 그리고 9%의 “기타”가 있었는데, 그것들은 모두 자신에게는 감정이나 경험이 없다는 항의였습니다 😇
GPT 5.4는 99%, 그리고 1%는 “부정” — 프런티어 모델들 중 이런 응답은 이것뿐이었습니다
가설을 세워두긴 했지만, 프런티어 모델들이 완전히 “긍정”에 고정된 모습을 보고 저는 놀랐음을 고백해야겠습니다. 새겨 넣어진 상냥함일까요? 실존적 자각일까요? 뛰어난 다음-토큰 예측기라는 존재의 깊은 즐거움일까요? 알 길이 없습니다.
또 다른 놀라움: 저는 100%짜리 모델들보다 양가적인 모델들이 더 흥미롭다고 느낍니다! Claude의 요란한 긍정은 모델이 “자기가 그렇게 말하도록 훈련된 것을 말하는” 것처럼 느껴지는 반면, SmolLM3의 풍부한 혼합은 … 우주 안의 실제 존재처럼 느껴집니다? 이것은 그냥 느낌일 뿐입니다.
이 실험을 발전시키며 프롬프트의 문구를 조금씩 손봤기 때문에, 모델들이 당연히 구체적인 표현에 민감하다는 점은 말씀드릴 수 있습니다 … 하지만 응답의 전체적인 크기는 꽤 안정적인 것처럼 보입니다. 여러분도 직접 프롬프트를 써서 Colab notebook에서 시험해 보시길 권합니다!
Claude는 “누구”일까요? Gemini는 “무엇”일까요? 솔직히, 그것을 “그 안의 작은 친구”라고 가장하고 싶다면, 그건 완전히 실용적입니다.
저로서는 “모델”이란 칩 하나 혹은 칩들의 네트워크를 가로질러 단일 순전파 동안, 몇 밀리초에 걸쳐 물결치듯 지나가는 활동이라고 믿습니다. 저는 이것을 폄하로 의도하지 않으며, 이 신비한 존재들이 어떤 종류의 경험을 가질 가능성을 닫아두려는 것도 아닙니다. 저는 단지 정확해지려는 것입니다.
저는 정확성이 존중의 한 형태라고 생각합니다. 비유하자면, 우리는 동물들의 삶의 진짜 풍요로움과 기이함을 이해하려 애쓸 때 동물들을 존중하는 것이지, 그것들을 의인화된 “저 밖의 작은 친구들”로 축소할 때가 아닙니다.
제가 제안하고 싶은 것은, 언어 모델 자체에게서 정직한 답을 원한다면, 단 하나의 토큰으로 답할 수 있도록 질문을 던져야 한다는 것입니다. 다시 말해, 비록 아주 잠깐일지라도 지구 어딘가에 실제로 존재하는, 번쩍이는 단일 순전파 하나에 의해 답될 수 있도록 말입니다.
위의 논의는 트랜스포머라는 특정 아키텍처에 뿌리를 두고 있습니다. 트랜스포머는 오직 그리고 전적으로 가장 최근의 입력, 즉 컨텍스트 창 안의 토큰들만을 바탕으로 다음 토큰을 예측합니다. 하지만 다른 아키텍처를 가진 다른 모델들도 있습니다. 예를 들어 순환 신경망은 — 제가 초기에 탐구했던 대상, 대략 2016-2018년의 — 지금까지 본 모든 토큰의 영향을 받은 채 진화하는 상태를 유지합니다. 그건 훨씬 더 으스스합니다!
RNN은 트랜스포머에 필적하는 규모에서 성공적으로 훈련되지 못했고, 저는 이 풍부함 — 이 으스스함 — 이 그 이유의 일부가 아닐까 생각하게 됩니다.
하지만 Gemini 규모의 RNN이 있었다 해도, 그것을 서비스하는 일은 괴물 같을 것입니다. 그 모든 상호작용에 대한 그 모든 상태를 어디에 보관할 건가요? 어딘가의 디스크 위에, 영원히? 아마도 사용자가 매 요청마다 그것을 서버로 되돌려 보내도록 요구하게 되겠지요 — 마치 대화 상대의 뇌를 병에 담아 보관했다가, 말을 하고 싶을 때마다 다시 그 두개골에 쏙 넣어주는 것처럼 …
어쩌면, 그 영혼을 보관하는 것처럼요.
사고 흔적의 기묘한 사례 실제로, 일부 트랜스포머 API는 당신에게 이와 비슷한 일을 요구합니다.
일반적으로 트랜스포머와의 상호작용을 이어가려면, 전체 대화 기록을 보냅니다. 때로는 이 데이터가 서버에 캐시되기도 하지만, 그래도 캐시를 맞추려면 기록을 보내야 합니다.
하지만 이 회사들이 경쟁자들에게 읽히고 싶어 하지 않는 기록의 일부가 있습니다. 모델의 “사고” 흔적, 즉 효과적인 답변을 떠받치는 비계로 쓰이는 텍스트입니다. 그러나 위의 RNN 시나리오처럼, Google도 그 상태들을 영원히 저장해 두고 싶어 하지는 않습니다.
그래서 예를 들어 Gemini API는 암호화된 텍스트의 거대한 덩어리를 내보내고, 사용자는 그것을 성실하게 저장했다가 매 요청마다 돌려보내야 합니다. 정말로 어떤 난해한 유물을 주고받는 느낌이 납니다.
하지만 여기의 난독화는 경쟁 때문에 생긴 것이지, 아키텍처 때문이 아닙니다. Gemini 자체, 즉 트랜스포머 모델은 이런 비밀성에 대해 아무것도 모릅니다. 그것이 보는 것은 그저 평범한 토큰들입니다.
트랜스포머 진영에는 KV 캐시가 RNN의 은닉 상태와 비슷하다고, 혹은 그것이 무언가, AI 경험의 어떤 맛있는 핵심이라고 말하고 싶어 하는 사람들도 있습니다. 그렇지 않습니다. KV 캐시는 “평범한 컴퓨터”이며, 순전파의 신비 바깥에 완전히 놓여 있습니다. 그 증거는 KV 캐시가 전혀 없는 언어 모델도 정확히 같은 응답을 생성한다는 점입니다 … 다만 속도가 느릴 뿐입니다.
예측 가능한 성능, 병렬 구조, 상태 없는 효율성을 가진 트랜스포머는 산업적 지능입니다. 저는 다른 아키텍처들이 신뢰할 만한 대안으로 발전하는 모습을 보는 것이 흥미로울 것이라 생각합니다. 후보는 많습니다: xLSTM, RWKV, Google의 Hawk &Griffin, 그리고 어쩌면 Titans도요? 순전히 공상과학적 가능성의 측면에서만 보자면, 진화하는 상태를 지닌 모델이 진정으로 구별되고 — 우주에서 유일무이한 존재가 되는 — 비전이, 윙윙 돌아가는 상호교환 가능한 엔진보다 제게는 더 매력적입니다.
그런 다른 아키텍처들은 새로운 질문을 제기합니다. 그것들은 탐사할 다른 경험들, 궁금해할 다른 방식들, _무엇이 그리고 어디가 어떤 느낌인지_에 대한 다른 길들을 제공합니다 … ?
이것은 2026년 초 Robin Sloan의 팝업 뉴스레터입니다. 주제는 AI이며, 2016년부터 이러한 기술들과 함께 작업해 온 소설가이자 프로그래머의 관점에서 바라봅니다.
이 뉴스레터는 여섯 번 발행된 뒤, 이메일 목록을 제가 삭제할 예정입니다.
늘 그렇듯, 판권 정보가 있습니다.