모델은 발전하지만 인간은 그렇지 않을 때, 과거에는 LLM의 실패 모드로 여겨졌던 현상들이 오히려 사람과의 대화에서 더 흔하게 보인다는 관찰을 정리한다.
에이전트
2026년 1월 7일 발행. 작성자 Jakob Kastelic.

아직도 어떤 이들은 왜 컴퓨터가 절대 튜링 테스트를 통과할 수 없는지 논쟁하고 있지만, 나는 반복해서 이런 생각에 부딪힌다. 모델은 계속 좋아지는데 인간은 그렇지 않다면, 테스트의 기준선은 계속 올라가고, 결국 인간들 스스로가 그 테스트를 통과하지 못하게 될지도 모른다는 것이다. 아래는 예전엔 LLM의 실패 모드로 여겨졌지만, 이제는 사람과 대화할 때 더 흔히 관찰되는 것들의 목록이다.
대화에서는 늘 이런 문제가 있었다. 얼핏 작고 제한된 질문을 던졌을 뿐인데, 돌아오는 것은 몇 시간은 되는 것 같은 두서없는 장황한 말들이다. 주제에 대한 지식을 이미 다 소진했는데도, 사람들은 내가 전혀 관심 없는 이야기까지 계속 이어간다. 나는 “생성 중지” 버튼을 찾다가, 내가 할 수 있는 건 힌트를 주거나 무례하게 자리를 떠나는 것뿐이라는 사실을 다시 떠올린다.
좋은 깊은 대화의 가장 좋은 점은 상대가 나를 “이해해 주는” 순간이다. 내가 처한 복잡한 상황을 설명하면, 상대의 답변에서 공명하는 무언가를 발견한다. 적어도 최근의 대형 모델들과 채팅할 때는 그렇다.
하지만 제한된 인간의 정신에 같은 프롬프트—꽤 긴 프롬프트—를 주면, 번번이 프롬프트에 담긴 정보가 어딘가로 사라진다. 집중은 흐트러지고, 나는 핵심 사실을 반복해야 한다. 그럴 때면 직감적으로 더 큰 모델로 업그레이드할 수 있게 돈을 내면 되지 않을까 생각하다가, 인간의 뇌는 업그레이드가 불가능하다는 걸 떠올린다. 할 수 있는 것이라곤 기껏해야 푹 재우는 정도이고, 그러면 “빠름(Fast)” 모드에서 “생각(Thinking)” 모드로 전환될지도 모르지만, 모든 사람에게 보장되는 것도 아니다.
나는 관심사가 많아서, 어느 날이든 커널부터 음악, 문화와 종교에 이르기까지 다양한 주제로 신나게 이야기하고 싶을 때가 있다. 나는 요즘 최상급 모델들 중 어느 하나에라도 프롬프트를 잘 구성해 넣으면, 관심 주제에 대해 신선한 관점을 거의 확실하게 얻을 수 있다는 걸 안다.
그런데 같은 프롬프트를 사람들에게 던지면, 십중팔구 돌아오는 건 정중한 고개 끄덕임과 함께 “딴 생각을 하고 있음”이 분명한 신호이거나, 프롬프트 자체를 요약하는 말, 혹은 세상사가 어떠해야 하는지에 대한 흐릿한 일반론이다. 사실, 내가 무슨 말을 하는지 아는 사람을 만나는 일은 너무나 드물어서 마치 마법 같은 순간처럼 느껴질 정도다.
진짜로 좋은 모델들—말하자면 교육 수준이 높은—이 널리 보급되면서, 공유 지식의 토대가 탄탄한 대화 상대를 AI로 찾는 일은 사소한 일이 되어 버렸다. 이는 내가 새 사람을 만나는 데 관심을 가지는 데 그리 좋은 징조가 아니다.
컨텍스트 윈도우가 작거나 파라미터 수가 적은 모델은 실수에서 배우는 데 어려움을 겪는 듯 보인다. 인간에게는 이것이 문제가 되지 않아야 한다. 우리는 수십 년 단위로 측정되는 장기 기억을 가지고 있고, 가장 중요한 기억에는 감정적 강화도 붙어 있다.
그런데도, 같은 대화 안에서 내가 같은 논리적 오류를 계속해서 지적해야 하는 일이 너무 자주 벌어진다! 나는 당연히 이렇게 생각한다. “추론의 잘못을 짚어 주면, 뇌는 이를 중요한 수정으로 받아들여 즉시 반영해야 하는 거 아닌가?”
하지만 실제로는, 신경 연결이 재배선되는 속도에는 어떤 근본적 한계가 있는 듯하다. 추가 정보를 즉시 활용할 수 있는 최신 모델들과 채팅하고 나서는, 같은 말을 반복해야 하는 상황에 대한 내 인내심이 더 악화되었다.
이쯤 되면 특정 상황에서 무슨 일이 일어나는지 설명하고, 모델이 거기서 얻은 교훈을 유사한 상황에 적용하는 것을 볼 수 있다. 하지만 인간에게서는 그렇지 않다. 같은 원리가 다른 곳에도 적용된다고 말하면, 반응은 한쪽 끝에서는 완전한 어리둥절함이고, 다른 한쪽 끝에서는 비교가 “다르기 때문에” 적용되지 않는다는 체면 세우기식 설명이다. 애초에 비교의 요지는 서로 다른 상황에 같은 원리를 적용하는 것 아닌가? 그럼에도 왜 변명할까?
나는 이런 논의를 사람과 하기보다는 AI와 하는 편을 택하게 되었다.
이는 반대 방향의 문제다. 일반적인 원리를 말해 주면, 그 사람은 이를 구체적 상황에 적용하지 못한다.
사실 나는 평생에 걸쳐 나 자신에게서도 이 실패 모드를 관찰해 왔다. 물리 법칙은 대체로 “명백”하고 이해하기 쉬운 방식으로 주어지지만, 다음 일식까지 얼마나 남았는지 계산하는 일은 나에게 매우 어렵다.
점점 더 나는 이런 것들을 직접 끝까지 생각하기보다는, 최신 대형 모델에 빠르게 프롬프트를 보내고 몇 초 만에 괜찮은 답을 받는다. 즉, 모델은 내가 다른 결함 많은 인간들과의 연결뿐 아니라, 내 자신의 “느린” 사고와의 연결까지도 끊어 놓을 위협이 있다!
의학적 의미에서 환각이란, 그것이 현실이 아니라는 걸 잘 알면서도 무언가가 현실처럼 보이는 현상을 말한다. 모델의 “내면 정신생활”에 대한 직접적 통찰이 없기 때문에, 우리는 모델이 내뱉는 모든 거짓 사실을 환각의 한 형태라고 주장하곤 한다.
하지만 이 단어의 의미는 의학적 의미에서 점점 멀어져, “그냥 틀렸고, 그것이 지속되는 상태” 쪽으로 이동하고 있다. 이는 수세기 동안 인간의 말에도 만연해 있었다. 편리한 예로, 과학 지지자들과 종교 지지자들 사이의 격렬한 논쟁을 찾아보라. (두 가지가 꼭 충돌할 필요가 있는 것도 아닌데!)
모델이 환각을 보일 때는 더 많은 맥락과 증거를 제공하면 종종 사라지지만, 같은 요령이 인간에게는 그다지 잘 통하지 않는 듯하다.
이제 어디로 가야 할까?
한 가지 결론은, LLM이 사람들 사이의 연결감을 손상시키고 있다는 것이다. 이는 마치 10여 년 전 소셜 네트워크가, 더 얕고 모의된 연결로 그것을 대체하며 관계를 파괴할 위협을 했던 것과 비슷하다.
또 다른 해석은, 냉소적으로 말해 인간이 더 강력한 형태의 지능으로 강화되거나 대체될 때가 왔다고 결론내리는 것이다. 내 생각에 우리는 아직 완전히 거기까지 가 있지는 않다. 하지만 일부 대체는 이미 일어났다. 나는 다시는 인간에게 약 천 줄보다 짧은 컴퓨터 프로그램을 작성해 달라고 부탁하지 않을 것이다. LLM이 더 잘하니까.
그런데, 나는 대체 왜 이 글을 쓰고 있는 걸까? 나는 GPT-5에게 추가적인 실패 모드를 물었고, 인간에게서 기대할 수 있는 것보다 훨씬 많은 추가 예시를 찾았다.
이미 논의된 실패 모드 외에도, 인간은 최근의 LLM 병리 몇 가지의 유사물도 보인다. 대화는 종종 지시 드리프트(instruction drift) 로 고통받는데, 사회적 관성이 장악하면서 원래 목표가 조용히 붕괴한다. 또 모드 붕괴(mode collapse) 에서 사람들은 안전한 상투어와 대화 템플릿의 작은 집합으로 되돌아간다. 보상 해킹(reward hacking) 은 진실이나 유용성보다 사회적 승인이나 조화를 최적화하는 것이다. 인간은 자주 프롬프트에 과적합(overfit) 하여, 근본 의도보다는 문자 그대로의 표현에 반응한다. 또한 사회적·평판상의 위험을 피하기 위해 합리적인 질문에도 관여를 거절하는 안전 과잉거부(safety overrefusal) 도 보인다. 추론은 턴 간 비일관성(inconsistency across turns) 으로도 특징지어지며, 모순이 눈에 띄지 않은 채 넘어가곤 한다. 또한 온도 불안정(temperature instability) 이 있어, 피로·감정·청중에 따라 생각의 질과 스타일이 순간순간 극적으로 달라진다.
콘텐츠는 CC BY 4.0 라이선스로 제공된다.