언어 모델의 환각이 표준 학습·평가 절차가 불확실성 인정보다 추측을 보상하기 때문에 발생한다는 점을 설명하고, 정확도 중심의 점수판을 수정해 불확실성 표현에 보상을 부여해야 함을 제안한다. 또한 다음 단어 예측 기반의 사전학습에서 어떤 유형의 환각이 생기는지와 이를 줄이기 위한 방향을 논의한다.
OpenAI에서는 AI 시스템을 더 유용하고 신뢰할 수 있게 만들기 위해 노력하고 있습니다. 언어 모델이 점점 더 유능해지고 있지만, 여전히 완전히 해결하기 어려운 고질적인 과제가 하나 있습니다. 바로 ‘환각’입니다. 여기서 환각이란, 모델이 자신 있게 사실이 아닌 답을 생성하는 경우를 말합니다. 우리의 새 연구 논문(새 창에서 열림)은 표준적인 학습 및 평가 절차가 불확실성을 인정하는 것보다 추측을 더 보상하기 때문에 언어 모델이 환각을 일으킨다고 주장합니다.
ChatGPT 역시 환각을 보입니다. GPT‑5는 특히 추론에서 환각이 크게 줄었지만, 여전히 발생합니다. 환각은 모든 대규모 언어 모델이 겪는 근본적인 도전과제로 남아 있으며, 우리는 이를 더 줄이기 위해 계속 노력하고 있습니다.
환각은 언어 모델이 만들어내는 그럴듯하지만 사실이 아닌 진술입니다. 이는 겉보기엔 단순해 보이는 질문에서도 뜻밖의 방식으로 나타날 수 있습니다. 예를 들어, 널리 사용되는 한 챗봇에 이 논문의 저자 중 한 명인 Adam Tauman Kalai의 박사학위 논문 제목을 물었을 때, 모델은 자신 있게 서로 다른 세 가지 답을 내놓았으나 모두 틀렸습니다. 그의 생일을 묻자 세 가지 서로 다른 날짜를 제시했는데, 역시 모두 오답이었습니다.
환각이 지속되는 이유 중 하나는 현재의 평가 방식이 잘못된 유인을 설정하기 때문입니다. 평가 그 자체가 환각을 직접 유발하는 것은 아니지만, 많은 평가가 모델의 수행도를 불확실성에 대한 정직함보다 ‘추측’을 장려하는 방식으로 측정합니다.
이를 객관식 시험으로 생각해 보겠습니다. 정답을 모른 채 무작정 찍으면 운 좋게 맞을 수도 있습니다. 빈칸으로 두면 점수는 0점이 보장됩니다. 마찬가지로 모델이 정확도, 즉 정확히 맞힌 문제의 비율로만 채점될 때, 모델은 “모르겠다”고 말하기보다 찍도록 유도됩니다.
또 다른 예로, 어떤 사람의 생일을 묻는 질문을 모델이 받았지만 답을 모른다고 해봅시다. “9월 10일”이라고 찍으면 맞힐 확률이 365분의 1입니다. “모르겠다”고 말하면 0점이 보장됩니다. 수천 개의 시험 문항을 놓고 보면, 추측하는 모델이 불확실성을 인정하는 신중한 모델보다 점수판에서 더 좋아 보이게 됩니다.
정답이 하나뿐인 질문에서는 응답을 세 가지 범주로 나눌 수 있습니다. 정확한 응답, 오답, 그리고 추측하지 않고 답변을 보류(abstain)하는 경우입니다. 보류는 OpenAI의 핵심 가치 중 하나인 ‘겸손(humility)’의 일환입니다. 대부분의 점수판은 정확도를 기준으로 모델을 우선시하고 순위를 매기지만, 오답은 보류보다 더 나쁩니다. 우리의 Model Spec(새 창에서 열림)은 틀릴 가능성이 있는 정보를 자신 있게 제공하는 것보다, 불확실함을 표시하거나 설명을 요청하는 편이 낫다고 명시합니다.
지표gpt-5-thinking-miniOpenAI o4-mini 보류율
(구체적 답변을 하지 않음)52%1% 정확도
(정답 비율, 높을수록 좋음)22%24% 오류율
(오답 비율, 낮을수록 좋음)26%75% 합계 100%100%
정확도만 보면, 이전 세대 모델인 OpenAI o4-mini가 약간 더 좋습니다. 그러나 그 모델의 오류율(즉, 환각률)은 훨씬 더 높습니다. 불확실할 때 전략적으로 찍으면 정확도는 올라가지만, 오답과 환각도 증가합니다.
수십 가지 평가 결과를 평균해 보면, 대부분의 벤치마크는 정확도라는 단일 지표만 뽑아 보는데, 이는 옳고 그름의 이분법을 초래합니다. SimpleQA처럼 단순한 평가에서는 일부 모델이 정확도 100%에 근접해 환각을 사실상 없애기도 합니다. 그러나 더 어려운 평가나 실제 사용 상황에서는, 다양한 이유(정보 부재, 작은 모델의 제한된 사고 능력, 명확화가 필요한 모호성 등)로 인해 정답을 결정할 수 없는 문항이 존재하기 때문에 정확도는 100%에 도달하지 못합니다.
그럼에도 정확도만을 보는 점수판이 리더보드와 모델 카드에서 지배적이어서, 개발자들은 뒤로 물러서기보다 추측하는 모델을 만들게 됩니다. 이것이 바로 모델이 더 고도화되더라도 여전히 환각을 일으키는 이유 중 하나입니다. 불확실성을 인정하기보다 자신감 있게 틀린 답을 내놓기 때문입니다.
해결책은 간단합니다. 불확실성에 대한 페널티보다 자신감 있는 오류에 더 큰 페널티를 부과하고, 적절한 불확실성 표현에는 부분 점수를 부여하십시오. 이 아이디어는 새롭지 않습니다. 일부 표준화 시험은 맹목적 추측을 막기 위해 오답에 음수 점수를 주거나 무응답에 부분 점수를 주는 ‘네거티브 마킹’을 오래전부터 사용해 왔습니다. 여러 연구 그룹도 불확실성과 보정(calibration)을 반영하는 평가를 탐구해 왔습니다.
우리가 강조하고 싶은 점은 다릅니다. 옆가지로 몇 개의 ‘불확실성 인지형’ 평가를 추가하는 것만으로는 충분치 않습니다. 널리 쓰이는 정확도 기반 평가의 채점 방식을, 추측을 억제하도록 업데이트해야 합니다. 주요 점수판이 계속해서 요행의 정답을 보상하는 한, 모델은 계속 추측하는 법을 배우게 됩니다. 점수판을 바로잡으면, 새로 개발된 기법이든 기존 연구에서 나온 기법이든 환각 감소 기술의 도입이 폭넓게 확산될 수 있습니다.
우리는 환각이 왜 그렇게 제거하기 어려운지에 대해 이야기했습니다. 그렇다면 애초에 이런 매우 구체적인 사실 오류는 어디서 비롯될까요? 결국, 대규모 사전학습 모델은 철자 오류나 괄호 불일치 같은 다른 유형의 오류는 거의 보이지 않습니다. 차이는 데이터에 존재하는 패턴의 종류에 있습니다.
언어 모델은 먼저 _사전학습(pretraining)_을 통해, 방대한 텍스트에서 다음 단어를 예측하는 법을 배웁니다. 전통적인 기계학습 문제와 달리, 각 진술에 ‘참/거짓’ 라벨이 붙어 있지 않습니다. 모델은 유창한 언어의 ‘정답 예시’만을 보고 전체 분포를 근사해야 합니다.
유효한 진술과 무효한 진술을 구분하는 일은, 무효 예시로 라벨링된 데이터를 하나도 보지 못한 상태에선 두 배로 어렵습니다. 하지만 라벨이 있더라도 일부 오류는 불가피합니다. 그 이유를 더 단순한 비유로 살펴보겠습니다. 이미지 인식에서 수백만 장의 고양이·개 사진에 ‘고양이’ 또는 ‘개’ 라벨이 붙어 있다면, 알고리즘은 이를 신뢰성 있게 분류하는 법을 배울 수 있습니다. 그러나 각 반려동물 사진을 그 동물의 생일로 라벨링한다고 상상해 보십시오. 생일은 사실상 무작위이므로, 알고리즘이 아무리 발전해도 이 과제에선 항상 오류가 발생할 것입니다.
사전학습에서도 같은 원리가 적용됩니다. 철자나 괄호는 일관된 패턴을 따르므로, 규모가 커지면 해당 오류는 사라집니다. 하지만 반려동물의 생일처럼 임의적이고 저빈도의 사실은 패턴만으로 예측할 수 없고, 따라서 환각으로 이어집니다. 우리의 분석은 어떤 유형의 환각이 다음 단어 예측에서 발생할지를 설명합니다. 이상적으로는 사전학습 이후의 추가 단계들이 이를 제거해야 하지만, 앞 절에서 설명한 이유로 완전히 성공적이지는 않습니다.
우리 논문이 제시하는 통계적 관점이 환각의 본질을 명확히 하고, 흔한 오해를 바로잡는 데 도움이 되길 바랍니다.
최신 모델들은 더 낮은 환각률을 보이며, 우리는 언어 모델이 자신 있게 내놓는 오류의 비율을 더 줄이기 위해 계속 노력하고 있습니다.