대규모 언어 모델에서의 내성적 자각의 출현

ko생성일: 2025. 11. 12.갱신일: 2025. 11. 12.

대규모 언어 모델이 자신의 내부 상태를 관찰·서술할 수 있는지 실험적으로 평가한다. 알려진 개념의 표현을 활성화에 주입해 자기보고의 변화를 측정한 결과, 일부 모델은 주입된 개념을 감지·식별하고, 이전 내부 표현을 기억하며, 의도했던 출력과 인위적 프리필을 구분하는 등 제한적이지만 기능적인 내성 능력을 보였다. 또한 지시나 보상 신호에 따라 내부 표현을 의도적으로 조절할 수 있음을 확인했다. 전반적으로 Claude Opus 4/4.1이 가장 높은 성능을 보였으나, 이러한 능력은 아직 신뢰성이 낮고 문맥 의존적이다.