언어의 척도가 목표가 될 때, 그것은 더 이상 좋은 언어가 아니다. LLM의 특정한 언어 습관이 어디서 오는지, 그리고 그것이 글쓰기, 학생 평가, 사고에 무엇을 의미하는지 살펴본다.
언어의 척도가 그 목표가 되는 순간, 그것은 더 이상 좋은 언어가 아니다.
💡
덕후 지수: 1/5. 이 글에서는 LLM에서 나타나는 특정한 언어적 버릇의 기원을, 그리고 그것이 글쓰기, 학생 평가, 사고에 무엇을 의미하는지 이야기한다.
"그건 _x_가 아니다, _y_다."
대규모 언어 모델은 부정적 병렬법이라고 불리는 이런 유형의 구조로 기울어지는 경향이 있다. 이 표현에는 나름의 용도가 있다. 대비를 설정해 주기 때문이다. 특히 전제를 재구성하는 데 유용하다. "당신은 그게 _저것_과 같다고 생각하지만, 사실은 _이것_과 더 가깝다" 같은 식이다.
이 표현은 소셜 미디어 곳곳에 있고, 특히 LinkedIn에서 두드러지며, 자동화된 언어 생산에 대한 지속적인 전쟁 속에서 반발까지 불러일으켰다. em-dash를 쓴다면 – 당신은 봇일지도 모른다. 무언가를 delve, quietly, 또는 genuinely ( 같은 말로 묘사하거나, 방금 그것처럼 셋으로 된 목록을 만든다면, 당신은 봇일지도 모른다.
최근 언어 모델이 이것을 지나치게 많이 사용하면서, 많은 이들이 이를 나쁜 글쓰기라고 선언하게 되었다. 나는 그렇게까지는 확신하지 않는다. JFK가 "국가가 당신을 위해 무엇을 할 수 있는지 묻지 말고 – 당신이 국가를 위해 무엇을 할 수 있는지 물어라"라고 말했을 때, 아무도 그를 게으른 작가라고 부르지 않았다. 부정적 병렬법은 수사적 장치이고, 어떤 수사적 장치든 그것이 담고 있는 내용만큼만 게으르거나 영감적이다.
이제는 이런 패턴을 찾아내서 마녀사냥으로부터 당신을 보호해 준다고 주장하는 AI 탐지기까지 있다. 당신은 자신이 직접 쓴 글을 Grammarly에 넣고, AI 탐지기가 표시할 수 있는 단어 패턴을 분석하게 한다. 그러면 그것은 그것들을 어떻게 바꿀지 제안해 주는데, 이는 a) Grammarly에게 당신 대신 글을 쓸 권한을 주고, b) 당신의 글에서 리듬이나 의도 같은 감각을 잃게 만든다.
이 문단에 대해 Grammarly가 검토한 결과, 내가 기계라는 비난을 피하려면 바꿔야 할 텍스트 사례가 27개나 표시되었다. 예를 들어, Grammarly는 위의 표현인 “automated language production”을 AI일 가능성이 11배 더 높은 표현으로 판정했다. 대신 인간이라면 "against mechanized language synthesis"라고 쓸 것이라고 제안한다. 단순한 두 단어 조합인 "align with"는 AI 생성일 가능성이 43배 더 높다고 표시되었다. 진짜 인간은 "corresponds"라고 말한다는 것이다. 이런 자잘한 제안이 계속 쌓이면, 결과물은 내가 선택한 것과는 전혀 닮지 않게 된다. 인간의 목소리가 인간처럼 들리려 애쓰는 기계로 대체되는 것이다.
그 결과, 나는 최근 제출한 학술지 논문이 제출 전에 AI 생성이 아니라는 것을 확인받기 위해 Pangram이라는 또 다른 AI 탐지 회사에 20달러를 지불했다. 그 논문은 AI가 쓴 것이 아니었고, 나는 이미 그 사실을 알고 있었다. Pangram도 그렇게 판정했다. 내가 돈을 낸 대상은 바로 _그것_이었다. 내가 그것을 썼는지 알아내기 위해서가 아니라, 그것이 나를 걸러내지 않을 것이라는 말을 듣기 위해서였다. Pangram의 AI 시스템이 나를 유죄로 판단하면, 내 경력은 거기서 끝이다. 말 그대로 갈취다.
그리고 만약 표시되었다면, 그다음은 어떻게 되는가? 그것은 내 무결성에 범주를 부여하기 위해 점수 하나를 내놓았을 것이다(네 가지 평가값: 높음, 매우 가능성 높음, 다소 가능성 높음, 인간). 우리 모두가 함께 만들고 있는 이 생태계에서, 나는 Grammarly를 사용해 모든 문장을 바꿔 말해야 했을 것이다. 내가 다른 기계를 써서 대신 글을 쓰게 하지 않았다는 것을 증명하기 위해, 한 기계를 사용해 나 대신 글을 쓰게 만드는 셈이다.
이 기계들을 이해하려 할 때 우리의 본능은 훈련 데이터를 들여다보는 것이다. 하지만 그 훈련 데이터는 더 이상 “그저 웹”이 아니다. 웹은 생고기지만, 이 소시지는 사전 처리와 사후 처리를 잔뜩 거친 결과물이다. 사후 훈련은 모델이 하도록 설계된 일을 위해 모델을 최적화한다. 여기에는 RLHF(reinforcement learning with human feedback)나 RLVR(reinforcement learning through verified rewards) 같은 기법이 포함된다. RLHF에서는 인간이 응답의 순위를 매기고, 그러면 시스템은 그런 종류의 응답을 더 강조한다.
RLVR은 더 기묘하고, 내가 보기에 우리가 “그건 X가 아니라 Y다”를 그렇게 자주 보는 이유도 바로 이것인 듯하다. 부정적 병렬법을 _게으르다_고 치부하면, 왜 그것이 곳곳에서 나타나는지 이해하는 데 방해가 된다. 이런 유형의 언어는 너무나 강력한 사고의 틀 이라서, 우리는 그것을 모델의 사고 능력 으로 착각한다. 우리는 언어가 수행한 일을 계산에 공로로 돌린다.
RLVR은 단어를 감시하다가 어떤 하위 과정을 촉발하는 구조가 아니다. 오히려 다른 어떤 모델을 훈련하듯 모델을 훈련하는 것이다. 그 모델이 완성되면, 그것은 토큰을 예측한다. 아직도 많은 사람이 이 점을 부정하고 있다. 토큰 예측은 훈련 데이터에서의 수학적 분포를 바탕으로 후보 목록을 만들고, 프롬프트나 시퀀스의 이전 단어들이 주어졌을 때의 가능성에 따라 그것들의 순위를 매기는 일을 포함한다.
RLVR은 모델이 해법에 이르기까지 글로 써 내려가며 수학 문제를 풀게 함으로써 개입한다. 즉, 그것은 우리가 그것을 어떻게 풀지 소리 내어 생각할 때 사용할 법한 언어를 재현한다. 모델이 정답에 도달하면, 거기에 이르는 데 가장 자주 사용한 언어가 완성된 모델 안에서 더 강조된다. 이것이 업계에서 reasoning 이라고 부르는 것의 (부분적인) 정체다.
우리가 그 이상한 개를 봤던 날이 무슨 요일이었지?
이제 이렇게 생각해 보자. 당신은 친구와 함께 앉아 있다. 두 사람의 휴대전화는 방전되었다. 친구가 묻는다. 우리가 그 이상한 개를 봤던 날이 무슨 요일이었지? 당신은 먼저 “목요일이었어”라고 말한다. 친구는 “아니, 목요일은 아니었어. 목요일에는 내가 외지에 있었거든”이라고 말한다. 그러면 당신은 맞아, 그럼 수요일이었겠네 라고 말한다. 수요일은 두 사람의 공통 친구 생일이었고, 둘 다 그 파티에 갔으며, 파티에 가는 길에 그 개를 봤기 때문이다. 그러자 친구는 말한다. “맞아, 그런데 수요일이 친구 생일이었던 건 맞지만 파티는 금요일이었어. 그러니까 우리는 금요일에 그 개를 본 게 틀림없어.”
두 사람은 답에 이를 때까지 말을 통해 추론을 전개했다. 그 답은 검증 가능한 것이기도 하다. 휴대전화를 켜서 사진을 확인해 보면, 그렇다, 그 이상한 개 사진은 금요일에 찍혔음을 알 수 있다. 비인간화된 표현으로 말하자면, 당신의 직감(“목요일이야”)은 모델이 첫 추측으로 내뱉을 법한 것이고, 예전의 모델들은 거기서 멈추곤 했다.
하지만 당신은 그러지 않았다. 친구는 “그건 [목요일]이 아니라, [수요일]이야”라고 반박했다. 더 많은 단어가 붙으면서 가능한 답의 범위는 좁아지고, 그러고 나서 당신은 “그건-x가-아니라-y다” 하기를 거쳐 정답인 날짜에 도달한다. 두 사람에게는 실제 기억과 생생한 경험이 있었다. 언어는 그 경험들을 전달하고 충돌을 해소하는 그릇이었다. 반면 모델은 방금 두 사람이 수행한 추론의 패턴 을 복제하면서 더 길고 긴 연속된 언어를 이어 간다. 이런 더 긴 전개는 그 숙고를 언어 을 통해서 가 아니라 언어 안에서 재연한다.
다른 high-entropy 상태들은 “suppose...” 같은 단어로 채워지는데, 이는 더 긴 추측적 단락을 촉발한다. “Because”, “consider”, “alternatively”, 심지어 “wait”도 이런 자리를 차지할 수 있다. 이런 단어들은 대비, 예외, 추상을 함께 실어 나르는 언어로 이어진다. 그것들이 수학 문제에서 정답에 도달하게 해 준다면, 더 자주 발생하도록 밀어 올려진다.
우리가 이상한 개에 대해 이야기하거나 그런 종류의 대화를 나눌 때, 질문의 요점은 달력 위의 어느 날짜에 그 개를 만났는지를 확인하는 데 있지 않았다. 그것은 추억을 더듬기 위한 틈 이었다. 그 질문은 기억을 재구성하고, 그 주변 맥락을 음미하며, 공유된 경험을 통해 친구 사이의 연결을 더 깊게 만들기 위해 던져졌다.
이런 방식으로 추론을 정의하면, 질문을 하는 목적은 답을 얻는 데 있고, 답은 검증 가능하며, 즉각적인 종결 속에서는 아무것도 잃지 않는다고 가정하게 된다.
LLM에서 사용되어 온 방식으로 추론을 정의하는 것은, 질문을 하는 목적이 답을 얻는 데 있고, 답은 검증 가능하며, 즉각적인 종결 속에서는 아무것도 잃지 않는다고 가정하는 것이다. 이것은 글쓰기에 실제 영향을 미치며, 의심에 열려 있는 태도는 언어 모델과 함께 사고를 빠르게 시제품화하는 과정에서 우리가 잃게 되는 것이다. 모호함, 의심, 불확실성은 어떤 사유 방식에서는 즉각적인 어떤 답보다 더 중요하다. 내면의 삶은 우리 외재화된 사고의 잔여물 하나하나까지도 붙잡아 활용하려는 산업 복합체들 사이의 틈에서 자라난다.
그럼에도 불구하고, 우리가 이런 상태에서 사용하는 언어는 같다. AI 탐지기가 텍스트를 AI 생성으로 표시할 때, 그것은 그 추론의 특정한 구조적 패턴을 따른다는 이유 때문일까? Pangram과 reasoning 모델은 둘 다 인간이 글을 쓰며 추론할 때 나타나는 구조적 패턴을 감지한다. Pangram의 모델은 2021년 이전 데이터로 훈련되며, 그런 다음 같은 텍스트의 AI 생성 버전을 훈련 데이터에 삽입한다.
그러므로 우리가 기계가 쓴 것처럼 보일지도 모른다는 이유로 사람들을 공개적으로 망신 주고 — 인간의 추론에 사용되는 언어를 흉내 낸다는 이유로 — 또 사람들이 오탐지에 대한 두려움 때문에 자신이 “AI 글쓰기”라고 내면화한 방식으로는 더 이상 글을 쓰지 않게 된다면, 그것은 당신의 추론 언어가 감시되어야 한다는 신호를 보내는 셈이다. 그렇지 않으면 당신 역시 공개적 검증의 대상으로 내걸릴 수 있다는 뜻이기 때문이다.
결국, AI로 표시되는 글쓰기를 이유로 사람들을 수치스럽게 만들면, 사람들은 모델이 우리에게서 배운 구조들, 곧 논증에 효과적인 도구인 구조들을 피해 가게 될 수 있다. 우리는 가장 그것들이 필요할 때 비판적 사고의 도구를 도구상자에서 꺼내 버리게 된다.
여기에는 또 다른 측면이 있다. AI 기반 에세이 평가 도구가 영국에서 인간 채점자들과 비교 시험되었다. 그 시스템은 내가 보기에 매우 많이 RLVR 기반 추론과 닮아 있는 글쓰기 구조에 보상을 주었다. 즉, “에세이 길이, 어휘 범위, 문장 복잡성에 근거해 더 높은 점수를 주었는데, 이는 종종 학문적 기준과 무관하다”는 것이다. 이 모두는 AI reasoning의 전형적 특징이다.
다시 말해, LLM은 엔지니어들이 LLM을 평가하는 데 사용하는 기준으로 인간을 채점한다.
LLM은 엔지니어들이 LLM을 평가하는 데 사용하는 기준으로 인간을 채점한다.
경제학에는 굿하트의 법칙이라는 오래된 격언이 있다. 경제학식 표현으로는 “관측된 어떤 통계적 규칙성도 통제 목적으로 압력이 가해지는 순간 붕괴하는 경향이 있다”는 것이다. 또는 이렇게 말할 수도 있다. 척도가 목표가 되는 순간, 그것은 더 이상 좋은 척도가 아니다. 이를 대규모 언어 모델에 맞게 조금 바꿔 보면, “언어의 척도가 그 목표가 되는 순간, 그것은 더 이상 좋은 언어가 아니다”가 된다.
언어의 내용을 넘어서 언어 패턴을 기준으로 평가하는 데에는 위험이 있으며, 생성과 탐지 모두가 이를 부추긴다. 자동 채점은 그 중간 어딘가에 있다. 학생들이 추론이라는 행위보다 추론의 형식을 사용한 데 대해 보상을 주는 것은, 그런 형식을 더 매력적이고 더 흔한 것으로 만들 뿐이다. 그렇지만 형식을 처벌하는 것은 추론 자체를 처벌할 위험이 있다. 결국 우리는 모든 경우에 기계의 판단에 맡기는 대신, 스스로 비판적으로 생각해야 한다.
나는 “아무 잘못도 하지 않았다면 걱정할 것도 없다”는 오래된 논리에 설득되지 않는다. 나는 2018년 이후 자동화된 감시 시스템의 정확도 지표로 99.8%가 인용되는 것을 보아 왔다. Arvind Narayanan이 지적했듯, 그것은 개별 논문 기준의 수치이고, 우리가 그것을 사용할 때마다 누적된다. 그래서 대학생의 최대 10%까지 거짓으로 고발될 수 있다. 우리가 텍스트의 모든 조각을 AI 생성 여부를 확인하기 위해 AI 모델에 통과시킨다면, 우리는 훨씬 더 큰 규모의 오탐지를 만들어 내게 될 것이다.
이 모델들은 실제 권위를 집중시키며, 기업들은 그들이 우리를 대신해 추론해 줄 것이라고 약속한다. 우리가 모든 두 줄짜리 문구를 AI 해석기에 돌리고, 그 결과를 온라인에 올린 뒤, “봐라? 표절자잖아!”라고 말할 때, 우리는 위험한 어떤 것을 정상화하고 있다.
사람들이 이런 마녀사냥을 피하려고 애쓰면서, 우리는 자기검열과 AI 탐지기에 떠밀린 재작성과 바꿔쓰기의 문화를 만들어 낸다. 그것은 인간 표현을 보호하는 것의 정반대 다. 우리는 어떤 기계든 유죄의 문제를 판단할 수 있다고 믿는 일을 정상화하는 데 저항해야 한다. AI를 사용해 글을 쓰는 것이 최악의 경우 정신의 산업화라면, AI 탐지는 최악의 경우 사고를 감시하는 체계가 된다.
읽어주셔서 감사하다! 지난주에 언급했듯, 나는 요즘은 가끔씩만 글을 올리며, 한 달에 한 번 정도를 목표로 하고 있다. 뉴스레터에 비용을 내고 있고 후원 규모를 조정하고 싶다면(또는 새로 후원을 시작하고 싶다면!) 여기에서 구독을 설정하거나 변경할 수 있다.