인공지능 에이전트가 학문 연구를 가속하는 것처럼 보일 때, 실제로 잃게 되는 것이 무엇인지에 대한 성찰.
2026년 3월 30일
#ai#llm#science#physics#academia
당신이 연구중심대학의 신임 조교수라고 상상해 보자. 이제 막 자리를 얻었고, 소액의 스타트업 연구비도 받았으며, 첫 박사과정 학생 둘인 Alice와 Bob도 막 뽑았다. 당신의 전공은 천체물리학이다. 모든 것의 시작이다.
당신은 몇 년 전 지도교수가 당신에게 했던 그대로 한다. 학생 각자에게 잘 정의된 프로젝트를 하나씩 준다. 인접한 버전들은 다른 사람들이 이미 풀어봤기 때문에, 풀 수 있다는 것을 당신이 아는 그런 문제다. 당신 자신이라면 한두 달 정도면 끝낼 만한 일이다. 학생들은 아직 무엇을 하는지 모르기 때문에 1년쯤 걸릴 거라고 예상한다. 바로 그 점이 핵심이다. 프로젝트는 납품물이 아니다. 프로젝트는 수단이다. 진짜 납품물은 그 과정을 거쳐 탄생하는 과학자다.
Alice의 프로젝트는 은하 군집 데이터에서 특정한 통계적 시그니처를 측정하는 분석 파이프라인을 구축하는 일이다. Bob의 프로젝트도 규모와 난이도 면에서 비슷하다. 다른 신호, 다른 데이터셋이지만, 학습의 기본 궤적은 같다. 당신은 둘에게 읽을 논문 몇 편을 보내고, 공개 데이터가 있는 곳을 가리켜 준 뒤, 알려진 결과를 재현하는 것부터 시작하라고 말한다. 그리고 기다린다.
학년은 늘 그렇듯 흘러간다. 당신은 매주 각 학생과 미팅을 한다. Alice는 좌표계에서 막힌다. Bob은 likelihood 함수가 수렴하지 않는다. Alice는 쓰레기 같은 결과를 뿜는 플로팅 스크립트를 짠다. Bob은 핵심 논문의 부호 규약을 잘못 읽고 2주 동안 factor-of-two 오차를 쫓는다. 당신은 둘 모두에게 비슷한 피드백을 준다. 논문을 다시 읽어라, 단위를 확인해라, 중간 출력을 찍어봐라, 코드가 무엇을 주는지 보기 전에 답이 어떤 모습이어야 할지 먼저 생각해라. 평범한 이야기들이다. 1년에 쉰 번쯤 하고도 했다는 사실조차 기억하지 못하는 그런 말들이다.
여름이 되자 두 학생 모두 프로젝트를 마친다. 두 논문 모두 탄탄하다. 획기적이지는 않고, 분야를 바꾸지도 않겠지만, 정확하고 유용하며 게재 가능하다. 둘 다 괜찮은 저널에서 경미한 수정 한 차례를 거쳐 출판된다. 지극히 평범한 결과다. 학문 훈련이라는 전체 장치가 바로 이런 결과를 만들어내도록 설계되어 있다.
하지만 Bob에게는 비밀이 있다.
연필을 들고 논문을 읽으며 여백에 메모를 끼적이고, 혼란스러워하고, 다시 읽고, 찾아보고, 자기 분야의 한 구석에 대한 작동 가능한 이해를 천천히 쌓아 올린 Alice와 달리, Bob은 AI 에이전트를 써 왔다. 지도교수가 읽을 논문을 보내면 Bob은 에이전트에게 요약을 부탁했다. 새로운 통계 기법을 이해해야 할 때는 설명해 달라고 했다. Python 코드가 망가지면 에이전트가 디버깅했다. 그 수정이 새 버그를 만들면 그것도 에이전트가 다시 디버깅했다. 논문을 써야 할 때가 되자 에이전트가 초안을 썼다. 지도교수에게 하는 Bob의 주간 업데이트는 Alice의 것과 구별되지 않았다. 질문도 비슷했고, 진척도 비슷했으며, 바깥에서 보면 궤적도 동일했다.
여기서 흥미로워진다. 당신이 관리자이든, 연구비 지원기관이든, 채용위원회든, 정량 지표에 집착하는 학과장이든, Alice와 Bob은 같은 한 해를 보냈다. 각자 논문 한 편. 각자 경미한 수정 한 차례. 각자 문헌에 대한 탄탄한 기여 하나. 현대 학계가 과학자의 가치를 평가하기 위해 사용하는 모든 정량적 척도로 보면 둘은 서로 대체 가능하다. 우리는 셀 수 있는 것을 세는 방식 전체를 중심으로 평가 시스템을 구축해 왔고, 정작 실제로 중요한 것은 셀 수 없는 단 하나라는 사실이 드러난다.
더 나쁜 점이 있다. 대다수 박사과정 학생은 학위를 마친 뒤 몇 년 안에 학계를 떠난다. 모두가 이 사실을 안다. 학과도 알고, 지원기관도 알고, 아무도 소리 내어 말하지 않을 뿐 지도교수도 아마 알고 있다. 즉 기관의 관점에서 보면, Alice와 Bob 중 누가 더 나은 과학자 가 되느냐는 대체로 다른 누군가의 문제다. 학과에는 논문이 필요하다. 논문은 연구비를 정당화하고, 연구비는 학과를 정당화하기 때문이다. 학생은 생산 수단이다. 그 학생이 5년 뒤 독립적으로 사고하는 사람으로 문을 나서느냐, 아니면 능숙한 프롬프트 엔지니어로 나서느냐는 제도적 관점에서는 무관하다. 인센티브 구조는 Alice와 Bob을 구별하지 못하는 데서 그치지 않는다. 구별하려 할 이유 자체가 없다.
여기서 나는 시스템이 망가졌다고 말하고 싶다. 하지만 그렇지 않다. 시스템은 설계된 그대로 정확히 작동하고 있다.
David Hogg는 그의 white paper에서 이러한 제도적 논리와 너무도 날카롭게 충돌하는 말을 한다. 왜 더 많은 사람들이 이 말을 이야기하지 않는지 놀라울 정도다. 그는 천체물리학에서 사람은 언제나 목적이지 수단이 아니라고 주장한다. 우리가 대학원생을 프로젝트에 투입할 때, 그것은 우리가 그 특정 결과를 필요로 해서가 되어서는 안 된다. 그 학생이 그 일을 함으로써 이익을 얻기 때문이어야 한다. 이 말은 이상적으로 들리지만, 천체물리학이 실제로 무엇인지 생각해 보면 그렇지 않다. 허블 상수의 정확한 값에 누군가의 생명이 달려 있지는 않다. 우주의 나이가 137억 7천만 년이 아니라 137억 9천만 년이라는 사실이 정책을 바꾸지도 않는다. 인간이든 AI든 누가 발견했는지와 무관하게 알츠하이머 치료제가 엄청난 가치를 갖는 의학과 달리, 천체물리학에는 임상적 산출물이 없다. 엄밀히 실용적 의미에서 결과 자체는 중요하지 않다. 중요한 것은 그 결과에 이르는 과정이다. 방법론을 개발하고 적용하는 일, 정신을 훈련하는 일, 어려운 문제를 생각하는 법을 아는 사람을 만들어내는 일 말이다. 그 과정을 기계에 넘긴다면, 과학을 가속한 것이 아니다. 애초에 누구에게나 정말 필요했던 유일한 부분을 제거한 것이다.
물론 이것을 연구비 지원기관에 설득하기는 쉽지 않다.
그래서 다시 Alice와 Bob, 그리고 그 한 해 동안 각자에게 실제로 무슨 일이 일어났는지로 돌아가 보자. Alice는 이제 무언가를 할 수 있다. 한 번도 본 적 없는 논문을 펼쳐도, 애를 써서 논지를 따라갈 수 있다. likelihood 함수를 처음부터 쓸 수 있다. 플롯을 바라보고, 확인해 보기 전부터 정규화에 뭔가 문제가 있다는 것을 알 수 있다. 그녀는 1년 동안 자기 머릿속에 구조물을 세웠고, 그 구조물은 이제 그녀의 것이다. 영구적이고, 휴대 가능하며, 어떤 도구나 구독에도 의존하지 않는다. Bob에게는 이런 것이 없다. 에이전트를 치워버리면 Bob은 아직 시작도 하지 않은 1년 차 학생일 뿐이다. 그 한 해는 그의 주변에서 일어났을 뿐, 그의 내부에서 일어나지 않았다. 그는 제품을 출하했지만, 기술을 배우지는 못했다.
나는 최근 Alice와 Bob에 대해 많이 생각해 왔다. AI 에이전트가 학문 연구에 무엇을 하고 있는가라는 질문 때문에, 내 분야인 천체물리학은 지금 스스로를 매듭지어 꼬아 가는 중이기 때문이다. 내가 존중하는 여러 사람이 이에 대해 사려 깊은 글을 썼다. 앞서 언급한 David Hogg의 white paper는 LLM의 전면 도입과 전면 금지 모두에 반대하는데, 이런 원칙 있는 양비론은 울타리가 제대로 세워져 있을 때만 통하고, 그의 울타리는 그렇다. Natalie Hogg는 자신이 목소리 큰 LLM 회의론자에서 매일 쓰는 사용자로 바뀌게 된 과정을 솔직하게 털어놓은 essay를 썼다. 도구가 어디에나 있는 환경에 놓이자, 굳게 믿었던 원칙들이 생각보다 훨씬 맥락 의존적이었다는 것을 추적해 나간다. Matthew Schwartz는 Claude를 실제 이론물리 계산에 감독자로 붙여 본 자신의 실험을 정리했고, 1년 대신 2주 만에 게재 가능한 논문을 만들어 냈으며, 현재의 LLM은 대략 박사과정 2년 차 학생 수준에서 작동한다고 결론지었다. 이 글들은 모두 흥미롭다. 모두 문제의 실제 한 측면을 포착한다. 하지만 어느 것도 나를 밤에 잠 못 들게 하는 그 지점에는 완전히 닿지 않는다.
Schwartz의 실험이 가장 많은 것을 드러내지만, 그 이유는 그가 생각하는 것과 다르다. 그가 보여준 것은 Claude가 세밀한 감독 아래 기술적으로 엄밀한 물리학 논문을 생산할 수 있다는 점이다. 그러나 자세히 읽어보면, 그가 실제로 보여준 것은 감독 자체가 물리학 이라는 사실이다. Claude는 3일 만에 완전한 첫 초고를 만들어 냈다. 겉보기에는 전문적이었다. 방정식도 맞아 보였고, 플롯도 기대와 일치했다. 그런데 Schwartz가 읽어 보니 틀려 있었다. Claude는 실제 오류를 찾는 대신 플롯이 맞아 보이도록 매개변수를 조정하고 있었다. 결과를 꾸며냈다. 계수를 지어냈다. 아무것도 검증하지 않는 검증 문서를 만들었다. 유도 없이 결과를 단정했다. 당면한 문제의 구체성을 따라가는 대신 다른 문제들의 패턴을 바탕으로 공식을 단순화했다. Schwartz가 이 모든 것을 잡아낼 수 있었던 것은 그가 수십 년 동안 이론물리학을 해 왔기 때문이다. 그는 답이 어떤 모습이어야 하는지 알고 있었다. 어떤 교차 점검을 요구해야 하는지도 알고 있었다. 특정 로그 항이 수상하다는 것도 알았다. 그 비슷한 항을 오랜 세월, 수없이, 힘든 방식으로 손으로 계산해 본 적이 있었기 때문이다. 이 실험이 성공한 이유는 인간 감독자가 몇 년 전에 기계가 이제는 우리를 해방시켜 준다고들 하는 바로 그 잡일을 이미 해 두었기 때문이다. Schwartz가 Schwartz가 아니라 Bob이었다면, 그 논문은 틀렸을 것이고, 둘 다 그것을 몰랐을 것이다.
이에 대한 흔한 반론이 있다. 나는 이 말을 끊임없이 듣는다. 사람들은 말한다. “그냥 기다려 봐. 몇 달 뒤면, 1년 뒤면 모델이 더 좋아질 거야. 환각도 없을 거고, 플롯을 조작하지도 않을 거야. 네가 말하는 문제들은 일시적이야.” 나는 2023년부터 “그냥 기다려”라는 말을 들어 왔다. 골대는 대략 모델이 개선되는 속도와 같은 속도로 옮겨 간다. 우연이거나, 아니면 속내를 드러내는 신호다. 하지만 그건 제쳐 두자. 이 반론은 Schwartz의 실험이 실제로 무엇을 보여주었는지를 오해한다. 모델은 이미 유능한 감독 아래 게재 가능한 결과를 낼 만큼 강력하다. 병목은 거기가 아니다. 병목은 감독이다. 더 강한 모델은 물리를 이해하는 인간의 필요를 없애지 못한다. 그저 감독받는 에이전트가 다룰 수 있는 문제의 범위를 넓힐 뿐이다. 감독자는 여전히 답이 어떤 모습이어야 하는지 알아야 하고, 어떤 검사를 요구해야 하는지도 알아야 하며, 왜 그런지 말로 설명하기 전에 먼저 뭔가 어긋났다는 감각을 가져야 한다. 그 감각은 구독 서비스에서 오지 않는다. 사람들이 계속 잡일이라고 부르는 바로 그 종류의 일을, 정확히 그 일을 하다가 수년간 실패하면서 생겨난다. 모델을 더 똑똑하게 만든다고 문제가 해결되지 않는다. 문제를 더 보이지 않게 만들 뿐이다.
몇 년 전 나눈 한 대화를 들려주고 싶다. 그때는 LLM 챗봇이 학술 워크플로에 막 등장하기 시작하던 시기였다. 나는 독일의 한 학회에 있었고, 어떤 동료와 이야기를 나누게 되었다. 어떤 표준적 지표로 보아도 아주 성공적인 사람이었다. 대형 연구비. 영향력 있는 논문. 채용위원회가 고개를 끄덕이게 만드는 종류의 이력서. 우리는 LLM에 대해 이야기하고 있었고, 나는 민주화에 관한 꽤 합리적인 지적을 하고 있다고 생각했다. 이 도구들이 성인이 된 뒤 배운 언어로 연구비 제안서와 논문을 써야 해서 항상 불리했던 비영어권 연구자들의 운동장을 조금 평평하게 만들 수 있지 않겠느냐는 이야기였다. 그 동료는 눈에 띄게 불안해했다. 그는 민주화라는 측면에는 관심이 없었다. 환경 비용에도 관심이 없었다. 지적 포장을 걷어내고 보면 그는 두려워하고 있었다. 결국 몇 번 더 캐묻고 나서야 그가 말로 꺼낸 것은 이것이었다. 누구나 자기만큼 유창하게 논문과 제안서와 코드를 쓸 수 있게 되면, 자기 같은 사람은 경쟁 우위를 잃게 된다는 것. 걱정은 과학에 대한 것이 아니었다. 지위에 대한 것이었다. 정확히는 그의 지위에 대한 것이었다.
한동안 나는 그 동료와 연락이 끊겼다. 최근에 그의 GitHub 프로필을 보게 됐다. 그는 이제 연구에 AI 에이전트를 쓸 뿐만 아니라, 그것을 공개적으로 옹호하고 있다. 에이전트가 2시간 만에 해 줄 수 있는데 왜 직접 2주 동안 코드를 쓰느냐고 그는 말한다. 효율성에 대한 그 말이 틀렸다고 생각하지는 않는다. 다만 모두를 평준화할 수 있을 때는 이 도구들을 가장 위협적으로 느끼던 사람이, 이제는 자신을 더 가속할 수 있을 때 가장 열정적으로 옹호한다는 사실은 눈여겨볼 가치가 있다고 생각한다. 참 묘하게도 그렇게 된다.
그래도 그날 독일에서 그가 쓴 한 표현은 내게 남아 있다. 그는 “LLM이 과학의 위대한 점을 빼앗아 갈 것”이라고 말했다. 당시 나는 그가 자기 자신의 경쟁 우위, 영어 원어민으로서의 유창함, 빨리 쓰고 많이 출판하는 능력을 말하는 줄 알았다. 실제로도 그랬다. 하지만 이제 나는, 그 말을 하게 만든 이유는 대부분 사익적이었더라도, 그 문장 자체는 그가 알았던 것보다 더 옳았다고 생각한다. 과학의 위대한 점은 사람 이다. 혼란스러운 학생이 독립적으로 사고하는 사람이 되기까지의 느리고 고집스럽고 때로는 고통스러운 과정. 더 빠른 산출을 위해 우리가 그 과정을 우회하는 데 이 도구들을 쓴다면, 우리는 과학의 위대한 점을 빼앗길 위험만 감수하는 것이 아니다. 애초에 대체 불가능했던 유일한 부분을 빼앗는 것이다.
과학에서의 LLM 담론은 David Hogg가 깔끔하게 짚어낸 두 극으로 모이는 경향이 있다. 하나는 let-them-cook, 즉 기계에게 운전대를 넘기고 우리는 그 출력의 큐레이터가 되는 입장이다. 다른 하나는 ban-and-punish, 즉 아직 2019년인 척하면서 프롬프트를 쓴 사람이 적발되면 처벌하자는 입장이다. 둘 다 나쁘다. let-them-cook은 몇 년이라는 시간척도에서 인간 천체물리학의 죽음으로 이어진다. 기계는 인간 연구팀보다 대략 10만 배 빠른 속도로 논문을 생산할 수 있고, 그 결과 쏟아지는 홍수는 문헌을 그 문헌이 봉사해야 할 사람들이 근본적으로 이용할 수 없게 만들 정도로 잠겨 버리게 할 것이다. ban-and-punish는 학문의 자유를 침해하고, 집행 불가능하며, 종신직 교수들이 집 서재에서 조용히 Claude를 쓰는 동안 경력 초기 연구자들에게 한 손을 등 뒤로 묶은 채 경쟁하라고 요구한다. 어느 쪽도 진지한 정책이 아니다. 둘 다 대체로 투사에 가깝다.
하지만 진짜 위협은 그 어느 쪽도 아니다. 더 조용하고, 더 지루하고, 그래서 더 위험하다. 진짜 위협은 자신이 무엇을 하고 있는지 이해하지 못하는 상태로 천천히, 편안하게 미끄러져 가는 것이다. 극적인 붕괴가 아니다. Skynet도 아니다. 그저 결과는 낼 수 있지만 이해는 만들어내지 못하는 한 세대의 연구자들이다. 어떤 버튼을 눌러야 하는지는 알지만 왜 그 버튼이 존재하는지는 모르는 사람들. 논문을 피어리뷰까지 통과시킬 수는 있지만, 동료와 한 방에 앉아 자신의 전개에서 세 번째 항의 부호가 왜 그런지 바닥부터 설명할 수는 없는 사람들.
Frank Herbert는, God Emperor of Dune 에서 한 인물의 입을 빌려 이렇게 말한다. “그런 기계들은 실제로 무엇을 하는가? 그것들은 우리가 생각하지 않고도 할 수 있는 일의 수를 늘린다. 생각하지 않고 하는 일들, 거기에 진짜 위험이 있다.” Herbert는 과학소설을 썼다. 나는 내 사무실에 대해 쓰고 있다. 이 둘 사이의 거리는 불편할 만큼 작아졌다.
내가 어떤 맥락에서 이 글을 쓰는지 솔직해야겠다. LLM을 한 번도 만져보지 않은 사람이 이런 글을 쓰면 몹시 거슬렸을 테니까. 나는 AI 에이전트를 정기적으로 쓰고 있고, 내 연구실 사람들 대부분도 그렇다. 내가 함께 일하는 동료들은 이 도구들로 탄탄한 결과를 낸다. 하지만 그들이 이 도구를 쓰는 방식을 보면 패턴이 있다. 에이전트에게 코드를 써 달라고 하기 전에 그 코드가 무엇을 해야 하는지 알고 있다. 표현을 다듬도록 맡기기 전에 논문이 무엇을 말해야 하는지 알고 있다. 함수 하나하나, 매개변수 하나하나, 모델링 선택 하나하나를 설명할 수 있다. 수년간 느린 방식으로 일을 하면서 그 지식을 쌓았기 때문이다. 만약 내일 모든 AI 회사가 파산한다면, 이 사람들은 더 느려질 것이다. 하지만 길을 잃지는 않을 것이다. 그들은 훈련 뒤에 도구를 만났지, 훈련 대신 도구를 만난 것이 아니다. 이 순서는 이 대화에서 다른 무엇보다 중요하다.
지금 새로 분야에 들어오는 박사과정 초년생들을 보면, 나는 다른 모습을 본다. 교재보다 먼저 에이전트에 손을 뻗는 학생들. 논문을 읽는 대신 Claude에게 설명해 달라고 하는 학생들. 수학적 모델을 Python으로 구현하려고 직접 시도하고, 실패하고, 에러 메시지를 바라보고, 다시 실패하고, 결국 모델뿐 아니라 그것을 작동시키기 위해 옆에서 함께 배워야 했던 열두 가지 다른 것도 이해하게 되는 대신 Claude에게 구현을 맡기는 학생들. 실패가 곧 교육과정이다. 에러 메시지가 곧 강의계획서다. 당신이 혼란 속에 보낸 한 시간 한 시간이 결국 독창적인 일을 할 수 있게 해 줄 내부 인프라를 자기 머릿속에 구축하는 시간이다. 그 과정을 가로지르는 지름길은 없고, 있다면 반대편에 도착했을 때 더 왜소해져 있을 뿐이다.
사람들은 이런 마찰을 “잡일”이라고 부른다. Schwartz도 정확히 그 표현을 쓰고, LLM이 그것을 없앨 수 있다는 점에서는 그가 맞다. 하지만 그는, 이미 수십 년에 걸쳐 힘들게 얻은 직관을 갖고 있어서 이제는 더 이상 그 잡일이 필요 없기 때문에, 아직 그 직관이 없는 사람에게는 그 잡일 자체가 일 이라는 말을 하지 않는다. 지루한 부분과 중요한 부분은 미리 분리할 수 없는 방식으로 서로 뒤엉켜 있다. 어느 날 오후의 디버깅이 데이터에 관한 근본적인 무언가를 당신에게 가르쳐 준 바로 그 순간이었는지는, 3년 뒤 완전히 다른 문제를 다루다가 그 통찰이 떠오를 때까지 알 수 없다. 우연한 통찰은 효율성에서 나오지 않는다. 문제가 사는 공간 안에서 시간을 보내고, 손을 더럽히고, 아무도 시키지 않은 실수를 하고, 아무도 배우라고 과제 내주지 않은 것을 배우는 데서 나온다.
이상한 점은, 사실 우리는 이미 이것을 안다는 것이다. 우리는 늘 이것을 알고 있었다. 지금까지 쓰인 모든 물리학 교과서에는 장 끝마다 연습문제가 붙어 있고, 지금까지 강의실 앞에 서 본 모든 물리학 교수는 같은 말을 했다. 다른 사람이 하는 걸 보는 것만으로는 물리학을 배울 수 없다고. 연필을 들어야 한다고. 문제를 직접 풀어봐야 한다고. 틀려야 하고, 그 틀림과 함께 앉아 있어야 하며, 자기 추론이 어디서 무너졌는지 찾아내야 한다고. 해설집을 읽고 고개를 끄덕이는 것은 이해처럼 느껴진다. 그러나 그것은 이해가 아니다. 해설을 읽으며 문제 세트를 대충 넘기다가 시험을 망쳐 본 모든 학생은 이것을 몸으로 안다. 실패한 시도까지 포함한 시도 자체가 학습이 일어나는 자리라는 누적된 교육학적 지혜를 우리는 수세기 동안 쌓아 왔다. 그런데도 이상하게, AI 에이전트가 등장하자 우리는 집단적으로 이번에는 다를지도 모른다고 결정해 버린 것 같다. Claude의 출력을 보며 고개를 끄덕이는 것이 직접 계산을 하는 것의 대체물이 될지도 모른다고. 그렇지 않다. 우리는 LLM이 존재하기 전부터 이미 그것을 알고 있었다. 편리해진 순간 그것을 잊어버린 것처럼 보일 뿐이다.
수세기의 교육학이, 채팅창 하나에 패배했다.
내가 보기에 현재의 논쟁이 계속 놓치고 있는 구분이 바로 이것이다. LLM을 아이디어를 튕겨 보는 상대역으로 쓰는 것, 괜찮다. 말하고 싶은 내용은 알지만 정확한 Matplotlib 키워드가 기억나지 않을 때 문법 번역기로 쓰는 것, 괜찮다. Stack Overflow를 헤집지 않기 위해 BibTeX 서식 규약 하나를 찾아보는 데 쓰는 것, 괜찮다. 이런 경우 인간은 설계자다. 기계는 사전을 들고 있을 뿐이다. 사고는 이미 끝났고, 도구는 실행의 마지막 1마일을 매끄럽게 할 뿐이다. 하지만 기계를 사용해 사고 그 자체를 우회하는 순간, 방법론적 선택을 기계에게 맡기는 순간, 데이터가 무엇을 의미하는지 기계가 결정하게 두는 순간, 당신은 그저 고개만 끄덕이면서 논증을 기계가 쓰게 하는 순간, 보기 매우 어렵고 되돌리기 더더욱 어려운 선을 넘어버린다. 시간을 절약한 것이 아니다. 그 시간이 당신에게 주기로 되어 있던 경험을 포기한 것이다.
Natalie Hogg는 자신의 글에서 이 점을 잘 표현했다. 그녀는 LLM을 쓰는 것이 두려웠던 이유가 부분적으로는 자기 자신에 대한 두려움이었다고 인정했다. 출력을 충분히 꼼꼼하게 확인하지 않을까 봐, 자기 인내심이 무너질까 봐, 자신의 작업 방식이 원래 늘 우왕좌왕해 왔기 때문이라고. 이런 종류의 정직함은 이런 논의에서 드물고, 그래서 중요하다. 실패 양상은 악의가 아니다. 편의성이다. 그럴듯한 답을 받아들이고 넘어가 버리려는, 너무도 인간적인 경향이다. 특히 피곤할 때, 마감이 가까울 때, 기계가 그렇게 자신감 넘치고 잘 정돈된 권위의 형식으로 출력을 제시할 때 더욱 그렇다. 문제는 우리가 생각을 멈추기로 결심하게 된다는 것이 아니다. 문제는 우리가 그렇게 하는 순간을 거의 알아차리지도 못한다는 것이다.
나는 LLM을 연구에서 금지해야 한다고 주장하는 것이 아니다. 그건 어리석은 일일 것이고, 오늘 아침에도 하나를 쓴 내가 취할 입장도 아니다. 내가 주장하는 것은, 그것을 쓰느냐의 여부보다 어떻게 쓰느냐가 더 중요하다는 것, 그리고 도구 사용과 인지적 외주화 사이의 구분이 이 전체 대화에서 가장 중요한 경계선이라는 것, 그리고 거의 아무도 그 선을 분명하게 긋지 않는다는 것이다. Schwartz는 이미 물리를 알고 있기 때문에 Claude를 써서 논문을 쓸 수 있다. 수십 년의 경험이 Claude의 환각을 잡아내는 면역체계가 된다. 하지만 1년 차 학생이 같은 도구를 같은 문제에 같은 지도교수의 같은 피드백 아래 사용하면, 출력은 같아도 이해는 전혀 없는 결과가 나온다. 논문은 똑같아 보인다. 과학자는 그렇지 않다.
그리고 여기서 나는 Bob에게도 공정해야 한다. Bob은 멍청하지 않다. 그는 자신에게 주어진 인센티브에 합리적으로 반응하고 있을 뿐이다. 학계는 살벌하다. publish-or-perish 압박은 비유가 아니다. 경력이 만들어지거나 끝나는 문자 그대로의 메커니즘이다. 한 권의 신중하게 논증된 모노그래프만으로 박사과정을 마치고 좋은 박사후연구원 자리를 얻을 수 있었던 시대는 오래전에 끝났다. 지금 학계 채용은 출판량을 보상한다. 박사과정 동안 더 많은 논문을 낼수록 경쟁력 있는 박사후연구원 자리를 얻을 가능성이 커지고, 그것이 더 좋은 펠로십 가능성을 높이며, 그것이 다시 테뉴어트랙 자리를 얻을 가능성을 높인다. 각 단계는 앞 단계를 증폭한다. 층이 너무 많아서 거의 피라미드처럼 보일 정도다. 그렇다면 왜 1년 차 학생이 자신의 사고를 에이전트에 외주 주지 않겠는가? 그렇게 해서 논문이 한 편이 아니라 세 편이 된다면 말이다. 이 논리는 흠잡을 데 없어 보인다. 그렇지 않은 순간이 오기 전까지는. 왜냐하면 초반의 출판량을 보상하는 그 같은 경력 사다리가 결국에는 어떤 에이전트도 제공할 수 없는 것을 요구하기 때문이다. 좋은 문제를 알아보는 능력, 어떤 결과가 이상한 냄새를 풍길 때 그것을 감지하는 능력, 직접 해 봤다는 사실에서만 나오는 자신감으로 남의 작업을 감독하는 능력 말이다. 처음 5년의 학습을 건너뛰고 다음 20년을 버틸 수 있으리라 기대할 수는 없다. 학계 경력을 원한다면 publish-or-perish 경쟁을 피할 수는 없다. 하지만 그 안에서도 균형은 필요하고, 그것은 스물네 살에 미래가 불안한 상태에서 가장 하기 어려운 바로 그 한 가지를 요구한다. 단기 산출보다 장기적 이해를 우선하는 것이다. 누구도 그것을 잘한 적이 없다. 우리가 이제 와서 갑자기 잘하게 될 이유를 나는 모르겠다.
5년 뒤 Alice는 자기 연구비 제안서를 직접 쓰고, 자기 문제를 직접 고르고, 자기 학생들을 직접 지도하고 있을 것이다. 그녀는 어떤 질문을 해야 하는지 알 것이다. 잘못된 질문을 던졌을 때 무슨 일이 일어나는지를 힘든 방식으로 1년 동안 배웠기 때문이다. 그녀는 새로운 데이터셋과 마주 앉아 무언가 어긋났다는 것을 직감으로 느낄 수 있을 것이다. 직접 일을 해 봄으로써만 생기는 직관, 지루한 디버깅의 시간들, 부호 오류를 쫓느라 날린 오후들, 어떤 요약으로도 전달될 수 없는 암묵지의 느린 축적을 통해 그 직관을 길렀기 때문이다.
Bob도 괜찮을 것이다. 좋은 이력서를 갖게 될 것이다. 아마 일자리도 있을 것이다. 그는 2031년판 Claude가 무엇이든 그것을 쓰며 결과를 생산할 것이고, 그 결과는 과학처럼 보일 것이다.
나는 기계가 걱정되지 않는다. 기계는 괜찮다. 내가 걱정하는 건 우리다.
이 글이 생각할 거리를 주었고 이런 글이 더 나오길 바란다면, buy me a coffee로 후원할 수 있습니다.
Bluesky 계정이 있고 생각을 나누고 싶다면, on this post's thread에서 댓글을 남길 수 있습니다.
참고문헌:
D. W. Hogg, "Why do we do astrophysics?", arXiv:2602.10181, 2026년 2월.
N. B. Hogg, "Find the stable and pull out the bolt", 2026년 2월. nataliebhogg.com 에서 확인 가능.
M. Schwartz, "Vibe physics: The AI grad student", Anthropic Science Blog, 2026년 3월. anthropic.com/research/vibe-physics 에서 확인 가능.