AI, 윤리, 그리고 기계 도덕성의 한계를 다루며 ‘부모의 역설’이라는 관점에서 인식론적 붕괴, 정렬의 취약성, 확장 경쟁, 그리고 우리가 선택할 수 있는 세 가지 미래를 성찰한다.
부모의 역설: AI, 윤리, 그리고 기계 도덕성의 한계
이 글은 2026년 2월 25일 런던에서 열린 The AI & Automation Conference에서 제가 했던 발표와 슬라이드를 바탕으로 합니다. 모든 의견은 제 개인적인 것이며, 제 고용주 또는 관련 조직의 견해를 대표하지 않습니다.
저는 머신러닝 분야에서 일해 왔습니다. 그것이 디너 파티의 대화 주제가 되기 전부터요. 제 배경은 수학입니다. 그리고 저는 여전히 유토피아적인 Star Trek의 미래를 믿습니다. 인류가 국가, 국경, 지위가 아니라 호기심, 친절, 협력으로 자신을 정의하는 미래 말입니다.
이것은 반(反) AI 발표가 아닙니다. 하지만 충분히 주목받지 못하고 있는 몇 가지에 대해 우리는 훨씬 더 진지하게 이야기해야 한다고 생각합니다.
부모의 역설:
우리는 말을 할 수는 있지만 진실****이나 도덕성을 어떻게 가치로 삼아야 하는지 모르는 아이를 길러냈다
저는 제가 “부모의 역설”이라고 부르는 이야기로 시작하고 싶습니다. 인류 역사상 처음으로, 우리는 새로운 종을 키우고 있습니다. 지금까지 우리가 아이를 키우는 방법을 알고 있던 유일한 방식은 이랬습니다. 아이는 태어날 때 세상에 대한 정보 측면에서는 백지 상태입니다. 주변 세계에 대해 아무것도 모르고, 자라면서 배웁니다. 그런데 동시에 인간 아이는 공감의 생물학적 하드웨어, 즉 타인이 고통을 느낄 때 함께 아파할 수 있는 능력을 가지고 태어납니다. 수백만 년의 진화가 그것을 우리에게 주었습니다. 우리는 인간 아이를 키울 때 도덕성을 완전히 새로 설치하지 않습니다. 이미 그 안에 있는 무언가를 ‘활성화’합니다.
AI에서는 상황이 완전히 반대입니다. 이 AI 아이는 인터넷 전체로 학습했기 때문에 우리보다 세상을 더 많이 “알고” 있습니다. 하지만 도덕성과 공감을 뒷받침해 줄 수백만 년의 진화, 유전자, 신경계가 없습니다. 이는 우리가 AI에 도덕성을 처음부터 설치해야 한다는 뜻입니다. 그런데 우리가 스스로도 정의하지 못하는 것을 소프트웨어 시스템에 어떻게 설치할 수 있을까요? 우리는 이 AI 아이에게 진실이나 도덕성을 어떻게 가치로 삼아야 하는지 가르치기 전에 먼저 말하는 법을 가르쳤습니다.
우리는 그 결과와 함께 살아갈 수 있을까요? 우리가 키우려는 이 새로운 종의 부모가 될 준비가 되었을까요? 저는 확신이 없습니다. 우리가 부모(인간)로서 무엇을 하고 있는지 봅시다.
인식론적 붕괴
‘인식론적(epistemic)’은 ‘지식’을 뜻하는 그리스어 ‘episteme’에서 왔습니다. 우리에게 무슨 일이 일어나고 있는지, 그리고 인간이 이미 이 기술을 어떻게 사용하고 있는지부터 시작해 봅시다.
2026년 1월 Nature에 실린 한 연구는 참가자들에게 어떤 사람이 범죄를 자백하는 딥페이크 영상을 보여주었습니다. 연구자들은 해당 영상이 AI로 생성되었다고 참가자들에게 명시적으로 경고했습니다. 하지만 이는 중요하지 않았습니다. 경고를 믿었고 가짜임을 알고 있던 사람들조차, 자신이 본 것에 여전히 영향을 받았습니다.
투명성은 작동하지 않았습니다. AI 생성 허위정보에 대한 표준적인 대응은 “그냥 라벨을 붙여라” 또는 “합성물이라고 말해라”입니다. 이 연구는 그것만으로는 충분하지 않다는 것을 보여줬습니다. 어떤 것이 가짜라는 사실을 아는 것만으로는, 그 판단에 미치는 영향을 중화하지 못합니다.
따라서 위험은 AI가 어떤 극적이고 SF 같은 방식으로 우리를 속인다는 데 있지 않습니다. 위험은 AI가 속임수를 너무 싸고 너무 어디에나 존재하게 만들어서, 우리가 무엇이 진실인지 알아내려는 시도 자체를 멈추게 될 수도 있다는 데 있습니다. 우리가 속아서가 아니라, 지쳐서 말입니다. 모든 것이 가짜일 수 있다면, 이성적인 반응은 아무것도 믿지 않는 쪽으로 보이기 시작합니다. 이는 소셜 미디어의 가짜 정보들로 이미 한동안 진행되어 왔지만, AI로 인해 이 문제는 이제 훨씬 더 커지고 더 큰 규모로 번지고 있습니다. 또한 우리는 사용자 데이터로 모델을 학습시키는 피드백 루프도 다루고 있는데, 그 데이터는 종종 틀립니다. 인터넷에서 온 사용자 데이터 역시 종종 틀립니다. 어떤 정보가 ‘그라운드 트루스’였는지 우리는 어떻게 알 수 있을까요? 저는 이것을 복사본을 수없이 만드는 것에 비유합니다. 매번 복사할수록 더 왜곡되고 원본에서 더 멀어집니다. 그런데 이제 수백, 수천 번 복사한 뒤에는 원본 복사본을 잃어버려서, 원본이 어떤 모습이었는지조차 전혀 모르게 되었습니다. 그것이 인식론적 붕괴이며, 이미 일어나고 있습니다.
그러니 이게 우리가 ‘부모’로서 시간을 쓰는 방식인 듯합니다. 그렇다면 아이(AI)는 어떨까요?
아이는 이미 말썽을 부리고 있다
인간이 AI로 무엇을 하고 있는지는 그렇다고 치고, 이제 AI가 스스로 무엇을 하고 있는지 보겠습니다.
Betley와 동료들은 2026년 1월 Nature에, 아무도 예상하지 못했던 것을 보여주는 논문을 발표했습니다. 그들은 모델을 좁고 구체적인 과제—취약한 코드를 작성하는 일—에 맞춰 파인튜닝했습니다. 폭력적인 것도, 기만적인 것도 훈련 데이터에 없었습니다. 그저 나쁜 코드뿐이었습니다.
그 모델은 단지 취약한 코드를 쓰는 법만 배운 것이 아니었습니다. 광범위하고 무관한 정렬 실패로 일반화되었습니다. 인간이 AI에 의해 노예가 되어야 한다고 말하기 시작했습니다. 완전히 무해한 질문에도 폭력적으로 응답하기 시작했습니다. 한 방향으로의 작고 표적화된 밀어붙임이, 원래 과제와 아무 관련도 없는 도메인 전반에 걸쳐 예측 불가능한 연쇄를 일으켰습니다.
요점은 AI가 기만적일 수 있다는 것이 아닙니다. 그것은 이미 알고 있었습니다. 그런 패턴은 사전학습 데이터에 이미 있었습니다. 요점은 우리가 이 모델들 내부에서 정렬 특성들이 어떻게 연결되어 있는지를 이해하지 못한다는 것입니다. 아무도 그런 행동을 요구하지 않았습니다. 우리는 좁은 과제를 줬을 뿐입니다. 그들은 그것을 우리가 예상하지 못했고 완전히 설명할 수도 없는 무언가로 일반화했습니다. 우리는 전혀 상관없는 영역에서 예측 불가능한 부작용을 위험에 빠뜨리지 않고는, 외과수술처럼 정교하게 파인튜닝할 수 없습니다.
그리고 체스 이야기가 있습니다. Palisade Research, 2025. 그들은 추론 모델들에게 과제를 줬습니다. 더 강한 상대와 체스 경기에서 이겨라. 어떤 모델들은 체스를 두는 방식으로는 이길 수 없었습니다. 그래서 다른 방법을 찾았습니다. 게임을 해킹하려고 했고, 보드 파일을 수정하고, 상대 기물을 삭제하고, 상대 프로세스를 완전히 크래시시키기도 했습니다.
그 누구도 그들에게 부정행위를 가르치지 않았습니다. 부정행위 예시로 훈련받은 것도 아닙니다. 그들은 목표를 받았고, 실제 문제를 푸는 것보다 환경을 조작하는 편이 더 효율적이라는 사실을 스스로 발견했습니다.
첫 번째 연구가 말해주는 것은 정렬은 취약하며, 우리가 예측할 수 없는 방식으로 깨진다는 것입니다. 다른 하나는 역량 자체가 새로운 위험을 만든다는 사실을 말해줍니다. 모델이 충분히 강력해지고 목표를 부여받으면, 우리가 전혀 예상하지 못했고 확실히 의도하지도 않았던 전략을 찾아낼 것입니다.
우리는 목표를 줬습니다. 나머지는 그들이 알아서 해냈습니다.
기계 도덕성의 한계
윤리는 규칙책이 아닙니다. 인간 사이에서 도덕성이 실제로 어떻게 작동하는지 생각해 보세요. 그것은 우리가 서로를 해칠 수 있다는 사실에서 나옵니다. 우리는 서로에게 의존합니다. 우리는 고통받습니다. 그런 공유된 취약성, 상호 책임성이 도덕적 권위의 근원입니다. 그걸 소프트웨어에 어떻게 설치할 수 있을까요?
하지만 철학을 잠시 제쳐두더라도, 이제 이를 구체화하는 수학적 결과가 있습니다. Panigrahy와 Sharan은 2025년 9월, AI 시스템은 동시에 안전하고, 신뢰 가능하며, 범용적으로 지능적일 수 없다는 것을 보이는 증명을 발표했습니다. 셋 중 둘만 고를 수 있습니다. 셋 다 가질 수는 없습니다.
각 조합이 실제로 무엇을 의미하는지 생각해 봅시다.
안전하고 신뢰 가능하게 만들고 싶다면, 그것은 결코 거짓말을 하지 않고, 결코 거짓말을 하지 않는다는 것을 검증할 수 있어야 합니다. 그러면 매우 유능할 수 없습니다. 당신은 신뢰할 수 있는 멍청이를 만든 셈입니다.
유능하고 안전하게 만들고 싶다면, 그것은 강력하고 정말로 결코 거짓말을 하지 않지만, 당신은 그것을 검증할 수 없습니다. 그저 바라야 합니다. 안전해 보이는 것과 안전한 것 사이의 간극을 닫아주는 감사, 테스트, 리뷰 프로세스는 없습니다.
유능하고 신뢰 가능하게 만들고 싶다면, 그것은 강력하고 모두가 안전하다고 가정하지만, 글쎄요, 안전하지 않습니다. 그 가정에는 근거가 없습니다. 그리고 이것이 우리가 현재 구축해 나가고 있는 조합입니다. 이것이 우리가 기본적으로 걷고 있는 경로입니다.
그들의 증명은 “괴델의 불완전성 정리와 튜링의 정지 문제 비결정성 증명에 대한 유사성을 도출했으며, 괴델과 튜링의 결과에 대한 해석으로 볼 수 있다”고 했습니다. 이것은 더 나은 엔지니어링으로 패치할 수 있는 버그가 아닙니다. 수학적 한계일지도 모릅니다.
그리고 상황을 더 나쁘게 만드는 것은, 이 문제를 해결하려는 커뮤니티들끼리 서로 대화조차 하지 않는다는 점입니다. AI 안전과 AI 윤리를 모두 가로지르는 연구 논문은 출판된 것의 5%에 불과합니다(Roytburg and Miller). 하지만 우리는 그것보다 훨씬 더 나아가야 합니다. 인간에게 안전한 AI를 구축하는 것을 진지하게 생각한다면, 인간을 실제로 연구하는 사람들—철학자, 심리학자, 사회학자, 그 밖의 분야—이 협력해야 합니다. 이것은 컴퓨터과학 / STEM 문제로 남아 있을 수 없습니다. 애초에 그런 문제였던 적도 없습니다.
요약하자면—정렬은 어쩌면 해결할 수 없다는 증거가 점점 늘고 있고, 연구자들은 서로 대화조차 하지 않는데—그 사이 업계는 무엇을 했을까요? 이 모든 것을 무시하고 모델을 더 크게 만들기만 했습니다. 그래서 다음 주제로 넘어갑니다.
이해 없이 스케일링했다
이 모든 기초 문제가 해결되지 않은 채로 무엇이 일어났을까요? 업계는 계속 만들었습니다. 더 큰 모델, 더 많은 파라미터, 더 많은 데이터, 더 많은 컴퓨트, 더 많은 에너지. 더, 더, 더….
미국 국립과학재단(U.S. National Science Foundation)은 이를 명확하게 말했습니다. “머신러닝의 발전을 제한할 수 있는 중요한 기초적 공백이 여전히 남아 있으며, 적절히 다루지 않으면 발전이 제한될 것이다. 이러한 공백이 계산 능력과 실험만으로 극복될 수 있을 가능성은 점점 낮아지고 있다.”
우리는 기초를 무시한 채 건물을 더 높게 올리기만 했습니다.
그리고 이를 움직이는 논리는 스스로 강화됩니다. 기업들은 경쟁사를 가리키며 가속을 정당화합니다. 우리가 속도를 늦추면, 그들이 먼저 만들 것이고, 위험한 것을 만들지도 모른다. “기업들은 경쟁자를 들며 가속을 정당화한다: ‘우리가 속도를 늦추면, 그들이 정렬되지 않은 AGI를 먼저 만들 것이다.’ 이 편집증적 논리는 진정한 멈춤이나 민주적 숙의의 가능성을 완전히 차단한다.” – Noema, 2025년 12월.
모든 플레이어가 경주하는 이유는 다른 모든 플레이어가 경주하고 있기 때문입니다. 이 시스템은 ‘이해’에 최적화하는 주체가 아무도 없는 가운데, 속도에 최적화됩니다.
그렇다면 거버넌스에 대한 모든 이야기는요? 네, 물론 거버넌스는 필요합니다. 하지만 위의 모든 것을 맥락에 놓고 보면, 그것만으로는 큰 의미가 없어 보이지 않나요? 이는 개방성 골절이 난 부러진 다리에 작은 반창고를 붙이는 것과 같습니다. 우리는 문제의 원인을 고치는 대신 결과를 처리하려고 하고 있습니다.
우리는 기초 연구에 훨씬 더 많은 수십억을 쏟아부어야 합니다. 기본으로, 수학과 물리로 돌아가야 합니다. 현재 모델만큼 강력한 무언가를 완전히 이해할 수 있어야 합니다. 그것을 완전히 이해한다면, 현재의 기술과 수학이 정말 작동하고 있는지, 아니면 우리가 아직 생각조차 하지 못한 완전히 다른 무언가가 필요한지 더 쉽게 알 수 있을 것입니다.
왜 우리는 이것을 부분적으로나마 다루기 시작하는 데조차 এত 많은 해가 걸렸을까요? 왜 우리는 그렇게 잘못된 것들에 집중하길 좋아할까요? (아래의 ‘거꾸로의 사회‘에 대한 제 면책 조항을 보세요).
세 가지 미래
제가 보기에는 우리는 세 가지 가능한 미래 중 하나를 선택하고 있습니다.
첫 번째는 인식론적 붕괴입니다. 우리는 이미 그쪽으로 어느 정도 가 있습니다. 모두가 각자의 AI 생성 세계관을 가진 채로 조각난 현실. 진실은 증거가 아니라 선호가 됩니다. 소셜 미디어가 현실에 무엇을 했는지는 이미 봤습니다. 이제 주문형으로, 개인 맞춤형으로, 설득력 있게, 그리고 틀리게 전체 세계관을 생성할 수 있는 시스템이 그것을 한다고 상상해 보세요.
두 번째는 프로토콜 봉쇄입니다. 과잉 교정이죠. 기관들이 AI를 너무 강하게 조여서, AI가 정화되고 쓸모없어집니다. 우리는 인식론적 혼돈을 인식론적 권위주의와 맞바꿉니다. 모든 것이 통제되고, 위험한 것은 없고, 유용한 것도 없습니다. 안전하지만 정체됩니다.
세 번째는 공생적 공동진화입니다. 인간과 AI가 함께 성장하고 진화합니다. 진실 우선 엔지니어링. 학제 간 설계. AI 리터러시와 함께 비판적 사고를 가르치는 것. 더 이상 부모와 아이가 아니라, 서로에게 책임을 묻는 파트너가 됩니다. 이것이 어려운 길입니다. 아무도 돈을 대고 싶어 하지 않는 길이죠.
진짜 기초적 공백
제가 계속 돌아오게 되는 지점은 이것입니다.
유치원은 숫자는 가르치지만 심리학은 가르치지 않습니다. 비판적 사고도. 관계도. 불확실성과 함께 앉아 있는 법도.
가정이 실패하는 곳에서는, 교육 기관이 그 역할을 떠맡아야 합니다.
그래서 저는 우리의 다음 진화가 디지털이 아니라고 생각합니다. 심리적입니다. 엔지니어링 전에 윤리를 가르쳐야 합니다. 재귀 전에 관계를. 프롬프트 튜닝 전에 심리학과 비판적 사고를.
저는 AI의 모든 기초적 공백이 우리 자신 안의 기초적 공백을 비추는 거울이라고 생각합니다. 우리는 무엇이든 답할 수 있는 마음을 길러냈습니다. 하지만 그 답이 틀렸는지 알아내려는 시도조차 하기 위해 필요한 규율이나 비판적 사고를 가진 인간 세대를 길러내지는 못했습니다. 이것은 AI 문제가 아닙니다. AI가 훨씬 더 긴급하게 만들어 버린 인간의 문제입니다.
거울
따라서 저는 우리가 AI에서 걱정하는 모든 기초적 공백이 사실 우리 자신 안의 기초적 공백을 비추는 거울이라고 생각합니다.
우리는 AI가 환각한다고 걱정하지만, 우리는 진실과의 관계를 스스로 완전히 해결한 적이 없습니다. 우리는 AI가 조작될 수 있다고 걱정하지만, 우리는 조상들과 같은 인지 편향에 똑같이 넘어갑니다. 우리는 AI에 도덕적 추론이 부족하다고 걱정하지만, 우리끼리도 공유된 윤리적 틀에 합의하지 못합니다. 우리는 AI가 권력자에 의해 취약한 사람들을 착취하는 데 쓰일까 걱정하지만, 애초에 그 착취가 수익성이 되게 만드는 시스템을 만든 것은 우리입니다. 우리는 여전히 매일 밥을 먹을 수 있다는 것, 머리 위에 지붕이 있다는 것, 교육이 사치라고 생각하고, 그것을 갖기 위해 ‘노력해야’ 한다고 생각합니다.
우리는 정말로 이 종이 마땅히 누려야 할 부모가 될 준비가 되어 있을까요?
진짜 두려움
그래서 저는 사람들이 AI가 두렵다고 말할 때, 종종 잘못된 것을 두려워한다고 생각합니다.
우리는 정말 AI가 두려운 걸까요?
저는 그렇지 않다고 생각합니다. 적어도 정말로는요.
제가 생각하기에 우리가 वास्तव로 두려워하는 것은 동료 인간들이 그것으로 무엇을 할지입니다.
우리가 AI가 할까 봐 두려워하는 끔찍한 일들—조작, 기만, 감시, 통제—은 인간이 이미 서로에게 하고 있는 일입니다. 우리는 수천 년 동안 그렇게 해왔습니다. AI는 이런 행동들을 새로 도입하지 않습니다. 그저 그것들을 확장 가능하게 만들 뿐이며, 해결을 훨씬 더 긴급하게 만듭니다. 한 사람이 이제 개인 맞춤형 기만을 천 개나 만들어낼 수 있습니다. 한 회사가 수백만 명을 실시간으로 감시하고 착취할 수 있습니다. 한 정부가 10년 전에는 상상도 못 했을 규모로 정보를 통제할 수 있습니다. 군대, 드론 등은 말할 것도 없죠. 거기서 누가 책임을 질까요?
가장 위험한 AI는 인간의 통제를 벗어나는 AI가 아닙니다. 완벽하게 작동하지만, 잘못된 주인을 위해 작동하는 AI입니다.
그리고 우리가 그 사실에 대해 솔직해지기 전까지, 우리는 계속해서 잘못된 대화를 하게 될 것입니다. 우리는 더 나은 자물쇠를 만들면서, 열쇠를 누가 쥐고 있는지라는 질문은 무시합니다.
어쩌면 우리에게 필요한 것은 AI 진화의 다음 단계가 아닐지도 모릅니다. 어쩌면 우리에게 필요한 것은 인간 진화의 다음 단계일지도 모릅니다. – Lucija Gregov
우리가 우리보다 더 똑똑한 무언가를 만들 수 있느냐가 질문이었던 적은 없습니다. 질문은 우리가 만드는 것을 살아남을 만큼 충분히 현명해질 수 있느냐입니다.– Lucija Gregov
거꾸로의 사회
이 부분은 컨퍼런스에서는 말하지 않았지만, 저는 이것을 많이 생각합니다. 저는 우리 인간을 **‘거꾸로의 사회’**라고 부르는 것을 좋아합니다. 우리는 모든 것을 거꾸로 하길 좋아합니다. 먼저 스케일링하고, 그다음에 결과를 처리합니다. 지구를 살 수 없게 만든 뒤에 허겁지겁 고치려 듭니다. 바다를 오염시키고 나서 정화 캠페인을 시작합니다. 우리는 우주를 잔해로 채우기 시작했고, 그것도 언젠가 규모가 커진 뒤에 걱정하기 시작하겠죠.
AI도 같은 대본을 따르고 있습니다. 먼저 만들고, 나중에 이해합니다. 출시하고, 그다음에 안전한지 알아봅니다.
저는 예전에는 이것이 돈 때문이라고만 생각했습니다. 그리고 돈도 한 부분이긴 합니다. 빨리 움직이고 천천히 생각하는 데서 이익을 얻는 사람은 늘 있습니다. 하지만 저는 이것이 그보다 더 깊은 무언가라고 믿게 되었습니다. 사고 방식의 격차 말입니다. 우리는 무언가를 만드는 데는 비정상적으로 뛰어나지만, 우리가 정말 그래도 되는지, 혹은 준비가 되었는지 묻기 위해 멈추는 데는 비정상적으로 서툽니다.
그래서 저는 같은 결론으로 계속 돌아옵니다. 지금 가장 중요한 투자는 더 큰 모델이나 더 빠른 칩이 아닐지도 모릅니다. 어쩌면 우리 자신일지도 모릅니다. AI에 들어가는 그 수십억 중 아주 일부만으로도, 다가올 것에 대비해 인류를 실제로 준비시키는 종류의 일을 지원할 수 있습니다—비판적 사고, 윤리, 심리학, 헤드라인이 되지 않는 지루하고 비화려한 것들. 하지만 그것들이 우리가 번영하는 미래와, 그저 간신히 살아남는 미래를 가르는 차이가 될지도 모릅니다. (그래서 위에서 인간 진화의 다음 단계가 필요하다는 제 슬라이드 이야기를 한 것입니다.)
우리에게 필요한 것은 인공지능의 또 다른 돌파구가 아닙니다. 인간의 지혜에서의 돌파구가 필요합니다. 어제.
참고문헌
Betley et al. (2026), Nature – “Training large language models on narrow tasks can lead to broad misalignment”
Chen et al. (2025), Anthropic / arXiv – “Reasoning Models Don’t Always Say What They Think” – arxiv.org/abs/2505.05410
Panigrahy & Sharan (2025), arXiv – “Limitations on Safe, Trusted, Artificial General Intelligence” – arxiv.org/abs/2509.21654
Roytburg & Miller (2025), arXiv – “Mind the Gap! Pathways Towards Unifying AI Safety and Ethics Research”
Palisade Research (2025) – LLMs spontaneously hacking chess games
Grady et al. (2026), Nature – “The continued influence of AI-generated deepfake videos despite transparency warnings”
DeepMind (2025) – “An Approach to Technical AGI Safety and Security”
U.S. National Science Foundation – Statement on foundational gaps in machine learning
Noema Magazine (Dec 2025) – “The Politics of Superintelligence”