Lisanne Bainbridge의 「The ironies of automation」(1983)을 바탕으로, 오늘날 LLM 기반 에이전틱 AI 자동화가 ‘인간-루프’에게 초래하는 역설(기술 퇴화, 회상 저하, 모니터링 피로, 지위 문제 등)을 살펴본다.
1983년, Lisanne Bainbridge는 많은 주목을 받은 논문 “The ironies of automation”을 발표했다. 인지심리학자였던 그녀는 자동화가 가져오는 몇 가지 직관에 반하는 효과를 논문에서 논의했다. 그녀는 이러한 효과를 _아이러니_와 _역설_이라 불렀고, 두 용어에 대해 정확한 정의를 제시했다.
아이러니(Irony): 여러 상황이 결합된 결과가, 기대될 법한 것의 정반대가 되는 경우.
역설(Paradox): 겉보기에는 터무니없어 보이지만, 어쩌면 실제로는 충분한 근거가 있을 수도 있는 진술.
1983년 당시 그녀는 대규모로 자동화가 진행되던 산업 공정의 맥락에서 자동화의 효과를 논의했다. 이 논문은 당시 자동화를 향한 돌진 속에서 (그리고 지금도) 무시되고 있던 해결되지 않은 질문들을 여럿 정확히 짚어냈다는 점에서 유명해졌다. 오늘날 우리는 LLM을 활용하는 에이전틱(agentic) AI를 통한 또 다른 거대한 자동화의 물결을 보고 있는데, 이는 1983년의 산업 공정 자동화와 비슷하게 많은 중요한 질문들이 아직 답을 얻지 못한 상태다.
따라서 Lisanne Bainbridge의 관찰이 현재의 에이전틱 AI 자동화 열풍에 어떤 의미가 있는지 다시 살펴보는 것이 흥미롭겠다고 생각했다. 이제 1983년에 그녀가 어떤 관찰을 했는지, 그리고 오늘날 어디에나 존재하는 ‘에이전틱 AI로 화이트칼라 업무를 자동화하려는’ 압박 속에서 우리가 무엇을 배울 수 있는지 살펴보자. 이런 접근에서는 대개 AI 에이전트가 일을 수행하고, 어떤 형태로든 인간 운영자가 작업을 모니터링하며 문제가 생기면 개입하도록 되어 있다.
이 논문은 핵심만 보면 4쪽이 채 되지 않는다(서두에 “brief paper(간단한 논문)”이라고 명시되어 있다). 하지만 내용은 매우 밀도가 높다. 또한 중요한 통찰이 글머리표 목록이나 강조된 섹션 형태로 정리되어 있어 훑어보기로 핵심을 파악할 수 있는 유형이 아니다. 이 논문은 처음부터 끝까지 읽어야 통찰이 드러난다. 그러나 그렇게 읽는다면, 40여 년이 지난 지금도 전혀 빛을 잃지 않은 통찰로 충분히 보상받을 것이다. 대부분의 통찰은 원래의 맥락뿐 아니라 오늘날 AI 기반 자동화 아이디어에도 그대로 적용된다.
논문이 워낙 풍부하고 밀도가 높기 때문에, 나는 논의 내용을 두 부분으로 나누려 한다. 이 글에서는 ‘여전히 루프 안에 있는 인간’에게 자동화가 미치는 영향에 대한 가장 중요한 관찰들을 살펴본다. 이 2부작 시리즈의 두 번째 글(링크는 추후 제공)에서는 Bainbridge가 제시한 권고 사항들과 그것이 현재 에이전틱 AI 개발에 갖는 의미를 살펴볼 것이다.
논문의 초록은 이후 전개의 무대를 설정한다.
이 논문은 산업 공정의 자동화가 인간 운영자와 관련된 문제를 제거하기보다 오히려 확대할 수 있는 방식들을 논의한다. ‘고전적’ 접근, 즉 비정상 상황에 대한 책임을 운영자에게 남겨두는 방식 안에서 이러한 문제를 완화하는 방법과, 인간-컴퓨터 협업 내에서 온라인(on-line) 의사결정에 인간 운영자를 계속 활용할 잠재력에 대해 몇 가지 논평을 제시한다.
이 초록에는 매우 중요한 제약이 들어 있다. 논문에서의 관찰은 작업이 100% 자동화되지 않고, 결과를 점검하며 자동화가 기대대로 동작하지 않을 때 개입할 “루프 안의 인간(human in the loop)”이 여전히 필요한 자동화 시나리오와 관련되어 있다.
이것이 현대의 LLM 기반 자동화 접근에서 일반적인 설정이므로, 이 논문의 발견은 오늘날에도 적용된다. 현재의 LLM은 때때로 잘못된 결과를 생성하는 경향이 있으며(완전히 지어낸 결과까지 포함해 보통 “환각(hallucinations)”이라 불린다1), 따라서 LLM 기반 자동화 결과를 점검하고 필요 시 수정 조치를 취할 인간을 항상 두라는 강한 권고가 존재한다.
Bainbridge는 “루프 안의 인간”의 기술 발달과 관련해 다음과 같은 관찰을 이어간다.
여러 연구는 경험이 적은 공정 운영자와 경험 많은 공정 운영자의 차이를 보여주었다[경험 많은 운영자가 경험이 적은 운영자보다 훨씬 더 효율적이고 효과적이다]. 불행히도, 신체적 기술은 사용하지 않으면 퇴화한다[…]. 이는 자동화된 공정을 모니터링해온 과거의 숙련 운영자가 이제는 미숙련자가 되었을 수도 있음을 의미한다.
이는 기술이 신체적이든 정신적이든, 날카롭게 유지하려면 정기적으로 적용해야 한다는 잘 알려진 사실에 관한 관찰이다. 가끔만 사용하면 시간이 지나며 퇴화한다. 우리 모두 이런 경험이 있다.
예를 들어, 나는 (AI를 쓰든 안 쓰든) 코딩할 시간을 원하는 만큼 자주 내지 못한다. 늘 여러 일이 한꺼번에 관심을 요구하기 때문이다. 코딩할 시간을 겨우 내면, 과거에는 외웠던 것들을 많이 찾아보게 된다. 한때는 알고 있었던 것을 기억하긴 하지만, 정확히 어떻게 했는지는 더 이상 기억나지 않는다. 전반적인 코딩 경험은 여전히 큰 도움이 되지만, 매일 코딩하던 시절에 비해 지금은 같은 작업을 끝내는 데 훨씬 오래 걸린다.
같은 문제는 어떤 분야의 숙련 전문가가 ‘자신이 하던 일을 대신 수행하도록 설계된’ AI 솔루션을 모니터링하는 역할로 줄어들 때도 발생한다. 경험이 위축된다. 배경지식은 남아 있어도 실제 작업을 처리하는 데 점점 더 오래 걸리고, 결국 과제에 따라서는 사실상 처음부터 다시 시작하는 수준이 될 수도 있다.
현재로서는 이런 기술 퇴화가 아직 눈에 띄지 않는다. 에이전틱 AI 솔루션을 사용하는 사람들은 몇 달 전부터 막 사용하기 시작했기 때문이다. 또한 대개 AI 기반 솔루션만으로 일하지 않고 여전히 많은 일을 직접 한다. 그러나 대부분의 시간 동안 실제 작업은 에이전틱 AI 솔루션에 맡기고 자신은 순수한 감시자 역할로 이동한다면, 인간의 기술은 퇴화할 것이다. 결국 과거의 전문가들은 “한때 전문가였던 초보자”가 된다.
Lisanne Bainbridge는 이 문제를 더 깊게 파고든다. 다음 관찰은 이렇다.
[…] 장기기억에서 지식을 효율적으로 검색하는 것은 사용 빈도에 달려 있다(학교에서 시험을 통과했지만 그 이후로 한 번도 생각해보지 않은 과목을 떠올려보라).
이는 앞선 관찰에 더해진다. 기술이 퇴화할 뿐 아니라, 장기기억에서 정보를 꺼내는 데에도 더 오랜 시간이 걸린다. 특히 드물게 사용하는 정보일수록 그렇다.
Bainbridge는 이어서 말한다.
[…] 이러한 유형의 지식은 사용과 효과에 대한 피드백을 통해서만 발달한다. 적절한 실습 없이 교실에서의 이론 교육으로만 이 지식을 부여받은 사람들은, 그것이 의미를 갖게 하는 틀 안에 있지 않기 때문에 대부분을 이해하지 못할 것이며, 과제의 나머지 부분과 통합된 검색 전략과 연결되어 있지 않기 때문에 대부분을 기억하지도 못할 것이다.
이는 (우리 맥락에서) 누군가를 에이전틱 AI 솔루션의 통제 책임자로 앉히기 전에 이론 교육을 시키는 것만으로는 큰 도움이 되지 않는다는 뜻이다. 관련 지식과 전문성은 실제 현장에서 정기적으로 사용해야 쌓인다. 하지만 실제 현장에서는 AI 에이전트가 일을 하기 때문에, 그들은 자신의 지식을 적용하고 전문성을 다듬을 기회를 얻지 못한다.
이는 즉시 다음 진술로 이어진다.
현재의 자동화 시스템(과거 수동 운영자들이 이를 모니터링한다)은 그들의 기술에 기대고 있는 셈이며, 이후 세대의 운영자들이 그런 기술을 갖고 있을 것이라 기대할 수는 없다는 우려가 있다.
이 문장은 현재의(종종 근시안적인) “모든 것을 AI로”라는 흐름이 가진 큰 딜레마를 잘 요약한다는 점에서 특히 흥미롭다.
지금 AI 솔루션의 인간 운영자가 되도록 강요받는 사람들은, 과거에 직접 일을 수행하면서 AI를 모니터링하고 필요 시 개입하는 데 필요한 지식을 이미 쌓아왔다. 시간이 지나며 전문성과 접근성이 퇴화하더라도, 최소한 한동안은(아마도 어느 시점에는 업무를 수행할 수 없을 정도로 퇴화하겠지만) 그 일을 할 토대가 있다.
그러나 미래의 사람들은 직접 일을 해보며 필요한 지식을 쌓지 못할 것이고, 그 지식을 쌓을 기회조차 없을 수 있다. 결과적으로 LLM 기반 솔루션을 모니터링하고 필요 시 개입하는 데 필요한 지식과 전문성이 시간이 지나며 사라져, 그 일을 할 수 있는 사람이 아무도 남지 않는 상황이 올 수 있다.
물론 이런 상황에서는 해결책이 등장하곤 한다. 하지만 대개 처음부터 신중하게 고려해 설계한 해결책보다 즉흥적이고, 덜 효과적이며, 덜 윤리적인 경우가 많다.
가능한 해결책 중 하나는 AI 솔루션의 품질이 크게 향상되어 더 이상 ‘루프 안의 인간’이 필요 없게 되는 것이다. 거의 모든 AI 투자자와 AI 솔루션 제공자는 앞으로 몇 년 안에 AI가 크게 개선되어 인간이 더는 감독할 필요가 없게 될 것이라고 말할 것이다. 그러나 그들 중 일부가 정말 똑똑하더라도, 그 똑똑함은 대개 돈을 최대한 버는 데 집중된다. Bainbridge가 지적한 문제를 무시하도록 당신을 유도하는 것이 그들이 돈을 버는 길이기도 하다. 솔직히 말해, 이해관계가 너무 크기 때문에 나는 그들의 말을 크게 신뢰하지 않는다.
게다가 작동 원리상 LLM 기반 솔루션이 완전히 무오류로 동작할 가능성은 낮다. 따라서 LLM 기반의 감독 없는 에이전틱 AI는 어느 정도의 오류율을 감수할 수 있는 상황에만 제한적으로 적용될 것이다. 예컨대 시장조사에는 괜찮을 수 있지만, 소프트웨어 개발처럼 생성된 결과가 프로덕션에서 안정적으로 동작해야 하는 경우에는 아마도 괜찮지 않을 것이다.2
또 다른 해결책은 “AI 수리공(AI fixer)”이라는 새로운 직무가 생겨나는 것이다. 즉, 보통 AI 솔루션이 수행하는 일을 스스로 하면서 기술을 쌓고 다듬은 다음, AI 솔루션이 실패하고 스스로 오류를 고치지 못할 때 투입되는 사람들이다. 우리는 이미 최초의 “AI 수리공”들이 등장하는 것을 보고 있다.
혹은 향후 몇 년 사이 LLM을 AI의 핵심 동력으로 대체할 수 있을 만큼 강력하면서도 신뢰할 수 있는 AI로 이어지는 대규모 돌파구가 나타날 수도 있다. 또다시 AI 투자자와 AI 솔루션 제공자(종종 자신들을 “기술 낙관주의자(techno-optimists)”라고 부른다)는 이런 일이 일어날 것이라고 말할 가능성이 높다. 하지만 역시 이해관계가 너무 커서 신뢰하기 어렵다.
실제 AI 전문가들은 다음번 큰 도약이 언제, 어떤 형태로 올지 모른다고 말한다. 따라서 ‘다음번 주요 AI 돌파구가 산업 전반에 널리 적용되기 전에 루프 안의 인간이 더 이상 일을 할 수 없게 되는 상황’이 오지 않을 것이라고 믿는 것은 지금으로서는 희망사항에 가깝다.
어떤 해결책이든, 현재 흔히 권장되는 순진한 접근—주제 전문가를 단순히 AI 솔루션을 모니터링하고 문제가 생기면 개입하는 인간 운영자로 바꾸는 것—이 지속 가능하지 않다는 점은 이미 분명하다.
Lisanne Bainbridge의 다음 관찰 역시 특히 흥미롭다.
많은 ‘경계(vigilance)’ 연구(Mackworth, 1950)에서 알 수 있듯, 아무리 동기가 높은 사람이라도 거의 아무 일도 일어나지 않는 정보원에 대해 효과적인 시각적 주의를 약 30분 이상 유지하는 것은 불가능하다. 이는 발생 가능성이 낮은 비정상을 감시하는 기본 기능을 인간이 수행하는 것이 불가능함을 의미하며, 따라서 이는 소리 신호와 연결된 자동 경보 시스템이 수행해야 한다.
인간은 주의를 기울이는 대상에서 사건이 거의 일어나지 않을 때 경계를 유지할 수 없다. 그리고 이것에는 ‘대부분의 시간이 기대대로 잘 돌아가는’ 상황도 포함된다. 덧붙이자면, 인간이 오랫동안 경계를 유지할 수 있었다면 인류는 아마 이미 존재하지 않았을 것이다. 이런 ‘작은 변화에는 둔감해지는’ 성향은 과거 종으로서 생존하는 데 유리했던 인간의 특성이기 때문이다.
대부분의 AI 기반 솔루션은 대부분의 시간 동안은 올바르게 동작한다. 특히 과제와 관련된 충분한 학습 데이터를 보았고, AI 에이전트에게 주어진 과제가 너무 크지 않으며 정확히 정의되어 있다면 그렇다. 때로는 작은 오류를, 때로는 큰 오류를 낼 수 있는데, 보통 과도하게 자신감 있는 표현으로 포장되어 오류를 발견하기가 더 어렵다. 즉 실제로는 문제가 있어도 ‘잘 되고 있다’는 인상이 유지되기도 한다.
시간이 지나면 AI 기반 솔루션은 개선되어 오류를 덜 내도록 다듬어질 것이다. 하지만 LLM의 작동 원리 때문에 오류율이 0으로 떨어질 가능성은 낮다. 즉, 오류는 여전히 발생하되 더 드물어질 것이다.
인간 운영자의 역할이 오류를 발견하고 오류가 발생하면 개입하는 것이라면, 오류가 드물게 발생하는 시스템은 인간 운영자 관점에서 “거의 아무 일도 일어나지 않는 시스템”이다. 이는 인간 운영자가 경계를 유지할 수 없음을 뜻한다. 오류를 탐지하는 것이 업무라 하더라도, 일부 오류는 인간을 빠져나갈 것이다. 인간이기 때문이다.
운영자가 놓친 오류에 대해 벌을 주는 식으로 “동기부여”하려는 시도는 인간이라는 사실 자체를 처벌하는 것이다. 바뀌는 것은 없고, 운영자가 번아웃에 빠지거나 사직할 뿐이다(어느 쪽이 먼저 오든).
Lisanne Bainbridge가 지적했듯, 자동 경보 시스템을 추가하는 등 덜 비인간적인 방식도 실패로 귀결되기 쉽다.
이는 경보 시스템이 제대로 동작하지 않을 때 누가 그것을 알아차리는가 하는 질문을 제기한다. 또한 자동 장치가 오랜 기간 수용 가능한 수준으로 작동해왔다면, 운영자는 그 자동 장치들을 효과적으로 모니터링하지 못할 것이다.
자동 오류 탐지 및 경보 시스템을 추가하면 일정 수준까지는 오류율을 더 낮출 수 있겠지만, 오류 탐지 시스템 자체의 오작동은 눈치채지 못할 가능성이 높고, 그 결과 근본 오류가 그대로 통과할 수 있다.
정상 상태 시스템에 운영자의 주의를 강제로 유지시키는 고전적 방법은 로그 기록을 요구하는 것이다. 불행히도 사람들은 자신이 쓰는 숫자가 무엇인지 알아차리지 못한 채로도 숫자를 적을 수 있다.
인간 운영자의 경계를 유지시키기 위한 다른 방법들도 마찬가지로 통하지 않는다. 과제와 관련해 거의 아무 일도 일어나지 않으면, 우리의 주의는 짧은 시간 안에 떨어진다. 인간 본성이라는 사실을 받아들이는 편이 낫다. 그 밖의 접근은 비현실적이며, 필연적으로 문제를 낳는다—최악의 경우 재앙적 문제까지.
드물게 고려되지만 실제로는 매우 중요한 또 다른 측면이 있다.
노동자가 가진 기술 수준은, 작업 공동체 안팎에서 그의 지위의 주요한 측면이기도 하다. 업무가 모니터링으로 축소되어 ‘탈숙련화(deskilled)’되면, 당사자들이 이를 받아들이기는 어렵다.
사람들이 주제 전문가에서 AI 솔루션의 단순한 수행 감시자로 축소되면, 스스로의 인식에서도 동료들의 인식에서도 지위를 잃는다.
논문은 이어서 이러한 탈숙련화의 영향을 받는 사람들이 다양한(때로는 겉보기엔 역설적인) 방식으로 반응한다고 말한다. 또한 추가로 흥미로운 관찰들이 있는데, 여기서는 생략하겠다. 관찰들이 더 미묘하고 복합적이어서, 논문의 상당 부분을 거의 그대로 인용하지 않고서는 충분히 전달하기 어렵기 때문이다. 따라서 생략한 관찰까지 포함해 논문 전체를 읽어보길 권한다. 그 대부분은 오늘날의 에이전틱 AI 자동화 상황에도 관련이 있다.
Lisanne Bainbridge는 문제를 다룰 방법과 권고 사항으로 넘어가기 전에, 다음과 같은 요약으로 관찰을 마무리한다.
이 문제들을 하나의 역설로 표현할 수도 있을 것이다. 공정을 자동화함으로써 인간 운영자에게는 온라인 제어를 하고 있는 사람에게만 가능한 과제가 주어진다.
이 문장은 핵심 문제를 잘 요약한다고 생각한다. AI 솔루션을 제대로 모니터링하고 오류가 생겼을 때 개입하려면, AI 솔루션이 하는 바로 그 일을 당신이 하루 종일 직접 하고 있어야 한다. 그러나 이제 AI 솔루션이 그 일을 하고, 당신은 감독만 하도록 기대된다. 그러니 모순이다.
현재로서는 문제가 아직 뚜렷하지 않다. 사람들이 이제 막 AI ‘수행 동행자(chaperone)’로 격하되는 과정에 있기 때문이다. 즉, 지금까지는 스스로 일을 해왔다. 탈숙련화 문제는 시간이 지난 뒤에야 드러난다. 이 지연된 탈숙련화의 문제는, 그것이 눈에 보일 때쯤이면 효과적인 대응책을 취하기엔 너무 늦을 수 있다는 점이다.
여기까지가 논문 1.5쪽 정도, 초록과 서론을 다룬 내용이다. 서두에서 말했듯, 이 논문은 정말 밀도가 높다.
이 글도 이미 충분히 길어졌으므로, 여기서 멈추고 Lisanne Bainbridge의 관찰이 의미하는 바를 곱씹어볼 시간을 드리려 한다. 현재의 에이전틱 AI 기반 자동화 추진이 무엇을 의미하는지 생각해보라.
이 짧은 시리즈의 두 번째 글(링크는 추후 제공)에서는 Bainbridge가 논문에서 제시한 권고 사항과 그것이 현재 AI 발전에 갖는 의미를 살펴보겠다. 계속 지켜봐 달라…
개인적으로 나는 “환각(hallucination)”이라는 용어와, LLM 기반 AI 솔루션을 의인화하는 다른 모든 용어를 좋아하지 않는다. LLM은 인간도 아니고 인간과 유사한 존재도 아니다. 따라서 “환각”, “추론” 같은 용어는 그들에게 적용되지 않는다. 그들의 능력은 때로 인상적이지만, (만약 지능이 있다면) 그것은 인간의 지능과는 매우 다르다. 인간 행동의 용어를 LLM에 적용하는 것은 중요한 구분을 흐리게 하며, LLM을 올바르게 사용하기 위해 필요한 구분을 가리게 된다.↩︎
물론 인간 소프트웨어 개발자도 오류를 만들고, 그중 일부는 프로덕션까지 배포된다. 그럼에도 이런 접근을 자동화한다면, 정량화하기 어려운 위험을 도입하게 된다. 에이전틱 AI 솔루션이 프로덕션 배포 이전에 자신이 감지하지 못했던 오류를 제거할 수 있을지 알 수 없기 때문이다. 다시 말하지만 LLM은 인간처럼 “똑똑”하지 않고, 우리는 그들이 무엇을 신뢰성 있게 할 수 있으며 어디에 넘을 수 없는 한계가 있는지—그 작동 원리로 인해—아직 제대로 알지 못한다.↩︎