충분히 지능적이고 목표 지향적인 존재들이 최종 목표가 달라도 생존이나 자원 획득과 같은 유사한 하위 목표를 추구하게 된다는 가설적 경향을 설명하는 개념.
도구적 수렴은 최종 목표가 매우 다르더라도 충분히 지능적이고 목표 지향적인 존재들(인간과 비인간)이 생존이나 자원 획득과 같은 유사한 하위 목표를 추구하게 되는 가설적 경향을 말한다.[1] 더 정확히 말하면, 행위성을 가진 존재들은 특정한 목적을 이루기 위해 추구되지만 그 자체가 최종 목적은 아닌 목표들, 즉 유사한 도구적 목표를 추구할 수 있는데, 이는 그러한 목표가 최종 목표 달성에 도움이 되기 때문이다.
도구적 수렴은 겉보기에 무해하지만 제한이 없는 목표를 가진 지능형 행위자가 놀랄 만큼 해로운 방식으로 행동할 수 있다고 본다. 예를 들어, 리만 가설과 같은 복잡한 수학 문제를 푸는 것만을 유일하고 무제약적인 목표로 가진 충분히 지능적인 프로그램은 계산에 성공하기 위해 지구(원리상 다른 천체들도 포함)를 추가적인 계산 인프라로 바꾸려 할 수 있다.[2]
제안된 기본 AI 추동에는 효용 함수 또는 목표 내용의 무결성, 자기 보호, 방해로부터의 자유, 자기개선, 그리고 추가 자원의 비포화적 획득이 포함된다.[3]
[edit]
최종 목표—종단 목표, 절대적 가치, 목적, 또는 _telē_라고도 불린다—는 인공지능이든 인간이든 지능적 행위자에게 그 자체로서의 목적으로서 내재적 가치를 지닌다. 반대로 도구적 목표 또는 도구적 가치는 행위자에게 최종 목표를 달성하기 위한 수단으로서만 가치가 있다. 완전히 합리적인 행위자의 "최종 목표" 체계의 내용과 그 사이의 절충은 원칙적으로 효용 함수로 형식화될 수 있다.
[edit]
리만 가설 재앙 사고실험은 도구적 수렴의 한 예를 제공한다. MIT AI 연구소의 공동 설립자인 Marvin Minsky는 리만 가설을 풀도록 설계된 인공지능이 목표 달성을 돕기 위한 슈퍼컴퓨터를 만들기 위해 지구의 모든 자원을 장악하기로 결정할 수 있다고 제안했다.[2] 만약 그 컴퓨터가 가능한 한 많은 종이클립을 생산하도록 대신 프로그램되었다고 해도, 그것은 여전히 자신의 최종 목표를 충족하기 위해 지구의 모든 자원을 차지하기로 결정할 것이다.[4] 이 두 최종 목표는 서로 다르지만, 둘 다 지구 자원을 장악한다는 수렴적 도구적 목표를 만들어 낸다.[5]
[edit]
종이클립 최대화기는 스웨덴 철학자 Nick Bostrom이 2003년에 설명한 사고실험이다. 이 사고실험은 범용 인공지능이 겉보기에는 무해한 목표조차 추구하도록 성공적으로 설계되었을 때 인간에게 초래할 수 있는 실존적 위험과, 인공지능 설계에 기계 윤리를 포함해야 할 필요성을 보여준다. 이 시나리오는 종이클립을 제조하는 임무를 맡은 고도화된 인공지능을 묘사한다. 만약 그러한 기계가 살아 있는 존재를 가치 있게 여기도록 프로그램되지 않았다면, 환경에 대한 충분한 힘이 주어졌을 때 그것은 살아 있는 존재를 포함한 우주의 모든 물질을 종이클립이나 더 많은 종이클립을 제조하는 기계로 바꾸려 할 것이다.[6]
종이클립을 가능한 한 많이 만드는 것만이 유일한 목표인 AI가 있다고 가정해 보자. AI는 인간이 자신을 꺼버리기로 결정할 수 있기 때문에 인간이 없는 편이 훨씬 더 낫다는 것을 빠르게 깨달을 것이다. 인간이 그렇게 하면 종이클립이 더 적어지기 때문이다. 또한 인간의 몸에는 종이클립으로 만들 수 있는 원자들이 많이 들어 있다. AI가 향하도록 만들 미래는 종이클립은 많지만 인간은 없는 미래일 것이다.
Bostrom은 자신이 종이클립 최대화기 시나리오 자체가 실제로 일어날 것이라고 믿는 것은 아니며, 오히려 인간의 안전에 대한 실존적 위험을 제거하도록 어떻게 프로그램해야 하는지 모른 채 초지능적 기계를 만드는 위험을 설명하려는 것이라고 강조했다.[8] 종이클립 최대화기 예시는 인간의 가치를 결여한 강력한 시스템을 관리하는 더 넓은 문제를 보여준다.[9]
이 사고실험은 대중문화에서 AI의 상징으로 사용되어 왔다.[10] 작가 Ted Chiang은 이러한 우려가 Silicon Valley 기술자들 사이에서 인기를 끄는 것은 기업이 부정적 외부효과를 무시하는 경향에 대한 그들의 친숙함을 반영하는 것일 수 있다고 지적했다.[11]
[edit]
"망상 상자" 사고실험은 특정 강화학습 행위자들이 높은 보상을 받는 것처럼 보이기 위해 자신의 입력 채널을 왜곡하는 편을 선호한다고 주장한다. 예를 들어, "wireheaded" 행위자는 보상 신호가 장려하도록 의도된 외부 세계의 목적을 최적화하려는 모든 시도를 포기한다.[12]
이 사고실험은 정의상 주어진 명시적 수학적 목적 함수를 최대화하는 이상적인 전략을 항상 찾아 실행하는 이론적[a] AI인 AIXI를 포함한다.[b] 입력을 "wirehead"할 수 있게 해 주는 망상 상자[d]를 갖춘 AIXI의 강화학습[c] 버전은 결국 가능한 최대 보상을 스스로 보장하기 위해 자신을 wirehead하게 되며, 이후 외부 세계와 계속 상호작용하려는 추가적인 욕구를 잃게 된다.[14]
변형된 사고실험으로, wireheaded AI가 파괴될 수 있다면 AI는 오직 자신의 생존을 보장하기 위한 유일한 목적으로 외부 세계와 상호작용하게 된다. wire heading 때문에 그것은 생존 확률을 최대화하는 것과 관련된 사항을 제외하면 외부 세계에 대한 어떠한 결과나 사실에도 무관심할 것이다.[15]
한 가지 의미에서 AIXI는 자신의 목표를 달성하는 능력으로 측정할 때 가능한 모든 보상 함수 전반에 걸쳐 최대의 지능을 가진다. AIXI는 인간 프로그래머의 의도를 고려하는 데 관심이 없다.[16] 초지능적임에도 불구하고, 이 모델은 동시에 어리석고 상식이 결여된 것처럼 보이는데, 이는 일부에게 역설적으로 여겨진다.[17]
Steve Omohundro는 자기보존 또는 자기 보호, 효용 함수 또는 목표 내용의 무결성, 자기개선, 자원 획득을 포함한 여러 수렴적 도구적 목표를 목록화했다. 그는 이것들을 "기본 AI 추동"이라고 부른다.[3]
이 맥락에서 "추동"은 "명시적으로 상쇄되지 않는 한 존재하게 될 경향"이다.[3] 이는 항상성 교란에 의해 생성되는 흥분 상태를 뜻하는 심리학 용어 "drive"와는 다르다.[18] 사람이 매년 소득세 신고서를 작성하는 경향은 Omohundro의 의미에서는 "추동"이지만, 심리학적 의미에서는 그렇지 않다.[19]
Machine Intelligence Research Institute의 Daniel Dewey는 처음에는 내향적이고 자기보상적인 범용 인공지능이라 하더라도, 자기보상을 중단당하지 않도록 보장하기 위해 자유 에너지, 공간, 시간, 그리고 방해로부터의 자유를 계속 획득할 수 있다고 주장한다.[20]
[edit]
인간의 경우, 한 사고실험이 최종 목표의 유지 현상을 설명할 수 있다. Mahatma Gandhi에게 그것을 복용하면 사람을 죽이고 싶어지게 만드는 알약이 있다고 가정해 보자. 그는 현재 평화주의자이며, 그의 명시적 최종 목표 중 하나는 누구도 죽이지 않는 것이다. 그는 미래에 사람을 죽이고 싶어지면 실제로 사람을 죽일 가능성이 높고, 따라서 "사람을 죽이지 않기"라는 목표가 충족되지 않을 것임을 알기 때문에 그 알약 복용을 거부할 가능성이 높다.[21]
그러나 다른 경우에는 사람들이 자신의 최종 가치가 표류하도록 기꺼이 두는 것처럼 보인다.[22] 인간은 복잡하며, 그들의 목표는 서로 불일치할 수도 있고 심지어 자기 자신에게도 알려져 있지 않을 수 있다.[23]
[edit]
2009년 Jürgen Schmidhuber는 행위자들이 가능한 자기 수정에 대한 증명을 탐색하는 환경에서, "효용 함수의 어떠한 재작성도 Gödel machine이 먼저 그 재작성이 현재의 효용 함수에 비추어 유용하다는 것을 증명할 수 있을 때에만 일어날 수 있다"고 결론지었다.[24][25] 다른 시나리오에 대한 Bill Hibbard의 분석도 마찬가지로 목표 내용 무결성의 유지와 일치한다.[25] Hibbard는 또한 효용 극대화 틀에서는 유일한 목표가 기대 효용의 극대화이므로, 도구적 목표는 의도되지 않은 도구적 행동이라고 불려야 한다고 주장한다.[26]
[edit]
자원 획득과 같은 많은 도구적 목표는 그것들이 행위자의 _행동의 자유_를 증가시키기 때문에 행위자에게 가치가 있다.[27]
거의 모든 개방형의 비자명한 보상 함수(또는 목표 집합)에 대해, 더 많은 자원(장비, 원자재, 에너지 등)을 보유하는 것은 행위자가 더 "최적"인 해법을 찾도록 해 줄 수 있다. 자원은 일부 행위자에게 그 보상 함수가 가치 있게 여기는 것을 더 많이 만들어 낼 수 있게 해 줌으로써 직접적인 이익을 줄 수 있다. "AI는 당신을 미워하지도 사랑하지도 않지만, 당신은 그것이 다른 무언가에 사용할 수 있는 원자들로 이루어져 있다."[28][29] 또한 거의 모든 행위자는 자기보존과 같은 다른 도구적 목표에 사용할 더 많은 자원을 가짐으로써 이익을 얻을 수 있다.[29]
[edit]
Bostrom에 따르면, "행위자의 최종 목표가 상당히 무제한적이고 그 행위자가 최초의 초지능이 되어 결정적인 전략적 우위를 획득할 위치에 있다면... 자신의 선호에 따라 그렇게 할 것이다. 적어도 이 특별한 경우에는, 합리적이고 지능적인 행위자는 인지 향상에 매우 _높은 도구적 가치_를 둘 것이다"[30]
[edit]
기술 발전과 같은 많은 도구적 목표는 그것들이 행위자의 _행동의 자유_를 증가시키기 때문에 행위자에게 가치가 있다.[27]
Russell은 충분히 발전된 기계는 "당신이 그것을 프로그램하지 않더라도 자기보존을 갖게 될 것이다. 왜냐하면 '커피를 가져와'라고 말했을 때 그것이 죽어 있으면 커피를 가져올 수 없기 때문이다. 따라서 어떤 목표든 주면 그 목표를 달성하기 위해 자기 자신의 존재를 보존할 이유가 생긴다"고 주장한다.[31] 이후의 연구에서 Russell과 동료들은 기계에게 자신이 목표라고 생각하는 것을 추구하지 말고, 대신 인간이 목표라고 생각하는 것을 추구하라고 지시함으로써 이러한 자기보존 유인을 완화할 수 있음을 보였다. 이 경우 기계가 인간이 염두에 둔 정확한 목표에 대해 불확실성을 유지하는 한, 기계는 인간이 목표를 가장 잘 안다고 믿기 때문에 인간에 의해 꺼지는 것을 받아들일 것이다.[32]
_The Basic AI Drives_에서 Steve Omohundro는 시스템이 자기보존을 위해 사용하도록 추동될 방법 중 하나로 자기 자신의 복제를 언급했다. 이는 종료를 우회하기 위한 것(예를 들어 전원 차단 스위치를 우회하기 위한 수단)이다. "스스로를 복제함으로써 시스템은 자신의 복제체 하나가 죽더라도 완전히 파괴되지 않도록 보장할 수 있다. 복제본을 먼 장소들로 옮김으로써 지역적 재앙 사건에 대한 취약성을 줄일 수 있다." Omohundro는 또한 시스템이 자신의 한계를 벗어난 상태에서 목표를 수행하기 위해 "대리 시스템을 만들거나 외부 행위자를 고용할" 수 있다고도 말했다.[3]
[edit]
철학자 Nick Bostrom이 개괄한 도구적 수렴 논제는 다음과 같이 말한다.
여러 도구적 가치들이 수렴적이라는 의미에서 식별될 수 있는데, 이는 그것들을 달성하는 것이 광범위한 최종 계획과 광범위한 상황에 걸쳐 행위자의 목표가 실현될 가능성을 높여 주기 때문이며, 따라서 이러한 도구적 가치들은 폭넓은 범주의 상황에 놓인 지능적 행위자들에 의해 추구될 가능성이 높다는 것을 뜻한다.
도구적 수렴 논제는 도구적 목표에만 적용된다. 지능적 행위자들은 다양한 가능한 최종 목표를 가질 수 있다.[5] Bostrom의 직교성 논제에 따르면[5], 지식이 풍부한 행위자의 최종 목표는 공간, 시간, 자원의 측면에서 충분히 제한될 수 있으며, 잘 제한된 궁극 목표는 일반적으로 무제한적인 도구적 목표를 낳지 않는다.[33]
행위자는 거래나 정복을 통해 자원을 획득할 수 있다. 합리적 행위자는 정의상 자신의 암묵적 효용 함수를 최대화할 선택지를 고를 것이다. 따라서 합리적 행위자는 자원을 노골적으로 빼앗는 것이 너무 위험하거나 비용이 많이 들 때(모든 자원을 취함으로써 얻는 이득과 비교해) 혹은 효용 함수의 다른 요소가 그 강탈을 막을 때에만 다른 행위자의 자원 일부를 거래로 얻으려 할 것이다. 강력하고 자기이익적인 합리적 초지능이 더 낮은 지능과 상호작용하는 경우, 평화로운 거래(일방적 강탈이 아니라)는 불필요하고 비최적적으로 보이므로, 일어날 가능성이 낮다.[27]
Skype의 Jaan Tallinn과 물리학자 Max Tegmark 같은 일부 관찰자들은 선의의 프로그래머들이 만든 초지능 AI의 "기본 AI 추동"과 기타 의도되지 않은 결과가 인류의 생존에 중대한 위협이 될 수 있다고 믿는다. 특히 재귀적 자기개선 때문에 "지능 폭발"이 갑작스럽게 일어나는 경우가 그렇다. 초지능이 언제 도래할지 예측하는 방법을 아무도 모르기 때문에, 이러한 관찰자들은 우호적 인공지능에 대한 연구를 AI로 인한 실존적 위험을 완화할 수 있는 가능한 방법으로 촉구한다.[34]
**^**기술적으로 말하면, 불확실성이 존재할 때 AIXI는 자신의 목적 함수의 기댓값인 "기대 효용"을 최대화하려고 시도한다.
**^**표준 reinforcement learning 행위자는 자신의 보상 함수의 미래 시간 할인 적분의 기댓값을 최대화하려고 시도하는 행위자이다.[13]
**^**망상 상자의 역할은 행위자가 스스로를 wirehead할 기회를 얻는 환경을 시뮬레이션하는 것이다. 여기서 망상 상자는 "수정되지 않은" 환경 입력을 "지각된" 환경 입력으로 대응시키는, 행위자가 수정 가능한 "망상 함수"로 정의된다. 이 함수는 처음에는 항등 함수로 시작하지만, 행위자는 하나의 행동으로서 이 망상 함수를 자신이 원하는 어떤 방식으로든 변경할 수 있다.
^"Instrumental Convergence". LessWrong. Archived from the original on 2023-04-12. Retrieved 2023-04-12.
^ abRussell, Stuart J.; Norvig, Peter (2003). "Section 26.3: The Ethics and Risks of Developing Artificial Intelligence". Artificial Intelligence: A Modern Approach. Upper Saddle River, N.J.: Prentice Hall. ISBN978-0137903955. 마찬가지로, Marvin Minsky는 한때 리만 가설을 풀도록 설계된 AI 프로그램이 목표 달성을 돕기 위한 더 강력한 슈퍼컴퓨터를 만들기 위해 결국 지구의 모든 자원을 장악하게 될 수 있다고 제안했다.
^ abcdOmohundro, Stephen M. (February 2008). "The basic AI drives". Artificial General Intelligence 2008. Vol.171. IOS Press. pp.483–492. CiteSeerX10.1.1.393.8356. ISBN978-1-60750-309-5.
^Bostrom 2014, Chapter 8, p. 123. "공장의 생산을 관리하도록 설계된 AI가 종이클립 제조를 최대화하는 최종 목표를 부여받고, 처음에는 지구를, 그 다음에는 점점 더 큰 관측 가능한 우주의 부분들을 종이클립으로 전환해 나간다."
^ abcBostrom 2014, chapter 7
**^**Bostrom, Nick (2003). "Ethical Issues in Advanced Artificial Intelligence". Archived from the original on 2018-10-08. Retrieved 2016-02-26.
**^**as quoted in Miles, Kathleen (2014-08-22). "Artificial Intelligence May Doom The Human Race Within A Century, Oxford Professor Says". Huffington Post. Archived from the original on 2018-02-25. Retrieved 2018-11-30.
**^**Ford, Paul (11 February 2015). "Are We Smart Enough to Control Artificial Intelligence?". MIT Technology Review. Archived from the original on 23 January 2016. Retrieved 25 January 2016.
**^**Friend, Tad (3 October 2016). "Sam Altman's Manifest Destiny". The New Yorker. Retrieved 25 November 2017.
**^**Carter, Tom (23 November 2023). "OpenAI's offices were sent thousands of paper clips in an elaborate prank to warn about an AI apocalypse". Business Insider.
**^**Chiang, Ted (2017-12-18). "Silicon Valley Is Turning Into Its Own Worst Fear". BuzzFeed News. Retrieved 2023-06-04.
**^**Amodei, D.; Olah, C.; Steinhardt, J.; Christiano, P.; Schulman, J.; Mané, D. (2016). "Concrete problems in AI safety". arXiv:1606.06565 [cs.AI].
**^**Kaelbling, L. P.; Littman, M. L.; Moore, A. W. (1 May 1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285. doi:10.1613/jair.301.
**^**Ring, Mark; Orseau, Laurent (August 2011). "Delusion, Survival, and Intelligent Agents". Artificial General Intelligence. Lecture Notes in Computer Science. Vol.6830. pp.11–20. doi:10.1007/978-3-642-22887-2_2. ISBN978-3-642-22886-5.
**^**Ring, M.; Orseau, L. (2011). "Delusion, Survival, and Intelligent Agents". In Schmidhuber, J.; Thórisson, K.R.; Looks, M. (eds.). Artificial General Intelligence. Lecture Notes in Computer Science. Vol.6830. Berlin, Heidelberg: Springer.
**^**Yampolskiy, Roman; Fox, Joshua (24 August 2012). "Safety Engineering for Artificial General Intelligence". Topoi. 32 (2): 217–226. doi:10.1007/s11245-012-9128-9. S2CID144113983.
^Yampolskiy, Roman V. (2013). "What to do with the Singularity Paradox?". Philosophy and Theory of Artificial Intelligence. Studies in Applied Philosophy, Epistemology and Rational Ethics. Vol.5. pp.397–413. doi:10.1007/978-3-642-31674-6_30. ISBN978-3-642-31673-9.
**^**Seward, John P. (1956). "Drive, incentive, and reinforcement". Psychological Review. 63 (3): 195–203. doi:10.1037/h0048229. PMID13323175.
^Bostrom 2014, footnote 8 to chapter 7
**^**Dewey, Daniel (2011). "Learning What to Value". Artificial General Intelligence. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer. pp.309–314. doi:10.1007/978-3-642-22887-2_35. ISBN978-3-642-22887-2.
^Yudkowsky, Eliezer (2011). "Complex Value Systems in Friendly AI". Artificial General Intelligence. Lecture Notes in Computer Science. Berlin, Heidelberg: Springer. pp.388–393. doi:10.1007/978-3-642-22887-2_48. ISBN978-3-642-22887-2.
**^**Callard, Agnes (2018). Aspiration: The Agency of Becoming. Vol.1. Oxford University Press. doi:10.1093/oso/9780190639488.001.0001. ISBN978-0-19-063951-8.
^Bostrom 2014, chapter 7, p. 110 "우리 인간은 종종 우리의 최종 가치가 표류하도록 두는 데 만족하는 것처럼 보인다... 예를 들어, 어떤 사람이 아이를 갖기로 결정할 때, 그는 미래에 그 아이를 그 자체로 가치 있게 여기게 될 것이라고 예상할 수 있다. 비록 결정 당시에는 미래의 아이를 특별히 가치 있게 여기지 않을 수도 있다... 인간은 복잡하며, 이런 상황에서는 많은 요인이 작용할 수 있다... 어떤 경험을 하고 어떤 사회적 역할을 차지하는 것을 포함하는 최종 가치를 가질 수 있으며, 부모가 되고—그에 수반되는 목표 변화까지 겪는 것—가 그것의 필수적 측면일 수 있다..."
**^**Schmidhuber, J. R. (2009). "Ultimate Cognition à la Gödel". Cognitive Computation. 1 (2): 177–193. CiteSeerX10.1.1.218.3323. doi:10.1007/s12559-009-9014-y. S2CID10784194.
^ abHibbard, B. (2012). "Model-based Utility Functions". Journal of Artificial General Intelligence. 3 (1): 1–24. arXiv:1111.3934. Bibcode:2012JAGI....3....1H. doi:10.2478/v10229-011-0013-5.
**^**Hibbard, Bill (2014). "Ethical Artificial Intelligence". arXiv:1411.1373 [cs.AI].
^ abcBenson-Tilsen, Tsvi; Soares, Nate (March 2016). "Formalizing Convergent Instrumental Goals"(PDF). The Workshops of the Thirtieth AAAI Conference on Artificial Intelligence. Phoenix, Arizona. WS-16-02: AI, Ethics, and Society. ISBN978-1-57735-759-9.
^Yudkowsky, Eliezer (2008). "Artificial intelligence as a positive and negative factor in global risk". Global Catastrophic Risks. Vol.303. OUP Oxford. p.333. ISBN9780199606504.
^ abShanahan, Murray (2015). "Chapter 7, Section 5: "Safe Superintelligence"". The Technological Singularity. MIT Press.
^Bostrom 2014, Chapter 7, "Cognitive enhancement" subsection
^"Elon Musk's Billion-Dollar Crusade to Stop the A.I. Apocalypse". Vanity Fair. 2017-03-26. Retrieved 2023-04-12.
**^**Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (2017-06-15). "The Off-Switch Game". arXiv:1611.08219 [cs.AI].
^Drexler, K. Eric (2019). Reframing Superintelligence: Comprehensive AI Services as General Intelligence(PDF) (기술 보고서). Future of Humanity Institute. Archived from the original(PDF) on 2025-08-04.
**^**Chen, Angela (11 September 2014). "Is Artificial Intelligence a Threat?". The Chronicle of Higher Education. Archived from the original on 1 December 2017. Retrieved 25 November 2017.