촘스키의 통계적 언어 모델 비판을 계기로, 통계·확률·학습된 모델의 의미와 자연어 처리에서의 성과, 과학사에서의 ‘성공’ 개념, 그리고 통계적(알고리즘적) 모델링 문화와 데이터 모델링 문화의 대비를 논한다.
MIT 150주년 기념행사 기간인 2011년, Brains, Minds, and Machines 심포지엄에서 Technology Review는 노엄 촘스키 교수가 다음과 같이 말했다고 보도했다.
세상에서 어떤 것과 비슷한 행동을 만들어내기 위해 순수하게 통계적 방법만을 쓰는 기계학습 연구자들을 그는 조롱했는데, 그러면서도 그 행동의 의미를 이해하려고는 하지 않는다는 것이다.
이제 전문 기록이 공개되었으니, 촘스키의 말을 직접 인용해 보자.
통계 모델을 여러 언어학적 문제에 적용하려는 작업이 많이 있었던 건 사실입니다. 어느 정도 성공도 있었지만 실패도 많았다고 생각합니다. 나는 ‘성공’이라는 개념이 있는데… 과학사에서 새롭다고 생각합니다. 그것은 성공을 ‘분석되지 않은 데이터에 대한 근사’로 해석합니다.
노엄 촘스키
촘스키의 발언은 스티븐 핑커가 통계적 방법으로 학습된 확률적 모델의 성공에 대해 질문한 것에 대한 답이었다. 이 글은 핑커와 촘스키에 대한 응답이며, 다음 질문들을 다룬다.
촘스키의 요지는 다음과 같다고 이해한다.
그가 옳은가? 이는 오래된 논쟁이다. 내 짧은 답은 다음과 같다.
이 글의 나머지는 각 답변의 더 긴 버전이다.
**통계적 모델(statistical model)**은 데이터 포인트의 입력에 의해 수정되거나 훈련되는 수학적 모델이다. 통계적 모델은 종종(항상은 아니지만) 확률적이다. 구분이 중요한 경우에는 단순히 “통계적”이라고만 말하지 않고, 다음 구성 용어들을 사용하겠다.
클로드 섀넌
예를 들어 촘스키보다 10년 앞서, 클로드 섀넌은 단어 마르코프 연쇄에 기반한 확률적 통신 모델을 제안했다. 어휘가 10만 단어이고, 어떤 단어의 확률이 앞의 두 단어에 의존하는 2차 마르코프 모델을 사용한다면, 모델을 지정하는 데 1경(10^15) 개의 확률값이 필요하다. 이 10^15 값을 학습하는 현실적인 방법은 데이터에서 통계를 모으고, 데이터가 없는 방대한 경우를 위해 스무딩(smoothing) 방법을 도입하는 것뿐이다. 따라서 대부분(전부는 아니지만)의 확률 모델은 학습된다. 또한 많은(전부는 아니지만) 학습된 모델은 확률적이다.
또 다른 예로 뉴턴의 만유인력 모델을 보자. 질량 _m_1, _m_2 인 두 물체가 거리 r 만큼 떨어져 있을 때 힘 F 는 다음과 같다.
F = G _m_1 _m_2 / r^2
여기서 G 는 만유인력 상수다. 이 모델은 ‘학습된’ 모델인데, G 가 확률적 실험 오차를 포함한 일련의 실험 결과에 대한 통계적 추론으로 결정되기 때문이다. 또한 정확한 함수 관계를 주장하므로 결정론적(비확률적) 모델이다. 촘스키는 이런 종류의 통계적 모델에는 반대하지 않는다고 믿는다. 그가 비판을 집중하는 것은 섀넌의 모델처럼 매개변수가 ‘1~2개’가 아니라 ‘수천조(1경)’ 개인 통계적 모델인 듯하다.
(이 예는 또 다른 구분을 떠올리게 한다. 중력 모델은 **연속적(continuous)**이고 **정량적(quantitative)**인 반면, 언어학 전통은 이산적(discrete), 범주적(categorical), 정성적(qualitative) 모델을 선호해 왔다. 즉 단어는 동사이거나 아니거나이며, ‘동사다움의 정도’ 같은 것은 묻지 않는다. 이런 구분에 대해서는 Chris Manning의 Probabilistic Syntax를 보라.)
관련 있는 확률적 통계 모델로는 이상 기체 법칙이 있다. 이는 기체의 압력 P 를 분자 수 N, 온도 T, 볼츠만 상수 K 로 설명한다.
P = N k T / V.
이 방정식은 통계역학 도구로 1원리부터 유도할 수 있다. 이는 불확실하고 부정확한 모델이다. ‘진짜’ 모델이라면 개별 기체 분자들의 운동을 모두 기술해야 한다. 하지만 이 모델은 그런 복잡성을 무시하고, 개별 분자의 위치에 대한 우리의 불확실성을 ‘요약’한다. 따라서 통계적이고 확률적이면서도 현실을 완전히 모델링하지 못하더라도, 좋은 예측과 통찰을 제공한다. 그 통찰은 개별 분자의 ‘진짜’ 운동을 이해하려고 할 때는 얻기 어렵다.
이제 “C 뒤가 아니면 I가 E보다 먼저 온다(I before E except after C).”라는 철자 규칙을 생각해 보자. 이를 다음의 확률적·학습된 통계 모델과 비교하라.
P(IE) = 0.0177 P(CIE) = 0.0014 P(*IE) = 0.163 P(EI) = 0.0046 P(CEI) = 0.0005 P(*EI) = 0.0041
이 모델은 영어 텍스트 1조 단어 코퍼스에서 얻은 통계에서 나온다. 표기 P(IE)는 이 코퍼스에서 샘플링한 단어가 연속된 글자 “IE”를 포함할 확률을 뜻한다. P(CIE)는 “CIE”를 포함할 확률이며, P(*IE)는 C가 아닌 어떤 글자 뒤에 IE가 오는 경우의 확률이다. 통계 데이터는 IE가 EI보다 실제로 더 흔하다는 것(거의 4:1)을 확인해 주고, C 뒤에서는 IE의 우세가 줄어든다는 것도 확인해 준다. 하지만 규칙과 달리 CIE가 CEI보다 여전히 더 흔하며(거의 3:1), “science”, “society”, “ancient”, “species” 같은 단어들이 CIE 예시다.
“I before E except after C” 모델의 단점은 정확도가 별로 높지 않다는 점이다. 예를 들어:
Accuracy("I before E") = 0.0177/(0.0177+0.0046) = 0.793
Accuracy("I before E except after C") = (0.0005+0.0163)/(0.0005+0.0163+0.0014+0.0041) = 0.753
더 복잡한 통계 모델(예: 모든 4글자 시퀀스의 확률, 그리고/또는 모든 알려진 단어의 확률을 주는 모델)은 철자 과제에서 10배 더 정확할 수 있지만, 철자가 어떻게 작동하는지에 대한 간결한 통찰을 제공하지 못한다. 통찰을 얻으려면 음소, 음절화, 어원에 대한 지식을 아는 모델이 필요하다. 그런 모델은 학습될 수도(또는 아닐 수도) 있고, 확률적일 수도(또는 아닐 수도) 있다.
통찰의 또 다른 예로, 대법관 악수 이론(Theory of Supreme Court Justice Hand-Shaking)을 보자. 대법원이 개정하면 참석한 모든 대법관은 서로 악수한다. 참석자 수 n 은 0에서 9 사이의 정수다. 주어진 n 에 대해 총 악수 횟수 h 는 얼마인가? 가능한 설명은 세 가지다.
n:0 1 2 3 4 5 6 7 8 9
h:0 0 1 3 6 10 15 21 28 36
어떤 사람은 A를, 어떤 사람은 B를, 곱셈이나 덧셈이 느리면 C를 선호할 수도 있다. 왜일까? 세 설명은 정확히 같은 이론—가능한 모든 n 값(대법관이 9명 이하여야 한다는 조건 하에)에서 n 에서 h 로 가는 동일한 함수—를 묘사한다. 따라서 C보다 A(또는 B)를 선호한다면, 그것은 이론 자체가 아니라 다른 이유 때문이다. A나 B가 문제를 더 잘 이해하게 해 준다고 느낄 수 있다. 또한 A와 B는 의회가 대법관을 한 명 더 늘린다면 어떻게 되는지 알아내는 데 C보다 유용하다. 이론 A는 하키 경기 후 악수(각 선수가 상대 팀 선수들과 악수) 이론을 만드는 데도 도움이 될 수 있고, MIT 심포지엄에서 홀수 번 악수한 사람의 수가 짝수임을 증명하는 데도 도움이 될 수 있다.
촘스키는 통계적 언어 모델이 일부 응용 영역에서 제한적으로 성공했다고 말한 취지였다. 언어를 다루는 컴퓨터 시스템과, “세상에 대해 정확한 예측을 하는 것”으로 정의되는 ‘성공’의 개념을 보자. 먼저 주요 응용 분야는 다음과 같다.
이제 최종 사용자보다는 계산언어학자에게 더 흥미로운 구성 요소들을 보자.
분명히 통계적 모델(및 확률적 모델)이 ‘제한적’ 성공을 거두었다고 말하는 것은 부정확하다. 오히려 (배타적이진 않지만) 압도적으로 지배적인 위치를 차지했다.
성공의 또 다른 척도는 연구 공동체를 얼마나 사로잡았는지다. Steve Abney는 1996년에 이렇게 썼다. “지난 10년 사이 통계적 방법은 계산언어학에서 사실상 알려지지 않은 것에서 기본 전제로 변했다. … 용어를 그럴듯하게라도 쓰지 못하는 사람은 ACL(계산언어학회) 만찬에서 부엌일꾼으로 오해받을 위험이 있다.”
물론 다수가 옳다는 뜻은 아니다. 모두가 어떤 유행에 올라탔다고 해서 그것이 옳아지는 것은 아니다. 하지만 나도 전환했다. 논리 규칙으로 언어 모델을 작동시키려 약 14년을 보낸 뒤, (Gene Charniak 같은 개척자들—그리고 확률 전반에 대해 Judea Pearl—덕분에, 또 Dekai Wu처럼 초기 채택자였던 동료들 덕분에) 확률적 접근을 받아들이기 시작했다. 그리고 주변의 모두가 같은 전환을 하는 것을 보았다. 반대 방향으로 가는 사람은 보지 못했다. 우리 모두는 옛 도구의 한계와 새 도구의 이점을 보았다.
또한 돈으로 성공을 재는 것이 속물적이고 반지성적으로 보일 수 있지만, 섀넌 이론의 지적 후손은 매년 수조 달러의 매출을 만들어내는 반면, 촘스키 이론의 후손은 10억 달러에도 훨씬 못 미친다는 점을 지적하고 싶다.
이 절은 계산언어학 연구자 대다수가 통계 모델을 쓰는 이유 중 하나가 공학적 이유임을 보였다. 통계 모델이 최첨단 성능을 내며, 대부분 경우 비통계 모델이 가장 성능이 나쁘다. 이 글의 나머지에서는 과학적 이유—확률적 모델이 언어 사실을 더 잘 표현하며, 통계적 기법이 그 사실들을 이해하기 쉽게 해 준다는 이유—에 집중한다.
촘스키가 “그건 [과학적] 성공 개념으로 매우 새로운 것입니다. 과학사에서 그런 걸 본 적이 없습니다”라고 했을 때, 그가 뜻한 바는 “세상을 정확히 모델링하는 것”이라는 성공 개념이 새롭고, 과학사에서 진정한 성공의 척도는 “통찰을 제공하는 것”—즉 사물이 어떻게 그런지를 묘사하는 것뿐 아니라, 왜 그런지에 답하는 것—뿐이라는 뜻인 듯하다.
과학의 사전적 정의는 “관찰과 실험을 통해 물리적·자연적 세계의 구조와 행동을 체계적으로 연구하는 것”인데, 이는 통찰보다 정확한 모델링을 강조한다. 하지만 내 생각에 두 개념은 과학을 하는 과정에서 언제나 공존해 왔다.
이를 확인하기 위해 나는 과학을 하는 것의 전형인 _Science_를 살펴봤다. 최신호에서 제목과 초록을 무작위로 하나 골랐다.
유기 소자 호환을 위한 높은 일함수의 염소화 인듐주석산화물(ITO) 전극 유기 발광 다이오드(OLED)에서 여러 유기층의 적층은 투명 전극(주석 도핑 인듐 산화물, ITO)의 낮은 일함수[~4.7 전자볼트(eV)]에서 활성 발광 유기물질의 깊은 에너지 준위(~6 eV)로 전하 흐름을 촉진한다. 우리는 활성 발광 물질의 에너지 준위와 직접적으로 맞아떨어지는, 일함수 >6.1 eV의 염소화 ITO 투명 전극을 시연한다. 또한 광 추출(outcoupling) 향상을 이용해 최대 외부 양자 효율(EQE) 54% 및 전력 효율 230 lm/W의 매우 단순화된 녹색 OLED를 시연했으며, 10,000 cd/m²에서 EQE 50% 및 전력 효율 110 lm/W도 시연했다.
이 논문은 “통찰 제공”보다는 “세상을 정확히 모델링”하는 데 훨씬 더 초점이 있는 것으로 보인다. 이 논문은 이론들의 큰 흐름 속에 자리하긴 하지만, 주로 특정 실험과 그 결과(예: 효율 54%)를 보고한다.
그 다음 Science 최신호의 모든 제목과 초록을 살폈다.
그리고 Cell 최신호도 같은 방식으로 보았다.
또한 과학 분야 2010년 노벨상도 보았다.
내 결론은 이 모든 논문과 상이 100% “통찰 제공”보다는 “세상을 정확히 모델링”하는 것에 더 가깝다는 것이다. 물론 모두 이론적 통찰의 요소도 갖고 있다. 어느 쪽이라고 판단하는 일은 어렵고 경계가 모호하다는 것도 인정한다. 또한 내 판단을 자동으로 받아들이지 말아야 한다. 나는 편향이 있을 수 있다. (Mechanical Turk에서 실험해 편향 없는 답을 얻을까 했지만, Turk에 익숙한 사람들은 이런 질문이 평균 Turker에게 너무 어렵다고 했다. 독자인 여러분이 직접 실험해 보고 동의하는지 보면 된다.)
통계 모델이 때때로 확률 모델과 혼동된다고 했으니, 먼저 촘스키의 반대가 실제로는 확률 모델에 관한 것인지 보자. 1969년 그는 유명하게도 이렇게 썼다.
그러나 어떤 알려진 해석 하에서도 ‘문장의 확률’이라는 개념은 전적으로 쓸모없다는 점을 인정해야 한다.
그의 주요 논지는, 그가 아는 어떤 해석에서도 새로운 문장의 확률은 0이어야 하며, 그런데 실제로는 새로운 문장이 항상 생성되므로 모순이라는 것이다. 이 모순의 해소는 물론, 새로운 문장에 0 확률을 부여할 필요가 없다는 점이다. 실제로 현대 확률 모델에서는 스무딩을 통해 새로운 사건에 0이 아닌 확률을 부여하는 것이 표준이다. 따라서 이 비판은 무효지만, 수십 년간 큰 영향을 끼쳤다.
더 앞서 1957년 Syntactic Structures에서 촘스키는 이렇게 썼다.
우리는 … 확률적 모델이 통사 구조의 기본 문제들에 대해 특별한 통찰을 주지 않는다는 결론을 강요받는다고 생각한다.
그는 각주에서 유용한 확률/통계 모델의 가능성을 검토하며, “나는 그것이 … 생각할 수 없다고 주장하고 싶지는 않다. 하지만 그러한 제안 중 뚜렷한 결함이 없는 것을 알지 못한다”고 말한다. 그 “뚜렷한 결함”의 핵심은 다음이다. 다음을 보라:
“ever”를 몇 번 반복하든 1과 2는 문법적이고 3과 4는 비문법적이다. 상태가 n 개인 확률적 마르코프 연쇄 모델은 “ever”가 n 번보다 더 많이 나오면 (1/2와 3/4의) 필요한 구분을 결코 만들 수 없다. 따라서 확률적 마르코프 연쇄 모델은 영어 전체를 처리할 수 없다.
이 비판은 맞다. 하지만 이는 마르코프 연쇄 모델에 대한 비판이지, 확률 모델(또는 학습된 모델) 일반에 대한 비판은 아니다. 1957년 이후 우리는 마르코프 연쇄 단어 모델을 넘어서는 많은 종류의 확률적 언어 모델을 보아 왔다. 위의 1–4 예시는 연쇄(chain)가 아닌 유한상태 모델로도 구분될 수 있지만, 다른 예시들은 더 정교한 모델을 요구한다. 가장 연구가 잘 된 것은 확률적 문맥자유문법(PCFG)으로, 트리, 단어 범주, 개별 어휘 항목 위에서 작동하며 유한상태 모델의 제약이 없다. PCFG는 구문 분석 성능에서 최첨단이며, 비확률적 범주 문맥자유문법보다 데이터로부터 학습하기도 쉽다는 것을 우리는 발견한다. 다른 종류의 확률 모델은 의미 및 담화 구조를 다룬다.
모든 확률 모델은 결정론적 모델의 상위집합이다(결정론적 모델은 확률이 0 또는 1로 제한된 확률 모델로 볼 수 있다). 따라서 확률 모델에 대한 유효한 비판이 있다면, 표현력이 부족해서가 아니라 표현력이 ‘너무 커서’ 생기는 것이어야 한다.
_Syntactic Structures_에서 촘스키는 유한상태 확률 모델에 대한 또 다른 비판으로 유명한 예를 든다.
(a) ‘colorless green ideas sleep furiously’도 (b) ‘furiously sleep ideas green colorless’도, 그리고 그 어느 부분도, 영어 화자의 과거 언어 경험에서 한 번도 나타난 적이 없다. 그러나 (a)는 문법적이며 (b)는 문법적이지 않다.
촘스키가 말한 대로 두 문장 모두 1955년 이전 출판물에는 나타나지 않았던 것으로 보인다. 그가 “그 어느 부분도”가 무슨 뜻이었는지는 확실치 않지만, 적어도 모든 2단어 부분은 출현한 적이 있다. 예를 들어:
하지만 ‘부분’이 무엇이든 상관없이, 통계적으로 학습된 유한상태 모델은 실제로 이 두 문장을 구분할 수 있다. Pereira(2001)는 단어 범주를 추가하고 신문 텍스트에 대해 EM(기대최대화)으로 학습한 모델이 (a)가 (b)보다 20만 배 더 그럴듯하다고 계산함을 보였다. 이것이 촘스키 문장이 신문 텍스트에 몰래 들어간 결과가 아님을 보이기 위해, 나는 범주도 없고 라플라스 스무딩만 쓰는 훨씬 조악한 모델로 실험을 반복했다. 1800~1954년 Google Book 코퍼스로 학습했더니, (a)는 (b)보다 약 1만 배 더 그럴듯했다.
더 나아가 통계 모델은 두 문장 모두가 “Effective green products sell well.” 같은 문장과 비교하면 극도로 낮은 확률이라는 판단도 내릴 수 있다. 촘스키의 이론은 범주적이어서 이런 구분을 하지 못한다. 할 수 있는 것은 문법적/비문법적 구분뿐이다.
촘스키 반대의 또 다른 부분은 “우리는 유년기가 10^8초밖에 안 되는데 아이가 10^9개의 매개변수 값을 학습한다고 진지하게 제안할 수 없다”라는 주장이다(현대 모델은 1960년대에 상정한 10^9보다 훨씬 크다). 하지만 물론 아무도 이 매개변수들을 하나씩 학습한다고 제안하지 않는다. 학습의 올바른 방식은 스무딩이나 정규화로 거의 0에 가까운 매개변수의 큰 묶음을 동시에 설정하고, 관측이 들어올 때마다 높은 확률의 매개변수를 지속적으로 업데이트하는 것이다. 아무도 마르코프 모델만으로 인간 언어 수행을 진지하게 모델링한다고 말하지 않는다. 하지만 나는(그리고 다른 이들도) 확률적·학습된 모델이 범주적·비학습 모델보다 인간의 언어 수행을 더 잘 모델링한다고 제안한다. 그리고 성인 영어 화자가 언어 사실을 수십억 개나 알고 있다는 점은 분명해 보인다(예: 중요한 미식축구 경기를 말할 때 “the large game”보다 “the big game”이라고 말하는 것이 적절하다는 사실 등). 이런 사실들은 어떤 방식으로든 뇌에 부호화되어야 한다.
확률 모델이 문장의 가능성이나 ‘그럴듯함’ 정도를 판단하는 데 더 낫다는 점은 분명해 보인다. 하지만 이런 요소에 관심이 없고 문장의 문법성에만 관심이 있더라도, 확률 모델이 언어 사실을 묘사하는 데 더 잘하는 것처럼 보인다. 형식 언어의 수학 이론은 언어를 문장들의 집합으로 정의한다. 즉 모든 문장은 문법적이거나 비문법적이며, 이 틀에서는 확률이 필요 없다. 그러나 자연어는 그렇지 않다. 자연어에 대한 과학적 이론은 원어민이 문법성에 대해 확신하지 못하는 많은 구절과 문장을 설명해야 한다(Chris Manning의 논문과 “as least as” 논의를 보라). 어떤 표현은 어떤 화자에게는 완전히 문법적이고, 다른 화자에게는 완전히 비문법적이며, 또 다른 화자들은 그때그때 판단이 바뀌기도 한다. 마지막으로, 언어에서 드문 용법이지만 실제 데이터를 중시한다면 무시할 수 없는 용례들도 있다. 예컨대 동사 _quake_는 사전에 자동사로 올라 있어 다음 (1)은 문법적이고 (2)는 비문법적이라고 범주 문법 이론은 말한다.
하지만 (2)는 영어 문장으로 실제로등장하며, 이는 범주 이론에 딜레마를 준다. (2)가 관측되면 우리는 (2)를 임의로 ‘오류’로 치부해 모델 바깥으로 내치거나(그럴 이론적 근거 없이), 또는 이론을 바꿔 (2)를 허용해야 하는데, 그러면 원치 않는 수많은 문장까지 문법적이 되어버리곤 한다. Edward Sapir가 1921년에 말했듯, “All grammars leak(모든 문법은 샌다).” 하지만 확률 모델에서는 아무 문제 없다. _quake_가 자동사로 쓰일 확률이 높고 타동사로 쓰일 확률이 낮다고 말하면 된다(원한다면 하위범주화로 더 자세히 기술할 수 있다).
Steve Abney는 확률 모델이 언어 변화를 모델링하는 데 더 적합하다고 지적한다. 그는 15세기 영국인이 매일 술집에 가서 “Ale!”을 주문한다고 하자. 범주 모델이라면, 어느 날 그는 뱀장어(eel)를 받게 될 수도 있다. 대모음추이가 그의 머릿속 불리언 매개변수를 술집 주인의 매개변수보다 하루 빨리 뒤집어버릴 수 있기 때문이다. 확률 틀에서는 여러 매개변수가 (연속값일 수도 있게) 존재하며, 2세기에 걸쳐 점진적으로 변화가 일어나는 모습을 쉽게 상상할 수 있다.
따라서 문법성은 범주적·결정론적 판단이 아니라 본질적으로 확률적 판단처럼 보인다. 실제 문장 코퍼스를 관찰해 본 사람에게는 이것이 명확하지만, 연구 대상이 ‘자기 직관’이라고 생각하는 사람에게는 알려지지 않을 수 있다. 관찰과 직관은 과학사에서 모두 사용되었으니 어느 쪽도 ‘새롭다’고 할 수 없지만, 과학에서 지배적인 방식은 직관이 아니라 관찰이다.
이제 촘스키가 통계 모델을 반대하는 핵심, 즉 “정확한 기술”과 “통찰” 사이의 긴장을 보자. 이것은 오래된 구분이다. 찰스 다윈(생물학자, 1809–1882)은 통찰적인 이론으로 유명하지만 정확한 기술의 중요성을 강조하며 이렇게 말했다. “거짓 사실은 과학의 진보에 매우 해롭다. 왜냐하면 종종 오래 지속되기 때문이다. 그러나 어떤 증거로 지지되는 거짓 견해는 큰 해를 끼치지 않는다. 누구나 그것이 거짓임을 증명하는 데서 유익한 즐거움을 얻기 때문이다.” 더 최근에 리처드 파인만(물리학자, 1918–1988)은 “물리학은 증명 없이도 진전할 수 있지만, 사실 없이 계속 갈 수는 없다”고 썼다.
나비들
반대편에서 어니스트 러더퍼드(물리학자, 1871–1937)는 단순한 기술을 경멸하며 “모든 과학은 물리학 아니면 우표 수집이다”라고 했다. 촘스키는 그 편에 선다. “나비를 수집하고 관찰을 많이 할 수도 있다. 나비가 좋다면 괜찮다. 하지만 그런 작업은 설명 원리를 발견하려는 연구와 혼동되어서는 안 된다.”
두 쪽을 모두 인정한 사람은 로버트 밀리컨(물리학자, 1868–1953)이다. 그는 노벨 수상 연설에서 “과학은 이론과 실험이라는 두 발로 앞으로 걷는다… 때로는 한 발이 먼저 나가고, 때로는 다른 발이 먼저 나가지만, 지속적인 진보는 두 발을 모두 사용해야만 이뤄진다”고 했다.
레오 브라이먼
저명한 과학자들의 견해를 들은 뒤, 현재 논의에 가장 관련 있는 기여는 레오 브라이먼(통계학자, 1928–2005)의 2001년 논문 Statistical Modeling: The Two Cultures라고 생각한다. 이 논문에서 브라이먼은 C. P. 스노를 연상시키며 두 문화를 설명한다.
첫째는 **데이터 모델링 문화(data modeling culture)**로, 브라이먼 추정으로는 통계학자의 98%가 이에 속한다. 이 문화는 자연이 ‘블랙박스’로 묘사될 수 있으며, 입력 변수에서 출력 변수로 매핑하는 비교적 단순한 근저 모델(그리고 약간의 무작위 잡음)이 존재한다고 본다. 통계학자의 임무는 자연의 현실을 반영하는 근저 모델을 현명하게 선택하고, 통계 데이터로 모델의 매개변수를 추정하는 것이다.
둘째는 **알고리즘적 모델링 문화(algorithmic modeling culture)**로, 통계학자의 2%와 생물학·인공지능 등 복잡한 현상을 다루는 많은 연구자들이 이에 속한다. 이 문화는 자연의 블랙박스가 반드시 단순한 모델로 기술될 수 있다고 보지 않는다. 복잡한 알고리즘적 접근(예: 서포트 벡터 머신, 부스팅된 결정트리, 딥 빌리프 네트워크 등)을 사용해 입력에서 출력으로 가는 함수를 추정하지만, 이렇게 복잡한 알고리즘에서 나온 함수의 ‘형태’가 자연의 진짜 근저 본성을 반영한다고 기대하지 않는다.
촘스키가 가장 격렬히 반대하는 것은 알고리즘적 모델링 문화처럼 보인다. 단지 모델이 통계적(또는 확률적)이라는 것이 아니라, 현실을 정확히 모델링하더라도 인간이 해석하기 쉬운 형태가 아니며, 자연이 사용하는 생성 과정과 대응된다고 주장하지 않는 형태를 만들어낸다는 점이 문제다. 즉 알고리즘적 모델링은 실제로 무엇이 일어나는지를 묘사하지만, 왜 그런지가 무엇인지는 답하지 않는다.
브라이먼의 글은 그가 첫 문화인 데이터 모델링에 반대하는 이유도 설명한다. 기본적으로 데이터 모델링이 내리는 결론은 자연이 아니라 모델에 대한 결론이라는 것이다. (여담으로, 나는 2000년에 화성 바이킹 미션의 리더였던 James Martin이 자신의 임무는 화성에 착륙하는 것이 아니라 지질학자들이 제공한 ‘화성의 모델’에 착륙하는 것이라고 말하는 것을 들은 기억이 있다.) 문제는 모델이 자연을 잘 모사하지 못하면 결론이 틀릴 수 있다는 점이다. 예컨대 선형 회귀는 통계학자의 도구상자에서 가장 강력한 도구 중 하나다. 그래서 많은 분석이 “데이터가 선형 모델로 생성된다고 가정하자…”로 시작하며, 실제로 데이터가 그렇게 생성되지 않았을 때 무슨 일이 일어나는지에 대한 분석은 부족하곤 한다. 또한 복잡한 문제에서는 적합도 척도가 매우 비슷한 ‘좋은’ 대안 모델들이 여러 개 있는 경우가 보통이다. 데이터 모델러는 그중 무엇을 선택해야 하는가? 결국 무엇인가를 포기해야 한다.
브라이먼은 입력-출력 함수의 진짜 근저 ‘형태’를 우리가 유일하게 모델링할 수 있다는 생각을 포기하자고 초대한다. 대신 관측된 데이터를 잘 설명하고, 새로 보는 데이터에도 잘 일반화되지만, 표현 형태는 복잡한 수학적 형태일 수 있고 ‘진짜’ 함수의 형태(그런 것이 존재한다면)와는 전혀 관련이 없을 수도 있는 함수에 만족하자고 한다.
촘스키는 정반대 접근을 취한다. 그는 단순하고 우아한 모델을 유지하는 대신, 그 모델이 데이터를 잘 대표할 것이라는 기대를 포기한다. 대신 그가 ‘수행(performance)’ 데이터—사람들이 실제로 하는 것—라고 부르는 것은 언어학의 범위 밖이라고 선언한다. 정말 중요한 것은 ‘역량(competence)’—그가 상상하기에 사람들이 해야 하는 것—이다.

Bill O’Reilly
라플라스
2011년 1월, TV 진행자 빌 오라일리는 “밀물은 들어오고 썰물은 나간다. 오해는 없다. 당신은 그걸 설명할 수 없다”라고 말하며 신의 존재를 논증하려 했다. 오라일리는 조수(tide)가 태양·지구·달의 중력 상호작용을 기술하는 편미분방정식 체계로 간명하게 설명될 수 있다는 사실을 몰라서 비웃음을 샀다. (이 사실은 라플라스가 1776년에 처음 정식화했고, 그 뒤로 크게 정교화되었다. 나폴레옹이 왜 계산에 창조주가 등장하지 않느냐고 묻자 라플라스는 “그 가설은 필요 없었습니다”라고 말했다.) (오라일리는 또한 데이모스와 포보스—내가 태양계 전체에서 좋아하는 달들 중 둘이며, 유로파, 이오, 타이탄과 함께—를 모르는 듯하고, 화성과 금성이 태양을 돈다는 사실도 모르며, 금성에 달이 없는 이유가 태양에 너무 가까워 안정적인 위성 궤도를 위한 공간이 부족하기 때문이라는 것도 모르는 듯하다.)
하지만 오라일리는 반대자들이 자신의 천문학적 무지를 어떻게 생각하든 상관없다는 것을 안다. 지지자들은 그가 핵심 문제에 도달했다고 생각하기 때문이다: 왜? 그는 조수가 어떻게 작동하는지에는 관심이 없다. 왜 작동하는지 말하라는 것이다. 달은 왜 생명에 유익한 완만한 조수를 만들 수 있을 만큼 적절한 거리이며, 지구 자전축에 안정화 효과를 줘 생명을 보호하는가? 중력은 왜 그렇게 작동하는가? 어째서 무(無)가 아니라 무엇인가가 존재하는가? 오라일리는 이런 ‘왜’ 질문들은 과학이 아니라 신화 만들기, 종교, 철학으로만 다룰 수 있다는 점에서 옳다.
촘스키는 깊은 ‘왜’에 초점을 맞춰야 하고, 현실에 대한 단순한 설명은 중요하지 않다는 철학을 갖고 있다. 이 점에서 촘스키는 오라일리와 완전히 일치한다. (나는 방금 전 문장이 신문 또는 TV 코퍼스로 학습한 확률 모델에서 매우 낮은 확률을 가질 것임을 인정한다.) 촘스키는 언어 이론이, 근저 과정이 직선임을 알고 있고 우리가 해야 할 일은 기울기와 절편을 추정하는 것뿐인 선형 회귀 모델처럼, 단순하고 이해 가능해야 한다고 믿는다.
예를 들어 촘스키의 정부·결속 이론 강의 (1981)에 나오는 프로드롭 언어 개념을 보자. 영어에서는 “I’m hungry”처럼 “I”라는 대명사를 표현한다. 하지만 스페인어에서는 같은 생각을 “Tengo hambre”(직역하면 “have hunger”)로 표현하며 대명사 “Yo”를 생략한다. 촘스키 이론은 스페인어에서는 “프로드롭 매개변수”가 참이고, 영어에서는 거짓이며, 모든 언어를 기술하는 소수의 매개변수 집합과 각 언어에서의 값만 발견하면 진정한 이해에 도달할 수 있다는 것이다.
Dana Carvey
문제는 현실이 이 이론보다 훨씬 지저분하다는 점이다. 영어에서도 다음처럼 대명사 생략이 있다.
언어학자들은 이 사실들의 해석을 두고 몇 시간이고 논쟁할 수 있지만, 언어의 다양성은 프로드롭 매개변수 하나의 불리언 값보다 훨씬 복잡해 보인다. 우리는 모델을 단순하게 만드는 것을 현실을 정확히 반영하는 것보다 우선시하는 이론 틀을 받아들여서는 안 된다.
처음부터 촘스키는 언어의 생성(generative) 측면에 집중해 왔다. 이 측면에서는 비확률적 이야기를 하는 것이 그럴듯하다. 나는 표현하려는 의미를 분명히 알고 있고—단 하나의 의미 형태에서 출발하므로—해야 할 일은 단어를 선택하는 것뿐이다. 그렇다면 왜 결정론적·범주적 과정이 될 수 없겠는가? 만약 촘스키가 섀넌처럼 반대편인 **해석(interpretation)**에 집중했다면, 생각이 달라졌을지도 모른다. 해석(예: 음성 인식)에서는 청자가 잡음이 섞이고 모호한 신호를 받아, 가능한 많은 의도된 메시지 중 무엇이 가장 그럴듯한지 결정해야 한다. 이는 본질적으로 확률 문제임이 분명하다. 음성 인식 연구자들, 그리고 다른 해석 문제를 다루는 과학자들이 일찍부터 이를 인식했다. 천문학자 라플라스는 1819년에 “확률 이론은 계산으로 환원된 상식에 지나지 않는다”고 했고, 물리학자 제임스 맥스웰은 1850년에 “이 세상의 진정한 논리는 확률의 미적분이며, 이는 합리적인 사람의 마음속에 있거나 있어야 할 확률의 크기를 고려한다”고 말했다.
마지막으로 촘스키가 통계 모델을 싫어하는 또 다른 이유는, 통계 모델이 언어학을 경험과학(사람들이 실제로 언어를 어떻게 쓰는지에 대한 과학)으로 만들기 쉽다는 점이다. 반면 촘스키는 수학적 과학(언어 자체가 아니라 형식 언어 ‘모델’의 수학적 성질에 대한 탐구)을 선호한다. 이는 그가 Aspects of the Theory of Syntax (1965)에서 한 말로 드러난다.
언어 이론은 정신주의적이다. 왜냐하면 실제 행동의 바탕이 되는 정신적 현실을 발견하는 데 관심이 있기 때문이다. 관찰된 언어 사용은 … 증거를 제공할 수는 있지만 … 언어학이 진지한 학문이 되려면 그것이 언어학의 대상이 될 수는 없다.
나는 라플라스가 행성 관측이 궤도역학의 대상이 될 수 없다고 말하거나, 맥스웰이 전하 관측이 전자기학의 대상이 될 수 없다고 말하는 것을 상상할 수 없다. 물리학이 지저분한 현실에서 추상한 이상화(idealization)를 다루는 것은 사실이다. 예컨대 역학 문제에서 마찰을 무시하는 경우가 있다. 하지만 그렇다고 마찰이 물리학의 대상이 아니라는 뜻은 아니다.
플라톤의 동굴
그렇다면 촘스키는 어떻게 언어 관측이 언어학의 대상이 될 수 없다고 말할 수 있었을까? 이는 그가 플라톤주의자이자 합리주의자이며, 어쩌면 약간의 신비주의자이기 때문인 듯하다. 플라톤의 동굴의 비유처럼 촘스키는 현실 세계에서 지각 가능한 언어의 표면적 발현이 아니라, 언어 밑에 놓인 이상적·추상적 형태에 집중해야 한다고 생각한다. 그래서 그는 언어 수행에 관심이 없다. 하지만 촘스키는 플라톤처럼, 이런 이상적 형태가 어디서 오는지 답해야 한다. 촘스키(1991)는 ‘영혼’ 대신 ‘생물학적 자질’이라는 어휘를 쓰며 신비주의적 답을 받아들이는 듯하다.
플라톤의 답은 그 지식이 이전 존재에서 ‘기억’된 것이라는 것이었다. 그 답은 메커니즘을 요구한다. 아마도 불멸의 영혼이 … 오늘날 우리에게 더 친숙한 용어로 플라톤의 답을 바꾸면, 인지 시스템의 기본 속성은 마음에 선천적으로 주어진 것이며 인간의 생물학적 자질의 일부라고 말할 것이다.
라스코 동굴의 말
플라톤이 말이라는 ‘이상’이 우리가 세계에서 지각할 수 있는 어떤 개별 말보다 중요하다고 생각한 것은 당시로서는 합리적이었다. 기원전 400년에는 종(species)이 영원불변하다고 여겼기 때문이다. 우리는 이제 그것이 사실이 아님을 안다. 라스코의 다른 동굴 벽에 있는 말들은 이제 멸종했고, 현대의 말은 시간이 지남에 따라 계속 조금씩 진화한다. 따라서 영원한 단 하나의 이상적 “말” 형태 같은 것은 없다.
언어도 마찬가지임을 우리는 이제 안다. 언어는 진화와 문화 변화의 변덕에 좌우되는, 복잡하고 우연적이며 무작위적인 생물학적 과정이다. 언어를 구성하는 것은 소수 매개변수의 설정으로 대표되는 영원한 이상 형태가 아니라, 복잡한 과정들의 우연적 산물이다. 우연적이므로 확률 모델로만 분석할 수 있는 것처럼 보인다. 사람들은 다른 이들의 불확실하고 모호하고 잡음 섞인 발화를 계속 이해해야 하므로, 확률적 추론과 유사한 것을 쓰고 있어야 할 것처럼 보인다. 촘스키는 어떤 이유에서인지 이를 피하고 싶어 하며, 그래서 실제 언어 사용의 사실을 범위 밖으로 선언하고, 진정한 언어학은 그가 원하는 형식을 강제할 수 있는 수학적 영역에만 존재한다고 선언해야 한다. 그런 다음 이 추상적·영원한·수학적 영역에서 사람들의 머릿속으로 언어를 가져오기 위해, 영원한 영역에 정확히 맞춰진 신비적 능력을 꾸며내야 한다. 이는 수학적 관점에서 매우 흥미로울 수 있지만, 언어가 무엇이며 어떻게 작동하는지라는 핵심을 놓친다.
이 글에 대해 의견과 제안을 준 Ann Farmer, Fernando Pereira, Dan Jurafsky, Hal Varian, 그리고 다른 분들께 감사한다.
언어 처리에 대한 통계적 접근의 훌륭한 전체 소개이며, 언어 변화와 개인 차이처럼 자주 다뤄지지 않는 주제도 포함한다.
브라이먼은 두 접근을 훌륭하게 설명하고, 자신의 접근의 장점을 설명하며, Cox, Efron, Hoadley, Parzen 같은 저명한 통계학자들의 매우 흥미로운 논평 속에서 자신의 주장을 방어한다.
유한상태, 구구조, 변형문법을 비교한다. “colorless green ideas sleep furiously”를 소개한다.
촘스키 이론을 책 한 권으로 전개한 것으로, 10년 동안 언어학의 대표적 저작이었다. 확률 모델은 통사에 대한 통찰을 주지 못한다고 주장한다.
“문장의 확률” 개념이 전적으로 쓸모없다고 주장한다.
촘스키 이론의 개정판으로, 보편문법을 도입한다. 프로드롭 같은 매개변수 논의를 위해 인용한다.
나는 플라톤 인용문을 이 글에서 찾았는데, 영국 공산당이 게시한 것으로, 언어학 훈련이 전혀 없고 정치적 의도가 있는 사람이 게시한 것으로 보인다.
골드는 형식 언어 이론에서 다음과 같이(약간의 비유를 섞어) 말할 수 있는 결과를 증명했다. 추측자와 선택자가 게임을 한다고 하자. 선택자는 “무한히 많은 언어가 있고, 나는 그중 하나를 고른 뒤 그 언어에서 나온 문장들을 당신에게 읽어주겠다. 당신의 N번째 생일에는 참/거짓 퀴즈가 있어, 처음 보는 100문장이 그 언어에 속하는지 맞혀야 한다”라고 한다. 무한 집합의 모양과 문장을 고르는 방식에 제한이 있다(교활할 수는 있지만 같은 문장만 계속 반복할 수는 없다). 골드의 결과는, 무한 언어 집합이 모두 문맥자유문법으로 생성된다면, 생일의 N을 어떻게 잡든 매번 100% 정답을 보장하는 전략은 없다는 것이다. 촘스키 등은 이를 아이가 선천적 ‘언어 기관’ 없이는 인간 언어를 배울 수 없다는 뜻으로 받아들였다. 그러나 Johnson (2004) 등이 보이듯 이는 잘못된 결론이다. 100%를 맞혀야 하는 퀴즈 과제(골드가 언어 식별이라 부른 것)는 아이가 수행하는 언어 습득과 공통점이 거의 없으므로, 골드의 정리는 관련이 없다.
골드가 부정적 결과(문맥자유 언어는 예시로부터 식별 불가)를 얻은 반면, 호닝은 긍정적 결과(확률적 문맥자유 언어는 임의로 작은 오차 수준까지 식별 가능)를 얻었다. 인간이 언어 이해에 고유한 선천 능력을 가진다는 점은 누구도 의심하지 않는다(그 능력이 언어에 특화됐는지, 순서화/추상화 같은 일반 인지 능력의 일부인지는 미지수다). 하지만 호닝은 1969년에, 골드를 ‘몇 개의 매개변수 설정을 제외한 전 언어를 지정하는 선천적 언어 기관’의 설득력 있는 논거로 쓸 수 없음을 증명했다.
골드의 정리가 실제로 무엇을 말하는지, 그리고 그것에 대해 무엇이 주장되어 왔는지(맞는 것과 틀린 것)를 다룬 글 중 내가 본 것 가운데 최고다. 골드는 형식 언어에 대해 할 말은 있지만, 아동 언어 습득에 대해서는 아무 말도 하지 않는다고 결론내린다.
자극의 빈곤, 모든 모델의 편향, 지도/비지도 학습의 차이, 현대(PAC 또는 VC) 학습 이론을 논의하는 훌륭한 글이다. 이분법적 매개변수 고정 집합으로 구성된 보편문법 모델에 대한 대안을 제시한다.
확률적 통사가 범주적 통사보다 언어 사실에 더 나은 모델임을 설득력 있게 소개한다. “코퍼스 언어학의 즐거움과 위험”을 다룬다.
확률적·통계적 철자 교정 알고리즘을 구현하는 작동 코드가 있다.
위의 글을 확장한다. 세 가지 과제(텍스트 세그먼테이션, 암호 해독, 철자 교정—이전 글보다 조금 더 완전한 형태)를 구현하는 방법을 보여준다.
내가 이 글을 쓰기 시작했을 때는, 집에서 4800km 떨어진 매사추세츠 케임브리지에서 일어난 사건에 집중하고 있었다. 조사해 보니 이 주제의 최고 논문 세 편 중 두 편의 저자가 내 책상에서 10미터 이내에 있다는 사실에 놀랐다. (Fernando Pereira와 Chris Manning. 세 번째인 Steve Abney는 3700km 떨어져 있다.) 하지만 놀랄 일은 아닐지도 모른다. 나는 ACL에서 구글의 코퍼스 기반 언어 모델에 대해 발표한 적이 있는데, 당시 펜실베이니아대 교수였던 페레이라는 “나는 입자 물리학자인데 당신은 유일한 초대형 가속기를 가진 것 같다”라고 말했다. 몇 년 후 그는 구글로 옮겼다. 그는 또한 “나이가 들수록 촘스키 계층에서 더 아래로 내려간다”라는 말로 유명하다. 이 글은 내 글과 겹치는 부분이 있지만, 사용 가능한 확률 모델의 범위와 유용성을 더 넓게 설명한다.
동굴의 비유를 위해 인용한다.
정보이론 분야를 시작하고 “비트”와 잡음 채널 모델을 도입한 엄청나게 영향력 있는 논문이다. 영어의 연속적인 n-그램 근사를 시연하고, 언어의 마르코프 모델을 설명하며, 이 모델들에 대한 엔트로피를 정의했고, 통신 산업의 성장을 가능하게 했다.