LLM은 구조화되지 않은 인터넷에서 답을 끌어올리며 빛난다. 이는 시맨틱 웹 구축과 개인용 지식 도구의 실패로 정보가 정돈되지 못한 채 남아 있는 현실의 반사이자, 우아한 설계라기보다 혼돈에서 구조를 추론하는 우회로라는 관점을 제시한다.
누군가가 바로 그 주제에 대해 글을 써 두지 않았다면, 단순한 전체 텍스트(full‑text) 검색 엔진은 다음 같은 질문에 답하지 못한다:
스웨덴의 국왕 구스타프 4세 아돌프가 프랑스에 선전포고한 해와 같은 해에 영국이 처음으로 소규모 식민지를 세운 나라의 국기에는 어떤 동물이 그려져 있는가?
하지만 ChatGPT는 몇 초 만에 정답을 내놨다.
도미니카의 국기에는 도미니카에만 서식하는 시세루(Sisserou) 앵무새가 그려져 있다. 영국은 1805년에 이 섬에 소규모 식민지를 세웠다.
참고로 구글의 AI 위젯은 처참하게 실패했다.

현대 LLM 기반 AI의 최고 응용 중 하나는 인터넷의 혼돈 속에서 답을 끌어올리는 것이다. 그 성공은 부분적으로는 처음부터 정보를 잘 조직하는 시스템을 구축하는 데 우리가 실패한 데 기인한다.
이 제품 패턴은 새롭지 않다. 구글 드라이브를 보라. 폴더와 파일이 있는 클라우드 속 미화된 파일 시스템이지만, 지난 30년간의 거의 모든 데스크톱 파일 관리 애플리케이션보다 경험이 나쁘다. 그 안에서 내 자료를 정리하는 일은 어렵고 고되다. 그래서 구글은 지름길을 택했다: 전체 텍스트 검색. 그냥 전부 던져 넣고, 나중에 찾고 싶을 때 입력하라.
구조를 포기하고 검색에 의존하는 패턴이 조용히 지배적 패러다임이 되었다. 여기서 ‘검색’은 폭넓은 용어다. 색인된 데이터를 가로지르는 고전적인 텍스트 매칭일 수도 있고, 다루기 벅찬 모델과 가중치 전반에서의 복잡한 다차원 토큰 매칭일 수도 있다. 잘 조직된 이커머스 사이트를 왜 만들겠는가. 검색창 하나 달고 각 상품 페이지를 키워드로 과포화시키면 된다. 고품질 사용자 문서를 왜 쓰겠는가. 지원 챗봇 하나 붙이면 된다.
시맨틱 웹을 기억하는가? 웹은 의미적으로 구조화되고 상호 연결된, 기계가 읽을 수 있는 데이터로 진화하여 놀라운 가능성을 열 것으로 기대됐다. 그러나 그런 일은 일어나지 않았다. 데이터는 여전히 비구조적이고 메타데이터가 부족할 뿐 아니라, 비구조적 데이터의 표현조차도 평범하고 어느 정도 구조가 있던 HTML에서 JS로 구동되는 동적인 div 더미로 바뀌며 기계가 읽기 어려워졌다.
우리는 진정한 의미의 개인용 컴퓨팅도 이루지 못했다. 컴퓨터는 시맨틱 웹과 개방형 표준을 활용하는, HyperCard에 견줄 만한 구조적 의미 연결을 지닌 개인 지식 베이스가 될 수도 있었을 텐데 말이다.
내 요지는 이렇다. 모든 지식이 풍부한 의미 연결과 함께 구조화된 방식으로 저장되어 있었다면, 매우 원시적인 자연어 처리 알고리즘으로도 글 서두의 질문 같은 것을 구문 분석하고, 훨씬 더 적은 계산 자원으로 답을 찾을 수 있었을 것이다. 그리고 무엇보다 중요한 점은, 그 지식과 연결이 난공불락의 AI 모델 속에 숨지 않고 접근 가능하고 이해 가능한 상태로 남았을 것이라는 점이다.
AI는 우아한 설계의 승리가 아니라, 힘으로 밀어붙인 우회로다. ChatGPT 같은 LLM은 혼돈에서 구조를 추론한다. 그것들은 비구조적인 웹을 훑어 모든 것에 걸친 덧없는 의미 지도를 만든다. 그것은 고전적 의미의 지식은 아니다... 아니면 어쩌면 그게 바로 지식일까?