8트랙 카트리지의 프로그램 분할은 산업 규모에서 인간이 손으로 풀어낸 고전적인 NP-난해 최적화 문제였다. Discogs와 MusicBrainz 데이터를 바탕으로, 당시 엔지니어들이 얼마나 뛰어나게 이 문제를 해결했는지와 현대 LLM이 이를 어떻게 능가하는지 살펴본다.

Columbia Records는 1948년에 LP 형식을 도입했고, 청취자는 바이닐 레코드 한 면당 25분의 음악을 들을 수 있게 되었다. 그 후 50년 동안 바이닐과 카세트를 거치며 모든 앨범은 이 50분짜리 양면 제약을 중심으로 만들어졌다. 1965년에 8트랙 카트리지가 이 형식을 바꾸었다. 8트랙 카트리지는 네 개의 프로그램을 담은 하나의 연속 루프 테이프다. LP를 8트랙 버전으로 만들려면, 레코드 회사나 테이프 복제 시설의 누군가가 LP의 트랙 목록을 가져와 네 개의 프로그램 길이가 가능한 한 서로 비슷해지도록 분할해야 한다. 가장 긴 프로그램이 카트리지 안의 테이프 길이를 결정한다. Program 1이 11분인데 programs 2, 3, 4는 8분뿐인 카트리지는 총 9분의 무음이 들어가게 된다.
이것은 고전적인 NP-난해 문제이자, 가장 쉬운 어려운 문제이며, 이름 모를 오디오 엔지니어들이 컴퓨터의 도움 없이 수천 번이나 해결한 문제이기도 하다. Discogs와 MusicBrainz API의 깊숙한 곳에는, 자기 분야의 전문가들이 수행한 NP-난해 문제 해결에서의 인간 성능을 색인한 데이터가 숨어 있다.
최전선 연구소들은 아직도 Mechanical Turk 작업자들에게 시간당 푼돈을 주고 있지만, 차라리 40년 전에 죽은 음악 포맷을 파고드는 쪽이 더 나을지도 모른다. 안됐다.
궁금할 수도 있으니 말하자면, 나는 내 차에 8트랙 플레이어를 달고 있다. 그리고 Frank Ocean의 _Blonde_를 한 장 갖고 싶었다. 그러다 생각이 시작됐다. 그러다가 Girls의 _Broken Dreams Club_은 8트랙으로 만드는 것이 불가능하다는 걸 깨달았다. 그래서 지금 여기까지 오게 됐다.

8트랙 카트리지는 나란히 기록된 네 개의 평행한 “programs”를 가진 하나의 연속 테이프 루프다. 플레이어는 이것들을 순서대로 재생하면서, 각 패스의 끝에서 물리적으로 헤드를 이동시킨다. 그리고 네 개의 프로그램이 모두 같은 루프를 공유하기 때문에 네 프로그램은 전부 정확히 같은 길이여야 한다. 가장 긴 프로그램이 실제 테이프 길이를 정하고, 더 짧은 프로그램은 남은 부분을 전부 무음으로 재생한다. 낭비되는 테이프는 복제업체의 비용으로 이어진다. 노래를 트랙 사이로 쪼개면 곡의 흐름이 끊긴다. Harvest에서 발매한 Dark Side of the Moon을 보라. “Money”는 programs 2와 3에 걸쳐 쪼개져 있다. “Us and Them”은 programs 3과 4에 걸쳐 쪼개져 있다. LP의 트랙 순서는 유지했지만, 그 대가로 앨범 최고의 곡들 분위기를 망쳐 버렸다.
모든 8트랙 발매판마다, 복제 공장의 누군가는 곡들을 네 개의 그룹으로 나누어 총 재생 시간이 가능한 한 균형 잡히도록 해야 했다. 이것은 균형 잡힌 4방향 숫자 분할, 즉 손으로 푼 NP-난해 최적화 문제다. 스톱워치나 종이와 펜으로 풀었다. 다음은 그 일을 잘해낸 사례다. Rumours — Fleetwood Mac, WEA, 1977 — 열한 곡이 이렇게 실렸다:
Program 1 10:07
Program 2 10:06
Program 3 10:17
Program 4 9:33
이것은 LP의 재생 순서가 아니다. LP의 재생 순서와는 거리가 아주 멀다. 이 8트랙을 담당한 엔지니어는 최적해에 정말 가깝게 갔다. 하지만 이제 우리는 모든 순열을 탐색할 수 있는 컴퓨터를 가지고 있으니, _Rumours_의 최적 8트랙 배열이 무엇인지 말할 수 있다.
Program 1 10:13
Program 2 10:10
Program 3 10:07
Program 4 9:33
실제 발매 배열과 이상적인 배열의 유일한 차이는 “Go Your Own Way”와 “You Make Loving Fun”을 맞바꾸는 것이다. 이 변화로 테이프 4초를 아낄 수 있다. 8트랙은 3.75 ips로 돌아가므로, _Rumours_의 8트랙이 10만 장 제작되었다고 가정하면 이 단 한 번의 변경으로 테이프 23마일을 절약할 수 있었을 것이다.
이게 아마 내가 찾을 수 있는 최선일 것이다. 1/4인치 윤활 테이프, 즉 Scotch 158 또는 Ampex 675의 당시 가격 자료다. 비용은 피트당 약 $0.003이다. _Rumours_를 8트랙으로 옮길 때 순진한 해법인 LP 트랙 순서와 실제로 출하된 거의 최적에 가까운 해법을 비교하면, 카트리지당 62초를 절약한다. 즉 10만 개 생산 기준으로 $5,812.50을 절약하는 셈이다. _Rumours_를 8트랙으로 옮긴 엔지니어는 몇 시간의 작업으로 회사에 자기 몇 달 치 급여만큼의 돈을 아껴준 것이다.
여기서 “Go Your Own Way”와 “You Make Loving Fun”을 서로 바꾸어 _Rumours_를 더 최적화하면 4초를 추가로 아낄 수 있다. 10만 장 기준 이 테이프 비용 절감액은 약 $400으로, 복제 엔지니어의 일주일치 급여보다 약간 많은 수준일 것이다.
이 모든 것은 연필과 종이로 이뤄졌다. 어쩌면 계산기도 있었을지 모른다. 내 다음 프로젝트는 가능한 모든 LP를 8트랙으로 옮길 때 최적해를 찾기 위해 모든 순열을 탐색하는 Apple II Basic 프로그램을 쓰는 일이 될 것 같다. Apple II에서라면 가능한 모든 순열을 시험하는 이 작업은 며칠이 걸릴 것이다.
이 탐구에 쓰인 모든 데이터는 두 출처에서 왔다. Discogs는 과하게 급여를 받는 밀레니얼 ‘컴퓨터 노동자’라면 모두 익숙할 것이므로 소개가 필요 없다. MusicBrainz는 모든 발매판 메타데이터를 다루는 백과사전이다. Discogs를 통해 찾은 각 8트랙에 대해, 나는 트랙 배치를 가져오고, 이어서 MusicBrainz에서 각 곡의 길이와 LP의 트랙 배치를 가져왔다. 이것을 구축하는 과정은 거대한 깔때기였다.
맞다. 내가 찾을 수 있었던 모든 8트랙 카트리지의 12%만을 다룬 연구다. 하지만 완전히 정직하다. 이 데이터셋에는 Columbia House의 8트랙 전용 컴필레이션 앨범은 없고, 애초에 바이닐로 발매되지도 않은 종교 설교 8트랙에는 별 관심도 없다. 이것은 8트랙 분할 문제를 푸는 인간에 대한 데이터셋이지, 1/4인치 테이프에서 일어난 모든 일을 망라한 카탈로그가 아니다.
전체 데이터셋은 프로젝트 저장소에서 여기서 받을 수 있다
결과를 보기 전에, 인간이 이 문제를 어떻게 풀었는지 한 가지 예를 들고 싶다. The Rolling Stones의 _Sticky Fingers_에는 서로 다른 8트랙 버전이 열 가지 있다.
| Duplicator(s) | Programs (tracks in tape order) | Makespan |
|---|---|---|
| Atlantic Recording, Kinney Music, Melody Recordings, Rolling Stones | P1 (11:39) — Brown Sugar, Sway, I Got The BluesP2 (11:39) — Wild Horses, Moonlight MileP3 (11:21) — Can't You Hear Me Knocking, Dead FlowersP4 (11:46) — You Gotta Move, Bitch, Sister Morphine | 11:46 |
| Quala Sonic | P1 (11:46) — You Gotta Move, Bitch, Sister MorphineP2 (11:39) — Moonlight Mile, Wild HorsesP3 (11:39) — Brown Sugar, Sway, I Got The BluesP4 (11:21) — Dead Flower, Can't You Hear Me Knocking | 11:46 |
| WEA/Warner | P1 (11:32) — Brown Sugar, Sway, Wild Horses (Début / Begin)P2 (11:33) — Wild Horses (Fin / End), Can't You Hear Me Knocking, You Gotta MoveP3 (11:39) — Bitch, I Got The Blues, Sister Morphine (Début / Begin)P4 (11:38) — Sister Morphine (Fin / End), Dead Flowers, Moonlight Mile | 11:39 |
| Sound Values Marketing | P1 (11:55) — Wild Horses, You Gotta Move, BitchP2 (11:39) — Brown Sugar, Sway, I Got The BluesP3 (11:30) — Sister Morphine, Moonlight MileP4 (11:21) — Dead Flowers, Can't You Hear Me Knocking | 11:55 |
| Sicamericana Sacifi | P1 (11:18) — No Puedes Escucharme Golpear = Can't You Hear Me Knocking, Flores Muertas = Dead FlowersP2 (11:40) — Caballos Salvajes = Wild Horses, Una Milla A La Luz De La Luna = Moonlight MileP3 (11:34) — Tengo Blues = I Got The Blues, Azúcar Marrón = Brown Sugar, Balanceo = SwayP4 (12:01) — Debes Correrte = You Gotta Move, Perra = Bitch, Hermana Morfina = Sister Morphine | 12:01 |
| Rolling Stones | P1 (11:21) — Can't You Hear Me Knocking, Dead FlowersP2 (11:30) — Moonlight Mile, Sister MorphineP3 (12:10) — Wild Horses, Sway, You Gotta MoveP4 (11:24) — Brown Sugar, Bitch, I Got The Blues | 12:10 |
| Not On Label The Rolling Stones | P1 (12:19) — Brown Sugar, You Gotta Move, Moonlight MileP2 (11:19) — Wild Horses, Sister MorphineP3 (11:26) — Sway, Bitch, I Got The BluesP4 (11:21) — Can't You Hear Me Knocking, Dead Flowers | 12:19 |
| Sound Ventures 2 | P1 (11:22) — Brown Sugar, Sway, BitchP2 (11:19) — Wild Horses, Sister MorphineP3 (11:11) — Can't You Hear Me Knocking, I Got The BluesP4 (12:33) — You Gotta Move, Dead Flowers, Moonlight Mile | 12:33 |
| Br 8 | P1 (13:28) — Bitch, I Got The Blues, Moonlight MileP2 (9:40) — Sister Morphine, Dead FlowersP3 (9:49) — Can't You Hear Me Knocking, You Gotta MoveP4 (13:28) — Brown Sugar, Sway, Wild Horses | 13:28 |
| Pieces O Eight | P1 (19:23) — Wild Horses, Moonlight Mile, Brown Sugar, SwayP2 (19:02) — Sister Morphine, Bitch, You Gotta Move, Can't You Hear Me KnockingP3 (3:55) — I Got The BluesP4 (4:05) — Dead Flowers | 19:23 |
맨 위를 보면, 서로 다른 네 작업장인 Atlantic, Kinney, Melody, 그리고 Stones의 자체 레이블이 독립적으로 증명 가능한 최적 분할에 도달했다. WEA/Warner는 LP의 원래 트랙 순서를 존중하면서 “Wild Horses”와 “Sister Morphine”을 반으로 잘라 테이프 7초를 절약했다. 다른 복제업체들도 대체로 잘했지만, Pieces O Eight는 예외였다. 불법 복제 레이블이었으니 그렇다.
제작사마다 이 문제에 접근하는 방식에는 차이가 있었다. 완벽한 분할을 찾을 수 없을 때는 기본적으로 두 가지 선택지가 있다. 트랙 하나를 프로그램 사이에 쪼개 넣거나, 짧은 곡을 반복해 테이프를 채우는 것이다. 다음 표는 같은 LP를 두 곳 이상의 작업장이 복제한 경우로 제한했을 때, 각 복제업체가 무엇을 했는지 보여준다.
| Duplicator | n | Split% | Repeat% | Split% on contested albums† |
|---|---|---|---|---|
| Hardman Industries | 43 | 53.5 | 9.3 | — |
| Precision | 170 | 50.6 | 7.6 | 70% |
| Capitol | 349 | 50.4 | 0.6 | 58% |
| Polydor | 51 | 49.0 | 0.0 | — |
| Apple | 31 | 48.4 | 0.0 | — |
| Solo Products | 76 | 46.1 | 6.6 | — |
| GRT | 335 | 44.8 | 3.3 | 44% |
| Columbia/CBS | 641 | 42.3 | 6.7 | 38% |
| Atlantic Recording | 76 | 42.1 | 1.3 | — |
| PolyGram | 55 | 36.4 | 5.5 | — |
| Club | 39 | 33.3 | 12.8 | — |
| Audio Devices | 70 | 32.9 | 8.6 | — |
| RCA | 438 | 28.8 | 7.8 | 71% |
| MCA | 53 | 26.4 | 37.7 | — |
| WEA/Warner | 239 | 24.7 | 5.0 | 40% |
| Lear Jet | 51 | 23.5 | 5.9 | — |
| A&M Limited | 73 | 21.9 | 41.1 | — |
| Ampex | 474 | 15.2 | 23.8 | 31% |
| Quality Limited | 51 | 3.9 | 15.7 | — |
| ITCC | 55 | 0.0 | 27.3 | — |
Capitol은 테이프의 절반을 분할했고 반복은 거의 하지 않았다(50.4% 대 0.6%). Apple과 Polydor는 단 한 곡도 반복하지 않았다. 반대편 끝에는 ITCC가 있다. 55개 테이프 중 단 하나도 쪼개지 않았고 27%는 반복했다. Ampex와 A&M Limited도 같은 경향이다. 수학이 맞아떨어지지 않을 때, 이들은 긴 곡에 칼을 대기보다 짧은 곡을 반복해서 빈 공간을 메웠다. 같은 문제, 정반대의 도구다.
위 내용은 이 데이터가 분할 문제에 대한 _작업장 스타일_을 보여줄 수 있다는 훌륭한 사례다. 하지만 그것은 핵심 질문에 답해주지 않는다. 인간은 이 문제를 얼마나 잘 풀었는가? 이를 위해 우리는 엔지니어의 분할을 몇 가지 기준과 비교한다. 첫째, 앨범 순서를 유지하는 방식. 둘째, LPT, 1960년대에 발표된 표준 탐욕 알고리즘. 셋째, Karmarkar–Karp differencing, 즉 KK 알고리즘 또는 LDM이다. 이것은 분할 문제용 알고리즘으로 1982년에 처음 발표되었다. 마지막으로, 나는 지난 20년 안에 만들어진 컴퓨터를 가지고 있으므로 가능한 모든 해를 순회하여 최적해를 찾을 수 있다.

다시 Rumours 예를 보자. 이 앨범은 LP로 발매되었고, 우리는 서로 다른 알고리즘에 대해 얼마나 긴 테이프가 필요한지 계산할 수 있다.
| Approach | Programs (tracks) | Makespan |
|---|---|---|
| 앨범 순서 유지 (best cuts) | P1 (9:27) — Second Hand News, Dreams, Never Going Back AgainP2 (10:17) — Don't Stop, Go Your Own Way, SongbirdP3 (11:19) — The Chain, You Make Loving Fun, I Don't Want To KnowP4 (9:00) — Oh Daddy, Gold Dust Woman | 11:19 |
| LPT(greedy) | P1 (10:52) — Don't Stop, Go Your Own Way, Oh DaddyP2 (10:45) — Second Hand News, Dreams, You Make Loving FunP3 (10:09) — Never Going Back Again, Songbird, The ChainP4 (8:17) — I Don't Want To Know, Gold Dust Woman | 10:52 |
| Karmarkar–Karp(1982) | P1 (10:35) — Second Hand News, Dreams, SongbirdP2 (10:27) — Don't Stop, I Don't Want To Know, Oh DaddyP3 (10:19) — Never Going Back Again, The Chain, You Make Loving FunP4 (8:42) — Go Your Own Way, Gold Dust Woman | 10:35 |
| WEA의 엔지니어 (1977) | P1 (10:17) — Don't Stop, Go Your Own Way, SongbirdP2 (10:07) — Second Hand News, I Don't Want To Know, Oh DaddyP3 (10:06) — Dreams, Never Going Back Again, You Make Loving FunP4 (9:33) — The Chain, Gold Dust Woman | 10:17 |
| 증명 가능한 최적해 (free shuffle) | P1 (10:13) — Dreams, Never Going Back Again, Go Your Own WayP2 (10:10) — Don't Stop, Songbird, You Make Loving FunP3 (10:07) — Second Hand News, I Don't Want To Know, Oh DaddyP4 (9:33) — The Chain, Gold Dust Woman | 10:13 |
이 표에는 한 가지 단서가 있다. 아까 더 분명히 했어야 했는데, 프로그램들은 서로 바꿔도 된다(program 1과 program 3을 바꿔도 결과는 변하지 않는다). 또 _프로그램 내부_의 곡 순서도 서로 바꿀 수 있다. program 4가 The Chain 다음에 _Gold Dust Woman_이 와도 되고, 그 반대여도 상관없다.
같은 트랙 목록이 주어져도 각 알고리즘은 서로 다른 결과를 낸다. LPT는 순진한 ‘LP 트랙 순서를 그대로 복사’하는 해법보다 그렇게까지 잘하지는 못한다. LPT와 KK 둘 다 짧은 프로그램을 하나 남기는데, 이것이 그 알고리즘들의 실패 양상이다. 인간 엔지니어는 최적해에서 스왑 한 번 차이였다.
어쨌든 Rumours 사례에서 인간이 잘했다는 것은 알 수 있다. 정말 잘했다. 그 배열이 정해진 뒤 10년이나 지나서야 발명된 알고리즘보다도 더 잘했다. 이 관찰은 8트랙 카트리지 전체 코퍼스에서도 유지될까? 놀랍게도 그렇다.
전체 6,463건의 해답에서, 엔지니어의 중앙값은 증명 가능한 최적해보다 겨우 5초 길었다. 약 40분짜리 앨범 기준으로 보면 오차는 0.2%도 안 된다. 그리고 이 숫자의 결정적인 점은, 내가 점수를 매기는 데 쓰는 길이 데이터 자체도 고작 3초에서 4초 정도 정확도밖에 없다는 것이다. LP판과 CD판은 8트랙 마스터와 몇 초씩 차이가 난다. 내가 직접 측정했다. 그래서 보통의 엔지니어는 완벽에서 5초 떨어져 있었다기보다, 이 데이터로 구분 가능한 한계 바닥에 앉아 있었다고 보는 편이 맞다. 전체 테이프의 4분의 1이 넘는 27.5%는 정확히 최적해에 도달했다. 수천 개 후보 중 가장 좋은 단 하나의 배열을 손으로 찾아낸 것이다.
교과서도 이기고 있었다. 동일한 길이 데이터로 다시 채점했을 때, 인간은 테이프의 58%에서 탐욕적 LPT를 이겼고 29%에서 졌다. 2대 1보다 더 좋은 비율이다. Karmarkar–Karp에 대해서도 마찬가지다. 이 최신 차분 방법은 1982년에야 발표되었지만, 인간은 전체적으로 여전히 우세했다. 승 46% 대 패 38%였다. 1970년대 초에 스톱워치와 LP 레이블 카피만 들고 일하던 이름 없는 복제 공장 직원들이, 자기들보다 10년 뒤의 알고리즘을 이기고 있었던 셈이다.
당연히 드는 의심은, 이 사람들이 이름만 몰랐을 뿐 사실은 이런 방법 가운데 하나를 몰래 쓰고 있었던 것 아니냐는 것이다. 아니었다. 인간 분할 가운데 LPT가 만들었을 정확한 배치와 일치하는 것은 6.8%뿐이고, Karmarkar–Karp와 일치하는 것은 7.6%다. 즉 열 번 중 아홉 번이 넘는 경우에 엔지니어는 어느 교과서 알고리즘도 고르지 않았을 배치를 출하했다. 교과서와 같은 수준의 결과를 냈지만 그 방법을 사용한 것은 아니었다. 작업장들이 스톱워치와 면도날로 무엇을 했든, 그것은 문헌에 없다.
이것은 중앙값이고, 끔찍한 일을 한 작업장들의 긴 꼬리 분포도 존재한다. Discogs 데이터셋에서 최악에 가까운 사례 하나는 Sublime의 _40oz to Freedom_이다. Frank Ocean의 _Blonde_를 내가 만든 버전 같은, 누가 한 번 만들어본 듯한 물건이다. Sublime 8트랙은 사실상 4년 전 어떤 redditor가 만든 것과 다를 바 없으니 그럴 만도 하다. 아니면 내가 이 문제를 너무 진지하게 생각하는 것일 수도 있다. 맞다. 왜냐하면 이 글을 쓴 게 나니까.
다시 말하지만, 모든 문서는 여기 github에서 볼 수 있다. 가서 보고, 재미있게 놀아보라.
그래서 우리는 컴퓨터나, 심지어 오늘날 컴퓨터가 사용할 알고리즘의 도움도 없이 수행된 NP-난해 문제 해결에 대한 방대한 인간 데이터셋을 갖게 되었다. 이것은 AI 모델 벤치마킹에 활용할 수 있다. 이건 LLM 성능 테스트로 아주 훌륭하다. 증명 가능한 최적해, 고전 알고리즘, 인간 전문가 성능과 모두 비교할 수 있기 때문이다. LLM은 인간을 이길까? 항상 그런 것은 아니다.
이 테스트에서 모델은 mm:ss 형식으로 익명화된 트랙 길이만 받는다. 제목도 없고, 아티스트도 없고, 학습 데이터에서 찾을 수 있는 어떤 정보도 없다. 각 LLM에 주는 프롬프트는 다음과 같다.
You are mastering an album for 8-track cartridge. The tape has four programs, and all four play for exactly the same length of tape: the longest program determines the tape length, and every shorter program wastes the difference as silence.
Here are the track lengths:
1. 3:38
2. 6:19
[... the rest of the tracks ...]
Assign every track to exactly one of the four programs so that the four program lengths are as equal as possible — specifically, minimize the length of the longest program. Tracks may go in any order and any program. Use every track exactly once.
Respond with JSON: {"programs": [[...], [...], [...], [...]]} where each inner list contains the track numbers (1-based) assigned to that program.
응답은 대략 이런 식이다.
{"programs": [[2, 1], [8, 7], [3, 6], [5, 4]]}
각 모델은 서로 다른 층위에 대해 시험되었다.
| Stratum | n | Selection |
|---|---|---|
| perfect | 100 | 인간이 증명 가능하게 최적해를 맞춤 — 모델은 비기거나 지는 것만 가능 |
| near-miss | 50 | 인간이 1–30초 벗어남 — 모델은 실제 인간을 이길 수 있음 |
| hard | 50 | 최적 분할이 5개 이하, 완벽한 분할 없음, 곡 수 12곡 이상 |
여기서 흥미로운 결과가 나온다.
최적해 도달 비율(% of valid answers; W/T/L은 그 정확한 테이프를 출하한 인간과의 비교)
| Model | perfect | near-miss | hard | vs human (all) |
|---|---|---|---|---|
| Fable 5, max effort | 100/100 | 50/50 | 50/50 | 95W / 105T / 0L |
| Fable 5, default | 95/96 | 45/45 | 48/48 | 88W / 100T / 12L¹ |
| GPT-5.2, xhigh | 87/88 | 34/34 | 30/30 | 61W / 90T / 1L on completed² |
| Haiku 4.5 + thinking | 42/100 | — | — | median residual 4.5s |
| GPT-5-mini @ high | 28/29² | — | — | — |
| GPT-5-nano @ high | 23/23² | — | — | — |
| GPT-5.2, no reasoning | 2/93 | — | — | median residual 106s |
| GPT-5-mini, minimal | 0/93 | — | — | median residual 163s |
| Haiku 4.5, no thinking | 1/98 | — | — | median residual 125s |
¹ 패배는 더 나쁜 분할이 아니라 형식 오류였다.
² OpenAI 크레딧이 바닥났다. 품질이 아니라 완료율 문제다 — 추론 기능이 있는 GPT 모델은 전반적으로 유효한 응답 기준 97–100%였다.
Fable 5와 GPT-5.2 xhigh는 이 작업을 완벽에 가깝게 해낸다. Fable 5 max effort는 인간에게 한 번도 지지 않으며 더 잘할 수 없는 성능을 보였다. 반면 추론 없는 모델들은 처참했다. 인간이 항상 이겼다. 여기서 얻을 수 있는 핵심은, 전문가 인간의 성능을 특정 모델과 특정 추론 능력을 가진 LLM과 비교해야 한다는 점이다. Haiku 4.5 + thinking은 대략 1970년대 인간과 비슷한 성능을 보였다. Haiku 4.5에 8k thinking budget을 주면 중앙 residual 4.5초, 최적해 도달 42%가 나오는데, 통계적으로 보면 전형적인 복제 공장 엔지니어 수준이다(인간 연구: 중앙값 5초, 최적해 27.5%).
Fable은 약 6k 토큰, GPT-5.2는 약 14k, GPT-5-mini는 약 30k, GPT-5-nano는 약 45k 토큰이 필요하다. 이것은 놀랍다. 물론 나는 — 그리고 아마 아무도 — ‘LLM thinking’이 실제로 무엇인지 알지 못한다. 더 많은 문맥이긴 하겠지만, 그래도 이 비결정적 신 기계에 약간의 공은 돌려주자.
그렇다고 해도 LLM의 실패는, 여기서는 잘못된 형식의 출력으로 나타났는데(흔한 실패는 8트랙에 모든 곡을 다 넣지 않는 것이었다), 인간에게서는 일어나지 않았을 것이다. 왜냐하면 바로 해고당했을 테니까.
이 모든 테스트를 돌리기 전에, 나는 실제로 이 일을 옛날 방식으로 해봤다. 연필과 종이, 그리고 생각으로. 이 프로젝트 전체는 _Blonde_를 8트랙으로 옮기려 한 데서 시작됐고, 경험상 말할 수 있는데 이건 어려운 문제다. 문제는, 내가 어떻게 했는지는 설명할 수 없다는 것이다. 내가 쓴 어떤 인간적 휴리스틱이 있었던 것 같은데, 분명 알고리즘은 아니고, 그것을 글로 적어낼 수가 없다. 1977년에 진심으로 이 일을 했던 사람들도 아마 그랬을 것이다. Sublime 8트랙을 만든 그 사람은 아니겠지만.
그래서 가능한 모든 순열을 시험하지 않고 이걸 어떻게 해야 하는지는 말할 수 없지만, 인간의 직관은 꽤 가까이 갈 수 있다. 이런 종류의 일은 다른 분야에서도 나타난 적이 있다. 예를 들어 Foldit 같은, ‘단백질 접힘을 인간이 완성하게 하자’는 온라인 게임이 있다. 고전적인 컴퓨터 알고리즘은 어느 정도까지만 갈 수 있고, 인간은 그 고전 알고리즘들을 보며 컴퓨터가 못 본 해법을 보았을 때 답답함을 느꼈다. 인간은 고전 알고리즘이 못 보는 것을 볼 수 있다. 그리고 이제는 그것을 입증하는 Nature 논문도 열두 편이나 있다.
하지만 이제는 LLM이 있다. 이것들도 블랙박스이고, 충분한 토큰과 문맥을 던져주면 인간을 능가한다. 물론 이것들도 자기들이 어떻게 했는지는 설명하지 못할 것이다.
이것은 인간이 알고리즘을 이겼다는 승리도, LLM이 인간을 이겼다는 승리도, 그런 어떤 것도 아니다. 그저 한때 죽었고 조롱받던 음악 포맷이, 인간의 직관이 작업이 끝난 뒤 10년이 지나서야 교과서에 실릴 고전적 방법들을 이겨낸 벤치마크를 남겼다는 사실일 뿐이다. 그리고 반세기쯤 지난 뒤에는, 우리가 제대로 들여다볼 수 없는 이유들로 LLM이 인간을 능가하게 되었다.
그것도 뭐, 나름 의미 있는 일이다.