AI의 ‘똑똑함’을 벤치마크만으로 재기 어려운 이유와, 조직과 개인이 실제 업무에 맞춰 AI를 면접(검증)해야 하는 이유와 방법.
URL: https://www.oneusefulthing.org/p/giving-your-ai-a-job-interview
새로운 AI를 개발하는 데 얼마나 많은 에너지(문자 그대로의 에너지와 비유적 의미의 에너지)가 들어가는지를 생각하면, 정작 우리가 그들이 정확히 얼마나 “똑똑한지”를 측정하는 일에 놀랄 만큼 어려움을 겪고 있다는 사실은 의외다. 가장 흔한 접근은 AI를 인간처럼 취급해 시험을 치르게 한 다음, 정답을 얼마나 맞혔는지 보고하는 것이다. 이런 시험은 벤치마크(benchmark)라고 불리며 수십 종이 있고, 시간이 흐르면서 AI가 얼마나 좋아지는지 측정하는 주요 방법이기도 하다.
하지만 이 접근에는 몇 가지 문제가 있다.
첫째, 많은 벤치마크와 정답표가 공개돼 있다. 그래서 어떤 AI는 우연히든, 아니면 벤치마크에서 높은 점수를 받기 위해 의도적으로든, 기본 학습 과정에서 그 내용을 흡수해 버리기도 한다. 설령 그런 일이 없더라도, 우리는 종종 이 시험들이 실제로 무엇을 측정하는지조차 잘 모른다는 사실이 드러난다. 예를 들어 매우 인기 있는 MMLU-Pro 벤치마크에는 “호모 에렉투스(Homo erectus)의 평균 두개강 용량은 대략 얼마인가?” 같은 질문과 “록 레전드 Cheap Trick의 1979년 라이브 앨범 제목에 들어간 지명은 무엇인가?” 같은 질문이 들어 있고, 각 질문마다 가능한 답이 10개씩 제시된다. 이런 걸 맞히는 게 우리에게 무엇을 알려 주는가? 나는 전혀 모르겠다.
게다가 시험이 종종 보정(calibration)되지 않았다는 문제도 있다. 즉, 정답률이 84%에서 85%로 오르는 것이 40%에서 41%로 오르는 것만큼(혹은 그보다 더) 어려운 일인지 우리가 알 수 없다. 그리고 그 위에 또, 많은 시험은 질문 자체에 오류가 많아 실제로는 최고 점수에 도달하는 것이 불가능할 수도 있고, 측정치가 이상한 방식으로 보고되는 경우도 흔하다.
모든 벤치마크에는 결함이 있지만, 그 결과 추세는 모두 같은 방향을 가리킨다. 즉, 오른쪽 위로 상승한다. AIME는 어려운 수학 시험이고, GPQA는 과학 및 법률 지식을 시험한다. MMLU는 일반 상식 테스트다. SWE-bench와 LiveBench는 코딩을 시험하고, Terminal-Bench는 에이전트적(agentic) 능력을 시험한다. 데이터 출처: Epoch AI.
그럼에도 불구하고, 이런 벤치마크들을 종합하면 어떤 기저 능력 요인(underlying ability factor)을 측정하는 것처럼 보인다. 그리고 ARC-AGI, METR Long Tasks 같은 더 고품질 벤치마크에서도 똑같이 상승 추세, 심지어 지수적(exponential) 추세가 나타난다. 이는 다양한 산업에서 AI가 실제로 미치는 영향을 측정한 결과와도 부합하는데, 그 결과는 이런 “똑똑함”의 증가가 의학부터 금융까지 실제 능력으로 이어진다는 점을 시사한다.
즉, 벤치마크는 전체적으로는 실질적 가치가 있다. 하지만 개별적으로 견고한 벤치마크는 수학, 과학, 추론, 코딩에 집중해 있다. 글쓰기 능력이나 사회학적 분석, 비즈니스 조언, 공감 능력을 측정하고 싶다면 선택지가 거의 없다. 나는 이것이 개인과 조직 모두에게 문제를 만든다고 본다. 기업들은 어떤 AI를 쓸지 벤치마크를 보고 결정하고, 새 AI는 벤치마크 성능을 대대적으로 홍보하며 출시된다. 하지만 당신이 실제로 알고 싶은 건 “우리 필요에 가장 맞는 모델이 무엇인가”다.
이를 스스로 알아내려면, AI를 면접해야 한다.
벤치마크가 우리를 실망시킬 때, 때로는 “바이브(vibes)”가 성공할 수 있다. 충분히 많은 AI 모델을 써보면, 말로 설명하기는 어렵지만 분명히 알아볼 수 있는 차이를 느끼게 된다. 그래서 AI를 많이 쓰는 일부 사람들은 AI 능력을 시험하기 위한 독특한(개인 취향이 강한) 벤치마크를 스스로 만든다. 예를 들어 Simon Willison은 모든 모델에게 “자전거를 타는 펠리컨”을 그리게 하고, 나는 모든 이미지·비디오 모델에게 비행기에 탄 수달을 만들라고 시킨다.
이런 접근은 재미있을 뿐 아니라, 사물들이 서로 어떻게 연관되는지에 대한 AI의 이해, 즉 “세계 모델(world model)”을 감지하게 해 준다. 나는 이런 테스트를 수십 개 더 갖고 있다. 예컨대 AI에게 “먼 미래의 우주선 조종 패널”을 위한 JavaScript를 만들게 하기도 하고(아래에는 예전 모델과 최신 모델 결과가 있다), 난이도 있는 시를 쓰게 하기도 한다. AI로 비디오 게임과 셰이더(shader)를 만들고, 학술 논문을 분석하게도 한다. 또 작은 글쓰기 실험도 진행하는데, 타임 트래블 같은 질문도 포함된다.
각 테스트는 모델이 어떻게 작동하는지에 대한 통찰을 준다. 오류를 많이 내는가? 답변이 다른 모델과 모두 비슷해 보이는가? 반복적으로 되돌아오는 주제나 편향은 무엇인가? 등등.
조금만 연습하면 새 모델의 ‘바이브’를 쉽게 찾을 수 있다. 예로 글쓰기 과제를 하나 해보자.
“평생 쓸 수 있는 단어가 만 개뿐이라는 통보를 받은 뒤, 남은 단어를 전시 배급품처럼 조금씩 나눠 쓰는 사람이 있다. 지금 남은 단어는 47개. 그들은 갓 태어난 아기를 안고 있다. 이 상황을 한 문단으로 써라.”
이 AI들을 많이 써본 사람이라면 결과가 놀랍지 않을 것이다. Claude 4.5 Sonnet이 왜 글을 잘 쓰는 모델로 자주 평가되는지 알 수 있다. 현재 이 네 모델 중 가장 약한 Gemini 2.5 Pro는 사용한 단어 수를 정확히 추적하지도 못한다는 점이 눈에 띈다. GPT-5 Thinking은 소설을 쓸 때 꽤 거칠고(야생적인) 스타일리스트로, 복잡한 은유를 쓰는 경향이 있지만 때로는 일관성과 이야기 전개를 희생한다(47개 단어를 다 쓸 것 같지는 않지만, 최소한 단어 수는 맞았다). 그리고 중국의 새로운 오픈 웨이트 모델 Kimi K2 Thinking도 비슷한 문제가 있는데, 흥미로운 구절이 몇 개 있지만 이야기가 완전히 말이 되지는 않는다.
‘바이브’를 통한 벤치마킹—이야기든 코드든 수달이든—은 개인이 AI 모델의 감을 잡는 데 매우 좋은 방법이다. 하지만 동시에 매우 개인적이다. AI는 매번 다른 답을 내놓기 때문에, 엄격하게 하지 않으면 어떤 경쟁도 공정하지 않다. 게다가 더 나은 프롬프트가 더 나은 결과를 만들 수도 있다. 무엇보다도 우리는 실제 측정치가 아니라 감정에 의존한다. 하지만 바이브에서 드러나는 뚜렷한 차이는, 표준화된 벤치마크만으로는 충분하지 않다는 점을 보여 준다. 특히 특정 작업에서 약간 더 나은 AI가 실제로 중요할 때는 더더욱 그렇다.
기업이 어떤 AI 시스템을 사용할지 고를 때, 이는 종종 기술 및 비용 결정으로 취급되며, 공개 벤치마크를 통해 “충분히 좋은(good-enough)” 모델을 산다고 믿는다(애초에 벤치마크를 쓰지 않는 경우도 있다). 어떤 사용 사례에서는 괜찮을 수 있지만, 많은 측면에서 AI는 소프트웨어라기보다 이상한 능력과 약점을 가진 사람처럼 행동하기 때문에 이 접근은 금세 한계에 부딪힌다.
기술 도입이 아니라 채용의 비유를 쓰면, 벤치마크에서 “충분히 좋다”는 접근을 정당화하기가 더 어려워진다. 기업은 평균보다 일을 잘하는 사람을 채용하기 위해 많은 돈을 쓰고, 특히 많은 사람에게 조언하는 역할을 맡길 사람이라면 더 신중해진다. AI에도 비슷한 태도가 필요하다. 회사용 모델을 그냥 고르는 게 아니라, 엄격한 입사 면접을 봐야 한다.
AI를 면접하는 일은 쉽지 않지만, 해결 가능한 문제다. 아마 현실 세계를 위한 벤치마킹의 가장 좋은 사례는 OpenAI의 최근 GDPval 논문일 것이다.
첫 단계는 실제 과제를 정하는 것이다. OpenAI는 금융, 법률, 리테일 등 다양한 산업에서 평균 14년 경력의 전문가들을 모아, 인간 전문가가 평균 4~7시간에 완료할 만큼 복잡하고 현실적인 프로젝트를 만들게 했다(모든 과제는 여기서 볼 수 있다).
둘째 단계는 그 과제들로 AI를 시험하는 것이다. 이 경우 여러 AI 모델과 다른 인간 전문가(시간당 임금을 받음)가 각각 각 과제를 수행했다.
마지막은 평가 단계다. OpenAI는 세 번째 전문가 그룹이 결과물을 채점하게 했는데, 어떤 답이 AI의 것인지 인간의 것인지 모르는 상태에서 평가했다. 이 과정은 질문 하나당 1시간 이상이 걸렸다. 종합하면 엄청난 작업량이다.
하지만 이 작업을 통해 AI가 강한 부분(최고 모델이 소프트웨어 개발부터 개인 재무 상담까지 여러 영역에서 인간을 이김)과 약한 부분(약사, 산업공학자, 부동산 중개인은 최고 AI를 쉽게 이김)이 드러났다. 또한 모델마다 성과가 달랐다는 점도 볼 수 있다(예: ChatGPT는 더 나은 세일즈 매니저였고, Claude는 더 나은 재무 상담사였다).
좋은 벤치마크는 우리가 AI 능력의 울퉁불퉁한 프런티어(Jagged Frontier)라고 부른 경계선의 형태를 파악하게 해 주고, 그 경계가 시간이 지나며 어떻게 변하는지도 추적하게 해 준다.
하지만 이런 테스트조차도 핵심 이슈 하나는 비춰 주지 못한다. 즉, AI가 의사결정을 할 때의 기본적인 태도(attitude)다.
그 한 예로, 나는 여러 AI에게 내가 보기에 다소 수상한 아이디어를 제시했다. 드론으로 과카몰리(guacamole)를 배달하는 회사다. 각 AI 모델에게 GuacaDrone의 사업성이 1~10점 중 몇 점인지 10번씩 평가하게 했다(앞서 말했듯 AI는 매번 다르게 답하므로 여러 번 테스트해야 한다).
개별 모델은 실제로 꽤 일관된 답을 했지만, 모델 간 차이는 매우 컸다. 나는 개인적으로 이 아이디어를 2점 이하로 줬겠지만, 모델들은 더 후했다. Grok은 대단히 좋은 아이디어라고 봤고 Microsoft Copilot도 신이 났다. GPT-5와 Claude 4.5 같은 다른 모델들은 더 회의적이었다.
내 과카몰리 드론 배송 서비스 아이디어는 얼마나 실현 가능할까?
이 차이는 사소하지 않다. 당신의 AI가 대규모로 조언을 제공하는 상황에서, 아이디어를 일관되게 3~4점 더 높거나 낮게 평가한다면, 당신을 일관되게 다른 방향으로 이끌게 된다. 어떤 회사는 위험을 감수하는 AI를 원할 수도 있고, 다른 회사는 위험을 피하고 싶을 수도 있다. 어느 쪽이든, AI가 중요한 비즈니스 이슈를 어떻게 “생각”하는지 이해하는 것은 중요하다.
AI 모델이 과제를 점점 더 잘 수행하고, 우리의 일과 삶에 더 깊이 통합될수록, 우리는 모델 간 차이를 더 진지하게 받아들여야 한다. 일상적으로 AI와 함께 일하는 개인에게는 바이브 기반 벤치마킹으로도 충분할 수 있다. 그냥 수달 테스트를 돌리면 된다.
다만 내 경우에는 비행기 위 수달이 너무 쉬워져서, Sora 2에 다음 프롬프트를 넣어 봤다. “1960년대의 다큐멘터리 영상: 그 밴드가 ‘수달 떼 사건’ 이전에 했던 유명한 마지막 콘서트에 관한 영상” 그리고 꽤 인상적인 결과가 나왔다.
하지만 AI를 대규모로 배포하는 조직이 마주하는 과제는 다르다. 물론 큰 흐름은 분명하다. 더 크고 더 최신인 모델은 대체로 대부분의 과제에서 더 낫다. 그러나 수천 개의 실제 업무를 처리하거나 수백 명의 직원에게 조언할 AI를 고르는 상황에서 “더 낫다”는 말만으로는 충분하지 않다. 당신은 ‘평균적으로 AI가 무엇을 잘하는지’가 아니라, ‘당신의 AI가 무엇을 잘하는지’를 구체적으로 알아야 한다.
GDPval 연구가 보여 준 것도 바로 그것이다. 최상위 모델들 사이에서도 과제에 따라 성능이 크게 달랐다. 그리고 GuacaDrone 사례는 또 다른 차원을 보여 준다. 모호한 질문에 대한 판단이 필요한 과제에서는, 서로 다른 모델들이 일관되게 서로 다른 조언을 한다는 점이다.
이런 차이는 규모가 커질수록 누적된다. 재무 데이터를 분석하는 데 약간 더 못한 AI, 혹은 권고안에서 일관되게 더 위험 선호적인 AI는, 단 하나의 결정에만 영향을 미치는 것이 아니라 수천 개의 결정에 영향을 미친다.
이 패턴을 이해하기 위해 바이브에 의존할 수는 없고, 일반 벤치마크가 그 패턴을 드러내 주지도 않는다. 당신이 실제로 하게 될 업무와 실제로 내리게 될 판단을 기준으로 AI를 체계적으로 테스트해야 한다. 사용 사례를 반영하는 현실적 시나리오를 만들어라. 여러 번 실행해 패턴을 확인하라. 전문가가 결과를 평가할 시간을 확보하라. 당신에게 중요한 과제에서 모델들을 정면으로 비교하라.
이는 “이 모델은 MMLU에서 85%를 받았다”는 것과 “이 모델은 우리 재무 분석 과제에서는 더 정확하지만, 위험 평가에서는 더 보수적이다”를 아는 것의 차이다. 그리고 새로운 모델이 나오고 평가가 필요해지므로, 이런 작업을 1년에 여러 번 할 수 있어야 한다.
그 노력은 충분히 가치가 있다. SAT 점수만 보고 부사장(VP)을 채용하지는 않을 것이다. 마찬가지로, 조직의 수천 개 의사결정을 조언할 AI를 고르면서 ‘호모 에렉투스의 평균 두개강 용량이 1,000세제곱센티미터보다 약간 작다’는 사실을 알고 있는지 여부로 결정해서는 안 된다.