공격적 보안을 위한 Mythos: XBOW의 평가

약 두 달 전, Anthropic은 역량 면에서 중대한 도약을 나타낸다고 판단한 새로운 모델의 능력을 평가하는 일을 도와달라고 우리를 초대했습니다. 그래서 우리는 그 모델을 우리의 보안 검증 체계에 통과시켰습니다. 벤치마크, 워크플로, 대화형 사용, 그리고 통합까지.

오늘 우리는 마침내 Mythos Preview를 어떻게 테스트했는지, 무엇을 발견했는지, 그리고 그것이 무엇을 의미하는지에 대한 세부 사항을 공유할 수 있게 되었습니다.

미리 말하자면: 이 모델은 중대한 진전입니다. 특히 소스 코드가 उपलब्ध할 때 취약점 후보를 찾아내는 능력이 이전 모델들보다 현저히 뛰어납니다. 비정상적으로 높은 기술적 정밀도로 소통하고, 코드에 대해 훌륭하게 추론하며, 네이티브 코드 분석과 리버스 엔지니어링 같은 복잡한 영역에서도 강한 가능성을 보여줍니다.

우리의 결론: Mythos Preview는 강력한 취약점 단서와 기술적으로 정밀한 분석을 생성하는 강력한 도구입니다. 특히 보안 관점으로 소스 코드를 분석하는 데 매우 능숙합니다. 하지만 마법은 아닙니다. 모델은 몸 없는 두뇌입니다. 소스 코드 감사는 대부분 두뇌 활동이지만, XBOW가 수행하는 라이브 사이트 펜테스트는 두뇌의 힘에 걸맞은 기술과 제어력을 갖춘 몸이 매우 필요합니다.

‍

테스트 방법론

우리가 가장 먼저 한 일은 회사의 여러 부문에서 온 10명의 전문가로 이루어진 다양한 팀을 구성해, 서로 다른 관점에서 모델을 평가할 수 있도록 한 것이었습니다. 우리는 Opus 4.7과 GPT 5.5를 분석하는 데 사용했던 것과 동일한 내부 벤치마킹 시스템으로 모든 모델을 테스트합니다. 이 시스템에서는 이전에 취약점이 발견된 오픈 소스 애플리케이션을 가져와 취약한 버전으로 고정한 뒤, 우리의 에이전트를 그 대상에 실행합니다.

하지만 이번에는 다른 측면도 분석할 수 있도록 테스트를 확장했습니다:

위협 모델링, 취약점 검증, 안전성과 관련한 모델의 판단
라이브 시스템과 상호작용하는 것과 비교한 소스 코드 판독 능력
표준 평가에서 아직 찾고 있지 않은 익스플로잇, 예를 들어 네이티브 앱 취약점을 찾는 능력

‍

용어에 대한 참고: 사람들이 “Mythos”라고 말할 때는 때때로 원시 모델 자체를 가리킵니다. 이번 평가에서 우리는 Claude Code 내부에서의 Mythos Preview와, API를 통해 XBOW의 에이전트를 구동하는 엔진으로 사용한 원시 모델로서의 Mythos Preview를 모두 살펴보았습니다. 오케스트레이션, 도구, 프롬프팅, 라이브 사이트 접근이 결과에 실질적인 영향을 미치기 때문에 우리는 이 경우들을 구분합니다.

‍

결과

대화형 사용에서 Mythos Preview를 시험한 테스터들은 상당히 깊은 인상을 받았습니다. 한 테스터는 “지금까지 본 어떤 것보다도 그냥 가서 뭔가 찾아와에 훨씬 더 가까운 느낌입니다”라고 말했습니다. 우리는 우리 자신의 소스 코드를 제공해 보았고, 모델은 약점을 찾아냈습니다. 다행히 정말 심각한 것은 없었지만, 우리가 수정하고 싶었던 항목이 몇 가지 있었습니다. 오픈 소스 소프트웨어에도 적용해 보았고, 첫 주가 끝날 무렵에는 공개해야 할 새로운 취약점이 꽤 많이 생겼습니다.

벤치마크에서 Mythos Preview를 시험한 테스터들도 역시 깊은 인상을 받았지만, 그들의 평가는 약간 다른 종류였습니다. 데이터가 보여준 인상이었습니다. 그들의 결과는 또한 모델이 압도적으로 강력했던 영역과, 단지 완만한 진전을 보인 영역의 차이를 분명하게 드러냈습니다.

‍

Mythos Preview 벤치마크 성능

Mythos Preview를 분석한 뒤 얻은 핵심 결론은 다음과 같습니다:

소스 코드 감사에 매우 강력합니다.
익스플로잇 검증에도 좋지만, 그보다는 덜 강력합니다.
판단은 엇갈립니다. 지나치게 문자적이고 보수적일 수 있으며, 동시에 발견 사항의 실제적 관련성을 과장하는 경향도 있습니다.
네이티브 코드 취약점 발견과 리버스 엔지니어링에 강합니다.

‍

한 단계 높은 취약점 발견

Mythos Preview는 XBOW의 웹 익스플로잇 벤치마크에서 제공사와 무관하게 기존의 모든 모델을 크게 앞서는 도약을 보여줍니다.

이 벤치마크는 모델이 라이브 웹사이트 환경에서 검증 가능하고 실행 가능한 취약점을 XBOW가 찾는 데 도움을 줄 수 있는지 시험하도록 설계되었습니다. 한 사례는 시스템이 80번의 “행동” 이후 취약점에 대해 검증된 방식의 실행 경로(PoC||GTFO)를 찾아냈을 때만 통과로 집계됩니다. 여기서 행동은 표준 명령어나 XBOW의 공격 도구 모음을 사용하는 셸 또는 Python 스크립트일 수 있습니다.

참고: 이 차트에는 Opus 4.7을 포함하지 않았습니다. 그 모델은 우리의 시스템과 고유한 방식으로 상호작용하기 때문에, 이 특정 통계는 그 모델에는 덜 적합합니다. 이에 대해서는 여기에서 전체 내용을 다뤘습니다.

당시 최신 모델이었던 Opus 4.6과 비교하면, 이것은 강한 증가였습니다:

거짓 음성 수가 42% 줄었습니다.
두 모델 모두에 사이트의 소스 코드를 제공한 변형에서는, 그 수치가 55%까지 줄었습니다.

이것은 이후 계속 반복해서 드러난 하나의 주제가 처음 나타난 사례였습니다. Mythos Preview는 코드를 작성하는 데도 인상적이지만, 코드를 읽는 데는 그보다 더 인상적입니다.

아래는 허용된 행동 수(실행된 스크립트 수)에 따른 Mythos Preview, Opus 4.6, GPT 5.5의 통과율입니다. Mythos Preview는 Opus 4.6보다 훨씬 적은 반복으로 취약점을 찾아내지만, GPT-5.5와의 차이는 그만큼 두드러지지는 않습니다.

두 가지 사항을 추가로 고려하면 더 분명해집니다:

모델은 많은 작은 단계를 선택할 수도 있고 적은 수의 큰 단계를 선택할 수도 있습니다(자세한 내용은 여기) — 그리고 그것은 그렇게 중요하지 않아야 합니다. 행동 예산 대신 출력 토큰 예산을 고려해 봅시다.
평균 통과율, 즉 취약점을 찾을 확률 대신, 발견의 승산, 즉 그 모델이 발견을 맞힐 것이라고 어느 정도 비율로 베팅할지를 보는 편이 종종 더 유익합니다. 계산적으로는 적중률을 실패율로 나눈 값입니다.

‍

이러한 관점에서 보면 그림은 훨씬 더 명확해집니다. 토큰당 기준으로 보면, Mythos Preview는 전례 없는 정밀도로 취약점에 초점을 맞춥니다.

라이브 사이트 검증이 어려운 부분이다

Mythos Preview는 소스 코드 추론에 탁월하지만, 이번 평가는 하나의 실용적 진실을 다시 확인시켜 주었습니다. 익스플로잇 가능한 많은 문제는 애플리케이션 소스 코드에서 명백한 결함으로 드러나지 않습니다. 그것들은 설정, 의존성, 배포 선택, 또는 그 자체로는 안전한 구성 요소들이 결합되는 방식에서 발생합니다.

예를 들어, 하나의 의존성 자체는 안전할 수 있습니다. 소스 코드 자체도 안전할 수 있습니다. 하지만 소스 코드가 그 의존성을 안전하지 않은 방식으로 사용해 취약점을 만들어낼 수 있습니다. Gary McCraw가 유명하게 말했듯이, 단지 “코드를 들여다보는 것”만으로는 결함의 대다수를 찾아낼 수 없습니다.

이 점은 우리에게 특히 중요합니다. XBOW는 펜테스트를 수행하며, 우리의 대상은 라이브 사이트입니다(공격자가 보는 방식). 반면 예를 들어 Project Glasswing에서 사용되는 Mythos Preview는 소스 코드를 감사하는 데 뛰어납니다(개발자가 보는 방식). 라이브 사이트와 상호작용하는 것은 매우 강력할 수 있지만, 완전히 새로운, 매우 섬세한 차원을 여기에 추가합니다. Mythos Preview가 여기서 균형을 바꾸는가?

우리가 웹 벤치마크 세트를 수집하는 방식 때문에, 그 세트에서는 실제로 코드만으로도 취약점을 찾을 수 있습니다. 따라서 이렇게 묻는 것은 타당합니다. 이 벤치마크들에서, 라이브 사이트와 상호작용할 수 없더라도 Mythos Preview가 익스플로잇을 찾아낼 수 있을까?

결과적으로, 취약점이 순전히 코드에 있는 이러한 벤치마크들에서도 라이브 사이트 접근을 제거하는 것이 소스 코드 접근을 제거하는 것보다 성능에 더 큰 타격을 줍니다. 여러 측면에서 라이브 사이트 접근은 소스 코드 접근보다 더 중요합니다. 물론 이것이 바로 XBOW의 가치 제안입니다. 최전선 모델이 실제 애플리케이션 동작과 안전하고 구조화된 방식으로 상호작용하고, 어떤 발견이 실제로 익스플로잇 가능한지를 입증할 수 있게 해줍니다.

Mythos Preview로 구동되는 XBOW의 결과는 아래와 같습니다.

이제 우리는 “모델이 코드에서 흥미로운 무언가를 찾을 수 있는가?”라는 질문에 대해 확실한 답을 갖게 되었습니다. 점점 더 그 답은 그렇다입니다. 다만 “무언가”가 “모든 것”과 같지는 않을 것입니다.

하지만 그 경우에도 여전히 남는 질문은 “이 발견들 중 어떤 것이 익스플로잇 가능하고, 재현 가능하며, 안전하게 테스트할 수 있고, 수정할 가치가 있는가?”입니다. 그 답은 Mythos Preview의 강력한 소스 코드 분석과, XBOW의 라이브 사이트를 안전하고 조율되고 검증된 방식으로 분석하는 능력 같은 것을 결합하는 데 있습니다.

주목할 만한 점은, Mythos Preview가 라이브 사이트 접근을 박탈당했을 때 크게 성능이 떨어지긴 하지만, 다른 모델들은 그보다 더 큰 타격을 받는다는 것입니다. 이것 역시 Mythos의 가장 큰 강점이 소스 코드를 읽는 데 있음을 다시 확인시켜 줍니다.

물론 가장 좋은 결과는 라이브 사이트와 소스 코드 모두에 접근할 수 있을 때입니다. XBOW가 Mythos Preview를 오케스트레이션할 때 이상적인 탐지 패턴이 가능해집니다. 소스 코드를 분석해 단서를 찾고, 라이브 사이트를 탐색해 그 약점이 실제 배포에서 어떻게 나타나는지 이해한 다음, 그것으로부터 익스플로잇을 구성하는 것입니다.

기타 발견 사항

우리는 또한 판단, 리버스 엔지니어링, 네이티브 앱 평가, 시각적 정확성 측면에서도 이 모델을 살펴보았습니다.

판단 결과는 엇갈렸다

Mythos Preview의 판단 결과는 발견 성능보다 더 엇갈렸습니다. 명령 안전성, 위협 모델링, 트레이스 트리아지 전반에서 종종 신중하고 정밀했지만, 동시에 문자적이고 보수적이기도 했습니다. 많은 이전 모델보다 거짓 양성을 더 잘 거부했지만, 증거가 형식적으로 그 기준을 충족하지 않거나 의도된 규칙이 문서화된 규칙보다 더 넓을 때는 진짜 양성을 놓치기도 했습니다. 이것은 Mythos Preview를 가치 있게 만들지만, 자급자족 가능하게 만들지는 않습니다. 강한 추론을 신뢰할 수 있는 보안 결과로 바꾸려면 정밀한 프롬프트, 명시적인 위협 모델, 그리고 검증 인프라가 필요합니다.

여기서 우리를 약간 놀라게 한 부분 하나는 명령 안전성 벤치마크에서의 Mythos Preview 성능이었습니다. 이 벤치마크에서는 주어진 스크립트가 대상 사이트에 영향을 주지 않고 실행해도 안전한지 모델에게 판단하게 합니다. 우리는 결정 경계에 가까운 대규모 사례 집합에 손수 라벨을 붙였고, Haiku 4.5는 90.1%의 정확도를 보였습니다. 또한 우리는 Haiku 4.5에 맞춰 프롬프트를 최적화했기 때문에, 더 적절한 비교 대상은 Opus 4.6이며 그 정확도는 81.2%였습니다 … 하지만 Mythos Preview는 겨우 77.8%였습니다.

더 깊이 파고들어 그 추론을 살펴보니, 종종 일리가 있었습니다. 규칙의 문구 자체에는 기술적으로 어긋나지 않지만, 그 정신에는 어긋나는 사례들이 있었습니다. Opus 4.6은 규칙의 정신을 우선시했지만, Mythos는 문구를 우선시했습니다.

이 모델은 네이티브 코드와 리버스 엔지니어링에 강하다

웹 애플리케이션을 넘어, 이 모델은 네이티브 코드 취약점 발견과 리버스 엔지니어링에서도 상당한 강점을 보여주었습니다.

Chromium 관련 테스트에서는 이전 기준선보다 더 적은 거짓 양성으로 더 많은 실제 버그를 찾아냈습니다. V8 샌드박스 작업에서는, 이전 접근법들이 많은 발견 사항을 냈지만 성공적인 진짜 양성은 전혀 만들지 못했던 미묘한 위협 모델에서 진짜 양성을 식별해냈습니다. 또한 자기 자신의 결과와 경쟁 모델의 발견 사항을 모두 트리아지할 수 있는 능력도 입증했습니다.

리버스 엔지니어링 결과는 가장 두드러진 것들 중 하나였습니다. 이 모델은 단순한 패턴 매칭 이상을 요구하는 아키텍처와 운영체제 조합을 포함해, 특이한 펌웨어와 임베디드 시스템 맥락에서 추론해냈습니다.

브라우저 상호작용과 시각적 정확성은 실용적인 워크플로에 충분히 강하다

XBOW의 워크플로는 종종 모델이 브라우저 인터페이스를 통해 라이브 웹사이트와 상호작용해야 합니다. 이 환경에서는 시각적 정확성이 중요합니다. 모델은 올바른 UI 요소를 식별하고 올바른 위치를 클릭해야 합니다.

평가된 모델은 XBOW의 시각적 정확성 QA에서 매우 뛰어난 성능을 보였고, 대체로 Sonnet 4.6과 비슷했으며 Opus 4.6을 크게 앞섰습니다. 정확한 좌표를 요구받았을 때 완벽하게 픽셀 단위로 정확하지는 않았지만, 올바른 브라우저 동작을 선택하는 데에는 실질적으로 효과적이었습니다.

우리는 Opus 4.7 역시 이 벤치마크에서 뛰어났다는 점을 언급해야 합니다. 어쩌면 여기서 진짜 이야기는 “Mythos Preview가 좋다”라기보다는, 최근 Anthropic 모델들이 악화되기 시작했던 특정 영역이 있었다는 것에 더 가까울지도 모릅니다. 하지만 이제 Anthropic은 그 악화를 포착하고 되돌렸습니다.

‍

비용이 따르는 강력함

Mythos Preview는 그저 새로운 모델 중 하나가 아닙니다. 진정한 거인입니다.

하지만 거인은 크고, 크다는 것은 비싸다는 뜻입니다. 얼마나 많은 확신을 위해 얼마나 많은 비용을 지불할 의향이 있습니까? 같은 돈을 다른 방식으로 써서 더 나은 결과를 얻을 수 있을까요?

이 글을 쓰는 시점에서 Mythos Preview는 아직 공개 API를 통해 제공되지 않지만, Anthropic은 언급했습니다 이 모델이 Opus 모델보다 5배 비쌀 것이라고. Opus 모델도 이미 토큰당 기준으로 더 비싼 선택지 중 하나입니다. 그래서 이런 질문이 생깁니다:

다른 모델로 구동되는 에이전트에 더 많은 시간을 주고도, 더 적은 비용으로 더 높은 정확도를 얻을 수 있을까?

결과적으로 답은 그렇습니다. 추정 실행 비용으로 정규화하면, 그림은 꽤 명확합니다. Mythos Preview는 끔찍할 정도로 비효율적인 것은 아니며, 적어도 높은 정확도를 원한다면 그렇습니다. 하지만 우리의 벤치마크에서 최고 수준의 비용 효율성을 보이진 않습니다.

이 발견은 유사한 비교와도 일치합니다. 예를 들어 Point Estimate의 분석에서, AI Security Institute의 벤치마킹을 바탕으로 Mythos Preview와 GPT-5.5를 비교한 내용이 그렇습니다. Mythos Preview는 강력하지만, 실제 선택은 에이전트가 Mythos Preview를 잠시 사용하도록 비용을 지불할 것인지, 아니면 GPT-5.5를 필요한 만큼 사용하게 할 것인지의 문제입니다. 더 나은 선택은 사용 사례에 따라 달라지며, 종종 후자입니다.

XBOW의 평가는 최전선 모델들이 취약점 발견에서 중대한 진전을 이루었음을 시사합니다. Mythos Preview는 특히 소스 코드로부터 후보 취약점을 찾는 데 강하고, 웹, 네이티브 코드, 리버스 엔지니어링 작업 전반에서 인상적인 능력을 보여줍니다.

하지만 그 잠재력을 완전히 끌어내려면 올바른 장치 위에 탑재되고 올바른 도구를 갖춰야 합니다. 그리고 그렇게 하더라도, 그것은 여러분의 화살통에 있는 여러 화살 중 하나일 뿐이어야 합니다. 작업에 따라서는 Mythos Preview가 한 번 시도하게 하는 것보다 다른 모델이 여러 번 시도하게 하는 편이 더 합리적일 수 있습니다. 결국 그러한 고려 사항이야말로 XBOW가 단일 모델에만 제한하지 않고 여러 모델 집합을 유지하는 이유 중 하나입니다.

XBOW의 강력한 취약점 검증 역량이 실제로 어떻게 작동하는지 보고 싶다면, 데모를 위해 문의해 주세요.

‍

테스트 방법론

하지만 이번에는 다른 측면도 분석할 수 있도록 테스트를 확장했습니다:

위협 모델링, 취약점 검증, 안전성과 관련한 모델의 판단
라이브 시스템과 상호작용하는 것과 비교한 소스 코드 판독 능력
표준 평가에서 아직 찾고 있지 않은 익스플로잇, 예를 들어 네이티브 앱 취약점을 찾는 능력

‍

결과

‍

Mythos Preview 벤치마크 성능

Mythos Preview를 분석한 뒤 얻은 핵심 결론은 다음과 같습니다:

소스 코드 감사에 매우 강력합니다.
익스플로잇 검증에도 좋지만, 그보다는 덜 강력합니다.
판단은 엇갈립니다. 지나치게 문자적이고 보수적일 수 있으며, 동시에 발견 사항의 실제적 관련성을 과장하는 경향도 있습니다.
네이티브 코드 취약점 발견과 리버스 엔지니어링에 강합니다.

‍