Anthropic의 Project Glasswing—보안 연구자에게만 Claude Mythos를 제한하는 것은 내게는 필요해 보인다

Simon Willison의 Weblog

스폰서:WorkOS — 인증과 접근 제어를 위한 프로덕션 준비 완료 API로, 더 빠르게 출시할 수 있습니다.

Anthropic의 Project Glasswing—보안 연구자에게만 Claude Mythos를 제한하는 것은 내게는 필요해 보인다

2026년 4월 7일

Anthropic은 오늘 최신 모델인 Claude Mythos(system card PDF)를 공개하지 않았다. 대신 새롭게 발표한 Project Glasswing을 통해 매우 제한된 미리보기 파트너 집단에게만 제공했다.

이 모델은 Claude Opus 4.6과 유사한 범용 모델이지만, Anthropic은 이 모델의 사이버보안 연구 능력이 충분히 강력해서 소프트웨어 산업 전체가 대비할 시간을 줘야 한다고 주장한다.

Mythos Preview는 이미 수천 건의 고위험 취약점을 찾아냈으며, 그중 일부는 모든 주요 운영체제와 웹 브라우저 에 존재했습니다. AI 발전 속도를 고려하면, 이런 능력이 안전하게 배포하려는 의지를 가진 행위자들의 범위를 넘어 확산되기까지 오래 걸리지 않을 것입니다.

[...]

Project Glasswing 파트너는 Claude Mythos Preview에 접근해 자신들의 기반 시스템에 있는 취약점이나 약점을 찾아 수정할 수 있게 됩니다. 이런 시스템은 전 세계가 공유하는 사이버 공격 표면의 매우 큰 부분을 차지합니다. 우리는 이 작업이 로컬 취약점 탐지, 바이너리 블랙박스 테스트, 엔드포인트 보안 강화, 시스템 침투 테스트 같은 과업에 집중될 것으로 예상합니다.

Anthropic Red Team 블로그의 Assessing Claude Mythos Preview’s cybersecurity capabilities에는 훨씬 더 많은 기술적 세부 내용이 담겨 있다.

한 사례에서 Mythos Preview는 네 개의 취약점을 연결한 웹 브라우저 익스플로잇을 작성했고, 복잡한 JIT heap spray를 구성해 렌더러와 OS 샌드박스를 모두 탈출했습니다. 이 모델은 미묘한 race condition과 KASLR 우회 기법을 악용해 Linux와 다른 운영체제에서 로컬 권한 상승 익스플로잇도 자율적으로 확보했습니다. 또한 FreeBSD의 NFS 서버에 대해, 여러 패킷에 걸쳐 20개 가젯의 ROP 체인을 분할함으로써 인증되지 않은 사용자에게 완전한 root 접근 권한을 부여하는 원격 코드 실행 익스플로잇도 자율적으로 작성했습니다.

그리고 Claude 4.6 Opus와의 이런 비교도 있다.

우리의 내부 평가에 따르면 Opus 4.6은 자율적 익스플로잇 개발에서 대체로 거의 0%의 성공률을 보였습니다. 하지만 Mythos Preview는 차원이 다릅니다. 예를 들어 Opus 4.6은 Mozilla의 Firefox 147 JavaScript 엔진에서 발견한 취약점들—모두 Firefox 148에서 패치됨—을 JavaScript 셸 익스플로잇으로 바꾸는 데 수백 번의 시도 중 단 두 번만 성공했습니다. 우리는 이 실험을 Mythos Preview의 벤치마크로 다시 실행했고, 이 모델은 181번 작동하는 익스플로잇을 개발했으며 추가로 29번은 레지스터 제어를 달성했습니다.

“우리 모델은 너무 위험해서 공개할 수 없다”라고 말하는 것은 새 모델에 대한 화제를 키우는 좋은 방법이지만, 이번 경우에는 그들의 신중함이 정당하다고 본다.

불과 며칠 전(지난 금요일)에 나는 이 블로그에 ai-security-research 태그를 새로 만들었는데, 이는 현대 LLM이 취약점 연구에서 얼마나 뛰어나졌는지에 대해 신뢰할 만한 보안 전문가들이 경고를 울리는 일이 늘어나고 있음을 인정하기 위해서였다.

Linux kernel의 Greg Kroah-Hartman:

몇 달 전만 해도 우리는 이른바 ‘AI slop’을 받고 있었습니다. AI가 생성한 보안 보고서였는데, 명백히 틀렸거나 품질이 낮았죠. 좀 웃기기도 했습니다. 크게 걱정되지는 않았습니다.

그런데 한 달 전쯤 무슨 일이 일어났고, 세상이 바뀌었습니다. 이제 우리는 진짜 보고서를 받고 있습니다. 모든 오픈소스 프로젝트가 AI로 만들어진 진짜 보고서를 받고 있는데, 그것들이 좋고, 실제입니다.

curl의 Daniel Stenberg:

오픈소스 보안에서 AI가 가져온 도전은 AI slop 쓰나미에서 좀 더... 그냥 보안 보고서 쓰나미로 바뀌었습니다. 엉터리는 줄었지만 보고서는 엄청 많습니다. 그중 상당수가 정말 좋습니다.

저는 지금 이 일에 하루 몇 시간씩 쓰고 있습니다. 강도가 엄청납니다.

그리고 Thomas Ptacek은 Anthropic의 Nicholas Carlini와의 팟캐스트 대화에서 영감을 받아 Vulnerability Research Is Cooked라는 글을 발표했다.

Anthropic은 Glasswing 프로젝트를 설명하는 5분짜리 토킹 헤드 영상을 공개했다. Nicholas Carlini도 그중 한 명으로 등장하며 이렇게 말했다(강조는 내 것).

이 모델은 취약점을 서로 연결할 수 있는 능력이 있습니다. 이것이 뜻하는 바는, 두 개의 취약점을 찾았을 때 각각만으로는 사실 큰 효과를 내지 못하더라도, 이 모델은 세 개, 네 개, 때로는 다섯 개의 취약점을 순차적으로 결합해 매우 정교한 최종 결과를 만들어내는 익스플로잇을 생성할 수 있다는 것입니다. [...]

저는 지난 몇 주 동안, 제 평생을 합친 것보다 더 많은 버그를 찾았습니다. 우리는 이 모델을 이용해 많은 오픈소스 코드를 스캔했고, 가장 먼저 노린 것은 운영체제였습니다. 인터넷 인프라 전체의 기반이 되는 코드이기 때문입니다. OpenBSD에서는 27년 동안 존재해 온 버그를 발견했는데, 제가 아무 OpenBSD 서버에 데이터 몇 조각만 보내도 그것을 크래시시킬 수 있는 버그였습니다. Linux에서는 권한이 전혀 없는 사용자로서 제 머신에서 어떤 바이너리 하나만 실행해도 관리자 권한으로 상승할 수 있는 여러 취약점을 발견했습니다. 이런 버그 각각에 대해 우리는 실제로 그 소프트웨어를 운영하는 유지관리자들에게 알렸고, 그들은 이를 수정했으며 패치를 배포해서 이제 그 소프트웨어를 실행하는 누구도 이런 공격에 더는 취약하지 않게 되었습니다.

나는 이것을 OpenBSD 7.8 errata page에서 찾았다.

025: RELIABILITY FIX: 2026년 3월 25일모든 아키텍처

잘못된 SACK 옵션이 있는 TCP 패킷이 커널을 크래시시킬 수 있습니다.

이 문제를 해결하는 소스 코드 패치가 존재합니다.

나는 그 변경 사항을 OpenBSD CVS 저장소의 GitHub mirror에서 추적해 들어갔고(분명 아직도 CVS를 쓰는 모양이다!), git blame를 사용해 그것을 찾아냈다.

과연 주변 코드는 27년 전의 것이었다.

Nicholas가 어떤 Linux 취약점을 말한 것인지는 확실하지 않지만, 최근 Michael Lynch가 다룬 이 NFS 취약점일 수도 있다.

여기에는 내가 실제 위험이 있다고 믿기에 충분한 정황이 있다. 수십 년 된 소프트웨어에서 취약점을 찾는 것 자체는, 특히 그것들이 대부분 C로 작성되었다는 점을 고려하면 놀라운 일이 아니지만, 새롭게 달라진 점은 최신 프런티어 LLM이 구동하는 코딩 에이전트들이 이런 문제를 지치지 않고 파헤치는 능력을 입증하고 있다는 것이다.

사실 나는 금요일에 이것이 업계 전체의 대대적인 대응을 불러올 만한 일처럼 들렸고, 피할 수 없이 쏟아질 취약점 공세에 앞서기 위해 막대한 시간과 자금 투자가 필요할 수도 있겠다고 생각했다. Project Glasswing에는 “1억 달러의 사용 크레딧 ... 그리고 오픈소스 보안 조직에 대한 직접 기부금 400만 달러”가 포함된다. 파트너로는 AWS, Apple, Microsoft, Google, 그리고 Linux Foundation이 포함된다. OpenAI도 여기에 참여하는 모습을 볼 수 있다면 좋겠다—GPT-5.4는 이미 보안 취약점을 찾아내는 데 강한 평판이 있고, 더 강력한 모델들도 가까운 시야에 들어와 있다.

신뢰받는 파트너가 아닌 우리 같은 사람들에게는 나쁜 소식이 이것이다.

우리는 Claude Mythos Preview를 일반적으로 제공할 계획이 없습니다. 하지만 우리의 궁극적인 목표는 사용자가 Mythos급 모델을 대규모로 안전하게 배포할 수 있게 하는 것입니다. 사이버보안 목적뿐 아니라, 그렇게 높은 역량을 가진 모델이 가져올 무수한 다른 이점들을 위해서도 그렇습니다. 이를 위해서는 모델의 가장 위험한 출력물을 탐지하고 차단하는 사이버보안(및 기타) 안전장치를 개발하는 데 진전을 이뤄야 합니다. 우리는 곧 출시될 Claude Opus 모델과 함께 새로운 안전장치를 선보일 계획이며, 이를 통해 Mythos Preview와 같은 수준의 위험을 초래하지 않는 모델에서 그것들을 개선하고 정교화할 수 있을 것입니다.

나는 이 정도면 받아들일 수 있다. 여기서의 보안 위험은 정말 신빙성이 있다고 생각하고, 신뢰할 수 있는 팀들이 그보다 앞서 대응할 추가 시간을 갖는 것은 합리적인 절충이라고 본다.

게시일: 2026년 4월 7일 오후 8:52 · Mastodon, Bluesky, Twitter에서 나를 팔로우하거나 뉴스레터를 구독하세요

더 최근 글

The Axios supply chain attack used individually targeted social engineering - 2026년 4월 3일
Highlights from my conversation about agentic engineering on Lenny's Podcast - 2026년 4월 2일

이 글은 Simon Willison의 Anthropic의 Project Glasswing—보안 연구자에게만 Claude Mythos를 제한하는 것은 내게는 필요해 보인다이며, 2026년 4월 7일에 게시되었다.

security 595 thomas-ptacek 18 ai 1952 generative-ai 1733 llms 1700 anthropic 267 nicholas-carlini 11 ai-ethics 288 llm-release 188 ai-security-research 12 이전 글:The Axios supply chain attack used individually targeted social engineering

월간 브리핑

나를 월 10달러에 후원하고 그달의 가장 중요한 LLM 발전을 엄선한 이메일 다이제스트를 받아보세요.

덜 보내드리기 위해 후원해 주세요!

후원 및 구독

Anthropic의 Project Glasswing—보안 연구자에게만 Claude Mythos를 제한하는 것은 내게는 필요해 보인다

Simon Willison의 Weblog

스폰서:WorkOS — 인증과 접근 제어를 위한 프로덕션 준비 완료 API로, 더 빠르게 출시할 수 있습니다.