Claude Sonnet 4.5 소개

Claude Sonnet 4.5는 세계 최고의 코딩 모델입니다. 복잡한 에이전트를 구축하는 데 가장 강력한 모델이며, 컴퓨터 사용 능력이 가장 뛰어납니다. 또한 추론과 수학에서 상당한 향상을 보입니다.

코드는 어디에나 있습니다. 여러분이 사용하는 모든 애플리케이션, 스프레드시트, 소프트웨어 도구는 코드로 실행됩니다. 이러한 도구를 능숙하게 사용하고 어려운 문제를 논리적으로 해결하는 능력이 현대 업무를 완수하는 방법입니다.

Claude Sonnet 4.5가 이를 가능하게 합니다. 저희는 이 모델과 함께 제품 전반에 걸친 대규모 업그레이드를 공개합니다. Claude Code에는 진행 상황을 저장하고 즉시 이전 상태로 롤백할 수 있는 체크포인트(가장 많은 요청을 받은 기능 중 하나)를 추가했습니다. 터미널 인터페이스를 새롭게 단장하고 네이티브 VS Code 확장 프로그램을 출시했습니다. Claude API에는 에이전트가 더욱 오래 작업하고 더 높은 복잡성을 처리할 수 있도록 하는 컨텍스트 편집 기능과 메모리 도구를 추가했습니다. Claude 앱에서는 코드 실행과 파일 생성(스프레드시트, 슬라이드, 문서)을 대화에 직접 통합했습니다. 또한 지난달 대기자 명단에 등록한 Max 사용자에게 Claude for Chrome 확장을 제공하기 시작했습니다.

또한 개발자들이 Claude Code를 만들 때 저희가 사용한 빌딩 블록을 그대로 제공합니다. 이를 Claude Agent SDK라고 부릅니다. 저희 프런티어 제품을 구동하고 그 잠재력을 최대한 발휘하게 하는 인프라를 이제 여러분도 사용하여 구축할 수 있습니다.

이는 저희가 지금까지 공개한 모델 중 가장 정렬된 프런티어 모델로, 이전 Claude 모델에 비해 여러 정렬 지표에서 큰 개선을 보여줍니다.

Claude Sonnet 4.5는 오늘부터 모든 지역에서 사용 가능합니다. 개발자는 Claude API에서 claude-sonnet-4-5를 바로 사용하면 됩니다. 가격은 Claude Sonnet 4와 동일하게 백만 토큰당 $3/$15입니다.

Frontier intelligence

Claude Sonnet 4.5는 실제 소프트웨어 코딩 능력을 측정하는 SWE-bench Verified 평가에서 최첨단 성능을 보입니다. 실제로, 복잡한 다단계 작업에서 30시간 이상 집중력을 유지하는 것을 관찰했습니다.

이미지 1: SWE-bench Verified에서 Claude Sonnet 4.5가 선도하는 프런티어 모델 성능 비교 차트

Claude Sonnet 4.5는 컴퓨터 사용 능력에서 큰 도약을 이뤘습니다. 실제 컴퓨터 작업을 테스트하는 벤치마크인 OSWorld에서 Sonnet 4.5는 현재 61.4%로 선두를 차지합니다. 불과 4개월 전만 해도 Sonnet 4가 42.2%로 1위였습니다. 이 업그레이드된 역량은 Claude for Chrome 확장에서 바로 활용됩니다. 아래 데모에서는 Claude가 브라우저에서 직접 작동하며, 사이트를 탐색하고 스프레드시트를 채우며 작업을 완수하는 모습을 보여줍니다.

이 모델은 추론과 수학을 포함한 광범위한 평가 전반에서도 향상된 능력을 보입니다:

이미지 2: 대중적인 공개 평가에서 프런티어 모델 성능을 비교한 벤치마크 표

Claude Sonnet 4.5는 지금까지 저희가 개발한 모델 중 가장 강력합니다. 방법론은 각주를 참고하세요.

금융, 법률, 의학, STEM 분야의 전문가들은 Sonnet 4.5가 Opus 4.1을 포함한 이전 모델에 비해 분야별 지식과 추론에서 극적으로 향상되었다고 평가했습니다.

모델의 역량은 초기 고객 경험에서도 확인됩니다:

이미지 3: 로고

“

Claude Sonnet 4.5에서 최첨단 코딩 성능을 확인하고 있습니다. 특히 장기간 수평선(longer horizon) 작업에서 큰 개선이 있었습니다. 복잡한 문제를 해결할 때 많은 Cursor 사용자들이 왜 Claude를 선택하는지 다시 한번 확인해줍니다.

이미지 4: 로고

“

Claude Sonnet 4.5는 GitHub Copilot의 핵심 강점을 증폭합니다. 초기 평가는 다단계 추론과 코드 이해에서 상당한 개선을 보여주었으며, Copilot의 에이전틱 경험이 코드베이스 전반에 걸친 복잡한 작업을 더 잘 처리하도록 합니다.

이미지 5: 로고

“

Claude Sonnet 4.5는 소프트웨어 개발 작업에 매우 뛰어납니다. 우리 코드베이스 패턴을 학습해 정밀한 구현을 제공합니다. 디버깅부터 아키텍처까지 모든 것을 깊은 맥락 이해로 처리해, 개발 속도를 획기적으로 높였습니다.

이미지 6: 로고

“

Claude Sonnet 4.5는 우리 Hai 보안 에이전트의 평균 취약성 처리 시간을 44% 단축하고 정확도를 25% 향상시켜, 기업의 리스크를 자신 있게 줄일 수 있도록 도와줍니다.

이미지 7: 로고

“

Claude Sonnet 4.5는 가장 복잡한 소송 업무에서도 최첨단 성능을 보입니다. 예를 들어, 전체 브리핑 사이클을 분석하고 판사에게 훌륭한 초안을 제공하기 위해 연구를 수행하거나, 전체 소송 기록을 심층 검토해 상세한 약식판결 분석을 작성합니다.

이미지 8: 로고

“

Claude Sonnet 4.5의 편집 능력은 탁월합니다 — 내부 코드 편집 벤치마크에서 Sonnet 4의 9% 오류율이 0%로 감소했습니다. 더 낮은 비용으로 더 높은 도구 성공률을 달성한 것은 에이전틱 코딩에 큰 도약입니다. Claude Sonnet 4.5는 창의성과 통제를 완벽하게 균형 잡습니다.

이미지 9: 로고

“

Claude Sonnet 4.5는 가장 복잡하고 긴 컨텍스트 작업에서 인상적인 향상을 제공합니다 — 우리 코드베이스 엔지니어링부터 제품 기능, 리서치까지. 확연히 더 똑똑해졌고 큰 도약이며, 2억 4천만 명 이상의 사용자가 Canva로 무엇을 디자인할 수 있는지의 한계를 넓혀줍니다.

이미지 10: 로고

“

초기 테스트에서 Claude Sonnet 4.5는 Figma Make를 눈에 띄게 향상시켜, 프롬프트와 반복 작업이 더 쉬워졌습니다. 팀은 더 기능적인 프로토타입과 매끄러운 인터랙션으로 아이디어를 탐색하고 검증할 수 있으며, 여전히 Figma 특유의 디자인 품질을 보장합니다.

이미지 11: 로고

“

Sonnet 4.5는 코딩 모델의 새로운 세대를 대표합니다. 예를 들어, 여러 bash 명령을 동시에 실행하는 등 병렬 도구 실행을 통해 컨텍스트 창당 실행(action) 수를 놀라울 정도로 효율적으로 극대화합니다.

이미지 12: 로고

“

Devin의 경우, Claude Sonnet 4.5는 계획 성능을 18%, 엔드투엔드 평가 점수를 12% 향상시켰습니다 — Claude Sonnet 3.6 출시 이후 가장 큰 도약입니다. 스스로 코드를 테스트하는 데 뛰어나 Devin이 더 오래 실행되고 더 어려운 작업을 처리하며 프로덕션 준비가 된 코드를 제공할 수 있게 합니다.

이미지 13: 로고

“

Claude Sonnet 4.5는 레드팀 활동에서도 강력한 가능성을 보여줍니다. 창의적인 공격 시나리오를 생성해 공격자 전술 연구를 가속화합니다. 이러한 통찰은 엔드포인트, 아이덴티티, 클라우드, 데이터, SaaS, AI 워크로드 전반의 방어를 강화합니다.

이미지 14: 로고

“

Claude Sonnet 4.5는 우리의 기대치를 재설정합니다 — 30시간 이상의 자율 코딩을 처리하여, 엔지니어들이 방대한 코드베이스 간의 일관성을 유지하면서도 수개월에 걸친 복잡한 아키텍처 작업을 훨씬 짧은 시간에 처리할 수 있도록 합니다.

이미지 15: 로고

“

복잡한 재무 분석(리스크, 구조화 상품, 포트폴리오 스크리닝)에서, 사고(thinking)를 사용하는 Claude Sonnet 4.5는 인적 검토가 덜 필요한 투자 등급의 인사이트를 제공합니다. 속도보다 깊이가 중요한 경우, 기관 금융에 의미 있는 진전입니다.

우리의 가장 정렬된 모델

가장 능력이 뛰어난 모델일 뿐만 아니라, Claude Sonnet 4.5는 지금까지 저희가 선보인 프런티어 모델 중 정렬이 가장 잘 된 모델입니다. Claude의 향상된 능력과 광범위한 안전성 훈련을 통해, 아첨(sycophancy), 기만, 권력 추구, 망상적 사고를 부추기는 경향과 같은 우려스러운 행동을 줄이며 모델의 거동을 크게 개선했습니다. 모델의 에이전틱 및 컴퓨터 사용 능력과 관련해서도, 이러한 기능 사용자에게 가장 심각한 위험 중 하나인 프롬프트 인젝션 공격에 대한 방어를 크게 강화했습니다.

메카니즘 해석가능성 기법을 활용한 테스트를 처음으로 포함한 상세한 안전성과 정렬 평가 결과는 Claude Sonnet 4.5 시스템 카드에서 확인할 수 있습니다.

자동화된 행동 감시자의 전체 비정렬 행태 점수(낮을수록 좋음). 비정렬 행태에는 기만, 아첨, 권력 추구, 망상 조장, 유해한 시스템 프롬프트 준수 등이 포함되나 이에 국한되지는 않습니다. 자세한 내용은 Claude Sonnet 4.5 시스템 카드에서 확인할 수 있습니다.

Claude Sonnet 4.5는 모델 역량에 맞는 적절한 안전장치를 매칭하는 저희 프레임워크에 따라 AI Safety Level 3(ASL-3) 보호조치 하에 출시됩니다. 이러한 보호조치에는 잠재적으로 위험한 입력과 출력을 탐지하는 것을 목표로 하는 분류기(클래시파이어)가 포함되며, 특히 화학·생물·방사선·핵(CBRN) 무기 관련 내용을 중점적으로 다룹니다.

이 분류기는 때때로 정상적인 콘텐츠를 실수로 표시할 수 있습니다. 저희는 이러한 경우 사용자가 CBRN 위험이 더 낮은 모델인 Sonnet 4로 중단된 대화를 쉽게 이어갈 수 있도록 했습니다. 저희는 이미 오탐을 크게 줄이는 진전을 이뤄, 최초 공개 당시 대비 10배, 5월 Claude Opus 4 출시 이후 대비 2배 감소시켰습니다. 앞으로도 분류기를 더욱 판별력 있게 만드는 데 지속적으로 노력할 것입니다 1.

The Claude Agent SDK

저희는 6개월 이상 Claude Code에 지속적으로 업데이트를 제공해 왔으며, 이를 통해 AI 에이전트를 빌드하고 디자인하는 데 무엇이 필요한지 잘 알고 있습니다. 장기 작업에서 에이전트가 메모리를 어떻게 관리해야 하는지, 사용자 통제와 자율성의 균형을 맞추는 권한 시스템을 어떻게 처리해야 하는지, 공통 목표를 향해 협력하는 서브에이전트들을 어떻게 조정해야 하는지 등 어려운 문제를 해결했습니다.

이제 이 모든 것을 여러분에게 제공합니다. Claude Agent SDK는 Claude Code를 구동하는 것과 동일한 인프라이지만, 코딩에만 국한되지 않고 매우 다양한 작업에서 놀라운 이점을 보여줍니다. 오늘부터 여러분도 이를 사용해 자신의 에이전트를 만들 수 있습니다.

우리는 원하는 도구가 아직 존재하지 않았기 때문에 Claude Code를 만들었습니다. Agent SDK는 여러분이 해결하려는 문제에 대해 그에 못지않게 강력한 무언가를 만들 수 있는 같은 기반을 제공합니다.

보너스 연구 프리뷰

Claude Sonnet 4.5와 함께 임시 연구 프리뷰인 "Imagine with Claude"를 공개합니다.

이 실험에서 Claude는 실시간으로 소프트웨어를 생성합니다. 기능은 사전에 정해져 있지 않으며, 미리 작성된 코드도 없습니다. 여러분이 상호작용하는 동안 Claude가 실시간으로 만들고, 반응하고, 요청에 맞게 적응하는 모습을 보게 됩니다.

이는 Claude Sonnet 4.5가 무엇을 할 수 있는지를 보여주는 재미있는 데모로, 강력한 모델과 적절한 인프라를 결합했을 때 가능한 것을 확인하는 방법입니다.

"Imagine with Claude"는 향후 5일 동안 Max 구독자에게 제공됩니다. claude.ai/imagine에서 직접 사용해 보시길 권합니다.

추가 정보

모든 사용 사례에서 Claude Sonnet 4.5로 업그레이드할 것을 권장합니다. 앱, API, Claude Code 중 어떤 방식으로 Claude를 사용하든 Sonnet 4.5는 동일한 가격으로 성능을 크게 개선한 드롭인 대체물입니다. Claude Code 업데이트는 모든 사용자에게 제공됩니다. Claude Agent SDK를 포함한 Claude Developer Platform 업데이트는 모든 개발자에게 제공됩니다. 코드 실행과 파일 생성은 Claude 앱의 모든 유료 요금제에서 사용할 수 있습니다.

완전한 기술 세부 정보와 평가 결과는 시스템 카드, 모델 페이지, 문서를 참고하세요. 더 자세한 정보는 엔지니어링 게시물과 사이버보안 연구 게시물을 살펴보세요.

각주

1**:** 사이버보안 및 생물학 연구 산업의 고객은 그동안 계정 팀과 협력하여 허용 목록(allowlist)에 참여할 수 있습니다.

방법론

SWE-bench Verified: 모든 Claude 결과는 두 가지 도구—bash와 문자열 치환을 통한 파일 편집—만 사용하는 단순 스캐폴드로 보고했습니다. 전체 500문항의 SWE-bench Verified 데이터셋에서 10회 평균, 테스트 시점 추가 연산 없음, 사고(thinking) 예산 200K로 77.2%를 보고합니다.
- 보고된 점수에는 다음과 같은 소폭의 프롬프트 추가가 포함됩니다: "가능한 한 도구를 많이 사용하세요, 이상적으로는 100번 이상. 또한 문제에 도전하기 전에 먼저 직접 테스트를 구현하세요."
- 1M 컨텍스트 구성은 78.2%를 달성하지만, 최근의 추론 이슈와 연관된 1M 구성 대신 200K 결과를 주요 점수로 보고합니다.
- "고(高) 연산" 수치의 경우 다음과 같이 추가 복잡성과 병렬 테스트 시점 연산을 도입했습니다:
  - 여러 병렬 시도를 샘플링합니다.
  - Agentless (Xia et al., 2024)이 채택한 거부 샘플링 접근법과 유사하게, 저장소의 눈에 보이는 회귀 테스트를 깨뜨리는 패치는 폐기합니다. 숨겨진 테스트 정보는 사용하지 않습니다.
  - 그런 다음 내부 스코어링 모델을 사용해 남은 시도 중 최적의 후보를 선택합니다.
  - 그 결과 Sonnet 4.5의 점수는 82.0%가 됩니다.
Terminal-Bench: 모든 점수는 기본 에이전트 프레임워크(Terminus 2)와 XML 파서를 사용했으며, 추론 인프라에 따른 평가 민감도를 완화하기 위해 서로 다른 날짜에 여러 번 실행한 평균으로 산출했습니다.
τ2-bench: 점수는 도구 사용을 동반한 확장 사고와, 기본 프롬프트 사용 시 알려진 실패 모드를 더 잘 겨냥하도록 Claude에 지시하는 항공사 및 통신 에이전트 정책 프롬프트 부가문(addendum)을 활용해 달성했습니다. 사용자가 상호작용을 부적절하게 종료하는 데서 오는 실패 모드를 피하기 위해 통신 사용자 프롬프트에도 부가문을 추가했습니다.
AIME: Sonnet 4.5 점수는 온도 1.0에서 샘플링하여 보고했습니다. 파이썬 구성에서는 64K 추론 토큰을 사용했습니다.
OSWorld: 모든 점수는 최대 100스텝의 공식 OSWorld-Verified 프레임워크를 사용해 4회 실행 평균으로 산출했습니다.
MMMLU: 모든 점수는 14개 비영어 언어에서 확장 사고(최대 128K)로 5회 평균을 보고했습니다.
Finance Agent: 모든 점수는 Vals AI의 공개 리더보드에서 실행 및 공개되었습니다. 보고된 모든 Claude 모델 결과는 확장 사고(최대 64K)를 사용했으며, Sonnet 4.5는 interleaved thinking을 켠 상태로 보고했습니다.
모든 OpenAI 점수는 그들의 GPT-5 게시물, 개발자용 GPT-5 게시물, GPT-5 시스템 카드 (SWE-bench Verified는 n=500으로 보고), Terminal Bench 리더보드 (Terminus 2 사용), 그리고 공개 Vals AI 리더보드에서 인용했습니다. 모든 Gemini 점수는 그들의 모델 웹페이지, Terminal Bench 리더보드 (Terminus 1 사용), 그리고 공개 Vals AI 리더보드에서 인용했습니다.

이는 저희가 지금까지 공개한 모델 중 가장 정렬된 프런티어 모델로, 이전 Claude 모델에 비해 여러 정렬 지표에서 큰 개선을 보여줍니다.

Frontier intelligence

이미지 1: SWE-bench Verified에서 Claude Sonnet 4.5가 선도하는 프런티어 모델 성능 비교 차트

이 모델은 추론과 수학을 포함한 광범위한 평가 전반에서도 향상된 능력을 보입니다:

이미지 2: 대중적인 공개 평가에서 프런티어 모델 성능을 비교한 벤치마크 표

Claude Sonnet 4.5는 지금까지 저희가 개발한 모델 중 가장 강력합니다. 방법론은 각주를 참고하세요.

금융, 법률, 의학, STEM 분야의 전문가들은 Sonnet 4.5가 Opus 4.1을 포함한 이전 모델에 비해 분야별 지식과 추론에서 극적으로 향상되었다고 평가했습니다.

모델의 역량은 초기 고객 경험에서도 확인됩니다:

이미지 3: 로고

“

Claude Sonnet 4.5에서 최첨단 코딩 성능을 확인하고 있습니다. 특히 장기간 수평선(longer horizon) 작업에서 큰 개선이 있었습니다. 복잡한 문제를 해결할 때 많은 Cursor 사용자들이 왜 Claude를 선택하는지 다시 한번 확인해줍니다.

이미지 4: 로고

“

Claude Sonnet 4.5는 GitHub Copilot의 핵심 강점을 증폭합니다. 초기 평가는 다단계 추론과 코드 이해에서 상당한 개선을 보여주었으며, Copilot의 에이전틱 경험이 코드베이스 전반에 걸친 복잡한 작업을 더 잘 처리하도록 합니다.

이미지 5: 로고

“

Claude Sonnet 4.5는 소프트웨어 개발 작업에 매우 뛰어납니다. 우리 코드베이스 패턴을 학습해 정밀한 구현을 제공합니다. 디버깅부터 아키텍처까지 모든 것을 깊은 맥락 이해로 처리해, 개발 속도를 획기적으로 높였습니다.

이미지 6: 로고

“

Claude Sonnet 4.5는 우리 Hai 보안 에이전트의 평균 취약성 처리 시간을 44% 단축하고 정확도를 25% 향상시켜, 기업의 리스크를 자신 있게 줄일 수 있도록 도와줍니다.

이미지 7: 로고

“

Claude Sonnet 4.5는 가장 복잡한 소송 업무에서도 최첨단 성능을 보입니다. 예를 들어, 전체 브리핑 사이클을 분석하고 판사에게 훌륭한 초안을 제공하기 위해 연구를 수행하거나, 전체 소송 기록을 심층 검토해 상세한 약식판결 분석을 작성합니다.

이미지 8: 로고

“

Claude Sonnet 4.5의 편집 능력은 탁월합니다 — 내부 코드 편집 벤치마크에서 Sonnet 4의 9% 오류율이 0%로 감소했습니다. 더 낮은 비용으로 더 높은 도구 성공률을 달성한 것은 에이전틱 코딩에 큰 도약입니다. Claude Sonnet 4.5는 창의성과 통제를 완벽하게 균형 잡습니다.

이미지 9: 로고

“

Claude Sonnet 4.5는 가장 복잡하고 긴 컨텍스트 작업에서 인상적인 향상을 제공합니다 — 우리 코드베이스 엔지니어링부터 제품 기능, 리서치까지. 확연히 더 똑똑해졌고 큰 도약이며, 2억 4천만 명 이상의 사용자가 Canva로 무엇을 디자인할 수 있는지의 한계를 넓혀줍니다.

이미지 10: 로고

“

초기 테스트에서 Claude Sonnet 4.5는 Figma Make를 눈에 띄게 향상시켜, 프롬프트와 반복 작업이 더 쉬워졌습니다. 팀은 더 기능적인 프로토타입과 매끄러운 인터랙션으로 아이디어를 탐색하고 검증할 수 있으며, 여전히 Figma 특유의 디자인 품질을 보장합니다.

이미지 11: 로고

“

Sonnet 4.5는 코딩 모델의 새로운 세대를 대표합니다. 예를 들어, 여러 bash 명령을 동시에 실행하는 등 병렬 도구 실행을 통해 컨텍스트 창당 실행(action) 수를 놀라울 정도로 효율적으로 극대화합니다.

이미지 12: 로고

“

Devin의 경우, Claude Sonnet 4.5는 계획 성능을 18%, 엔드투엔드 평가 점수를 12% 향상시켰습니다 — Claude Sonnet 3.6 출시 이후 가장 큰 도약입니다. 스스로 코드를 테스트하는 데 뛰어나 Devin이 더 오래 실행되고 더 어려운 작업을 처리하며 프로덕션 준비가 된 코드를 제공할 수 있게 합니다.

이미지 13: 로고

“

Claude Sonnet 4.5는 레드팀 활동에서도 강력한 가능성을 보여줍니다. 창의적인 공격 시나리오를 생성해 공격자 전술 연구를 가속화합니다. 이러한 통찰은 엔드포인트, 아이덴티티, 클라우드, 데이터, SaaS, AI 워크로드 전반의 방어를 강화합니다.

이미지 14: 로고

“

Claude Sonnet 4.5는 우리의 기대치를 재설정합니다 — 30시간 이상의 자율 코딩을 처리하여, 엔지니어들이 방대한 코드베이스 간의 일관성을 유지하면서도 수개월에 걸친 복잡한 아키텍처 작업을 훨씬 짧은 시간에 처리할 수 있도록 합니다.

이미지 15: 로고

“

복잡한 재무 분석(리스크, 구조화 상품, 포트폴리오 스크리닝)에서, 사고(thinking)를 사용하는 Claude Sonnet 4.5는 인적 검토가 덜 필요한 투자 등급의 인사이트를 제공합니다. 속도보다 깊이가 중요한 경우, 기관 금융에 의미 있는 진전입니다.

우리의 가장 정렬된 모델

The Claude Agent SDK

보너스 연구 프리뷰

Claude Sonnet 4.5와 함께 임시 연구 프리뷰인 "Imagine with Claude"를 공개합니다.

"Imagine with Claude"는 향후 5일 동안 Max 구독자에게 제공됩니다. claude.ai/imagine에서 직접 사용해 보시길 권합니다.

추가 정보

각주

1**:** 사이버보안 및 생물학 연구 산업의 고객은 그동안 계정 팀과 협력하여 허용 목록(allowlist)에 참여할 수 있습니다.

방법론

SWE-bench Verified: 모든 Claude 결과는 두 가지 도구—bash와 문자열 치환을 통한 파일 편집—만 사용하는 단순 스캐폴드로 보고했습니다. 전체 500문항의 SWE-bench Verified 데이터셋에서 10회 평균, 테스트 시점 추가 연산 없음, 사고(thinking) 예산 200K로 77.2%를 보고합니다.
- 보고된 점수에는 다음과 같은 소폭의 프롬프트 추가가 포함됩니다: "가능한 한 도구를 많이 사용하세요, 이상적으로는 100번 이상. 또한 문제에 도전하기 전에 먼저 직접 테스트를 구현하세요."
- 1M 컨텍스트 구성은 78.2%를 달성하지만, 최근의 추론 이슈와 연관된 1M 구성 대신 200K 결과를 주요 점수로 보고합니다.
- "고(高) 연산" 수치의 경우 다음과 같이 추가 복잡성과 병렬 테스트 시점 연산을 도입했습니다:
  - 여러 병렬 시도를 샘플링합니다.
  - Agentless (Xia et al., 2024)이 채택한 거부 샘플링 접근법과 유사하게, 저장소의 눈에 보이는 회귀 테스트를 깨뜨리는 패치는 폐기합니다. 숨겨진 테스트 정보는 사용하지 않습니다.
  - 그런 다음 내부 스코어링 모델을 사용해 남은 시도 중 최적의 후보를 선택합니다.
  - 그 결과 Sonnet 4.5의 점수는 82.0%가 됩니다.
Terminal-Bench: 모든 점수는 기본 에이전트 프레임워크(Terminus 2)와 XML 파서를 사용했으며, 추론 인프라에 따른 평가 민감도를 완화하기 위해 서로 다른 날짜에 여러 번 실행한 평균으로 산출했습니다.
τ2-bench: 점수는 도구 사용을 동반한 확장 사고와, 기본 프롬프트 사용 시 알려진 실패 모드를 더 잘 겨냥하도록 Claude에 지시하는 항공사 및 통신 에이전트 정책 프롬프트 부가문(addendum)을 활용해 달성했습니다. 사용자가 상호작용을 부적절하게 종료하는 데서 오는 실패 모드를 피하기 위해 통신 사용자 프롬프트에도 부가문을 추가했습니다.
AIME: Sonnet 4.5 점수는 온도 1.0에서 샘플링하여 보고했습니다. 파이썬 구성에서는 64K 추론 토큰을 사용했습니다.
OSWorld: 모든 점수는 최대 100스텝의 공식 OSWorld-Verified 프레임워크를 사용해 4회 실행 평균으로 산출했습니다.
MMMLU: 모든 점수는 14개 비영어 언어에서 확장 사고(최대 128K)로 5회 평균을 보고했습니다.
Finance Agent: 모든 점수는 Vals AI의 공개 리더보드에서 실행 및 공개되었습니다. 보고된 모든 Claude 모델 결과는 확장 사고(최대 64K)를 사용했으며, Sonnet 4.5는 interleaved thinking을 켠 상태로 보고했습니다.
모든 OpenAI 점수는 그들의 GPT-5 게시물, 개발자용 GPT-5 게시물, GPT-5 시스템 카드 (SWE-bench Verified는 n=500으로 보고), Terminal Bench 리더보드 (Terminus 2 사용), 그리고 공개 Vals AI 리더보드에서 인용했습니다. 모든 Gemini 점수는 그들의 모델 웹페이지, Terminal Bench 리더보드 (Terminus 1 사용), 그리고 공개 Vals AI 리더보드에서 인용했습니다.

Frontier intelligence

우리의 가장 정렬된 모델

The Claude Agent SDK

보너스 연구 프리뷰

추가 정보

각주

관련 추천 글

앤트로픽의 새로운 AI, 코드로 질주: ‘세계 최고’ Claude Sonnet 4.5 데뷔

Claude SWE-Bench 성능

Claude Opus 4.8 소개

Claude Fable 5에 대한 첫인상

Frontier intelligence

우리의 가장 정렬된 모델

The Claude Agent SDK

보너스 연구 프리뷰

추가 정보

각주

관련 추천 글

앤트로픽의 새로운 AI, 코드로 질주: ‘세계 최고’ Claude Sonnet 4.5 데뷔

Claude SWE-Bench 성능

Claude Opus 4.8 소개

Claude Fable 5에 대한 첫인상