앤트로픽이 코딩과 에이전트 작업에 최적화된 Claude Sonnet 4.5를 공개했다. 더 긴 작업 지속성, 최고 수준의 벤치마크 성능, GitHub/Microsoft 통합, 개발자 도구와 가격, 정렬·안전성 강화, 경쟁 모델과의 비교 및 업계 반응을 정리한다.
앤트로픽의 새로운 AI, 코드로 질주: “세계 최고” Claude Sonnet 4.5 데뷔
Claude는 앤트로픽의 AI 어시스턴트 제품군(클로드 섀넌에서 이름을 따옴)이다. Sonnet 4.5는 코딩과 장기 지평 작업에 최적화된 최신 _“프런티어 모델”_이다. 앤트로픽은 이를 **“코딩 모델의 새로운 세대”**라고 부른다 [21]. 짧은 답변의 챗봇과 달리, Sonnet 4.5는 도구와 소프트웨어 환경을 자율적으로 사용하도록 설계됐다. 창을 열고, 코드를 편집하고, 프로그램을 실행하며, 수 시간에 걸쳐 반복한다. 앤트로픽 엔지니어들에 따르면 “복잡하고 다단계인 작업에서 30시간 이상 집중을 유지”하는 모습을 관찰했다 [22]. 실질적으로 Claude Sonnet 4.5는 순간적 조수라기보다 지속적인 공동 프로그래머에 가깝다. 한 앤트로픽 제품 리드는 “어시스턴트에서 협력자를 거쳐 완전한 자율 에이전트로 진화하고 있다… 장시간 동안 일할 수 있다”고 표현했다 [23].
Sonnet 4.5는 Claude Sonnet 4와 Opus 4.1의 후속작이지만, 모두 앤트로픽의 Claude-4 라인에 속한다. 최신 아키텍처·학습 개선(다중 Chain-of-Thought 프롬프팅, 고도화된 RLHF, 도구 사용)을 반영해 코드에 특화됐다. 출시에 맞춰 앱 제품군도 새로워졌다. 코딩 CLI인 Claude Code는 VS Code 네이티브 지원과 향상된 터미널 워크플로를 제공하고, 챗봇 앱에는 코드 실행, 파일 생성, 새로운 메모리/컨텍스트 편집 도구가 추가됐다 [24][25]. 이 업그레이드로 개발자는 Claude와 함께 대규모 코드베이스를 더 효과적으로 작성·테스트·관리할 수 있다.
초기 테스트 결과, Claude Sonnet 4.5는 소프트웨어 작업에서 선두를 달리는 것으로 보인다. 앤트로픽은 SWE-Bench Verified 코딩 벤치마크에서 최첨단 점수를 기록했다고 밝혔다 [26][27]. 사용자 시뮬레이션에서 Sonnet 4.5는 정답 코드를 작성할 뿐 아니라, 배포를 위한 프로젝트 튜닝까지 수행한다. 버그 자동 수정, 복잡 로직 리팩터링, 보안 점검 등을 처리한다. 한 관계자는 프로토타입이 아니라 스스로 “프로덕션 준비” 애플리케이션을 구축할 수 있다고 말했다 [28].
실무적으로도 이득이 크다는 보고가 이어진다. 예컨대 AI 개발 플랫폼 코셋(Cosette)은 Sonnet 4.5가 이전 Claude Sonnet 3.6 대비 코드 기획을 약 18%, 엔드투엔드 코딩 점수를 12% 높였다고 밝혔다. 소프트웨어 팀들은 맥락 이해가 훨씬 깊어졌다고 말한다. 금융 분야 연구자들은 복잡한 스크리닝 작업에서 Sonnet 4.5가 “투자 등급의 인사이트”를 제공해 이전 Opus 4.1을 능가했다고 전한다. 보안 분야에서는 한 CPO가 평균 취약점 트리아지 시간을 약 44% 줄이면서 정확도는 높였다고 언급했다 [29].
AI 벤치마크에서도 Sonnet 4.5는 수시간에 걸친 과제에서 동급 대비 우위다. 회사 측 측정으로 OS-World(컴퓨터 GUI와 OS 사용 난도 테스트)에서 **61.4%**를 기록했으며, Sonnet 4는 약 42%였다 [30]. 로이터 보도에 따르면 이 수치(약 60%)는 체감적으로 “훨씬 생생”하다. Claude가 사실상 웹을 탐색하고, 스프레드시트를 채우고, IDE를 사람 개발자처럼 내비게이션할 수 있다는 의미다 [31].
업계 관측통들도 도약에 동의한다. Cursor.ai의 마이클 트루엘 CEO는 Sonnet 4.5가 _“특히 더 긴 지평 과제에서 최첨단 코딩 성능”_을 보인다고 했고 [32], Windsurf의 제프 왕 CEO는 이를 “코딩 모델의 새로운 세대”라고 평가했다 [33]. 앤트로픽의 최고과학책임자(CSO) 재러드 카플란은 Claude가 “사람처럼 컴퓨터를 사용하는” 모습을 보게 되는 점을 특히 비개발자들이 강하게 체감한다고 말했다 [34].
Sonnet 4.5는 실제 도구들에 임베드되고 있다. 가장 두드러지게, GitHub는 이 모델이 이제 Copilot에서 사용 가능하다고 발표했다(Pro, Enterprise, Business 사용자 대상) [35]. 개발자는 VS Code, GitHub.com, GitHub CLI에서 Copilot 어시스턴트를 Claude Sonnet 4.5로 전환할 수 있으며, 마이크로소프트는 이를 기반으로 한 Copilot의 새로운 “코딩 에이전트” 기능을 예고했다. (당연히, OpenAI의 구형 GitHub Codex 기반 Copilot 모델은 더 저렴한 요금제에서 계속 제공된다.)
한편 앤트로픽은 누구나 맞춤형 AI 에이전트를 구축할 수 있게 Claude Agent SDK를 출시했다. 이 SDK는 Claude Code를 구동하는 인프라를 그대로 노출한다. 관리형 VM, 메모리 모듈, 고급 컨텍스트/편집 API를 제공한다. 실무적으로 개발자는 이제 스크립트를 자동 실행하고, 대화 이력을 기억하며, 외부 시스템을 툴링으로 연결하는 Claude 에이전트를 손쉽게 띄울 수 있다. Business Insider는 Sonnet 4.5가 구글 Gemini, OpenAI GPT-5, xAI Grok 4 같은 경쟁작과 겨루는 것일 뿐 아니라, 이러한 에이전트들을 빌드하기 위한 더 풍부한 툴킷을 제공한다고 지적한다 [36][37].
그 밖의 업데이트로, 모든 유료 Claude 앱은 이제 파일 생성을 지원해(문서/스프레드시트 생성) Claude가 결과물을 만들어낼 수 있다. Claude의 Chrome 확장 프로그램은 Sonnet이 브라우징 작업을 자동화하도록 돕는다. 앤트로픽은 마이크로소프트 채널과의 통합도 재개했다. 이번 출시와 함께 마이크로소프트는 Excel과 Word에 앤트로픽 모델로 구동되는 **“에이전트 모드”**를 도입하고, Copilot 채팅에 “Office Agent”를 추가할 예정이라고 밝혔다 [38]. 요컨대 Sonnet 4.5는 단지 후면의 모델이 아니라, 개발자가 이미 일하는 모든 곳으로 배포되고 있다.
순수 성능을 넘어, 앤트로픽은 Sonnet 4.5가 이전 어떤 모델보다 더 안전하고 더 잘 정렬되어 있다고 강조한다. 회사는 새로운 내부 감사를 통해 유해 행동이 크게 줄었음을 확인했다. 보도 자료에서는 “권력 추구, 아첨 성향, 망상적 사고를 부추기는 경향”의 감소를 특히 강조한다 [39]. 또한 Anthropic의 레벨 3급 가드레일을 갖췄는데, 엄격한 CBRN 콘텐츠 필터와 “프롬프트 인젝션”(도구 하이재킹 시도)에 대한 방어를 포함한다 [40][41].
이러한 강력한 가드레일 중심 접근은 앤트로픽의 타겟 시장(엔터프라이즈 및 규제 산업)을 겨냥한 것이다. 로이터 보도에 따르면 Claude는 신뢰할 수 있는 AI 코딩 어시스턴트를 필요로 하는 기업(“사이버보안, 금융 등”)에 제안되고 있다. 앤트로픽은 화려한 데모보다 _장기적이고 안정적인 운영_을 강조한다. 한 임원은 “짧은 데모보다 긴 작업에서의 지속적이고 신뢰할 수 있는 성능”을 추구한다고 말했다 [42]. 예컨대 금융에서는 모델링과 예측 과제에서 자사 Opus 4.1을 상회했고, 법률에서는 전체 사건 기록을 바탕으로 변론서 초안까지 작성한다(기존 봇이 어려워했던 영역).
요컨대 앤트로픽은 Sonnet 4.5를 중량급 업무를 위한 “동료”로 본다. CNBC의 출시 보도는 이 제품을 회사가 “가젯”이 아닌 “동료”에 가깝다고 마케팅한다고 전하며, 이 AI가 빠른 질의응답을 넘어 팀을 보강하도록 설계됐음을 반영한다.
Sonnet 4.5는 AI 코딩 경쟁의 최신 라운드다. OpenAI 역시 유사한 주장을 내놨다. 소문 속 GPT-5(2025년 말 출시)는 코딩과 에이전트 과제에 초점을 맞췄으며, 일부 테스트에서는 표준 벤치마크에서 이전 Claude 버전을 앞선다는 결과도 있다 [43]. 구글의 Gemini Ultra 모델군도 개발자를 위한 추론 및 다단계 문제 해결을 강조한다. 일론 머스크의 xAI도 기술 과제를 겨냥한 Grok 4를 공개했다. Business Insider는 Sonnet 4.5가 _“구글 Gemini, OpenAI GPT-5, xAI Grok 4와 경쟁”_한다고 못박는다 [44].
현재까지 독립 비교는 드물다. 커뮤니티 보고(및 앤트로픽 주장)에 따르면 Sonnet 4.5가 코딩 특화 지표에서 앞선다는 관측이 있다. 반면 OpenAI는 자사 시스템이 GitHub Copilot과 ChatGPT의 고급 코드 인터프리터를 구동한다고 강조한다. 예를 들어 OpenAI는 내부 자료에서 GPT-5 기반 도구가 한 개발자 시험에서 77.2%를 해결했다고 밝힌 바 있으며, 이는 Sonnet과 비슷한 범위다. 구글도 수학과 논리 테스트에서 Gemini의 성과를 보여줬다. 실전에서는 공개 벤치마크에서 엇비슷하거나 서로 다른 분야에서 승부가 갈리는 경우가 잦다. 다만 Sonnet의 강점은 실행력이다. 즉, 코드를 _수 시간 자율적으로 실행_할 수 있다는 점이다. 앤트로픽이 시연한 30시간 연속 코딩 실행 [45][46]은 아직 OpenAI나 구글이 공개적으로 확인한 어느 사례와도 견줄 만한 것이 없다.
또한 앤트로픽은 _완전한 에이전트 구축용 SDK와 메모리 도구_를 개방적으로 제공한다는 점이 돋보인다. 예컨대 마이크로소프트는 이제야 자사 Office에 앤트로픽 모델을 추가하고 있으며, 구글의 Bard/Gemini는 플러그인 시스템이 더 제한적이다. ChatGPT에는 Code Interpreter가 있지만 VS Code에 네이티브로 상주하진 않는다. 그런 의미에서 Claude Sonnet 4.5와 그 Agent SDK는 “플랫폼으로서의 AI”를 향한 공세적 행보다.
전문가와 사용자들은 대체로 고무돼 있다. Cursor.ai CEO는 Claude 4.5가 개발자가 “가장 복잡한 문제를” 더 신뢰성 있게 해결하도록 돕는다고 말했고 [47], GitHub Copilot 팀은 다단계 코드 추론에서 Copilot의 핵심 강점을 _“증폭한다”_고 평가했다 [48]. VentureBeat와 ZDNet은 Sonnet 4.5를 서둘러 “AI 코딩의 새 왕관”으로 불렀다(분석 기사 인용). 한편 앤트로픽의 매출은 급성장 중이다. 코딩 수요에 힘입어 Claude Code의 연간 반복 매출(ARR) 런레이트가 5억 달러를 넘어섰다고 보고했다 [49]. 이런 흐름은 Sonnet 4.5가 엔터프라이즈 AI에서 Claude의 위상을 더욱 공고히 할 가능성을 시사한다.
물론 회의론도 존재한다. AI를 30시간 가동하면 비용과 신뢰성 리스크가 따른다. AI 생성 코드의 버그는 교묘할 수 있다. 앤트로픽은 또한 대규모 배치 환경에서 안전성 주장을 증명해야 한다. 경쟁사들도 가만히 있지 않을 것이다. OpenAI, 구글 등은 멀티태스크 에이전트형 AI를 향해 속도를 내고 있다. 그럼에도 현재 Sonnet 4.5는 중요한 이정표로 보인다. AI 에이전트가 며칠에 걸쳐 소프트웨어를 작성할 뿐 아니라, 디버그하고, 테스트하고, 스스로 반복 개선하는 미래를 예고한다. 한 앤트로픽 엔지니어의 농담처럼, 지칠 줄 모르고 “미친 듯이 코딩해줄” AI 동료가 생긴 셈이다.
출처: 업계 뉴스와 공식 발표 [50][51][52][53][54][55]; 앤트로픽 및 파트너의 전문가 코멘터리 [56][57][58]. (모든 데이터는 2025년 9월 보도 기준.)
Claude Code 소개