Claude Sonnet 5 공개

3 weeks ago 27

Anthropic은 2026년 6월 30일 Claude Sonnet 5를 출시하며, 더 비싼 Opus급 모델에 가까운 에이전트 실행 능력을 Sonnet급 비용대로 제공하려 함
Sonnet 4.6보다 추론, 도구 사용, 코딩, 지식 작업이 개선됐고, effort 조절로 작업별 비용과 성능의 균형을 더 세밀하게 선택할 수 있음
안전성 평가에서는 원치 않는 행동, 환각, 아첨, 악성 요청 수락, 프롬프트 인젝션 하이재킹 취약성이 Sonnet 4.6보다 낮았지만, 일부 부정렬 행동은 Opus 4.8과 Claude Mythos Preview보다 높았음
Free와 Pro에서는 기본 모델로 제공되며 Max, Team, Enterprise, Claude Code, Claude Platform에서도 사용할 수 있고 API 모델명은 claude-sonnet-5임
Claude Platform 가격은 2026년 8월 31일까지 입력 100만 토큰당 $2, 출력 100만 토큰당 $10이고 이후 입력 $3, 출력 $15로 바뀌며, 새 토크나이저로 같은 입력의 토큰 수가 콘텐츠 유형에 따라 약 1.0–1.35배가 될 수 있음

Sonnet급에서 넓어진 에이전트 실행 범위

Claude Sonnet 5는 지금까지의 Sonnet 모델 중 가장 에이전트형으로 설계됐으며, 몇 달 전에는 더 크고 비싼 모델이 필요했던 수준의 자율 실행을 목표로 함
계획 수립, 브라우저와 터미널 같은 도구 사용, 자율 실행을 Sonnet급 모델에서 처리할 수 있도록 개선됨
Sonnet 3.5, 3.6, 3.7은 개발자들에게 코딩과 도구 사용 능력을 보여준 초기 Sonnet급 모델로 자리 잡았고, 이후 가장 뚜렷한 에이전트 능력 개선은 Opus급 모델에서 나타났음
Sonnet 5는 Opus 4.8과의 격차를 좁히며, 더 낮은 가격대에서 Opus 4.8에 가까운 성능을 제공함

성능 평가와 effort 조절

Sonnet 5는 Sonnet 4.6 대비 추론, 도구 사용, 코딩, 지식 작업 등 에이전트 성능 항목에서 크게 개선됨
BrowseComp 에이전트 검색 평가와 OSWorld-Verified 컴퓨터 사용 평가에서 Sonnet 4.6보다 일관되게 나은 결과를 보임
effort 수준별 비교에서 Sonnet 5는 Opus 4.8보다 더 넓은 비용-성능 선택지를 제공함
- 중간 effort에서는 비용 효율이 크게 향상됨
- 높은 effort에서는 일부 작업에서 Opus 4.8과 성능이 맞먹을 수 있음
사용자는 Sonnet 5와 Opus 4.8 사이에서 effort 수준을 조정해 프로젝트에 맞는 비용과 성능 균형을 선택할 수 있음

초기 사용 사례에서 보인 작업 방식

초기 접근 파트너들은 Sonnet 5가 이전 Sonnet 모델보다 훨씬 더 에이전트형이라고 평가함
이전 Sonnet 모델이 중간에 멈추던 복잡한 작업을 끝까지 수행하고, 명시적으로 요청하지 않아도 자체 결과를 확인하는 사례가 있었음
확인된 업무 흐름은 코딩과 비코딩 작업을 모두 포함함
- 다단계 소프트웨어 엔지니어링 작업에서 지속적인 코딩, 도구 사용, 디버깅을 처리함
- Salesforce 계정 등급 업데이트와 엔터프라이즈 연락처 대상 출시 공지 발송으로 구성된 2단계 작업을 끝까지 완료함
- 실제 pull request 수십 개를 테스트·검증된 결과까지 자체적으로 수행함
- 버그 조사에서 재현 테스트 작성, 수정 구현, 변경분 stash, 버그 재발 확인까지 한 번에 진행함
- brownfield 코드에서 race condition, hidden test, 실패의 실제 근본 원인 추적에 강점을 보임
법률 리서치와 분석, ClickHouse의 라이브 데이터 탐색, Pace의 보험 워크플로우 같은 비코딩 업무에서도 성능과 속도 개선 사례가 나옴

안전성 평가와 사이버 보안 제약

배포 전 안전성 평가에서 Sonnet 5는 Sonnet 4.6보다 전반적인 안전성이 개선됨
에이전트 안전성 측면에서는 악성 요청 거부와 프롬프트 인젝션 공격의 하이재킹 시도 저항이 좋아짐
Sonnet 4.6보다 환각과 아첨 비율이 낮았고, 오용 협력과 기만 같은 부정렬 행동을 검사하는 자동 행동 감사에서도 더 낮은 점수, 즉 더 안전한 결과를 보임
다만 더 높은 능력을 가진 Opus 4.8과 Claude Mythos Preview와 비교하면 이 평가에서 일부 부정렬 행동 비율이 다소 높았음
Sonnet 5는 사이버 보안 작업에 의도적으로 학습되지 않았음
- 일상적이고 해롭지 않은 일부 사이버 작업은 수행할 수 있음
- 소프트웨어 익스플로잇 개발 같은 잠재적으로 위험한 사이버 기술 평가에서는 Opus 4.8과 Mythos 5보다 성능이 크게 낮음
- Firefox 브라우저 취약점 익스플로잇 개발 평가에서 완전하게 작동하는 익스플로잇은 만들지 못했지만, Sonnet 4.6보다 부분 성공률은 약간 높았음
이전 모델보다 해당 작업에서 약간 강해졌기 때문에 사이버 보호 장치가 기본 활성화된 상태로 출시됨
- 위험한 사이버 사용을 실시간으로 감지하고 차단함
- Claude Opus 4.7·4.8에 적용된 것과 같은 보호 장치임
- Sonnet 5의 전체 사이버 보안 위험 수준은 낮다고 판단되어, 더 넓은 범위의 사이버 보안 작업을 차단하는 Fable 5 보호 장치보다는 덜 엄격함
전체 평가 내용은 Claude Sonnet 5 System Card에서 확인할 수 있음

제공 범위, 가격, API

Claude Sonnet 5는 모든 플랜에서 제공됨
- Free와 Pro 플랜의 기본 모델임
- Max, Team, Enterprise 사용자가 이용 가능함
- Claude Code와 Claude Platform에서도 제공됨
개발자는 Claude API에서 claude-sonnet-5를 사용할 수 있음
Claude Platform 출시 가격은 2026년 8월 31일까지 입력 100만 토큰당 $2, 출력 100만 토큰당 $10임
이후 표준 가격은 입력 100만 토큰당 $3, 출력 100만 토큰당 $15로 바뀜
높은 effort 수준에서 토큰 사용량이 늘어나는 점을 수용하기 위해 Chat, Cowork, Claude Code, Claude Platform 전반의 요청 한도가 증가함
Sonnet 5는 Sonnet 4.6의 업그레이드이지만 업데이트된 토크나이저를 사용함
- 성능 개선을 위해 텍스트 처리 방식이 바뀜
- 동일한 입력이 콘텐츠 유형에 따라 약 1.0–1.35배의 토큰으로 매핑될 수 있음
- 도입 가격은 Sonnet 5 전환이 대체로 비용 중립적이도록 설정됨

BrowseComp 차트 업데이트

2026년 6월 30일 편집에서 BrowseComp 평가의 비용-성능 차트가 업데이트됨
원래 차트는 Anthropic이 에이전트 검색 평가에 사용하는 표준 방법론을 반영하지 않는 더 단순한 방법론의 데이터를 기반으로 했고, 그 결과 Sonnet 5 성능이 과소평가됨
업데이트된 차트는 표준 방법론 및 Sonnet 5 system card에서 사용·논의한 방식과 맞춰짐
- 해당 방식은 10M 토큰 예산, 압축, 프로그래밍 방식의 도구 호출을 사용함
주변 설명 문구도 함께 업데이트됨

Read Entire Article