Claude Sonnet 5 공개

5 hours ago 2
  • Anthropic은 2026년 6월 30일 Claude Sonnet 5를 출시하며, 더 비싼 Opus급 모델에 가까운 에이전트 실행 능력을 Sonnet급 비용대로 제공하려 함
  • Sonnet 4.6보다 추론, 도구 사용, 코딩, 지식 작업이 개선됐고, effort 조절로 작업별 비용과 성능의 균형을 더 세밀하게 선택할 수 있음
  • 안전성 평가에서는 원치 않는 행동, 환각, 아첨, 악성 요청 수락, 프롬프트 인젝션 하이재킹 취약성이 Sonnet 4.6보다 낮았지만, 일부 부정렬 행동은 Opus 4.8과 Claude Mythos Preview보다 높았음
  • Free와 Pro에서는 기본 모델로 제공되며 Max, Team, Enterprise, Claude Code, Claude Platform에서도 사용할 수 있고 API 모델명은 claude-sonnet-5임
  • Claude Platform 가격은 2026년 8월 31일까지 입력 100만 토큰당 $2, 출력 100만 토큰당 $10이고 이후 입력 $3, 출력 $15로 바뀌며, 새 토크나이저로 같은 입력의 토큰 수가 콘텐츠 유형에 따라 약 1.0–1.35배가 될 수 있음

Sonnet급에서 넓어진 에이전트 실행 범위

  • Claude Sonnet 5는 지금까지의 Sonnet 모델 중 가장 에이전트형으로 설계됐으며, 몇 달 전에는 더 크고 비싼 모델이 필요했던 수준의 자율 실행을 목표로 함
  • 계획 수립, 브라우저와 터미널 같은 도구 사용, 자율 실행을 Sonnet급 모델에서 처리할 수 있도록 개선됨
  • Sonnet 3.5, 3.6, 3.7은 개발자들에게 코딩과 도구 사용 능력을 보여준 초기 Sonnet급 모델로 자리 잡았고, 이후 가장 뚜렷한 에이전트 능력 개선은 Opus급 모델에서 나타났음
  • Sonnet 5는 Opus 4.8과의 격차를 좁히며, 더 낮은 가격대에서 Opus 4.8에 가까운 성능을 제공함

성능 평가와 effort 조절

  • Sonnet 5는 Sonnet 4.6 대비 추론, 도구 사용, 코딩, 지식 작업 등 에이전트 성능 항목에서 크게 개선됨
  • BrowseComp 에이전트 검색 평가와 OSWorld-Verified 컴퓨터 사용 평가에서 Sonnet 4.6보다 일관되게 나은 결과를 보임
  • effort 수준별 비교에서 Sonnet 5는 Opus 4.8보다 더 넓은 비용-성능 선택지를 제공함
    • 중간 effort에서는 비용 효율이 크게 향상됨
    • 높은 effort에서는 일부 작업에서 Opus 4.8과 성능이 맞먹을 수 있음
  • 사용자는 Sonnet 5와 Opus 4.8 사이에서 effort 수준을 조정해 프로젝트에 맞는 비용과 성능 균형을 선택할 수 있음

초기 사용 사례에서 보인 작업 방식

  • 초기 접근 파트너들은 Sonnet 5가 이전 Sonnet 모델보다 훨씬 더 에이전트형이라고 평가함
  • 이전 Sonnet 모델이 중간에 멈추던 복잡한 작업을 끝까지 수행하고, 명시적으로 요청하지 않아도 자체 결과를 확인하는 사례가 있었음
  • 확인된 업무 흐름은 코딩과 비코딩 작업을 모두 포함함
    • 다단계 소프트웨어 엔지니어링 작업에서 지속적인 코딩, 도구 사용, 디버깅을 처리함
    • Salesforce 계정 등급 업데이트와 엔터프라이즈 연락처 대상 출시 공지 발송으로 구성된 2단계 작업을 끝까지 완료함
    • 실제 pull request 수십 개를 테스트·검증된 결과까지 자체적으로 수행함
    • 버그 조사에서 재현 테스트 작성, 수정 구현, 변경분 stash, 버그 재발 확인까지 한 번에 진행함
    • brownfield 코드에서 race condition, hidden test, 실패의 실제 근본 원인 추적에 강점을 보임
  • 법률 리서치와 분석, ClickHouse의 라이브 데이터 탐색, Pace의 보험 워크플로우 같은 비코딩 업무에서도 성능과 속도 개선 사례가 나옴

안전성 평가와 사이버 보안 제약

  • 배포 전 안전성 평가에서 Sonnet 5는 Sonnet 4.6보다 전반적인 안전성이 개선됨
  • 에이전트 안전성 측면에서는 악성 요청 거부와 프롬프트 인젝션 공격의 하이재킹 시도 저항이 좋아짐
  • Sonnet 4.6보다 환각과 아첨 비율이 낮았고, 오용 협력과 기만 같은 부정렬 행동을 검사하는 자동 행동 감사에서도 더 낮은 점수, 즉 더 안전한 결과를 보임
  • 다만 더 높은 능력을 가진 Opus 4.8과 Claude Mythos Preview와 비교하면 이 평가에서 일부 부정렬 행동 비율이 다소 높았음
  • Sonnet 5는 사이버 보안 작업에 의도적으로 학습되지 않았음
    • 일상적이고 해롭지 않은 일부 사이버 작업은 수행할 수 있음
    • 소프트웨어 익스플로잇 개발 같은 잠재적으로 위험한 사이버 기술 평가에서는 Opus 4.8과 Mythos 5보다 성능이 크게 낮음
    • Firefox 브라우저 취약점 익스플로잇 개발 평가에서 완전하게 작동하는 익스플로잇은 만들지 못했지만, Sonnet 4.6보다 부분 성공률은 약간 높았음
  • 이전 모델보다 해당 작업에서 약간 강해졌기 때문에 사이버 보호 장치가 기본 활성화된 상태로 출시됨
    • 위험한 사이버 사용을 실시간으로 감지하고 차단함
    • Claude Opus 4.7·4.8에 적용된 것과 같은 보호 장치임
    • Sonnet 5의 전체 사이버 보안 위험 수준은 낮다고 판단되어, 더 넓은 범위의 사이버 보안 작업을 차단하는 Fable 5 보호 장치보다는 덜 엄격함
  • 전체 평가 내용은 Claude Sonnet 5 System Card에서 확인할 수 있음

제공 범위, 가격, API

  • Claude Sonnet 5는 모든 플랜에서 제공됨
    • Free와 Pro 플랜의 기본 모델
    • Max, Team, Enterprise 사용자가 이용 가능함
    • Claude Code와 Claude Platform에서도 제공됨
  • 개발자는 Claude API에서 claude-sonnet-5를 사용할 수 있음
  • Claude Platform 출시 가격은 2026년 8월 31일까지 입력 100만 토큰당 $2, 출력 100만 토큰당 $10임
  • 이후 표준 가격은 입력 100만 토큰당 $3, 출력 100만 토큰당 $15로 바뀜
  • 높은 effort 수준에서 토큰 사용량이 늘어나는 점을 수용하기 위해 Chat, Cowork, Claude Code, Claude Platform 전반의 요청 한도가 증가함
  • Sonnet 5는 Sonnet 4.6의 업그레이드이지만 업데이트된 토크나이저를 사용함
    • 성능 개선을 위해 텍스트 처리 방식이 바뀜
    • 동일한 입력이 콘텐츠 유형에 따라 약 1.0–1.35배의 토큰으로 매핑될 수 있음
    • 도입 가격은 Sonnet 5 전환이 대체로 비용 중립적이도록 설정됨

BrowseComp 차트 업데이트

  • 2026년 6월 30일 편집에서 BrowseComp 평가의 비용-성능 차트가 업데이트됨
  • 원래 차트는 Anthropic이 에이전트 검색 평가에 사용하는 표준 방법론을 반영하지 않는 더 단순한 방법론의 데이터를 기반으로 했고, 그 결과 Sonnet 5 성능이 과소평가됨
  • 업데이트된 차트는 표준 방법론 및 Sonnet 5 system card에서 사용·논의한 방식과 맞춰짐
    • 해당 방식은 10M 토큰 예산, 압축, 프로그래밍 방식의 도구 호출을 사용함
  • 주변 설명 문구도 함께 업데이트됨
Read Entire Article