Claude Opus 4.7

1 week ago 7
  • 고급 소프트웨어 엔지니어링 성능이 강화되어 복잡하고 장시간 실행되는 작업을 높은 일관성과 정확도로 처리함
  • 시각 인식과 멀티모달 이해력이 향상되어 고해상도 이미지, 기술 다이어그램, 화학 구조 등 복잡한 시각 정보를 분석 가능함
  • 사이버 보안 보호장치를 내장해 고위험 요청을 자동 탐지·차단하며, 합법적 보안 연구자는 Cyber Verification Program에 참여 가능함
  • Effort 제어, Task Budget, ultrareview 명령어 등 새로운 기능으로 장기 작업 효율과 코드 품질 검증 능력을 개선함
  • Opus 4.6 대비 13% 성능 향상과 높은 신뢰성을 달성하며, Anthropic은 이를 기반으로 Mythos급 모델의 안전한 공개를 준비 중임

Claude Opus 4.7 개요

  • Claude Opus 4.7은 Opus 4.6 대비 고급 소프트웨어 엔지니어링 성능이 크게 향상된 모델로, 복잡하고 장시간 실행되는 작업을 높은 일관성과 정확도로 처리함
  • 사용자는 이전보다 난이도 높은 코딩 작업을 신뢰하고 위임할 수 있으며, 모델은 자체 검증 후 결과를 보고함
  • 시각 인식 능력이 강화되어 고해상도 이미지, 인터페이스, 슬라이드, 문서 등에서 높은 품질과 창의성을 발휘함
  • Anthropic의 Claude Mythos Preview보다는 범용 능력이 낮지만, 다양한 벤치마크에서 Opus 4.6보다 우수한 결과를 기록함
  • 모든 Claude 제품군과 API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 사용 가능하며, 가격은 Opus 4.6과 동일함

사이버 보안 관련 조치

  • Anthropic은 Project Glasswing을 통해 AI의 사이버 보안 위험과 이점을 공개하고, Mythos Preview의 공개를 제한하며 보안 실험을 덜 강력한 모델에서 우선 수행하기로 함
  • Opus 4.7은 이러한 첫 번째 모델로, 자동으로 금지되거나 고위험 사이버 보안 요청을 탐지 및 차단하는 보호장치를 포함함
  • 실제 배포 데이터를 기반으로 향후 Mythos급 모델의 광범위한 공개를 준비 중임
  • 합법적 보안 연구자(취약점 분석, 침투 테스트, 레드팀 등)는 Cyber Verification Program에 참여 가능함

주요 성능 및 사용자 피드백

  • 초기 테스트에서 논리 오류를 스스로 감지하고 실행 속도를 높이는 능력이 확인됨
  • 비동기 워크플로우, CI/CD, 장시간 자동화 작업에서 탁월한 성능을 보이며, 단순한 동의가 아닌 깊이 있는 문제 접근과 의견 제시를 수행함
  • 데이터 결손 시 잘못된 추론을 피하고, 불일치 데이터 함정에 빠지지 않음
  • 93개 코딩 벤치마크에서 Opus 4.6 대비 13% 향상, 해결 불가능했던 4개 과제 추가 해결
  • 멀티스텝 작업 효율성에서 최고 수준의 일관성을 보이며, 금융 모듈에서는 0.813점으로 Opus 4.6(0.767)을 상회함
  • 멀티모달 이해력이 향상되어 화학 구조나 복잡한 기술 다이어그램 해석 능력이 개선됨
  • 자율적 장기 작업 수행 능력이 강화되어 수 시간 동안 일관된 문제 해결 가능
  • Replit, Harvey, Hex, Notion, Databricks, Vercel 등 여러 기업이 코드 품질, 도구 호출 정확도, 장기 워크플로우 신뢰성 향상을 보고함
  • 실제 사례로 Rust 기반 음성 합성 엔진을 완전 자율적으로 개발하고, Python 참조 모델과 일치 여부를 자체 검증함

초기 테스트 주요 개선점

  • 명령어 해석 정확도

    • Opus 4.7은 지시문을 문자 그대로 해석하며, 이전 모델보다 훨씬 엄격하게 따름
    • 기존 프롬프트가 예상치 못한 결과를 낼 수 있어 프롬프트 재조정 필요
  • 멀티모달 지원 강화

    • 최대 2,576픽셀(약 3.75MP) 해상도의 이미지를 처리 가능
    • 복잡한 다이어그램 분석, 스크린샷 기반 데이터 추출 등 세밀한 시각 정보 활용 작업에 적합
  • 실제 업무 성능

    • 금융 분석, 프레젠테이션, 모델링 등에서 Opus 4.6보다 높은 전문성과 일관성 확보
    • GDPval-AA 외부 평가에서도 금융·법률 등 지식 노동 분야에서 최고 수준 기록
  • 메모리 활용

    • 파일 시스템 기반 메모리를 효율적으로 사용해 여러 세션에 걸친 작업 맥락을 기억하고 재활용

안전성과 정렬 평가

  • 전반적으로 Opus 4.6과 유사한 안전성 프로필을 보이며, 기만·아첨·오용 협력 등의 문제 발생률이 낮음
  • 정직성, 악성 프롬프트 주입 저항성은 개선되었으나, 일부 영역(예: 약물 관련 과도한 조언)에서는 약간 약화됨
  • 평가 결과 “대체로 잘 정렬되고 신뢰할 수 있으나 완전 이상적이지는 않음”으로 결론
  • Mythos Preview는 여전히 가장 잘 정렬된 모델로 평가됨

추가 출시 기능

  • Effort 제어 강화

    • high와 max 사이의 새로운 xhigh 수준 추가로, 추론 능력과 지연 시간 간의 세밀한 조정 가능
    • Claude Code에서는 기본 Effort 수준을 xhigh로 상향
  • Claude Platform(API)

    • 고해상도 이미지 지원과 함께 Task Budget 기능을 공개 베타로 제공, 장기 작업에서 토큰 사용 우선순위 조정 가능
  • Claude Code

    • 새로운 /ultrareview 명령어로 코드 변경사항 검토 및 버그 탐지 세션 실행
    • Pro 및 Max 사용자에게 3회 무료 ultrareview 제공
    • Auto Mode를 Max 사용자에게 확장해 장기 작업 중 승인 절차를 줄이고 중단 없이 실행 가능

Opus 4.6에서 4.7로의 마이그레이션

  • Opus 4.7은 직접 업그레이드 가능하지만 토큰 사용량 변화에 주의 필요
    • 새로운 토크나이저로 인해 동일 입력이 약 1.0~1.35배 더 많은 토큰으로 변환될 수 있음
    • 높은 Effort 수준에서 더 많은 추론을 수행하므로 출력 토큰 증가 가능
  • Effort 파라미터, Task Budget, 간결한 프롬프트 설계로 토큰 사용 제어 가능
  • 내부 테스트에서는 Effort 수준 전반에서 효율성 개선이 확인됨
  • 세부 업그레이드 방법은 Migration Guide에서 제공됨
Read Entire Article