GPT-5.5 공개

3 days ago 4
  • 복잡한 작업을 스스로 계획하고 도구를 조합해 끝까지 수행하는 에이전트형 모델로, 코드 작성과 디버깅부터 웹 조사, 데이터 분석, 문서·스프레드시트 생성, 소프트웨어 조작까지 폭넓게 다룸
  • GPT-5.4와 같은 per-token latency를 유지하면서도 coding, computer use, 지식 노동, 초기 과학 연구에서 성능이 올라갔고, 같은 Codex 작업을 더 적은 토큰으로 끝내 효율도 높아짐
  • 소프트웨어 엔지니어링에서는 Terminal-Bench 2.0 82.7%, Expert-SWE 73.1%, SWE-Bench Pro 58.6%를 기록했고, 구현·리팩터링·디버깅·테스트·검증과 큰 코드베이스 맥락 유지에서 강점이 드러남
  • 일반 업무와 연구 워크플로에서도 문서·스프레드시트·슬라이드 생성, 화면 조작 기반 computer use, 다단계 데이터 분석, 가정 검증, 결과 해석까지 이어지는 흐름이 강화됐고, GPT-5.5 Pro는 더 높은 정확도와 포괄성을 겨냥함
  • 출시 전 강화된 안전장치와 내부·외부 테스트를 거쳤고, ChatGPT와 Codex에서 Plus, Pro, Business, Enterprise 중심으로 순차 배포 중이어서 실무형 AI 활용 범위를 더 넓히는 단계로 보임

모델 개요와 배포 범위

  • GPT-5.5는 더 빠르게 의도를 이해하고, 여러 단계로 얽힌 작업을 스스로 계획하며 도구를 써서 끝까지 밀고 가는 모델로 소개됨
    • 코드 작성과 디버깅, 웹 조사, 데이터 분석, 문서와 스프레드시트 작성, 소프트웨어 조작, 여러 도구를 오가는 작업을 수행할 수 있음
    • 각 단계를 세밀하게 관리하기보다, 복잡하고 정리되지 않은 작업을 한 번에 맡기고 계획·도구 사용·검증·모호성 처리까지 이어가도록 설계됨
  • 에이전트형 작업에서의 향상이 특히 강조되며, coding·computer use·knowledge work·초기 과학 연구에서 강한 성능을 보임
    • 더 큰 모델이 느려지는 경우가 많지만, 실제 서비스 기준 per-token latency는 GPT-5.4와 같게 유지됨
    • 같은 Codex 작업을 더 적은 토큰으로 끝내 효율도 함께 높아짐
  • 출시 전 안전장치를 강화했고, 내부·외부 red team 테스트와 고급 cybersecurity·biology 역량에 대한 추가 시험, 약 200개 신뢰 파트너의 초기 사용 피드백을 반영함
  • 현재 ChatGPT와 Codex에서 Plus, Pro, Business, Enterprise 사용자에게 순차 배포 중이며, GPT-5.5 Pro는 ChatGPT의 Pro·Business·Enterprise에 제공됨
    • API는 별도 안전 요구사항을 맞추는 중이며, GPT-5.5와 GPT-5.5 Pro를 곧 제공할 예정임

소프트웨어 엔지니어링과 에이전트형 코딩

  • OpenAI는 agentic AI 인프라를 구축 중이며, 지난 1년간 AI가 소프트웨어 엔지니어링을 크게 가속함
    • GPT-5.5가 Codex와 ChatGPT에 들어가며, 이런 변화가 과학 연구와 일반적인 컴퓨터 업무로 확장되기 시작함
  • Artificial Analysis Coding Index 기준으로 경쟁하는 frontier coding 모델 대비 절반 비용에서 최상위 지능을 제공함
  • GPT-5.5는 OpenAI 기준 가장 강한 agentic coding 모델로 소개됨
    • Terminal-Bench 2.0에서 82.7%를 기록했고, 계획·반복·도구 조합이 필요한 복잡한 커맨드라인 워크플로를 평가 대상으로 삼음
    • SWE-Bench Pro에서는 58.6%를 기록했고, 실제 GitHub 이슈 해결에서 이전 모델보다 더 많은 작업을 단일 패스로 종단 간 해결함
    • 내부 평가인 Expert-SWE에서도 GPT-5.4를 앞섬
  • 세 coding 평가 전반에서 GPT-5.4보다 적은 토큰을 쓰면서 더 높은 점수를 냄
  • Codex에서의 강점은 구현, 리팩터링, 디버깅, 테스트, 검증 전반에 드러남
    • 큰 시스템의 맥락 유지, 모호한 실패 원인 추적, 도구를 통한 가정 확인, 코드베이스 전반에 걸친 변경 반영 같은 실제 엔지니어링 행동에서 더 강해짐

코딩 사용 예시와 초기 테스트

  • Artemis II 실제 데이터를 활용한 WebGL + Vite 앱 구현 프롬프트가 예시로 포함됨
    • NASA/JPL Horizons 벡터 데이터를 사용해 Orion, Moon, Sun의 궤적을 렌더링함
    • 가독성을 위해 표시 스케일을 적용함
  • 초기 테스터들은 GPT-5.5가 시스템 구조를 더 잘 파악한다고 평가함
    • 무엇이 왜 실패하는지, 수정이 어디에 들어가야 하는지, 코드베이스의 다른 부분에 어떤 영향이 가는지를 더 정확히 짚어냄
  • Dan Shipper는 출시 후 장애를 되감아 놓고 같은 수준의 재설계를 만들 수 있는지 시험했으며, GPT-5.4는 실패했고 GPT-5.5는 성공
  • Pietro Schirano는 수백 개의 frontend와 refactor 변경이 들어간 브랜치를 많이 달라진 메인 브랜치에 약 20분 만에 한 번에 병합
  • 시니어 엔지니어 테스트에서는 GPT-5.4와 Claude Opus 4.7보다 reasoning과 autonomy가 두드러짐
    • 명시적 프롬프트 없이도 문제를 미리 잡고, 테스트와 리뷰 필요성까지 예상함
    • 협업형 markdown editor의 comment system 재설계를 요청했을 때 12-diff 스택이 거의 완성된 상태로 나옴
    • 구현 수정이 예상보다 적게 필요했고, 계획에 대한 신뢰도도 GPT-5.4보다 높아짐
  • Cursor의 Michael Truell 인용문에서는 더 오래 작업을 지속하고, 조기 중단 없이 복잡하고 장기 실행되는 작업에 더 잘 맞는 특성이 드러남

일반 지식 노동과 컴퓨터 사용

  • coding에서 드러난 강점이 일상적인 컴퓨터 업무에도 그대로 이어짐
    • 의도를 더 잘 이해하기 때문에 정보 탐색, 중요 정보 선별, 도구 사용, 결과 검증, 원재료를 유용한 산출물로 바꾸는 전 과정을 더 자연스럽게 수행함
  • Codex에서 GPT-5.5는 GPT-5.4보다 문서, 스프레드시트, 슬라이드 생성에 더 강함
    • alpha 테스터들은 운영 리서치, 스프레드시트 모델링, 정리되지 않은 비즈니스 입력을 계획으로 바꾸는 작업에서 이전 모델보다 낫다고 밝힘
  • Codex의 computer use 능력과 결합하면 화면을 보고, 클릭하고, 타이핑하고, 인터페이스를 탐색하며, 여러 도구를 정밀하게 오갈 수 있음
  • OpenAI 내부에서도 이미 실제 워크플로에 사용 중이며, 현재 직원의 85% 이상이 매주 Codex 사용 중임
    • 소프트웨어 엔지니어링, 재무, 커뮤니케이션, 마케팅, 데이터 사이언스, 제품 관리 전반에 걸쳐 활용됨
  • 커뮤니케이션 팀은 6개월치 speaking request 데이터를 분석해 점수화·리스크 프레임워크를 만들고, 저위험 요청은 자동 처리하고 고위험 요청은 사람이 검토하도록 Slack agent를 검증함
  • Finance 팀은 24,771개의 K-1 세금 양식, 총 71,637페이지를 검토했고, 개인 정보를 제외하는 워크플로를 통해 전년 대비 2주 앞당김
  • Go-to-Market 팀에서는 주간 비즈니스 리포트 생성을 자동화해 주당 5~10시간을 절약함

ChatGPT에서의 GPT-5.5 Thinking과 GPT-5.5 Pro

  • ChatGPT의 GPT-5.5 Thinking은 더 어려운 문제에 더 빠르게 답하도록 설계됐고, 더 똑똑하고 간결한 답으로 복잡한 업무를 더 효율적으로 진행하게 함
    • coding, research, 정보 종합과 분석, 문서 중심 작업에 강하고 특히 plugin 사용 시 유리함
  • GPT-5.5 Pro는 더 어려운 작업과 더 높은 품질을 겨냥하며, 지연 시간이 줄어 실무 적용성이 커짐
    • GPT-5.4 Pro 대비 응답이 더 포괄적이고, 구조가 좋고, 정확하고, 관련성이 높고, 유용해짐
    • business, legal, education, data science에서 특히 강함
  • 전문 업무에 가까운 벤치마크에서도 높은 수치를 제시함
    • GDPval 84.9%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%를 기록함
    • Tau2-bench Telecom은 prompt tuning 없이 수행됨
    • FinanceAgent 60.0%, internal investment-banking modeling tasks 88.5%, OfficeQA Pro 54.1%도 함께 제시됨
  • NVIDIA의 Justin Boitano 인용문에서는 NVIDIA GB200 NVL72 시스템 위에서 제공되며, 자연어 프롬프트로 end-to-end 기능을 출하하고, 디버그 시간을 며칠에서 몇 시간으로 줄이며, 수주 걸릴 실험을 하룻밤 진행으로 바꾸는 흐름이 제시됨

과학 연구와 기술 연구 워크플로

  • GPT-5.5는 과학·기술 연구 워크플로에서도 성능 향상을 보임
    • 어려운 질문에 답하는 수준을 넘어, 아이디어 탐색, 근거 수집, 가정 검증, 결과 해석, 다음 실험 결정까지 이어지는 루프를 더 잘 지속함
  • GeneBench에서 GPT-5.4보다 뚜렷한 개선을 보임
    • genetics와 quantitative biology의 다단계 데이터 분석을 겨냥한 신규 평가임
    • 모호하거나 오류가 있는 데이터, 숨겨진 confounder, QC 실패, 현대 통계 기법의 구현과 해석을 다룸
    • 여기의 작업은 과학 전문가에게도 며칠짜리 프로젝트에 해당함
  • BixBench에서도 공개 점수가 있는 모델들 가운데 선도적 성능을 기록함
    • 실제 bioinformatics와 데이터 분석을 반영한 벤치마크로 소개됨
    • biomedical research 최전선에서 co-scientist 수준의 가속 가능성을 보여줌
  • 내부 버전 GPT-5.5와 custom harness는 Ramsey numbers에 대한 새로운 증명을 찾는 데도 쓰임
    • 새 증명 링크
    • combinatorics에서 오래된 off-diagonal Ramsey numbers의 점근 사실에 대한 증명을 찾았고, 이후 Lean으로 검증함
    • 코드나 설명을 넘어 핵심 연구 분야에서 유용한 수학적 논증에도 기여함
  • 초기 테스터들은 GPT-5.5 Pro를 단발성 답변 엔진보다 연구 파트너에 가깝게 활용함
    • 원고를 여러 차례 비판적으로 검토하고, 기술 논증을 stress test하며, 분석을 제안하고, 코드·노트·PDF 문맥과 함께 작업함
    • 질문에서 실험, 산출물까지 이어지는 흐름을 더 잘 도와줌

연구 사례

  • Jackson Laboratory for Genomic Medicine의 Derya Unutmaz는 GPT-5.5 Pro로 62개 샘플, 약 28,000개 유전자의 gene-expression 데이터셋을 분석함
    • 상세 연구 보고서를 생성했고, 결과 요약뿐 아니라 핵심 질문과 통찰까지 드러냄
    • 해당 작업은 그의 팀이 수행하면 수개월이 걸릴 규모였음
  • Adam Mickiewicz University의 Bartosz Naskręcki는 Codex로 단일 프롬프트에서 11분 만에 algebraic-geometry 앱을 만듦
    • 두 개의 quadratic surface 교차를 시각화하고, 결과 곡선을 Weierstrass model로 변환함
    • 이후 singularity visualization을 더 안정적으로 만들고, 후속 작업에 재사용 가능한 exact coefficients까지 추가함
    • 전용 도구가 필요했던 맞춤형 수학 시각화와 computer-algebra 워크플로 구현에도 Codex가 도움을 줌
  • Credit: Bartosz Naskręcki
  • Axiom Bio의 Brandon White 인용문에서는 거대한 biochemical dataset을 추론해 human drug outcomes를 예측하고, 가장 어려운 drug discovery 평가에서 의미 있는 정확도 향상이 나타남

추론 인프라와 성능 최적화

  • GPT-5.4와 같은 지연 시간으로 GPT-5.5를 서비스하려면, 추론을 개별 최적화 묶음이 아니라 통합 시스템으로 다시 설계해야 했음
    • GPT-5.5는 NVIDIA GB200과 GB300 NVL72 시스템을 전제로 공동 설계·학습·서비스됨
  • Codex와 GPT-5.5 자체가 성능 목표 달성에 직접 기여
    • Codex는 아이디어를 벤치마크 가능한 구현으로 빠르게 옮기고, 접근법을 스케치하고, 실험을 연결하고, 더 깊은 투자가 필요한 최적화를 찾는 데 쓰임
    • GPT-5.5는 스택 내부의 핵심 개선점을 찾아 구현하는 데 도움을 줌
    • 결국 모델이 자기 자신을 서비스하는 인프라 개선에도 기여함
  • 대표적 개선 사례로 load balancing과 partitioning heuristics를 소개함
    • 이전에는 accelerator 위 요청을 고정된 개수의 chunk로 나눠 큰 요청과 작은 요청이 같은 GPU에서 돌도록 했음
    • 하지만 정적인 chunk 수는 모든 트래픽 형태에 최적이 아니었음
    • Codex가 수주간의 production traffic 패턴을 분석하고, 작업을 최적으로 분할·균형화하는 맞춤형 heuristic 알고리듬을 작성함
    • 이 작업으로 token generation speed가 20% 이상 증가

사이버 보안과 안전장치

  • 취약점 탐지와 패치에 능한 모델을 세상에 준비시키는 일은 팀 스포츠에 가깝고, 다음 사이버 방어 시대를 위해 생태계 전체의 회복력이 필요함
  • frontier 모델의 cybersecurity 역량이 점점 강해지고 있으며, 이 능력은 널리 퍼질 것이므로 사이버 방어 가속과 생태계 강화에 쓰이게 하는 경로가 중요해짐
  • GPT-5.5는 cybersecurity 같은 어려운 문제를 푸는 AI로 가는 점진적이지만 중요한 단계로 위치 지어짐
    • GPT-5.2 때 잠재적 cyber 악용을 제한하는 cyber safeguards를 선제 배치함
    • GPT-5.5에는 잠재적 cyber risk에 대한 더 엄격한 classifier를 배치했고, 초기에는 일부 사용자에게 거슬릴 수 있음
  • OpenAI는 수년간 Preparedness Framework 안에서 cybersecurity를 별도 범주로 다뤘고, 역량 향상에 맞춰 완화 수단도 반복적으로 조정해 옴
  • 업계 선도 수준의 safeguards를 이 수준의 cyber capability에 맞춰 배치함
    • GPT-5.2에서 cyber-specific safeguard를 처음 도입했고 이후 배포마다 테스트·정제·확장해 옴
    • GPT-5.5에는 고위험 활동, 민감한 cyber 요청, 반복 악용에 대한 보호를 더 강화함
    • 폭넓은 접근은 모델 안전성, 인증된 사용, 허용되지 않은 사용 모니터링에 대한 투자 덕분에 가능해짐
    • 외부 전문가와 수개월간 robustness를 개발·시험·개선함
    • 개발자가 코드를 쉽게 보호하도록 하면서도, 악의적 행위자가 해를 끼치기 쉬운 cyber 워크플로에는 더 강한 제어를 둠
  • 방어 목적 접근 확대도 함께 진행됨
    • Trusted Access for Cyber를 통해 cyber-permissive 모델 접근을 제공하며, 시작점은 Codex임
    • 특정 trust signals을 충족한 검증 사용자에게는 GPT-5.5의 고급 cybersecurity 기능을 더 적은 제한으로 제공함
    • critical infrastructure 방어를 담당하는 조직은 GPT-5.4-Cyber 같은 cyber-permissive 모델 접근을 신청할 수 있음
    • 검증된 방어 담당자에게는 정당한 보안 작업용 도구를 더 적은 마찰로 제공하려는 목적임
    • 신청 링크: chatgpt.com/cyber
  • 정부 파트너와의 협력도 포함됨
    • 세금 데이터 보호용 디지털 시스템, 전력망, 지역 사회의 상수도 같은 중요 인프라를 방어하는 공공 담당자를 고급 AI가 어떻게 지원할지 함께 탐색 중임
  • GPT-5.5의 biological/chemical 및 cybersecurity 역량은 Preparedness Framework상 High로 분류됨
    • Critical 수준의 cybersecurity capability에는 도달하지 않았지만, 평가와 테스트에서 GPT-5.4보다 한 단계 높아진 cyber 역량이 확인됨
  • 출시 전 전체 safety and governance process를 거침
    • preparedness 평가, 분야별 테스트, 고급 biology·cybersecurity 대상 신규 타깃 평가, 외부 전문가와의 강건한 테스트를 포함함
    • 자세한 내용은 GPT-5.5 system card에서 제공됨
  • 이런 접근은 더 강한 모델 시대에 필요한 AI resilience 전략의 일부임
    • 강력한 AI를 시스템·기관·공공을 방어하는 사람들에게도 제공해야 하며, 신뢰 기반 접근·역량에 비례해 강화되는 safeguards·심각한 악용을 탐지하고 대응하는 운영 역량이 핵심 경로로 제시됨

사용 가능 플랜과 가격

  • 현재 ChatGPT와 Codex에서 GPT-5.5는 Plus, Pro, Business, Enterprise 사용자에게 배포 중이며, GPT-5.5 Pro는 ChatGPT의 Pro, Business, Enterprise에 제공됨
  • ChatGPT에서는 GPT-5.5 Thinking이 Plus, Pro, Business, Enterprise에 제공됨
    • GPT-5.5 Pro는 더 어려운 질문과 더 높은 정확도를 겨냥하며 Pro, Business, Enterprise에서 사용 가능함
  • Codex에서는 GPT-5.5가 Plus, Pro, Business, Enterprise, Edu, Go 플랜에 제공되고, 400K context window를 가짐
    • Fast mode도 제공되며, 토큰 생성 속도는 1.5배 빠르고 비용은 2.5배임
  • API 개발자용 gpt-5.5는 Responses API와 Chat Completions API에 곧 제공될 예정임
    • 입력 1M 토큰당 5달러, 출력 1M 토큰당 30달러, 1M context window로 표기됨
    • Batch와 Flex 가격은 표준 API 요금의 절반, Priority processing은 2.5배 요금으로 제공됨
  • gpt-5.5-pro도 API에 출시 예정이며, 더 높은 정확도를 목표로 함
    • 입력 1M 토큰당 30달러, 출력 1M 토큰당 180달러로 적혀 있음
    • 전체 가격 정보는 pricing page에 연결됨
  • GPT-5.5는 GPT-5.4보다 가격이 더 높지만, 지능과 토큰 효율도 더 높음
    • Codex에서는 대부분 사용자에게 GPT-5.4보다 더 적은 토큰으로 더 좋은 결과를 주도록 경험을 조정함
    • 구독 단계 전반에 걸쳐 넉넉한 사용량을 계속 제공함

세부 벤치마크

  • Coding

    • SWE-Bench Pro (Public)에서 GPT-5.5는 58.6%, GPT-5.4는 57.7%, Claude Opus 4.7은 64.3%, Gemini 3.1 Pro는 54.2%임
    • Terminal-Bench 2.0은 GPT-5.5 82.7%, GPT-5.4 75.1%, Claude Opus 4.7 69.4%, Gemini 3.1 Pro 68.5%임
    • Expert-SWE (Internal)은 GPT-5.5 73.1%, GPT-5.4 68.5%로 제시됨
  • 전문 업무

    • GDPval (wins or ties)은 GPT-5.5 84.9%, GPT-5.4 83.0%, GPT-5.5 Pro 82.3%, GPT-5.4 Pro 82.0%, Claude Opus 4.7 80.3%, Gemini 3.1 Pro 67.3%임
    • FinanceAgent v1.1은 GPT-5.5 60.0%, GPT-5.4 56.0%, GPT-5.4 Pro 61.5%, Claude Opus 4.7 64.4%, Gemini 3.1 Pro 59.7%임
    • Investment Banking Modeling Tasks (Internal)은 GPT-5.5 88.5%, GPT-5.4 87.3%, GPT-5.5 Pro 88.6%, GPT-5.4 Pro 83.6%임
    • OfficeQA Pro는 GPT-5.5 54.1%, GPT-5.4 53.2%, Claude Opus 4.7 43.6%, Gemini 3.1 Pro 18.1%임
  • 컴퓨터 사용과 비전

    • OSWorld-Verified는 GPT-5.5 78.7%, GPT-5.4 75.0%, Claude Opus 4.7 78.0%임
    • MMMU Pro (no tools)는 GPT-5.5와 GPT-5.4가 81.2% 로 같고, Gemini 3.1 Pro는 80.5%임
    • MMMU Pro (with tools)는 GPT-5.5 83.2%, GPT-5.4 82.1%임
  • 도구 사용

    • BrowseComp는 GPT-5.5 84.4%, GPT-5.4 82.7%, GPT-5.5 Pro 90.1%, GPT-5.4 Pro 89.3%, Claude Opus 4.7 79.3%, Gemini 3.1 Pro 85.9%임
    • MCP Atlas는 GPT-5.5 75.3%, GPT-5.4 70.6%, Claude Opus 4.7 79.1%, Gemini 3.1 Pro 78.2%임
    • Toolathlon은 GPT-5.5 55.6%, GPT-5.4 54.6%, Gemini 3.1 Pro 48.8%임
    • Tau2-bench Telecom은 원래 프롬프트 기준 GPT-5.5 98.0%, GPT-5.4 92.8%임
    • MCP Atlas 주석에는 Scale AI의 2026년 4월 최신 업데이트 이후 결과라고 적혀 있음
    • Tau2-bench Telecom 주석에는 prompt adjustment 없이 평가한 결과이며, 타 연구소의 prompt adjustment 결과는 제외했다고 명시됨
  • 학술

    • GeneBench는 GPT-5.5 25.0%, GPT-5.4 19.0%, GPT-5.5 Pro 33.2%, GPT-5.4 Pro 25.6%임
    • FrontierMath Tier 1–3은 GPT-5.5 51.7%, GPT-5.4 47.6%, GPT-5.5 Pro 52.4%, GPT-5.4 Pro 50.0%, Claude Opus 4.7 43.8%, Gemini 3.1 Pro 36.9%임
    • FrontierMath Tier 4는 GPT-5.5 35.4%, GPT-5.4 27.1%, GPT-5.5 Pro 39.6%, GPT-5.4 Pro 38.0%, Claude Opus 4.7 22.9%, Gemini 3.1 Pro 16.7%임
    • BixBench는 GPT-5.5 80.5%, GPT-5.4 74.0%임
    • GPQA Diamond는 GPT-5.5 93.6%, GPT-5.4 92.8%, GPT-5.4 Pro 94.4%, Claude Opus 4.7 94.2%, Gemini 3.1 Pro 94.3%임
    • Humanity's Last Exam (no tools)는 GPT-5.5 41.4%, GPT-5.4 39.8%, GPT-5.5 Pro 43.1%, GPT-5.4 Pro 42.7%, Claude Opus 4.7 46.9%, Gemini 3.1 Pro 44.4%임
    • Humanity's Last Exam (with tools)는 GPT-5.5 52.2%, GPT-5.4 52.1%, GPT-5.5 Pro 57.2%, GPT-5.4 Pro 58.7%, Claude Opus 4.7 54.7%, Gemini 3.1 Pro 51.4%임
  • 사이버 보안

    • Capture-the-Flags challenge tasks (Internal)은 GPT-5.5 88.1%, GPT-5.4 83.7%임
    • CyberGym은 GPT-5.5 81.8%, GPT-5.4 79.0%, Claude Opus 4.7 73.1%임
    • 주석에는 system card에 쓰인 가장 어려운 CTF를 확장하고 추가 고난도 챌린지를 더한 결과라고 적혀 있음
  • 긴 문맥

    • Graphwalks BFS 256k f1은 GPT-5.5 73.7%, GPT-5.4 62.5%, Claude Opus 4.7 76.9%임
    • Graphwalks BFS 1mil f1은 GPT-5.5 45.4%, GPT-5.4 9.4%, Claude Opus 4.6은 41.2%임
    • Graphwalks parents 256k f1은 GPT-5.5 90.1%, GPT-5.4 82.8%, Claude Opus 4.7 93.6%임
    • Graphwalks parents 1mil f1은 GPT-5.5 58.5%, GPT-5.4 44.4%, Claude Opus 4.6은 72.0%임
    • OpenAI MRCR v2 8-needle은 문맥 길이별로 제시되며, 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5%, 512K-1M 74.0%임
    • 같은 항목에서 GPT-5.4는 각각 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5%, 36.6%임
    • 128K-256K 구간에는 Claude Opus 4.7 59.2%, 512K-1M 구간에는 Claude Opus 4.7 32.2%가 표기됨
  • 추상 추론

    • ARC-AGI-1 (Verified)은 GPT-5.5 95.0%, GPT-5.4 93.7%, GPT-5.4 Pro 94.5%, Claude Opus 4.7 93.5%, Gemini 3.1 Pro 98.0%임
    • ARC-AGI-2 (Verified)는 GPT-5.5 85.0%, GPT-5.4 73.3%, GPT-5.4 Pro 83.3%, Claude Opus 4.7 75.8%, Gemini 3.1 Pro 77.1%임
    • GPT 계열 평가는 reasoning effort를 xhigh로 설정한 연구 환경에서 수행됐고, 일부 경우 생산 환경 ChatGPT와 출력이 약간 다를 수 있다고 명시됨
Read Entire Article