GPT-5.5 공개

3 days ago 4

복잡한 작업을 스스로 계획하고 도구를 조합해 끝까지 수행하는 에이전트형 모델로, 코드 작성과 디버깅부터 웹 조사, 데이터 분석, 문서·스프레드시트 생성, 소프트웨어 조작까지 폭넓게 다룸
GPT-5.4와 같은 per-token latency를 유지하면서도 coding, computer use, 지식 노동, 초기 과학 연구에서 성능이 올라갔고, 같은 Codex 작업을 더 적은 토큰으로 끝내 효율도 높아짐
소프트웨어 엔지니어링에서는 Terminal-Bench 2.0 82.7%, Expert-SWE 73.1%, SWE-Bench Pro 58.6%를 기록했고, 구현·리팩터링·디버깅·테스트·검증과 큰 코드베이스 맥락 유지에서 강점이 드러남
일반 업무와 연구 워크플로에서도 문서·스프레드시트·슬라이드 생성, 화면 조작 기반 computer use, 다단계 데이터 분석, 가정 검증, 결과 해석까지 이어지는 흐름이 강화됐고, GPT-5.5 Pro는 더 높은 정확도와 포괄성을 겨냥함
출시 전 강화된 안전장치와 내부·외부 테스트를 거쳤고, ChatGPT와 Codex에서 Plus, Pro, Business, Enterprise 중심으로 순차 배포 중이어서 실무형 AI 활용 범위를 더 넓히는 단계로 보임

모델 개요와 배포 범위

GPT-5.5는 더 빠르게 의도를 이해하고, 여러 단계로 얽힌 작업을 스스로 계획하며 도구를 써서 끝까지 밀고 가는 모델로 소개됨
- 코드 작성과 디버깅, 웹 조사, 데이터 분석, 문서와 스프레드시트 작성, 소프트웨어 조작, 여러 도구를 오가는 작업을 수행할 수 있음
- 각 단계를 세밀하게 관리하기보다, 복잡하고 정리되지 않은 작업을 한 번에 맡기고 계획·도구 사용·검증·모호성 처리까지 이어가도록 설계됨
에이전트형 작업에서의 향상이 특히 강조되며, coding·computer use·knowledge work·초기 과학 연구에서 강한 성능을 보임
- 더 큰 모델이 느려지는 경우가 많지만, 실제 서비스 기준 per-token latency는 GPT-5.4와 같게 유지됨
- 같은 Codex 작업을 더 적은 토큰으로 끝내 효율도 함께 높아짐
출시 전 안전장치를 강화했고, 내부·외부 red team 테스트와 고급 cybersecurity·biology 역량에 대한 추가 시험, 약 200개 신뢰 파트너의 초기 사용 피드백을 반영함
현재 ChatGPT와 Codex에서 Plus, Pro, Business, Enterprise 사용자에게 순차 배포 중이며, GPT-5.5 Pro는 ChatGPT의 Pro·Business·Enterprise에 제공됨
- API는 별도 안전 요구사항을 맞추는 중이며, GPT-5.5와 GPT-5.5 Pro를 곧 제공할 예정임

소프트웨어 엔지니어링과 에이전트형 코딩

OpenAI는 agentic AI 인프라를 구축 중이며, 지난 1년간 AI가 소프트웨어 엔지니어링을 크게 가속함
- GPT-5.5가 Codex와 ChatGPT에 들어가며, 이런 변화가 과학 연구와 일반적인 컴퓨터 업무로 확장되기 시작함
Artificial Analysis Coding Index 기준으로 경쟁하는 frontier coding 모델 대비 절반 비용에서 최상위 지능을 제공함
GPT-5.5는 OpenAI 기준 가장 강한 agentic coding 모델로 소개됨
- Terminal-Bench 2.0에서 82.7%를 기록했고, 계획·반복·도구 조합이 필요한 복잡한 커맨드라인 워크플로를 평가 대상으로 삼음
- SWE-Bench Pro에서는 58.6%를 기록했고, 실제 GitHub 이슈 해결에서 이전 모델보다 더 많은 작업을 단일 패스로 종단 간 해결함
- 내부 평가인 Expert-SWE에서도 GPT-5.4를 앞섬
세 coding 평가 전반에서 GPT-5.4보다 적은 토큰을 쓰면서 더 높은 점수를 냄
Codex에서의 강점은 구현, 리팩터링, 디버깅, 테스트, 검증 전반에 드러남
- 큰 시스템의 맥락 유지, 모호한 실패 원인 추적, 도구를 통한 가정 확인, 코드베이스 전반에 걸친 변경 반영 같은 실제 엔지니어링 행동에서 더 강해짐

코딩 사용 예시와 초기 테스트

Artemis II 실제 데이터를 활용한 WebGL + Vite 앱 구현 프롬프트가 예시로 포함됨
- NASA/JPL Horizons 벡터 데이터를 사용해 Orion, Moon, Sun의 궤적을 렌더링함
- 가독성을 위해 표시 스케일을 적용함
초기 테스터들은 GPT-5.5가 시스템 구조를 더 잘 파악한다고 평가함
- 무엇이 왜 실패하는지, 수정이 어디에 들어가야 하는지, 코드베이스의 다른 부분에 어떤 영향이 가는지를 더 정확히 짚어냄
Dan Shipper는 출시 후 장애를 되감아 놓고 같은 수준의 재설계를 만들 수 있는지 시험했으며, GPT-5.4는 실패했고 GPT-5.5는 성공함
Pietro Schirano는 수백 개의 frontend와 refactor 변경이 들어간 브랜치를 많이 달라진 메인 브랜치에 약 20분 만에 한 번에 병합함
시니어 엔지니어 테스트에서는 GPT-5.4와 Claude Opus 4.7보다 reasoning과 autonomy가 두드러짐
- 명시적 프롬프트 없이도 문제를 미리 잡고, 테스트와 리뷰 필요성까지 예상함
- 협업형 markdown editor의 comment system 재설계를 요청했을 때 12-diff 스택이 거의 완성된 상태로 나옴
- 구현 수정이 예상보다 적게 필요했고, 계획에 대한 신뢰도도 GPT-5.4보다 높아짐
Cursor의 Michael Truell 인용문에서는 더 오래 작업을 지속하고, 조기 중단 없이 복잡하고 장기 실행되는 작업에 더 잘 맞는 특성이 드러남

일반 지식 노동과 컴퓨터 사용

coding에서 드러난 강점이 일상적인 컴퓨터 업무에도 그대로 이어짐
- 의도를 더 잘 이해하기 때문에 정보 탐색, 중요 정보 선별, 도구 사용, 결과 검증, 원재료를 유용한 산출물로 바꾸는 전 과정을 더 자연스럽게 수행함
Codex에서 GPT-5.5는 GPT-5.4보다 문서, 스프레드시트, 슬라이드 생성에 더 강함
- alpha 테스터들은 운영 리서치, 스프레드시트 모델링, 정리되지 않은 비즈니스 입력을 계획으로 바꾸는 작업에서 이전 모델보다 낫다고 밝힘
Codex의 computer use 능력과 결합하면 화면을 보고, 클릭하고, 타이핑하고, 인터페이스를 탐색하며, 여러 도구를 정밀하게 오갈 수 있음
OpenAI 내부에서도 이미 실제 워크플로에 사용 중이며, 현재 직원의 85% 이상이 매주 Codex 사용 중임
- 소프트웨어 엔지니어링, 재무, 커뮤니케이션, 마케팅, 데이터 사이언스, 제품 관리 전반에 걸쳐 활용됨
커뮤니케이션 팀은 6개월치 speaking request 데이터를 분석해 점수화·리스크 프레임워크를 만들고, 저위험 요청은 자동 처리하고 고위험 요청은 사람이 검토하도록 Slack agent를 검증함
Finance 팀은 24,771개의 K-1 세금 양식, 총 71,637페이지를 검토했고, 개인 정보를 제외하는 워크플로를 통해 전년 대비 2주 앞당김
Go-to-Market 팀에서는 주간 비즈니스 리포트 생성을 자동화해 주당 5~10시간을 절약함

ChatGPT에서의 GPT-5.5 Thinking과 GPT-5.5 Pro

ChatGPT의 GPT-5.5 Thinking은 더 어려운 문제에 더 빠르게 답하도록 설계됐고, 더 똑똑하고 간결한 답으로 복잡한 업무를 더 효율적으로 진행하게 함
- coding, research, 정보 종합과 분석, 문서 중심 작업에 강하고 특히 plugin 사용 시 유리함
GPT-5.5 Pro는 더 어려운 작업과 더 높은 품질을 겨냥하며, 지연 시간이 줄어 실무 적용성이 커짐
- GPT-5.4 Pro 대비 응답이 더 포괄적이고, 구조가 좋고, 정확하고, 관련성이 높고, 유용해짐
- business, legal, education, data science에서 특히 강함
전문 업무에 가까운 벤치마크에서도 높은 수치를 제시함
- GDPval 84.9%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%를 기록함
- Tau2-bench Telecom은 prompt tuning 없이 수행됨
- FinanceAgent 60.0%, internal investment-banking modeling tasks 88.5%, OfficeQA Pro 54.1%도 함께 제시됨
NVIDIA의 Justin Boitano 인용문에서는 NVIDIA GB200 NVL72 시스템 위에서 제공되며, 자연어 프롬프트로 end-to-end 기능을 출하하고, 디버그 시간을 며칠에서 몇 시간으로 줄이며, 수주 걸릴 실험을 하룻밤 진행으로 바꾸는 흐름이 제시됨

과학 연구와 기술 연구 워크플로

GPT-5.5는 과학·기술 연구 워크플로에서도 성능 향상을 보임
- 어려운 질문에 답하는 수준을 넘어, 아이디어 탐색, 근거 수집, 가정 검증, 결과 해석, 다음 실험 결정까지 이어지는 루프를 더 잘 지속함
GeneBench에서 GPT-5.4보다 뚜렷한 개선을 보임
- genetics와 quantitative biology의 다단계 데이터 분석을 겨냥한 신규 평가임
- 모호하거나 오류가 있는 데이터, 숨겨진 confounder, QC 실패, 현대 통계 기법의 구현과 해석을 다룸
- 여기의 작업은 과학 전문가에게도 며칠짜리 프로젝트에 해당함
BixBench에서도 공개 점수가 있는 모델들 가운데 선도적 성능을 기록함
- 실제 bioinformatics와 데이터 분석을 반영한 벤치마크로 소개됨
- biomedical research 최전선에서 co-scientist 수준의 가속 가능성을 보여줌
내부 버전 GPT-5.5와 custom harness는 Ramsey numbers에 대한 새로운 증명을 찾는 데도 쓰임
- 새 증명 링크
- combinatorics에서 오래된 off-diagonal Ramsey numbers의 점근 사실에 대한 증명을 찾았고, 이후 Lean으로 검증함
- 코드나 설명을 넘어 핵심 연구 분야에서 유용한 수학적 논증에도 기여함
초기 테스터들은 GPT-5.5 Pro를 단발성 답변 엔진보다 연구 파트너에 가깝게 활용함
- 원고를 여러 차례 비판적으로 검토하고, 기술 논증을 stress test하며, 분석을 제안하고, 코드·노트·PDF 문맥과 함께 작업함
- 질문에서 실험, 산출물까지 이어지는 흐름을 더 잘 도와줌

연구 사례

Jackson Laboratory for Genomic Medicine의 Derya Unutmaz는 GPT-5.5 Pro로 62개 샘플, 약 28,000개 유전자의 gene-expression 데이터셋을 분석함
- 상세 연구 보고서를 생성했고, 결과 요약뿐 아니라 핵심 질문과 통찰까지 드러냄
- 해당 작업은 그의 팀이 수행하면 수개월이 걸릴 규모였음
Adam Mickiewicz University의 Bartosz Naskręcki는 Codex로 단일 프롬프트에서 11분 만에 algebraic-geometry 앱을 만듦
- 두 개의 quadratic surface 교차를 시각화하고, 결과 곡선을 Weierstrass model로 변환함
- 이후 singularity visualization을 더 안정적으로 만들고, 후속 작업에 재사용 가능한 exact coefficients까지 추가함
- 전용 도구가 필요했던 맞춤형 수학 시각화와 computer-algebra 워크플로 구현에도 Codex가 도움을 줌
Credit: Bartosz Naskręcki
Axiom Bio의 Brandon White 인용문에서는 거대한 biochemical dataset을 추론해 human drug outcomes를 예측하고, 가장 어려운 drug discovery 평가에서 의미 있는 정확도 향상이 나타남

추론 인프라와 성능 최적화

GPT-5.4와 같은 지연 시간으로 GPT-5.5를 서비스하려면, 추론을 개별 최적화 묶음이 아니라 통합 시스템으로 다시 설계해야 했음
- GPT-5.5는 NVIDIA GB200과 GB300 NVL72 시스템을 전제로 공동 설계·학습·서비스됨
Codex와 GPT-5.5 자체가 성능 목표 달성에 직접 기여함
- Codex는 아이디어를 벤치마크 가능한 구현으로 빠르게 옮기고, 접근법을 스케치하고, 실험을 연결하고, 더 깊은 투자가 필요한 최적화를 찾는 데 쓰임
- GPT-5.5는 스택 내부의 핵심 개선점을 찾아 구현하는 데 도움을 줌
- 결국 모델이 자기 자신을 서비스하는 인프라 개선에도 기여함
대표적 개선 사례로 load balancing과 partitioning heuristics를 소개함
- 이전에는 accelerator 위 요청을 고정된 개수의 chunk로 나눠 큰 요청과 작은 요청이 같은 GPU에서 돌도록 했음
- 하지만 정적인 chunk 수는 모든 트래픽 형태에 최적이 아니었음
- Codex가 수주간의 production traffic 패턴을 분석하고, 작업을 최적으로 분할·균형화하는 맞춤형 heuristic 알고리듬을 작성함
- 이 작업으로 token generation speed가 20% 이상 증가함

사이버 보안과 안전장치

취약점 탐지와 패치에 능한 모델을 세상에 준비시키는 일은 팀 스포츠에 가깝고, 다음 사이버 방어 시대를 위해 생태계 전체의 회복력이 필요함
- 관련 링크: next era of cyber defense
frontier 모델의 cybersecurity 역량이 점점 강해지고 있으며, 이 능력은 널리 퍼질 것이므로 사이버 방어 가속과 생태계 강화에 쓰이게 하는 경로가 중요해짐
GPT-5.5는 cybersecurity 같은 어려운 문제를 푸는 AI로 가는 점진적이지만 중요한 단계로 위치 지어짐
- GPT-5.2 때 잠재적 cyber 악용을 제한하는 cyber safeguards를 선제 배치함
- GPT-5.5에는 잠재적 cyber risk에 대한 더 엄격한 classifier를 배치했고, 초기에는 일부 사용자에게 거슬릴 수 있음
OpenAI는 수년간 Preparedness Framework 안에서 cybersecurity를 별도 범주로 다뤘고, 역량 향상에 맞춰 완화 수단도 반복적으로 조정해 옴
업계 선도 수준의 safeguards를 이 수준의 cyber capability에 맞춰 배치함
- GPT-5.2에서 cyber-specific safeguard를 처음 도입했고 이후 배포마다 테스트·정제·확장해 옴
- GPT-5.5에는 고위험 활동, 민감한 cyber 요청, 반복 악용에 대한 보호를 더 강화함
- 폭넓은 접근은 모델 안전성, 인증된 사용, 허용되지 않은 사용 모니터링에 대한 투자 덕분에 가능해짐
- 외부 전문가와 수개월간 robustness를 개발·시험·개선함
- 개발자가 코드를 쉽게 보호하도록 하면서도, 악의적 행위자가 해를 끼치기 쉬운 cyber 워크플로에는 더 강한 제어를 둠
방어 목적 접근 확대도 함께 진행됨
- Trusted Access for Cyber를 통해 cyber-permissive 모델 접근을 제공하며, 시작점은 Codex임
- 특정 trust signals을 충족한 검증 사용자에게는 GPT-5.5의 고급 cybersecurity 기능을 더 적은 제한으로 제공함
- critical infrastructure 방어를 담당하는 조직은 GPT-5.4-Cyber 같은 cyber-permissive 모델 접근을 신청할 수 있음
- 검증된 방어 담당자에게는 정당한 보안 작업용 도구를 더 적은 마찰로 제공하려는 목적임
- 신청 링크: chatgpt.com/cyber
정부 파트너와의 협력도 포함됨
- 세금 데이터 보호용 디지털 시스템, 전력망, 지역 사회의 상수도 같은 중요 인프라를 방어하는 공공 담당자를 고급 AI가 어떻게 지원할지 함께 탐색 중임
GPT-5.5의 biological/chemical 및 cybersecurity 역량은 Preparedness Framework상 High로 분류됨
- Critical 수준의 cybersecurity capability에는 도달하지 않았지만, 평가와 테스트에서 GPT-5.4보다 한 단계 높아진 cyber 역량이 확인됨
출시 전 전체 safety and governance process를 거침
- preparedness 평가, 분야별 테스트, 고급 biology·cybersecurity 대상 신규 타깃 평가, 외부 전문가와의 강건한 테스트를 포함함
- 자세한 내용은 GPT-5.5 system card에서 제공됨
이런 접근은 더 강한 모델 시대에 필요한 AI resilience 전략의 일부임
- 강력한 AI를 시스템·기관·공공을 방어하는 사람들에게도 제공해야 하며, 신뢰 기반 접근·역량에 비례해 강화되는 safeguards·심각한 악용을 탐지하고 대응하는 운영 역량이 핵심 경로로 제시됨

사용 가능 플랜과 가격

현재 ChatGPT와 Codex에서 GPT-5.5는 Plus, Pro, Business, Enterprise 사용자에게 배포 중이며, GPT-5.5 Pro는 ChatGPT의 Pro, Business, Enterprise에 제공됨
ChatGPT에서는 GPT-5.5 Thinking이 Plus, Pro, Business, Enterprise에 제공됨
- GPT-5.5 Pro는 더 어려운 질문과 더 높은 정확도를 겨냥하며 Pro, Business, Enterprise에서 사용 가능함
Codex에서는 GPT-5.5가 Plus, Pro, Business, Enterprise, Edu, Go 플랜에 제공되고, 400K context window를 가짐
- Fast mode도 제공되며, 토큰 생성 속도는 1.5배 빠르고 비용은 2.5배임
API 개발자용 gpt-5.5는 Responses API와 Chat Completions API에 곧 제공될 예정임
- 입력 1M 토큰당 5달러, 출력 1M 토큰당 30달러, 1M context window로 표기됨
- Batch와 Flex 가격은 표준 API 요금의 절반, Priority processing은 2.5배 요금으로 제공됨
gpt-5.5-pro도 API에 출시 예정이며, 더 높은 정확도를 목표로 함
- 입력 1M 토큰당 30달러, 출력 1M 토큰당 180달러로 적혀 있음
- 전체 가격 정보는 pricing page에 연결됨
GPT-5.5는 GPT-5.4보다 가격이 더 높지만, 지능과 토큰 효율도 더 높음
- Codex에서는 대부분 사용자에게 GPT-5.4보다 더 적은 토큰으로 더 좋은 결과를 주도록 경험을 조정함
- 구독 단계 전반에 걸쳐 넉넉한 사용량을 계속 제공함

세부 벤치마크

Coding
- SWE-Bench Pro (Public)에서 GPT-5.5는 58.6%, GPT-5.4는 57.7%, Claude Opus 4.7은 64.3%, Gemini 3.1 Pro는 54.2%임
- Terminal-Bench 2.0은 GPT-5.5 82.7%, GPT-5.4 75.1%, Claude Opus 4.7 69.4%, Gemini 3.1 Pro 68.5%임
- Expert-SWE (Internal)은 GPT-5.5 73.1%, GPT-5.4 68.5%로 제시됨
전문 업무
- GDPval (wins or ties)은 GPT-5.5 84.9%, GPT-5.4 83.0%, GPT-5.5 Pro 82.3%, GPT-5.4 Pro 82.0%, Claude Opus 4.7 80.3%, Gemini 3.1 Pro 67.3%임
- FinanceAgent v1.1은 GPT-5.5 60.0%, GPT-5.4 56.0%, GPT-5.4 Pro 61.5%, Claude Opus 4.7 64.4%, Gemini 3.1 Pro 59.7%임
- Investment Banking Modeling Tasks (Internal)은 GPT-5.5 88.5%, GPT-5.4 87.3%, GPT-5.5 Pro 88.6%, GPT-5.4 Pro 83.6%임
- OfficeQA Pro는 GPT-5.5 54.1%, GPT-5.4 53.2%, Claude Opus 4.7 43.6%, Gemini 3.1 Pro 18.1%임
컴퓨터 사용과 비전
- OSWorld-Verified는 GPT-5.5 78.7%, GPT-5.4 75.0%, Claude Opus 4.7 78.0%임
- MMMU Pro (no tools)는 GPT-5.5와 GPT-5.4가 81.2% 로 같고, Gemini 3.1 Pro는 80.5%임
- MMMU Pro (with tools)는 GPT-5.5 83.2%, GPT-5.4 82.1%임
도구 사용
- BrowseComp는 GPT-5.5 84.4%, GPT-5.4 82.7%, GPT-5.5 Pro 90.1%, GPT-5.4 Pro 89.3%, Claude Opus 4.7 79.3%, Gemini 3.1 Pro 85.9%임
- MCP Atlas는 GPT-5.5 75.3%, GPT-5.4 70.6%, Claude Opus 4.7 79.1%, Gemini 3.1 Pro 78.2%임
- Toolathlon은 GPT-5.5 55.6%, GPT-5.4 54.6%, Gemini 3.1 Pro 48.8%임
- Tau2-bench Telecom은 원래 프롬프트 기준 GPT-5.5 98.0%, GPT-5.4 92.8%임
- MCP Atlas 주석에는 Scale AI의 2026년 4월 최신 업데이트 이후 결과라고 적혀 있음
- Tau2-bench Telecom 주석에는 prompt adjustment 없이 평가한 결과이며, 타 연구소의 prompt adjustment 결과는 제외했다고 명시됨
학술
- GeneBench는 GPT-5.5 25.0%, GPT-5.4 19.0%, GPT-5.5 Pro 33.2%, GPT-5.4 Pro 25.6%임
- FrontierMath Tier 1–3은 GPT-5.5 51.7%, GPT-5.4 47.6%, GPT-5.5 Pro 52.4%, GPT-5.4 Pro 50.0%, Claude Opus 4.7 43.8%, Gemini 3.1 Pro 36.9%임
- FrontierMath Tier 4는 GPT-5.5 35.4%, GPT-5.4 27.1%, GPT-5.5 Pro 39.6%, GPT-5.4 Pro 38.0%, Claude Opus 4.7 22.9%, Gemini 3.1 Pro 16.7%임
- BixBench는 GPT-5.5 80.5%, GPT-5.4 74.0%임
- GPQA Diamond는 GPT-5.5 93.6%, GPT-5.4 92.8%, GPT-5.4 Pro 94.4%, Claude Opus 4.7 94.2%, Gemini 3.1 Pro 94.3%임
- Humanity's Last Exam (no tools)는 GPT-5.5 41.4%, GPT-5.4 39.8%, GPT-5.5 Pro 43.1%, GPT-5.4 Pro 42.7%, Claude Opus 4.7 46.9%, Gemini 3.1 Pro 44.4%임
- Humanity's Last Exam (with tools)는 GPT-5.5 52.2%, GPT-5.4 52.1%, GPT-5.5 Pro 57.2%, GPT-5.4 Pro 58.7%, Claude Opus 4.7 54.7%, Gemini 3.1 Pro 51.4%임
사이버 보안
- Capture-the-Flags challenge tasks (Internal)은 GPT-5.5 88.1%, GPT-5.4 83.7%임
- CyberGym은 GPT-5.5 81.8%, GPT-5.4 79.0%, Claude Opus 4.7 73.1%임
- 주석에는 system card에 쓰인 가장 어려운 CTF를 확장하고 추가 고난도 챌린지를 더한 결과라고 적혀 있음
긴 문맥
- Graphwalks BFS 256k f1은 GPT-5.5 73.7%, GPT-5.4 62.5%, Claude Opus 4.7 76.9%임
- Graphwalks BFS 1mil f1은 GPT-5.5 45.4%, GPT-5.4 9.4%, Claude Opus 4.6은 41.2%임
- Graphwalks parents 256k f1은 GPT-5.5 90.1%, GPT-5.4 82.8%, Claude Opus 4.7 93.6%임
- Graphwalks parents 1mil f1은 GPT-5.5 58.5%, GPT-5.4 44.4%, Claude Opus 4.6은 72.0%임
- OpenAI MRCR v2 8-needle은 문맥 길이별로 제시되며, 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5%, 512K-1M 74.0%임
- 같은 항목에서 GPT-5.4는 각각 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5%, 36.6%임
- 128K-256K 구간에는 Claude Opus 4.7 59.2%, 512K-1M 구간에는 Claude Opus 4.7 32.2%가 표기됨
추상 추론
- ARC-AGI-1 (Verified)은 GPT-5.5 95.0%, GPT-5.4 93.7%, GPT-5.4 Pro 94.5%, Claude Opus 4.7 93.5%, Gemini 3.1 Pro 98.0%임
- ARC-AGI-2 (Verified)는 GPT-5.5 85.0%, GPT-5.4 73.3%, GPT-5.4 Pro 83.3%, Claude Opus 4.7 75.8%, Gemini 3.1 Pro 77.1%임
- GPT 계열 평가는 reasoning effort를 xhigh로 설정한 연구 환경에서 수행됐고, 일부 경우 생산 환경 ChatGPT와 출력이 약간 다를 수 있다고 명시됨