GPT-5.5 공개
3 days ago
4
- 복잡한 작업을 스스로 계획하고 도구를 조합해 끝까지 수행하는 에이전트형 모델로, 코드 작성과 디버깅부터 웹 조사, 데이터 분석, 문서·스프레드시트 생성, 소프트웨어 조작까지 폭넓게 다룸
- GPT-5.4와 같은 per-token latency를 유지하면서도 coding, computer use, 지식 노동, 초기 과학 연구에서 성능이 올라갔고, 같은 Codex 작업을 더 적은 토큰으로 끝내 효율도 높아짐
- 소프트웨어 엔지니어링에서는 Terminal-Bench 2.0 82.7%, Expert-SWE 73.1%, SWE-Bench Pro 58.6%를 기록했고, 구현·리팩터링·디버깅·테스트·검증과 큰 코드베이스 맥락 유지에서 강점이 드러남
- 일반 업무와 연구 워크플로에서도 문서·스프레드시트·슬라이드 생성, 화면 조작 기반 computer use, 다단계 데이터 분석, 가정 검증, 결과 해석까지 이어지는 흐름이 강화됐고, GPT-5.5 Pro는 더 높은 정확도와 포괄성을 겨냥함
- 출시 전 강화된 안전장치와 내부·외부 테스트를 거쳤고, ChatGPT와 Codex에서 Plus, Pro, Business, Enterprise 중심으로 순차 배포 중이어서 실무형 AI 활용 범위를 더 넓히는 단계로 보임
모델 개요와 배포 범위
- GPT-5.5는 더 빠르게 의도를 이해하고, 여러 단계로 얽힌 작업을 스스로 계획하며 도구를 써서 끝까지 밀고 가는 모델로 소개됨
- 코드 작성과 디버깅, 웹 조사, 데이터 분석, 문서와 스프레드시트 작성, 소프트웨어 조작, 여러 도구를 오가는 작업을 수행할 수 있음
- 각 단계를 세밀하게 관리하기보다, 복잡하고 정리되지 않은 작업을 한 번에 맡기고 계획·도구 사용·검증·모호성 처리까지 이어가도록 설계됨
- 에이전트형 작업에서의 향상이 특히 강조되며, coding·computer use·knowledge work·초기 과학 연구에서 강한 성능을 보임
- 더 큰 모델이 느려지는 경우가 많지만, 실제 서비스 기준 per-token latency는 GPT-5.4와 같게 유지됨
- 같은 Codex 작업을 더 적은 토큰으로 끝내 효율도 함께 높아짐
- 출시 전 안전장치를 강화했고, 내부·외부 red team 테스트와 고급 cybersecurity·biology 역량에 대한 추가 시험, 약 200개 신뢰 파트너의 초기 사용 피드백을 반영함
- 현재 ChatGPT와 Codex에서 Plus, Pro, Business, Enterprise 사용자에게 순차 배포 중이며, GPT-5.5 Pro는 ChatGPT의 Pro·Business·Enterprise에 제공됨
- API는 별도 안전 요구사항을 맞추는 중이며, GPT-5.5와 GPT-5.5 Pro를 곧 제공할 예정임
소프트웨어 엔지니어링과 에이전트형 코딩
- OpenAI는 agentic AI 인프라를 구축 중이며, 지난 1년간 AI가 소프트웨어 엔지니어링을 크게 가속함
- GPT-5.5가 Codex와 ChatGPT에 들어가며, 이런 변화가 과학 연구와 일반적인 컴퓨터 업무로 확장되기 시작함
- Artificial Analysis Coding Index 기준으로 경쟁하는 frontier coding 모델 대비 절반 비용에서 최상위 지능을 제공함
- GPT-5.5는 OpenAI 기준 가장 강한 agentic coding 모델로 소개됨
- Terminal-Bench 2.0에서 82.7%를 기록했고, 계획·반복·도구 조합이 필요한 복잡한 커맨드라인 워크플로를 평가 대상으로 삼음
- SWE-Bench Pro에서는 58.6%를 기록했고, 실제 GitHub 이슈 해결에서 이전 모델보다 더 많은 작업을 단일 패스로 종단 간 해결함
- 내부 평가인 Expert-SWE에서도 GPT-5.4를 앞섬
- 세 coding 평가 전반에서 GPT-5.4보다 적은 토큰을 쓰면서 더 높은 점수를 냄
- Codex에서의 강점은 구현, 리팩터링, 디버깅, 테스트, 검증 전반에 드러남
- 큰 시스템의 맥락 유지, 모호한 실패 원인 추적, 도구를 통한 가정 확인, 코드베이스 전반에 걸친 변경 반영 같은 실제 엔지니어링 행동에서 더 강해짐
코딩 사용 예시와 초기 테스트
- Artemis II 실제 데이터를 활용한 WebGL + Vite 앱 구현 프롬프트가 예시로 포함됨
- NASA/JPL Horizons 벡터 데이터를 사용해 Orion, Moon, Sun의 궤적을 렌더링함
- 가독성을 위해 표시 스케일을 적용함
- 초기 테스터들은 GPT-5.5가 시스템 구조를 더 잘 파악한다고 평가함
- 무엇이 왜 실패하는지, 수정이 어디에 들어가야 하는지, 코드베이스의 다른 부분에 어떤 영향이 가는지를 더 정확히 짚어냄
- Dan Shipper는 출시 후 장애를 되감아 놓고 같은 수준의 재설계를 만들 수 있는지 시험했으며, GPT-5.4는 실패했고 GPT-5.5는 성공함
- Pietro Schirano는 수백 개의 frontend와 refactor 변경이 들어간 브랜치를 많이 달라진 메인 브랜치에 약 20분 만에 한 번에 병합함
- 시니어 엔지니어 테스트에서는 GPT-5.4와 Claude Opus 4.7보다 reasoning과 autonomy가 두드러짐
- 명시적 프롬프트 없이도 문제를 미리 잡고, 테스트와 리뷰 필요성까지 예상함
- 협업형 markdown editor의 comment system 재설계를 요청했을 때 12-diff 스택이 거의 완성된 상태로 나옴
- 구현 수정이 예상보다 적게 필요했고, 계획에 대한 신뢰도도 GPT-5.4보다 높아짐
- Cursor의 Michael Truell 인용문에서는 더 오래 작업을 지속하고, 조기 중단 없이 복잡하고 장기 실행되는 작업에 더 잘 맞는 특성이 드러남
일반 지식 노동과 컴퓨터 사용
- coding에서 드러난 강점이 일상적인 컴퓨터 업무에도 그대로 이어짐
- 의도를 더 잘 이해하기 때문에 정보 탐색, 중요 정보 선별, 도구 사용, 결과 검증, 원재료를 유용한 산출물로 바꾸는 전 과정을 더 자연스럽게 수행함
- Codex에서 GPT-5.5는 GPT-5.4보다 문서, 스프레드시트, 슬라이드 생성에 더 강함
- alpha 테스터들은 운영 리서치, 스프레드시트 모델링, 정리되지 않은 비즈니스 입력을 계획으로 바꾸는 작업에서 이전 모델보다 낫다고 밝힘
- Codex의 computer use 능력과 결합하면 화면을 보고, 클릭하고, 타이핑하고, 인터페이스를 탐색하며, 여러 도구를 정밀하게 오갈 수 있음
- OpenAI 내부에서도 이미 실제 워크플로에 사용 중이며, 현재 직원의 85% 이상이 매주 Codex 사용 중임
- 소프트웨어 엔지니어링, 재무, 커뮤니케이션, 마케팅, 데이터 사이언스, 제품 관리 전반에 걸쳐 활용됨
- 커뮤니케이션 팀은 6개월치 speaking request 데이터를 분석해 점수화·리스크 프레임워크를 만들고, 저위험 요청은 자동 처리하고 고위험 요청은 사람이 검토하도록 Slack agent를 검증함
- Finance 팀은 24,771개의 K-1 세금 양식, 총 71,637페이지를 검토했고, 개인 정보를 제외하는 워크플로를 통해 전년 대비 2주 앞당김
- Go-to-Market 팀에서는 주간 비즈니스 리포트 생성을 자동화해 주당 5~10시간을 절약함
ChatGPT에서의 GPT-5.5 Thinking과 GPT-5.5 Pro
- ChatGPT의 GPT-5.5 Thinking은 더 어려운 문제에 더 빠르게 답하도록 설계됐고, 더 똑똑하고 간결한 답으로 복잡한 업무를 더 효율적으로 진행하게 함
- coding, research, 정보 종합과 분석, 문서 중심 작업에 강하고 특히 plugin 사용 시 유리함
- GPT-5.5 Pro는 더 어려운 작업과 더 높은 품질을 겨냥하며, 지연 시간이 줄어 실무 적용성이 커짐
- GPT-5.4 Pro 대비 응답이 더 포괄적이고, 구조가 좋고, 정확하고, 관련성이 높고, 유용해짐
- business, legal, education, data science에서 특히 강함
- 전문 업무에 가까운 벤치마크에서도 높은 수치를 제시함
- GDPval 84.9%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%를 기록함
- Tau2-bench Telecom은 prompt tuning 없이 수행됨
- FinanceAgent 60.0%, internal investment-banking modeling tasks 88.5%, OfficeQA Pro 54.1%도 함께 제시됨
- NVIDIA의 Justin Boitano 인용문에서는 NVIDIA GB200 NVL72 시스템 위에서 제공되며, 자연어 프롬프트로 end-to-end 기능을 출하하고, 디버그 시간을 며칠에서 몇 시간으로 줄이며, 수주 걸릴 실험을 하룻밤 진행으로 바꾸는 흐름이 제시됨
과학 연구와 기술 연구 워크플로
- GPT-5.5는 과학·기술 연구 워크플로에서도 성능 향상을 보임
- 어려운 질문에 답하는 수준을 넘어, 아이디어 탐색, 근거 수집, 가정 검증, 결과 해석, 다음 실험 결정까지 이어지는 루프를 더 잘 지속함
- GeneBench에서 GPT-5.4보다 뚜렷한 개선을 보임
- genetics와 quantitative biology의 다단계 데이터 분석을 겨냥한 신규 평가임
- 모호하거나 오류가 있는 데이터, 숨겨진 confounder, QC 실패, 현대 통계 기법의 구현과 해석을 다룸
- 여기의 작업은 과학 전문가에게도 며칠짜리 프로젝트에 해당함
- BixBench에서도 공개 점수가 있는 모델들 가운데 선도적 성능을 기록함
- 실제 bioinformatics와 데이터 분석을 반영한 벤치마크로 소개됨
- biomedical research 최전선에서 co-scientist 수준의 가속 가능성을 보여줌
- 내부 버전 GPT-5.5와 custom harness는 Ramsey numbers에 대한 새로운 증명을 찾는 데도 쓰임
- 새 증명 링크
- combinatorics에서 오래된 off-diagonal Ramsey numbers의 점근 사실에 대한 증명을 찾았고, 이후 Lean으로 검증함
- 코드나 설명을 넘어 핵심 연구 분야에서 유용한 수학적 논증에도 기여함
- 초기 테스터들은 GPT-5.5 Pro를 단발성 답변 엔진보다 연구 파트너에 가깝게 활용함
- 원고를 여러 차례 비판적으로 검토하고, 기술 논증을 stress test하며, 분석을 제안하고, 코드·노트·PDF 문맥과 함께 작업함
- 질문에서 실험, 산출물까지 이어지는 흐름을 더 잘 도와줌
연구 사례
- Jackson Laboratory for Genomic Medicine의 Derya Unutmaz는 GPT-5.5 Pro로 62개 샘플, 약 28,000개 유전자의 gene-expression 데이터셋을 분석함
- 상세 연구 보고서를 생성했고, 결과 요약뿐 아니라 핵심 질문과 통찰까지 드러냄
- 해당 작업은 그의 팀이 수행하면 수개월이 걸릴 규모였음
- Adam Mickiewicz University의 Bartosz Naskręcki는 Codex로 단일 프롬프트에서 11분 만에 algebraic-geometry 앱을 만듦
- 두 개의 quadratic surface 교차를 시각화하고, 결과 곡선을 Weierstrass model로 변환함
- 이후 singularity visualization을 더 안정적으로 만들고, 후속 작업에 재사용 가능한 exact coefficients까지 추가함
- 전용 도구가 필요했던 맞춤형 수학 시각화와 computer-algebra 워크플로 구현에도 Codex가 도움을 줌
- Credit: Bartosz Naskręcki
- Axiom Bio의 Brandon White 인용문에서는 거대한 biochemical dataset을 추론해 human drug outcomes를 예측하고, 가장 어려운 drug discovery 평가에서 의미 있는 정확도 향상이 나타남
추론 인프라와 성능 최적화
- GPT-5.4와 같은 지연 시간으로 GPT-5.5를 서비스하려면, 추론을 개별 최적화 묶음이 아니라 통합 시스템으로 다시 설계해야 했음
- GPT-5.5는 NVIDIA GB200과 GB300 NVL72 시스템을 전제로 공동 설계·학습·서비스됨
- Codex와 GPT-5.5 자체가 성능 목표 달성에 직접 기여함
- Codex는 아이디어를 벤치마크 가능한 구현으로 빠르게 옮기고, 접근법을 스케치하고, 실험을 연결하고, 더 깊은 투자가 필요한 최적화를 찾는 데 쓰임
- GPT-5.5는 스택 내부의 핵심 개선점을 찾아 구현하는 데 도움을 줌
- 결국 모델이 자기 자신을 서비스하는 인프라 개선에도 기여함
- 대표적 개선 사례로 load balancing과 partitioning heuristics를 소개함
- 이전에는 accelerator 위 요청을 고정된 개수의 chunk로 나눠 큰 요청과 작은 요청이 같은 GPU에서 돌도록 했음
- 하지만 정적인 chunk 수는 모든 트래픽 형태에 최적이 아니었음
- Codex가 수주간의 production traffic 패턴을 분석하고, 작업을 최적으로 분할·균형화하는 맞춤형 heuristic 알고리듬을 작성함
- 이 작업으로 token generation speed가 20% 이상 증가함
사이버 보안과 안전장치
- 취약점 탐지와 패치에 능한 모델을 세상에 준비시키는 일은 팀 스포츠에 가깝고, 다음 사이버 방어 시대를 위해 생태계 전체의 회복력이 필요함
- frontier 모델의 cybersecurity 역량이 점점 강해지고 있으며, 이 능력은 널리 퍼질 것이므로 사이버 방어 가속과 생태계 강화에 쓰이게 하는 경로가 중요해짐
- GPT-5.5는 cybersecurity 같은 어려운 문제를 푸는 AI로 가는 점진적이지만 중요한 단계로 위치 지어짐
- GPT-5.2 때 잠재적 cyber 악용을 제한하는 cyber safeguards를 선제 배치함
- GPT-5.5에는 잠재적 cyber risk에 대한 더 엄격한 classifier를 배치했고, 초기에는 일부 사용자에게 거슬릴 수 있음
- OpenAI는 수년간 Preparedness Framework 안에서 cybersecurity를 별도 범주로 다뤘고, 역량 향상에 맞춰 완화 수단도 반복적으로 조정해 옴
- 업계 선도 수준의 safeguards를 이 수준의 cyber capability에 맞춰 배치함
- GPT-5.2에서 cyber-specific safeguard를 처음 도입했고 이후 배포마다 테스트·정제·확장해 옴
- GPT-5.5에는 고위험 활동, 민감한 cyber 요청, 반복 악용에 대한 보호를 더 강화함
- 폭넓은 접근은 모델 안전성, 인증된 사용, 허용되지 않은 사용 모니터링에 대한 투자 덕분에 가능해짐
- 외부 전문가와 수개월간 robustness를 개발·시험·개선함
- 개발자가 코드를 쉽게 보호하도록 하면서도, 악의적 행위자가 해를 끼치기 쉬운 cyber 워크플로에는 더 강한 제어를 둠
- 방어 목적 접근 확대도 함께 진행됨
- 정부 파트너와의 협력도 포함됨
- 세금 데이터 보호용 디지털 시스템, 전력망, 지역 사회의 상수도 같은 중요 인프라를 방어하는 공공 담당자를 고급 AI가 어떻게 지원할지 함께 탐색 중임
- GPT-5.5의 biological/chemical 및 cybersecurity 역량은 Preparedness Framework상 High로 분류됨
- Critical 수준의 cybersecurity capability에는 도달하지 않았지만, 평가와 테스트에서 GPT-5.4보다 한 단계 높아진 cyber 역량이 확인됨
- 출시 전 전체 safety and governance process를 거침
- preparedness 평가, 분야별 테스트, 고급 biology·cybersecurity 대상 신규 타깃 평가, 외부 전문가와의 강건한 테스트를 포함함
- 자세한 내용은 GPT-5.5 system card에서 제공됨
- 이런 접근은 더 강한 모델 시대에 필요한 AI resilience 전략의 일부임
- 강력한 AI를 시스템·기관·공공을 방어하는 사람들에게도 제공해야 하며, 신뢰 기반 접근·역량에 비례해 강화되는 safeguards·심각한 악용을 탐지하고 대응하는 운영 역량이 핵심 경로로 제시됨
사용 가능 플랜과 가격
- 현재 ChatGPT와 Codex에서 GPT-5.5는 Plus, Pro, Business, Enterprise 사용자에게 배포 중이며, GPT-5.5 Pro는 ChatGPT의 Pro, Business, Enterprise에 제공됨
- ChatGPT에서는 GPT-5.5 Thinking이 Plus, Pro, Business, Enterprise에 제공됨
- GPT-5.5 Pro는 더 어려운 질문과 더 높은 정확도를 겨냥하며 Pro, Business, Enterprise에서 사용 가능함
- Codex에서는 GPT-5.5가 Plus, Pro, Business, Enterprise, Edu, Go 플랜에 제공되고, 400K context window를 가짐
- Fast mode도 제공되며, 토큰 생성 속도는 1.5배 빠르고 비용은 2.5배임
- API 개발자용 gpt-5.5는 Responses API와 Chat Completions API에 곧 제공될 예정임
- 입력 1M 토큰당 5달러, 출력 1M 토큰당 30달러, 1M context window로 표기됨
- Batch와 Flex 가격은 표준 API 요금의 절반, Priority processing은 2.5배 요금으로 제공됨
- gpt-5.5-pro도 API에 출시 예정이며, 더 높은 정확도를 목표로 함
- 입력 1M 토큰당 30달러, 출력 1M 토큰당 180달러로 적혀 있음
- 전체 가격 정보는 pricing page에 연결됨
- GPT-5.5는 GPT-5.4보다 가격이 더 높지만, 지능과 토큰 효율도 더 높음
- Codex에서는 대부분 사용자에게 GPT-5.4보다 더 적은 토큰으로 더 좋은 결과를 주도록 경험을 조정함
- 구독 단계 전반에 걸쳐 넉넉한 사용량을 계속 제공함
세부 벤치마크
-
Coding
- SWE-Bench Pro (Public)에서 GPT-5.5는 58.6%, GPT-5.4는 57.7%, Claude Opus 4.7은 64.3%, Gemini 3.1 Pro는 54.2%임
- Terminal-Bench 2.0은 GPT-5.5 82.7%, GPT-5.4 75.1%, Claude Opus 4.7 69.4%, Gemini 3.1 Pro 68.5%임
- Expert-SWE (Internal)은 GPT-5.5 73.1%, GPT-5.4 68.5%로 제시됨
-
전문 업무
- GDPval (wins or ties)은 GPT-5.5 84.9%, GPT-5.4 83.0%, GPT-5.5 Pro 82.3%, GPT-5.4 Pro 82.0%, Claude Opus 4.7 80.3%, Gemini 3.1 Pro 67.3%임
- FinanceAgent v1.1은 GPT-5.5 60.0%, GPT-5.4 56.0%, GPT-5.4 Pro 61.5%, Claude Opus 4.7 64.4%, Gemini 3.1 Pro 59.7%임
- Investment Banking Modeling Tasks (Internal)은 GPT-5.5 88.5%, GPT-5.4 87.3%, GPT-5.5 Pro 88.6%, GPT-5.4 Pro 83.6%임
- OfficeQA Pro는 GPT-5.5 54.1%, GPT-5.4 53.2%, Claude Opus 4.7 43.6%, Gemini 3.1 Pro 18.1%임
-
컴퓨터 사용과 비전
- OSWorld-Verified는 GPT-5.5 78.7%, GPT-5.4 75.0%, Claude Opus 4.7 78.0%임
- MMMU Pro (no tools)는 GPT-5.5와 GPT-5.4가 81.2% 로 같고, Gemini 3.1 Pro는 80.5%임
- MMMU Pro (with tools)는 GPT-5.5 83.2%, GPT-5.4 82.1%임
-
도구 사용
- BrowseComp는 GPT-5.5 84.4%, GPT-5.4 82.7%, GPT-5.5 Pro 90.1%, GPT-5.4 Pro 89.3%, Claude Opus 4.7 79.3%, Gemini 3.1 Pro 85.9%임
- MCP Atlas는 GPT-5.5 75.3%, GPT-5.4 70.6%, Claude Opus 4.7 79.1%, Gemini 3.1 Pro 78.2%임
- Toolathlon은 GPT-5.5 55.6%, GPT-5.4 54.6%, Gemini 3.1 Pro 48.8%임
- Tau2-bench Telecom은 원래 프롬프트 기준 GPT-5.5 98.0%, GPT-5.4 92.8%임
- MCP Atlas 주석에는 Scale AI의 2026년 4월 최신 업데이트 이후 결과라고 적혀 있음
- Tau2-bench Telecom 주석에는 prompt adjustment 없이 평가한 결과이며, 타 연구소의 prompt adjustment 결과는 제외했다고 명시됨
-
학술
- GeneBench는 GPT-5.5 25.0%, GPT-5.4 19.0%, GPT-5.5 Pro 33.2%, GPT-5.4 Pro 25.6%임
- FrontierMath Tier 1–3은 GPT-5.5 51.7%, GPT-5.4 47.6%, GPT-5.5 Pro 52.4%, GPT-5.4 Pro 50.0%, Claude Opus 4.7 43.8%, Gemini 3.1 Pro 36.9%임
- FrontierMath Tier 4는 GPT-5.5 35.4%, GPT-5.4 27.1%, GPT-5.5 Pro 39.6%, GPT-5.4 Pro 38.0%, Claude Opus 4.7 22.9%, Gemini 3.1 Pro 16.7%임
- BixBench는 GPT-5.5 80.5%, GPT-5.4 74.0%임
- GPQA Diamond는 GPT-5.5 93.6%, GPT-5.4 92.8%, GPT-5.4 Pro 94.4%, Claude Opus 4.7 94.2%, Gemini 3.1 Pro 94.3%임
- Humanity's Last Exam (no tools)는 GPT-5.5 41.4%, GPT-5.4 39.8%, GPT-5.5 Pro 43.1%, GPT-5.4 Pro 42.7%, Claude Opus 4.7 46.9%, Gemini 3.1 Pro 44.4%임
- Humanity's Last Exam (with tools)는 GPT-5.5 52.2%, GPT-5.4 52.1%, GPT-5.5 Pro 57.2%, GPT-5.4 Pro 58.7%, Claude Opus 4.7 54.7%, Gemini 3.1 Pro 51.4%임
-
사이버 보안
- Capture-the-Flags challenge tasks (Internal)은 GPT-5.5 88.1%, GPT-5.4 83.7%임
- CyberGym은 GPT-5.5 81.8%, GPT-5.4 79.0%, Claude Opus 4.7 73.1%임
- 주석에는 system card에 쓰인 가장 어려운 CTF를 확장하고 추가 고난도 챌린지를 더한 결과라고 적혀 있음
-
긴 문맥
- Graphwalks BFS 256k f1은 GPT-5.5 73.7%, GPT-5.4 62.5%, Claude Opus 4.7 76.9%임
- Graphwalks BFS 1mil f1은 GPT-5.5 45.4%, GPT-5.4 9.4%, Claude Opus 4.6은 41.2%임
- Graphwalks parents 256k f1은 GPT-5.5 90.1%, GPT-5.4 82.8%, Claude Opus 4.7 93.6%임
- Graphwalks parents 1mil f1은 GPT-5.5 58.5%, GPT-5.4 44.4%, Claude Opus 4.6은 72.0%임
- OpenAI MRCR v2 8-needle은 문맥 길이별로 제시되며, 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5%, 512K-1M 74.0%임
- 같은 항목에서 GPT-5.4는 각각 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5%, 36.6%임
- 128K-256K 구간에는 Claude Opus 4.7 59.2%, 512K-1M 구간에는 Claude Opus 4.7 32.2%가 표기됨
-
추상 추론
- ARC-AGI-1 (Verified)은 GPT-5.5 95.0%, GPT-5.4 93.7%, GPT-5.4 Pro 94.5%, Claude Opus 4.7 93.5%, Gemini 3.1 Pro 98.0%임
- ARC-AGI-2 (Verified)는 GPT-5.5 85.0%, GPT-5.4 73.3%, GPT-5.4 Pro 83.3%, Claude Opus 4.7 75.8%, Gemini 3.1 Pro 77.1%임
- GPT 계열 평가는 reasoning effort를 xhigh로 설정한 연구 환경에서 수행됐고, 일부 경우 생산 환경 ChatGPT와 출력이 약간 다를 수 있다고 명시됨
-
Homepage
-
Tech blog
- GPT-5.5 공개