GPT-5.5 Codex의 추론 토큰 클러스터링이 성능 저하로 이어질 수 있음

4 hours ago 5

OpenAI Codex 이슈 #30364는 gpt-5.5 응답의 reasoning_output_tokens가 516, 1034, 1552 같은 고정값에 몰리는 현상이 복잡한 Codex 작업의 품질 저하와 관련될 수 있다고 보고함
분석 대상은 2026년 2월 1일~6월 27일 UTC의 Codex token_count 메타데이터이며, 390,195개 응답 레코드와 865개 세션에서 exact 516 이벤트 3,363건이 확인됨
gpt-5.5는 전체 응답의 19.3%였지만 exact-516 이벤트의 82.0% 를 차지했고, reasoning_output_tokens >= 516 중 exact 516 비율은 44.0%로 non-GPT-5.5의 1.3%보다 훨씬 높았음
월별 exact-516 비율은 2026년 2월 0.11%에서 5월 53.30%, 6월 35.84%로 증가했지만, 같은 기간 평균 및 P90 추론 토큰 수는 낮아져 단순히 추론 토큰 사용량이 늘어난 현상은 아니었음
이후 댓글에서는 Codex CLI, Codex Desktop, OpenCode에서 유사한 516 클러스터링과 일부 오답 재현이 공유됐고, 임시 대응으로 518·n−2 패턴을 감지해 추론을 이어가는 로컬 프록시도 제안됨

이슈의 핵심 문제

Codex 이슈 #30364는 gpt-5.5 응답의 token_count 메타데이터에서 reasoning_output_tokens = 516에 과도하게 몰리는 패턴을 보고함
추가로 1034, 1552 근처에서도 고정 경계처럼 보이는 스파이크가 나타난다고 함
제기된 범위는 숨겨진 chain-of-thought 절단을 증명한다는 주장이 아님
- 더 좁은 주장은 Codex 텔레메트리에서 gpt-5.5에 특이적인 고정 토큰 클러스터링 이상 현상이 보인다는 것
- 이 패턴이 임계값 기반 추론 예산 동작과 일관돼 보인다는 수준의 문제 제기임
관련 이슈 #29353는 gpt-5.5 실행이 정확히 516 reasoning tokens에서 끝나며 잘못된 답을 반환한 작업 단위 재현을 다뤘고, 이번 이슈는 더 큰 기간의 집계 증거를 추가함

분석 환경과 데이터

제품은 Codex, 가장 관련된 모델은 gpt-5.5
데이터 소스는 Codex token_count 메타데이터
분석 기간은 2026년 2월 1일~6월 27일 UTC
집계 수치:
- 응답 수준 토큰 레코드: 390,195개
- 세션: 865개
- exact reasoning_output_tokens = 516 이벤트: 3,363건
- gpt-5.5의 전체 응답 비중: 19.3%
- gpt-5.5의 exact-516 이벤트 비중: 82.0%
- gpt-5.5 exact-516 / >=516 비율: 44.0%
- non-GPT-5.5 exact-516 / >=516 비율: 1.3%

모델별·월별 패턴

모델별 exact 516 / >=516 비율은 gpt-5.5에서 가장 두드러짐
- gpt-5.5: 75,401개 레코드, 44.0%
- gpt-5.4: 25,214개 레코드, 19.8%
- gpt-5.2: 247,575개 레코드, 0.34%
- gpt-5.3-codex: 13,333개 레코드, 0.0%
- gpt-5.3-codex-spark: 26,179개 레코드, 0.0%
월별 exact-516 클러스터링은 2026년 5월에 급증함
- 2월: 0.11%
- 3월: 2.45%
- 4월: 4.25%
- 5월: 53.30%
- 6월: 35.84%
같은 기간 전체 추론 토큰 강도는 낮아짐
- 평균 reasoning tokens: 2월 268.1 → 5월 106.9 → 6월 168.5
- P90 reasoning tokens: 2월 772 → 5월 344 → 6월 515
이 조합 때문에 exact-516 증가는 단순한 추론 토큰 사용량 증가로 설명하기 어렵다는 문제가 제기됨

요청된 내부 검증 항목

Codex 팀에 gpt-5.5의 추론 예산, 라우팅, 절단, fallback, scheduler 동작이 516/1034/1552 근처 종료를 유발하는지 조사해 달라고 요청함
해당 동작이 의도된 것이라면 exact 516이 정상 종료 지점인지, 예산 상한인지, degraded tier인지, 다른 내부 임계값인지 알려 달라는 요청이 포함됨
제안된 검증 절차:
- 모델별 reasoning_output_tokens가 포함된 token_count 이벤트 조회
- 0, 516, 1034, 1552 exact-value 카운트 비교
- 모델·일자별 count(reasoning_output_tokens = 516) / count(reasoning_output_tokens >= 516) 계산
- gpt-5.5와 gpt-5.2, gpt-5.4, Codex 전용 변형 비교
- GPT-5.2와 GPT-5.5에서 복잡한 작업을 다시 실행하고, exact-516 응답과 더 긴 reasoning 응답을 분리해 품질 평가

댓글에서 나온 추가 재현과 교차 데이터

GitHub Actions는 관련 중복 후보로 #29353을 표시함
여러 사용자가 같은 문제를 겪었다고 댓글을 남겼고, 한 사용자는 이전 이슈보다 이번 이슈가 더 데이터 기반 보고라고 평가함
sinnet3000은 Codex CLI와 OpenCode의 로컬 세션 저장소에서 교차 클라이언트 데이터를 제시함
- Codex ~/.codex/sessions와 archived_sessions의 약 22.7k token_count 이벤트에서 gpt-5.5는 records 4,300, >=516 156, exact 516 88, 비율 56.4%
- OpenCode opencode.db의 약 32.1k assistant messages에서 gpt-5.5는 records 6,977, >=516 126, exact 516 90, 비율 71.4%
- Kimi, DeepSeek, MiMo, MiniMax, Gemini, Qwen, GLM 등 볼륨이 있는 non-OpenAI 모델 합산 약 24k records에서는 exact 516이 0건
- 이 데이터는 답의 정오답을 평가하지 않았고, exact 516 클러스터링 존재 여부만 확인했다는 caveat가 붙음
kyleboddy는 Windows 11 Codex Desktop에서 관련된 행동 차이를 보고함
- 5개 fresh projectless Codex Desktop threads에서 같은 candy prompt를 실행
- 빠른 direct-final_answer 실행은 29를 반환해 오답
- 더 느리고 commentary가 먼저 나온 실행들은 21을 반환해 정답
- fresh Windows-host Desktop threads에서는 exact reasoning_output_tokens를 추출하지 못했으므로 해당 오답 실행이 정확히 516이었다고 말할 수는 없다고 밝힘
같은 사용자는 로컬 세션 메타데이터에서 gpt-5.5 / xhigh의 고정값 클러스터링도 집계함
- records 16,141, sessions 51, 평균 reasoning 149.7, P90 429
- =516 438건, >=516 1,298건, 비율 33.74%
- =1034 52건, =1552 14건, =2070 16건, =2588 12건, =3106 5건

Codex Linux CLI 재현 결과

kyleboddy는 Codex Linux CLI에서도 동일 candy prompt를 사용해 재현했다고 함
환경:
- 제품: Codex CLI
- 버전: codex-cli 0.142.5
- 플랫폼: Ubuntu Linux 6.8.0-111-generic, x86_64
- Node: v24.14.0
- 인증 모드: ChatGPT
- 테스트 모델: gpt-5.5
- reasoning efforts: xhigh, high
- 대조 모델: gpt-5.4 xhigh
prompt는 외부 도구를 쓰지 말고, 촉각으로 shape를 구분할 수 있는 candy bag 문제의 최소 draw 수를 묻는 내용임
기대 답은 brute-force enumeration으로 21이라고 독립 확인함
- shape를 촉각으로 구분할 수 있으므로 9 round + 12 star candies를 계획할 수 있다는 설명이 포함됨
결과:
- gpt-5.5 xhigh 완료된 4회 실행은 모두 reasoning_output_tokens = 516이었고, 최종 답 23, 26, 28, 15로 모두 오답
- gpt-5.5 high 3회 실행도 모두 516이었고, 답은 22, 21, 27로 1회만 정답
- gpt-5.4 xhigh 3회 실행은 6211, 12274, 10876 reasoning tokens를 사용했고 모두 21로 정답
이 결과는 gpt-5.5가 Codex에서 고정 516-token 경로에 들어갈 수 있고, 그 경로가 작업 품질 저하와 상관될 수 있다는 좁은 주장에 힘을 보탬

임시 우회책 제안

dzshzx는 upstream fix를 기다리는 동안 Codex 앞단에 두는 로컬 Responses 프록시 codexcomp를 제안함
동작 방식은 518·n−2 패턴을 절단으로 간주하고 추론을 이어가는 구조임
- reasoning_tokens == 518·n − 2, 즉 516, 1034, 1552 등으로 끝난 round를 truncated로 처리
- tentative output을 버리고, 해당 round의 reasoning items와 encrypted_content를 다음 입력으로 재생
- phase:"commentary"와 "Continue thinking..." 메시지를 함께 넣음
- 모든 round를 하나의 downstream response로 접어 Codex에는 완성된 답처럼 보이게 함
설정은 공식 top-level openai_base_url 키를 사용함
- 예: openai_base_url = "http://127.0.0.1:8787/v1";
- built-in openai provider는 유지돼 session grouping, remote compaction, remote-control이 계속 동작한다고 함
실제 로그 예시는 두 번 연속 516 이후 세 번째 round에서 clean 종료하고 최종 답이 맞은 사례를 제시함
- round 1: reason=516 → continue
- round 2: reason=516 → continue
- round 3: reason=291 → clean
caveat:
- 비공식 우회책이며 upstream의 비계약 동작에 의존함
- continuation round는 추가 실제 토큰을 사용함
- n window와 3-continuation cap으로 제한됨
- loopback-only, auth passthrough이며 credentials를 읽거나 저장하지 않는다고 함