GitHub에 현재 장애 발생 중

3 hours ago 3
  • Pull Requests 성능 저하가 진행 중이며, /pulls와 /repo/pulls 페이지에서 인덱싱된 pull request 전체가 보이지 않을 수 있음
  • 현재 Elasticsearch 클러스터에 모든 인덱싱 문서가 들어 있지 않지만, pull request 데이터 자체는 유실되지 않았고 갱신 시 다시 인덱싱됨
  • 남아 있는 인덱스를 재인덱싱하는 작업과 전체 결과 복구를 위한 full reindex 가속 작업이 함께 진행 중이며, 정확성과 추가 영향 회피를 우선함
  • 컴포넌트 상태 표에서는 Pull Requests만 저하 상태로 표시되고, Git Operations·Webhooks·API Requests·Issues·Actions·Packages·Pages·Copilot·Codespaces·Copilot AI Model Providers는 Operational 상태임
  • 최근 이력에는 검색 저하, Actions 작업 실패, Copilot agent 세션 시작 실패, merge queue 회귀, Projects 지연, Codespaces 연결 실패 같은 여러 장애 사례와 복구 조치가 함께 공개돼 있음

현재 장애 상태

  • Pull Requests에서 성능 저하가 진행 중이며, Incomplete pull request results in repositories 항목으로 공개돼 있음
  • /pulls와 /repo/pulls 페이지에서 인덱싱된 pull request 전체가 보이지 않을 수 있음
    • Elasticsearch 클러스터에 현재 모든 인덱싱 문서가 들어 있지 않음
    • pull request 데이터 자체는 유실되지 않았음
    • pull request가 갱신되면 다시 인덱싱됨
    • 전체 결과 복구를 위해 full reindex 가속 작업도 함께 진행 중임
  • 남아 있는 Elasticsearch 인덱스를 재인덱싱 중이며, 정확성을 우선하고 추가 영향은 피하는 방향으로 처리 중임
    • 데이터를 안전하게 backfill하는 신중한 접근을 유지 중임

컴포넌트 상태

  • 현재 상태 표에서 Pull Requests만 Degraded Performance로 표시됨
  • 나머지 주요 컴포넌트는 Operational 상태임
    • Git Operations
    • Webhooks
    • API Requests
    • Issues
    • Actions
    • Packages
    • Pages
    • Copilot
    • Codespaces
    • Copilot AI Model Providers
  • 지난 90일 가동률도 함께 제공됨
    • Pull Requests 99.58% uptime
    • API Requests 99.95% uptime
    • Packages 99.97% uptime
    • Copilot AI Model Providers 100.0% uptime

지역별 상태 페이지와 구독 경로

최근 장애 이력

  • Apr 28 일부 GitHub 서비스 장애

    • Disruption with some GitHub services 항목은 해결됨
    • Actions hosted Ubuntu 작업에서 시작 지연과 실패가 발생함
      • ubuntu-latest와 ubuntu-24.04 실행 일부가 지연되거나 실패함
      • 한때 약 5% 작업이 영향받았고, 이후 2% 미만, 다시 1% 미만으로 줄어듦
    • Actions 실행을 막던 문제를 완화했고, 최종적으로 정상 동작으로 복구됨
  • Apr 27 GitHub 검색 저하

    • GitHub search is degraded 항목은 해결됨
    • Elasticsearch 연결 문제와 추가 부하로 검색 실패와 여러 하위 서비스 문제가 함께 발생함
      • Issues, Pull Requests, Packages, Actions가 영향받음
      • workflow run 실패, projects 로딩 실패, search timeout이 발생함
    • 추가 부하 원인을 차단한 뒤 복구 조짐이 나타났고, 이후 안정화 모니터링으로 전환됨
  • Apr 27 Copilot Cloud Agent Codex 세션 장애

    • Disruption with some GitHub services 항목은 해결됨
    • Copilot Cloud Agent에서 Codex agent 세션 시작 실패가 발생함
      • 이슈 할당과 @copilot 코멘트 멘션 등 모든 진입점에서 시작되지 않음
      • 전체 Copilot Cloud Agent 작업의 0.5%, 약 2,000개 실패 작업이 영향받음
      • Copilot의 다른 agent 세션은 영향받지 않음
    • Codex agent 세션의 model resolution mismatch로 런타임에 호환되지 않는 모델이 선택된 것이 원인임
    • Codex agent 세션에 안정적인 기본 모델을 선택하도록 완화 조치를 배포함

근본 원인 공개가 포함된 주요 사례

  • Pull Requests merge queue 회귀

    • Incident with Pull Requests는 해결됨
    • merge queue에서 squash merge 방식을 사용할 때, merge group에 PR이 둘 이상이면 잘못된 merge commit이 생성됨
      • 이후 병합에서 이전 PR 변경분과 이전 commit 변경분이 되돌려질 수 있었음
      • 영향 구간 동안 2,092개 pull request가 영향받음
    • merge queue 밖에서 병합한 PR과 merge 또는 rebase 방식을 쓴 일부 그룹은 영향받지 않음
    • merge base 계산을 조정하는 새 코드 경로가 완전하지 않은 feature flag gating 상태로 적용된 것이 원인임
    • 코드 변경을 되돌리고 전체 환경에 강제 배포했으며, 영향 저장소 관리자에게 복구 절차를 별도로 전달함
    • 이후 다중 PR squash 그룹까지 포함하는 merge correctness 테스트 범위를 확장 중임
  • Claude·Codex agent 웹 시작 불가

    • Disruption with users unable to start Claude and Codex agent task from the web는 해결됨
    • github.com에서 Claude 또는 Codex agent로 새 agent task를 시작할 수 없었음
    • Copilot mission control의 task creation request 라우팅 코드 변경이 원인임
    • 진행 중인 agent task와 다른 Copilot agent 기능은 영향받지 않음
    • 문제를 일으킨 변경을 되돌려 복구했고, task 생성 경로에 추가 모니터링과 통합 테스트를 넣고 있음
  • Copilot @멘션 처리 누락

    • Disruption with some GitHub services는 해결됨
    • pull request 코멘트의 @copilot 멘션이 Copilot coding agent 실행으로 이어지지 않음
      • 전체 pull request·issue 코멘트 중 약 23,000회 호출, 전체의 0.5% 가 처리되지 않음
      • 코멘트 생성·조회·답글 자체는 영향받지 않음
    • downstream consumer로 이벤트를 발행하지 못하게 한 serialization error가 원인임
    • 이벤트 발행 복구용 수정 배포 후 정상 처리로 돌아왔고, 관련 이벤트 스키마 점검과 모니터링 개선을 진행 중임
  • Copilot Chat 및 Cloud Agent 중단

    • Disruption with Copilot chat and Copilot Coding Agent는 해결됨
    • github.com의 Copilot Chat과 Copilot Cloud Agent에서 오류가 발생했고, 그 시간 동안 사용할 수 없었음
    • preview 상태의 Copilot Memory도 agent 세션에서 사용할 수 없었음
    • 인프라 설정 변경으로 데이터베이스 연결 문제가 생긴 것이 원인임
    • github.com은 먼저 복구됐고, 나머지 지역 배포는 순차적으로 복구됨
  • Projects 서비스 지연

    • Disruption with projects service는 해결됨
    • Projects가 동기화되지 않거나 변경 반영이 지연될 수 있었음
      • 변경 반영 지연은 최대 약 45분까지 커짐
    • serialization error가 이벤트 실패와 resync 급증을 일으켜 이벤트 처리 계층을 과부하시킨 것이 원인임
    • 들어오는 변경 처리 속도를 높여 완화했고, 이후 backlog를 소진하며 복구함
  • 코드 스캐닝 기본 설정·Code Quality 저하

    • Partial degradation for code scanning default setup and for code quality는 해결됨
    • 새 pull request에서 code scanning default setupcode quality 분석이 트리거되지 않았음
    • 새로 만든 issue가 project board에 보이지 않는 문제도 함께 발생함
    • serialization error로 코드 스캐닝, 코드 품질 분석, project board 업데이트가 제대로 트리거되지 않은 것이 원인임
    • code scanning·code quality 이벤트 발행을 복구했고, project board 쪽은 추가 코드 변경과 reindex로 복구함
    • incident 이전이나 도중에 처리되지 않은 PR은 새 push가 있어야 분석이 다시 트리거됨

기타 최근 장애 사례

  • Disruption with some GitHub services
    • GitHub.com 웹 경험이 저하됐고, 약 1.5% 웹 요청이 오류로 끝남
    • 일부 시점에는 웹 트래픽의 약 10% 가 느려지거나 실패함
    • 한 데이터센터 지역의 캐시 컴포넌트 용량 포화가 원인임
    • 영향 없는 지역으로 트래픽을 우회하고 최근 배포를 롤백해 복구함
  • Incident with Codespaces
    • VS Code editor를 통한 GitHub Codespaces 연결이 실패함
    • 40% codespace start 작업이 실패함
    • SSH 연결은 영향받지 않음
    • upstream download service 장애로 시작 시 필요한 VS Code Server 다운로드가 막힌 것이 원인임
    • 기본 엔드포인트가 저하될 때 대체 다운로드 경로를 쓰는 우회책으로 완화함
  • Disruption with some GitHub services
    • GitHub Enterprise Cloud의 Copilot Insights 페이지 접근 시 500 오류가 발생함
    • 709명 사용자가 영향받았고, 총 영향 시간은 약 5시간 10분
    • metrics pipeline의 인증 실패와 tenant credential 변경이 원인임
    • 진단 도구, 더 세밀한 모니터링, alerting 강화를 진행 중임
Read Entire Article