GitHub에 현재 장애 발생 중
3 hours ago
3
Pull Requests 성능 저하 가 진행 중이며, /pulls와 /repo/pulls 페이지에서 인덱싱된 pull request 전체가 보이지 않을 수 있음
현재 Elasticsearch 클러스터 에 모든 인덱싱 문서가 들어 있지 않지만, pull request 데이터 자체는 유실되지 않았고 갱신 시 다시 인덱싱됨
남아 있는 인덱스를 재인덱싱 하는 작업과 전체 결과 복구를 위한 full reindex 가속 작업이 함께 진행 중이며, 정확성과 추가 영향 회피를 우선함
컴포넌트 상태 표에서는 Pull Requests만 저하 상태 로 표시되고, Git Operations·Webhooks·API Requests·Issues·Actions·Packages·Pages·Copilot·Codespaces·Copilot AI Model Providers는 Operational 상태임
최근 이력에는 검색 저하, Actions 작업 실패, Copilot agent 세션 시작 실패, merge queue 회귀, Projects 지연, Codespaces 연결 실패 같은 여러 장애 사례와 복구 조치 가 함께 공개돼 있음
현재 장애 상태
Pull Requests 에서 성능 저하가 진행 중이며, Incomplete pull request results in repositories 항목으로 공개돼 있음
/pulls와 /repo/pulls 페이지에서 인덱싱된 pull request 전체가 보이지 않을 수 있음
Elasticsearch 클러스터에 현재 모든 인덱싱 문서가 들어 있지 않음
pull request 데이터 자체는 유실되지 않았음
pull request가 갱신되면 다시 인덱싱됨
전체 결과 복구를 위해 full reindex 가속 작업 도 함께 진행 중임
남아 있는 Elasticsearch 인덱스를 재인덱싱 중 이며, 정확성을 우선하고 추가 영향은 피하는 방향으로 처리 중임
데이터를 안전하게 backfill하는 신중한 접근 을 유지 중임
컴포넌트 상태
현재 상태 표에서 Pull Requests 만 Degraded Performance로 표시됨
나머지 주요 컴포넌트는 Operational 상태임
Git Operations
Webhooks
API Requests
Issues
Actions
Packages
Pages
Copilot
Codespaces
Copilot AI Model Providers
지난 90일 가동률도 함께 제공됨
Pull Requests 99.58% uptime
API Requests 99.95% uptime
Packages 99.97% uptime
Copilot AI Model Providers 100.0% uptime
지역별 상태 페이지와 구독 경로
GitHub Enterprise Cloud 지역별 상태 페이지를 별도로 제공함
상태 알림 구독 채널도 제공함
최근 장애 이력
Apr 28 일부 GitHub 서비스 장애
Disruption with some GitHub services 항목은 해결됨
Actions hosted Ubuntu 작업에서 시작 지연과 실패 가 발생함
ubuntu-latest와 ubuntu-24.04 실행 일부가 지연되거나 실패함
한때 약 5% 작업 이 영향받았고, 이후 2% 미만 , 다시 1% 미만 으로 줄어듦
Actions 실행을 막던 문제를 완화했고, 최종적으로 정상 동작으로 복구됨
Apr 27 GitHub 검색 저하
GitHub search is degraded 항목은 해결됨
Elasticsearch 연결 문제와 추가 부하로 검색 실패 와 여러 하위 서비스 문제가 함께 발생함
Issues, Pull Requests, Packages, Actions가 영향받음
workflow run 실패, projects 로딩 실패, search timeout이 발생함
추가 부하 원인을 차단한 뒤 복구 조짐이 나타났고, 이후 안정화 모니터링으로 전환됨
Apr 27 Copilot Cloud Agent Codex 세션 장애
Disruption with some GitHub services 항목은 해결됨
Copilot Cloud Agent에서 Codex agent 세션 시작 실패 가 발생함
이슈 할당과 @copilot 코멘트 멘션 등 모든 진입점에서 시작되지 않음
전체 Copilot Cloud Agent 작업의 0.5% , 약 2,000개 실패 작업 이 영향받음
Copilot의 다른 agent 세션은 영향받지 않음
Codex agent 세션의 model resolution mismatch 로 런타임에 호환되지 않는 모델이 선택된 것이 원인임
Codex agent 세션에 안정적인 기본 모델을 선택하도록 완화 조치를 배포함
근본 원인 공개가 포함된 주요 사례
Pull Requests merge queue 회귀
Incident with Pull Requests 는 해결됨
merge queue에서 squash merge 방식 을 사용할 때, merge group에 PR이 둘 이상이면 잘못된 merge commit이 생성됨
이후 병합에서 이전 PR 변경분과 이전 commit 변경분이 되돌려질 수 있었음
영향 구간 동안 2,092개 pull request 가 영향받음
merge queue 밖에서 병합한 PR과 merge 또는 rebase 방식을 쓴 일부 그룹은 영향받지 않음
merge base 계산을 조정하는 새 코드 경로가 완전하지 않은 feature flag gating 상태로 적용된 것이 원인임
코드 변경을 되돌리고 전체 환경에 강제 배포했으며, 영향 저장소 관리자에게 복구 절차 를 별도로 전달함
이후 다중 PR squash 그룹까지 포함하는 merge correctness 테스트 범위 를 확장 중임
Claude·Codex agent 웹 시작 불가
Copilot @멘션 처리 누락
Disruption with some GitHub services 는 해결됨
pull request 코멘트의 @copilot 멘션이 Copilot coding agent 실행으로 이어지지 않음
전체 pull request·issue 코멘트 중 약 23,000회 호출 , 전체의 0.5% 가 처리되지 않음
코멘트 생성·조회·답글 자체는 영향받지 않음
downstream consumer로 이벤트를 발행하지 못하게 한 serialization error 가 원인임
이벤트 발행 복구용 수정 배포 후 정상 처리로 돌아왔고, 관련 이벤트 스키마 점검과 모니터링 개선을 진행 중임
Copilot Chat 및 Cloud Agent 중단
Projects 서비스 지연
Disruption with projects service 는 해결됨
Projects가 동기화되지 않거나 변경 반영이 지연 될 수 있었음
serialization error가 이벤트 실패와 resync 급증을 일으켜 이벤트 처리 계층을 과부하시킨 것이 원인임
들어오는 변경 처리 속도를 높여 완화했고, 이후 backlog를 소진하며 복구함
코드 스캐닝 기본 설정·Code Quality 저하
Partial degradation for code scanning default setup and for code quality 는 해결됨
새 pull request에서 code scanning default setup 과 code quality 분석 이 트리거되지 않았음
새로 만든 issue가 project board에 보이지 않는 문제도 함께 발생함
serialization error로 코드 스캐닝, 코드 품질 분석, project board 업데이트가 제대로 트리거되지 않은 것이 원인임
code scanning·code quality 이벤트 발행을 복구했고, project board 쪽은 추가 코드 변경과 reindex 로 복구함
incident 이전이나 도중에 처리되지 않은 PR은 새 push가 있어야 분석이 다시 트리거됨
기타 최근 장애 사례
Disruption with some GitHub services
GitHub.com 웹 경험이 저하됐고, 약 1.5% 웹 요청 이 오류로 끝남
일부 시점에는 웹 트래픽의 약 10% 가 느려지거나 실패함
한 데이터센터 지역의 캐시 컴포넌트 용량 포화 가 원인임
영향 없는 지역으로 트래픽을 우회하고 최근 배포를 롤백해 복구함
Incident with Codespaces
VS Code editor를 통한 GitHub Codespaces 연결이 실패함
약 40% codespace start 작업 이 실패함
SSH 연결은 영향받지 않음
upstream download service 장애로 시작 시 필요한 VS Code Server 다운로드 가 막힌 것이 원인임
기본 엔드포인트가 저하될 때 대체 다운로드 경로를 쓰는 우회책으로 완화함
Disruption with some GitHub services
GitHub Enterprise Cloud의 Copilot Insights 페이지 접근 시 500 오류가 발생함
약 709명 사용자 가 영향받았고, 총 영향 시간은 약 5시간 10분 임
metrics pipeline의 인증 실패와 tenant credential 변경이 원인임
진단 도구, 더 세밀한 모니터링, alerting 강화를 진행 중임
Homepage
Tech blog
GitHub에 현재 장애 발생 중
🔉 볼륨 줄이기
🔊 볼륨 키우기
🔇 음소거
⏭️ 다음 곡