마이크로서비스를 위한 Chaos 엔지니어링

23 hours ago 2

마이크로서비스와 클라우드 환경에서 장애는 피할 수 없기 때문에, Chaos Engineering을 통해 사전에 시스템 회복력을 강화해야 함
Chaos Toolkit과 Chaos Monkey는 각각 범용성과 Java(Spring Boot) 특화 환경에서 강력한 장애 테스트 도구로 활용됨
Kubernetes, Istio 기반 실험을 통해 네트워크 지연, 서비스 중단, 리전 장애 등 다양한 현실적 장애 시나리오를 시뮬레이션 가능
Chaos Engineering은 CI/CD 파이프라인에 통합함으로써 프로덕션 이전에 장애 대응력을 자동 검증할 수 있음
핵심은 ‘파괴’가 아닌 ‘신뢰 구축’이며, 작게 시작하고 점진적으로 혼란 수준을 늘려가는 전략이 권장됨

마이크로서비스를 위한 Chaos Engineering

용도
- Chaos Toolkit : 다양한 플랫폼과 환경에서 사용할 수 있는 범용 Chaos 실험 프레임워크
- Chaos Monkey (Spring Boot 전용) : Java Spring Boot 애플리케이션 전용 장애 시뮬레이션 도구
설정 방식
- Chaos Toolkit : JSON/YAML 기반 선언적 구성 방식을 사용하여 실험 정의
- Chaos Monkey : application.yml 설정 파일과 Spring Boot Actuator 연동을 통해 구성
지원 언어 및 환경
- Chaos Toolkit : 멀티 언어 및 멀티 플랫폼 환경 지원 (Node.js, Java, Kubernetes 등)
- Chaos Monkey : Java(Spring Boot) 기반 애플리케이션에 특화됨
지원 장애 유형
- Chaos Toolkit : 네트워크 장애, Pod 종료, CPU/메모리 스트레스, 사용자 정의 실패 등 광범위한 장애 실험 지원
- Chaos Monkey : 지연(Latency), 예외(Exceptions), 서비스 중단(KillApp) 등 애플리케이션 계층 중심의 장애 삽입
연동 가능 시스템
- Chaos Toolkit : Kubernetes, Istio, Azure, Prometheus 등과 통합 가능
- Chaos Monkey : Spring Boot Actuator API와 직접 통합하여 Spring 내부 구성요소 대상

Chaos Toolkit
- Kubernetes 기반 배포 환경
- 멀티 클라우드 또는 멀티 언어 서비스
- 복합 장애 시나리오 구성 시
Chaos Monkey
- Java 기반 Spring Boot 앱
- 메서드 레벨 예외/지연 테스트
- 간단하고 내장된 방식 선호 시

chaos report 명령어로 실험 결과 요약
결과 해석:
- 정상 상태 유지 → 회복력 확보
- 이상 탐지 → 로그 및 모니터링 분석 필요
- 연쇄 장애 발생 → 회로 차단기 도입, 리팩터링 고려

감시 대상: @Controller, @Service, @Repository, @RestController
삽입 가능한 장애:
- Latency Assault: 인위적 지연
- Exception Assault: 예외 발생
- KillApp Assault: 전체 애플리케이션 중단