카오스 테스트 (Chaos Test)

1. 카오스 테스트 (Chaos Test)

  • 시스템 신뢰성 확인을 위해 운영 시스템에 각종 장애를 주입하여 문제 발생 여부를 테스트하는 기법

 
2. 카오스 테스트 단계 별 수행 절차 및 세부 절차 설명

(1) 카오스 테스트 단계 별 수행 절차

(2) 카오스 테스트 단계 별 세부 절차 설명

단계세부 절차사례
정상 상태– 시스템의 측정 가능한 값을 이용하여 정상 동작 상태를 정량적으로 측정– CPU/Memory Usage
– Disk/Network I/O
가설 수립– 항상 정상 상태를 유지한다는 가설을 기반으로 주요 테스트 시나리오 작성– CPU 100% Usage
– DDoS 공격
실험 디자인– 실험 가설 선택, 실험 범위/규칙 설정
– 측정 지표 선정, 실험 계획 알림
– 최소 단위 작업 범위
– DDoS 최소화
결과 확인– 정상 지표와 테스트 결과를 비교하여 가설 검증 및 문제점 확인– 장애 감지 시간
– 전파, 알림, 복구 시간
문제점 수정– 발생된 문제점에 대해 문제점 수정 및 지속 개선– 접속 지연 회소화
– SLA 보장 방안 수립
  • 카오스 테스트는 최소 작업 범위의 Canary 배포 방식 테스트로 수행하며, 효과적인 카오스 테스트를 위해 카오스 엔지니어링 팀을 구성하여 자동화 도구 기반 테스트 및 훈련 수행

 
[참고]

  • 윤석찬, 신뢰성 높은 클라우드 기반 서비스 운영을 위한 Chaos Engineering in Action (AWS, 2018)
  • IBM, 카오스 엔지니어링이란 무엇인가요

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^