2023년 1월 7일
MTTD / MTTR / MTTF / MTBF
1. MTTD / MTTR / MTTF / MTBF의 개념
MTTD | – Mean Time To Detect (평균 장애 인지 시간) – 장애 발생 시점 부터 장애 인지까지의 시간 |
MTTR | – Mean Time To Repair (평균 복구 시간) – 장애 인지 시점 부터 복구 완료까지의 시간 |
MTTF | – Mean Time To Failure (평균 가용 시간) – 복구 완료 시점 부터 다음 장애 발생까지의 시간 |
MTBF | – Mean Time Between Failure (평균 장애 발생 시간) – 장애 발생 시점 부터 다음 장애 발생까지의 시간 |
- SLA 측면을 포함하여 시스템의 가용성(Availability)과 신뢰도를 측정하는 기준
- 장애 인지가 불필요하거나 중요하지 않은 경우 MTTD를 MTTR에 포함하기도 함.
2. MTTD / MTTR / MTTF / MTBF 기반 가용률
(1) MTTD / MTTR / MTTF / MTBF 기반 가용률 계산
- 가용률: 전체 운영시간에서 장애없이 운영되는 시간의 비율
- 가용률(%) = MTTF / (MTTD + MTTR + MTTF) x 100 = MTTF / MTBF x 100
(2) MTTD / MTTR / MTTF / MTBF 기반 가용률의 활용
- 장애 발생 시 영향도 및 원인 분석
- SLA 기반 서비스 계약
- 목표 가용률 만족 제품 선정
- 제품 설계 및 개발 기준으로 활용
- 고가용성(HA) 및 장애허용(FT) 점검
3. MTTD / MTTR / MTTF / MTBF 기반 가용률 사례
(1) 월간 및 연간 가용률 99.95% 사례
기간 | 가동 보장 시간(MTTF) | 장애 허용 시간(MTTD + MTTR) |
---|---|---|
월간(30일 기준) | 29일 23시간 38분 24초 | 21분 36초 |
연간(365일 기준) | 364일 19시간 37분 12초 | 4시간 22분 48초 |
(2) 월간 및 연간 가용률 99.99% 사례
기간 | 가동 보장 시간(MTTF) | 장애 허용 시간(MTTD + MTTR) |
---|---|---|
월간(30일 기준) | 약 29일 23시간 55분 40.8초 | 약 4분 19.2초 |
연간(365일 기준) | 약 364일 23시간 7분 26.4초 | 약 52분 33.6초 |
- 일반적으로 장애 허용 시간을 초과하여 장애 발생 시 SLA 계약에 따라 월간/연간 사용료 등 요금의 일정 비율을 Credit, 요금 차감 등의 형식으로 보상