2020년 3월 20일
결함허용시스템 (FTS, Fault Tolerant System)
I. 결함허용시스템 (FTS, Fault Tolerant System)의 개념
- 하드웨어나 소프트웨어의 결함, 오동작, 오류 등이 발생하더라도 규정된 기능을 지속적으로 수행할 수 있는 시스템
II. 결함허용시스템의 주요 단계 및 실현 기술
가. 결함허용시스템의 주요 단계
| 주요 단계 | 기법 | 상세 설명 |
|---|---|---|
| 결함 감지 (Fault Detection) | Ping/Echo, Heartbeat, Exception 처리 |
|
| 결함 진단 (Fault Diagnosis) | 모니터링, 비교, 시뮬레이션, 오류 비트 |
|
| 결함 통제 / 복구 (Fault Isolation / Recovery) | 중복(Redundancy), 교체, 격리(Isolation) |
|
나. 결함허용시스템 실현 기술
| 구분 | 실현 기술 | 기술 설명 |
|---|---|---|
| HW 측면 | Duplication with Comparison |
|
| TMR (Triple Modular Redundancy) |
| |
| Watchdog Timer |
| |
| Self Purging Redundancy |
| |
| SW 측면 | Check Point |
|
| Recovery Block |
| |
| N Self-checking Programming |
| |
| N Version Programming |
| |
| DB 측면 | Rollback (Undo) |
|
| Check Point |
| |
| Shadow Paging |
| |
| Log File |
| |
| Data 측면 | Parity Code |
|
| Checksum |
| |
| Berger Code |
| |
| Hamming Code |
|
- 신속한 결함 복구를 위한 HW 측면의 FTS와 유연한 방식인 SW 측면의 FTS를 용도에 맞게 적용 필요
III. FTS와 HA(High Availability, 고가용성) 비교
| 항목 | FTS | HA |
|---|---|---|
| 결함시간 | 0초 | 30 ~ 300초 |
| Concurrent 유지보수 | 필수 | 불필요 |
| 동일 성능 가격 | 10 ~ 20배 | 2배 이상 |
| 응용 프로그램 | 제한적 | 대다수 범용 제품 |
| 운영체제 | 전용 운영체제 필요 | 범용 운영체제 |
| 하드웨어 | 전용 하드웨어 필요 | 범용 하드웨어 |
- FTS는 국방, 교통, 우주, 해양 등 미션크리티컬 서비스에 활용 가능
- 서비스 중요도와 비용 효율성 요건에 따라 FTS 및 HA를 선택적 이용 필요
[참고]
- 위키백과, “장애 허용(결함 감내) 시스템”, 2019.12