AIOps (AI for IT Operations)

1. AIOps (AI for IT Operations)의 개념 및 필요성

개념IT 운영 관리 자동화 위해 기계 학습 분석을 통해 IT 운영 문제 해결을 자동화하는 App 데이터 관리 및 분석 기술
필요성기계 학습 기반 IT 운영
자동화/효율화
머신러닝 기반 동향 파악, 이상 현상 탐지, 미래 행동 예측, 프로세스 개선 등 IT 운영 자동화, 성능 효율화
운영 데이터 실시간 분석
기반 성능/용량 관리 개선
다양한 소스의 데이터 결합 및 실시간 분석을 통해 IT 운영을 위한 인시던트, 용량, 변경, 성능 관리 개선
시계열 운영 데이터 기반
이상 현상 및 패턴 분석
현재/과거 데이터 기반 이상 현상 및 패턴을 이벤트와 연결하고, 문제 발생 시 처리 자동화
  • 인공지능과 ITOps를 결합하여 IT 운영 문제를 자동으로 파악하고 해결하기 위해 Observe(모니터링), Engage(IT 운영), Act(자동화) 단계 기반 데이터 과학을 적용하여 IT 운영 자동화

 

2. AIOps의 주요 단계 및 계층 별 기술 요소

(1) AIOps의 주요 단계

(2) AIOps의 단계 별 주요 활동

단계주요 활동세부 활동 사항
Observe
(모니터링)
운영 데이터
크롤링, 분석 활동
– 대량의 정보를 실시간으로 수집, 집계, 분석
– 로그 등 데이터에서 패턴 식별, 이벤트 연관
관측가능성(Observability)
기반 관찰성 개선
– 메트릭(Metric), 추적(Trace), 로그(Log) 분석
– 시스템의 내부 상태를 이해하고 관찰성 개선
Engage
(IT 운영)
ITSM 적용– Best Practice 절차 기반 IT 서비스 관리
ITIL, CMDB 기반 선제적 인시던트 대응
DevOps 적용– 개발/운영팀 정보 공유, IT 워크로드 최적화
– CI/CD, IT 인프라 프로비저닝, 테스트 자동화
Act
(자동화)
머신러닝 기반 운영
프로세스 자동화
– ML 기반 보안취약점 조치, 문제 해결
하이퍼파라미터 튜닝, ML 모델 훈련/생성
리소스 효율화
/지속적 개선
– 운영팀 리소스를 미션 크리티컬 업무에 집중
– 운영 자동화 결과에 따른 보완, 지속적 개선
  • 다양한 데이터 소스를 수집하여 문제의 근본 원인을 조사하고 잠재적인 문제, 시나리오 예측을 통해 경보 자동화 및 필터링하여 데이터 스트림에서 지속적인 학습을 통해 IT 운영 자동화를 실현

 

3. AIOps 적용 시 고려사항 및 발전 단계

(1) AIOps 적용 시 고려사항 및 대응 방안

고려사항대응 방안
– 운영팀 내 데이터 과학자 부재
– 관련 기술 및 운영팀 역량 확보 필요
– 불충분하거나 품질이 낮은 데이터
– 통찰력 기반 통합된 조치 방법 부재
– AIOps 플랫폼 및 서비스 활용
– 운영 담당자 교육 및 전문가 참여
합성데이터 사용 및 전이 학습 적용
– Playbook 및 Runbook 라이브러리 활용

(2) AIOps 향후 발전 단계

  • AIOps를 통해 IT 운영 혁신이 가능하고, 향후 예측 분석, 자동화된 원인 분석 및 ChatOps를 통해 복잡한 인프라 관리/최적화하여 IT 운영 경쟁력 확보에 핵심적 역할이 될 것으로 예상됨

 
[참고]

  • Hewlett Packard Enterprise, AIOPS란
  • Amazon Web Services, AIOps란
  • Pure Storage, AIOps의 미래: 새로운 트렌드

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^