2024년 4월 10일

AIOps (AI for IT Operations)

1. AIOps (AI for IT Operations)의 개념 및 필요성

개념	IT 운영 관리 자동화 위해 기계 학습 분석을 통해 IT 운영 문제 해결을 자동화하는 App 데이터 관리 및 분석 기술
필요성	기계 학습 기반 IT 운영 자동화/효율화	머신러닝 기반 동향 파악, 이상 현상 탐지, 미래 행동 예측, 프로세스 개선 등 IT 운영 자동화, 성능 효율화
	운영 데이터 실시간 분석 기반 성능/용량 관리 개선	다양한 소스의 데이터 결합 및 실시간 분석을 통해 IT 운영을 위한 인시던트, 용량, 변경, 성능 관리 개선
	시계열 운영 데이터 기반 이상 현상 및 패턴 분석	현재/과거 데이터 기반 이상 현상 및 패턴을 이벤트와 연결하고, 문제 발생 시 처리 자동화

인공지능과 ITOps를 결합하여 IT 운영 문제를 자동으로 파악하고 해결하기 위해 Observe(모니터링), Engage(IT 운영), Act(자동화) 단계 기반 데이터 과학을 적용하여 IT 운영 자동화

2. AIOps의 주요 단계 및 계층 별 기술 요소

(1) AIOps의 주요 단계

(2) AIOps의 단계 별 주요 활동

단계	주요 활동	세부 활동 사항
Observe (모니터링)	운영 데이터 크롤링, 분석 활동	– 대량의 정보를 실시간으로 수집, 집계, 분석 – 로그 등 데이터에서 패턴 식별, 이벤트 연관
Observe (모니터링)	관측가능성(Observability) 기반 관찰성 개선	– 메트릭(Metric), 추적(Trace), 로그(Log) 분석 – 시스템의 내부 상태를 이해하고 관찰성 개선
Engage (IT 운영)	ITSM 적용	– Best Practice 절차 기반 IT 서비스 관리 – ITIL, CMDB 기반 선제적 인시던트 대응
Engage (IT 운영)	DevOps 적용	– 개발/운영팀 정보 공유, IT 워크로드 최적화 – CI/CD, IT 인프라 프로비저닝, 테스트 자동화
Act (자동화)	머신러닝 기반 운영 프로세스 자동화	– ML 기반 보안취약점 조치, 문제 해결 – 하이퍼파라미터 튜닝, ML 모델 훈련/생성
Act (자동화)	리소스 효율화 /지속적 개선	– 운영팀 리소스를 미션 크리티컬 업무에 집중 – 운영 자동화 결과에 따른 보완, 지속적 개선

다양한 데이터 소스를 수집하여 문제의 근본 원인을 조사하고 잠재적인 문제, 시나리오 예측을 통해 경보 자동화 및 필터링하여 데이터 스트림에서 지속적인 학습을 통해 IT 운영 자동화를 실현

3. AIOps 적용 시 고려사항 및 발전 단계

(1) AIOps 적용 시 고려사항 및 대응 방안

고려사항	대응 방안
– 운영팀 내 데이터 과학자 부재 – 관련 기술 및 운영팀 역량 확보 필요 – 불충분하거나 품질이 낮은 데이터 – 통찰력 기반 통합된 조치 방법 부재	– AIOps 플랫폼 및 서비스 활용 – 운영 담당자 교육 및 전문가 참여 – 합성데이터 사용 및 전이 학습 적용 – Playbook 및 Runbook 라이브러리 활용

(2) AIOps 향후 발전 단계

AIOps를 통해 IT 운영 혁신이 가능하고, 향후 예측 분석, 자동화된 원인 분석 및 ChatOps를 통해 복잡한 인프라 관리/최적화하여 IT 운영 경쟁력 확보에 핵심적 역할이 될 것으로 예상됨

[참고]

Hewlett Packard Enterprise, AIOPS란
Amazon Web Services, AIOps란
Pure Storage, AIOps의 미래: 새로운 트렌드

Tags:Observability, AIOps, IT 인프라 운영, AI 기반 IT 운영, AI for IT Operations, ITOps, ITSM, ChatOps, DevOps, Observe, 머신러닝, Engage, Playbook, Act, 관측가능성, Runbook

About The Author

도리

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^응답 취소