K-means 알고리즘

I. Clustering을 통한 데이터 분류 기법, K-means 알고리즘

가. K-means 알고리즘의 개념

데이터를 임의의 중심점을 기준으로 최소의 거리가 되도록 K개의 군집화 하여 분류하는 비지도학습

나. K-means 알고리즘 특징

반복적– 초기 잘못된 병합을 알고리즘 반복 수행 회복
대규모 적용– 간단하고 대규모 적용에 계산 시간 짧음
연관성– 연관성 높은 데이터는 근거리 위치 특성 이용

 

II. K-means 알고리즘 수행 절차

수행 절차절차도설명
1단계
초기설정
– 클러스터 개수 결정(K = n)
– 임의 Code-Vector n개 설정
– 각 CV 임의 좌표로 설정
2단계
군집분류
– 각 데이터 유클리드 거리 계산
– 가장 가까운 중심을 해당 데이터의 대표로 설정
3단계
Code-Vector 갱신
– 군집 학습 데이터 좌표 계산
– 각 데이터 좌표들의 평균을 새로운 중심으로 갱신, 이동
4단계
검증 및 완료
– 보정 후 ② ~ ③ 단계 반복
– 더 이상 군집 데이터 변경이 없으면 학습 완료

– K-means 알고리즘은 노이즈에 민감하여 군집과 동떨어진 좌표가 중심이 될 수 있어 해결방안 필요

 

III. K-means 알고리즘의 문제점 및 해결방안

문제점해결 방안
– 오목한 군집 형태 시 문제
– 동떨어져 있는 데이터나 노이즈(noise)에 매우 민감
– 초기 중심 설정 방법 문제
– K-medoids 기법 활용
– 노이즈 처리가 매우 우수
– 군집의 새로운 중심을 데이터 중 하나로 선정

 

콘텐츠 사용 시 출처 표기 부탁 드리고, 궁금한 점이나 의견은 댓글 남겨주세요^^