2018년 12월 31일
Apriori (연관 규칙) 알고리즘
I. 연관성 규칙 탐사, A Priori (선험적) 알고리즘
가. A Priori 알고리즘의 개념
- 연관 규칙(Association Rule)의 대표적 형태로, 발생 빈도 기반 데이터 간의 연관 규칙 발견 알고리즘
나. 연관 규칙 발견 과정
- 대용량 데이터: 트랜잭션 대상 최소지지도 이상 만족 집합 발견
- 연관규칙 발견: 최소신뢰도 이상 만족 항목 연관 규칙 생성
II. A Priori 알고리즘의 연관 정도 정량화 기준
구분 | 정량화 계산식 | 설명 |
---|---|---|
지지도 (Support) | S = P(X ∩ Y) | – 전체 거래 중 항목 X, Y 동시 포함 거래 정도 – 전체 구매도 경향 파악 – 이 데이터 분석이 과연 쓸만한지의 척도 |
신뢰도 (Confidence) | C = P(Y | X) = P(X ∩ Y) / P(X) | – 항목 X 포함 거래 중 Y 포함 확률 – 연관성의 정도 파악 – X 구매 시 Y도 함께 구매할 확률 |
향상도 (Lift) | L = P(Y | X) / P(Y) = P(X ∩ Y) / P(X)P(Y) | – 항목 X 구매 시 Y 포함하는 경우와 Y가 임의 구매되는 경우의 비 – 구매 시 X와 Y의 관계 – L > 1 : 양의 상관관계(X 구매 시 Y 구매 확률 높음) – L = 1 : 독립 관계 (X와 Y는 구매 관계가 없음) – L < 1 : 음의 상관관계(X와 Y 둘 중 하나만 구매 확률 높음) |
- Apriori 알고리즘은 후보 집합 생성 시 아이템 개수가 많아지면 계산 복잡도가 증가하므로 FP-Tree 사용 필요
III. Apriori 알고리즘의 장/단점 및 활용 사례
가. Apriori 알고리즘의 장/단점
장점 | 단점 |
---|---|
– 수많은 상품 연관 구매패턴 – 다른 연구가설 탐지 가능 – 원리 간단, 이해 분석 용이 | – 비즈니스측면 중요한 현실적 중요 연관 규칙 부족 – 연관 규칙 결과 다량 발생 |
나. Apriori 알고리즘 활용 사례
구분 | 활용 사례 |
---|---|
통신 | – 이탈 고객 예상, 기지국 위치 선정 |
금융 | – 대출심사, 카드 연체 고객 예상 |
의료 | – 환자 질병 예측, 약품 부작용 예상 |
유통 | – 매장 진열 방법, 장바구니 분석 |
One Comment
119회 정보관리 2교시 출제 되었네요