2018년 12월 31일
Apriori (연관 규칙) 알고리즘
1. 연관성 규칙 탐사, A Priori (선험적) 알고리즘
(1) A Priori 알고리즘의 개념
- 연관 규칙(Association Rule)의 대표적 형태로, 발생 빈도 기반 데이터 간의 연관 규칙 발견 알고리즘
(2) 연관 규칙 발견 과정

- 대용량 데이터: 트랜잭션 대상 최소지지도 이상 만족 집합 발견
- 연관규칙 발견: 최소 신뢰도 이상 만족 항목 연관 규칙 생성
2. A Priori 알고리즘의 연관 정도 정량화 기준
| 구분 | 정량화 계산식 | 설명 |
|---|---|---|
지지도 (Support) | S = P(X ∩ Y) | – 전체 거래 중 항목 X, Y 동시 포함 거래 정도 – 전체 구매도 경향 파악 – 이 데이터 분석이 과연 쓸만한지의 척도 |
신뢰도 (Confidence) | C = P(Y | X) = P(X ∩ Y) / P(X) | – 항목 X 포함 거래 중 Y 포함 확률 – 연관성의 정도 파악 – X 구매 시 Y도 함께 구매할 확률 |
향상도 (Lift) | L = P(Y | X) / P(Y) = P(X ∩ Y) / P(X)P(Y) | – 항목 X 구매 시 Y 포함하는 경우와 Y가 임의 구매되는 경우의 비 – 구매 시 X와 Y의 관계 – L > 1 : 양의 상관관계(X 구매 시 Y 구매 확률 높음) – L = 1 : 독립 관계 (X와 Y는 구매 관계가 없음) – L < 1 : 음의 상관관계(X와 Y 둘 중 하나만 구매 확률 높음) |
- Apriori 알고리즘은 후보 집합 생성 시 아이템 개수가 많아지면 계산 복잡도가 증가하므로 FP-Tree 사용 필요
3. Apriori 알고리즘의 장/단점 및 활용 사례
(1) Apriori 알고리즘의 장/단점
| 장점 | 단점 |
|---|---|
| – 수많은 상품 연관 구매패턴 – 다른 연구가설 탐지 가능 – 원리 간단, 이해 분석 용이 | – 비즈니스측면 중요한 현실적 중요 연관 규칙 부족 – 연관 규칙 결과 다량 발생 |
(2) Apriori 알고리즘 활용 사례
| 구분 | 활용 사례 |
|---|---|
| 통신 | – 이탈 고객 예상, 기지국 위치 선정 |
| 금융 | – 대출심사, 카드 연체 고객 예상 |
| 의료 | – 환자 질병 예측, 약품 부작용 예상 |
| 유통 | – 매장 진열 방법, 장바구니 분석 |
One Comment
119회 정보관리 2교시 출제 되었네요