Apriori (연관 규칙) 알고리즘

I. 연관성 규칙 탐사, A Priori (선험적) 알고리즘

가. A Priori 알고리즘의 개념

  • 연관 규칙(Association Rule)의 대표적 형태로, 발생 빈도 기반 데이터 간의 연관 규칙 발견 알고리즘

나. 연관 규칙 발견 과정

  • 대용량 데이터: 트랜잭션 대상 최소지지도 이상 만족 집합 발견
  • 연관규칙 발견: 최소신뢰도 이상 만족 항목 연관 규칙 생성

 

II. A Priori 알고리즘의 연관 정도 정량화 기준

구분정량화 계산식설명

지지도

(Support)

S = P(X ∩ Y)– 전체 거래 중 항목 X, Y 동시 포함 거래 정도
– 전체 구매도 경향 파악
– 이 데이터 분석이 과연 쓸만한지의 척도

신뢰도

(Confidence)

C = P(Y | X) = P(X ∩ Y) / P(X)– 항목 X 포함 거래 중 Y 포함 확률
– 연관성의 정도 파악
– X 구매 시 Y도 함께 구매할 확률

향상도

(Lift)

L = P(Y | X) / P(Y)
= P(X ∩ Y) / P(X)P(Y)
– 항목 X 구매 시 Y 포함하는 경우와 Y가 임의 구매되는 경우의 비
– 구매 시 X와 Y의 관계
– L > 1 : 양의 상관관계(X 구매 시 Y 구매 확률 높음)
– L = 1 : 독립 관계 (X와 Y는 구매 관계가 없음)
– L < 1 : 음의 상관관계(X와 Y 둘 중 하나만 구매 확률 높음)
  • Apriori 알고리즘은 후보 집합 생성 시 아이템 개수가 많아지면 계산 복잡도가 증가하므로 FP-Tree 사용 필요

 

III. Apriori 알고리즘의 장/단점 및 활용 사례

가. Apriori 알고리즘의 장/단점

장점단점
– 수많은 상품 연관 구매패턴
– 다른 연구가설 탐지 가능
– 원리 간단, 이해 분석 용이
– 비즈니스측면 중요한 현실적 중요 연관 규칙 부족
– 연관 규칙 결과 다량 발생

나. Apriori 알고리즘 활용 사례

구분활용 사례
통신– 이탈 고객 예상, 기지국 위치 선정
금융– 대출심사, 카드 연체 고객 예상
의료– 환자 질병 예측, 약품 부작용 예상
유통– 매장 진열 방법, 장바구니 분석

 

One Comment

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^