Analysis/Study

[분석] 장바구니 분석(Market basket analysis)과 연관 규칙(Association rules)

표표_ 2017. 2. 17. 17:37
반응형



장바구니 분석이란?


장바구니 분석을 시행한 유명한 사례 중 하나는 월마트 사례입니다.

맥주를 구매할 때 기저귀를 같이 산다는 결과가 바로 그것인데요, 남성이 마트에 들러 물건을 살 때 아내의 부탁으로 아이 기저귀를 사면서 동시에 본인이 마실 맥주를 산다는 것입니다.

전혀 관련성이 없는 맥주와 기저귀의 연결고리를 알게 됨으로써 마케팅 전략을 새롭게 구성할 수 있기 때문에

이러한 장바구니 분석을 잘 활용한다면 기업의 매출을 끌어올리는 데 중요한 도구가 될 수 있습니다.



연관규칙이란?


이러한 장바구니 분석은 각 상품 간의 연관 규칙을 이용하여 분석하게 되는데요,

A라는 상품과 B라는 상품이 서로 연관성이 있다고 하면 A->B라고 하는 연관 규칙을 만들 수 있습니다.


하지만 상품이 수백, 수천개라면 이러한 연관 규칙도 엄청나게 많이 생성되어서

이 중에 과연 어떤 연관 규칙이 가장 크리티컬하게 사용될 수 있는지 평가가 필요합니다.


이러한 연관 규칙 평가에는 3가지 척도가 쓰이는데 바로 '지지도, 신뢰도, 향상도' 라고 하는 척도 입니다.




1. 지지도(Support)


전체 거래항목 중 상품 A와 상품 B를 동시에 포함하여 거래하는 비율을 의미하는데요,

A -> B 라고 하는 규칙이 전체 거래 중 차지하는 비율을 통해 해당 연관 규칙이 얼마나 의미가 있는 규칙인지를 확인합니다.


지지도 = P(A∩B)  :  A와 B가 동시에 포함된 거래 수 / 전체 거래 수


2. 신뢰도(Confidence)


상품 A를 포함하는 거래 중 A와 B가 동시에 거래되는 비중으로,

상품 A를 구매 했을 때 상품 B를 구매할 확률이 어느정도 되는지를 확인합니다.


신뢰도 =  P(A∩B) / P(A)  :  A와 B가 동시에 포함된 거래 수 / A가 포함된 거래 수


3. 향상도(Lift)


상품 A의 거래 중 항목 B가 포함된 거래의 비율 / 전체 상품 거래 중 상품 B가 거래된 비율

(A가 주어지지 않았을 때 B의 확률 대비 A가 주어졌을 때 B의 확률 증가 비율)


향상도 = P(A∩B) / P(A)*P(B)  = P (B|A) / P (B)

:  A와 B가 동시에 일어난 횟수 / A, B가 독립된 사건일 때 A,B가 동시에 일어날 확률


품목 A와 B사이에 아무런 관계가 상호 관계가 없으면 향상도는 1이고.  향상도가 1보다 높아질 수록 연관성이 높다고 할 수 있습니다. 이것은 또한 향상도가 1보다 크거나 작다면 우연적 기회(random chance)보다 우수하다고도 해석합니다.




이러한 평가 척도를 이용하여 최적의 연관 규칙을 찾아내는 장바구니 분석은 어떤 연관 규칙을 사용할 것인지, 적절한 데이터 정제를 통하여 불필요한 데이터를 버리고 분석 시간을 단축하는 등 노력이 필요합니다.


상품의 갯수가 증가될수록 계산량이 기하급수적으로 늘어나게 되므로 구매 데이터가 적은 상품은 과감히 버릴 수 있어야 하며, 현업에서 의미있게 사용될만한 연관 규칙을 의논하는 과정도 있어야 합니다.




* 참고문헌

http://blog.naver.com/PostView.nhn?blogId=dear_inwoo&logNo=110129191704

http://rfriend.tistory.com/191

http://teamblog.gruter.com/market_basket_analysis_with_tajo/




반응형

'Analysis > Study' 카테고리의 다른 글

[분석] ROC 커브와 AUC, 그리고 민감도와 특이도  (2) 2016.10.24