啤酒与尿布?机器学习之Apriori算法挖掘商品之间的关联性Python实现
初学者机器学习资料分享Q群(718566626)
1. 背景
一个广为流传的挖掘商品之间的关联性的故事就是“啤酒与尿布”这个故事。相传某超市通过分析顾客的账单,发现啤酒总是和尿布一起购买。通过分析,发现这是因为美国人喜欢喝啤酒,当买尿布的时候看到啤酒就顺便买了。于是就把啤酒与尿布总是放在一起卖。这样的有关联性的商品还有很多。如洋葱和土豆捆绑消费等等。将关联度高的商品放在一起促销或者捆绑消费可以提高营业额。同时电商平台也可以捆绑推荐提高成交量。而当商品非常多的时候,人工已经无法分析出众多商品的关联性。这个时候就需要计算机辅助人们找到哪些商品是经常被一起购买。目前有众多分析商品关联性的算法,Apriori算法就是其中一个师祖级算法。很多都是由Aporiori算法演化而来,如FP-growth算法。当然Aporiori还有其他的应用场景。
2. 从本质看Apriori算法原理
2.1 算法要解决的问题是什么
要解决的问题:根据一堆账单数据,统计出哪些商品组合是高频率。 举个例子:如给出下面这些数据,希望算法能分析出“啤酒+尿布”这个组合是高频率。也希望它能分析出“西红柿+鸡蛋”也是高频率:
{啤酒 鸡蛋 尿布 西红柿} {香烟 尿布 瓜子 啤酒 } {土豆 西红柿 洋葱 醋 鸡蛋}
2.2 算法思路
那么问题来了怎么排除一些组合情况呢?这还是得回到我们需要解决什么问题上面来。我们要解决的是统计经常出现的那些组合。那么我们只需要排除那些肯定不是高频率的组合即可。 那么什么样子的组合是肯定不是高频率?答:“含有很少见的那种组合的那个组合肯定不是高频率”。这句话有点拗口,我举个例子。 现在我们知道“人参+尿布”是一种频率非常低的组合,那么“人参+尿布+燕窝”肯定也是频率非常低。为什么呢?要是“人参+尿布+燕窝”这个组合的频率高,肯定意味着“人参+尿布”肯定是高频率组合(因为“人参+尿布+燕窝”包含“人参+尿布”这种情况)。
于是我们可以确定筛除规则:如果某个组合出现频率非常低,那么所有包含这种组合情况的组合出现频率也非常低。我们可以直接不统计这些组合出现频率。举个例子:我们知道“人参+尿布”出现频率低,那么我就不会统计任何包含“人参+尿布”的组合了。也就是说“人参+尿布+燕窝”,“人参+尿布+土豆”,“人参+尿布+洋葱+花生”这些情况他们肯定是低频率,可以不用统计。
上面提到的那个筛除规则,就是Aporiori的筛除规则。接下来就是要确定如何量化某个组合是否是高频率。
2.2.1 某组合出现频率量化指标
指标1: 包含某个组合的账单记录占总账单记录的比率 从直观上评价{啤酒+尿布}这个组合的频率就是看包含{啤酒+尿布}这个组合的账单记录占总账单记录比率。看下面这个数据。包含{啤酒+尿布}的记录条数是3条,总记录条数是4,那么{啤酒+尿布}这个组合的频率就是3/4。在Apriori算法中,人们把这种频率计算方式叫做支持度(support)。
{啤酒 鸡蛋 尿布 西红柿} {香烟 尿布 瓜子 啤酒 } {土豆 西红柿 洋葱 醋 鸡蛋}
上面那个指标这样根据组合占所有账单的比例来计算频率会存在某个问题。就是某些商品本来就出现频率低。如{人参+燕窝},这个可能是一个强关联的商品组合。但是这个组合占总的账单记录比率一定很低。因为平常很少有人买的。但是只要买了{人参}的人很可能会顺便买{燕窝}。那么怎么解决这个问题?这就要引入下面这个指标。
指标2:出现{人参+燕窝}的记录数占出现{人参}的账单记录数的比率,这种评估频率的方式叫做可信度或者叫做置信度(confidence) 如何评估各种组合出现频率已经介绍完了,接下来介绍下Apriori算法的具体步骤。
2.3 Apriori算法具体步骤(在本文中暂时只把指标1作为衡量某个组合出现的频率)
第一步肯定是要设定多大才是高频率。比如设定支持度(指标1)>=0.5那就认为是高频率。这个到底多大才是高频率你可以根据实际情况改。
返回所有高频率组合。 以下面这个数据集为例。为了方便,我们给各个商品进行编号。
[1]啤酒 [2]鸡蛋 [3]尿布 [4]西红柿 [5]香烟 [6]瓜子 [7]土豆 [8]洋葱 [9]醋
账单1:{啤酒 鸡蛋 尿布 西红柿} 账单2:{香烟 尿布 瓜子 啤酒 } 账单3:{土豆 西红柿 洋葱 醋 鸡蛋}
上面这个数据集用编号表示就是
Apriori统计高频率组合的方式是:
第一轮组合:
组合的结果是{1} {2} {3} {4} {5} … {8} {9}。
计算这9种组合的出现频率,然后剔除低频率组合。
含有组合{5}的记录占总记录比例=1/3.它是<0.5的。这意味着{5}是低频率组合,放弃用{5}进行下一步的组合。这意味着不会继续构造任何含有{5}的组合。除了{5}同样还需要剔除{6}{7}{8}{9},含有它们的账单占总账单的比例均低于0.5
剩下的高频组合为:{1} {2} {3} {4}
第二轮组合:
组合的结果是:{1,2}{1,3}{1,4} {2,3} {2,4} {3,4}。
其中{1,2} {1,4} {2,3} {3,4}含有它们的账单占总账单的比例均低于0.5,所以剔除它们。
剩下的高频组合为:{1,3} {2,4}.
第三轮组合 … 略 …
你的赞是我分享的动力
Python实践:
相关文章:
Ai酱:机器学习算法之k-means(k均值)Python代码实现
Ai酱:[易懂机器学习]KNN,k-Nearest Neighbor (k近邻算法)[分类算法]
Ai酱:[易懂]如何理解论文中的那些评估方法性能指标概念名词{召回率 ROC AUC 交叉验证}
Ai酱:{高中生能看懂的}再见香农,决策树的本质是什么,ID3决策树Python实实现逻辑异或功能
本文首发于CSDN:啤酒与尿布?机器学习之Apriori算法挖掘商品之间的关联性
Last updated