博文

烤鸭、面饼和甜面酱之朴素关联 ---趣味数据挖掘之二精选

已有 16056 次阅读 2011-11-22 15:07 |个人分类:科普札记|系统分类:科普集锦| 趣味, 数据挖掘, 关联规则, 因果关系

烤鸭、面饼和甜面酱之朴素关联 ---趣味数据挖掘之二(唐常杰）

上文借有趣的实例介绍了关联规则的三度（支持度、置信度，兴趣度）概念。为答博友，此文从原讲课PPT中，取一些素材，来解释关联规则的挖掘思路和应用方法。

1 通俗性与深入性的纠结 下笔（击键）之前，为通俗性和理论性的冲突，颇纠结了一番，通俗科普博文，是否需要完全避开公式和推导？查趣味数学小册子，其技巧是：趣例为载体，简喻作引导，推导明道理，前瞻性概述--“学，然后知不足”。

所以，此文仍有一些简单的推导，只需中学数学知识，但仍须静心思量。

2 来自管理层的需求 设想某理想小型超市, 采用mini版超市销售系统, 管理了6种商品，记录了5个顾客的购物单（数据量如此之小，是为了简单地说明思想）。

流水号	所购物品清单
1	啤酒、薄饼、牛奶
2	烤鸭、薄饼、面酱
3	啤酒、烤鸭、薄饼、面酱
4	面酱，鸡蛋
5	烤鸭、面酱

经理不满足常识性的定性描述，想知道商品间关联，例如，顾客买了面酱就会买烤鸭吗？要求挖掘出支持度不小于 2/5（即至少同时被买两次）的商品间的关联。

下面先介绍朴素而费时的笨方法，后介绍聪明一些的方法。

记录总数记为N，N=5; 商品总数记为M，M=6。这里的数值2/5称为支持度阈值t，支持度不小于2/5的商品组成的集合称为高频集。

3朴素方法

3.1 模仿选举计票方法统计单项高频集。把上面的5条记录视为5张选票，模仿 “唱票-计票-写正字”的方法，逐条唱票-计票，得票不少于两票的商品如下：

单项统计	支持度
{啤酒}	2/5
{烤鸭}	3/5
{面饼}	3/5
{面酱}	4/5

解释∶(1)单项统计中看出60%的顾客买了烤鸭、60%的顾客买了面饼、80%的顾客买了面酱。(2)如果所购物品清单中间有N条记录（这里N=5），这里扫描工作量与N称正比，用行话，称为计算复杂度是Order（N），或简单记录为O(N)，统计百分比在传统的统计中常见到。

3.2 模仿选举计票方法统计双项高频集商品总数记为M，M=6, M个对象的两两组合数目为 T=M*（M-1）/2，这里T=15 ,（与M²变化趋势大致相同），这一次选举对象是T种组合的每一个“商品对”，逐条唱票-计票，得票超过两票的“同购商品对”如下

双项统计	支持度
{啤酒，面饼}	2/5
{烤鸭，面饼}	2/5
{烤鸭，面酱}	3/5
{面饼，面酱}	2/5

从双项统计中看出，5个顾客中，有60%的顾客买了烤鸭和面酱。传统的统计较少作这种组合统计工作。

3.3 模仿选举计票方法统计三项高频集，

类似地，得到高频的同购三项集只有一项：

三项统计	支持度
{烤鸭，面饼，面酱}	2/5

这说明2/5=40%的顾客同时买了烤鸭、面饼和面酱。

4 从高频集导出关联规则

R1：烤鸭 --> 面饼、面酱。支持度40%，置信度为66.6%

解释：买烤鸭的顾客占3/5，买了烤鸭又同时买了{面饼，面酱} 顾客占2/5，说明在买烤鸭的人当中又买了{面饼、面酱}的占{(2/5) / (3/5) }=66.6%。按朴素的，但不一定总是正确的看法，把买烤鸭视为原因，右边的买{面饼、面酱}的视为结果，现有数据表明，这种因果关系有66.6%的正确性（不是想当然拍脑袋得出的神仙数字）。