|
加权关联规则挖掘(以apriori和fp-tree算法为例)的权值计算。
以下面的数据为例来进行说明,表2中的交易权重和归一化权重只是截图结果,这里的具体数值可不要考虑。
加权支持度的计算为Sup(B)=count(B)*W(B)/总数;Sup(BD)=count(BD)*W(BD)/总数。
这里就是讨论W(BD)有几种计算方法及其优劣。
根据表1和表2可以很容易计算出单个项目的支持度,如Sup(B)=5*1/6=0.83
若要计算多个项目的支持度,如Sup(BD),Sup(BDA)那么项集BD或BDA的权值应该如何选取,即计算交易权重的方法,有以下几种:
1、取每条交易记录的最大值,如BDAC中权值最大的那个作为权值
2、取平均值,表2的交易权重即为该方法计算得出,这样计算不能突出重点项目
3、归一化值:Wi''=Wi/(W1+W2+……+Wk) ;W=(W1''+W2''+……+Wk'')/n,权值可能很小
4、
5、该方法的权值可能大于1
6、W(AB)=W(A)*W(B)/(W(A)+W(B))
7、若数据有两个维度,即X,Y分别属于不同维度,如X表示所购买的商品,Y表示购买的位置,则权值可以这样计算:W(X)*W(Y)
若权值大于1,可以进行归一化处理。
总之,权值的计算还有很多方法,计算时要根据自己数据的特点来选定。但是要注意关联规则挖掘的频繁及向下封闭的特性,即如果{AB}或{C}不频繁,则{ABC}也不频繁。如上述方法1、2就不可保证该特性,会造成数据的流失。这时候需要对关联规则算法进行改进,来适应权值的需要。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-1 06:44
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社