博文

测量数据挖掘的效果

已有 5421 次阅读 2009-3-27 16:44 |个人分类:学科前沿|系统分类:科研笔记| 数据挖掘, 效果, lift

数据挖掘是昂贵的。它需要耗费很大的精力用于数据收集、数据准备、软件集成、问题建模、模型生成、结果分析等等。那么我们又如何确定所得结果是值得所有时间、金钱和努力？

我们将回答以下三个问题：

数据挖掘的目标是什么？
这个目标的完成度如何？
完成了这个目标，价值如何？lift 和 ROI。

目标：

目标应该细化、清楚，以便于监督。切忌只有一个大而空的目标。

例如目标是：获得用户行为的了解、在数据中发现有用的模型、发现一些有意思得东西。这些都是大而空得目标。而另外一些目标如：发现那些用户不愿意续用某项服务；找出哪些产品的销量会受影响，当啤酒不再销售的时候。

描述型的目标和预测型的目标。

例如有两个从同一个数据库中生成的两个分类模型：模型1，含有四条规则，每条含有四个是非字段。模型2，含有50条规则，每条都含有很多字段。模型1对70%的数据进行了正确的分类；模型2对72%的数据进行了正确的分类。现在要问：哪个模型更好呢？答案取决于您的目标。如果是描述性的目标，也就是说只是想对数据有一个好的了解的话，那么显然模型1比模型2要更加的简单明了。而另一方面，如果是预测性的目标，目标是为了降低费用的支出的话，那么虽然只有2%的差别也有可能会有上百万美圆的差别，因此模型2就更受欢迎了。

3 衡量：

目标衡量要注意的四个问题：

模型的准确率是多少？
模型对于数据的描述程度有多好？
模型的预测有多少可信度?
模型是否容易理解？

整体或部分：一个模型的准确性和可理解性，可能在数据的整体或部分上是有一些区别的。两个整体准确性相同的模型可能在某个部分，它们的准确性会有不小的区别。
衡量描述型模型：MDL（minimum description length）。我们用MDL来衡量描述性模型的好坏的标准就是：MDL 即整个模型的长度。
衡量预测型模型：通过对未知数据的预测准确率来衡量。

关于分类的衡量：错误率。对于分类或预测的任务，它的准确率可以用错误率来衡量。也就是模型在一个评估集上的预测的错误率是多少。
关于估值的衡量。如果处理的任务是估值的时候，这时的准确率就是估算值和实际值之间的差别。对于数据整体上的准确率可以有多种方法来衡量。比较常用的有标准方差（Standard Deviation）、可信度和支持度（Confidence and Support）、距离（Distance）。

衡量结果：

以上的方法主要是对于某个模型的衡量，但是如何比较多个模型的好坏呢？这里我们提出一个 Lift 的概念用于衡量多个模型之间的差别。

提升度（lift）= P（classed / sample）/ P（classed / population）。

我们举个例子来说明一下：对于一个分类算法来说，它要对一个估计集进行分类，也就是标上一个标记：如好、坏。现在假设估计集中有5%的真正“好”的记录，而在用分类算法标上“好”的记录中有50%的真正“好”的记录，那么这个算法的提高率就是 50/5=10。但是是不是单纯只要提高率越高，这个模型就越好呢？这里还有一个问题就是 sample 的大小问题。当一个 sample 非常小的时候，它的 lift 也必然会相应的提高，所以我们也应当同时考虑 sample大小的问题，因为 lift 回随着 sample 的增大而减小。

最后提一下的就是在真正的商业应用中，最重要的还是ROI（Return On Investment）的大小，上面的种种只是对实际情况的一种估计，在采取行动之后我们还必须对行动的效果进行不断的统计。

转载本文请联系原作者获取授权，同时请注明本文来自张震科学网博客。
链接地址：https://wap.sciencenet.cn/blog-94473-222860.html

上一篇：【转载】数据挖掘网址共享
下一篇：决策科学中的顶天立地

收藏 IP: .*| 热度|

当前推荐数：2 推荐人：黄富强 许培扬

发表评论评论 (1 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

张震

扫一扫，分享此博文

管理决策分析与商务智能分享 http://blog.sciencenet.cn/u/zzupc

博文

测量数据挖掘的效果

当前推荐数：2 推荐人：黄富强 许培扬

发表评论评论 (1 个评论)

张震

全部作者的其他最新博文

全部精选博文导读

相关博文

管理决策分析与商务智能分享 http://blog.sciencenet.cn/u/zzupc

博文

测量数据挖掘的效果

当前推荐数：2 推荐人： 黄富强 许培扬

发表评论 评论 (1 个评论)

张震

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：2 推荐人：黄富强许培扬

发表评论评论 (1 个评论)