NJU1healer的个人博客分享 http://blog.sciencenet.cn/u/NJU1healer

博文

决策树

已有 2835 次阅读 2020-5-4 22:04 |个人分类:机器学习|系统分类:科研笔记

(一)决策树基本内容

(1)什么是决策树

image.png

image.png

       决策树学习最著名的算法:ID3;C4.5;CART。

(2)如何构建决策树

       提炼问题,然后应用相应的特征(yes or no)去解答,利用if else语句表达--机械遍历法。

(3)问题提炼--如何让机器知道什么重要?(统计中寻找

       重要“工具”-- 熵  含义见:Logistic Regression(逻辑斯蒂回归)结合《统计学习方法》李航著)

       那么 信息熵-如何衡量哪些特征重要?

image.png

       (香农熵公式理解:因为概率总是在0-1之间,所以log后会小于0,取了负号以后熵就是正数了。log如果以2为底数的话,信息熵的单位就是比特(bit),以e为底数的话,信息熵的单位就是奈特(nat),以10为底数的话,单位就是哈脱特(hat)。

       熵是测量不确定的量度:如 p=0.5 q=0.5 与 p=1 q=0得到的熵总和分别是0.68 和 0。当p=0.5时熵最大。也有一说 熵是测量混乱度的量度

       可能性越多,熵越高;随机性、肯能性多少-->衡量了信息的缺失,缺越多,补充的可能性越多。

       image.pngimage.png

       接下来,应用定义的熵进行特征筛选:

image.png

         信息增益(Gain)= H(Y) - H(Y|X)(即: Y的熵 减去 已知X条件下Y的熵)。筛选特征时信息增益越高越好,说明信息熵越低。

image.png

          特征选择:上进:2/7不嫁,5/7嫁;不上进:3/4不嫁,1/4嫁。

image.png

image.png


       最终选出使条件熵H(Y|X)最小的特征F去解决问题Q

(4)决策树何时停下来?

       须找到criteria使分裂过程停止,一般分为内生和附加两类条件。

image.png

image.png

       基尼系数

image.png

其公式的含义是:

image.png

image.png

image.png

image.png

        简单来说,当基尼系数越小表示特征越纯,当基尼系数越大表示特征越杂。

image.png

image.png

image.png



       点滴分享,福泽你我!Add oil!







https://wap.sciencenet.cn/blog-3428464-1231612.html

上一篇:Logistic Regression(逻辑斯蒂回归)(续)
下一篇:集群模型
收藏 IP: 118.74.90.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的其他最新博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 06:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部