||
(一)决策树基本内容
(1)什么是决策树
决策树学习最著名的算法:ID3;C4.5;CART。
(2)如何构建决策树
提炼问题,然后应用相应的特征(yes or no)去解答,利用if else语句表达--机械遍历法。
(3)问题提炼--如何让机器知道什么重要?(统计中寻找)
重要“工具”-- 熵 含义见:(Logistic Regression(逻辑斯蒂回归)结合《统计学习方法》李航著)
那么 信息熵-如何衡量哪些特征重要?
(香农熵公式理解:因为概率总是在0-1之间,所以log后会小于0,取了负号以后熵就是正数了。log如果以2为底数的话,信息熵的单位就是比特(bit),以e为底数的话,信息熵的单位就是奈特(nat),以10为底数的话,单位就是哈脱特(hat)。)
熵是测量不确定的量度:如 p=0.5 q=0.5 与 p=1 q=0得到的熵总和分别是0.68 和 0。当p=0.5时熵最大。也有一说 熵是测量混乱度的量度。
可能性越多,熵越高;随机性、肯能性多少-->衡量了信息的缺失,缺越多,补充的可能性越多。
接下来,应用定义的熵进行特征筛选:
信息增益(Gain)= H(Y) - H(Y|X)(即: Y的熵 减去 已知X条件下Y的熵)。筛选特征时信息增益越高越好,说明信息熵越低。
特征选择:上进:2/7不嫁,5/7嫁;不上进:3/4不嫁,1/4嫁。
最终选出使条件熵H(Y|X)最小的特征F去解决问题Q。
(4)决策树何时停下来?
须找到criteria使分裂过程停止,一般分为内生和附加两类条件。
基尼系数:
其公式的含义是:
简单来说,当基尼系数越小表示特征越纯,当基尼系数越大表示特征越杂。
点滴分享,福泽你我!Add oil!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-6 16:42
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社