气宇轩分享 http://blog.sciencenet.cn/u/yufree

博文

已有 3389 次阅读 2015-10-11 14:49 |个人分类:科搜研手册|系统分类:科普集锦

木是树的旧称,甲骨文里会写成类似一个星号,上半部分代表枝叶,下半部分代表根。在下半部分加入一横就是本,根本同源;在上半部分加入一横就是末,代表枝叶末梢。所谓本末倒置大致来源于此,而这一横并非象形而是指代,代表就是这里。



进化上也喜欢用树木状结构,但跟真实的树木结构不同的在于进化上只用了树的一半,在这种表示中根是一个原点而非地下的分支。首先使用这种表示方法的是公元1801年植物学家Augustin Augier为表示植物种类关系所做的图,不久(1809年)拉马克在《动物哲学》中就为动物也做了一副从蠕虫到哺乳动物的进化树,然而拉马克并不认可起源唯一,所以他画了一系列平行的从简单到复杂的分叉树。后来比较出名的是Edward Hitchcock为植物与动物所做的进化树,这张图表现的物种关系虽然很真实,但Edward Hitchcock认为产生差异的原因是神而不是进化。



然后就到了达尔文画的那个进化树。从原始的生命形态到今天复杂多样的物种,达尔文认为这是一条进化之路,很多分支的出现是无方向的,但由于其它分支竞争关系消亡了,最后呈现出的就是树形结构。海克尔强化了从低级到高级的种属间关系并给出了人类起源——爪洼直立猿人。



当然,海克尔最出名的还是胚胎演化上的那幅图,图上表示出胚胎越早越相似,这幅图出现在我们的中学课本之中。1997年Science上有文章指出这幅图纯属臆断,跟实验证据不符,但画的实在太好,过于流行,文章还用了个耸人的题目:Haeckel's Embryos: Fraud Rediscovered。其实如果结合最新的发育生物学研究,在发育的中间阶段恰恰存在一个古老基因的集中表达期,也就是海克尔自认为观察到的发育重演现象,算是歪打正着。




如今演化生物学上并不认为原核生物是符合进化树所描述的关系,因为原核生物间存在基因交互的现象。但真核生物似乎是因为高等了些,基因交互不那么容易,所以还是被普遍认为符合进化树的描述,分支越接近,进化上亲缘关系越近而出现分支的节点则代表了共同的祖先。

其实不止生物学喜欢用树,在决策过程里也可以用到树。其实说是树,看中的是更抽象的分支结构。下面是一个简单的例子,我有一个仪器有三种开发策略,不同的开发策略对应不同的成本与收益,通过分支结构与分支结构上的概率就可以很清晰的比较不同决策下产生的期望收益。这个决策场景下不同选择是互斥的,选了一个分支就没机会到第二个分支去了,这样就可以通过概率来计算不同分支下的收益进行决策。这是一种常见的理性思考模型,适用于各种工作生活场景。



但其实决策树也是一种层级结构的机器学习算法,每个节点代表一个分类标准或特征值的判断标准,树的枝叶代表最终给出的响应。在机器学习的预测模型y=f(x)中,y代表最终响应,x代表跟响应相关的特征或属性,f则代表一种模型算法。f的构建过程可以看作寻找一种让响应相对一致的特征分类或回归方法。决策树就比较符合这种直观的想法,每个枝叶的形成过程所经历的特征判断就是“寻找一种让响应相对一致”的过程。

这个过程实现的具体过程要用到自上而下的贪心算法。具体而言就是首先找遍历所有不同的x,在每个特征x下找出最小化响应y的均值与实际y差的平方的一个特征x0,这样就实现了响应的第一层二分,也就构建了树的第一个主分支,这个过程在不同分支上递归进行就可以训练得到一颗回归树。分类树的构建与此类似,不同的是要引入分类错误率的概念或者说y分类的内在均一度作为训练目标。训练过程可以引入类似lasso或岭回归的惩罚项,最后当我们得到一颗训练好的决策树后就可以进行预测了。

预测过程更加直观,我们用手头的x去对应节点上的判断标准进入不同的分支,递归进行,最后到枝叶上就是预测结果。值得说明的是这种层级结构与线性回归还是有很大区别的,有些变量会在不同层次节点上反复被使用到,有些则基本用不到,因此决策树也可用来进行变量的筛选并对其重要性进行评价。当然,也可以用来玩游戏。



另一个跟树接近的东西是无监督的聚类数据分析,生成的冰柱图也可看作树,不过更像是根。具体算法就是单纯的计算样本间多个变量间的距离,达到一定距离则产生分支。这个距离一般是欧式距离,但个人比较喜欢曼哈顿距离。中国北方城市格局总是方方正正的豆腐块,所以要去一个地方时间基本上是可预测的,如果换成巴黎那种放射结构,距离计算上就要考虑更多空间分布了。

说到豆腐块,棋盘可以看作一种豆腐块结构,最近去内蒙古博物院看到一种蒙古象棋,很像国际象棋,但估计玩法上会简单些。



参考

1《白鱼解字》
2 https://en.wikipedia.org/wiki/Tree_of_life_(biology)
3 http://songshuhui.net/archives/52003
4 http://vserver1.cscs.lsa.umich.edu/~spage/ONLINECOURSE/R4Decision.pdf




https://wap.sciencenet.cn/blog-430956-927339.html

上一篇:理解基因组数据分析之结果注释与通路分析篇
下一篇:
收藏 IP: 210.72.152.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 02:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部