||
在六一儿童节这一天,许多小学都会评出“优秀学生”、“三好学生”等荣誉称号。所谓“优秀学生”,一般指态度端正、认真听讲、积极互动、完成作业和学习成绩好的一类学生,重点突出学习方面。所谓“三好学生”,除了学习好,还要求品德好和身体好,可谓德智体美劳全面发展的一类学生。
评价学生是否是“优秀学生”、“三好学生”,一般通过测试成绩评价指标来体现。与之类似,在机器学习领域,也有一系列评价指标来评判学习算法的有效性。例如,二分类算法就有如图1所示的许多种评价指标。那么,机器学习中的“优秀学生”、“三好学生”如何来评判?
图1 机器学习评价指标(https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers)
给定一个数据集,如果学习算法A在评价指标下,能够表现出良好的学习性能,那么该学习算法就是“优秀学生”。给定多个数据集(一般来自不同领域),如果学习算法B在评价指标下,都能够表现出良好的学习性能(类似于德智体美劳全面发展),那么该学习算法就是“三好学生”。这里需要指出的是,往往许多学习算法中的“优秀学生”具有数据特异性,即只在某一领域的数据集中表现良好。另一方面,学习算法中的“三好学生”具有数据泛化性,即在多个领域的数据集中都表现良好。学习算法中的“优秀学生”一般为特定研究领域定制,而学习算法中的“三好学生”倾向于应用推广。
可以说,已有的学习算法在特定数据集中,都可以成为“优秀学生”。在多个数据集中,能够成为“三好学生”的学习算法普遍为集成学习算法。因为集成学习算法的设计理念就是取长补短,即将多个层次不齐的学习算法融合起来,转化成一个强学习算法。例如,在二分类器领域,随机森林、Boosting和Bagging就是典型代表。在性能方面,集成学习算法进一步强调了集思广益的重要性和必要性。
后话
英国统计学家George E. P. Box曾经说:All models are wrong, but some are useful. Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.(翻译过来:所有模型都是错的,但其中有些是有用的。记住,所有模型都是错误的;关键的问题是模型错到什么程度就一无是处了。)。这段话强调了,只要涉及预测,就难免会出现错误率,该错误率你能够接受,那么该学习算法就是“优秀学生”或“三好学生”。
参考链接
[1] https://en.wikipedia.org/wiki/Evaluation_of_binary_classifiers
以往推荐如下:
1. 因果推理综述推荐一篇
2. 生物学家的机器学习指南
3. 基础模型的机遇与风险
4. 一份单细胞数据分析教程
8. 国外知乎:Quora
11. 预印本知多少?
14. mRNA表达无法取代蛋白质表达
15. scIB:单细胞数据融合基准框架
16. 临床医疗维修店铺
18. 怎样做好一项研究?
19. 怎样做开题报告?
20. 深度学习助力单细胞数据分析
21. Any RNA
22. 走进数据科学
23. 直抵自闭症核心
24. 癌症内RNA
25. 一对搭档:计算与生物
26. TF靶标
27. 生物组织内细胞通讯
28. 记一次主题编辑经历
29. 6个,10个,14个......
30. 你健康吗?
31. 你衰老了吗?
32. scIMC:填充单细胞转录组数据缺失值
34. 多组学的基本要素
35. 怎样开展网络数据分析?
36. miRNA组学
37. 走进数据挖掘
38. 让机器真正学习
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2023-12-10 20:47
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社