||
[汇报,科普] 为什么要研究新的“相关性/距离”指标(1) (关联:数据挖掘、机器学习、数理统计学)
一、“因果性”是我们人类认识世界的重要思路之一
尽管“因果性”不等于“相关性/相似性”,但“相关性/相似性”分析是通向因果性的主要渠道之一。
定量刻画“相关性/相似性”的数量指标,就是各种的“相关性/距离”指标或计算方法。
二、现有“相关性/距离”指标或计算方法普遍存在不足
(1)Pearson Product-Moment Correlation Coefficient
不反映“均值”之间的“相关性/距离”。
实际应用中,分母有可能为0。这造成数字计算机程序的“报错”或专门的处理。
(2)Euclidean distance
不反映变化趋势之间的“同向/反向”关系。
不直接反映“均值”之间的“相关性/距离”。
……
(3)重复
关于“相关性/距离”指标,与“因果性”关系的一个直观例子
该例子未经计算机程序验证,只是想通过“打比方”说明一些可能性。
问题:在《红楼梦》里,找出“贾宝玉”的亲属。
按照《红楼梦》,“甄宝玉”与“贾宝玉”长相十分接近,但并无血缘关系;贾宝玉的若干位叔伯兄弟,之间长相有些相似(个头大小也很像);贾宝玉和儿子贾桂,个头相差不少,但长相“按照比例系数缩小”后相似。
贾宝玉的“最相似”:
① 按照“DTW,Dynamic Time Warping,动态时间归整”距离,大概“甄宝玉”最像;
② 按照“欧几里得距离,Euclidean Distance”,大概贾宝玉的那些叔伯兄弟最像;
③ 按照“Pearson相关系数,Pearson product-moment correlation coefficient”,大概“贾桂”最像。
所以,“相关性”不直接等于“因果性”。“相关性”查找的结果,与采用的具体的“相关性/距离”指标有直接的联系。
因此,在机器学习、数据挖掘里,“相关性/距离”具体指标的选用,是个值得思考的问题。
三、小结:新的“相关性/距离”指标研究,十分重要
例如:
2011年《Science》的“Detecting Novel Associations in Large Data Sets”。提出的“最大信息系数 maximal information coefficient, MIC”,就是一个极好的例子。
几点建议:
(1)以结合某类具体的实际问题为优先,不必严格遵守数学里“范数 norm”等的严格的数学性质要求。
(2)假如采用了“分子/分母”形式,请一定注意“分母 denominator = 0”带来的额外麻烦。
(3)对所研究的问题类,具有相对均匀的“相关性/距离”反映的灵敏度。例如,“欧几里得距离,Euclidean Distance”就具有这种优点。而“归一化”性质的“相关性/距离”,一些会失去必要的灵敏性。
附录:
鼓励我们研究的名家名言
附录一、希尔伯特 David Hilbert
(1)Every mathematical discipline goes through three periods of development: the naive, the formal, and the critical.
Quoted in R Remmert, Theory of complex functions (New York, 1989).
每一门数学学科都经历了三个发展阶段:幼稚、形式和批判。
(2)Mathematical science is in my opinion an indivisible whole, an organism whose vitality is conditioned upon the connection of its parts.
在我看来,数学科学是一个不可分割的整体,一个有机体,它的活力取决于其各部分的连接。
附录二、高斯 Johann Friedrich Carl Gauss
(1)We must admit with humility that, while number is purely a product of our minds, space has a reality outside our minds, so that we cannot completely prescribe its properties a priori.
Letter to Bessel, 1830.
我们必须谦逊地承认,虽然数字纯粹是我们头脑的产物,但空间在我们头脑之外有一个现实,所以我们不能完全先验地规定它的属性。
(2)It is not knowledge, but the act of learning, not possession but the act of getting there, which grants the greatest enjoyment.
给予最大享受的不是知识,而是学习的行为,不是拥有,而是到达那里的行为。
附录三、庞加莱 Jules Henri Poincaré
(1)Mathematicians do not study objects, but relations between objects
Quoted in J R Newman, The World of Mathematics (New York 1956).
数学家研究的不是物体,而是物体之间的关系。
(2)The mind uses its faculty for creativity only when experience forces it to do so.
Mathematical discoveries, small or great are never born of spontaneous generation They always presuppose a soil seeded with preliminary knowledge and well prepared by labour, both conscious and subconscious.
Les faits ne parlent pas
只有当经验迫使大脑发挥创造力时,它才会发挥创造力。
数学发现,无论大小,都不是自发产生的。它们总是以一片播种了初步知识并由有意识和潜意识的劳动精心准备的土壤为前提。
附录四、爱因斯坦
(1)追求真理比占有真理更可贵。the search for truth is more precious than its possession.
出自1940年在《Science》发表的“Considerations Concerning the Fundaments of Theoretical Physics”一文。
参考资料:
[1] 陈希孺院士,1998,《数理统计学简史》第276页。长沙:湖南教育出版社,2002
[2] 2024-12-13,统计学/statistics/袁卫,王星,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=208374&Type=bkzyb&SubID=59818
研究在不确定的环境下,通过收集和分析数据,进而提炼可靠信息,为各学科、领域和社会提供知识,帮助决策的科学。它既根植于各个领域的实践,又致力于为各个领域提供科学服务。
[3] 2024-05-31,数理统计/mathematical statistics/陈希孺,撰周勇修订,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=149136&Type=bkzyb&SubID=59827
研究有效收集、整理和分析带有随机性的数据,以对所考察的问题作出推断或预测,直至为采取一定的决策和行动提供依据和建议的方法和理论。
[4] 2024-12-03,因果性/causality/朱复康,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=235393&Type=bkzyb&SubID=59860
因果与相关是两个不同的重要概念。因果关系描述事物之间的影响机制,具有外延性和可预测性;相关关系描述所看到事物之间的表面现象,没有外延性和可预测性。即使这两个因素之间没有因果关系,仍可能会表现出虚假的相关关系;相反地,如果它们之间具有因果关系,也不一定表现出相关关系。
[5] 2024-07-27,因果分析法/causality analysis method/朱镇,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=559986&Type=bkzyb&SubID=237937
一种用于确定引起某一现象变化原因的分析方法。是定量管理方法的一种重要类别。主要解决“为什么”的问题。致力于揭示事件或现象之间的因果关系,帮助理解特定现象发生的根本原因。
[6] 2023-11-14,伪相关/spurious correlation/秦国友,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=51406&Type=bkzyb&SubID=59839
随机变量间由于偶然巧合或者由于其他一些未见的因素,如:混杂因素(confounding factor)、潜在变量(lurking variable)造成的相关,而实际上它们并无任何相关关系。
[7] 科普中国,2021-12-31,数据相关性
https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=251918
Pearson相关系数(Pearson's r)
净相关(partial correlation)
相关比(correlation ratio)
Gamma相关系数
Spearman等级相关系数
Kendall等级相关系数(Kendall tau rank correlation coefficient)
Kendall和谐系数
Phi相关系数(Phi coefficient)
列联相关系数(contingency coefficient)
四分相关(tetrachoric correlation)
Kappa一致性系数(K coefficient of agreement)
点二系列相关系数(point-biserial correlation)
二系列相关系数(biserial correlation)
[8] 科普中国,021-12-31,测度
https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=287805
[9] 科普中国,2024-03-04,范数
https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=482115
感谢您的指教!
感谢您指正以上任何错误!
感谢您提供更多的相关资料!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-9-21 04:43
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社