博文

[资料，科普，琐记] 相关性指标 correlation, similarity，数理统计学，小样本（置信区间）：要点

已有 1398 次阅读 2025-9-19 22:28 |个人分类:资料与科普|系统分类:科普集锦

[资料，科普，琐记] 相关性指标 correlation, similarity，数理统计学，小样本（置信区间）：要点

一、现有的相关性指标 similarity indices

罗列一些如下（含距离）：

The Pearson Product-Moment Correlation Coefficient,

Manhattan distance, Euclidean distance, Cosine coefficient, Dice coefficient, Tanimoto coefficient, Soergel distance, 以及

mutual information, maximal information coefficient (MIC),

Spearman Rank Correlation (Spearman’s Rho), Kendall’s Tau (Kendall Rank Correlation Coefficient), Hoeffding D statistic,

Chebyshev distance, Wasserstein distance, dynamic time warping (DTW),

……

感谢您提供更多的“相关性/距离”计算方法或指标。

Table 2 Formulas for the various similarity and distance metrics_拉曲线黑白.png

图1 常用的一些“相关性/距离”计算方法或指标

https://jcheminf.biomedcentral.com/articles/10.1186/s13321-015-0069-3/tables/2

https://jcheminf.biomedcentral.com/articles/10.1186/s13321-015-0069-3

二、我们的新“相关性指数 similarity index”

2018年7月，我们公开提出了一个新的“相关性指数 similarity index”，如下。尽管比较好用，但长相是丑了点。

2018-07 刘仍祥 new similarity indices.png

图2 2018-07，我们提出的一个新的“相关性/距离”计算指标

https://ieeexplore.ieee.org/document/8630700

2018 刘仍祥_副本.png

这里，分母里的“1”是为了避免“分母 denominator = 0”加入的。可以为别的“正实数”。

三、汇报：目前忙什么？

（1）近期，主要“忙于”得病。

旧病加重。多处不适。

（2）2025-08-19，早晨在学四食堂买“豆腐脑”，居然忘了付钱。经过食堂的男师傅提示，我才想起付钱：人民币 2元。

累成这个样子，实在是因为身体太不理想了。我可是真没打算白吃啊！

正是该日（2025-08-19）早晨睡醒后，终于下决心提出一个新的相关性指标。

可是，由于身体等原因，一直没能用计算机程序进行“置信区间”方面的数值实验。时间流逝得真快啊！

学到老，活到老。

病的绝望；

活出凄凉；

恸哭苍凉，

怆然涕下！

木犹如此，人何以堪！

图3 4847470943_5cbc527148_o.jpg

https://farm5.staticflickr.com/4105/4847470943_5cbc527148_o.jpg

参考资料：

[1] 武夷山，2015-01-23，“大概近似正确”的评价精选

http://blog.sciencenet.cn/blog-1557-861961.html

第三，理论自身可能有错误。例如，科学计量学领域的作者同被引分析早在20世纪70年代已现端倪，同被引分析的一个步骤是测度相似性，人们曾用皮尔逊相关系数来测度相似性，而直到2003年，人们才指出这是错误的。

第四，算法出错。引文只是质量的替代指标，而人们经常用引文指标作为评价算法的输出变量，有时候就会得出错误的结果，比如，Bouyssou & Marchant于2011发表的文章， Waltman & van Eck于 2012年发表的文章，都指出了h指数的一些问题。

[2] 陈希孺院士，1998，《数理统计学简史》第276页。长沙：湖南教育出版社，2002

[3] Per Ahlgren, Bo Jarneving, Ronald Rousseau. Requirements for a co-citation similarity measure, with special reference to Pearson's correlation coefficient, Journal of the Association for Information Science & Technology, 2003, 54(6): 550–560, 2003.

doi: 10.1002/asi.10242

http://onlinelibrary.wiley.com/doi/10.1002/asi.10242/abstract

[4] Dávid Bajusz, Anita Rácz, Károly Héberger. Why is Tanimoto index an appropriate choice for fingerprint-based similarity calculations? [J]. Journal of Cheminformatics, 2015, 7(20): 161-169

doi: 10.1186/s13321-015-0069-3

https://jcheminf.biomedcentral.com/articles/10.1186/s13321-015-0069-3

[5] 杨正瓴，2018-06-22 00:12，慎用“机器学习中的数据预处理：缩放和中心化”

https://idea.cas.cn/zhhh/gcjskxygjs/gcjskxygjs_dzyxx/info/2018/510794.html

关于“相关性/距离”指标，与“因果性”关系的一个直观例子。该例子未经计算机程序验证，只是想通过“打比方”说明一些可能性。

问题：在《红楼梦》里，找出“贾宝玉”的亲属。

按照《红楼梦》，“甄宝玉”与“贾宝玉”长相十分接近，但并无血缘关系；贾宝玉的若干位叔伯兄弟，之间长相有些相似（个头大小也很像）；贾宝玉和儿子贾桂，个头相差不少，但长相“按照比例系数缩小”后相似。

贾宝玉的“最相似”：

①按照“DTW，Dynamic Time Warping，动态时间归整”距离，大概“甄宝玉”最像；

②按照“欧几里得距离，Euclidean Distance”，大概贾宝玉的那些叔伯兄弟最像；

③按照“Pearson相关系数，Pearson product-moment correlation coefficient”，大概“贾桂”最像。

所以，“相关性”不直接等于“因果性”。“相关性”查找的结果，与采用的具体的“相关性/距离”指标有直接的联系。