杨正瓴
[笔记,图片] 新“相关性”指标与“余弦相似度”:一个具体的示例 (关联:数据挖掘、机器学习、数理统计学)
2025-9-30 19:23
阅读:338

[笔记,图片] 新“相关性”指标与“余弦相似度”:一个具体的示例 (关联:数据挖掘、机器学习、数理统计学)

        

      

   2025-08-19 早晨睡醒后,终于下决心提出一个新的相关性指标。

   下面2个图片,一个是全局,另一个是细节。

        

   对于某类同性质数据(Independent and Identically Distributed Data, independent identically distributed, IID),在样本容量为 27 的小样本下,新指标“Zenas similarity”和“余弦相似度”之间的散点图。

   由于身体等原因,实在没有条件进行新指标“Zenas similarity”更多的仿真(数值实验)的研究,所以才有了《真傻悲歌之二》:

   我那光荣的身体不能用手来劳动/编程……

   ……

   噢噫,静静的真傻,苍天的弃儿!

   噢噫,静静的真傻,你的命运为什么这样惨?

   ……

        

Zenas 指标 11 全局.jpg

图1  全局Zenas similarity vs/versus 余弦相似度 cosine similarity

        

Zenas 指标 22 细节.jpg

图2  细节Zenas similarity vs/versus 余弦相似度 cosine similarity

        

   因为正式发表要求的“学术规范”,请恕这里不能提供您更多的技术细节。实际上,由于身体等原因,也还没有太多的数值实验结果。

   2011年发表于《Science》的最大信息系数 maximal information coefficient (MIC)一文,“Detecting Novel Associations in Large Data Sets”

doi:  10.1126/science.1205438

https://www.science.org/doi/10.1126/science.1205438

“Supplementary Material”貌似 58 页!

    

    

参考资料:

[1] 2023-12-15,余弦相似度/cosine similarity/余传明,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=134912&Type=bkzyb&SubID=104867

[2] 2023-12-19,相似性度量/similarity measurement/孙志猛,中国大百科全书,第三版网络版[DB/OL]

https://www.zgbk.com/ecph/words?SiteID=1&ID=51239&Type=bkzyb&SubID=59826

   ①闵可夫斯基距离。

   ②皮尔逊距离。

   ③兰氏距离

   ④马氏距离。

   ①夹角余弦。

   ②皮尔逊相关系数。

  

以前的《科学网》相关博文链接:

[1] 2025-09-29 20:01,真傻悲歌之二 (仿《顿河悲歌/哥萨克古歌》悲,太悲了,关联:新的“相关性/距离”指标)

https://blog.sciencenet.cn/blog-107667-1504088.html

[2] 2025-09-20 21:21,[汇报,科普] 为什么要研究新的“相关性/距离”指标(1) (关联:数据挖掘、机器学习、数理统计学)

https://blog.sciencenet.cn/blog-107667-1502822.html

[3] 2025-09-19 22:28,[资料,科普,琐记] 相关性指标 correlation, similarity,数理统计学,小样本(置信区间):要点

https://blog.sciencenet.cn/blog-107667-1502725.html

[4] 2020-06-17 13:30,敬请慎重使用和看待“数据统计与分析”的结果

https://blog.sciencenet.cn/blog-107667-1238236.html

[5] 2020-08-18 14:01,没有真正“小样本”数理统计学的世界,了无生趣

https://blog.sciencenet.cn/blog-107667-1246844.html

[6] 2018-08-18 15:06,“大数据”时期,更渴望“小样本数理统计学”

https://blog.sciencenet.cn/blog-107667-1129894.html

[7] 2024-08-26 22:18,[宇宙科学院] 牛顿论题:万有引力常数G不是常数,而是随材料、温度、压力等多种条件变化的变量。

https://blog.sciencenet.cn/blog-107667-1448299.html

[8] 2021-07-13,[困惑与求证] 线性归一化 Normalization、标准化 Standardization 是否会引起额外的误差?

https://blog.sciencenet.cn/blog-107667-1295337.html

[9] 2021-07-14 15:59,“归一化引起数据挖掘额外误差”(牛顿猜想)的一个糟糕的确定型证明尝试

https://blog.sciencenet.cn/blog-107667-1295438.html

[10] 2022-07-25 14:55,[自己提出问题,提问] 与大数据与机器学习、数据挖掘等“数据科学”有关的一些问题

https://blog.sciencenet.cn/blog-107667-1348710.html

 

感谢您的指教!

感谢您指正以上任何错误!

感谢您提供更多的相关资料!

转载本文请联系原作者获取授权,同时请注明本文来自杨正瓴科学网博客。

链接地址:https://wap.sciencenet.cn/blog-107667-1504248.html?mobile=1

收藏

当前推荐数:11
推荐到博客首页
网友评论2 条评论
确定删除指定的回复吗?
确定删除本博文吗?