[笔记,图片] 新“相关性”指标与“余弦相似度”:一个具体的示例 (关联:数据挖掘、机器学习、数理统计学)
2025-08-19 早晨睡醒后,终于下决心提出一个新的相关性指标。
下面2个图片,一个是全局,另一个是细节。
对于某类同性质数据(Independent and Identically Distributed Data, independent identically distributed, IID),在样本容量为 27 的小样本下,新指标“Zenas similarity”和“余弦相似度”之间的散点图。
由于身体等原因,实在没有条件进行新指标“Zenas similarity”更多的仿真(数值实验)的研究,所以才有了《真傻悲歌之二》:
我那光荣的身体不能用手来劳动/编程……
……
噢噫,静静的真傻,苍天的弃儿!
噢噫,静静的真傻,你的命运为什么这样惨?
……
图1 全局:Zenas similarity vs/versus 余弦相似度 cosine similarity
图2 细节:Zenas similarity vs/versus 余弦相似度 cosine similarity
因为正式发表要求的“学术规范”,请恕这里不能提供您更多的技术细节。实际上,由于身体等原因,也还没有太多的数值实验结果。
2011年发表于《Science》的最大信息系数 maximal information coefficient (MIC)一文,“Detecting Novel Associations in Large Data Sets”
doi: 10.1126/science.1205438
https://www.science.org/doi/10.1126/science.1205438
“Supplementary Material”貌似 58 页!
参考资料:
[1] 2023-12-15,余弦相似度/cosine similarity/余传明,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=134912&Type=bkzyb&SubID=104867
[2] 2023-12-19,相似性度量/similarity measurement/孙志猛,中国大百科全书,第三版网络版[DB/OL]
https://www.zgbk.com/ecph/words?SiteID=1&ID=51239&Type=bkzyb&SubID=59826
①闵可夫斯基距离。
②皮尔逊距离。
③兰氏距离
④马氏距离。
①夹角余弦。
②皮尔逊相关系数。
以前的《科学网》相关博文链接:
[1] 2025-09-29 20:01,真傻悲歌之二 (仿《顿河悲歌/哥萨克古歌》悲,太悲了,关联:新的“相关性/距离”指标)
https://blog.sciencenet.cn/blog-107667-1504088.html
[2] 2025-09-20 21:21,[汇报,科普] 为什么要研究新的“相关性/距离”指标(1) (关联:数据挖掘、机器学习、数理统计学)
https://blog.sciencenet.cn/blog-107667-1502822.html
[3] 2025-09-19 22:28,[资料,科普,琐记] 相关性指标 correlation, similarity,数理统计学,小样本(置信区间):要点
https://blog.sciencenet.cn/blog-107667-1502725.html
[4] 2020-06-17 13:30,敬请慎重使用和看待“数据统计与分析”的结果
https://blog.sciencenet.cn/blog-107667-1238236.html
[5] 2020-08-18 14:01,没有真正“小样本”数理统计学的世界,了无生趣
https://blog.sciencenet.cn/blog-107667-1246844.html
[6] 2018-08-18 15:06,“大数据”时期,更渴望“小样本数理统计学”
https://blog.sciencenet.cn/blog-107667-1129894.html
[7] 2024-08-26 22:18,[宇宙科学院] 牛顿论题:万有引力常数G不是常数,而是随材料、温度、压力等多种条件变化的变量。
https://blog.sciencenet.cn/blog-107667-1448299.html
[8] 2021-07-13,[困惑与求证] 线性归一化 Normalization、标准化 Standardization 是否会引起额外的误差?
https://blog.sciencenet.cn/blog-107667-1295337.html
[9] 2021-07-14 15:59,“归一化引起数据挖掘额外误差”(牛顿猜想)的一个糟糕的确定型证明尝试
https://blog.sciencenet.cn/blog-107667-1295438.html
[10] 2022-07-25 14:55,[自己提出问题,提问] 与大数据与机器学习、数据挖掘等“数据科学”有关的一些问题
https://blog.sciencenet.cn/blog-107667-1348710.html
感谢您的指教!
感谢您指正以上任何错误!
感谢您提供更多的相关资料!
转载本文请联系原作者获取授权,同时请注明本文来自杨正瓴科学网博客。
链接地址:https://wap.sciencenet.cn/blog-107667-1504248.html?mobile=1
收藏