按:近二十年来有大量的应用主成分分析法进行事物优劣评价的论文,自然科学和社会科学领域都有大量的存在,且在应用时通常都提及这样一个观点:认为由于主成分分析法在分析过程中不会引入任何主观评价的因素,完全是由实测数据本身进行优劣评价的,因此其结果是非常客观的优劣评价结果。关于这个问题,我们在经过长时间的思考和分析后,正式发表了两篇期刊论文进行反驳和证否(“点评主成份分析法在各类事物评价尤其环境评价中的应用”http://blog.sciencenet.cn/blog-3234816-1002883.html)。由于主成分分析的过程中涉及到不少数学分析和数学运算过程,对于某些数学知识相对薄弱的读者来说理解起来可能有一定的难度,本文从一个通俗的角度,纯文字地对这个问题进行论述(数学分析和论证过程详见我们的那两篇已见刊论文),这样也许可以有助于读者对这个问题的理解。
主成分分析法的核心过程,是进行相关/不相关分析、方差分析和基于方差分析基础上的方差贡献率的计算与分析,这种计算本身是有意义和有价值的,其最终提取出来的那些个主成分,有助于研究人员去理解和梳理原始数据样本中蕴含了哪些可能的且重要的独立特征(类似于自由度、维度的提取,即从数据变化的角度来分析导致数据样本的数值差异的大概有哪些可能的要素或特征),在主成分提取的基础上,再进行事物的分类和聚类时,这种方法是一个可行的有趣的方法,只是在不同的主成分的具体物理意义的判断上,需要通过对该主成分的构成的不同进行有物理意义的理解甚至猜测(当然,这个过程其实已经是一个有一定风险和不确定性的过程了,因为最后所提取出来的那一个个主成分究竟分别代表了该数据样本的哪些物理特征,是未必一定有准确的物理意义的对应关系的)。
接下来的问题,就到了本文的核心环节了,即:进一步地将上述的主成分分析过程所得到的主成分提取的结果和方差贡献率计算结果,应用于评价该事物不同样本的优劣,且直接以方差贡献率的大小来作为该事物不同样本的优劣评价的依据,是否是合理的呢?我们认为,这种做法是错误的、不合理的,方差贡献率是不能拿来作为优劣判别的尺度的。要准确理解这一点需要回到主成分分析的数学分析过程中,但正如本文的‘按’中所述,本文试图给出一个通俗化和简单化的理解方法(详细的有数学化的论证分析过程详见我们的那两篇论文)。
在此,我们可以纯理念式地来考察这样一个例子:比如我们要去对一群人的品德好坏做评价。而且,在收集数据样本时,我们故意做了这样一个操作:挑选了这样一群人,这群人里大部分都是品德比较好且品德差异不大的人,没有选入品德非常高尚的人,但选入了少数几个品行败坏的人(为何故意这样选取数据样本,是因为任何一个分析方法,如果的确有效的话,其分析评价结果应该是可以普适的,即不论是什么样的数据样本集,最后分析评价出来的结果都应该是可靠的至少不离谱的)。
接下来,我们开始进行进一步的计算,即需要计算这群人的品德的方差和方差贡献率,此时,不论我们在数据处理中是否采取了正向化的数据处理操作(即将所有评价指标都统一调整成越大越好,越大意味着品德越好),一个肯定的结果是:那几个坏人的方差贡献率会是最大的。这时,评价的错误就立即出现了:由于主成分分析法在进行优劣评价时,是将方差贡献率当成是优劣评价的标准的,方差贡献率越大的话,其最终得分就越高,结果好了,这就导致那几个坏人会被评价成品德最好的人,因为他们的方差贡献率最大呀。
对于刚才的这个例子,也许会有读者说,那如果事后调整一下排序的方法,把那几个坏人排成了最后,不就还是可以评价好坏的么,这不是正好的确把那几个坏人给挑出来了么?问题的关键在于,方差贡献率分析法只能负责在方差分析和方差贡献率、主成分提取基础上进行纯粹的数值计算,但最终其好坏的判断,其实我们是事先或事后通过其他的评价准则来给出的,而不是通过方差贡献率本身来得出来的。也就是说,在这个过程中,主成分分析法本身仍然只完成的是聚类和分类的工作,而不是直接的优劣评价的工作,最后你通过主成分分析得出的分类中,究竟哪一类是好的哪一类是坏的这个问题,仍然是通过其他的价值判断的准则来进行评价的,而不是主成分分析法本身可以完全客观地、独立地做出该数据样本的优劣评价的。(此外,上述这个例子还可以设置其他更加复杂的情形,比如‘放入3-5个品德高尚的人,同时只有1-2个品德败坏的人’,或是‘放入1-2个品德高尚的人,同时有3-5个品德败坏的人’,这些不同的情形,会导致结果上出现有时结果的确和人们的日常生活经验相符(对于前者),或是正好与人们的日常生活经验相反的结果(对于后者)。
综上所述,因此主成分分析法本身是不能直接用于优劣评价的,更不能实现所谓的‘主成分分析法可以完全独立地且客观地进行事物的优劣评价’,即使要用它来做优劣评价,也必须在用主成分进行分类聚类的基础上,另外添加有实质物理意义的优劣评价准则和优劣评价方法去进行评价,才能完成最终的优劣评价工作。
最后的一点补充,上述推理分析过程还隐含了这样一个问题:这意味着主成分析法的分析结果其实是强烈依赖于最初的样本选取的。因此,究竟该如何稳妥的利用主成分分析法来进行主成分的提取和样本的聚类分析等,是需要慎重处理的,笔者认为,简单地说,应该有这样一个重要原则:所选的样本要尽可能的有充分的代表性,在概率分布上要尽量全面地且随机地覆盖到所有可能的情形。
转载本文请联系原作者获取授权,同时请注明本文来自钟定胜科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3234816-1266237.html?mobile=1
收藏