精选
|
上周四晚这学期第一次讨论班开始了,小薛同学提到聚类时,秀了一张t-sne算法跑出的可视图,图上四个原本在二维空间混叠在一起的类,有效地通过聚类模型分开了。我便说了两点我的思考,一是,二维可视化的结果能看出,这背后的假设是每个类符合高斯分布。二是,二维的可视化,本质上是想让我们在二维空间看到可分的结果。但原来的高维空间,我们人类是无法看到其究竟是如何的结构的,也许本来就可分呢,只是直接投影到二维空间才混叠在一起,变得傻傻分不清楚。

图1: 数据划分t-sne可视图。左:未经过有效聚类处理的;右:经过处理后。
啥是高斯分布,就是去庙里许愿,向许愿池扔硬币,扔的人多了,硬币就会在许愿池中心位置有更多的数量,越往外越少。硬币形成的这种由中心向外逐渐变少的形状就是高期分布。

为了能获得高斯分布的聚类效果,人工智能科研人员用得最多的聚类算法是K-均值,因为它隐含的假设就是K-均值。虽然数据的分布显然不可能只有高斯分布这一种形式,聚类的方法也不必要硬是采用有高斯分布假设的K-均值算法,但因为这两者都有极好的特性,虽然已经用了快50年以上了,在人工智能研究里仍然被广泛采用。
高斯分布,主导了近年来人工智能内容生成的核心技术,扩散模型的推成,因为它的可加加迭代又不改变高斯分布形式的优良特性;K-均值在数据特征离散化也是常用策略,因为从计算效率和聚类效果等综合来看,性价比来看它还是最好的。
第二个问题,高维空间是不是原本就是可分的呢?
记得20多年前,还是统计学习主导人工智能的时代。当时万普尼克搞了一个线性分类的支持向量机,可以处理用类似直线即可划分的数据。如果数据所在空间,无法用直线划分时,他认为有一个未知但存在的高维空间,数据在那里同样可以用直线分开。而这个空间,他用了一个不需要显示知道函数形式的映射方法来实现,即核函数。因为有这个机理的存在,曾经有相当长的一段时间,人工智能研究核函数的痴迷程度,和现在在转换模型transformer上加各种花的程度是一样的。
不过话说回来,不论是核函数,还是现在深度学习、转换模型的各种变化,本质上都是希望通过扩维、找到一个过完备(over-complete)的空间,在那可以将随后的人工智能任务有效完成。
但如果不扩维,数据从输入端就有一个过完备的空间,而且这个过完备空间是已经被反复验证过它是近优的。就像自然界花了40亿进化出来的生命一样,它让感知有了超高维的空间表达。那么,岂不是可以省去后续的构造过完备空间的繁琐,因为在现在的人工智能体系下,过完备空间获得后还需要做各种优化来提升性能。
当然,涉及到高维空间,数学和人工智能都有一些要探索的问题。比如维数灾或维数诅咒(Curse of dimensionality)。它讲的是,高维空间通常是空的。举例来说,一个直径等于1的三维球嵌在边上等于1的立方体里,那显然立方体90%以上的体积是在球内的。但如果不是三维,而是更高的维度的球,比如10以上,则会发生反直觉的变化。超立方体90%以上的体积会跑到立方体与球之间的缝隙里,球体中间反而会空掉。它导致了很多有趣的数学现象,一是高斯分布,在高维空间后,硬币扔不进去了,多数只能落在边上。这意味着高斯分布的某些性质在高维空间会失效,用不了。二是几乎所有的高维空间都会远离其中心,最小值和最大值的距离会不可辨别。这也会导致很多数据的划分变得不是那么明显。

然而,针对这一现象,科学家也找到了一些变通的方案,来解释高维空间的合理性。一是维度本身,并不能直接按输入多少维,高维空间就是多少维来定义,有内在维度的概念。比如通过人脸识别人,有可能只需要知道人脸上下角度、左右角度、表情、光照等因素的变化即可,这些因素张成的维度远小于视网膜上亿视锥加视杆细胞的总和。科学家们将这样内在维度张成的空间,称之为嵌套在高维欧氏空间的低维流形。因此,研究低维流形上的数学性质,和进行相应的人工智能计算,就能避开维数灾难的问题。当然,除了流形,还有拓扑。它分析了数据在高维空间可以张成的几何结构,比如三维空间里能见到的莫比乌斯环,四 维空间里可以想象但无法复现的克莱因瓶。但再高维空间有哪些有意义的拓扑结构,以我的知识,似乎就很少被讨论了。科学家们会用持续同调(Persistent Homology)找到一些来估计,比如通过引入边长持续增加的三角形(严格意义是单纯复形)来覆盖高维数据,然后看连通性的数量、空洞数量随边长变化的情况,寻找稳定的拓扑结构,从而推测其可能有的结构。但很明显的其它结构,我们知道得并不多。毕竟数据是离散有噪的,要从中剥离出干净的结构并不容易。

另外,对空间的划分也不止一种方式。有的时候,会引入子空间的概念,即将超高维空间分成若干个不同的区域,每个区域各负其责。数学、人工智能都有子空间研究的方向。而自然界也进化出了类似的子空间划分策略。以人脑为例,我们的脑区就有不同的对应关系。比如视觉中枢,就位于后脑的位置(即头颅后下方,靠近小脑上方)。而听觉性言语中枢则位于大脑顶叶、枕叶、颞叶交会处的颞上回位置。
诚然,我们已经知道一些高维空间的数学性质,也能通过人工智能算法去处理高维数据,获得好的预测性能。但仍有不少未知的性质需要探索,在超高维空间的研究上也需要做不少新的突破,它可能对于真正理解智能有至关重要的作用。比如从数学中假想的连续空间到人工智能数据常处的离散空间上的超高维空间研究、超高维流形结构、认知方式、拓扑分析、辛几何、复数拓扑等等。
然而,遗憾的是,随着近年来AI的快速发展,数学领域的专业人士要进入AI行业已不如十年前有明显优势。可以预见,在不久的若干年内,懂得提需求的才更能用好AI,而不是数学好的更能用好,这有可能会导致数学专业方面人才的大幅减少。
可是,按我上述所说,感知的超高维空间还有很多东西并没完全理解清楚,也没有好的数学表述,那如何能形成对感知超高维疑云的解决方案或理论的建构呢。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-3-23 17:58
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社