上回讲到,光学倒像这一简单的现象,在何时纠正和如何完成上,还没有形成统一和完美答案的。除此以外,以下三种情况的颠倒视界也会影响人的判断,导致错判或判断障碍,甚至产生光学幻觉。
一、人脸翻转效应(Face Inversion Effect)
图1是网络上经常能看到的。左图是一个老太太。但如果把图像颠倒过来后,却能看到一位戴着皇冠的美女。类似的颠倒错觉图还有不少。这类图产生两义性的结果,主要缘于人的视觉系统具有整体结构观和依赖人的先验知识或以往经验 。
观看一张人脸图时,人们会自然地把眼睛下面的结构按鼻子、嘴巴、脖子的次序依次排序去联想和匹配,而眼睛上方的结构则往头发、头饰去想像。很少人会不按这样的结构次序来反向思维。 它表明,如果忽略了与生活常识中次序相反的细节结构,就有可能产生颠倒错觉。当然,如果你有倒过来阅读习惯的,其实也能从老太太的图上直接看到倒过来的美女。
图1: 颠倒错觉中的老太太与美女画像
更有意思的是,某些图像,尤其是人脸,即使只是简单地翻转,也可能导致认知障碍。
1969年,科学家Yin第一个在文献中报道了:翻转脸对于识别的影响要大于其它范畴的图像[1]。自此以后,很多科学家开始研究人脸翻转效应,并试图给出合理的解释。
加拿大安大略省女王大学(Queen’s University)的三位研究人员Freire 等曾在2000年展开深入研究[2]。他们首先将多个人脸图像进行统计平均,以形成平均脸。基于对图2平均人脸的研究实验, 他们分析了人脸逆转效应(Face Inverse Effect)。
他们注意到, 在正脸情况下,如果从整体结构或构型(configural)的角度出发,人能够以81%的精度区分人脸。当人脸被翻转后,就只有55%的识别精度了。而如果要求测试者辨识人脸上的特征,如眼睛、眉毛、鼻子之类的,那么翻转的影响就很轻微。正常脸的识别精度是91%,翻转了也有90%的精度。如果考虑延迟的影响,他们发现隔1到10秒,让测试者重新去识别,不管是正脸还是翻转脸,在构型上或特征上的差异都能正确识别,人脸逆转效应似乎消失了。从这些实验,他们推断,人脸逆转效应中起主要作用的是构型,即整体结构对识别的影响更大。但这也可以算作构型编码的一个缺陷,比如双胞胎就很难通过构型编码来区分。
由于在时间上识别率上的差异极细微,他们还推断,这种构型缺陷主要发生在人脸处理的编码阶段,而不是后面的人脸存储阶段。这与图1中我们不容易发现老人图像中隐藏的美女的情况是吻合的。
图2 人脸逆转效应,左边,正脸(Upright),右边,颠倒脸(Inverted); 中间的字Featural表示 “基于特征的”[2] 。第二行表明人脸构型上的垂直(Vertical)距离在翻转后会被错判。
另外,科学家Carbon 和Leder[3]在研究中发现,正脸比翻转后的脸的全局信息能更快获得,而在翻转脸后,特征的提取则要先于整体信息进行处理。而要在短时间(如26毫秒)处理局部特征信息,则具有上下文信息的整体结构处理是必要的。
总的来说,翻转效应影响了人对人脸的空间关系,即人脸构型的认知 [4]。但是,人脸翻转效应还没有一个终结者的解释。有兴趣的朋友可以在网络上搜索”Face Inverse Effect” ,应该可以查到不少最近的相关文献。
相反,现有的人工智能技术是不用担心翻转对识别性能的影响,尤其在现在引入生成式对抗网络和数据增广技术后。翻转被作为丰富人脸训练数据集的手段之一,因此,不会损害人脸识别算法的预测性能。
但从认知的角度看,这是否意味着我们在提高预测能力的同时,有可能损失了“拟人”的某些认知功能呢?也许可以推断,人脸翻转效应表明,现有的人工智能技术在人脸识别的处理方法上和人在人脸的认知上存在根本的不同。理解这些差异,也许是通向“强”人工智能和混合智能方向的线索之一。
二、正片负片的人脸识别
不仅在图像方向上的翻转会引起认知障碍,甚至对图像做简单的强度翻转也会让原来人脸识别变得更困难。
图3 人脸图像的正片(左)和负片(右),以及变换公式(中)。中间图里,横坐标可以认为是输入的图像强度,纵坐标是变换后的强度。斜线是正负片的翻转方式,即白变黑,黑变白。
图3左图是一张正常的人脸,如果对其用中间图的函数做翻转变换,即白变黑,黑变白的简单翻转,则有了右图的负片图像。虽然人在识别和记忆左图人脸时,是不太需要费脑筋的。虽然用的函数变换也很简单, 但对于右图,如果没有左图做参照,人可能很难联想其真实的相貌,更不用说做有效识别了。这种差异也许是由于日常生活缺乏负片学习造成的,因为人的视网膜细胞只是感光细胞,只能接受正能量。也许是由于智能体缺乏这一类数学计算的能力,没有演化出有效的办法,可以在大脑自动将中图的简单函数求反,尽管智能体可以实现前一篇中所讲述的、光学倒像的自动纠正。
三、正负倒影
图4 耶酥光学幻觉
除了以上两种颠倒,人的视觉还有翻转颜色的“特异功能”。如图4所示,如果你盯着这张图中间的四个点静看30秒,再去看一面白色的墙或屏幕的空白处,或不停的眨眼,你的眼前便会浮现出耶酥的影子。这个影子看上去就像是由图上黑色背景内部的部分,通过黑变白,白变黑互补所形成的图像。
至于为什么会有这样的结果,也是众说纷纭。比较靠谱的解释是,这是一种图像烙印(burn-in)或持续性记忆现象。当一个非常明亮的目标处在视野的关注焦点时,会在视网膜上短暂地打上烙印。如果随后闭眼或者重复性地眨眼,这个烙印仍然还会持续一段时间。
也有观点说,人的眼睛是由视锥和视杆细胞组成。其中,视锥细胞主要负责环顾四周。如果长期只盯着同一目标看的话,那视锥细胞就容易工作过度,导致快速疲劳。结果,如果离开盯着的目标后,疲劳的视锥细胞不会迅速反馈新看到的颜色到大脑,比如新看到的白色墙壁。而大脑还需要对老的信息进行解释,因为它并没有收到强的、新的信号。
还有观点将其称为视觉后效(Aftereffects in Visual)。即连续注视相同图形之后,会导致感知被影响,随后影响感受到的图形结果 。这种知觉现象最早于1925年由E.H.维尔霍夫发现,后来很多科学家都对这一现象进行了系统的研究[5]。
这些观点都认同,随着视网膜神经细胞功能的恢复,这个现象会逐渐消退。因为这种现象能带来很多奇特的视觉效果,所以,这或多或少可以解释,为什么大多数艺术馆里都是以白墙来装饰的。
不管怎么说,人眼的这些错觉现象表明,人内在的认知行为,可能比我们现在人工智能所能实现或理解的功能要复杂,需要做更多的探索。
今天就写到这里。下回介绍智能体的另一种视觉错觉。
平猫
2018年7月5日
参考文献:
1. Yin R K. Looking at upside-down faces. Journal of Experimental Psychology. 1969, 81: 141 – 145
2. Freire A, Lee K, Symons LA. The face-inversion effect as a deficit in the encoding of configural information: direct evidence. Perception. 2000;29(2):159-70
3. Carbon CC, Leder H. When feature information comes first! Early processing of inverted faces. Perception. 2005;34(9):1117-34
4. Rossion B, Gauthier I. How does the brain process upright and inverted faces. Behavioral and cognitive neuroscience reviews. 2002, Mar; 1(1): 63-75.
5. http://www.baike.com/wiki/图形后效
人物介绍:图3是计算机视觉领域的杰出人物之一,加州大学圣特芭芭拉分校计算机系的Matthew Turk教授。他和Alex Pentland在1971年提出的特征脸(Eigenface)算法,在深度学习兴起前,是计算机视觉领域在人脸识别和其他目标识别中的经典算法之一。目前该算法的学术谷歌引用达17000余次。
延伸阅读:
张军平 (平猫),复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2600余次,ESI高被引一篇,H指数27。
注:用图均来自网络或文献
转载本文请联系原作者获取授权,同时请注明本文来自张军平科学网博客。
链接地址:https://wap.sciencenet.cn/blog-3389532-1122570.html?mobile=1
收藏