||
吕乃基
竞赛,特别是体育竞赛,在人类历史上占有重要地位,其典型当数始于古希腊延续至今的奥运会。其实,竞赛遍及各行各业,从抽象的数学竞赛,到飘荡着人间烟火气的厨师手艺比拼。
竞赛,在AI发展过程中起到了独特的作用,架起了由新技术到产业化的桥梁。在“ImageNet大型视觉识别挑战赛”可见一斑。
到2009年6月,ImageNet的初始版本正式发布,收录了经标注的1500万张图片,成为当时世界上最大的图像标记数据集。然而ImageNet并没有立即在计算机视觉领域引起轰动。在当年的计算机视觉与模式识别大会上,ImageNet的影响力微乎其微,学界对其实际价值仍持怀疑态度。
在与同事亚历克斯的对话中,李飞飞提议,“或者,干脆我们就用ImageNet搞一个完整的竞赛怎么样?”
亚历克斯答道,“你是说像PASCAL那样的吗?”同事指始于2005年的年度计算机视觉大赛。参赛者提交经过PASCALVOC训练的算法,然后用这些算法去识别一组以前没有见过的新图片,最后根据分类的准确度对算法进行排名,错误率最低的即为获胜算法。
比赛的正式名称为“ImageNet大型视觉识别挑战赛”(ImageNet Large Scale Visual Recognition Challenge,ILSVRC),对所有人开放,获胜者获得认可。首届比赛于2010年举行。
竞赛吸引了各方对计算机视觉领域最新进展的关注。参赛者自己原本所使用的数据集仅有ImageNet的千分之一大小。“那就有意思了。我都可以想象研究人员在互相交流新想法的时候问:‘它在ImageNet上的表现怎么样?’”
如果ImageNet真的会引起一场大洗牌,带来新的规则、新的直觉,甚至全新的范式,那么还有什么比通过比赛来探索这个数据集更好的方式呢?激烈的竞争压力可以激发合作的集体力量。比赛要遵循一定的规则,但又要有探索性,也为ImageNet注入新的生机。
开始的两年,支持向量机的技术路线比李飞飞想象的要强大,它为参赛者提供了安全的避风港,阻碍了李飞飞梦寐以求的激进创新。只是在能力上略有提升,几乎没有任何真正的进步。最糟糕的是,第二年参赛人数和参赛算法都大幅下降。
2012年,辛顿师徒三人携新开发的新型神经网络,卷积神经网络(AlexNet)参赛,对图片识别的能力大大超过了人工智能其它技术路线。其它技术的识别错误率大约是30%,而AlexNet的错误率降至15.3%,在当年ImageNet人工智能大赛上夺冠。几乎在一夜之间,卷积神经网络,“这种常被视为误入歧途的执着似乎变得极具先见之明。”杨立昆多年来一直对卷积神经网络保持着惊人的忠诚。20年坚持不懈地完善算法,但一直没有最起码的数据来验证。ImageNet则拥有巨量经标识的数据,期待通过竞赛发现和呼唤更好的算法。数据与算法的碰撞产生链式反应。
竞赛果实迅即在业界和更广的层面传播,不少公司慕名而来希望合作,甚至提出希望独家合作。
师徒三人成立了一家皮包公司DNN Research,公司只有他们三个人,没有业务,没有产品,没有收入。让大家自由出价,价高者优先,同时DNN Research保留有选择权。头部公司携巨资入场。当时有四家公司竞拍,百度、谷歌、微软以及刚刚成立一年的英国公司DeepMind。谷歌求才若渴,DNN Research则欣赏谷歌的理念,双方一拍即合。
辛顿师徒三人的胜出和而后的运作成为一个分水岭。不仅参赛者,也不仅是资本青睐,产学研各界的研究方向开始转向深度学习。Google和Facebook这样的大型公司部署了基于神经网络的技术,之后的一年之内,几乎每份AI论文都与神经网络有关。
到2017年,最佳模型的准确性达到超越人类识别水平的97.3%,人类对这些数据的准确性约为95%。目标达到,ImageNet挑战赛圆满收官。当前最佳模型的错误率从比赛开始时的33.6%下降到仅为1.2%。
研究人员随后发现,模型越深,在目标识别上的表现越好。不过随着层数加深需要投入更多的算力,更多的能耗和时间,这就需要改进模型设计。ImageNet挑战赛开启的新技术路径又引发了一种多米诺骨牌效应,创新性的研究工作如雨后春笋般涌现,AlexNet在ImageNet规模和多样性的土壤中生根发芽,茁壮成长。
由此可以得出以下论点。
竞赛,由谁来发起和主办?
由“产”出面作为竞赛的主办方,而不是“学研”,也不是政府部门来办。“产”清楚技术前沿的关键所在和产业化的可能性,由“产”发起竞赛,由“产”筛选竞赛的成果。发起者,有影响登高一呼和者众,兼有实力如亚马逊,提供算力;有实力如ImageNet拥有巨量数据。食材已备齐,静候厨师;柴火已就绪,就等点火。
亚马逊在2024年4月举办的竞赛提供了发起方与参与方互动相长的案例。亚马逊邀请全世界的研究生为他们的AI助手Alexa配备一种新技能:能和人进行20分钟生动、自然的对话。
亚马逊还巧妙地利用了Echo的用户作为初赛评审,让他们与各队的聊天机器人进行实战演练,并为其表现打分。华盛顿大学团队胜出,关键在于使用混合式策略,深度学习技术和人工编程技术两者兼顾。
众多的Echo用户被动参与比赛,为亚马逊贡献了超过10万个小时的对话数据,这些数据全部可以作为训练真正商业应用的聊天机器人的宝贵资料。
目标设定
与市场中的竞争相比,竞争是为了争取资源、地位、影响力和利益等更有利的生态位。竞争可以发生在商业、学术或日常生活中的各种场合,目标可以如网上购票这样的“小目标”,也可以是两次大战这样的宏大事项。不同主体在不同场景对于利益最大化有不同理解。竞争的目标多元多变,因主体和场景而异。
竞赛的目标则大为简化,仅设置少量和相对简单的指标,如错误率等,排除企业在市场中运行和竞争的复杂因素,如人力资本等投入产出比,淡化、简化和屏蔽各种“地方性”的影响,提供相对一致的场景。在此意义上,技术领域的竞赛,与科学界的实验有几分相似之处。
竞赛的目标有限,属战术层次的“小目标”,而非战略高度。1991年,“勒布纳奖”设立,图灵测试成为一年一度的竞赛。第一台通过图灵测试的机器的设计者可获得十万美元的奖金和一块金牌,但一直无人能够获此殊荣。目标太高,久而久之,关注就会下降。
规则制定
竞争的参与者会采取各种策略如合纵连横来争取优势,甚至不择手段。竞争在时间上不确定,可以几分钟或更短,如挤公共汽车;也可以数百年或更长,如文明冲突。
竞赛是有规则、有组织、有裁判,以及在确定时间段和场景下的比赛活动,目标对于所有参赛方一致、有限和明确。参赛方彼此间较少直接利益冲突。竞赛排除语境(如对各种技术路线的评价等)的影响,让参赛各方公平参与。竞赛还带有游戏那样的趣味性,参赛方只需投入时间精力聪明才智,无虞风险,失败的代价无足轻重,然而一旦胜出,产出可观。
规则之上,怎么都行。
2016年日本产经省举办了一场全国人工智能大会。有学者准备就深度学习提出两个企划案,同行提醒,“如果名字里加上深度学习的话,估计就没有人来听了吧”。一方面是竞赛的发起和组织者宽容,什么都可,怎么都行;另一方面参与方一般入行不深,在相关产业的浸润尚浅,没有包袱,没有先入之见和沉没成本。关键是各参赛方及其技术路线之间的平权,仅以结果论英雄。主流与非主流多种技术路线,在同一时刻区间、同一舞台和同一规则下亮相竞技。
科技前沿具有很大的不确定性,AI的前沿更是如此。竞赛刺激随机涨落的频度、幅度和范围,吸引在更广泛的领域、更多人、更频繁和更深入的参与。一方面获得新的数据,发现新的技术路线和人才;另一方面,推波助澜,吸引社会和资本的关注,发现并推进巨涨落,成为“产”与“学研”互动的渠道,将竞赛中脱颖而出的新技术迅速有效地转化为竞争中现实的生产力。
竞赛,特别在AI领域,有待成为新的研究课题。
在一方,是否组织某项竞赛,什么目标,何时,一次性还是连续数届,制定竞赛规则,后续安排,奖项设定,以及参赛者范围等。重要的是确定目标和选择时机。还需要阐明该项竞赛对于发起方、参赛方、业界、技术界和社会各方的价值等等。
在另一方,判断是否参与竞赛,审视参赛的机会与成本等等。
在双方之间是资本与舆论的参与及可能的影响。
让竞赛之花在AI领域熠熠生辉。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-12 08:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社