||
谨防“数据粪坑”蔓延
长安大学 徐志刚
“数据粪坑(Data Swamp )”原意是指一个因缺乏治理而变得混乱不堪、难以利用的数据存储库,逐渐变成了一个巨大、混乱,难以理解且毫无价值的“泥潭”。
在当前自媒体泛滥、学术论文浩瀚如烟和AI自动生成的时代,这个问题变得更加突出。大量的网络博主为吸引眼球和博取流量,制作了大量在现实世界中根本不存在或者夸大其词的视频和文字材料,如同粪坑之源。当前世界上的各种论文数据库中充斥着大量毫无价值的论文,这些论文非但没有给人类知识库增加任何养料,反而增加了知识蒸馏的难度。而AI生成则更是无法控制,由于AI大模型本身存在内部缺陷和训练数据存在不实情况,导致大量以大模型为工具的AI生成系统产生了无数“有问题”的数据,再加上AI的滥用(如:Deepfake换脸、AI语音合成)又会产生堆积如山的人造垃圾数据。而一旦这些有问题或非真实数据挂在网上,成为下一轮的AI训练数据时,其产生的恶果则可想而知。
人类未来将不得不面对互联网上存在的巨量数据粪坑。到时候寻找真实数据比构建新的AI模型还要困难。当前人类经常惊叹于AI大模型的智能,感觉其“无所不知,无所不能”,其之所以智能,其实正是因为人类几千年积累的知识积发挥了重要作用,因为AI从来不是知识的创造者,而只是知识的搬运工和粘合剂。当人类知识库被掺进过量“杂质”的时候,也就是打开潘多拉盒子之日,因为你不知道AI机器人被投喂入这些有杂质的数据时,它会被训练出什么“品性”来。未来,符合人类正常伦理道德约束的数据在以巨量数据粪坑为主导的大数据中将成为极小部分,导致随之而来的AI机器人将不受人类伦理道德约束,这将会是很自然的事情。
也许我现在的思考是杞人忧天,但是如果全社会对此还不产生警觉,真到那个时候,恐怕就是无力回天了。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-8-18 12:05
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社