||
吕乃基
原文见:
吕乃基,知识共享壁垒与ChatGPT,创新2023,6,108-116。引用请注明出处。
知识共享在客观上的壁垒指知识本身是“壁垒”之源,具体指知识的复杂性、丰富性和积累性。
1.丰富性
知识的丰富性即通常说的“知识爆炸”。在知识的海洋中,人只是一叶扁舟,知识的无限性和人体生理和心理极限间存在矛盾。庄子意识到:“吾生也有涯,而知也无涯。以有涯随无涯,殆已!”两千多年过去了,人类取得了巨大进步,然而对于知识的接受并没有出现同样的突破,人的生理和心理机能与几千年甚至几万年人猿相揖别之时相比,没有什么重大的变化。
互联网时代,围绕问题搜集资料的工作交给浏览器。虽然理论上可以几乎无遗漏地阅读文献,然而在客观上因防火墙和授权等原因而看不到某些资料,个人因原有知识背景和时间等限制,往往止步于前几页(如所知,还有“排序”之虞)中的某些内容。
ChatGPT等大模型通过并行感知,可以在极短的时间内并行阅读数百篇论文,从而攻克知识的丰富性壁垒。Open AI的首席科学家Ilya(不知现在是否还是)表示,大模型已经成功“压缩”了人类对于世界的认知,这些认知被称为“语料”,如同食“材”和熔炉内有待加工的原材“料”。大模型将人类以往的几乎全部知识作为自身运行的基础,“无一字无来历”,向包括个人在内,带着各种需求的用户提供所“生成”的内容,让每一个用户都可以站在巨人的肩上。
一个人语言的界限,就是他世界的界限。语言是知识(还有情感等)的载体,知识从一个方面赋予语言以意义。ChatGPT作为大语言模型,意味着几乎拥有无限的知识。主体,无论是个人还是不同层次的社会组织,通过深入而有洞察力的问题和有启发的提示词与ChatGPT联手,从而得以共享ChatGPT的“无限疆域”。
2.复杂性
知识的复杂性属于知识的质的范畴。自20世纪下半叶以来,科学的发展方向可以归结为沿量子阶梯上行、下行和扩展。沿量子阶梯上行是生命和意识。生命的本质至今众说纷纭,至于人的意识,涉及数百亿个脑细胞及彼此间的关系,更涉及千变万化的场景。还有“量子意识”之说。
沿量子阶梯下行,面对“纠缠”与“叠加”,还有难以区分的组成与被组成的关系。沿量子阶梯扩展,由严格的规律扩展到偶然性,由孤立的研究对象扩展到环境及其干扰,由实体到关系,由线性到非线性,由纯客观到主体参与,等等。在一连串“到”字的后面就是复杂性科学,其特征是概念的否定性,如“非”线性、对称、有序,“不”确定,还有纠缠、叠加、模糊、突变、涨落、分形、分岔、蝴蝶效应,以及来无踪去无影的涌现。
人工智能在克服知识的复杂性壁垒上成果斐然。在生命科学,大数据医疗、从揭示蛋白质结构、基因编辑到发明新药;在意识领域,由神经网络启迪人工智能,后者又给意识研究以启发;面对量子,开发出量子计算机和量子通讯;在复杂性科学,人工智能可以在不掌握原理知其所以然的情况下,对于可能存在大量变量的复杂事物进行预测。大模型本身走上了一条“涌现”之路。用AI提高科研的效率,解开复杂性之谜。
有趣的是,人工智能除了在生命科学等领域直接参与外,面对意识、量子和复杂性科学这三个领域,人工智能走的大致都是借鉴所面对对象的某些特征,在应用中展开自己的“认识”的路径。不过,在这样的路径上又会产生新的问题。例如用遗传算法来解决排序问题,在进化过程中会产生一些比依据任何现有的排序算法的程序都要快得多的排序程序,但科学家并不理解这些指令是如何工作的,也无法将其分解为由可理解的各部分组成的分层体系。
此外,知识还因其专业性而难以为外行共享,隔行如隔山。大模型之大足以填补专业之间的大部分缝隙,使所有专业形成相对连续的整体而可以理解。一位搞出海电商、经常需要了解不同行业产品和不同国家市场的人士,在体验ChatGPT后评价道:隔行再也不隔山了。专家预计,“很快,像数学语言、物理语言等人类从事非常专业性工作所需要的‘语言’能力,以及相应的思维能力和解决问题的能力,大模型将会逐步胜任”。
3.积累性
庄子所言也关系到知识的积累性。知识的积累性实际上涉及到知识的代际共享。人类进步的关键之一在于知识的代际共享,代际共享的最大问题是后代的学习。动物界存在这样一个规律:低等动物的后代在出生后即可不依赖父母独立生存,而高等动物的后代在出生后则于一段时期要靠父母的抚养和“教育”。在一般情况下,动物越是高等,这一时期就越长,最长的无疑是人类。总体而言,动物受教育的时间成本与其在进化树上的地位成正比。人类的繁衍,子代只继承父代的基因,但不继承父代的记忆,没有获得性遗传,这意味着每一代都要重新学习和经历人生的磨难。
进入人类社会后,随着知识的不断积累,儿童受教育的时间也越来越长,这似乎相应地延续了自然界中的规律,越是进化,受教育时间越长。其结果是,子女一代要接受更长时间的教育才能达到知识的前沿,才能创造新的知识,人类将付不起受教育的时间成本。如果沿着目前(特别是在某些国家和地区)的教育模式继续下去,不用太久,人类或许只能终身沿着前人走过的路攀爬却达不到顶点,于是创新就成了一句空话。
在大模型的演化过程中,子代或将可以继承父代的记忆,甚至可以控制继承的程度,例如设置子代继承从100%到清空记忆,或继承这两个极端之间的某些记忆,遗忘也是一种能力。这意味着父代的经验和技能可以不断选择性地累积。
不断推出的新的GPT,还有谷歌的产品,可以与时俱进,汲取最新的知识,这就意味着人类可以在此基础上一步登顶,站到知识的前沿。胡泳说,今后孩子有什么不懂,不会问父母亲,而会问ChatGPT,认为它什么都知道。
进一步的思考可以发现,知识的积累性在客观上是知识的质由简单到复杂在时间序列中的展开,在主观上关系到个体知行系统的演化与层次,这两方面的叠加关系到知识获取的路径,笔者将另文探讨。
4.知识生态
任何知识都不是孤立的,都与其他知识存在千丝万缕的联系。量子阶梯涉及知识在时间上的顺序、空间上的层次和上下向因果关系,其中最重要的是科学技术与人文社会科学的关系(下文还要论及)。还有纠缠、叠加和塌缩;每个领域知识链上下游之间的关系,以及分门别类的知识之间的关系;知识还有由浅入深的次序,以及现象与本质(虽然二者都重要)之别。
知识生态的另一个关键是普适性知识与地方性知识的关系。普适性知识在内容上主要是事实和规律,具有普遍性,以及较多编码,易于传播交流和共享;地方性知识在时间上嵌入于历史,空间上嵌入于“地方”,即初始条件与边界条件,相对“隐性”,需要知识共享的各方持续嵌入于同一语境和场景之中,方可感受和领悟。普适性知识是知识共享的基础、最大公约数和主要内容;地方性知识则关系到个体的存在和生存的意义。
以往,知识的筛选、抽取、提炼主要由知识的需求方自己完成,即使有了关键词检索和网页索引之便。问题还在于,“抽取”所得到的只是知识的碎片,这些碎片之间并未形成协调与耦合的知识生态。ChatGPT问世之后,不仅越来越多的接管了知识的筛选、抽取、提炼,而且承担了之后知识的重组,既最大限度调用普适性知识,又考虑到用户地方性知识的语境,以形成满足用户目的和知识生态的“内容”,中庸而不偏不倚,面面俱到,往往比用户自己想的还要周全。知识生态,是生成式AI真谛之所在。“一本正经的胡说八道”,在某种程度上泄露了用户某种自叹弗如之尴尬,甚至有几分嫉妒的心情。
人脑虽有差异,然而脑容量再大,存储的量亦有限;可以做出的改进是提升所存储知识的质,其一,提升知识的“阶”,上升到哲学的高度,掌握管理知识的“元知识”,低阶和纯记忆的知识存储到云中;其二,改善知识之间的生态关系,既可以举一反三,“牵一发而动全身”,零存整取,也可以按特殊需要零存零取;提升知识生态的“智慧”。
大模型所依赖的主要是已编码的普适性知识,目前正在经由“多模态”而进入地方性知识和隐性知识的领地。元宇宙将在隐性知识的共享中发挥重要作用。
本系列
知识共享壁垒与ChatGPT(二)知识共享的主观壁垒
知识共享壁垒与ChatGPT(三)克服知识共享壁垒带来新的问题及其应对
敬请期待
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-3 03:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社