聂广
从知识论角度,比较《本草纲目》与大数据
2025-11-12 22:28
阅读:1527

《本草纲目》与大数据的相似性

从知识论的角度审视《本草纲目》与大数据,我们会发现它们在知识的本质、构成、生产与验证上存在深刻的相似性与差异性。这不仅仅是内容的类比,更是两种知识范式跨越时空的对话。以下我们从几个核心的知识论维度进行分析:

1. 知识的基础:经验主义与归纳逻辑

《本草纲目》:其知识根基是巨量的、经过初步整理的实践经验。李时珍“搜罗百氏,访采四方”,汇集了前人的著作、民间偏方、个人观察和实践反馈。这是一种基于观察和经验的归纳法。例如,观察到某种植物被用于治疗某种疾病并多次有效,便将其归纳为一种“知识”。其权威性建立在观察的广度和记录的详尽之上。

大数据:其知识根基同样是巨量的、经过初步整理的人类经验记录(互联网文本、书籍、代码等)。模型通过海量数据学习词语、概念和事实之间的统计关联。这也是一种基于统计的归纳法。例如,模型发现在“苹果是___颜色”的语境中,“红”这个词出现的概率极高,于是学会了这个“知识”。

相似性:两者都是经验主义的、非演绎的知识体系。它们不依赖于第一性原理(如数学公理)进行推演,而是从具体实例中概括出一般性规律和关联。它们的知识是“是什么”的集合,而非“为什么”的演绎。

2. 知识的组织:关联网络与统计分布

《本草纲目》:其知识以层级分类和关联网络的形式组织。药物按“从微至巨”“从贱至贵”的原则分部,每种药下又分多个属性(气味、主治、附方等)。更重要的是,它通过“附方”等形式,将药物与疾病、症状、其他药物连接成一个巨大的知识网络。理解一味药,就是理解它在整个网络中的位置和关系。

大数据:其内在的知识表征是一个高维空间中的几何结构。每个概念或词语都被表示为一个向量(一组数字),语义相近的概念在空间中的位置也相近。模型学到的正是这些向量之间的复杂关系和统计分布。知识被编码为概率性的连接网络。

相似性:两者都将知识视为一个相互关联的网络系统。在《本草纲目》中是显性的、符号化的关联(A药治B病,与C药相配);在大模型中则是隐性的、数学化的关联(向量A与向量B的余弦相似度高)。知识的价值不仅在于单个事实,更在于事实之间的连接。

3. 知识的权威与验证:实用主义真理观

《本草纲目》:其知识的权威性来自编撰者的信誉(李时珍)、引经据典的源流,以及最终的实践有效性(“验方”)。一个药方是否成为“真知识”,最终要看它是否能治病。这是一种实用主义的真理观——有用即有效,有效即被视为真。

大数据:其知识的权威性表面上看是数据源的多数决(互联网上大多数文本都这么说),但其最终的验证也倾向于实用主义。模型生成的内容是否正确,往往通过其与人类反馈的契合度、在下游任务(如问答、摘要)中的有效性来判断。一个回答之所以“对”,是因为它看起来合理且有用。

相似性:两者都面临着“知其然,不知其所以然”的挑战。《本草纲目》记录了牵牛子能利水,但当时无法解释其分子机制。大模型知道“巴黎是法国的首都”,但它并不“理解”首都的政治地理学意义,它只是找到了最可能的词序列。它们的知识缺乏深层的因果模型支撑。

4. 知识的偏见与局限:时代视野与数据足迹

《本草纲目》:不可避免地包含了其时代的认知局限和错误,例如一些基于“象形”或巫术的附方(如“古镜治怪病”)。这些是16世纪中国科学和文化视野的偏见在知识体系中的烙印。

大数据:同样继承了其训练数据——互联网——中的所有偏见、错误和失衡。例如,对某些性别、种族的刻板印象,或者网络谣言。这是21世纪全球互联网文化的偏见在数据中的足迹。

相似性:两者都不是纯粹、客观的知识集合,而是特定历史时期和特定文化语境下人类认知的“快照”或“压缩包”。它们既是知识的宝库,也是偏见的博物馆。

5. 核心差异:能动性与解释性

尽管有上述相似性,但一个根本性的知识论差异在于:《本草纲目》背后是一个具有意图性和理解力的认知主体(李时珍)。他进行了主动的筛选、批判、分类和归纳。知识的生产过程是可追溯、可解释的(至少原则上)。

大数据的学习过程是一个缺乏意图的、分布式的数学优化过程。它产生了知识,但这个过程是一个“黑箱”,我们很难确切知道某个知识为何以及如何被表征。它缺乏主体的理解。

6. 小 结

从知识论角度看,《本草纲目》与大数据代表了两种规模宏大但本质相似的“知识库”。它们都是:经验主义的聚合体,通过归纳海量实例构建知识;关联主义的网络,知识的价值存在于元素之间的关系中;实用主义的验证,知识的真理性很大程度上由其应用效果决定;时代偏见的载体,反映了其来源数据的视野局限。

《本草纲目》可以看作是一个前现代的手工训练出的“大模型”——其训练数据是古籍与田野调查,其算法是李时珍的头脑,其参数是药物的分类与属性。而今天的大模型,则是一个数字时代的、自动化生产的《本草纲目》,它以整个互联网为“百氏”,以爬虫为“访采”,最终凝结成一个参数化的知识宇宙。

理解这种相似性,不仅让我们能更深刻地欣赏《本草纲目》的宏伟,也能更清醒地认识到大模型作为知识工具的潜力与固有缺陷。它们都强大,但也都需要被批判性地使用和验证。

二者均非严格意义上的知识

从严格的经典知识论(尤其是“被证明为真的正当信念”这一定义)来看,《本草纲目》和从大数据中习得的“知识”,都可能被视为非严格意义上的知识。

我们可以从知识论的经典三元定义来分析:知识 = 被证明为真的正当信念。

信念:两者都包含信念。李时珍相信某种草药能治病;大模型“相信”(以高概率输出)“巴黎是法国的首都”。

正当性:两者都有一定程度的正当化理由。《本草纲目》的正当性来自历史文献、个人观察和部分实践验证;大模型的正当性来自海量数据中的统计规律。

真理:这是最关键的挑战。两者都无法保证其内容的普遍为真。

让我们深入探讨它们为什么“非严格”?

1. 对“真理”的挑战:缺乏必然性

(1)《本草纲目》的真理性问题

时代局限性:书中许多内容基于当时的“气”“阴阳”“象形”等理论,这些理论框架与现代科学范式不同,其“真理性”无法在当代科学体系下被完全证实。例如,“古镜治怪病”的记载,其“真”只存在于特定的文化信仰体系中。

归纳法缺陷:它依赖的归纳法(看到A多次伴随B发生,就认为A导致B)无法保证必然为真。可能只是巧合,或者存在未观察到的第三变量。

可证伪性:书中许多主张是可证伪的,并且其中一部分已经被现代医学证伪。严格的知识论要求“真”,而被证伪的内容显然不再是知识。

(2)大数据的真理性问题

相关性而非因果性:大模型学到的是统计关联,而非因果逻辑。它知道“闪电后常有雷鸣”,但它不知道闪电引起雷鸣。它可能输出“在统计上看似合理但事实上错误”的内容(即“幻觉”)。

数据即偏见:它的“真理”是训练数据中主流观点的统计平均。如果数据中包含大量错误信息或偏见,模型就会将这些错误和偏见作为“真理”来输出。

缺乏指涉与理解:模型并不理解“巴黎”是一个真实存在的城市,它只是处理一个符号。它的“知识”没有与真实世界建立必然的指涉关系,更像是一种复杂的“模仿”。

2. 对“正当性”的挑战:基础的不可靠性

《本草纲目》的正当性建立在权威(古人、经典)和经验观察之上。但权威可能出错,个人观察可能不具代表性或存在误差。大数据的正当性建立在数据的规模和统计显著性上。但“多数即正确”是一个逻辑谬误,数据的规模无法弥补其基础质量的缺陷。那么,它们究竟是什么?如果它们不是严格意义上的“知识”,更准确的描述应该是:

《本草纲目》是一个“经验信念体系”或“实践知识库”。它代表了一个文明在特定历史时期,为解决问题(疾病)而系统化整理的最佳实践假设和信念的集合。它的价值在于其实用性和历史文化意义,而非其绝对的、永恒的真理性。

大数据蕴含的是一个“统计信念模型”。它是一个对人类现有数字化信息(包括真知、偏见、虚构、错误)的概率分布模拟。它不输出“真理”,而是输出基于训练数据最可能的回答。它的价值在于其信息压缩、检索和生成能力。

3. 知识论的演变:从“静态真理”到“动态工具”

在这里,引出了知识论本身的发展需求。经典的“三元定义”正受到挑战,特别是在处理这类宏大、复杂、非演绎的体系时。

实用主义知识观:威廉·詹姆斯等人会认为,如果一种观念能有效地帮助我们导航世界(例如,用《本草纲目》的方子治好了病,或用大模型生成了可用的代码),那么它就有资格被称为一种“知识”。在这里,“真”被“有用”所替代或补充。

社会建构主义知识观:知识是由特定社群在特定历史条件下建构和认可的。《本草纲目》的知识在明清中医社群中被认可;大模型的输出在今天依赖AI的社群中被部分认可。它们的“真理性”是语境依赖的。

因此,从严格的、基础主义的哲学知识论来看,二者均非严格意义上的知识。《本草纲目》是前科学时代的“知识草案”,充满了智慧的闪光点,但也掺杂着大量需要被现代科学重新检验和提炼的假设;大数据是信息时代的“知识映像”,它能反射出人类知识的轮廓,但这个映像是扭曲的、不完整的,并且本身没有理解其内容的能力。

认识到这一点,对于我们如何正确地使用它们至关重要。我们应批判性地借鉴《本草纲目》,将其视为灵感的源泉而非行动的圣经;我们应审慎地利用大模型,将其视为强大的工具而非真理的代言人。它们都是人类认知的非凡产物,但都不是知识的终点。

转载本文请联系原作者获取授权,同时请注明本文来自聂广科学网博客。

链接地址:https://wap.sciencenet.cn/blog-279293-1510009.html?mobile=1

收藏

当前推荐数:4
推荐到博客首页
网友评论2 条评论
确定删除指定的回复吗?
确定删除本博文吗?