信息化的本质分享 http://blog.sciencenet.cn/u/Babituo

博文

[转自己的原创旧作]文字信息的三层模型

已有 3613 次阅读 2011-11-24 11:37 |个人分类:基因软件开放实验室|系统分类:科研笔记| 信息, center, 模型

文字信息的三层模型

本文谈论的文字

特指书面语言,是由字、词、句、段、章、篇这样的表面结构形成的文字集合。

文字的背后有什么

一段文字表面是某种符号集合的元素的一种排列组合形式。其背后要表达的是丰富多彩的信息。研究文字的目的是要透过文字符号表面的排列组合方式,来探究其背后所要和所能表达的信息。

文字是给使用者来使用,以便进行沟通的媒介。任何文字都离不开使用者,文字的使用者包括使用者个体,和使用者团体。从文字与其使用者的关联性的角度,可以将文字背后的信息分为两类:

1.  与文字的使用者个体相关的信息;

2.  与文字的使用者团体相关的信息;

与个体相关的信息

假设某段文字的发表人是一个个人或者一个小集体,那么,他们发表这段文字一定是要表达一些他们个人的用意。虽然,其他人或许也发表过类似的文字,表达过类似的个人用意,但这些仍然是他们各自的文字要表达的个体信息。

某段文字的发表人为了表达其个体用意信息,可能会使用一些不同一般的文字符号组合的形式,因为,他们可能觉得他们要表达的东西可能与众不同。这些独特的、新出现的文字符号组合方式,在出现初期,没有得到文字使用团体的认识之前,也属于文字的个体相关的信息。

与团体相关的信息

一个文字符号集合经常是被一个团体来采用的,这些文字符号如何排列组合可以用来表达什么信息是整个团队约定俗成的。

某段文字也可能部分复述表达整个团体公认的信息,这些信息也是团体相关的信息。

个体信息和团体信息的关系

个体信息和团体信息是相对而言的。根据团体的规模和范围不同,团体内可能会存在小团体,小团体的信息可能和大团体的文字信息可能有差异,这些差异相对大团体而言,就是个体信息,但相对小团体中的个体而言,却又可能是已经达成一致的团体信息。

个体信息和团体信息可能互相转化。随着团体认可个体信息的程度越来越大,个体信息逐渐成为团体的共识,此时,个体的信息就成为团体信息;另一方面,对本来已经达成一致的团体信息,由于团体中某些个体有新的发现,也会在团体信息的基础上,生发新的个体信息。

文字信息的原子模型-“意”认“义”

晓辉在其文化基因理论中仔细辨析了“意义”二字,认为“意”≠“义”。精辟地表达了“意”的个体意识意向性和“义”的团体共识公用性的区别。

本文借用邹晓辉的理论,将文字内容中的个体相关信息定义为“意”;而把文字内容中的团体相关信息定义为“义”。那么,就可以得到文字信息最基本的模型:这是一个以“义”为核,外围引申多个“意”的模型。

这与事物的微观的原子组成形态是相似的,“义”为原子核,而“意”为电子。暂且称其为文字信息的“原子模型”。

模型中,多个“意”围绕一个“义”,“意”和“义”之间存在一个很强的关联,这个关联可以定义为“认”。也就是说,“义”是一组相近的“意”所公认的共同信息。

这个模型提供了一个大胆的假设:文字信息的结构关系原理是可以和事物组成的结构关系原理类比的。依此假设推论下去,在我们看到的任何一个整篇的文字的背后,表达的正是一个由众多的这样的“信息原子”相互集结,成为“信息分子”,“信息分子”再集结成为一个个的“信息事物”。

文字信息的分子模型-“意”识“意”

 

事物的分子是靠原子之间共用电子形成共价键来组合的。类比到文字信息的原子模型,文字信息的分子也必定是靠共“意”的关联来形成共价键来组合的。

不同文字的信息原子的“意”之间,存在“意”的连贯匹配关系,比如一个“好”的“意”就会连接一个“奖赏”的“意”。所以,表层文字符号的连接关系,除了可以表示不同的内层的“意”本身之外,还可以反映内层“意”之间的匹配连接关系。这种“意”之间的匹配连接关系,正好符合“识”的概念的含义。通常讲的“意识”就是个体的不同“意向”之间的连贯性。将不同的意向联系起来了,就“识”了,否则,就不“识”。

可见,文字信息的微观结构是由“认”来连接“意”和“义”,组成“信息原子”,再由“识”来连接“意”和“意”,将信息原子结合组成“信息分子”。最后,在文字符号层用符号连接将“信息分子”组成“信息事物”的,这是一个三层的文字信息模型。

文字信息的三层模型

这里提出的文字信息三层模型和传统的语言学研究领域似乎有对应的关系。如:文字符号层的连接关系是传统语言学的语法学研究的领域,而“意识流”模型似乎对应“语用学”,“义”的关联法则似乎对应“语义学”。本文的兴趣并不在于追究传统语言学研究和这个三层模型之间的渊源关系,而在于如何利用这个三层模型进行计算机文字信息处理。

一段文字,表面上是一个“字符流”模型,在字符流的下层,表达的是一个“意识流”模型,在“意识流”的下层,揭示的是一个“义”的关联法则模型,可以简称“义法流”模型。

分出“字符流”、“意识流”和“义法流”三层文字信息,可以清楚地表达各层信息之间的关系。

“义法流”模型是客观规律法则,是基本上不会变化的模型;对同一个“义法流”模型,不同的团体,可能会用不同的“意识流”来揭示。

而同一个“意识流”模型,对不同的文字符号系统而言,也是相对稳定的信息,但可能会在文字符号层产生很多的字符流模型版本。这就是“同样的观点,可以用不同的文章,不同的文字来阐述的现象”背后的道理。

对于计算机处理文字信息的三层模型的意义不用说了,下面直接说明如何用计算机来处理。

从“字符流”到“意识流”和“义法流”

计算机目前直接能处理的是文字流模型,一篇Word文档,一个文本文件,就是一个字符流模型。如何用计算机从文字流模型中析取出意识流模型来呢?设想可以通过如下几个步骤可以逐步做到。

同、近义字词句的收集

通过人工录入或自动分词的方法将同近义字句进行分类归类。每一个类别就代表一个“义”,可以对每个类别建立一个“义”的标识。归入这个“义”的每种不同的字词组合就分别是一个“意”。也就是说:每个同义字、词、句的集合。就是一个文字信息的原子。

利用同、近义字词句分析海量文章

利用已经得到的文字信息原子集合对不同主题的文章进行分析处理,总结原子之间连接关系的规律,寻找原子连接的定式,记录并标识这些定式。总结“义”之间关联的形成规律和“意”之间的匹配连接规律。记录到相应的数据库,即得到“义法流”和“意识流”库。随着处理的文字越多,得到的“义法流”和“意识流”的层次越丰富,辨析就会越清楚,最终可以达到可用的准确程度。

人机交互辅助辨析

在计算机处理大量文字资料的同时,对处理形成的“义法流”和“意识流”库,可以显示给人来查看,对明显的归类错误可以通过人工的办法剔除。如果能够通过互连网让更多的人参与辅助辨析,那么形成的“义法流”和“意识流”库就更有准确性和可用性。

文字信息三层模型的应用举例

1.自然语言文字理解

计算机通过软件学习得到的“义法流”和“意识流”库实际上是一种文字意义相关性的知识库。计算机把一系列的文字符号的排列组合理解为一系列“意”的连接关系,更深入地理解为“义”的关联关系。当计算机按照这些关联关系的规律另外产生一系列对应的文字符号的连接时,从表面上看,会实现模拟人类理解到语言含义的效果。

2.聊天机器人

在得到可用的“义法流”和“意识流”库后,可以开发聊天机器人程序,聊天机器人软件在得到聊天对象传过来的话时,可以在“义法流”和“意识流”库中找到与聊天对象想匹配的“义法流” 和“意识流”片段,按照分析意识流的连贯规律和应对规律,产生应答的字符流,回传给聊天对象。可以达到看上去就象一个有思想、有知识的人在和人对话的效果。而设定聊天机器的意识流类型,则可以模拟不同性格、不同专业、不同知识水平和不同年龄的人。具有知识教育、心理治疗和娱乐的作用。

                   

 

 

邱嘉文

2007-4-21

珠海

 

注:本文写作于4年多前,是当时的认知状况,目前我的义意的区别已经有了新的认识。但对这个三层架构的认识还是没变的。



https://wap.sciencenet.cn/blog-33982-511197.html

上一篇:再思三旋语义
下一篇:智能主体在表达和理解中的语言信息
收藏 IP: 112.91.148.*| 热度|

4 邹晓辉 洪昆辉 infomath 理论思维

该博文允许注册用户评论 请点击登录 评论 (52 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-29 19:33

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部