信息化的本质分享 http://blog.sciencenet.cn/u/Babituo

博文

字符的形式化语义编码

已有 6741 次阅读 2011-10-25 10:23 |个人分类:信息探索|系统分类:科研笔记| 记录, 计算机, email, 符号, 字符串

我曾经提出过“智能文本”的设想。
思路是这样的:
我们现在日常用于交流的计算机文本文档,如Email,Word文档,论坛发帖回帖等文字内容本身,仅仅是一种对文字字符的编码串。也就是,这个编码串的作用,仅仅只能为计算机记录和传输文字显示字符用。让我们能从这边输入什么文字,那边就显示什么文字。这就是目前文本文档的目的和作用。所以,在字符编码上,只要让计算机能识别和显示每个字符,只要达到记录和传递字符的图形显示符号就够了。
我们知道:文字符号是包含有含义信息的。而目前的计算机文本的字符编码,只记录了文字符号的标识,并没有记录文字符号的含义信息,对含义信息的获取,需要文字的接收者通过阅读,思考才能提取出来。从编写文档的一方而言,也只是把头脑中的含义信息,选择一些计算机的字符串来表达和记录,然后通过网络进行字符串的传输。在此过程中,计算机并没有实质地参与文字符号的含义信息的加工和处理,只起到字符图形符号的记录和传输显示的作用。
可以说,为此作用的字符的编码,仅仅字符编码。转念可想,字符既然是表达含义信息的,为何不能用字符的含义来标识字符?也就是说,为什么我们不建立一套直接表达字符含义的字符编码,也就是在字符编码的信息中,就直接包含了字符及其串的含义,而不仅仅是一个或一串图形的符号?
如果要实现对含义信息的直接记录和传输,那么,我们就需要对含义信息本身进行编码,然后,再按含义信息来选择对应的字符编码来封装。于是,我们会提出对与具体的语言文字符号无关的含义信息的编码需求。我们需要从日常沟通的文本中去进行语义的挖掘,不仅仅是单个词汇词条的语义挖掘,还包括多个词汇连接的语句,段落,文章的语义结构的模式的挖掘。我想,这就是目前主流研究领域语义网研究的任务。这里着重强调的是:是需要与具体的语言文字符合无关的含义信息的建模。
如果我们能够建立大致80%的与具体语言文字符号无关的含义信息的建模的话,我想,基于这样的模型的计算机文本信息处理的系统,就能达到实用化的程度。因为剩下的工作只是将含义信息的模型用具体的语言符号来表达的问题了。
与语言符号无关的含义信息的建模其实已经不是语言学范畴的任务了,而可能更多是心理学、知识工程甚至哲学领域的任务。与语言学联系紧密的是:我们或许可以从语言文字符号的基本单位上去搜索构成含义信息的基本单位,但这只是一个显而易见的思路而已,真正的含义基本单位是怎样的,是否一定和语言文字的基本单位能对应,实际上并不是一个已经论证清楚了的问题——尽管每个语言文字的基本单位有自己的可能的含义信息,但从含义信息本身的结构规律来说,是否与语言文字的粒度相近一致,并非是肯定的。
设想我们已经构建了一个理想的含义信息模型。人类的任何一个人,不管他或她是用什么语言来沟通的,他所希望沟通的含义的模型,都可纳入这个理想含义模型的一个模式上。他所使用的具体语言文字只是一种图示化的符号表达,那么,我们可以想象一种这样的而沟通过程:我们可以直接提供含义模型的导航系统,让沟通生成者选择符合自己需要表达的含义子模型进行表达含义模型的构建。这是否是一种标准统一的模型语言呢?当然是,我们只是发明了另外一套“世界语”而已吗?人们如何来使用这个模型就变得尤其重要,创立另外一门“世界语”让用户直接使用是不现实的。所以,我们需要为这个含义信息模型定制不同语种的导航系统。用户使用自己熟悉的语言表达的含义信息模型来浏览,选择,就可以产生在理想含义信息模型上的一个子集。于是,会有一个反过来用不同语言符号的系统来表达同一个理想含义信息模型的表达任务需要建立。
好,假设这一切任务已经完成。现在,我们的含义信息模型,实际上就是一个形式化的语义网,这个语义网具有唯一数值标识的语义结点,这些数值标识,实际构成了一个网络化的参照系。反过来再看具体的每一个语言文字,必定与部分的语义结点有可数类型的关联关系。如果一种关联类型是一个维度,那么,就等于可用形式化的语义网来给每个字符进行空间的编码。这个编码,就是文字符号的形式化语义的编码。我们用这样的编码的文字连接成串的时候,由于文字符号本身带有语义信息,我们就可以准确地进行语义网的路径选择,得到局部的语义网模型。
 
形式化的语义网是否只能有一个统一的方案呢?
是从计算机处理能力来设计这个方案合适,还是从人的表达需求的角度来设计这个方案呢?
这些问题,都是十分有趣的问题,值得深入探索。
 
注:本文是看过邹晓辉的博文“就自然语言数字化路径试做一个深入浅出的图解 ”所想到的。与邹晓辉的想法不一定一致,但和我自己的想法是一致的。


https://wap.sciencenet.cn/blog-33982-500752.html

上一篇:解析一下“搜索”这类操作
下一篇:我直译的乔布斯告妻言
收藏 IP: 112.91.148.*| 热度|

1 洪昆辉

该博文允许注册用户评论 请点击登录 评论 (24 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 01:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部