dingsir的个人博客分享 http://blog.sciencenet.cn/u/dingsir

博文

最大的字典 与 铹之后的化学元素名称

已有 3596 次阅读 2020-12-8 11:52 |个人分类:软件杂谈|系统分类:教学心得

   我有一部辞书叫"汉语大字典", 这是我见过收字量最大的字典.足足收集了6万多个汉字.看着这里面种种不认识的字,我觉得这个博士简直就是白读了,不得不感叹, 汉字实在是太丰富了,难怪外国人觉得汉语是最难学的几种语言之一. 

  但是见过Unicode 13.0的汉字数据库之后, 这种感觉更加恐怖, 我不再觉得自己是个博士,而应该是个小学生,看着密密麻麻的生字,绝大部分我都不认识, 感觉自己就是九牛上那一根细毛啊.

  不信,你可以下载这个文件打开来看看:  RS Index


虽然没有任何字义解释,但是,作为一份公认的标准,它的汉字收字量可能是最大的。(当然还有一份收字量更大的文件也就是Unicode 13的代码点位表,它还包括了汉语之外其它语言中的符号)。我把它称为最大的字典。如果你想知道这个汉字有没有被国际公认,查这个文件RSindex.pdf就对了。


RS是Radical Stroke的缩写,偏旁和笔画(也有用“笔划”这个词的)的意思。了解一下它的索引方式对提高查询速度是有帮助的。它前面是偏旁索引,每个偏旁都有一个编号,每个偏旁不同形态如简体、繁体是合并放在一起的。要注意的是,这个偏旁的设计与新华字典是有些不同的,可能采用的是“康熙字典”里的偏旁--比如建字底可以找到,但走之旁就看不到,其实它归入了编号162的偏旁。偏旁的编号也是从笔划少到笔划多来排列的。

RSindex偏旁解释1.png


在正文检索部分,按偏旁的顺序从前往后排,每个偏旁之内,按剩下的笔划数来排。夹杂在正文中大一点的数字如1,2,3,4等,是除去偏旁后该汉字剩下的笔划数。当然首先排列的是偏旁自身这个汉字,其次是增加笔划的汉字。

在每个汉字下面有4位或5位的十六进制数字(0-9, A-F),代表的是这个字符在Unicode编码表中的码点(Code point), 说白了就是在标准中的唯一编号。这个是没有转换过的编号,与UTF8等编码处理之后的值不同。


现在你看一眼吧,厶字偏旁下,你认识哪些字?


RSindex正文解释2.png

说到这里,再说几个特殊的例子,前面讲过的biang字是一例,这里再讲一些新发现的化学元素用的汉字,这些化学元素名大部分是新造的汉字,平时很难打出来,主要困难在于:1)多数输入法没有收录它们 ,2)大多数字体文件也没有收录它们 3)还有些情况下软件不支持这类汉字的显示。 所以有时人们不得不用两个字来表示这种汉字。但其实如果知道方法,是可以打出来的。对应的方法是(以下条件都要具备)

1)找到支持这种汉字输出的输入法,要不你就去别的地方一个一个复制,或者Word中还可以用Unicode编码+Alt-X快捷键来输入。五笔输出的这里有一个 黄狗大字符输入法,拼音的我不知道,有些汉字的拼音可能都没有标准,是不是拼音输入法就无法使用?

2)找到支持这种汉字的字体并安装。上面的输入法安装带了一个这样的字体,你也可以再找找别的支持大字符集的字体。因为汉字在标准收录中是不断扩展的,从扩展A一直到现在的扩展G,到目前为止没几个字体能支持扩展A到G的所有汉字,像海峰五笔带的那个Unifonts包也就支持到扩展B。

3)软件要支持这种大字符集的汉字显示,有些英文小软件可能是支持不了,我知道Office的几个软件应该是没有问题的。

所以,我特意在这个大字典中,找齐了113铹之后的几个元素的汉字,做成一个PDF文件供大家分享。如果要用到这几个汉字,可以复制到 你的软件中。铹以后化学元素的中文名.pdf 

化学元素名称.png

 

 




https://wap.sciencenet.cn/blog-1213210-1261600.html

上一篇:xlwings模块中将range对象传递给python代码的一个注意事项
下一篇:MySQL安装笔记,及我的数据库学习平台
收藏 IP: 125.120.237.*| 热度|

1 王安良

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-16 23:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部