丁祥欢
用于表达化学分子结构的表示法InChi 简介
2020-9-28 01:43
阅读:12948
标签:化学结构, InChi, InChi-Key

以前的博文中我介绍过一种表示化学分子结构的工具SMILES,在化学结构的表达方面,还有一种越来越流行的工具叫InChi,今天在这里也作一简介的介绍。

搞化学的人都知道,为了表达一个化学物质,通常使用的方法有:

1)化学名称,无论是中文名还是英文名,这是使用极其广泛的手段,但是这种手段有个非常大的弱点,虽然比较直观,但是唯一性非常不好。同样一个东西,可能有很多个名字。比如 水可以用Water,也可以用Hydrogen oxide. EMC可以叫碳酸甲基乙基酯,也可以叫碳酸乙基甲基酯,还可以叫碳酸甲乙酯,甲基乙基碳酸酯。  名称还有俗名,商品名,简单命名,甚至还有IUPAC标准命名等等,即使同是简单的命名,有的化合物有多个官能团,从不同分类出发可以得到不同的命名。因此,同一种物质有多个个合法的名称是非常常见的。因此需要严谨表达结构时,化学名称不是理想的选择。

2)CAS号。 CAS号是化学文摘社为化学物质编制的特定顺序编号,理论上每个化学物质有其唯一的特定编号,除非未被CAS收录或编制。由于化学文摘的功能强大,影响力大,加上CAS号短小精悍,易于书写(只有不到十几位数字两根短划线)CAS也就成为了表示化学物质的事实标准。很多化学数据库都收录了化学物质的CAS号。为了传递某种化学物质的信息,也常常借助于CAS号。CAS号虽然使用广泛,但它有两个不足: 1.CAS号与它代表的物质在结构上没有关系。根据CAS要得到其结构,还必须到数据库中进行查询。2. 化学文摘社并没有向社会免费开放它的CAS号检索功能,对一些较新的物质,其CAS号并不能自由地使用,它是有版权的。

3)化学结构式。这个倒是比较准确,但是依赖于绘制结构式的软件。如果结构式从专用的化学软件导出成为图片,它就失去了结构式贮存的化学意义,无法做化学上的进一步利用。这种信息需要以文件的形式来传递,如果用文本来表示就比较困难了。

4)SMILES。用比较简短的文本来表示分子的结构,算是比较理想的表达方式,得到了比较广泛的应用。但是SMILES的算法不是自由免费的,日光化学公司对其拥有版权。所以目前还出现了一个叫OpenSmiles的规范。

5)特定格式的化学结构式文件,如CDXML格式,CDX格式,cml格式,MOL格式,SKC格式等等,这些格式种类较多,本质上不过是第3)项的存储而已,优点/缺点基本相同。其中MOL格式比较常用,很多网上的化学软件都支持。

为了在文本中快速存储与表达结构式,比如在数据库文本字段中存储,在简单文本中传递化学物质结构,其实上面的手段只有1)2)4)可用。但这些都存在一定的不足。为了避开SMILES或CAS在版权上的不够自由,保证国际社会可以免费自由使用,同时又能做到准确唯一,IUPAC和InChi-Trust开发了这个工具。

InChi是International  Chemical  Identifier三个单词的头部字母的组合,“国际化学标识符“的意思。实际生成的Inchi样子是这样的。比如以碳酸乙烯酯为例:

InChI=1S/C3H4O3/c4-3-5-1-2-6-3/h1-2H2

这个字串实际上分为几层,层与层之间用斜杠分开。1S表示是Inchi版本号为第1版;C3H4O3是分子式;c4-3-5-1-2-6-3是原子连接信息;h1-2H2是氢原子的连接情况。

在ChemOffice等软件中,复制这样的字串,再在编辑器内,弹出菜单中选择 Paste Special,再在下级菜单中选择InChi即可以将InChi文本转化为结构粘贴到编辑器内。反过来,选择一个结构,再选择工具栏上的“Edit“菜单,下面点击 “Copy As", 选择InChi即可以将该结构的InChi文本复制到剪贴板上以供粘贴使用。如果在记事本等编辑器内粘贴,即可得到文本字串。

从InChi字串可以看出,从文本上不容易看出对应的分子结构是什么,但它确实可以通过一定的算法转化出分子的结构。从InChi字串来比较两个分子是否相似,是否一个是另一个的子结构,这样的功能InChi是 不支持的。

至于从结构如何生成对应的InChi字串,这是一个并不直观的算法问题,有兴趣的可以看看相关的介绍材料,我也没有研究过。 开发Inchi的组织不仅提供了技术手册,还提供了计算Inchi的库的源代码和程序等,我一并转载放在下面。其中有一个InChi-FAQ.pdf比较通俗易懂,回答了很多关于Inchi的奇怪问题,英文好的同学可以看看。

Inchi-faq.pdf (提取码:jam9)

完整的InChi工具包和资料  (提取码:u6se)

解压这个压缩包,运行 解压目录\InChi-1-bin\Windows\Winchi-1.exe,它需要读取包含分子结构信息的文件(*.mol, *.sdf, *.cml)等,来生成相应的InChi,这个没有ChemOffice方便,但却是最权威的,提供的细节信息也比较丰富。

wInChi-1 界面.png

目前InChi的版本是1.0, 支持不超过1023个原子的化学结构式。对我们做电解液这类小分子研究的应该是十分够用了。

因为InChi文本比较长,人们在此基础上经过一些算法运算,基于InChi生成了一个27个字符的新字串作为Inchi的签名,叫做InChi-Key。InChi与生成它的Inchi有一一对应关系,InChi由于使用的字符会被搜索引擎忽略,因此搜索InChi不成,但只要找到InChi-Key,我们就可以找到它的InChi-Key,如果两者都提供了的话。

EC的InChi-Key是这样的:KMTRUDSVKNLOMY-UHFFFAOYSA-N

从InChi计算出InChi-Key是单向的运算,因此InChi-Key不能用于表达分子结构,它相当于是找到Inchi的一个索引而已。

转载本文请联系原作者获取授权,同时请注明本文来自丁祥欢科学网博客。

链接地址:https://wap.sciencenet.cn/blog-1213210-1252335.html?mobile=1

收藏

分享到:

当前推荐数:2
推荐人:
推荐到博客首页
网友评论2 条评论
确定删除指定的回复吗?
确定删除本博文吗?