章成志 分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落,去留无意漫观天外云展云舒

博文

利用链接分析方法发现更多高可信度的双语网页

已有 9355 次阅读 2013-8-13 19:54 |个人分类:同行交流|系统分类:论文交流| 机器翻译, 语料库, 双语网页资源, 跨语言信息检索

   双语网页资源在多语言信息处理(特别是机器翻译和跨语言信息检索)中,是一项极其宝贵的资源。在机器翻译领域,现在各种投入使用的系统拼模型的同时,也在拼其掌握的资源。当前学术界对双语资源获取的研究中,一个代表性的方法是根据URL的组成,利用启发式规则从双语站点上自动发现双语网页资源(暂且称该方法为基于URL模式的方法),该方法需要事先制定一些启发式规则。我们(Kit & Ng, 2007; Zhang, Yao & Kit, 2013)试图通过机器自动发现一些规则,来降低基于URL模式的方法对外部先验知识的依懒性。

   (Kit & Ng, 2007)主要工作是自动发现双语URL模式、然后根据这些模式发现双语网页资源。(Zhang, Yao & Kit, 2013)进一步对双语URL模式的可信度进行度量、并依据链接关系发现更多高可信度的双语网页资源,我们的实验表明,该方法大概可以找到20%额外的真实双语网页。

    该工作的有趣之处在于:

   (1)区分URL模式的全局可信度(依据所有种子站点计算得到的URL模式可信度)和局部可信度(依据当前站点计算得到的URL模式可信度),这样可以召回一些局部可信度低、但全局可信度高的双语网页;

   (2)利用学习到的高可信度的双语URL模式,寻找一些原本没有链接关系的双语网页(我们称之为Deep Bilingual Webpages);

   (3)利用链接关系,以双语种子站点为基础、发现更多的种子站点之外的高可信度双语站点,然后进一步发现更多的高可信度双语网页。


   相关工作介绍,请参见如下论文:

   2. Chengzhi Zhang, Xuchen Yao and Chunyu Kit. Finding More Bilingual Web Pages with High Credibility via Link Analysis. In: Proceedings of the 6th Workshop on Building and Using Comparable Corpora (BUCC2013). August 8, 2013, Sofia, Bulgaria.

  1. Chunyu Kit and Jessica Y. H.  Ng. An intelligent Web agentto mine bilingual parallel pages via automatic discovery of URL pairing patterns. In Proceedings of the2007IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology - Workshops: Workshopon Agents and Data Mining Interaction (ADMI-07),Silicon Valley,California, November 2-5, 2007, Silicon Valley,California.


   当然基于URL模式的方法也有其不可避免的弱点。除基于URL模式的方法之外,另外一种方法则直接计算候选双语网页之间的结构或内容相似度,通常该过程要耗费大量的计算资源或时间(比如抓到尽量多的源语言和目标语言网页,然后进行跨语言相似度计算)。个人认为,目前关于这个工作的进一步工作还有很多,比如怎么不需要人为地给出种子站点或者尽量给较少的站点,结合半监督学习发现更多高可信度的种子站点可能是个不错的想法。

   

   关于(Zhang, Yao & Kit, 2013)中使用到源代码(Pupsniffer)与数据集(种子站点、采集的双语网页以及测评结果等)可以见Pupsniffer的测评网站:

    http://mega.lt.cityu.edu.hk/~czhang22/pupsniffer-eval/





https://wap.sciencenet.cn/blog-36782-716549.html

上一篇:Mauricio Barcellos Almeida关于本体的再认识
下一篇:问卷调研:社会化标签系统用户标注行为调研
收藏 IP: 223.113.7.*| 热度|

9 李伟钢 武夷山 赵星 王贤文 化柏林 赵宇翔 刘桂锋 杨冠灿 EroControl

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 14:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部