武夷山分享 http://blog.sciencenet.cn/u/Wuyishan 中国科学技术发展战略研究院研究员;南京大学信息管理系博导

博文

关于依存长度最小化的大规模证据 精选

已有 4115 次阅读 2015-8-8 06:49 |个人分类:阅读笔记|系统分类:观点评述

关于依存长度最小化的大规模证据

武夷山

 

麻省理工学院脑科学与认知科学系的博士生Richard Futrell、他的导师Edward Gibson和另外一位同事最近在PNAS杂志发表文章(doi: 10.1073/pnas.1502134112 Large-scale evidence of dependency length minimization in 37 languages(依存长度最小化:来自37种语言的大规模证据),原文见http://web.mit.edu/futrell/www/papers/futrell2015largescale.pdf

文章摘要说,对不同语言的差异以及这种差异所受限制(博主:通俗地理解,有差异,但差异是有限的,而不是大得无边界的)进行解释,是语言学的一个核心目标。过去20年来,有一种看法是,跨语言差异之间之所以具有许多惊人的共同性,是因为不同语言都遵循一个假想的原理:依存长度----一个句子中语法相关的单词之间的距离----是向最小化的方向趋近的。关于人类语言的句子产生和理解的多种模型都预言说,长的依存关系很难处理,或处理效率较低;于是,将依存长度最小化就有助于有效的传播。但是,尽管这一认识在理论探讨、实证研究和实际工作中都获得了广泛的应用,但迄今尚没有大规模的证据表明,在不同语言的说话(utterances当中,依存长度确实是最小化的。以往的相关研究,要么只以很少的几种语言为样本,要么对作为研究对象的每种语言只采用了小量的数据。本文则采用包含了37种语言的具有句法标注的语料库进行研究,结果表明,对于所有语言,总体依存长度都比保守的随机基线长度要短。这样的结果强烈提示:依存长度最小化是人类语言的一种普遍的量化特性,用人类信息处理的一般性质来解释语言差异是合适的。

 

文中的几个例子,大家就可以模糊感觉到依存长度的含义:

John threw out the trash. 依存长度为6threw out扔出去)的“扔”和“出去”紧挨着,故依存长度较短。

John threw the trash out. 依存长度为7threw out扔出去)的“扔”和“出去”当中隔了两个词,故该句子的依存长度比上一句要长。

John threw out the trash sitting in the kitchen. 依存长度为14

John threw the trash sitting in the kitchen out. 依存长度为20

依存长度最小化假说产生了两种预测。第一,当语法允许多种表达方式时,语言使用者会偏好依存长度最短的那种表达方式。第二,语法应促进较短依存长度的表达式之产生,而不是强制人们采用具有较长依存长度的词序。

研究所涉及的37种语言是:阿拉伯语、保加利亚语、孟加拉语、加泰罗尼亚语、汉语、克罗地亚语、捷克语、丹麦语、德语、现代希腊语、英语、西班牙语、爱沙尼亚语、巴斯克语、波斯语、芬兰语、法语、古希腊语、希伯来语、印地语、匈牙利语、印度尼西亚语、爱尔兰语、意大利语、日语、韩语、拉丁语、荷兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、斯洛文尼亚语、瑞典语、泰米尔语、泰卢固语、土耳其语。

 

我对语言学术语的翻译、对原文的理解均可能有误,敬请语言学专家指正。




https://wap.sciencenet.cn/blog-1557-911433.html

上一篇:初二学生思考代表性问题,哈哈----日记摘抄(296)
下一篇:简历(美国女诗人的一首幽默诗)
收藏 IP: 124.126.171.*| 热度|

16 钟炳 罗德海 冯大诚 刘全慧 黄永义 杨正瓴 章成志 王国强 赵美娣 李天成 宁利中 赵凤光 俞立平 李泳 魏瑞斌 zjhs111

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-1 05:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部