|||
用计算机挖掘文学作品中的隐喻
去年有本比较受关注的名著译本问世:隐居作家托马斯品钦的后现代主义代表作 《万有引力之虹》,译者穷三年之力才翻完。本书以内容复杂晦涩,隐喻深刻著 称。在数据挖掘的时代,如果我们能对所有书籍进行索引分析,或许能解开隐含 的意义。现在斯坦福大学的研究人员正构建一个浩瀚的,可搜寻的数据库,容纳 一切文学作品,利用“数据挖掘”和“机器学习”技术,挖掘出从柏拉图到品钦作品文字中的隐喻。
研究者能搜寻包含在书籍中的数百万个字,研究这些单字如何被使用的微妙转变,分析语言-文化-如何演变。举例来说,“在结构上来说,'my love is a red rose (我的爱是一朵红玫瑰)'这句话与‘my dog is a blue heeler ’(我的狗
是蓝色heeler,译注:澳大利亚牛狗的原名) 非常类似,但前者是隐喻,但后者 不是。”研究人员用程序在可能使用隐喻的单字之间进行近似搜寻,如以“mind ”和“mint”搜寻100字内的例句,结果找到下列William Cowper的诗句:“The mind and conduct mutually imprint(心智与行为相互铭印)/And stamp their image in each other's mint(并将其形象留在彼此的铸印)”。
原址: http://books.solidot.org/article.pl?sid=09/03/10/0921210&from=rss
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-19 21:28
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社