科学网

 找回密码
  注册
《立委科普:固定成语的不固定用法及其机器对策》
热度 2 李维 2015-11-12 20:14
白老师提到的关于成语的打包和拆包,是一个很好的话题。 白老师的微博原话是: 纯粹已经打包的成语不构成难度。难度在打包与拆包的边界线上,比如:“让贾宝玉在芭蕾舞中托举林黛玉,纯属多此一举。”“借海瑞之尸,还右倾机会主义者之魂。”前者要把已经打包的成语拆开,后者要从已经拆开的句式还原当初的包。 ...
个人分类: 立委科普|3744 次阅读|2 个评论 热度 2
对付成语电脑是大拿,非成语现象呢?
热度 3 李维 2015-11-7 07:10
答案是,对付非成语,NLP (自然语言处理技术)也不赖。 机器规则当然也可以模拟人的“想象力”或 “创造力”,并不是说当机器把成语、固定说法放进词典后,就放弃了创造力的模拟。这里的原理在于:系统应该也必须是 hierarchical (层级) 的,进入词典垃圾箱的 ngram 条目是最确定的东西,最精确,但是也最不具有概 ...
个人分类: 立委科普|4678 次阅读|3 个评论 热度 3
《知识图谱的先行:从 Julian Hill 说起 》
热度 2 李维 2015-10-24 01:36
【立委按】 我15年前领导的这个研究就是如今红透半边天的“知识图谱”的先行。知识图谱这个术语实际上是搜索产业借用了研究界的实体关系和实体概览(Entity Relationships and Entity Profile)概念炒热的。 from 2007年 的 博文回忆 :《 朝华午拾:信息抽取笔 ...
个人分类: 立委科普|11673 次阅读|2 个评论 热度 2
《泥沙龙笔记:搜索和知识图谱的话题》
热度 5 李维 2015-10-23 08:22
【立委按】 发现,在沙龙里喷NLP很容易,都是做了n多年的人了,问题领域如数家珍,任何话头,都可以引申出一大篇来,信马由缰,也不乏闪光的思想和有意思的碰撞。耗时的是笔记整理。那个比信口开河费劲多了,喷一天的话,要三天功夫才能整理出可读的博文。不过,既然喷了,不整理就烟消云散,那还不如不喷。死循 ...
个人分类: 立委科普|8737 次阅读|7 个评论 热度 5
《泥沙龙笔记:再聊关键词和SVO》
热度 1 李维 2015-10-22 02:16
白: (关于SVO取代关键词)要我是广告商,这种变化不值得去搞。要搞就搞大的。 增加的定价复杂性和收益不一定匹配。 如果这种变化导致广告商不给钱了,搜索公司不会干。 不是说技术进步点在句法,广告标的的表现也一定在句法。 配套一系列东西,计量等等,都要动。包括博弈,在博弈中定价, 本来是清晰的,regex ...
个人分类: 立委科普|3715 次阅读|没有评论 热度 1
《立委科普:关键词革新》
热度 2 李维 2015-10-17 10:10
上篇 《立委科普:关键词外传》 提到了关键词的三个面向, 关键词作为互联网摇钱树的秘密就在于它是这三面的粘合剂,以信息载体的身份。 本篇要论的就是关键词在这三方面所面临的挑战和机遇。 一场颠覆式改革正在大数据浪潮中酝酿。 回顾一下,从关键词最大的应用“搜索”的角度,关键词有三个接口两个层面 ...
个人分类: 立委科普|5015 次阅读|2 个评论 热度 2
《立委科普:关键词外传》
热度 4 李维 2015-10-12 02:35
Keywords as Technology and as Business Model. The entire search industry has relied on keywords as money-making machines. What are the limitations of keywords as technology? What are the limitations of keywords as business model? What are prospects beyond keywords? These are issues discussed in t ...
个人分类: 立委科普|5430 次阅读|4 个评论 热度 4
社媒大数据的困境:微信的风行导致舆情的碎片化
热度 4 李维 2015-10-8 19:11
最近热点追踪,做了一个 TPP 的大数据舆情调查,可惜数据源不给力。最近给我们提供数据的,微博怎么不见了?下面的挖掘片段是从 Twitter 以及中国的论坛做的,凑合看吧: 想做一个屠呦呦获诺奖的舆情调查,结果这么大的事件,数据也还是可怜,才6000个数据点(data points),而且还是以重复的新闻帖子为主。通 ...
个人分类: 社媒挖掘|5648 次阅读|3 个评论 热度 4
泥沙龙笔记:三论世界语
热度 5 李维 2015-10-6 23:59
Nick: 世界语是不是更接近西班牙语? 是,Esperanto 与拉丁族的语言(西班牙、法语、意大利语)蛮近,听起来更像。当然,词尾简单多了。 汉语被称为孤立语,一个词一个词(古汉语的“字”基本就是词)都是独立的,合成词就是词与词(严格说叫词素)的简单相加。 世界语虽然是印欧语简化而来,具有词尾变化(叫 ...
个人分类: 立委科普|5226 次阅读|5 个评论 热度 5
泥沙龙笔记:汉语就是一种 “裸奔” 的语言
热度 1 李维 2015-10-5 10:06
笔记要点:很大程度上,汉语是一种 “裸奔” 的语言,思维到言语是直通道,连内衣都懒得穿。 RW: 如果人工智能要在汉语语境中开花,需要全新的语言学理论体系。 很多人说需要理论突破 才能搞定汉语,这个听起来似乎很有道理。但是实际上是不现实不作为的。我专门写过博文,评论和批评这个观点:《迷思之三: 中 ...
个人分类: 立委科普|6179 次阅读|3 个评论 热度 1

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-2 23:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部