博文

视觉理解---语言理解的初步（111020）

已有 6241 次阅读 2011-10-20 16:39 |个人分类:计算机|系统分类:科研笔记| 信息安全, 视觉识别

视觉理解---语言理解的初步（111020）
闵应骅

    大家都承认，自然语言理解是信息领域一大难题，但非常重要。既有理论意义，又有实用价值。但是，从何入手呢？最近看到CACM上介绍美国DAPAR的一个课题，叫Mind's Eye,可翻译成“心理眼”。就是说，根据视频能够看出图中物体的动作。如下图所示，首先是两个人，中间有一幅画，而且两人相对，似乎是在传递这张画。根据这张画，可以理解出来，右边的人正在给左边的人这张画。所以，列出了"GIVE",这就是视觉理解。
    视觉理解有什么用？DAPAR是军事部门，当然首先要考虑它在军事上有什么用。在战场上，根据各种传感器、摄像机、雷达所得到的图像，就可以得知敌军或我军的行动。这当然至关重要。在民用方面，用处也很大，譬如商店里对商品畅销程度的观察、不轨行为的监察等等。而在理论方面讲，视觉理解可以认为是自然语言理解的一个初步，计算智能要从对语言的理解开始。我国的信息安全很受重视，但是靠敏感词匹配出现很多问题。该堵截的没能堵截，而不该堵截的反而大量被堵截了。问题就出在机器无法理解内容。不管是文字内容，或者视频内容，机器都无法自动理解。
    这难题怎么做？首先是对象识别。你得根据图像，识别出对象来，譬如一个人、一副画、一张桌子、一支枪等等。然后是动作。DAPAR对这课题要求识别48个动词，譬如“approach”，“fly”，“walk”等。我觉得，这样的课题还是很值得研究的。不知道，国内在这方面是否已经有所进展，或者已有安排。

转载本文请联系原作者获取授权，同时请注明本文来自闵应骅科学网博客。
链接地址：https://wap.sciencenet.cn/blog-290937-499043.html

上一篇：家（111020）
下一篇：测试的尴尬（111024）

收藏 IP: 159.226.43.*| 热度|

当前推荐数：9 推荐人：黄富强 杨顺楷 罗汉江 张玉秀 赵凤光 谢龙 洪昆辉 理论思维 sunxiaofei

发表评论评论 (25 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

闵应骅

扫一扫，分享此博文

闵应骅的博客分享 http://blog.sciencenet.cn/u/ymin 一位IEEE终身Fellow对信息科学及其发展的看法

博文

视觉理解---语言理解的初步（111020）

当前推荐数：9 推荐人：黄富强 杨顺楷 罗汉江 张玉秀 赵凤光 谢龙 洪昆辉 理论思维 sunxiaofei

发表评论评论 (25 个评论)

闵应骅

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

闵应骅的博客分享 http://blog.sciencenet.cn/u/ymin 一位IEEE终身Fellow对信息科学及其发展的看法

博文

视觉理解---语言理解的初步（111020）

当前推荐数：9 推荐人： 黄富强 杨顺楷 罗汉江 张玉秀 赵凤光 谢龙 洪昆辉 理论思维 sunxiaofei

发表评论 评论 (25 个评论)

闵应骅

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：9 推荐人：黄富强杨顺楷罗汉江张玉秀赵凤光谢龙洪昆辉理论思维 sunxiaofei

发表评论评论 (25 个评论)