闵应骅的博客分享 http://blog.sciencenet.cn/u/ymin 一位IEEE终身Fellow对信息科学及其发展的看法

博文

视觉理解---语言理解的初步(111020)

已有 6241 次阅读 2011-10-20 16:39 |个人分类:计算机|系统分类:科研笔记| 信息安全, 视觉识别

视觉理解---语言理解的初步(111020)
闵应骅

    大家都承认,自然语言理解是信息领域一大难题,但非常重要。既有理论意义,又有实用价值。但是,从何入手呢?最近看到CACM上介绍美国DAPAR的一个课题,叫Mind's Eye,可翻译成“心理眼”。就是说,根据视频能够看出图中物体的动作。如下图所示,首先是两个人,中间有一幅画,而且两人相对,似乎是在传递这张画。根据这张画,可以理解出来,右边的人正在给左边的人这张画。所以,列出了"GIVE",这就是视觉理解。
    视觉理解有什么用?DAPAR是军事部门,当然首先要考虑它在军事上有什么用。在战场上,根据各种传感器、摄像机、雷达所得到的图像,就可以得知敌军或我军的行动。这当然至关重要。在民用方面,用处也很大,譬如商店里对商品畅销程度的观察、不轨行为的监察等等。而在理论方面讲,视觉理解可以认为是自然语言理解的一个初步,计算智能要从对语言的理解开始。我国的信息安全很受重视,但是靠敏感词匹配出现很多问题。该堵截的没能堵截,而不该堵截的反而大量被堵截了。问题就出在机器无法理解内容。不管是文字内容,或者视频内容,机器都无法自动理解。
    这难题怎么做?首先是对象识别。你得根据图像,识别出对象来,譬如一个人、一副画、一张桌子、一支枪等等。然后是动作。DAPAR对这课题要求识别48个动词,譬如“approach”,“fly”,“walk”等。我觉得,这样的课题还是很值得研究的。不知道,国内在这方面是否已经有所进展,或者已有安排。




https://wap.sciencenet.cn/blog-290937-499043.html

上一篇:家(111020)
下一篇:测试的尴尬(111024)
收藏 IP: 159.226.43.*| 热度|

9 黄富强 杨顺楷 罗汉江 张玉秀 赵凤光 谢龙 洪昆辉 理论思维 sunxiaofei

发表评论 评论 (25 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-16 12:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部