|||
博客的主人是有性别和性格的,那么能不能通过博文,判断博客主人的性别和性格呢? 还真有人开发了这种机器识别博客的性别与性格的工具,先来看测试结果:
孔玲同学:http://www.sciencenet.cn/u/kongling814/
沈老师:http://www.sciencenet.cn/blog/runasun.htm
也有很多博客性别不准。有兴趣的可以自己测试下,这个小玩意是网易下属搜索引擎,有道的一个小分支,国产。地址:http://www.yodao.com/blogender/index.htm 提交自己的博客地址就行;少数博客不能测试性别,是因为Rss错误。
这个工具还是有很大完善与发展的空间,有了解的老师同学,欢迎聊聊怎么实现的。
实现原理
咨询了武汉大学的沈阳老师,沈老师认为可以先分析出词频,然后TFIDF一下,获得一个特征向量,然后再和事先准备的少量标注语料构建好的男性、女性以及语言风格特征词空间向量库比对,即可获得男性、女性的博客概率。有兴趣的可以关注沈老师的博客,ROST系列是一套有趣的工具。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-1 07:25
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社