王晓光分享 http://blog.sciencenet.cn/u/limer 武汉大学信息管理学院

博文

互联网、数字人文与网络数据采集

已有 4887 次阅读 2010-2-16 16:08 |个人分类:生活点滴|系统分类:科研笔记| 互联网, 交叉学科, 数据采集, 数字人文, 信息物理

       

      近几年来,人文社会科学研究环境发生了重大变化,电子文献代替了印刷文献,计算机检索代替了人工统计,研究过程和研究工具的数字化不仅提高了人文社科的研究效率,还拓展了人文社科的研究范围,并在一定程度上改变了人文社科研究的模式。

        特别是互联网出现以后,大众媒体、网络交流、社会性网站等新事物的陆续出现极大的丰富了人文社科的研究内容和研究方法,例如利用国外知名媒体网站上采集的新闻信息进行中国国际形象的评估研究,事件信息传播路径分析,地区形象监控,品牌用户评价等等,这样的研究在印刷时代是成本高昂的,而在互联网时代就没有任何障碍。

        互联网正在成为一个绝佳的人文社科研究数据源,研究人员不仅可以利用互联网共享学术信息,还可以直接采集一手的网络用户行为数据,由此还导致信息物理和人类行为动力学——这样的新兴交叉学科的兴起。

       当然,对于传统的人文社科研究者来说,互联网最大的功劳还是方便了数据获取,各种学术网站、新闻网站、个人网站、专业网站等等,提供了大量的研究素材,研究者利用搜索引擎和数字图书馆几乎可以找到任何想要的数据和文献信息。

       然而,当人文社科研究者想要获得面向特定领域的数据集时,例如英国各大报纸所有涉及中国的报道这样的数据,或者政府对某一突发事件发布的所有信息——搜索引擎就无能为力,研究者要么自己手工下载,要么采用专业的网络信息智能采集软件。手工下载成本高昂,特别是随着人文社科研究的数据集规模越来越大,研究者越来越需依赖于网络信息智能采集软件进行数据定向采集。

       随着数字人文的发展,网络信息智能采集软件正逐渐成为人文社科研究的基础性软件工具,推动了数字人文研究的快速发展。

         针对网络数据自动采集的需要,我们武汉大学信息管理学院 汇海科技——武汉大学移动商务联合实验室开发了一套通用性的网络信息智能采集软件,不仅能够自动定时采集多种类型的网站信息,还能对网页正文进行抽取、分类和关键词提取。该系统应用领域广阔,其中就包括数字人文学术研究。

        为了满足数字人文的发展需求,光有网络信息智能采集软件还不够,目前互联网上的大多数信息大多是非结构化的,所以对采集到的网页还需进行结构化信息的抽取和挖掘,所以下一步我们将开发网页结构化信息抽取软件和文本挖掘软件,以构建完整的数字人文研究基础软件平台,适应数字人文的多样化研究需求。

       移动互联网应用是另外一个社会性大趋势,为了满足基于移动数据的数字人文研究需求,我们还将集中力量开展面向移动互联网的信息采集、抽取、挖掘软件研发工作。

我们欢迎人文社科同行联系合作,共同推动我国数字人文研究的发展!



https://wap.sciencenet.cn/blog-67855-295373.html

上一篇:Web信息智能采集与自动分类标引系统简介
下一篇:计算机情感分析的价值
收藏 IP: .*| 热度|

0

发表评论 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-1 09:03

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部