|||
数据采集小作业-(12)Rvest包抓取网络数据 ---用rvest包提取澎湃新闻
作者:冯园园
指导教师:王文武
单位:曲阜师范大学 统计学院
本文利用rvest包进行了两个网页信息的提取:首先,澎湃新闻网站新闻标题、时间、链接的提取;其次,豆瓣网站《美丽人生》影评的提取,并对影评做了简单的文本分析,包括分词、去停用词、绘制词云图。在网页提取过程中,主要是R语言中rvest包这一强大功能包的使用,重点是节点信息的选择。文本分析是现在的一个热门研究方向,本文中简单地做了影评的文本分析,通过文本分析,我们能更加科学、客观的了解观众对于电影的评价。先对文本进行分词,再剔除停用词,即对文本分析无用的助词、虚词等;做好这两步后,可以统计词频,通过高频词的展示,我们便对影评有了一个初步、简单的认识。
具体研究见附件。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-19 13:24
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社