博文

Rvest包抓取网络数据 ---用rvest包提取澎湃新闻

已有 1982 次阅读 2019-5-15 10:31 |个人分类:研究生课程论文|系统分类:人文社科| 数据采集；R

数据采集小作业-（12）Rvest包抓取网络数据 ---用rvest包提取澎湃新闻

作者：冯园园

指导教师：王文武

单位：曲阜师范大学统计学院

本文利用rvest包进行了两个网页信息的提取：首先，澎湃新闻网站新闻标题、时间、链接的提取；其次，豆瓣网站《美丽人生》影评的提取，并对影评做了简单的文本分析，包括分词、去停用词、绘制词云图。在网页提取过程中，主要是R语言中rvest包这一强大功能包的使用，重点是节点信息的选择。文本分析是现在的一个热门研究方向，本文中简单地做了影评的文本分析，通过文本分析，我们能更加科学、客观的了解观众对于电影的评价。先对文本进行分词，再剔除停用词，即对文本分析无用的助词、虚词等；做好这两步后，可以统计词频，通过高频词的展示，我们便对影评有了一个初步、简单的认识。

具体研究见附件。

冯园园-采集澎湃新闻数据.pdf