wengewsh的个人博客分享 http://blog.sciencenet.cn/u/wengewsh

博文

Rvest包抓取网络数据 ---用rvest包提取澎湃新闻

已有 1982 次阅读 2019-5-15 10:31 |个人分类:研究生课程论文|系统分类:人文社科| 数据采集;R

数据采集小作业-(12)Rvest包抓取网络数据 ---用rvest包提取澎湃新闻

作者:冯园园

指导教师:王文武

单位:曲阜师范大学  统计学院


本文利用rvest包进行了两个网页信息的提取:首先,澎湃新闻网站新闻标题、时间、链接的提取;其次,豆瓣网站《美丽人生》影评的提取,并对影评做了简单的文本分析,包括分词、去停用词、绘制词云图。在网页提取过程中,主要是R语言中rvest包这一强大功能包的使用,重点是节点信息的选择。文本分析是现在的一个热门研究方向,本文中简单地做了影评的文本分析,通过文本分析,我们能更加科学、客观的了解观众对于电影的评价。先对文本进行分词,再剔除停用词,即对文本分析无用的助词、虚词等;做好这两步后,可以统计词频,通过高频词的展示,我们便对影评有了一个初步、简单的认识。

具体研究见附件。

冯园园-采集澎湃新闻数据.pdf




https://wap.sciencenet.cn/blog-3316039-1179118.html

上一篇:租房信息采集 ——基于安居客网站的北京租房信息采集分析
下一篇:从猫眼电影TOP100看数据采集
收藏 IP: 61.179.124.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-19 13:24

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部