||
数据采集小作业-(10)R语言豆瓣图书Top250数据采集
作者:支席年
指导教师:王文武
单位:曲阜师范大学 统计学院
本文主要介绍了基于R语言rvest包的网络数据采集,包括其中一些函数的用法,如负责读取网页内容的read_html()函数,对提取信息进行定位的htmo_nodes()函数等。简单介绍了string包和其中函数的功能和用法,并以豆瓣图书Top250为例,进行了实际的数据采集。
除此之外,由于现在网络数据采集的主要工具是Python,我们通过查找资料,找到了相同案例下的Python程序,对R语言爬虫和Python爬虫在提取250本图书的url上做了简单的比较。
具体研究见附件。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-20 02:49
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社