||
数据采集小作业-(11)租房信息采集 ——基于安居客网站的北京租房信息采集分析
作者:何珊珊
指导教师:王文武
单位:曲阜师范大学 统计学院
在本案例中,要采集的是安居客网站中关于北京租房的相关信息,包括有关的标题、房间的构造、房子面积、周边环境(地址)、房租价格、合租/整租、朝向等数据。安居客的房源信息较充足,可以从中获得较好的信息加以分析。本案例分析利用了RCurl、XML和stringr包,RCurl包程序包提供了有R到libcurl库的接口,从而实现HTTP的一些功能;利用XML程序包中的htmlParse函数加抓取HTML页面的函数获得我们所需要的信息;最后通过stringr程序包中的函数功能对获得的信息加以处理。本文通过对安居客中北京租房信息的前五页信息进行抓取,总共采集300个数据,通过对数据的处理,储存为数据框格式,并保存到excel表格中。
具体研究见附件。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-27 11:08
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社