||
数据采集小作业-(2)基于天气后报网的温度信息采集分析
作者:杨静
指导教师:王文武
单位:曲阜师范大学 统计学院
R和Python是两个非常有力的爬虫工具。Python倾向于做大型爬虫,与R相比,语法相对复杂,因此Python爬虫的学习曲线会相对陡峭。所以对于想从网上获取数据的初学者而言,用R做爬虫是相对比较好的选择。用R进行爬虫具有许多优点,比如:R语法相对直观,规则更加灵活;对于数据量不大的用户来说(小于百万级),R能够非常自如地处理;先学习R爬虫,等熟悉爬虫的原理之后,再学习Python是相对容易一些的。所以,本文基于R进行数据爬取。
本文主要讲解如何爬取网页中的数据,利用的是R软件中的的rvest包。通过编程收集网页中我们所需的数据。rvest是R用户使用率最多的爬虫包,它简洁的语法可以解决大部分的爬虫问题。主要方法是:使用read_html读取网页;通过CSS或Xpath获取所需要的节点并使用html_nodes读取节点内容;结合stringr包对数据进行清理。
本文选取的是天气后报网,我们想要提取2011年-2018年逐日最高气温与最低气温的信息。具体的提取步骤主要有获取网页链接、分析网页源代码、建立循环提取网页相关信息、进行数据整合、数据存储,最后简单的进行描述性分析,分析了8年来最高温度、最低温度、温差的波动规律。
具体研究见附件。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 12:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社