博文

基于天气后报网的温度信息采集分析

已有 2377 次阅读 2019-5-13 11:28 |个人分类:研究生课程论文|系统分类:论文交流

数据采集小作业-（2）基于天气后报网的温度信息采集分析

作者：杨静

指导教师：王文武

单位：曲阜师范大学统计学院

R和Python是两个非常有力的爬虫工具。Python倾向于做大型爬虫，与R相比，语法相对复杂，因此Python爬虫的学习曲线会相对陡峭。所以对于想从网上获取数据的初学者而言，用R做爬虫是相对比较好的选择。用R进行爬虫具有许多优点，比如：R语法相对直观，规则更加灵活；对于数据量不大的用户来说（小于百万级），R能够非常自如地处理；先学习R爬虫，等熟悉爬虫的原理之后，再学习Python是相对容易一些的。所以，本文基于R进行数据爬取。

本文主要讲解如何爬取网页中的数据，利用的是R软件中的的rvest包。通过编程收集网页中我们所需的数据。rvest是R用户使用率最多的爬虫包，它简洁的语法可以解决大部分的爬虫问题。主要方法是：使用read_html读取网页；通过CSS或Xpath获取所需要的节点并使用html_nodes读取节点内容；结合stringr包对数据进行清理。

本文选取的是天气后报网，我们想要提取2011年-2018年逐日最高气温与最低气温的信息。具体的提取步骤主要有获取网页链接、分析网页源代码、建立循环提取网页相关信息、进行数据整合、数据存储，最后简单的进行描述性分析，分析了8年来最高温度、最低温度、温差的波动规律。

具体研究见附件。

杨静-气温数据采集.pdf