wengewsh的个人博客分享 http://blog.sciencenet.cn/u/wengewsh

博文

基于天气后报网的温度信息采集分析

已有 2377 次阅读 2019-5-13 11:28 |个人分类:研究生课程论文|系统分类:论文交流

数据采集小作业-(2)基于天气后报网的温度信息采集分析

作者:杨静

指导教师:王文武

单位:曲阜师范大学  统计学院


R和Python是两个非常有力的爬虫工具。Python倾向于做大型爬虫,与R相比,语法相对复杂,因此Python爬虫的学习曲线会相对陡峭。所以对于想从网上获取数据的初学者而言,用R做爬虫是相对比较好的选择。用R进行爬虫具有许多优点,比如:R语法相对直观,规则更加灵活;对于数据量不大的用户来说(小于百万级),R能够非常自如地处理;先学习R爬虫,等熟悉爬虫的原理之后,再学习Python是相对容易一些的。所以,本文基于R进行数据爬取。

本文主要讲解如何爬取网页中的数据,利用的是R软件中的的rvest包。通过编程收集网页中我们所需的数据。rvest是R用户使用率最多的爬虫包,它简洁的语法可以解决大部分的爬虫问题。主要方法是:使用read_html读取网页;通过CSS或Xpath获取所需要的节点并使用html_nodes读取节点内容;结合stringr包对数据进行清理。

本文选取的是天气后报网,我们想要提取2011年-2018年逐日最高气温与最低气温的信息。具体的提取步骤主要有获取网页链接、分析网页源代码、建立循环提取网页相关信息、进行数据整合、数据存储,最后简单的进行描述性分析,分析了8年来最高温度、最低温度、温差的波动规律。

       具体研究见附件。

杨静-气温数据采集.pdf




https://wap.sciencenet.cn/blog-3316039-1178701.html

上一篇:R语言爬虫:济宁市二手车信息的收集
下一篇:数据采集之RCurl包 ——以豆瓣音乐TOP250数据为例
收藏 IP: 60.211.229.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-15 01:45

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部