博文

网页数据下载的一些操作

已有 796 次阅读 2023-11-5 11:33 |系统分类:科研笔记

用R/Rstudio进行网页数据下载的一般流程：

打开网页---F12 查看network--获取数据源网址--分析网页代码---

1 用GET POST
（1）GET/POST，request headers, Payload等，返回 json，数据清洗、整理，保存为文件

（2）GET/POST，request headers, Payload等，返回 html，用revst处理hmtl,获取html_table等，数据清洗、整理，保存为文件

2 用 Rselenium
（3）Rselenium 模拟浏览器，打开数据源网址，
>>>返回json/html,用revst处理hmtl，数据清洗、整理，保存为文件
>>>返回的是图片，用tesseract OCR 识别，traineddata用Mathematica的文件，系统环境变量设置TESSDATA_PREFIX D:\Program Files\R-Portable\App\R-Portable\library\tesseract\tessdata
>>>返回的是字符（各种混乱处理后的json等），用stringr等截取相应内容，处理字符、列表等，

转载本文请联系原作者获取授权，同时请注明本文来自张兵科学网博客。
链接地址：https://wap.sciencenet.cn/blog-331295-1408530.html

上一篇：结构与功能
下一篇：两张相同的表格，替换相应位置NA值

收藏 IP: 202.113.99.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

张兵

扫一扫，分享此博文

tony8310的个人博客分享 http://blog.sciencenet.cn/u/tony8310

博文

网页数据下载的一些操作

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

张兵

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

tony8310的个人博客分享 http://blog.sciencenet.cn/u/tony8310

博文

网页数据下载的一些操作

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

张兵

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)