张兵
网页数据下载的一些操作
2023-11-5 11:33
阅读:1183

用R/Rstudio进行网页数据下载的一般流程:

打开网页---F12 查看network--获取数据源网址--分析网页代码---

1 用GET POST
(1)GET/POST,request headers, Payload等, 返回 json,数据清洗、整理,保存为文件

(2)GET/POST,request headers, Payload等, 返回 html,用revst处理hmtl,获取html_table等,数据清洗、整理,保存为文件

2 用 Rselenium
(3)Rselenium 模拟浏览器,打开数据源网址,
>>>返回json/html,用revst处理hmtl,数据清洗、整理,保存为文件
>>>返回的是图片,用tesseract OCR 识别,traineddata用Mathematica的文件,系统环境变量设置TESSDATA_PREFIX D:\Program Files\R-Portable\App\R-Portable\library\tesseract\tessdata
>>>返回的是字符(各种混乱处理后的json等),用stringr等截取相应内容,处理字符、列表等,

转载本文请联系原作者获取授权,同时请注明本文来自张兵科学网博客。

链接地址:https://wap.sciencenet.cn/blog-331295-1408530.html?mobile=1

收藏

分享到:

当前推荐数:0
推荐到博客首页
网友评论0 条评论
确定删除指定的回复吗?
确定删除本博文吗?