tony8310的个人博客分享 http://blog.sciencenet.cn/u/tony8310

博文

网页数据下载的一些操作

已有 796 次阅读 2023-11-5 11:33 |系统分类:科研笔记

用R/Rstudio进行网页数据下载的一般流程:

打开网页---F12 查看network--获取数据源网址--分析网页代码---

1 用GET POST
(1)GET/POST,request headers, Payload等, 返回 json,数据清洗、整理,保存为文件

(2)GET/POST,request headers, Payload等, 返回 html,用revst处理hmtl,获取html_table等,数据清洗、整理,保存为文件

2 用 Rselenium
(3)Rselenium 模拟浏览器,打开数据源网址,
>>>返回json/html,用revst处理hmtl,数据清洗、整理,保存为文件
>>>返回的是图片,用tesseract OCR 识别,traineddata用Mathematica的文件,系统环境变量设置TESSDATA_PREFIX D:\Program Files\R-Portable\App\R-Portable\library\tesseract\tessdata
>>>返回的是字符(各种混乱处理后的json等),用stringr等截取相应内容,处理字符、列表等,



https://wap.sciencenet.cn/blog-331295-1408530.html

上一篇:结构与功能
下一篇:两张相同的表格,替换相应位置NA值
收藏 IP: 202.113.99.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 02:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部