MengnanWang的个人博客分享 http://blog.sciencenet.cn/u/MengnanWang

博文

python 爬虫

已有 1552 次阅读 2021-7-14 16:35 |系统分类:科研笔记

        目前python主流的爬虫包为requests与urllib,但是requests包在访问网页时经常报错,原因也没有完全解决,根据查询应该是requests包不支持https访问。

        urllib在获取网站源代码时,需要解析网页代码,一般是html或者css。在解析网页时,需要用到re(正则表达式)包,BeautifulSoup



https://wap.sciencenet.cn/blog-3478320-1295443.html

上一篇:佳能相机
下一篇:创造性科学问题与创新性科学问题
收藏 IP: 120.203.222.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-28 12:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部