linqy的个人博客分享 http://blog.sciencenet.cn/u/linqy

博文

python 获取网页的相关内容

已有 2060 次阅读 2019-5-28 08:58 |系统分类:科研笔记

Python获取网页的步骤

一、先导入依赖包

import urllib

二、打开网址

(1) 方式一

response = urllib.urlopen(url)

(2)方式二

#请求
request = urllib.request.Request(url)
#爬取结果
response = urllib.request.urlopen(request)

三、获取网页的内容

data = urllib.urlopen(url).read()
data = data.decode('UTF-8')

四、网页的相关内容

url_response = request.urlopen(url) #打开一个url或者一个Request对象
    '''
       geturl():返回 full_url地址
         info(): 返回页面的元(Html的meta标签)信息
         <meta>:可提供有关页面的元信息(meta-information),比如针对搜索引擎和更新频度的描述和关键词。
      getcode(): 返回响应的HTTP状态代码 
      100-199 用于指定客户端应相应的某些动作。
      200-299 用于表示请求成功。      ------>  200
      300-399 用于已经移动的文件并且常被包含在定位头信息中指定新的地址信息。
      400-499 用于指出客户端的错误。  ------>  404
      500-599 用于支持服务器错误。 
         read(): 读取网页内容,注意解码方式(避免中文和utf-8之间转化出现乱码)
    ''’




https://wap.sciencenet.cn/blog-3134052-1181576.html

上一篇:python 获取网址
下一篇:Python获取网页图片的简单示例代码
收藏 IP: 112.53.64.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-17 13:55

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部