haiferry的个人博客分享 http://blog.sciencenet.cn/u/haiferry

博文

小的爬虫程序

已有 1865 次阅读 2016-3-1 00:43 |系统分类:科研笔记

#!/usr/bin/python

# coding:utf8

import re

import urllib

import urllib2

def getHtml(url):

   html1= urllib.urlopen(url.decode('utf-8'))

   outhtml = html1.read()

   return outhtml

   

def getImgList(html):

   

   pattern = 'http://[^s,"]*.jpg'

   

   imglist = re.findall(pattern, html)

   #print imglist

   return imglist

   

def download(imglist,page):

 x=0

 for i in imglist:

   #print i

   urllib.urlretrieve(i,'%s.jpg' % x)

   x+=1

   

def downloadNum(pagenum):

 page = 1

 pageNum = pagenum

 while(page <= pageNum):

   html = getHtml(url)

   imglist = getImgList(html)

   download(imglist,page)

   page= page + 1

   

url = u'http://www.sina.com.hk/'

if __name__=='__main__':

 downloadNum(10)




https://wap.sciencenet.cn/blog-2887147-959569.html

上一篇:python 字符串替换
收藏 IP: 159.226.110.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 16:21

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部