python实现简单爬虫–爬图片

首先有两个功能需求:

第一:获取到要爬的页面html内容;

第二:使用正则表达式进行匹配并进行保存到本地。

#!/usr/bin/env python  #encoding:utf-8  import urllib  import re  def getHtml(url):      '''获取到url的html内容'''      page = urllib.urlopen(url)      html = page.read()      return html  html1 = getHtml('http://p_w_picpath.baidu.com/search/index?tn=baidup_w_picpath&ct=201326592&lm=-1&cl=2&ie=gbk&word=%C3%C0%C5%AE&ala=1&fr=ala&alatpl=cover&pos=0')  # print html1  # print re.findall(r'"objURL":"(.+?.jpg)"',html1)  def downloadImg(html1):      '''下载页面里的jpg图片'''      reg = r'"objURL":"(.+?.jpg)"'      #预编译正则表达式提高运行速度      imgreg = re.compile(reg)      urllist = re.findall(imgreg,html1)      num = 0      #for循环遍历下载每个图片      for i in urllist:          urllib.urlretrieve(i,'%s.jpg' % num)          num+=1  downloadImg(html1)