Python的urllib库

  • 2019 年 10 月 7 日
  • 筆記

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/weixin_36670529/article/details/101290763

urllib是python自带的请求库,各种功能相比较之下也是比较完备的,urllib库包含了一下四个模块:

urllib.request 请求模块

urllib.error 异常处理模块

urllib.parse url解析模块

urllib.robotparse robots.txt解析模块

下面是一些urllib库的使用方法。

使用urllib.request

import urllib.request    response = urllib.request.urlopen('http://www.bnaidu.com')  print(response.read().decode('utf-8')) 

使用read()方法打印网页的HTML,read出来的是字节流,需要decode一下

import urllib.request    response = urllib.request.urlopen('http://www.baidu.com')  print(response.status) #打印状态码信息  其方法和response.getcode() 一样  都是打印当前response的状态码  print(response.getheaders()) #打印出响应的头部信息,内容有服务器类型,时间、文本内容、连接状态等等  print(response.getheader('Server'))  #这种拿到响应头的方式需要加上参数,指定你想要获取的头部中那一条数据  print(response.geturl())  #获取响应的url  print(response.read())#使用read()方法得到响应体内容,这时是一个字节流bytes,看到明文还需要decode为charset格式

为一个请求添加请求头,伪装为浏览器

1.在请求时就加上请求头参数

import urllib.request  import urllib.parse    url = 'http://httpbin.org/post'  header = {}  header['User-Agent'] = 'Mozilla/5.0 '                             '(Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 '                             '(KHTML, like Gecko) Version/5.1 Safari/534.50'    req = urllib.request.Request(url=url, headers=header)  res = urllib.request.urlopen(req)

Request是一个请求类,在构造时将headers以参数形式加入到请求中

2.使用动态追加headers的方法

若要使用动态追加的方法,必须实例化Request这个类

import urllib.request  import urllib.parse    url = 'http://httpbin.org/post'    req = urllib.request.Request(url=url)  req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0')  res = urllib.request.urlopen(req)

使用代理:

ProxyHandler是urllib.request下的一个类,借助这个类可以构造代理请求

参数为一个dict形式的,key对应着类型,IP,端口

import urllib.request    proxy_handler = urllib.request.ProxyHandler({      'http':'112.35.29.53:8088',      'https':'165.227.169.12:80'  })  opener = urllib.request.build_opener(proxy_handler)  response = opener.open('http://www.baidu.com')  print(response.read())

urllib.parse的用法

import urllib.request  import urllib.parse    url = 'http://httpbin.org/post'  header = {}  header['User-Agent'] = 'Mozilla/5.0 '                             '(Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 '                             '(KHTML, like Gecko) Version/5.1 Safari/534.50'    data = {}  data['name'] = 'us'  data = urllib.parse.urlencode(data).encode('utf-8')  req = urllib.request.Request(url=url, data=data, headers=header, method='POST')  response = urllib.request.urlopen(req)  print(response.read().decode('utf-8'))  print(type(data))