爬蟲-urllib模組的使用

urllib是Python中請求url連接的官方標準庫,在Python3中將Python2中的urllib和urllib2整合成了urllib。urllib中一共有四個模組,分別如下:

  • request:主要負責構造和發起網路請求,定義了適用於在各種複雜情況下打開 URL (主要為 HTTP) 的函數和類
  • error:處理異常
  • parse:解析各種數據格式
  • robotparser:解析robot.txt文件

一、request模組

1.urlopen()方法:

  • 在urlopen()方法中,直接寫入要訪問的url地址字元串,該方法就會主動的訪問目標網址,然後返回訪問結果,返回的訪問結果是一個http.client.HTTPResponse對象,該對象的常見方法有:
  1. read() :獲取訪問網頁獲取的數據,bytes類型
  2. info():返迴響應頭資訊
  3. getcode():返回Http狀態碼。
  4. geturl():返回請求的url
  • 發送簡單的GET請求

    from urllib.request import urlopen
    
    #向指定的url發送請求,並返回伺服器響應的類文件對象
    resp = urlopen('//www.baidu.com') 
    print(resp.read().decode())
  • 發送簡單的POST請求(data參數)

    from urllib.reuqest import urlopen
    from urllib.parse import urlencode
    
    #將字典類型的數據轉換成表單類型的數據格式,如"world=hello"
    data = urlencode({"word":"hello"}).encode()
    response = request.urlopen('//httpbin.org/post', data=data)
    
    print(response.read().decode())

    默認的訪問方式是GET,當在urlopen()方法中傳入data參數時,則會發起POST請求。注意:傳遞的data數據需要為bytes格式

2.Request

  • 如果需要執行更複雜的操作,比如增加HTTP報頭,必須創建一個 Request 實例來作為urlopen()的參數;而需要訪問的url地址則作為 Request 實例的參數。
  • 為了使爬蟲程式更像一個真實用戶,那我們第一步就是需要偽裝成一個被公認的瀏覽器,在發送請求的時候帶上User-Agent頭
    from urllib.request import Request,urlopen
    
    url = '//www.baidu.com/'
    ua_header = {"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
    #url連同headers一起構造request請求,這個請求附帶IE 9.0瀏覽器的User-Agent
    request = Request(url,headers=ua_header)
    #向伺服器發送請求
    resp = urlopen(request)
    print(resp.read().decode)

3.ProxyHandler處理器(代理IP)

  • 使用爬蟲來爬取數據的時候,如果過於頻繁的訪問,而且網站還設有限制的話,很有可能會禁封我們的ip地址,這個時候就需要設置代理,來隱藏我們的真實IP。
  • 代理IP的原理:以本機先訪問代理IP,再通過代理IP地址訪問伺服器,這樣伺服器接受到的訪問IP就是代理IP地址。
    from urllib.request import build_opener,urlopen(),install_opener,Request,ProxyHandler
    
    # 構建了兩個代理Handler,一個有代理IP,一個沒有代理IP
    httpproxy_handler = urllib2.ProxyHandler({'http': '218.18.232.26:80', 'https': '218.18.232.26:80'})
    nullproxy_handler = urllib2.ProxyHandler({})
    
    proxySwitch = True #定義一個代理開關
    
    # 通過build_opener()方法使用這些代理Handler對象,創建自定義opener對象
    # 根據代理開關是否打開,使用不同的代理模式
    if proxySwitch:  
        opener = build_opener(httpproxy_handler)
    else:
        opener = build_opener(nullproxy_handler)
    
    request = Request("//www.baidu.com/")
    
    # 1. 如果這麼寫,只有使用opener.open()方法發送請求才使用自定義的代理,而urlopen()則不使用自定義代理。
    resp = opener.open(request)
    
    # 2. 如果這麼寫,就是將opener應用到全局,之後所有的,不管是opener.open()還是urlopen() 發送請求,都將使用自定義代理。
    # install_opener(opener)
    # resp = urlopen(request)
    
    print (resp.read().decode())

    如果代理需要授權驗證,簡單的方式是只需要在ProxyHandler傳入的參數字典中,將值改為’用戶名:密碼@ip:埠號’這種形式,比如{“http”:”myname:[email protected]:80″},複雜一點的需要創建一個密碼管理對象,下面會有介紹。

4.HTTPPasswordMgrWithDefaultRealm()

  • 利用這個類創建一個密碼管理對象,用來保存 HTTP 請求相關的用戶名和密碼,主要應用兩個場景:
  1. 驗證代理授權的用戶名和密碼 (ProxyBasicAuthHandler())
  2. 驗證Web客戶端的的用戶名和密碼 (HTTPBasicAuthHandler())

5.ProxyBasicAuthHandler(代理授權驗證)

  • 在使用私密代理時,需要通過授權驗證身份
    from urllib.request import HTTPPasswordMgrWithDefaultRealm,ProxyBasicAuthHandler,build_opener,Request
    
    # 私密代理授權的賬戶
    user = "mr_mao_hacker"
    # 私密代理授權的密碼
    passwd = "sffqry9r"
    # 私密代理 IP
    proxyserver = "61.158.163.130:16816"
    
    # 1. 構建一個密碼管理對象,用來保存需要處理的用戶名和密碼
    passwdmgr = HTTPPasswordMgrWithDefaultRealm()
    
    # 2. 添加賬戶資訊,第一個參數realm是與遠程伺服器相關的域資訊,一般沒人管它都是寫None,後面三個參數分別是代理伺服器、用戶名、密碼
    passwdmgr.add_password(None, proxyserver, user, passwd)
    
    # 3. 構建一個代理基礎用戶名/密碼驗證的ProxyBasicAuthHandler處理器對象,參數是創建的密碼管理對象
    #   注意,這裡不再使用普通ProxyHandler類了
    proxyauth_handler = ProxyBasicAuthHandler(passwdmgr)
    
    # 4. 通過 build_opener()方法使用這些代理Handler對象,創建自定義opener對象,參數包括構建的 proxy_handler 和 proxyauth_handler
    opener = build_opener(proxyauth_handler)
    
    request = urllib2.Request("//www.baidu.com/")
    resp = opener.open(request)
    print (resp.read().decode())

    註:通常用戶名和密碼不直接寫在程式中,而是存放在環境變數,或者單獨寫入一個模組,然後從模組導入

6.HTTPBasicAuthHandler(WEB客戶端授權驗證)

  • 有些Web伺服器(包括HTTP/FTP等)訪問時,需要進行用戶身份驗證,爬蟲直接訪問會報HTTP 401 錯誤,表示訪問身份未經授權
  • 如果我們有客戶端的用戶名和密碼,只需要將上述代理授權驗證程式碼中的ProxyBasicAuthHandler改成HTTPBasicAuthHandler即可

7.Cookies

  • Cookies在爬蟲方面最典型的應用是判定註冊用戶是否已經登錄網站,用戶可能會得到提示,是否在下一次進入此網站時保留用戶資訊以便簡化登錄手續。
  • 由於urllib並沒有很好的處理cookie的對象,所以在這裡我們需要用到一個別的庫,即http庫,並使用裡面的cookiejar來進行cookie的管理,該模組主要的對象有主要的對象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar:
    • CookieJar:管理HTTP cookie值、存儲HTTP請求生成的cookie、向傳出的HTTP請求添加cookie的對象。整個cookie都存儲在記憶體中,對CookieJar實例進行垃圾回收後cookie也將丟失。

    • FileCookieJar (filename,delayload=None,policy=None):從CookieJar派生而來,用來創建FileCookieJar實例,檢索cookie資訊並將cookie存儲到文件中。filename是存儲cookie的文件名。delayload為True時支援延遲訪問訪問文件,即只有在需要時才讀取文件或在文件中存儲數據。

    • MozillaCookieJar (filename,delayload=None,policy=None):從FileCookieJar派生而來,創建與Mozilla瀏覽器 cookies.txt兼容的FileCookieJar實例。

    • LWPCookieJar (filename,delayload=None,policy=None):從FileCookieJar派生而來,創建與libwww-perl標準的 Set-Cookie3 文件格式兼容的FileCookieJar實例。

  • 大多數情況下,我們只需要用到CookieJar(),如果需要和本地文件進行交互,就要用MozillaCookieJar()和LWPCookieJar(),下面就介紹幾種案例:
  1. 獲取cookie,並保存到CookieJar()中

    from http.cookiejar import CookieJar
    from urllib.request import Request,build_opener,HTTPCookieProcessor
    
    # 構建一個CookieJar對象實例來保存cookie
    cookiejar = cookielib.CookieJar()
    
    # 使用HTTPCookieProcessor()來創建cookie處理器對象,參數為CookieJar()對象
    handler=HTTPCookieProcessor(cookiejar)
    
    opener = build_opener(handler)
    
    # 4. 以get方法訪問頁面,訪問之後會自動保存cookie到cookiejar中
    resp = opener.open("//www.baidu.com")
    
    ## 可以按標準格式將保存的Cookie列印出來
    cookieStr = ""
    for item in cookiejar:
        cookieStr = cookieStr + item.name + "=" + item.value + ";"
    
    ## 捨去最後一位的分號
    print cookieStr[:-1]
  2. 訪問網站獲得cookie,並將cookie保存在本地文件中

    from http.cookiejar import MozillaCookieJar
    from urllib.request import Request,build_opener,HTTPCookieProcessor
    
    # 保存cookie的本地磁碟文件名
    filename = 'cookie.txt'
    
    #聲明一個MozillaCookieJar(有save實現)對象實例來保存cookie,之後寫入文件
    cookiejar = MozillaCookieJar(filename)
    
    # 使用HTTPCookieProcessor()來創建cookie處理器對象,參數為CookieJar()對象
    handler = HTTPCookieProcessor(cookiejar)
    
    opener = build_opener(handler)
    response = opener.open("//www.baidu.com/")
    
    # 保存cookie到本地文件
    cookiejar.save()
  3. 從文件中獲取cookie

    from http.cookiejar import MozillaCookieJar
    from urllib.request import Request,build_opener,HTTPCookieProcessor
    
    #創建MozillaCookieJar(有load實現)實例對象
    cookiejar = MozillaCookieJar(filename)
    
    #從文件中讀取cookie內容到對象
    cookiejar.load('cookie.txt')
    
    # 使用HTTPCookieProcessor()來創建cookie處理器對象,參數為CookieJar()對象
    handler = HTTPCookieProcessor(cookiejar)
    
    opener = build_opener(handler)
    response = opener.open("//www.baidu.com/")

8.處理HTTPS請求SSL證書驗證

  • 最簡單的方法就是通過添加忽略ssl證書驗證關閉證書驗證,由於urllib並沒有很好的處理ssl的對象,所以在這裡我們需要用到一個別的庫,即ssl庫,如下:
    import ssl
    from urllib.request import urlopen,Request
    
    # 表示忽略未經核實的SSL證書認證
    context = ssl._create_unverified_context()
    
    url = "//www.12306.cn/mormhweb/"
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
    request = Request(url,headers=headers)
    
    # 在urlopen()方法里 指明添加 context 參數
    resp = urlopen(request, context=context)
    print(resp.read().decode())

     

二、error模組

  • 在urllib中主要設置了兩個異常,一個是URLError,一個是HTTPError,HTTPError是URLError的子類。

1.URLError

  • URLError產生的原因主要有:
  1. 沒有網路連接
  2. 伺服器連接失敗
  3. 找不到指定的伺服器
  • 下面訪問一個不存在的域名:
    from urllib.error import URLError
    from urllib.request import Request,urlopen
    
    request = Request('//www.fafafasfdaffaf.com/')
    try:
        resp = urlopen(request)
    except URLError as e:
        print(e)

2.HTTPError

  • HTTPError包含了三個屬性:
  1. code:請求的狀態碼
  2. reason:錯誤的原因
  3. headers:響應的報頭
    from urllib.error import HTTPError
    from urllib.request import Request,urlopen
    
    requset = Request('//www.baidu.com/lfafdaflafapae.html')
    
    try:
        resp = urlopen(requset)
    except HTTPError as e:
        print(e)
        print(e.code)
        print(e.reason)
        print(e.headers)

三、parse模組

data參數需要用urllib.parse模組對其進行數據格式處理。

  • urllib.parse.quote(url):(URL編碼處理)主要對URL中的非ASCII碼編碼處理
  • urllib.parse.unquote(url):(URL解碼處理)URL上的特殊字元還原
  • urllib.parse.urlencode(data):對請求數據data進行格式轉換

 

Tags: