零基礎爬取堆糖網圖片(二)—多線程版

2020 年 4 月 20 日
筆記
Python爬蟲案例

零基礎爬取堆糖網圖片(二)—多線程版

全文介紹：

接着上篇文章，我們已經實現圖片的下載，但是我們發現整個爬取過程中，因為使用了for循環嵌套，導致每次遍歷，都會打開文件在關閉，打開文件在關閉（套娃）。所以需要注意for循環的使用，其次下載圖片是整個程序中最耗時的，如果需要提升爬取速度，那麼我們可以從這個方向入手，實現多線程爬取

涉及內容：

爬蟲基本流程
requests庫基本使用
urllib.parse模塊
threading模塊

圖例說明：

請求與響應

sequenceDiagram
瀏覽器->>服務器: 請求
服務器–>>瀏覽器: 響應

爬蟲基本流程

graph TD
A[目標網站] –>|分析網站| B(url)
B –> C[模擬瀏覽器請求資源]
C –>D[解析網頁]
D–>E[保存數據]

正文：

1.導入

import urllib.parse
import threading
import requests

2.發送請求，獲取響應

def get_page(url):
    page = requests.get(url)
    page = page.content
    # 將 bytes 轉化為 字符串
    page = page.decode('utf-8')

    return page

3.關鍵字以及翻頁

def pages_from_duitang(label):
    url = '//www.duitang.com/napi/blog/list/by_search/?kw={}&start={}'
    pages = []
    # 將中文轉化成url編碼
    label = urllib.parse.quote(label)
    # 0-3600 步長100
    for index in range(0, 3600, 100):
        # 將這兩個變量替換佔位符{}
        u = url.format(label, index)
        print(u)
        page = get_page(u)
        pages.append(page)
    return pages

4.獲取一個頁面上的所有圖片子鏈接

def findall_pages(page, startpart, endpart):
    all_string = []
    end = 0
    # -1代表找不到 意思就是匹配到就執行循環
    while page.find(startpart, end) != -1:
        # 匹配第一個字符，從下標0開始匹配到的位置下標，並將字符長短傳給start變量
        start = page.find(startpart, end) + len(startpart)
        # 將從第一個需要匹配的字符串後面的字符開始，匹配第二個需要匹配的字符出現的位置，並將這個下標值賦給end變量
        end = page.find(endpart, start)
        # 切片 取兩個所要匹配字符 之間的部分也就是圖片url
        string = page[start:end]
        # 存入列表
        all_string.append(string)
    return all_string

5.爬取全部頁面

def pic_url_from_pages(pages):
    pic_url = []
    for page in pages:
        url = findall_pages(page, 'path":"', '"')
        pic_url.extend(url)     # 合併列表
    return pic_url

6.下載圖片

def pic_download(url, n):
    r = requests.get(url)
    path = r"C:\Users\Mark\Desktop\新建文件夾 (2)\%s.jpg" %n
    with open(path, 'wb')as d:
        d.write(r.content)

7.調用函數

之前的函數就像是一個一個的零件，現在我們要拼裝這些零件，這個車才開的起來！😏

def main(label):
    pages = pages_from_duitang(label)
    pic_url = pic_url_from_pages(pages)
    n = 0
    for url in pic_url:
        n += 1
        print('正在下載第 {} 張圖片'.format(n))
        pic_download(url,n)
        
main('校花')

已完成

[x] 函數封裝
[ ] 多線程

8.多線程的實現

栗子來了

排隊上廁所：商城經常會有人排隊上廁所，而一個廁所(進程)是可以有多個坑位(線程)，每當有位置空着時就會有下一個人進來，進來後為了讓別人知道這個位置有人了(避免爭奪)，避免尷尬，需要上鎖，完事兒，出來時解鎖就行，然後再有一個人進來……

首先設置信號量

thread_lock = threading.BoundedSemaphore(value=5)   # value 可以改，但不可過大

然後就是主函數中對於下載圖片這個函數使用多線程

def main(label):
    pages = pages_from_duitang(label)
    pic_url = pic_url_from_pages(pages)
    n = 0
    for url in pic_url:
        n += 1
        print('正在下載第 {} 張圖片'.format(n))
        # 上鎖
        thread_lock.acquire()
        ## 下載 這個方法丟進線程池
        t = threading.Thread(target=pic_download, args=(url, n))
        t.start()
        pic_download(url,n)

        
main('英雄聯盟')

圖片下載完畢，需要解鎖

thread_lock.release()

效果：

注意身體，就不放過多的正能量圖片了

Tags: Python爬蟲案例

零基礎爬取堆糖網圖片(二)—多線程版

零基礎爬取堆糖網圖片(二)—多線程版

全文介紹：

涉及內容：

圖例說明：

正文：

1.導入

2.發送請求，獲取響應

3.關鍵字以及翻頁

4.獲取一個頁面上的所有圖片子鏈接

5.爬取全部頁面

6.下載圖片

7.調用函數

8.多線程的實現

效果：

VirMach 便宜 VPS

QNews

零基礎爬取堆糖網圖片(二)—多線程版

零基礎爬取堆糖網圖片(二)—多線程版

全文介紹：

涉及內容：

圖例說明：

正文：

1.導入

2.發送請求，獲取響應

3.關鍵字以及翻頁

4.獲取一個頁面上的所有圖片子鏈接

5.爬取全部頁面

6.下載圖片

7.調用函數

8.多線程的實現

效果：

分享此文：

Related Posts

如何購買創建騰訊雲 SQL Server 實例

Appscan工具之環境搭建

【高並發】高並發場景下如何優化加鎖方式？看完這篇我確實明白了！！

1、接口測試-前言

VirMach 便宜 VPS

QNews

熱門搜尋