Python爬蟲系列（一）入門教學

2020 年 2 月 25 日
筆記

大家好，我是新來的小編小周。今天給大家帶來的是python爬蟲入門，文章以簡為要，引導初學者快速上手爬蟲。話不多說，我們開始今天的內容。

在初步學習爬蟲之前，我們先用一個例子來看看爬蟲是什麼。

A同學想要了解python是一種怎樣的語言，於是打開了某度搜索引擎，卻發現佔據屏幕的是各類python學習課程的廣告，而真正介紹python的內容卻被放在了後面。

事實上，在大多數時候，我們用瀏覽器獲得的信息是十分繁冗的，因此篩選提取網頁中對我們有用的數據就顯得十分必要了。

我們的爬蟲程序要做的便是：

模擬瀏覽器發送請求–>獲取網頁代碼–>篩選提取數據–>存放數據。

~前期準備~

爬蟲程序中需要用到一些第三方庫，我們這裡使用的是requests庫和BeautifulSoup4庫。話不多說，讓我們先來做好這些準備。（筆者使用的是IDLE3.8版本編輯器，及win系統）

requests 2.22.0下載地址：

https://pypi.org/project/requests/#files

BeautifulSoup4 4.8.2下載地址：

https://pypi.org/project/beautifulsoup4/#files

python3.0以上版本一般自帶pip（可提供對第三方庫的下載安裝等），故第三方庫下載後可直接進行安裝。

1. 打開cmd

2. 若python安裝在啟動盤（一般是C盤）直接鍵入「pip install requests」命令即可。

3. 若python不在啟動盤則鍵入「d:」然後「cd python.exe所在目錄」，直接鍵入」python -m pip install requests」命令即可。

（BeautifulSoup4庫安裝步驟相同）

~發送請求~

模擬瀏覽器發送請求時，我們可以使用requests庫幫助我們。下面給出requests庫的7個主要方法：

requests.request()	構造一個請求，支撐以下各方法的基礎方法
requests.get()	獲取HTML網頁的主要方法，對應HTTP的GET
requests.head()	獲取HTML網頁頭信息的方法，對應HTTP的HEAD
requests.post()	向HTML網頁提交POST請求方法，對應HTTP的POST
requests.put()	向HTML網頁提交PUT請求的方法，對應HTTP的RUT
requests.patch()	向HTML網頁提交局部修改請求，對應於HTTP的PATCH
requests.delete()	向HTML頁面提交刪除請求,對應HTTP的DELETE

發送請求後，服務器會接受請求，並返回一個response。

response作為一個對象，具有如下常用屬性：

r.status_code	HTTP請求的返回狀態，200表示連接成功，404表示失敗
r.text	HTTP響應內容（字符串形式）
r.content	HTTP響應內容（二進制形式）

接下來，我們以訪問百度主頁的代碼為例來看看吧！

import requests  url="http://www.baidu.com/"  res=requests.get(url)  print(res.status_code)  200

其中，我們介紹一下requests.get()函數的帶參數形式。params是字典或位元組序列，可以添加到url中；headers是HTTP的定製頭等等。我們以headers為例，headers是HTTP的定製頭，一些服務器在處理requests請求時會識別請求頭，並攔截python爬蟲。

import requests  url="http://www.zhihu.com/"  res=requests.get(url)  print(res.status_code)  400  print(res.request.headers)  {'User-Agent': 'python-requests/2.22.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

可以看到我們通過python訪問知乎首頁被攔截了，查看請求頭時發現User-agent是python—-requests/2.22.0。下面我們嘗試修改請求頭偽裝成瀏覽器：

import requests  pre={'User-agent':'Mozilla/5.0'}  res=requests.get("https://www.zhihu.com/billboard",headers=pre)  print(res.status_code)  200

可見，修改請求頭後訪問成功。

利用requests的get方法和response的content屬性（圖片以二進制形式保存），我們可以下載網絡上的一些圖片，下面以獲取新浪新聞的一張圖片為例：

import requestsurl="http://www.sinaimg.cn/dy/slidenews/5_img/2015_48/30939_1300019_688168.jpg"path="D://pics//"+"maomi.jpg"try:        res=requests.get(url)        with open(path,'wb') as pic:                pic.write(res.content)                pic.close()                print("文件保存成功")except:        print("爬取失敗")文件保存成功

~解析內容~

Beautiful Soup庫是解析、遍歷、維護文檔樹的功能庫。

簡單地說，BeautifulSoup能夠幫助用戶將response中的html內容解析，得到一個BeautifulSoup的對象，並且能夠以標準的縮進格式輸出。我們以知乎熱榜網頁為例（注意B和S要大寫哦）：

import requests  from bs4 import BeautifulSoup  pre={'User-agent':'Mozilla/5.0'}  res=requests.get("https://www.zhihu.com/billboard",headers=pre)  rep=res.text  soup=BeautifulSoup(rep,"html.parser")  print(soup)

運行代碼後可以看見，已經產生標準縮進格式輸出。（截取部分如下圖）

這裡，我們來認識一下BeautifulSoup類的部分元素：

Tag	標籤,最基本的信息組織單元，分別用<>和</>標明開頭和結尾
Name	標籤的名字，<p>…</p>的名字是』p』,格式: <tag>. name
Attributes	標籤的屬性，字典形式組織,格式: <tag>. attrs
NavigableString	標籤內非屬性字符串，<>…</>中字符串,格式: <tag>.string

在代碼運行返回的html內容中，可以看見a標籤里包含了<div><span>等子孫標籤，其中包含了我們需要的熱榜話題，利用這段代碼我們可以獲取熱榜第一的信息進而獲取榜單全部話題。

import requests  from bs4 import BeautifulSoup  pre={'User-agent':'Mozilla/5.0'}  try:      res=requests.get("https://www.zhihu.com/billboard",headers=pre)      res.raise_for_status      rep=res.text  except:      print("連接失敗")  try:      soup=BeautifulSoup(rep,"html.parser")      con=soup.find_all('div',class_="HotList-itemTitle")      for i in range(len(con)):          print(con[i].text)  except:      print("獲取失敗")

我們觀察到所有熱榜話題所在標籤name都是div，屬性中都包含class="HotList- itemTitle"。我們使用bs4的find_all函數，返回一個包含許多元素的列表，然後利用text屬性提取有用的字符逐個輸出。

今天的爬蟲入門我們就先講到這裡哦，小周下期繼續給大家帶來爬蟲分享哦！

最後，祝大家新年快樂，身體健康。

Python爬蟲系列（一）入門教學

VirMach 便宜 VPS

QNews

Python爬蟲系列（一）入門教學

分享此文：

Related Posts

表分區中的分區交換

一款讓「微軟爸爸殺不死」的數據庫軟件——生於1992的Access

分享 | C#編寫的電影售票系統（附源碼+數據庫）

乾貨|蟻群算法求解帶時間窗的車輛路徑規劃問題詳解（附Java代碼）

VirMach 便宜 VPS

QNews

熱門搜尋