Python爬蟲入門(二)之Requests庫

Python爬蟲入門(二)之Requests庫

我是照着小白教程做的,所以該篇是更小白教程hhhhhhhh

一、Requests庫的簡介

Requests 唯一的一個非轉基因的 Python HTTP 庫,人類可以安全享用。(摘自Requests庫官方文檔

二、Requests的功能特性

Requests 完全滿足今日 web 的需求。

  • Keep-Alive & 連接池
  • 國際化域名和 URL
  • 帶持久 Cookie 的會話
  • 瀏覽器式的 SSL 認證
  • 自動內容解碼
  • 基本/摘要式的身份認證
  • 優雅的 key/value Cookie
  • 自動解壓
  • Unicode 響應體
  • HTTP(S) 代理支持
  • 文件分塊上傳
  • 流下載
  • 連接超時
  • 分塊請求
  • 支持 .netrc

Requests 支持 Python 2.6—2.7以及3.3—3.7,而且能在 PyPy 下完美運行。

三、運行環境

  • Windows版本
    我的電腦用的是Win7系統,因為從上大學開始,很多軟件裝上使用不了,比如VC++6.0等等,當時是說Win10還有很多軟件不兼容(PS:16年的Win10還不大成熟…),後來就一直用的Win7,當然前不久微軟也發官方通告了,Win7被淘汰了,不過沒關係,Win7和Win10在大多數情況下,是類似的,這個爬蟲系列我就以Win7為例。
  • Python版本
    看了很多教程,我下了anaconda,它是一個開源的Python發行版本,其包含了conda、Python等180多個科學包及其依賴項(PS:應該蠻好用,要不然也不會那麼多人用它hhh)。這次我下的是3.8版本的,傳送門Anaconda官網
  • 集成開發環境(IDE)
    我用的是PyCharm,這個比較經典還好用,是由JetBrains打造的一款Python IDE,傳送門JetBrains官網

四、軟件安裝

  • 安裝PythonPython官網操作
    進入Anaconda官網點擊下載安裝包
    開始安裝
    開始安裝界面
    注意1
    自定義安裝目錄,它彈了個警告,就是因為我存放的文件夾名是program Files,中間有空格,建議大家取名用連字符命名,要不然以後裝Conda packages會出問題
    安裝完成
    安裝完成
  • 安裝IDE
    JetBrains官網操作
    進入JetBrains官網點擊下載安裝包
    開始安裝
    開始安裝界面
    預設
  1. 第一個複選框是讓你選擇64位系統,你可以根據計算機系統確定是否勾選
  2. 第二個複選框是將打開的文件夾做為項目添加進去
  3. 第三個複選框是關聯py類型的文件,默認此類型文件用PyCharm打開
  4. 第四個複選框是將啟動器dir添加到路徑里

五、安裝Request庫

開始目錄
點擊開始菜單,找到Anaconda的安裝目錄,以管理員身份運行Anaconda Prompt

// 鍵入命令
conda install requests

鍵入命令
鍵入上面的命令,開始安裝Request庫
安裝完畢
安裝完畢,傳送門Requests庫官方文檔,其中有很多本文沒提到的庫操作方法。
在安裝此庫,我遇到了一些問題,就是我看的教程里,博主是直接用的cmd,我也用管理員身份運行,我懷疑是因為安裝目錄和操作目錄不是一個,所以鍵入命令,不能識別我的字。使用了Anaconda來安裝該庫,可能對於我來說簡單一丟丟hhhhhhh

六、初試PyCharm

打開PyCharm
打開PyCharm,新建項目,建議放在自己命名測試的文件夾里
新建文件
在文件夾里新建Python文件
輸入下方代碼導入Request庫

import requests #導入Request庫

繼續輸入獲取我們想要的網頁

r = requests.get('//unsplash.com') #像目標url地址發送get請求,返回一個response對象
print(r.text) #r.text是http response的網頁HTML

導入requests庫
點擊運行該代碼
runit
頁面下方得到運行結果
結果1
以上用了get請求,我們可以繼續輸入下方代碼查看類型
向網站發送了一個get請求,然後網站會返回一個response,r 就是response

print(type(r))

輸入2
可以看到輸出結果如下
結果2
建議大家多看看Requests庫官方文檔

沒有別的指南了,你現在要靠自己了

祝你好運