Python筆記-使用 JupiterNotebook 寫一個爬蟲實例
- 2019 年 12 月 4 日
- 筆記
使用
Docker
搭建好Python
和JupiterNotebook
的環境後,一直沒有試過具體的開發和項目,正好最近遇到了百度搜索引擎不能收錄部署在Github page
上的Hexo
部落格的問題,百度提供了手動提交鏈接的服務,正好寫一個簡單的爬蟲,來爬取archives
頁面的內容,順帶對JupiterNotebook
的開發方式做一個歸納。
JupiterNotebook
將 JupiterNotebook
使用 Docker
部署在伺服器後,即能實現隨時隨地的 Python
開發,新建項目,使用 Terminal
進行操作,甚至都不需要 putty
和 SSH
來鏈接到伺服器。
JupiterNotebook
的功能非常簡單而強大,先從介面說起:

Files
提供了一個直觀的文件管理頁面 Running
則列出了正在運行的終端和筆記
點擊 New
可以新建 Python
的 Notebook
和 Terminal
以及文件和文件夾。
再看看 Notebook
:

JupiterNotebook
使用 Cell
來區分程式碼塊,每個程式碼塊可以換號和單獨執行。
Enter
回車鍵直接Cell
內換行Ctrl
+Enter
運行本Cell
程式碼並換號Shift
+Enter
新建Cell
每一個 Cell
可以更變為 Markdown
語法文本,也可以使用 Python
程式碼
Spider
簡單介紹了 JupiterNotebook
,然後就言歸正傳,來看看這個爬取部落格的 archives
頁面的內容的爬蟲。
一切照舊,先引入:
import os import requests from bs4 import BeautifulSoup
然後設置頭文件並獲取頁面內容:
headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"} target_Url = "https://ns96.com/archives/" ext_html = requests.get(target_Url,headers=headers)
使用 BeautifulSoup
整理並輸出:
soup = BeautifulSoup(ext_html.text,'lxml') urls = soup.select('a.archive-title') for link in urls: print("https://www.ns96.com"+link.get('href'))
最後,源文件地址如下:github