python系列之爬蟲簡介
- 2019 年 10 月 8 日
- 筆記

爬蟲全過程
什麼是爬蟲?
網路爬蟲(又被稱為網頁蜘蛛,網路機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網資訊的程式或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。
爬蟲怎麼爬?
簡單來說就是程式去獲取web頁面上自己想要的數據,全自動的去獲取網頁上我們所需要的資訊。
爬蟲能爬什麼?
運用爬蟲你可以爬小說,你可以爬圖片,你也可以爬影片等等
你給你的程式一個url,然後它會給你返回網頁上的內容給你,然後幫你把你想要的內容挑選出來,保存起來。
簡單來說就是這樣。
import urllib.request #引入urllib庫 response=urllib.request.urlopen("https://www.baidu.com")
#發出請求並且接收返迴文本對象
html = response.read()
#調用read()進行讀取
print(html) #列印
這是一個簡單的爬蟲例子,獲取百度的頁面的html程式碼,並列印出來