python系列之爬蟲簡介

爬蟲全過程

什麼是爬蟲？

網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網資訊的程式或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。

爬蟲怎麼爬？

簡單來說就是程式去獲取web頁面上自己想要的數據，全自動的去獲取網頁上我們所需要的資訊。

爬蟲能爬什麼？

運用爬蟲你可以爬小說，你可以爬圖片，你也可以爬影片等等

你給你的程式一個url，然後它會給你返回網頁上的內容給你，然後幫你把你想要的內容挑選出來，保存起來。

簡單來說就是這樣。

import urllib.request #引入urllib庫 response=urllib.request.urlopen("https://www.baidu.com")

#發出請求並且接收返迴文本對象

html = response.read()

#調用read()進行讀取

print(html) #列印

這是一個簡單的爬蟲例子，獲取百度的頁面的html程式碼，並列印出來