python系列之爬蟲簡介

  • 2019 年 10 月 8 日
  • 筆記

爬蟲全過程

什麼是爬蟲?

網路爬蟲(又被稱為網頁蜘蛛,網路機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網資訊的程式或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。

爬蟲怎麼爬?

簡單來說就是程式去獲取web頁面上自己想要的數據,全自動的去獲取網頁上我們所需要的資訊。

爬蟲能爬什麼?

運用爬蟲你可以爬小說,你可以爬圖片,你也可以爬影片等等

你給你的程式一個url,然後它會給你返回網頁上的內容給你,然後幫你把你想要的內容挑選出來,保存起來。

簡單來說就是這樣。

import urllib.request #引入urllib庫 response=urllib.request.urlopen("https://www.baidu.com")  

#發出請求並且接收返迴文本對象

html = response.read()

#調用read()進行讀取

print(html)  #列印

這是一個簡單的爬蟲例子,獲取百度的頁面的html程式碼,並列印出來