Python 爬蟲解析庫的使用
- 2020 年 2 月 13 日
- 筆記

解析庫的使用–Beautiful Soup:
- BeautifulSoup是Python的一個HTML或XML解析庫,最主要的功能就是從網頁爬取我們需要的數據。
- BeautifulSoup將html解析為對象進行處理,全部頁面轉變為字典或者數組,相對於正則表達式的方式,可以大大簡化處理過程。
- Beautiful Soup3 目前已經停止開發,我們推薦在現在的項目中使用Beautiful Soup4,


1. BeautifulSoup 安裝與使用:
- Beautiful Soup是一個依賴於lxml的解析庫,所以在安裝之前要先確保lxml庫已安裝:
pip install lxml
- 安裝 BeautifulSoup 解析器:
pip install beautifulsoup4
- 官方文檔:https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- 中文文檔:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
- PyPI: https://pypi.python.org/pypi/beautifulsoup4
- 主要的解析器,以及它們的優缺點:
解析器 |
使用方法 |
優勢 |
劣勢 |
---|---|---|---|
Python標準庫 |
BeautifulSoup(markup, "html.parser") |
Python的內置標準庫,執行速度適中,文檔容錯能力強 |
Python 2.7.3 or 3.2.2前的版本中文檔容錯能力差 |
lxml HTML 解析器 |
BeautifulSoup(markup, "lxml") |
速度快 文檔容錯能力強 |
需要安裝C語言庫 |
lxml XML 解析器 |
BeautifulSoup(markup, ["lxml-xml"])BeautifulSoup(markup, "xml") |
速度快 唯一支援XML的解析器 |
需要安裝C語言庫 |
html5lib |
BeautifulSoup(markup, "html5lib") |
最好的容錯性,以瀏覽器的方式解析文檔,生成HTML5格式的文檔 |
速度慢、不依賴外部擴展 |
- lxml解析器有解析html和xml的功能,而且速度快,容錯能力強,故推薦使用。
- 快速使用案例:
# 導入模組 from bs4 import BeautifulSoup # 讀取html文件資訊(在真實程式碼中是爬取的網頁資訊) f = open("./my.html",'r',encoding="utf-8") content = f.read() f.close() # 創建解析器 soup = BeautifulSoup(content,"lxml") # 輸出網頁內容:註:此內容已被縮進格式化(自動更正格式),其實這個是在上一步實例化時就已完成 print(soup.prettify()) #輸出網頁中title標籤中的內容 print(soup.title.string)
2. 節點選擇器:
- 直接調用節點的名稱就可以選擇節點元素,再調用string屬性就可以得到節點內的文本了,這種方式速度非常快。
- ① 選擇元素:
... print(soup.title) #<title>我的網頁</title> print(type(soup.title)) #<class 'bs4.element.Tag'> print(soup.head) #獲取整個head元素,及內部元素 print(soup.li) #獲取第一個li元素(後面其他li不會獲取) # <li class="item-0"><a class="bb" href="http://www.baidu.com">百度</a></li>
- ② 提取資訊:
... print(soup.a) #獲取第一個a元素標籤:<a class="bb" href="http://www.baidu.com">百度</a> print(soup.a.name) #獲取標籤名:a print(soup.a.attrs) #獲取所有屬性:{'class': ['bb'], 'href': 'http://www.baidu.com'} print(soup.a.attrs['href']) #獲取其中一個屬性:http://www.baidu.com print(soup.a.string) # 獲取元素標籤中間的文本內容:百度
- ③ 嵌套選擇:
print(soup.li.a) #獲取網頁中第一個li中的第一個a元素節點 #輸出 <a class="bb" href="http://www.baidu.com">百度</a> print(type(soup.body.h3)) ##獲取body中的第一個h3元素的類型:<class 'bs4.element.Tag'> print(soup.body.h3.string) #獲取body中的第一個h3中的文本內容:我的常用鏈接
- ④ 關聯選擇:
- 我們在做選擇的時候,難免有時候不能夠一步就選到想要的節點元素。
- 需要先選中某一個節點元素,然後再基於這些繼續向下選擇(子,父,兄弟)。
#.... # 子或子孫節點 # 以下獲取的節點列表都可以使用for...in遍歷 print(soup.ul.contents) #獲取ul下面的所有直接子節點,返回列表 print(soup.ul.children) #獲取ul下面的所有直接子節點,返回一個:<list_iterator object at 0x110346a20> print(soup.ul.descendants) # 獲取ul下的所有子孫節點。 for v in soup.ul.descendants: print("a:",v) # 父祖節點 print(soup.a.parent.name) #通過parent屬性獲取a的父節點 li # print(list(soup.a.parents)) # 獲取所有祖先節點 #兄弟節點 print(soup.li.next_siblings) #獲取指定li節點的所有後面的兄弟節點 print(soup.li.previous_siblings)#獲取指定li節點的所有前面的兄弟節點 #for v in soup.li.next_siblings: # print(v) # 獲取資訊 print(soup.a.string) #獲取a節點中的文本 print(soup.a.attrs['href']) # 或a節點的href屬性值
3. 方法選擇器:
- ① find_all() — 傳入屬性或文本,返回所有符合條件的元素 格式:
find_all(name,attrs,recursive,text, **kwargs )
# 導入模組 from bs4 import BeautifulSoup import re # 讀取html文件資訊(在真實程式碼中是爬取的網頁資訊) f = open("./my.html",'r') content = f.read() f.close() # 創建解析器 soup = BeautifulSoup(content,"lxml") # 通過name指定li值,獲取所有li元素節點,返回列表 lilist = soup.find_all(name="li") # 通過attrs指定屬性來獲取所有元素節點 lilist = soup.find_all(attrs={"class":"aa"}) lilist = soup.find_all(class_="aa") #同上(class屬性中包含就可以了) lilist = soup.find_all(class_="shop") #class屬性值中包含shop的所有節點 lilist = soup.find_all(id="hid") #<h3 id="hid">我的常用鏈接</h3> # 通過文本內容獲取 lilist = soup.find_all(text='百度') # 百度 lilist = soup.find_all(text=re.compile('張')) # 張翠山 張無忌 for i in lilist: print(i)
- ② find() — 傳入屬性或文本,返回所有符合條件的第一個元素
# 獲取一個li元素節點 lilist = soup.find(name="li") # 通過attrs指定屬性來獲取一個元素節點 lilist = soup.find(attrs={"class":"aa"})
4. CSS選擇器:
# 導入模組 from bs4 import BeautifulSoup import re # 讀取html文件資訊(在真實程式碼中是爬取的網頁資訊) f = open("./my.html",'r') content = f.read() f.close() # 創建解析器 soup = BeautifulSoup(content,"lxml") print(soup.select("ul li a")) #獲取ul裡面li下面的a元素節點 print(soup.select("#hid")) #獲取id屬性值為hid的元素節點 print(soup.select("li.shop a")) #獲取class屬性為shop的li元素裡面所有的a元素節點 # 套用選擇解析器 blist = soup.select("ul li") for li in blist: a = li.select("a")[0] #獲取每個li裡面的a元素節點 print(a) print(a['href']) #獲取屬性href的值 # print(a.attrs['href']) #等價 同上 獲取屬性值 print(a.get_text()) #等價 print(a.string) 獲取元素節點的文本內容

