Python 爬蟲解析庫的使用

  • 2020 年 2 月 13 日
  • 筆記

解析庫的使用–Beautiful Soup:

  • BeautifulSoup是Python的一個HTML或XML解析庫,最主要的功能就是從網頁爬取我們需要的數據。
  • BeautifulSoup將html解析為對象進行處理,全部頁面轉變為字典或者數組,相對於正則表達式的方式,可以大大簡化處理過程。
  • Beautiful Soup3 目前已經停止開發,我們推薦在現在的項目中使用Beautiful Soup4,

1. BeautifulSoup 安裝與使用:

  • Beautiful Soup是一個依賴於lxml的解析庫,所以在安裝之前要先確保lxml庫已安裝:pip install lxml
  • 安裝 BeautifulSoup 解析器:
pip install beautifulsoup4  
  • 官方文檔:https://www.crummy.com/software/BeautifulSoup/bs4/doc/
  • 中文文檔:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
  • PyPI: https://pypi.python.org/pypi/beautifulsoup4
  • 主要的解析器,以及它們的優缺點:

解析器

使用方法

優勢

劣勢

Python標準庫

BeautifulSoup(markup, "html.parser")

Python的內置標準庫,執行速度適中,文檔容錯能力強

Python 2.7.3 or 3.2.2前的版本中文檔容錯能力差

lxml HTML 解析器

BeautifulSoup(markup, "lxml")

速度快 文檔容錯能力強

需要安裝C語言庫

lxml XML 解析器

BeautifulSoup(markup, ["lxml-xml"])BeautifulSoup(markup, "xml")

速度快 唯一支援XML的解析器

需要安裝C語言庫

html5lib

BeautifulSoup(markup, "html5lib")

最好的容錯性,以瀏覽器的方式解析文檔,生成HTML5格式的文檔

速度慢、不依賴外部擴展

  • lxml解析器有解析html和xml的功能,而且速度快,容錯能力強,故推薦使用。
  • 快速使用案例:
# 導入模組  from bs4 import BeautifulSoup    # 讀取html文件資訊(在真實程式碼中是爬取的網頁資訊)  f = open("./my.html",'r',encoding="utf-8")  content = f.read()  f.close()    # 創建解析器  soup = BeautifulSoup(content,"lxml")    # 輸出網頁內容:註:此內容已被縮進格式化(自動更正格式),其實這個是在上一步實例化時就已完成  print(soup.prettify())    #輸出網頁中title標籤中的內容  print(soup.title.string)  

2. 節點選擇器:

  • 直接調用節點的名稱就可以選擇節點元素,再調用string屬性就可以得到節點內的文本了,這種方式速度非常快。
  • ① 選擇元素:
...  print(soup.title) #<title>我的網頁</title>  print(type(soup.title)) #<class 'bs4.element.Tag'>  print(soup.head) #獲取整個head元素,及內部元素  print(soup.li) #獲取第一個li元素(後面其他li不會獲取)  # <li class="item-0"><a class="bb" href="http://www.baidu.com">百度</a></li>  
  • ② 提取資訊:
...  print(soup.a) #獲取第一個a元素標籤:<a class="bb" href="http://www.baidu.com">百度</a>  print(soup.a.name)    #獲取標籤名:a  print(soup.a.attrs)    #獲取所有屬性:{'class': ['bb'], 'href': 'http://www.baidu.com'}  print(soup.a.attrs['href']) #獲取其中一個屬性:http://www.baidu.com  print(soup.a.string) # 獲取元素標籤中間的文本內容:百度  
  • ③ 嵌套選擇:
print(soup.li.a) #獲取網頁中第一個li中的第一個a元素節點  #輸出 <a class="bb" href="http://www.baidu.com">百度</a>    print(type(soup.body.h3))  ##獲取body中的第一個h3元素的類型:<class 'bs4.element.Tag'>  print(soup.body.h3.string)  #獲取body中的第一個h3中的文本內容:我的常用鏈接  
  • ④ 關聯選擇:
  • 我們在做選擇的時候,難免有時候不能夠一步就選到想要的節點元素。
  • 需要先選中某一個節點元素,然後再基於這些繼續向下選擇(子,父,兄弟)。
#....    # 子或子孫節點  # 以下獲取的節點列表都可以使用for...in遍歷  print(soup.ul.contents) #獲取ul下面的所有直接子節點,返回列表  print(soup.ul.children) #獲取ul下面的所有直接子節點,返回一個:<list_iterator object at 0x110346a20>    print(soup.ul.descendants) # 獲取ul下的所有子孫節點。  for v in soup.ul.descendants:      print("a:",v)    # 父祖節點  print(soup.a.parent.name) #通過parent屬性獲取a的父節點 li  # print(list(soup.a.parents)) # 獲取所有祖先節點    #兄弟節點  print(soup.li.next_siblings)    #獲取指定li節點的所有後面的兄弟節點  print(soup.li.previous_siblings)#獲取指定li節點的所有前面的兄弟節點  #for v in soup.li.next_siblings:  #    print(v)    # 獲取資訊    print(soup.a.string) #獲取a節點中的文本  print(soup.a.attrs['href']) # 或a節點的href屬性值  

3. 方法選擇器:

  • ① find_all() — 傳入屬性或文本,返回所有符合條件的元素 格式:find_all(name,attrs,recursive,text, **kwargs )
# 導入模組  from bs4 import BeautifulSoup  import re  # 讀取html文件資訊(在真實程式碼中是爬取的網頁資訊)  f = open("./my.html",'r')  content = f.read()  f.close()    # 創建解析器  soup = BeautifulSoup(content,"lxml")    # 通過name指定li值,獲取所有li元素節點,返回列表  lilist = soup.find_all(name="li")  # 通過attrs指定屬性來獲取所有元素節點  lilist = soup.find_all(attrs={"class":"aa"})  lilist = soup.find_all(class_="aa") #同上(class屬性中包含就可以了)  lilist = soup.find_all(class_="shop") #class屬性值中包含shop的所有節點  lilist = soup.find_all(id="hid") #<h3 id="hid">我的常用鏈接</h3>  # 通過文本內容獲取  lilist = soup.find_all(text='百度') # 百度  lilist = soup.find_all(text=re.compile('張')) # 張翠山 張無忌  for i in lilist:      print(i)  
  • ② find() — 傳入屬性或文本,返回所有符合條件的第一個元素
  # 獲取一個li元素節點  lilist = soup.find(name="li")  # 通過attrs指定屬性來獲取一個元素節點  lilist = soup.find(attrs={"class":"aa"})  

4. CSS選擇器:

# 導入模組  from bs4 import BeautifulSoup  import re  # 讀取html文件資訊(在真實程式碼中是爬取的網頁資訊)  f = open("./my.html",'r')  content = f.read()  f.close()    # 創建解析器  soup = BeautifulSoup(content,"lxml")      print(soup.select("ul li a")) #獲取ul裡面li下面的a元素節點    print(soup.select("#hid")) #獲取id屬性值為hid的元素節點    print(soup.select("li.shop a")) #獲取class屬性為shop的li元素裡面所有的a元素節點    # 套用選擇解析器  blist = soup.select("ul li")  for li in blist:      a = li.select("a")[0] #獲取每個li裡面的a元素節點      print(a)      print(a['href']) #獲取屬性href的值      # print(a.attrs['href']) #等價 同上 獲取屬性值      print(a.get_text()) #等價 print(a.string) 獲取元素節點的文本內容