Python 爬虫解析库的使用

2020 年 2 月 13 日
筆記

解析库的使用–Beautiful Soup:

BeautifulSoup是Python的一个HTML或XML解析库，最主要的功能就是从网页爬取我们需要的数据。
BeautifulSoup将html解析为对象进行处理，全部页面转变为字典或者数组，相对于正则表达式的方式，可以大大简化处理过程。
Beautiful Soup3 目前已经停止开发,我们推荐在现在的项目中使用Beautiful Soup4,

1. BeautifulSoup 安装与使用：

Beautiful Soup是一个依赖于lxml的解析库，所以在安装之前要先确保lxml库已安装：pip install lxml
安装 BeautifulSoup 解析器：

pip install beautifulsoup4

官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/
中文文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
PyPI: https://pypi.python.org/pypi/beautifulsoup4
主要的解析器,以及它们的优缺点:

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, "html.parser")	Python的内置标准库，执行速度适中，文档容错能力强	Python 2.7.3 or 3.2.2前的版本中文档容错能力差
lxml HTML 解析器	BeautifulSoup(markup, "lxml")	速度快文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, ["lxml-xml"])BeautifulSoup(markup, "xml")	速度快唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, "html5lib")	最好的容错性，以浏览器的方式解析文档，生成HTML5格式的文档	速度慢、不依赖外部扩展

lxml解析器有解析html和xml的功能，而且速度快，容错能力强，故推荐使用。
快速使用案例：

# 导入模块  from bs4 import BeautifulSoup    # 读取html文件信息（在真实代码中是爬取的网页信息）  f = open("./my.html",'r',encoding="utf-8")  content = f.read()  f.close()    # 创建解析器  soup = BeautifulSoup(content,"lxml")    # 输出网页内容：注：此内容已被缩进格式化（自动更正格式），其实这个是在上一步实例化时就已完成  print(soup.prettify())    #输出网页中title标签中的内容  print(soup.title.string)

2. 节点选择器：

直接调用节点的名称就可以选择节点元素，再调用string属性就可以得到节点内的文本了，这种方式速度非常快。
① 选择元素：

...  print(soup.title) #<title>我的网页</title>  print(type(soup.title)) #<class 'bs4.element.Tag'>  print(soup.head) #获取整个head元素，及内部元素  print(soup.li) #获取第一个li元素（后面其他li不会获取）  # <li class="item-0"><a class="bb" href="http://www.baidu.com">百度</a></li>

② 提取信息:

...  print(soup.a) #获取第一个a元素标签：<a class="bb" href="http://www.baidu.com">百度</a>  print(soup.a.name)    #获取标签名：a  print(soup.a.attrs)    #获取所有属性：{'class': ['bb'], 'href': 'http://www.baidu.com'}  print(soup.a.attrs['href']) #获取其中一个属性：http://www.baidu.com  print(soup.a.string) # 获取元素标签中间的文本内容：百度

③ 嵌套选择：

print(soup.li.a) #获取网页中第一个li中的第一个a元素节点  #输出 <a class="bb" href="http://www.baidu.com">百度</a>    print(type(soup.body.h3))  ##获取body中的第一个h3元素的类型：<class 'bs4.element.Tag'>  print(soup.body.h3.string)  #获取body中的第一个h3中的文本内容：我的常用链接

④ 关联选择:
我们在做选择的时候，难免有时候不能够一步就选到想要的节点元素。
需要先选中某一个节点元素，然后再基于这些继续向下选择（子，父，兄弟）。

#....    # 子或子孙节点  # 以下获取的节点列表都可以使用for...in遍历  print(soup.ul.contents) #获取ul下面的所有直接子节点，返回列表  print(soup.ul.children) #获取ul下面的所有直接子节点，返回一个：<list_iterator object at 0x110346a20>    print(soup.ul.descendants) # 获取ul下的所有子孙节点。  for v in soup.ul.descendants:      print("a:",v)    # 父祖节点  print(soup.a.parent.name) #通过parent属性获取a的父节点 li  # print(list(soup.a.parents)) # 获取所有祖先节点    #兄弟节点  print(soup.li.next_siblings)    #获取指定li节点的所有后面的兄弟节点  print(soup.li.previous_siblings)#获取指定li节点的所有前面的兄弟节点  #for v in soup.li.next_siblings:  #    print(v)    # 获取信息    print(soup.a.string) #获取a节点中的文本  print(soup.a.attrs['href']) # 或a节点的href属性值

3. 方法选择器：

① find_all() — 传入属性或文本，返回所有符合条件的元素格式：find_all(name,attrs,recursive,text, **kwargs )

# 导入模块  from bs4 import BeautifulSoup  import re  # 读取html文件信息（在真实代码中是爬取的网页信息）  f = open("./my.html",'r')  content = f.read()  f.close()    # 创建解析器  soup = BeautifulSoup(content,"lxml")    # 通过name指定li值，获取所有li元素节点,返回列表  lilist = soup.find_all(name="li")  # 通过attrs指定属性来获取所有元素节点  lilist = soup.find_all(attrs={"class":"aa"})  lilist = soup.find_all(class_="aa") #同上(class属性中包含就可以了)  lilist = soup.find_all(class_="shop") #class属性值中包含shop的所有节点  lilist = soup.find_all(id="hid") #<h3 id="hid">我的常用链接</h3>  # 通过文本内容获取  lilist = soup.find_all(text='百度') # 百度  lilist = soup.find_all(text=re.compile('张')) # 张翠山 张无忌  for i in lilist:      print(i)

② find() — 传入属性或文本，返回所有符合条件的第一个元素

  # 获取一个li元素节点  lilist = soup.find(name="li")  # 通过attrs指定属性来获取一个元素节点  lilist = soup.find(attrs={"class":"aa"})

4. CSS选择器：

# 导入模块  from bs4 import BeautifulSoup  import re  # 读取html文件信息（在真实代码中是爬取的网页信息）  f = open("./my.html",'r')  content = f.read()  f.close()    # 创建解析器  soup = BeautifulSoup(content,"lxml")      print(soup.select("ul li a")) #获取ul里面li下面的a元素节点    print(soup.select("#hid")) #获取id属性值为hid的元素节点    print(soup.select("li.shop a")) #获取class属性为shop的li元素里面所有的a元素节点    # 套用选择解析器  blist = soup.select("ul li")  for li in blist:      a = li.select("a")[0] #获取每个li里面的a元素节点      print(a)      print(a['href']) #获取属性href的值      # print(a.attrs['href']) #等价 同上 获取属性值      print(a.get_text()) #等价 print(a.string) 获取元素节点的文本内容

Python 爬虫解析库的使用

解析库的使用–Beautiful Soup:

1. BeautifulSoup 安装与使用：

2. 节点选择器：

3. 方法选择器：

4. CSS选择器：

VirMach 便宜 VPS

QNews

Python 爬虫解析库的使用

解析库的使用–Beautiful Soup:

1. BeautifulSoup 安装与使用：

2. 节点选择器：

3. 方法选择器：

4. CSS选择器：

分享此文：

Related Posts

PerfView专题 (第八篇)：洞察 C# 内存泄漏之寻找静态变量名和GC模式

Java单元测试之JUnit 5快速上手

米10Pro绝佳“奶妈” 小米移动电源3 10000mAh超级闪充版上架

Python 爬虫简单验证码识别和抓包

VirMach 便宜 VPS

QNews

熱門搜尋