非常全的一份Python爬蟲的Xpath博文
- 2022 年 8 月 17 日
- 筆記
- Python, Python爬蟲, Python逆向爬蟲, 逆向爬蟲
非常全的一份Python爬蟲的Xpath博文
Xpath 是 python 爬蟲過程中非常重要的一個用來定位的一種語法。
一、開始使用
首先我們需要得到一個 HTML 源程式碼,用來模擬爬取網頁中的源程式碼。
首先我們需要下載一下 lxml 包。
pip install lxml
準備一個HTML源程式碼。
from lxml import etree
doc='''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a> # 注意,此處缺少一個 </li> 閉合標籤
</ul>
</div>
'''
html = etree.HTML(doc)
result = etree.tostring(html)
print(str(result, 'utf-8'))
二、節點、元素、屬性、內容
xpath 的思想是通過 路徑表達 去尋找節點。節點包括元素
,屬性
,和內容
。
2.1 路徑表達式
/ 根節點,節點分隔符,
// 任意位置
. 當前節點
.. 父級節點
@ 屬性
2.2 通配符
* 任意元素
@* 任意屬性
node() 任意子節點(元素,屬性,內容)
2.3 謂語
使用中括弧來限定元素,稱為謂語
//a[n] n為大於零的整數,代表子元素排在第n個位置的<a>元素
//a[last()] last() 代表子元素排在最後個位置的<a>元素
//a[last()-] 和上面同理,代表倒數第二個
//a[position()<3] 位置序號小於3,也就是前兩個,這裡我們可以看出xpath中的序列是從1開始
//a[@href] 擁有href的<a>元素
//a[@href='www.baidu.com'] href屬性值為'www.baidu.com'的<a>元素
//book[@price>2] price值大於2的<book>元素
三、定位
3.1 匹配多個元素,返回列表
from lxml import etree
if __name__ == '__main__':
doc='''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</div>
'''
html = etree.HTML(doc)
print(html.xpath("//li"))
print(html.xpath("//p"))
print(etree.tostring(html.xpath("//li[@class='item-inactive']")[0]))
print(html.xpath("//li[@class='item-inactive']")[0].text)
print(html.xpath("//li[@class='item-inactive']/a")[0].text)
print(html.xpath("//li[@class='item-inactive']/a/text()"))
print(html.xpath("//li[@class='item-inactive']/.."))
print(html.xpath("//li[@class='item-inactive']/../li[@class='item-0']"))
3.2 contains
有的時候,class作為選擇條件的時候不合適@class='....'
這個是完全匹配,當網頁樣式發生變化時,class或許會增加或減少像active
的class
。用contains就能很方便
from lxml import etree
if __name__ == '__main__':
doc='''
<div>
<ul>
<p class="item-0 active"><a href="link1.html">first item</a></p>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a> # 注意,此處缺少一個 </li> 閉合標籤
</ul>
</div>
'''
html = etree.HTML(doc)
print(html.xpath("//li[@class='item']"))
print(html.xpath("//*[contains(@class,'item')]"))
3.3 starts-with
包含某個屬性的第一個節點。
from lxml import etree
if __name__ == '__main__':
doc='''
<div>
<ul class='ul items'>
<p class="item-0 active"><a href="link1.html">first item</a></p>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a> # 注意,此處缺少一個 </li> 閉合標籤
</ul>
</div>
'''
html = etree.HTML(doc)
print(html.xpath("//*[contains(@class,'item')]"))
print(html.xpath("//*[starts-with(@class,'ul')]"))
3.4 text、last
from lxml import etree
if __name__ == '__main__':
doc='''
<div>
<ul class='ul items'>
<p class="item-0 active"><a href="link1.html">first item</a></p>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a> # 注意,此處缺少一個 </li> 閉合標籤
</ul>
</div>
'''
html = etree.HTML(doc)
print(html.xpath("//li[last()]/a/text()"))
3.5 獲取內容
剛剛已經提到過,可以使用.text
和text()
的方式來獲取元素的內容
from lxml import etree
if __name__ == '__main__':
doc='''
<div>
<ul class='ul items'>
<li class="item-0 active"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a> # 注意,此處缺少一個 </li> 閉合標籤
</ul>
</div>
'''
html = etree.XML(doc)
print(html.xpath("//a/text()"))
print(html.xpath("//a")[0].text)
print(html.xpath("//ul")[0].text)
print(len(html.xpath("//ul")[0].text))
print(html.xpath("//ul/text()"))
3.6 獲取屬性
print(html.xpath("//a/@href"))
print(html.xpath("//li/@class"))
四、使用Xpath爬取豆瓣
import requests
from lxml import etree
def main():
head = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"
}
baseurl = "//movie.douban.com/top250?start="
res = requests.get(url=baseurl, headers=head).text
data = etree.HTML(res)
# 電影排行榜
txt = data.xpath('//*[@id="content"]/div/div[1]/ol/li')
list = []
for i in txt:
vidow = {
"title": "",
"year": '',
"score": 0,
"num": 0
}
title_list = i.xpath('./div/div[2]/div[1]/a/span/text()')
for item in title_list:
vidow['title'] += item.replace("\n", "").replace("\xa0", " ")
vidow['year'] = i.xpath('./div/div[2]/div[2]/p[1]/text()')[1].split("/")[0].replace("\n", "").replace("\xa0", " ").replace(" ", "")
vidow['score'] = i.xpath('./div/div[2]/div[2]/div/span[2]/text()')[0]
vidow['num'] = i.xpath('./div/div[2]/div[2]/div/span[4]/text()')[0].replace("人評價", "")
list.append(vidow)
print(list)
if __name__ == '__main__':
main()