Python網頁解析庫：用requests-html爬取網頁

2022 年 7 月 19 日
筆記

Python網頁解析庫：用requests-html爬取網頁

1. 開始

Python 中可以進行網頁解析的庫有很多，常見的有 BeautifulSoup 和 lxml 等。在網上玩爬蟲的文章通常都是介紹 BeautifulSoup 這個庫，我平常也是常用這個庫，最近用 Xpath 用得比較多，使用 BeautifulSoup 就不大習慣，很久之前就知道 Reitz 大神出了一個叫 Requests-HTML 的庫，一直沒有興趣看，這回可算歹著機會用一下了。

使用 pip install requests-html安裝，上手和 Reitz 的其他庫一樣，輕鬆簡單：

from requests_html import HTMLSession
session = HTMLSession()

r = session.get('//www.python.org/jobs/')

這個庫是在 requests 庫上實現的，r 得到的結果是 Response 對象下面的一個子類，多個一個 html 的屬性。所以 requests 庫的響應對象可以進行什麼操作，這個 r 也都可以。如果需要解析網頁，直接獲取響應對象的 html 屬性：

r.html

2. 原理

不得不膜拜 Reitz 大神太會組裝技術了。實際上 HTMLSession 是繼承自 requests.Session 這個核心類，然後將 requests.Session 類里的 requests 方法改寫，返回自己的一個 HTMLResponse 對象，這個類又是繼承自 requests.Response,只是多加了一個 _from_response 的方法來構造實例：

class HTMLSession(requests.Session):
    # 重寫 request 方法，返回 HTMLResponse 構造
    def request(self, *args, **kwargs) -> HTMLResponse:
        r = super(HTMLSession, self).request(*args, **kwargs)
        return HTMLResponse._from_response(r, self)

class HTMLResponse(requests.Response):
	# 構造器
    @classmethod
    def _from_response(cls, response, session: Union['HTMLSession', 'AsyncHTMLSession']):
        html_r = cls(session=session)
        html_r.__dict__.update(response.__dict__)
        return html_r

之後在 HTMLResponse 里定義屬性方法 html，就可以通過 html 屬性訪問了,實現也就是組裝 PyQuery 來干。核心的解析類也大多是使用 PyQuery 和 lxml 來做解析，簡化了名稱，挺討巧的。

3. 元素定位

元素定位可以選擇兩種方式：

css 選擇器

css選擇器
xpath

# css 獲取有多少個職位
jobs = r.html.find("h1.call-to-action")
# xpath 獲取
jobs = r.html.xpath("//h1[@class='call-to-action']")

方法名非常簡單，符合 Python 優雅的風格，這裡不妨對這兩種方式簡單的說明：

4. CSS 簡單規則

標籤名 h1
id 使用 #id 表示
class 使用 .class_name 表示
謂語表示：h1[prop=value]

5. Xpath簡單規則

路徑 // 或者 /
標籤名
謂語 [@prop=value]
軸定位 名稱::元素名[謂語]

定位到元素以後勢必要獲取元素裡面的內容和屬性相關數據，獲取文本：

jobs.text
jobs.full_text

獲取元素的屬性：

attrs = jobs.attrs
value = attrs.get("key")

還可以通過模式來匹配對應的內容：

## 找某些內容匹配
r.html.search("Python {}")
r.html.search_all()

這個功能看起來比較雞肋，可以深入研究優化一下，說不定能在 github 上混個提交。

6. 人性化操作

除了一些基礎操作，這個庫還提供了一些人性化的操作。比如一鍵獲取網頁的所有超鏈接，這對於整站爬蟲應該是個福音，URL 管理比較方便：

r.html.absolute_links
r.html.links

內容頁面通常都是分頁的，一次抓取不了太多，這個庫可以獲取分頁資訊：

print(r.html)
# 比較一下
for url in r.html:
    print(url)

結果如下：

# print(r.html)
<HTML url='//www.python.org/jobs/'>
# for
<HTML url='//www.python.org/jobs/'>
<HTML url='//www.python.org/jobs/?page=2'>
<HTML url='//www.python.org/jobs/?page=3'>
<HTML url='//www.python.org/jobs/?page=4'>
<HTML url='//www.python.org/jobs/?page=5'>

通過迭代器實現了智慧發現分頁，這個迭代器裡面會用一個叫 _next 的方法，貼一段源碼感受下：

def get_next():
	candidates = self.find('a', containing=next_symbol)

	for candidate in candidates:
		if candidate.attrs.get('href'):
			# Support 'next' rel (e.g. reddit).
			if 'next' in candidate.attrs.get('rel', []):
				return candidate.attrs['href']

通過查找 a 標籤裡面是否含有指定的文本來判斷是不是有下一頁，通常我們的下一頁都會通過 下一頁 或者 載入更多 來引導，他就是利用這個標誌來進行判斷。默認的以列表形式存在全局：['next', 'more', 'older']。我個人認為這種方式非常不靈活，幾乎沒有擴展性。感興趣的可以往 github 上提交程式碼優化。

7. 載入 js

也許是考慮到了現在 js 的一些非同步載入，這個庫支援 js 運行時，官方說明如下：

Reloads the response in Chromium, and replaces HTML content
with an updated version, with JavaScript executed.

使用非常簡單，直接調用以下方法：

r.html.render()

第一次使用的時候會下載 Chromium，不過中國你懂的，自己想辦法去下吧，就不要等它自己下載了。render 函數可以使用 js 腳本來操作頁面，滾動操作單獨做了參數。這對於上拉載入等新式頁面是非常友好的。

8. 總結

Reitz 大神設計出來的東西還是一如既往的簡單好用，自己不多做，大多用別人的東西組裝，簡化 api。真是夠人性。不過有的地方還是優化空間，希望有興趣和精力的童鞋去 github 上關注一下這個項目。