利用Python正則表達式抓取京東網商品信息

2020 年 5 月 22 日
筆記
Python3, Python入門, Python基礎, Python庫, Python應用, Python開發, Python網絡爬蟲, 數據分析, 數據挖掘, 網絡爬蟲

京東（JD.com）是中國最大的自營式電商企業，2015年第一季度在中國自營式B2C電商市場的佔有率為56.3%。如此龐大的一個電商網站，上面的商品信息是海量的，小編今天就帶小夥伴利用正則表達式，並且基於輸入的關鍵詞來實現主題爬蟲。

首先進去京東網，輸入自己想要查詢的商品，小編在這裡以關鍵詞「狗糧」作為搜索對象，之後得到後面這一串網址：//search.jd.com/Search?keyword=狗糧&enc=utf-8，其實參數狗糧解碼之後就是「狗糧」的意思。那麼非常明顯，只要輸入keyword這個參數之後，將其進行編碼，就可以獲取到我們的目標網址了，請求網頁，得到響應，爾後利用選擇器便可以進行下一步的精準採集了。

在京東網上，狗糧信息在京東官網上的網頁源碼如下圖所示：

狗糧信息在京東官網上的網頁源碼

話不多說，直接擼代碼，如下圖所示。小編用的是py3，也建議大家以後多用py3版本。通常URL編碼的方式是把需要編碼的字符轉化為%xx的形式，一般來說URL的編碼是基於UTF-8的，當然也有的於瀏覽器平台有關。在Python的urllib庫中提供了quote方法，可以實現對URL的字符串進行編碼，從而可以進入到對應的網頁中去。

正則表達式，又稱正規表示式、正規表示法、正規表達式、規則表達式、常規表示法（英語：Regular Expression，在代碼中常簡寫為regex、regexp或RE），是一種可以用於模式匹配和替換的強有力的工具。找到目標網頁之後，調用urllib中的urlopen函數打開網頁並獲取源碼，之後利用正則表達式實現對目標信息的精準採集。

利用正則表達式實現對目標信息的精準採集

正則表達式寫在這個程序中確實蠻複雜的，也佔據了多行，但是主要用到的正則表達式是[\w\W]+?和[\s\S]+?。

[\s\S]或者[\w\W]是完全通配的意思，\s是指空白，包括空格、換行、tab縮進等所有的空白，而\S剛好相反。這樣一正一反下來，就表示所有的字符，完全的，一字不漏的。另外，[]這個符號，表示在它裏面包含的單個字符不限順序的出現，比如下面的正則：[ace]/*，這表示，只要出現a/c/e這三個任意的字母，都會被匹配。

此外，[\s]表示，只要出現空白就匹配；[\S]表示，非空白就匹配。那麼它們的組合，表示所有的都匹配，與它相對應的，有[\w\W]等，意義完全相同。其實，[\s\S] 和 [\w\W]這樣的用法，比”.”所匹配的還要多，因為”.”是不會匹配換行的，所有出現有換行匹配的時候，人們就習慣使用[\s\S]或者[\w\W]這樣的完全通配模式。

最後得到的輸出效果圖如下所示：

輸出效果圖

這樣小夥伴們就可以獲取到狗糧的商品信息了，當然，小編在這裡只是拋磚引玉，只匹配了四個信息，而且只是做了個單頁的獲取。需要更多數據的小夥伴們可以自行去更改正則表達式和設置多頁，達到你想要的效果。下篇文章小編將利用美麗的湯BeautifulSoup來進行匹配目標數據，實現目標信息的精準獲取。

最後給大家簡單介紹一下正則表達式。正則表達式使用單個字符串來描述、匹配一系列匹配某個句法規則的字符串。在很多文本編輯器里，正則表達式通常被用來檢索、替換那些匹配某個模式的文本。

正則表達式對於初學者確實晦澀難懂，不過慢慢學習還是可以掌握的，並不一定要完全記下來，但是你要知道什麼時候需要什麼參數，能做到順利使用它就可以了。
想學習更多Python網絡爬蟲與數據挖掘知識，可前往專業網站：//pdcfighting.com/

Tags: Python3 Python入門 Python基礎 Python庫 Python應用 Python開發 Python網絡爬蟲數據分析數據挖掘網絡爬蟲

利用Python正則表達式抓取京東網商品信息

VirMach 便宜 VPS

QNews

利用Python正則表達式抓取京東網商品信息

分享此文：

Related Posts

詳解command設計模式，解耦操作和回滾

性能測試必備知識（4）- 使用 stress 和 sysstat

京東自營房產正式上線：首批1000套、2萬+北京安家

不讓台積電獨美 三星宣布80億美元建晶圓廠：搶芯片代工

VirMach 便宜 VPS

QNews

熱門文章

熱門搜尋

不讓台積電獨美三星宣布80億美元建晶圓廠：搶芯片代工