新手小白的爬蟲神器-無程式碼高效爬取數據

2021 年 1 月 1 日
筆記
工具

前言

2020年即將過去，回望過去一年是魔幻的一年，今年註定是不平常的一年，我想也是會載入史冊，讓人類永遠銘記今年的重大事件。
全球疫情、中美貿易戰、美國大選等一系列重大事件。今年也許是最好的時代同時也是最壞的時代，機遇和危機都是轉瞬即逝，我們能做的只有把握當下，未雨綢繆，厚積薄發！

今天畢竟是2020年結束，2021年開始的第一天，不免有所感慨和總結。下面回歸到技術部落格。。。
年底是跳槽的好時機，最近查看招聘網的各個職位，想要將其爬取下來進行分析。剛開始寫過程式碼進行爬取，奈何本人技術有限，對付高級的反爬蟲系統顯得心有餘而力不足。
於是經過一段時間的查找發現了這個神器：web scraper ，並且它是開源免費的，雖然使用上有些小問題，但是基本滿足我的需求。

安裝

官網：//www.webscraper.io/
它是一個Google插件，當然也支援火狐，其他的瀏覽器我就不清楚了。至於插件安裝大家可以自己百度，有很多教程。

使用

安裝好之後在瀏覽器的F12或者開發者工具里有一個Web Scraper集成的功能

創建網站地圖
點擊Create new sistemap
填寫資訊
Sitemap name ：名稱（可以隨便寫，自己知道意思就行）
URL：爬取地址（填你要爬取的網站地址，我這裡爬取的是51job，在此聲明：此數據僅做個人找工作學習參考，無其他任何商用途徑，也希望大家不要用做商用等違法途徑。）
下面的地址能爬取第一頁得數據
//search.51job.com/list/040000,000000,0000,00,9,99,python,2,1.html?lang=c&postchannel=0000&workyear=02&cotype=99&degreefrom=03&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=
如果我們想要爬取後面多個頁面呢，通過分析每一頁的URL地址只是中間的數字進行累加，於是使用正則表達式進行匹配[1-8]，鏈接如下：
//search.51job.com/list/040000,000000,0000,00,9,99,python,2,[1-8].html？lang=c&postchannel=0000&workyear=02&cotype=99&degreefrom=03&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=