新手小白的爬蟲神器-無程式碼高效爬取數據
前言
2020年即將過去,回望過去一年是魔幻的一年,今年註定是不平常的一年,我想也是會載入史冊,讓人類永遠銘記今年的重大事件。
全球疫情、中美貿易戰、美國大選等一系列重大事件。今年也許是最好的時代同時也是最壞的時代,機遇和危機都是轉瞬即逝,我們能做的只有把握當下,未雨綢繆,厚積薄發!
今天畢竟是2020年結束,2021年開始的第一天,不免有所感慨和總結。下面回歸到技術部落格。。。
年底是跳槽的好時機,最近查看招聘網的各個職位,想要將其爬取下來進行分析。剛開始寫過程式碼進行爬取,奈何本人技術有限,對付高級的反爬蟲系統顯得心有餘而力不足。
於是經過一段時間的查找發現了這個神器:web scraper ,並且它是開源免費的,雖然使用上有些小問題,但是基本滿足我的需求。
安裝
官網://www.webscraper.io/
它是一個Google插件,當然也支援火狐,其他的瀏覽器我就不清楚了。至於插件安裝大家可以自己百度,有很多教程。
使用
安裝好之後在瀏覽器的F12或者開發者工具里有一個Web Scraper集成的功能
-
創建網站地圖
點擊Create new sistemap
-
填寫資訊
Sitemap name :名稱(可以隨便寫,自己知道意思就行)
URL: 爬取地址(填你要爬取的網站地址,我這裡爬取的是51job,在此聲明:此數據僅做個人找工作學習參考,無其他任何商用途徑,也希望大家不要用做商用等違法途徑。)
下面的地址能爬取第一頁得數據
//search.51job.com/list/040000,000000,0000,00,9,99,python,2,1.html?lang=c&postchannel=0000&workyear=02&cotype=99°reefrom=03&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=
如果我們想要爬取後面多個頁面呢,通過分析每一頁的URL地址只是中間的數字進行累加,於是使用正則表達式進行匹配[1-8],鏈接如下:
//search.51job.com/list/040000,000000,0000,00,9,99,python,2,[1-8].html?lang=c&postchannel=0000&workyear=02&cotype=99°reefrom=03&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=
-
添加子節點
點擊添加子節點
-
配置子節點
id:可以隨便填,最好見文知意
type:選Text,因為我們是直接獲取文本,如果需要獲取鏈接則選link
點擊select可以選擇網頁上的元素,選擇2個會自動往下匹配相同的
抓取多個數據一定要勾選Multiple
然後選擇_root做為父節點
一個簡單的爬蟲配置就完成了,下面開始爬取數據
5. 檢查
點擊Data preview出現你需要獲取得數據內容,那麼說明配置正確
6. 爬取
點擊Scrape,然後點擊開始運行
-
查看結果
點擊Browse然後點擊Refresh Data就可以查看下面抓取到得數據了
-
導出數據
點擊Export data as CSV然後保存到你選擇的目錄
打開csv檢查
至此數據爬取完成,那麼下面進行數據篩選和處理,具體請看下一篇文章。