「互聯網寒冬」,來分析一下爬取的 BOSS 直聘數據。
- 2019 年 11 月 13 日
- 筆記
臨近年末,「互聯網寒冬」的來臨讓大家倍感壓力,大家紛紛感嘆寒冬將至。但是,越是這個時候,越要明確自己的奮鬥目標,不斷的充實自己,提高自己的能力,為找工作打下堅實的基礎。
本次我們爬取了招聘網站上關於電腦視覺方向的招聘資訊,並對於招聘資訊進行分析,看一下目前電腦視覺方向對於應聘者的需求如何。
首先招聘資訊的爬取採用的是selenium 庫,對boss 直聘招聘網站進行爬取,因為網站對於反爬的驗證碼比較複雜,即便是利用tesserocr 來對這種驗證碼識別的也很難將其識別準確,因此直接採用selenium庫,對於網頁資訊進行爬取。對於驗證碼仍需要人工來進行識別並進行操作。但是由於爬取的過程中,對網頁進行了模擬瀏覽過程,因此幾乎不會產生反爬環節。
對於招聘資訊的提取首先是打開我們所要查詢的招聘方向的鏈接,這裡我們查詢的是電腦視覺方向(自己更改所需即可),然後針對每一頁上的每一個招聘鏈接,在新的網頁進行打開,然後爬取其網頁資訊。整體的運行效果圖如下動圖所示。

對於每一個招聘鏈接,利用BeautifulSoup進行網頁資訊的提取,並將其保存到csv文件當中,具體程式碼如下圖所示。

完整程式碼獲取見文末
這裡我們爬取了招聘資訊中,對於應聘者的學歷、經驗的要求,以及招聘者提出的工作要求和薪金待遇以及工作地點。將爬取後的資訊保存為csv文件放到根文件夾下,至此爬取招聘資訊的工作便完成。爬取的資訊如下如所示。

首先,我們想觀察一下目前招聘者對於應聘者的工作要求,因此為了更加直觀的展示工作要求,我們採用詞雲的形式,對於工作要求中的關鍵詞進行展示。
採用詞雲的優勢在於:第一,展示起來比較美觀,第二是出現頻率越高的關鍵詞,其字體也越大,因此更能直觀的進行展示。
對於爬取得到的資訊,利用pandas進行讀取,然後將「工作要求」一項進行提取後,採用jieba進行分析,並結合WordCloud庫進行展示,得到的結果如下如所示。

由詞雲我們可以看出,目前電腦視覺領域深度學習技術是最杯招聘者所看重的一項技能,因此它的出現頻率也是最高的。其次對於機器學習、影像處理技術也要進行掌握,並能達到熟練掌握的程度。如果有小夥伴想要進軍電腦視覺領域的話,那麼上述的詞雲所體現的資訊,將會對你有很大的幫助,在處理完「工作需求之後」,我們還對大家普遍關心的「工資」水平和「經驗」要求進行了分析。
由於招聘者對於工資都是提供一個大概的範圍,因此,這裡我們採取招聘者提供的平均工資來作為我們的「工資」數據,根據平均工資的最大值跟最小值將工資分為五類,可視化數據如下圖所示。

由工資圖可以看出,目前電腦視覺領域的工資水平大都集中在20K到30K之間,還是一個相當不錯的工資水平。
對於經驗的分析,我們也進行了分析,如下圖所示。

由上圖可以看出,招聘者對於應聘者的經驗還是十分看重的,因此如果小夥伴是在校生的話,還是抓住機會出去實習,增長自己的經驗吧。
我愛小詹
/ 今日互動 /
留言主題 : 互聯網寒冬你打算如何提高自己?
留言格式 —— Day xx : blablabla ;這裡強調下 ,不符合主題和格式的打卡不移入精選,打卡無效噢 !兌換的時候會核實打卡情況 ,斷打卡的記得從 Day.01 開始 ~
完整程式碼和爬取結果 csv 文件在後台回復關鍵詞 boss 即可,點擊原文也可直達~