hello，大家好，今天要分享的內容是關於如何獲取所需的數據集，請看下面的圖。下圖經常被用來解釋為什麼深度學習如此強大，當你向深度學習模型系統提供更多數據的時候，它會變得越來越好，遠比舊的方法要好。

所以，我們明白了數據的重要性。

Image-Downloader 圖片爬取項目簡介

針對一個新的問題，比如人臉識別（用於識別是否是某主播），此類問題可能沒有開源的數據集，因此，就需要我們自己去網上搜索數據並進行處理。

是不是覺得有點慌！

不用怕哈，其實沒那麼難，不需要你去學爬蟲！有現成的開源工具。

開源項目： https://github.com/sczhengyabin/Image-Downloader 中文描述： https://github.com/sczhengyabin/Image-Downloader/blob/master/README_zh.md

功能：

下載鏈接：https://github.com/sczhengyabin/Image-Downloader/releases

Image-Downloader 圖片爬取項目在linux下運行演示

（1）下載項目

git clone https://github.com/sczhengyabin/Image-Downloader.git

（2）安裝依賴庫

apt-get install python3-pip python3-pyqt5 pyqt5-dev-tools

安裝python包

pip3 install -r requirements.txt

下載和安裝phantomjs

# 下載鏈接 https://bitbucket.org/ariya/phantomjs/downloads/

下載完成後，將phantomjs文件路徑添加至PATH環境變數，或者將其拷貝到/usr/local/bin文件夾。

安裝完成後測試

phantomjs -v  # 輸出2.1.1，我電腦是這個版本d

這裡，我們已經將準備工作都完成了，接下來就是運行GUI介面

python image_downloader_gui.py

GUI介面功能簡介

這裡我的設置是：

採用百度搜索；

關鍵字：dasima（我嘗試輸入中文，但是不行）；

Face only：打開（表示我希望圖片是有人臉的）；

參數設置：採用默認的100,5（含義，下載100張，50個執行緒同時下載）；

其他不用設置。

輸出結果：

（實際輸出96張，應該是自動刪除了一些非人臉的圖片）

是不是很皮！

至此，我們已經完成了，數據的收集工作。

紙上得來終覺淺，絕知此事要躬行。