圖片數據的收集 | 項目分享與演示
- 2020 年 3 月 31 日
- 筆記
hello,大家好,今天要分享的內容是關於如何獲取所需的數據集,請看下面的圖。下圖經常被用來解釋為什麼深度學習如此強大,當你向深度學習模型系統提供更多數據的時候,它會變得越來越好,遠比舊的方法要好。

所以,我們明白了數據的重要性。
Image-Downloader 圖片爬取項目簡介
針對一個新的問題,比如人臉識別(用於識別是否是某主播),此類問題可能沒有開源的數據集,因此,就需要我們自己去網上搜索數據並進行處理。
是不是覺得有點慌!
不用怕哈,其實沒那麼難,不需要你去學爬蟲!有現成的開源工具。

開源項目: https://github.com/sczhengyabin/Image-Downloader 中文描述: https://github.com/sczhengyabin/Image-Downloader/blob/master/README_zh.md
功能:
- 支援的搜索引擎: Google, 必應, 百度
- 提供GUI及CMD版本
- GUI版本支援關鍵詞鍵入,以及通過關鍵詞列表文件(行分隔,使用UTF-8編碼)輸入進行批處理爬圖下載
- 可配置執行緒數進行並發下載,提高下載速度
- 支援搜索引擎的條件查詢(如 :site)
- 支援Google的安全模式開啟和關閉
- 支援socks5和http代理的配置,方便科學上網用戶
- 提供預編譯的windows單文件可執行exe下載, 推薦非開發者用戶使用。點此下載
下載鏈接:https://github.com/sczhengyabin/Image-Downloader/releases
Image-Downloader 圖片爬取項目在linux下運行演示
(1)下載項目
git clone https://github.com/sczhengyabin/Image-Downloader.git
(2)安裝依賴庫
apt-get install python3-pip python3-pyqt5 pyqt5-dev-tools
安裝python包
pip3 install -r requirements.txt
下載和安裝phantomjs
# 下載鏈接 https://bitbucket.org/ariya/phantomjs/downloads/
下載完成後,將phantomjs文件路徑添加至PATH環境變數,或者將其拷貝到/usr/local/bin文件夾。
安裝完成後測試
phantomjs -v # 輸出2.1.1,我電腦是這個版本d
這裡,我們已經將準備工作都完成了,接下來就是運行GUI介面
python image_downloader_gui.py
GUI介面功能簡介

這裡我的設置是:
採用百度搜索;
關鍵字:dasima(我嘗試輸入中文,但是不行);
Face only:打開(表示我希望圖片是有人臉的);
參數設置:採用默認的100,5(含義,下載100張,50個執行緒同時下載);
其他不用設置。
輸出結果:
(實際輸出96張,應該是自動刪除了一些非人臉的圖片)


是不是很皮!
至此,我們已經完成了,數據的收集工作。
紙上得來終覺淺,絕知此事要躬行。