圖片數據的收集 | 項目分享與演示

  • 2020 年 3 月 31 日
  • 筆記

hello,大家好,今天要分享的內容是關於如何獲取所需的數據集,請看下面的圖。下圖經常被用來解釋為什麼深度學習如此強大,當你向深度學習模型系統提供更多數據的時候,它會變得越來越好,遠比舊的方法要好。

所以,我們明白了數據的重要性。

Image-Downloader 圖片爬取項目簡介

針對一個新的問題,比如人臉識別(用於識別是否是某主播),此類問題可能沒有開源的數據集,因此,就需要我們自己去網上搜索數據並進行處理。

是不是覺得有點慌!

不用怕哈,其實沒那麼難,不需要你去學爬蟲!有現成的開源工具。

開源項目: https://github.com/sczhengyabin/Image-Downloader 中文描述: https://github.com/sczhengyabin/Image-Downloader/blob/master/README_zh.md

功能:

  • 支援的搜索引擎: Google, 必應, 百度
  • 提供GUI及CMD版本
  • GUI版本支援關鍵詞鍵入,以及通過關鍵詞列表文件(行分隔,使用UTF-8編碼)輸入進行批處理爬圖下載
  • 可配置執行緒數進行並發下載,提高下載速度
  • 支援搜索引擎的條件查詢(如 :site)
  • 支援Google的安全模式開啟和關閉
  • 支援socks5和http代理的配置,方便科學上網用戶
  • 提供預編譯的windows單文件可執行exe下載, 推薦非開發者用戶使用。點此下載

下載鏈接:https://github.com/sczhengyabin/Image-Downloader/releases

Image-Downloader 圖片爬取項目在linux下運行演示

(1)下載項目

git clone https://github.com/sczhengyabin/Image-Downloader.git

(2)安裝依賴庫

apt-get install python3-pip python3-pyqt5 pyqt5-dev-tools

安裝python包

pip3 install -r requirements.txt

下載和安裝phantomjs

# 下載鏈接 https://bitbucket.org/ariya/phantomjs/downloads/

下載完成後,將phantomjs文件路徑添加至PATH環境變數,或者將其拷貝到/usr/local/bin文件夾。

安裝完成後測試

phantomjs -v  # 輸出2.1.1,我電腦是這個版本d

這裡,我們已經將準備工作都完成了,接下來就是運行GUI介面

python image_downloader_gui.py 

GUI介面功能簡介

這裡我的設置是:

採用百度搜索;

關鍵字:dasima(我嘗試輸入中文,但是不行);

Face only:打開(表示我希望圖片是有人臉的);

參數設置:採用默認的100,5(含義,下載100張,50個執行緒同時下載);

其他不用設置。

輸出結果:

(實際輸出96張,應該是自動刪除了一些非人臉的圖片)

是不是很皮!

至此,我們已經完成了,數據的收集工作。

紙上得來終覺淺,絕知此事要躬行。