5款最佳CV和數據科學標記工具,標記公司、初創企業、個人用戶全滿足

  • 2019 年 10 月 4 日
  • 筆記


【新智元導讀】電腦視覺的數據科學家經常需要快速簡單的標記工具用來為PoC或R&D實驗創建數據集,以及確保數據品質,以免影響深度學習演算法的性能。本文介紹了5種非常棒的注釋工具!

電腦視覺的數據科學家經常需要快速簡單的標記工具用來為PoC或R&D實驗創建數據集,以及確保數據品質,以免影響深度學習演算法的性能。本文介紹了5種非常棒的注釋工具,如果你發現這些工具無法按預期工作,請嘗試在Chrome中運行它們

在此之前,你需要明確不同類型的企業,對標記的要求不同。如果是大型企業:

  • 高級項目管理功能
  • 大量的功能,所以任何任務都可以完成
  • 提高效率的自動化工具

如果是創業公司:

  • API或至少是將標記工具連接到私有API的簡單方法
  • 直觀的用戶體驗(UX),因此你臨時招聘的每個注釋者都可以立即開始工作

只是個人:

  • 不關心API/項目管理
  • 只想儘可能快地開始標記!

電腦視覺中標記的基礎知識

在電腦視覺中,主要有三種類型的數據用於訓練演算法:

  • 訓練分類器的圖片+標記(ResNets)
  • 探測器的邊界框+標記(YOLOv3,更快的R-CNN …)
  • 用於分割應用的多邊形+標記(Mask R-CNN)

你也可能已經意識到,AI項目成功的最重要因素之一是可以使用的「高品質數據」的數量。當然,什麼是高品質的數據,還沒有一個明確的定義。這裡我們說的所謂「高品質數據」的意思是:

  • 每張圖片/注釋都有一個合適的標記
  • 每個邊界框或多邊形準確地圍繞實體進行訓練

適用於標記公司的最佳開源注釋工具

電腦視覺注釋工具(CVAT)

在推出OpenCV近20年後,英特爾在電腦視覺領域重申並發布了CVAT,這是一款功能強大且完整的注釋工具。 儘管需要一些時間來學習和掌握,但它提出了大量用於標記電腦視覺數據的功能。

優勢:

  • 易於安裝和擴展,因為它是在Docker中運行的Web應用程式
  • 提出了許多自動化儀器(例如使用TensorFlow *對象檢測API進行自動注釋,影片插值……)
  • 允許管理協作工作,因此團隊的不同成員可以在同一個注釋任務上一起工作

弱點:

  • 用戶介面非常複雜。例如,第一次設置注釋任務可能非常棘手
  • 一開始不是很直觀,掌握可能需要幾天時間
  • 只能運行在Chrome下

在線演示:

https://c.onepanel.io/onepanel-demo/projects/cvat-public-demo/workspaces

適用於初創公司的最佳開源注釋工具

視覺對象標記工具(VoTT)

VoTT由微軟開發,提供了極好的用戶體驗,可以在注釋時節省大量的時間和精力。此外,創建項目也很簡單,因此你無需深入了解文檔即可使用它。

優勢:

  • 程式碼寫得非常好(在React中),並且完美地定義了介面,因此很容易分叉並添加你需要的額外功能
  • 用戶體驗不錯。暗黑主題和滑鼠後面的虛線網格,所以很容易知道從哪裡開始一個邊界框
  • 建議使用深度學習演算法來自動檢測對象(隨附在COCO類上訓練的SSD)
  • 是一個網路應用程式和電子應用程式。這使你可以將其用作胖客戶端或在Web瀏覽器中運行的應用程式

弱點:

  • 要使用Web應用程式版本,需要將數據託管在Microsoft的雲計算服務Azure上(但是,電子版允許你使用硬碟驅動器磁碟上的數據,但需要使用npm安裝它)
  • 沒有提供內置的API(調整程式碼很容易讓你的私有API與它進行通訊)
  • 無法標記圖片:你只能使用關聯的標記繪製邊界框(或多邊形)。因此,它不適合創建分類數據集

演示:

https://vott.z5.web.core.windows.net/

DataTurks

DataTurks是一家創建於2018年的創業公司,提供標記影像,影片和文本的服務。注釋工具很棒且現在是免費的,可以使用它的所有功能(我已經嘗試並測試過它)!

優勢:

  • 一個在Docker中運行的Web應用程式
  • 允許協作和非同步工作:處理同一數據集的兩個團隊成員將無法獲得相同的影像進行注釋
  • 提出用於創建和獲取注釋任務的API

弱點:

  • DataTurks似乎已停止繼續維護其產品
  • 用戶體驗還可以

在線演示:

https://dataturks.com/projects/Dataturks

最適合個人使用的開源影像標記工具

Make-Sense

雖然Make-sense比較晚出世,已經擁有了令人難以置信的用戶體驗。開始注釋從來沒有這麼快!轉到網站,拖放影像並開始注釋。

優勢:

  • 快速,高效,但最重要的是,簡單!
  • 真的很酷的UX
  • 關於你載入的影像的隱私,不要擔心,因為他們說:「[他們]不存儲你的影像,因為[他們]不首先將它們發送到任何地方」

弱點:

  • 不提供任何項目管理功能
  • 不提供任何API

在這裡開始標記:

https://www.makesense.ai