垃圾進出? 社交計算中的機器學習應用論文是否報告了人為訓練數據的來源?
- 2019 年 12 月 27 日
- 筆記
原文題目: Garbage In, Garbage Out? Do Machine Learning Application Papers in Social Computing Report Where Human-Labeled Training Data Comes From?
摘要: 許多針對新應用領域的機器學習項目都涉及到為特定目的標記數據的人員團隊,從僱用人群工作者到論文作者自行標記數據。此類任務與結構化內容分析(或形式)非常相似,後者是社會科學和人文科學領域的一種長期方法,具有許多已建立的最佳實踐。在本文中,我們調查了社交計算中機器學習應用程式論文的樣本程度-特別是ArXiv和傳統出版物對Twitter數據執行ML分類任務的論文-提供了有關是否遵循了此類最佳實踐的具體細節。我們的團隊對每篇論文進行了多輪結構化內容分析,確定以下內容:論文是否報告了誰是標籤者,他們的資格是什麼,他們是否獨立地標記了相同的項目,是否公開了評分者間的可靠性指標,向貼標者提供培訓水平和/或說明,是否公開了對人群工作者的補償,以及培訓數據是否公開。我們是否遵循和記錄了這樣的做法存在很大分歧。機器學習的研究和教育很多都集中在一旦有了「黃金標準」的訓練數據後該怎麼做,但是我們首先圍繞這些數據是否可靠的同樣重要的方面討論問題。
原文作者:R. Stuart Geiger, Kevin Yu, Yanlai Yang, Mindy Dai, Jie Qiu, Rebekah Tang, Jenny Huang
原文地址:https://arxiv.org/list/cs.DL/recent