垃圾进出? 社交计算中的机器学习应用论文是否报告了人为训练数据的来源?
- 2019 年 12 月 27 日
- 笔记
原文题目: Garbage In, Garbage Out? Do Machine Learning Application Papers in Social Computing Report Where Human-Labeled Training Data Comes From?
摘要: 许多针对新应用领域的机器学习项目都涉及到为特定目的标记数据的人员团队,从雇用人群工作者到论文作者自行标记数据。此类任务与结构化内容分析(或形式)非常相似,后者是社会科学和人文科学领域的一种长期方法,具有许多已建立的最佳实践。在本文中,我们调查了社交计算中机器学习应用程序论文的样本程度-特别是ArXiv和传统出版物对Twitter数据执行ML分类任务的论文-提供了有关是否遵循了此类最佳实践的具体细节。我们的团队对每篇论文进行了多轮结构化内容分析,确定以下内容:论文是否报告了谁是标签者,他们的资格是什么,他们是否独立地标记了相同的项目,是否公开了评分者间的可靠性指标,向贴标者提供培训水平和/或说明,是否公开了对人群工作者的补偿,以及培训数据是否公开。我们是否遵循和记录了这样的做法存在很大分歧。机器学习的研究和教育很多都集中在一旦有了“黄金标准”的训练数据后该怎么做,但是我们首先围绕这些数据是否可靠的同样重要的方面讨论问题。
原文作者:R. Stuart Geiger, Kevin Yu, Yanlai Yang, Mindy Dai, Jie Qiu, Rebekah Tang, Jenny Huang
原文地址:https://arxiv.org/list/cs.DL/recent