论文摘要:项目推荐的任务需要在给定上下文的情况下对大量的项目进行排序。项目推荐算法是使用依赖于相关项目位置的排名指标来评估的。为了加速度量的计算,最近的工作经常使用抽样的度量,其中只有一组较小的随机项和相关项被排序。本文对抽样指标进行了更详细的研究,发现它们与精确的度量值不一致,因为它们没有保留相关的语句,例如,说推荐者A优于B时甚至连期望值也没有。而且,抽样规模越小,指标之间的差异就越小,另外对于非常小的抽样规模,所有指标都会坍缩为AUC度量。我们证明了通过应用一个修正项来提高抽样指标的性能是可行的:通过最小化不同的标准,如偏差或均方误差。最后,我们对原始抽样指标及其修正变量进行了实证评估。综上所述,我们建议在度量计算中应避免抽样,但是如果实验研究需要抽样,那么我们所提出的修正项可以提高估计的质量。 2 最佳学生论文奖获奖论文:《TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework for Deep Learning with Anonymized Intermediate Representations》 论文第一作者 Ang Li 是杜克大学电子和计算机工程系的一名在读博士,导师为陈怡然和 Hai “Helen” Li 教授。Ang Li 曾在2013 年获得北京大学软件工程硕士学位,2018 年获得阿肯色大学计算机科学博士学位。今日陈怡然教授在微博上庆祝: 陈怡然教授本硕均就读于清华大学,博士就读于美国普渡大学,现任杜克大学电子与计算机工程系教授、杜克大学计算进化智能中心主任、美国 NSF 新型可持续智能计算中心主任。
6 论文奖ACM SIGKDD论文奖表彰了研究生在数据科学,机器学习和数据挖掘领域所做的杰出工作。Rediet Abebe 是加州大学伯克利分校计算机科学系新任助理教授,她的博士论文获得了今年的ACM SIGKDD学位论文奖。Abebe是第一位入选哈佛研究员学会的女性计算机科学家,并与他人共同创立了社会公益机制设计(MDSG),这是一个多机构倡议,旨在改善历史悠久,服务水平低下的弱势社区的机会。个人主页://www.cs.cornell.edu/~red/其获奖论文为《Designing Algorithms for Social Good》。
加利福尼亚大学圣地亚哥分校的计算机科学助理教授Jingbo Shang以其论文《Constructing and Mining Heterogeneous Information Networks from Massive Text 》获得亚军(runner-up)。论文链接://hanj.cs.illinois.edu/pdf/kdd19_jshang.pdf论文摘要:真实世界的数据主要以非结构化文本的形式存在。数据挖掘研究面临的一个重大挑战是开发有效的、可伸缩的方法,将非结构化文本转化为结构化知识。基于我们的设想,将这些文本转化为结构化的异构信息网络,在这种网络上可以根据用户的需要生成可操作的知识。在本论文中,我们将全面概述此方向的最新研究和开发。首先,我们介绍了一系列从海量、特定领域的文本语料库构建异构信息网络的有效方法。然后讨论了基于用户需求的文本丰富网络的挖掘方法。具体地说,我们关注于可伸缩的、有效的、弱监督的、与语言无关的方法,这些方法适用于各种文本。我们进一步在真实的数据集(包括新闻文章、科学出版物和产品评论)上演示如何构建信息网络,以及它们如何帮助进一步的探索性分析。 7 新星奖今年是KDD第一届设立KDD年度新星奖(Rising Star Award),该奖项的设立旨在庆祝SIGKDD社区最聪明的新思想的早期成就以及表彰KDD社区里在博士毕业五年内便获得卓越科研成就的年轻学者。今年一共有两位学者获得,分别是Danai Koutra(Morris Wellman)和汤继良(Tang Jiliang)。汤继良教授来自密歇根州立大学数据科学与工程实验室(Data Science and Engineering Laboratory),他的杰出工作包括对表示学习的研究,尤其是图形及其在互联网和社交媒体领域的应用。汤教授获得该荣誉的主要原因在于他在特征学习(尤其是图和图在网络、社交媒体和智能教育上的应用)领域所取得的杰出成就。个人主页://www.cse.msu.edu/~tangjili/ 另外,AI科技评论曾有幸对汤继良教授进行了专访,并与汤老师交流他的科研故事,希望能为青年学子、尤其是正在迷茫中不知出路的年轻人树立一个榜样:《汤继良:从小镇走出来的KDD科研新星 | 专访 》第二位获奖人Danai Koutra(Morris Wellman)在密歇根大学计算机科学与工程系的任助理教授,她在大规模数据挖掘中的研究集中于用于网络汇总和多网络分析的有原则、可解释和可扩展的方法。她利用网络内部数据之间的固有联系,了解世界数据中的未知数据。这些连接自然以网络或图形建模,而网络或图形又跨越了我们生活的方方面面:电子邮件通信网络,用于网络搜索的知识图,社交网络,共同作者图,大脑网络,人工神经网络等。她的工作通过提供简洁明了的网络摘要来利用这些数据的大规模,异质性和复杂性,以此作为一种方式:(a)加快后续分析和仅适用于较小的代表性数据的方法;(b)了解底层流程,并通过消除手动筛选大量数据的负担来为我们的决策提供信息;(c)提供对科学数据的见解,产生新的假设。个人主页://web.eecs.umich.edu/~dkoutra/ 8 时间检验研究奖SIGKDD的时间检验奖表彰了至少已发表十年的杰出KDD论文,这些论文对数据挖掘研究界产生了持久影响,并继续被人们视为新的研究分支的基础。今年,时间检验研究奖( Test of Time Award for Research)获得者是Victor S. Sheng,Foster Provost和Panagiotis Ipeirotis:获奖论文为2008年同行评审论文: 《Get Another Label? Improving Data Quality and Data Mining Using Multiple, Noisy Labelers 》
论文摘要:本文讨论了当标签不完善时,数据项标签的重复获取问题。我们考察了通过重复标记在数据质量方面的改进(或不足),特别是针对监督归纳的训练标签的改进。随着小任务的外包变得越来越容易,例如通过Rent-A-Coder或亚马逊的Mechanical Turk,通常可以以低成本获得不太专业的标签。使用低成本标记,准备未标记的数据部分可能会比标记成本高很多。我们提出了增加复杂性的重复标记策略,并给出了几个主要结果:1、 重复标记可以提高标签质量和模型质量,但并不总是这样。2、当标签嘈杂时,即使在标签并不特别便宜的传统环境中,重复标签也比单一标签更好。3、一旦处理未标记数据的成本不是免费的,即使是多次标记所有内容的简单策略也可以带来相当大的优势。4、反复标记一组精心选择的点通常是可取的,我们提出了一种稳健的技术,可以结合不同的不确定性概念来选择质量应提高的数据点。底线:结果清楚地表明,当标签不完美时,有选择地收购多个标签是数据挖掘者的一种策略;对于某些标签质量/成本制度,好处是巨大的。 9 时间检验应用科学奖今年是首届应用科学时间测验奖(Test of Time Award for Applied Science)SIGKDD颁发了该奖项,以表彰在数据科学的实际应用中具有影响力的研究。唐杰、李娟子等人凭借他们在2008年发表的关于学术社会网络挖掘的研究成果获得了该奖。唐杰目前为清华大学计算机科学与技术系长聘教授,计算机系副主任、清华-工程院知识智能联合实验室主任。获奖论文:《ArnetMiner: Extraction and Mining of Academic Social Networks 》