新冠疫情消息纷杂,AI明辨是非真假| 翻译征文 | 雷锋字幕组
本文为雷锋字幕组“触摸世界前沿科技 | 翻译征文 ”活动收录稿件
COVID-19 大流行是一场异常复杂、变幻莫测的全球性公共卫生危机。Facebook 致力于阻止虚假、误导性信息在我们的平台上传播。有关疫情的假消息可能会像头条新闻一样飞快地传播扩散,而且很难将它们与合法的新闻报道区分开来。同一条假消息,可能同时有几种稍微不同的版本,比如其中的图像,或者被裁掉了一小部分,或者经过了滤镜的增强。这些改变既可能是无意而为之,也可能是某些人故意通过这种做法来避免被发现。此外另一个非常重要的任务是,避免将合法内容误判为假消息,否则可能导致人们无法在我们的平台上表达自己的观点。
人工智能是解决上述挑战、阻止假消息传播的一大利器;如果没有它,我们只能靠审核员来逐条核查内容的真假,而有了它,我们能够大规模扩展这种核查工作。我们与全世界超过 60 家事实审核机构建立了合作,它们对五十多种语言的内容进行审核。疫情爆发以后,我们利用已有的和新建的人工智能系统,获取与 COVID-19 相关、且被审核标记为“虚假”的消息;当有人试图分享这些假消息时,我们的系统就能够检测出来。
除了检测假消息,我们的人工智能系统也在帮助我们应对疫情之下的其它一些挑战。我们新建了基于计算机视觉的分类器,以帮助执行关于医用口罩和其他产品的广告和商业清单的临时禁令。因为人们有时候会通过修改关于这些产品的广告来逃避系统检测,所以我们也使用基于局部特征的实例匹配方法,来找到在社交媒体上大规模发布的此类消息。在大多数情况下,我们能做到先发制人——在其他人标记出这类信息并且发给我们之前,我们就已经将它们检测出来了。
在四月份,根据与我们有合作的事实审核机构发送的大约 7,500 篇文章,我们给 Facebook 上与 COVID-19 相关的大约 5000 万条内容打上了“警告”的。自 3 月 1 日以来,我们移除了 250 多万条在平台上售卖口罩、洗手液、消毒纸巾和病毒测试包的内容。尽管小有成就,依旧困难重重,我们的工具远远未臻至善。此外,这些挑战的对抗性也注定了我们斗争的长期性。在这篇博文中,我们主要谈谈我们在计算机视觉方面的一些工作,但解决这些问题需要多种人工智能技术共同发力,例如多模态内容理解。虽然任重而道远,但我们有信心在现有工作的基础上,进一步改善我们的系统,使人们免受与疫情相关的有害消息的侵扰。
用人工智能拓展审核,阻止假消息传播
任何人都能轻易看出,这些图像极度相似。乍看之下,我们甚至难以分辨其中的差异。然而,计算机视觉系统却难以准确检测到这类相似匹配,因为虽然它们的实质内容相同,但是对应位置的像素却不同。至关重要的是,这类相似性检测系统必须尽可能精准,因为一个误判就可能导致对实际上并没有违反政策的内容的误动作。下面的例子展示了另一个非常相似的版本,但这个版本就不应该被判定为假消息。
当一条内容被我们的独立事实审核伙伴判定为“假”时,我们就会减少它的传播,并在更多文本上显示“警告”标记。(更多细节参加此处。)正如前文所述,这些“警告”标记是对抗假消息的一大利器。当人们被警告说,在某条内容里包含假消息时,他们就会有 95% 的概率不去看那条内容。
SimSearchNet 是一个专为检测极相似副本而构建的、基于卷积神经网络的模型,它如今正帮助我们以更有效的方式工作。一旦审核机构判定某张图片包含关于冠状病毒的误导性或不实消息,SimSearchNet 作为我们的端到端图片索引和匹配系统的一部分,就能识别出与该图片极其相似的一些图片,这样我们就能在这些图片上也显示“警告”标记。
这一点尤为关键,因为每一条被审核员判定为“假”的内容,都可能有成千上万的副本。用人工智能来检测出这些相似的副本,也让我们的审核伙伴能全神贯注于捕捉新的假消息,而不必反复标注旧的假消息的各种相似版本。
SimSearchNet 是 Facebook 人工智能研究员、工程师和其他员工多年来共同努力的成果。它诞生的基础是 Facebook 多年的计算机视觉研究——具体地说,是构建能帮助我们对大规模照片进行索引和快速查找的稠密表示的研究。
它也使用了一个类似于检测其他有害内容时用到的大规模匹配架构。对每张被上传到 Instagram 和 Facebook 的图片,系统都会运行一次,对其进行检查,与特定任务下的人工数据集进行比对。这样一来,每天可以检测数十亿张图片,每张都与 COVID-19 假消息数据库进行了比对。
阻止有关 COVID-19 的产品销售,即使人们故意逃避审核
自疫情危机爆发以来,我们就在努力保护人们免受黑心商家的欺骗。为了更好地检测并移除有关医用口罩、洗手液、消毒纸巾、 COVID-19 测试包等产品的广告,我们使用了一个系统,根据图像级别的局部特征来检测被窜改过的广告。这让我们能够主动出击,阻止企图绕过智能检测系统来躲避监管的广告发布者。
我们提取与 COVID-19 相关且违反政策的广告,建立并维护一个对象级别的数据库然后应用实例匹配方法,对新发布广告中的图像进行检查。这种基于局部特征的匹配方法,让我们能更好地检测出由拼接产生的广告,从而更能抵御以躲避监管为目标的常用窜改策略,如裁剪、旋转、遮挡和加噪。这个基于实例匹配结果的系统,目前已经可以自动移除广告。
我们也在其他下游的广告集成系统中,使用实例匹配进行了数据增强,以辅助执行与 COVID-19 相关的政策。例如,我们把从广告中检测出的口罩图像进行裁剪,然后应用实例匹配方法,来检测其他各种医用口罩的图像。有了这个增强数据集,就可以重新训练我们的广告分类器,让它对窜改过的图像有更好的鉴别能力。相比于单纯使用匹配方法,通过利用广告分类器检测到的样例(进行数据增强),我们能移除的违法口罩广告数量增加了 10 倍以上。
快速训练销售场景下的视觉模型
当人们通过市场售卖商品时,他们用的图片在背景、角度、细节和整体质量上往往各不相同。相比于专业摄影师在朴素背景下拍摄并分类的照片,这种参差不齐的照片导致视觉模型更难从中识别出核心商品。
近年来,我们使用了多个特定领域下的改善措施,在富有挑战性的真实场景中,构建出数百个表现优秀的分类和目标检测模型。从这个过程得到的经验教训,促使我们在 PyTorch 基础上开发了一个平台,在平台上能够根据图像、视频中新的类别需求,快速地训练和部署分类器/检测器。这个平台融合了 Facebook AI 通过上亿条带标签照片来训练模型骨架的开创性工作。平台也使用数据增强技术,对模型进行引导,在数据量有限的情况下也能应对市场商品多样性的挑战。
在新冠病毒危机爆发以后,我们用这个平台训练并部署了针对医用口罩、洗手液、消毒纸巾的分类器。我们首先收集关于这些商品的公开图片,然后对数据集进行调整和增强。为提高精度,我们也加入了数千张“负样本”图片——比如并非口罩、但可能导致模型误判为口罩的一些图片。经过训练和离线评估以后,我们在商品推断平台上实现了这个构想,并回过头将它应用在市场的商品图片上。如今,这些模型已经在销售平台上全局运行。
我们打算继续推进对平台的研发、对上述模型的改进,尤其是在反馈环路能够为我们提供更多数据的情况下。在这一步得到的分类信号,也可以被下游的多模态分类器利用,其目标是从市场的角度进行整体分析。
检测假消息和有害内容,不止步于此
假消息和售卖违禁物品的问题,在 COVID-19 疫情之前就已存在。为应对诸如此类的挑战,Facebook 长期投入于研究视觉推理系统和多模态理解、开发新的自监督学习技术、并构建能快速将研究成果落地并规模化生产的深度学习平台。
如我们所见,几年前还在象牙塔里的尖端技术,如今已经能给我们的生产带来实实在在的提升。我们相信,通过应用新的研究技术和工具,我们能为平台的用户提供更好的保护。
原文链接
注:选题来自雷锋字幕组提供的选题。
本文为雷锋字幕组“触摸世界前沿科技 | 翻译征文 ”活动收录稿件