AAAI 2021 | 腾讯优图11篇论文入选，涵盖动作识别、人群密度估计、人脸安全等领域

2020 年 12 月 11 日
AI
OpenCV, 三维模型, 光学字符识别, 再识别, 分类与分割, 图像分割, 图像分类, 图像描述, 图像检索, 图像生成, 图像识别, 图像语义分割, 图像风格转换, 姿态检测, 实例分割, 文本检测, 智能视频理解, 模式识别, 目标检测, 目标追踪, 虹膜识别, 行人检测, 行人重识别, 视觉显著性, 计算机硬件, 超分辨率

近日，国际人工智能顶级会议AAAI 2021公布了论文录取结果。AAAI是人工智能领域最悠久、涵盖内容最为广泛的国际顶级学术会议之一。AAAI 2021一共收到9034篇论文提交，其中有效审稿的数量为7911篇，最终录取数量为1692篇，录取率为21.4%。

AAAI(Association for the Advance of Artificial Intelligence), 即美国人工智能协会，是人工智能领域的主要学术组织之一，其主办的年会也是人工智能领域的国际顶级会议。在中国计算机学会的国际学术会议排名以及清华大学新发布的计算机科学推荐学术会议和期刊列表中，AAAI 均被列为人工智能领域的 A 类顶级会议。

本次AAAI 腾讯优图实验室共入选了11篇论文，涉及动作识别、人群密度估计、人脸安全等领域，展现了腾讯在计算机视觉领域的技术实力。

以下为部分腾讯优图入选AAAI 2021的论文：

运动特征在动作识别中起到非常重要的作用。基于2D CNN的方法虽然高效，但是由于对每一帧都采用相同的二维卷积核，会产生大量的冗余和重复特征。近期有一些工作通过建立帧间的联系获取运动信息，但是依然存在感受野有限的问题。此外，特征的增强依旧只在通道或者空间维度单独进行。

为了解决这些问题，我们首先提出了一个通道特征增强模块（CME）自适应地增强与运动相关的通道。增强系数通过分析整段视频的信息获得。根据相邻特征图之间的点对点相似性，我们进一步提出了一种空间运动增强（SME）模块，以指导模型集中于包含运动关键目标的区域，其背后的直觉是背景区域的变化通常比视频的运动区域慢。通过将CME和SME集成到现成的2D网络中，我们最终获得了用于动作识别的全面运动特征学习方法。

我们的方法在三个公共数据集上取得了有竞争力的表现：Something-Something V1＆V2和Kinetics-400。特别是在时序推理数据集Something-Something V1和V2上，当使用16帧作为输入时，我们的方法比之前最好的方法高2.3％和1.9％。

本文提出了一种高效地充分利用网络内部多尺度特征表示的方法，能够有效解决人群密度估计中的大范围尺度变化问题。具体的，考虑到每层特征都有各自最擅长预测的人群尺度范围，本文提出了一种图像块级别的特征层选择策略来实现尽可能小的计数误差。显然，在没有人群尺度标注信息的情况下，任何人工指定人群尺度与特征层对应关系的方法都是次优的并会带来额外误差。

相反，本文提出的尺度自适应选择网络SASNet可以自动地学习这种对应关系，并通过软选择的方式来缓解离散的特征层与连续的人群尺度变化之间的矛盾。由于SASNet为同一图像块内相似尺度的人群选择同一特征层，直接使用传统的像素级损失函数会忽略图像块内部不同样本间各异的学习难度。

因此，本文还提出了一种金字塔区域感知损失（PRA Loss），从图像块级别开始以一种自上而下的方式迭代地选择最困难的样本来优化。鉴于PRA Loss能够根据上层父图像块是过预测还是欠预测来选择困难样本，因此还能够缓解业界普遍面临的训练目标最小化和计数误差最小化之间不一致的问题。我们的方法在多达四个公开数据集上取得了优异的性能。

相比于图像表征学习，视频表征学习中的一个重要因素是物体运动信息(Object Motion)。然而我们发现, 在当前主流的视频数据集中, 一些动作类别会和发生的场景强相关, 导致模型往往只关注了场景信息。比如，模型可能仅仅因为发生的场景是足球场，就将拉拉队员在足球场上跳舞的视频判断成了踢足球。

这违背了视频表征学习最初的目的，即学习物体运动信息，并且不容忽视的是，不同的数据集可能会带来不同的场景偏见(Scene Bias)。为了解决这个问题, 我们提出了用两个简单的操作来解耦合场景和运动(Decoupling the Scene and the Motion, DSM)，以此来到达让模型更加关注运动信息的目的。

具体来说, 我们为每段视频都会构造一个正样本和一个负样本，相比于原始视频, 正样本的运动信息没有发生变化，但场景被破坏掉了，而负样本的运动信息发生了改变，但场景信息基本被保留了下来。构造正负样本的操作分别叫做Spatial Local Disturbance和Temporal Local Disturbance。

我们的优化目标是在隐空间在拉近正样本和原始视频的同时，推远负样本。用这种方式，场景带来的负面影响被削弱掉了，而模型对时序也变得更加敏感。我们在两个任务上，用不同的网络结构、不同的预训练数据集进行了实验验证，发现我们方法在动作识别任务上，在UCF101以及HMDB51数据集上分别超越当前学界领先水平8.1%以及8.8%。

最近的基于深度学习的超分辨率（SR）方法在具有已知降质的图像上取得了卓越的性能。但是，这些方法在现实世界中总是会失败，因为理想退化（例如，双三次降采样）之后的低分辨率（LR）图像会偏离真实源域。在频率密度上可以清楚地观察到LR图像和真实世界图像之间的域间隙，这启发我们显式地缩小由于不正确的降质而导致的间隙。

从这个角度出发，我们设计了一种新颖的频率一致性自适应方法（FCA），能够确保将现有SR方法应用于真实场景时保持频域一致性。我们从无监督的图像中估计退化内核，并生成相应的LR图像。为了给核估计提供有用的梯度信息，我们提出了通过区分不同尺度图像的频率密度的频率密度比较器（FDC）。

基于域一致的LR-HR对，我们训练了易于实现的卷积神经网络（CNN）SR模型。大量实验表明，所提出的FCA在真实环境下提高了SR模型的性能，以高保真度和合理的感知度获得了最先进的结果，从而为实际SR应用提供了一种新颖有效的框架。

基于域泛化的活体检测技术对未知场景有更好的泛化性，受到了工业界和学术界的广泛关注。已有的域泛化方法需要域标签的支持，然而在实际场景中，所收集到的往往是域信息不可知的混合数据。在这种场景下，大多数已有的方法是不可用的。而且域划分的方式可以有多种，因此单一固定的划分方法可能只是次优解。

为解决实际混合数据问题，我们提出了一种基于迭代式无监督子域划分的元学习方法。该方法无需域标签，通过高鉴别性的域特征实现子域划分，并通过元学习的方式进行模型的优化。具体来说，我们基于实例正则化定义了域信息表示，并设计了域表示学习模块（DRLM）来提取高鉴别性的域特征用以精准的域聚类。

此外，为了缓解离群点对聚类的阻碍，我们采用最大均值差异（MMD）来校正样本特征分布与先验分布的差异，以增强聚类的可靠性。实验结果表明我们的方法（D2AM）优于传统的域泛化方法，包括使用域标签的方法，为实际场景下活体技术的应用提供了有效框架。

随着人脸编辑技术的快速发展，人脸内容取证引起了广泛的关注。大多数现有方法往往利用二值类别标签或伪造区域等监督信息来解决人脸伪造检测任务。然而，由于没有考虑到局部区域间的关联，这些全局监督信息不足以学习到泛化性强的特征，往往容易过拟合。

为了解决这个问题，我们提出了一种通过局部关联学习来进行人脸伪造检测的新方法。具体而言，我们提出了一个多尺度局部相似性模块（MPSM），该模块通过衡量局部区域特征间的相似性来构造一种泛化性强、鲁棒性高的相似模式。

此外，我们还提出了一个RGB-频域注意力模块（RFAM）来融合RGB图像和频域信息，从而得到更全面的局部特征表示，进一步提高了相似模式的可靠性。大量的实验表明我们所提出的方法在多个数据集上优于现有的方法，同时详细的可视化也充分证明了我们方法的鲁棒性和可解释性。

现有行人重新识别（ReID）模型的训练目标是在当前批次样本上模型的损失减少，而与其他批次样本的性能无关。它将不可避免地导致模型过拟合到某些样本（例如，不平衡类中的头部数据，简单样本或噪声样本）。

目前有基于采样的方法通过设计特定准则来选择特定样本来解决该问题，这些方法对某些类型的数据（例如难样本，尾部数据）施加了更多的关注，这不适用于真实的ReID数据分布。

因此，本文将所选样本的泛化能力作为损失函数，并学习一个采样器来自动选择可泛化样本，而不是简单地推测哪些样本更有意义。更重要的是，我们提出的基于可泛化能力的采样器可以无缝集成到ReID训练框架中，该框架能够以端到端的方式同时训练ReID模型和采样器。实验结果表明，该方法可以有效地改善ReID模型的训练，提高ReID模型的性能。

小样本学习是根据少量的先验信息去对于目标目标类别进行分类。这些信息一般沉淀在一个深度模型中，用来对支持集和问询集进行匹配。本文的目标是利用对比学习的方法学习一个小样本植入模型，具体贡献如下：

本论文由腾讯优图实验室与厦门大学合作完成。

基于Transformer的结构近来在图像描述任务中取得了巨大的成功，这些模型的范式都是将目标regions编码成隐含特征实现描述的解码。然而，我们发现这些隐含特征仅仅涵盖了region级别的局部特征，忽略了考虑整张图片的全局特征的建模，使得模型难以进一步拓展在图像描述中的复杂多模态推理能力。

因此，这篇文章我们提出了一个新的模型GET，同时提取更为综合的全局信息并将全局信息作为自适应引导信号生成更为高质量的图像描述。具体而言，在该模型中，我们首先设计了一个全局加强的编码器和全局自适应的解码器，其中前者利用Transformer层级结构特点，提取层内-层间联合全局特征，后者则利用全局自适应控制器，控制全局特征融入解码器来指导图像描述的生成。本文在MS COCO数据集上的实验证明了我们相对于当前最先进模型的优势。

本论文由腾讯优图实验室与厦门大学合作完成。

由目标检测网络提取的区域特征在图像描述生成的发展中起着重要的作用。然而，这种特征中缺乏上下文信息和细粒度细节，而这正是网格特征的优点。本文提出了一种新的双层级特征协同Transformer，以实现两者的优势互补。

具体地说，在DLCT中，我们首先使用DWSA来挖掘它们的内在特性，并在其中引入综合关系注意力机制来嵌入几何信息。此外，我们还提出了LCCA模块，目的是解决这两个特征直接融合所产生的语义噪声问题，通过构造几何对齐图来精确对齐和增强区域和网格特征。

为了验证我们的模型，我们在基准数据集MS-COCO上进行了大量的实验，并在本地和在线测试集上实现了SOTA性能，在Karpathy 测试集上达到133.8%的CIDEr得分，在官方测试集上达到135.4%的CIDEr得分。

本论文由腾讯优图实验室与南京理工大学合作完成。

图嵌入旨在将节点/边编码为低维连续特征，已成为图分析的重要工具并被应用于图/节点分类，链接预测等任务。在本文中，我们提出了一种新颖的名为图博弈嵌入的图学习框架，以学习具有判别性的节点表示并对图结构进行编码。

受博弈学习理论的启发，节点嵌入被转换为博弈过程中玩家策略的选择/搜索过程，其中每个节点对应一个玩家，而每条边对应于两个玩家之间的交互。然后，定义了一个在理论上满足纳什均衡的收益函数以衡量图演化过程中参与玩家（节点）的收益/损失。

更进一步地，引入了一种合作与竞争机制以提高该框架的判别学习能力。在上述图博弈嵌入框架下，考虑节点的不同交互方式，我们提出了两种具体模型，即对交互图博弈嵌入模型和群组图博弈嵌入模型。

与现有的图嵌入方法相比，本文所提出的框架具有两个优点：（1）所设计的收益函数保证了图网络的稳定演化，满足纳什均衡且具有收敛性的理论保证；（2）所引入的协作和竞争机制可指导每个节点学习到区别于其他节点的优化策略，从而赋予图博弈嵌入框架以学习具有判别性特征的能力。我们在三个关于引文网络的公共数据集上对所提出的方法进行了评测，实验结果验证了其有效性。

AAAI 2021 | 腾讯优图11篇论文入选，涵盖动作识别、人群密度估计、人脸安全等领域

VirMach 便宜 VPS

QNews

AAAI 2021 | 腾讯优图11篇论文入选，涵盖动作识别、人群密度估计、人脸安全等领域

分享此文：

Related Posts

ICLR 2020上，Transformers 有何新动向？

腾讯优图年度主题曲《这就是优图》重磅上线，快来pick一下！

从民办三本到知名企业感知算法工程师

数据分析 | 最适合学习英语的Netflix电影和电视剧有哪些？

VirMach 便宜 VPS

QNews

热门搜寻