优Tech分享 | 时序动作分析技术的研究与应用

随着全球科技水平发展和深度学习技术的成熟,互联网迎来人工智能时代。计算机视觉是人工智能研究的重要领域,时序动作分析与研究更是成为当下热点,在短视频推荐、智慧教育等众多领域有广阔市场和应用前景。

12月14日,腾讯优图举办了优Tech线上沙龙,实验室高级研究员栋豪围绕《时序动作分析技术的研究与应用》进行了直播分享,重点解析了优图在时序动作识别和检测两个领域的最新研究成果,简述了时序动作分析技术的应用及展望。

动作分析研究领域涵盖诸多细分方向,诸如时序动作定位、事件检测和描述、实体对象定位、动作识别、时空动作检测等。此次栋豪主要介绍了两个方向:动作识别和动作检测。

普遍意义上的动作识别是给一定裁剪好的视频,基于多帧RGB图像序列进行动作类型的判断,如果在动作识别前加一个约束,“基于骨架的”动作识别,就是通过二维关键点或三维关键点进行动作类型的识别,关键点可以通过专门的设备或算法来获取。

那什么是动作检测呢?动作分析领域的检测,又可以细分成不同的子方向,如:时序动作提名、时序动作定位、时空动作检测等。时序动作提名,要解决的是在哪些时间区间有动作发生的问题,本质上它其实是二分类问题,只需确定有无动作即可。除了确定动作区间外还需要确定动作类型的话,时序动作定位解决的是在哪些时间区间内发生了什么动作的问题。时空动作检测在时序动作的基础上又更进一步,它要解决的是在哪些时间区间谁做了什么动作的问题,除了区间和类型还需要判断动作主体在空间上的位置。

今天给大家分享的相关研究,动作识别领域的研究主要集中在RGB图像序列的动作识别,动作检测领域主要集中在时序动作提名和时序动作定位这两个子方向。

那动作识别到底研究的是什么问题呢?其核心的研究问题是如何对时空特征进行有效提取。动作识别领域在学术领域有两类比较典型的数据集:一类是以something-something为代表的时序性较强的数据集,另一类是以Kinetics为代表的时序性较弱的数据集。动作识别领域此前有一些比较经典的工作,诸如:TSN、3D&(2+1)D、Non-Local、SlowFast、TSM等,以上这些工作在两种类型的数据集上各有不同的效果。

栋豪表示,优图在动作识别领域也做了一些自研工作,最近主要有三篇学术研究,一是发表在AAAI 2020的TEINet: Towards an Efficient Architecture for Video Recognition;二是发表在ECCV 2020的Temporal Distinct Representation Learning for Action Recognition (TDRL);三是被AAAI 2021接收的Learning Comprehensive Motion Representation for Action Recognition (CMR)。

优图自研的TEINet工作受TSM这种高效的时序建模方法启发,并在此基础上进行优化和改进。TEINet主要有两个创新点,一是提出TIM(Temporal Interrection Module)模块,在TSM移动时序交互方式的基础上,利用depth-wise 卷积实现时序特征融合,相对于TSM那种按照固定规则去移动的方式更有优势。二是提出MEM(Motion Enchancement Module)模块,利用运动信息来对运动特征进行一个增强,其本质是利用帧间差异增强运动特征。

谈及优图自研工作TDRL时,栋豪指出TDRL的核心目的是增强各帧之间独特的信息,从而达到丰富视频特征的目的,对此,优图提出了两个模块:PEM(Progressive Enhancement Module)和TD Loss(Temporal Diversity Loss)。

栋豪表示,TEINet工作中的MEM模块是用两帧之间的差来对当前帧进行特征增强,PEM则是累加,从一开始到当前帧的增强历史信息都会被记录,对当前帧的增强就可以借鉴历史信息和当前帧信息,从而做出决策该如何对当前帧进行特征增强。消融实验和可视化结果均证明,PEM可有效增强与运动相关的通道。

TD-loss模块思想很简单,就是不同帧尽可能保留自己独有的特征,让帧与帧之间的相似度越小越好。在TSM、TIM模块中添加TD-loss,帧间差异都有很明显的提升。

栋豪指出,前面两个工作的特征增强都集中在Channel维度上,而刚被AAAI 2021录用的工作CMR则是在Channel基础上又拓展了空间维度来做特征增强。该工作有两个创新点,一是解决如何进一步扩大Channel上特征增强时的感受野问题,提出CME模块,扩大至时序全局感受野;另一个是解决如何高效进行空间上的特征增强,提出SME模块。

ECCV 2020的工作TDRL,有一个问题就是增强不能并行。最新的CEM,除了能把感受野扩大至全局外,还能够做到并行,而且并行所达到的速度会比TEINet更快。

单纯看CME或SME,其实都超越了第一篇工作的TEINet,而且不仅是效果方面,在性能方面也有了显著提升。这两个模块结合起来使用,性能方面和TEINet水平差不多,但效果从47.7提升到了51.3,有一个非常明显的提升。

栋豪表示,动作检测要解决的是如何进行有效的时序定位,此前也有一些经典工作,如:SCNN、BSN、R-C3D等。优图也在此领域进行了创新的自研工作,其研究成果Fast Learning of Temporal Action Proposal via Dense Boundary Generator (DBG),被收录于AAAI 2020。

DBG在BSN的基础上做了改进,首先,BSN不是一个end-to-end的工作,而DBG是一个end-to-end 的工作;其次,BSN在提取proposal时的感受野是局部感受野,DBG则改进为proposal-level的更大的时序感受野;另外,DBG会评估所有proposal的可能性,在BSN里面每一帧会有三个属性,DBG每一个可能的proposal都会有三个属性。

DBG在THUMOS14、Activitynet这两个数据集上面都取得了比较好的效果,且获得了2019年ActivityNet动作提名赛道的冠军。另外,在性能方面也超越了BSN,速度与BSN相比有明显优势,对边界的预测非常准确。

在应用落地方面,栋豪表示,首先时序动作可以用在视频打标签,对影视数据进行合理分类后打上标签,这是进行智能化处理或推荐的前提步骤;二是可以作为时序活体完成任务;三是智慧教育,对老师或学生的动作进行分析,通过分析评估课堂质量,获取初步评价。

“当然目前在应用落地方面还存在一些问题,一是计算资源需求大,二是数据标注难度大,三是真实数据难获取。未来时序动作分析研究领域,有三个比较有潜力的研究方向,一是无监督学习,二是更高效的范式,若是能寻找到更高效的范式的话,计算资源需求大的问题就能迎刃而解,三是自动化的网络搜索。”栋豪说道。

作为腾讯下顶级人工智能实验室之一,腾讯优图一直聚焦计算机视觉,专注人脸识别、图像识别、OCR、机器学习、数据挖掘等领域开展技术研发和行业落地。未来优图还将持续在时序动作分析领域深耕,解决应用落地难题,让时序动作分析技术落地生花。

⬇️ 赶紧点击「 阅读原文 」,回看这场精彩的直播分享。