学术资讯 | 优Tech分享-优图检测跟踪算法研究概览

自2012年AlexNet以显著优势获得ILSVRC(ImageNet大规模视觉识别挑战赛)冠军以来,业界迅速掀起了深度学习研究的热潮。借助深度学习的进步,计算机视觉领域的检测、跟踪方向也取得了显著发展,涌现了众多性能优异的算法,如目标检测领域的faster-rcnn、R-FCN 、SSD、YOLO、RetinaNet等;目标跟踪领域的deepSort、subgraph multicut、tracktor、Siamese系列、GradNet等。

目标检测是在图像中定位出目标位置(通常以矩形框形式输出),目标跟踪分为单目标跟踪(SOT)和多目标跟踪(MOT)。SOT一般在首帧给出目标,跟踪器(tracker)需要在后续帧定位出目标位置,可以看成目标重定位问题。MOT一般需要检测器(detector)先检测出目标,跟踪器对属于同一目标的框进行关联,可以看作目标匹配问题。

从传感器获取视频流后,检测、跟踪往往是整个算法Pipeline的第一步,其结果输入给后续的识别、分割、关键点、人流计数等算法使用(如下图所示)

优图实验室以人脸、人体的检测、跟踪为基础,在检测、跟踪方向上持续创新,取得了一系列技术进展。并基于长期的技术积累,打造了“千寻”检测平台和“如影”跟踪平台,以不断集成我们自研算法,提升研究效率,如下图所示。

在检测、跟踪方向上的研究,我们大体上可分三个阶段(图中的Stage1-Stage3)

该阶段优图实验室以支持各业务线技术需求为主,同时在多目标跟踪、人脸检测、行人检测方向,进行常规探索。该阶段主要研究目标是提升通用场景下的模型效果,为此我们提出了TPM、DSFD、NMS-loss等算法,并在Pattern Recognition、CVPR上发表。

随着业务的拓展,部分产品提出了时序动作分析的需求,另外近年来学术界在时序动作方向的研究亦逐渐增多,为此优图拓展了时序动作检测(识别)技术。通常认为光流包含了视频的运动和时序信息,因此对光流的研究也很有必要。在这些方向上,优图实验室提出了DBG、TEINet、ARFlow自监督光流算法,并在AAAI、CVPR上发表。

基于前期的技术积累,我们进一步在更复杂、更广泛的检测跟踪问题上展开研究。为充分利用检测、跟踪两种算法模型的信息,优图在学术界首次提出基于两帧输入的检测跟踪一体化算法:ChainedTracker。

优图还尝试解决超密集场景下多目标跟踪技术难点,并参加了ACM MM HiEve挑战赛并获得第一。在内容审核业务中,提出了卡通人脸检测需求,支持业务的同时,优图实验室参加了IJCAI 2020 卡通脸检测挑战赛并获得冠军。

以上研究,优图基本上沿着由点到面、由一般到复杂的路径推进。一方面研究创新,支撑业务发展。另一方面业务拓展,需要研究不断进化。

截止目前,优图实验室在检测、跟踪以及相关方向上共发表了9篇顶会或期刊论文,刷新了14项挑战赛或数据集纪录。发表的Paper简介如下。

本文提出了一种基于轨迹超平面匹配的多目标跟踪算法(TPM),先将目标检测框聚合成高置信度短轨迹,再通过轨迹超平面匹配对短轨迹进行聚类和匹配,得到完整目标轨迹。此外,本文还提出了短轨迹重要性评估机制和代表目标选择网络,进一步提升跟踪效果,该算法同时刷新了MOT15、MOT16、MOT17榜单记录。

本文提出了一种双分支人脸检测器,提出了新的特征增强模块(FEM)、“分层锚点渐进式”的代价函数(PAL)以及“改进的锚点匹配策略”(IAM),该算法刷新了人脸检测两大数据集WiderFace、FDDB。

本文提出了两个层次化的图结构,构建了intra-proposal graph和inter-proposal graph,前者主要用于构造候选框之间的位置关系,后者用于构造行人不同部位之间的语义关系。基于这样的graph设计,我们的算法在Caltech、CityPersons上取得了很好的效果提升。

本文提出了一种快速、端到端的动作检测(动作提名)算法。提出了proposal feature generation layer(PFG),与之前方法比,PFG能更好的捕获全局特征。通过动作完整度回归模块,获得额外的action监督信息。该算法在刷新了ActivityNet榜单、THUMOS14数据集纪录。

为更好的提取时序特征,本文提出了时序增强和交互网络。它包含两个模块:运动增强模块(MEM)和时序交互模块(TIM)。其中MEM能够增强运动相关特征抑制无关信息,TIM可以补充更多的时序上下文信息。该算法刷新了Something-Something v2数据集纪录,并在Kinetics取得了出色效果。

本文提出了一种新的自监督光流估计方法- ARFlow,基于类比学习,我们仅使用一个model,通过我们提出的变换,将变换后的图作为自监督信息,指导模型训练。我们验证了我们的算法框架在多种变换上的有效性,我们的自监督方法可达到近些年监督方法的效果。该方法刷新了MPI-Sintel、KITTI无监督方法纪录。

本文提出了一种链式跟踪算法(Chained Tracker),业内首创两帧输入模式,实现端到端联合检测跟踪。模型设计上,将目标检测、特征提取、目标关联3个模块融合进入一个model进行全局优化。此外,我们设计了联合注意力模块(JAM),进一步提升效果。该算法也进一步刷新了MOT17纪录。

本文提出非对称式卡通脸检测器,使用非对称双向特征金字塔结构(ABi-FPN)进行多尺度特征融合,并采用动态锚点匹配策略(DAM)、margin loss提升训练效果。本文方法荣获IJCAI 2020 iCartoonFace挑战赛冠军。

本文提出了框级超平面匹配算法BPM,将大规模人体跟踪任务中的目标分而治之处理。然后引入了基于多层融合机制的人体判别模型LADM,去除误检候选框。本文还设计了基于全局注意力的人体特征模型GAFM,提升跟踪准确率。该方法荣获ACM MM 2020 HiEve多目标跟踪挑战赛第一名。

计算机视觉行业的蓬勃发展,需要研究不断创新;另外随着学术研究的不断深入,也需要不断加强与业界的交流。因此,优图实验室不但开源已有研究成果,而且与来自世界各地的研究者、开发者讨论碰撞,从而进一步提升我们的研究水平。

目前优图在检测、跟踪方向对外开源了4项成果,累计获得4300+ star,分别是:

1、DSFD高精度双分支人脸检测器

2、一阶段通用目标检测库OneDet

3、时序动作检测算法DBG

4、卡通脸检测算法ACFD

▶  开源成果见://github.com/TencentYoutuResearch/

随着视觉行业应用的不断拓展,作为基础的检测、跟踪基础技术仍将是刚需。但随着常规问题的解决,检测、跟踪领域的研究也出现了一些新的发展趋势,例如从常规的2D目标检测到3D目标检测、从单帧输入的图像目标检测到时序动作检测、从单一的目标框的检测到目标之间的关系检测等。跟踪方向上,相较于之前的“目标框”跟踪,向“像素级”跟踪发展。

此外更加实用化的MOT方法受到越来越多人的关注,例如检测跟踪的联合(JDT)。未来,优图实验室在持续深耕检测、跟踪技术的同时,将探索更多相关的前沿方向,为业务发展提供坚实技术保障。