全新突破!腾讯优图斩获ACM MM2020多目标跟踪全球挑战赛冠军

近日,腾讯优图实验室提出密集场景下的框级超平面匹配跟踪算法BPM(Box-Plane Matching),在人工智能多媒体领域顶级会议ACM MM2020举办的HiEve多目标跟踪(MOT)挑战赛中取得第一。

该比赛以其大规模的密集行人数据、任务的多样性,吸引了国内外众多商业公司和学术机构的参评,包括亚马逊、依图科技、大华、香港中文大学、中山大学、新加坡国立大学等。基于自研的“如影”跟踪平台,腾讯优图队伍最终获得挑战赛冠军,详细的官方榜单如图1所示。

相关论文(Dense Scene Multiple Object Tracking with Box-Plane Matching)已被ACM MM2020接收,BPM算法的前身TPM算法(TPM:Multiple Object Tracking with Tracklet-Plane Matching)已被期刊Pattern Recognition接收

图1  BPM在ACM MM2020举办的HiEve多目标跟踪挑战赛中的榜单排名

优图对比赛中的跟踪结果进行了可视化,以下展示了几段具有代表性的结果视频,可以发现,虽然场景非常复杂,人群密集且遮挡严重,同时为了进一步增加比赛难度,比赛官方提供的检测器精度也不高,但优图的BPM算法仍然可以得到十分准确的跟踪结果。

多目标跟踪(MOT)技术是计算机视觉领域中一项重要的基础技术,其目的是对视频中所有的感兴趣目标同时跟踪,并得到完整的目标轨迹,如图2所示。MOT在自动驾驶等领域都有着广泛的应用,包括客流计数、动作识别、动作检测等技术也依赖于多目标跟踪技术。

图2  多目标跟踪算法示意图

而相比于一般场景,密集场景下的多目标跟踪具有更大的挑战性,密集场景中目标遮挡严重,而且容易产生误检,很容易导致目标的跟错和轨迹的中断,如图3和图4所示,因此,密集场景下的多目标跟踪算法研究具有十分重要的意义。

图3  目标遮挡容易导致目标的跟错

图4  误检容易导致轨迹的中断

此次比赛所使用的HiEve数据集是目前规模最大的人体跟踪公开数据集,包含32段视频,共49820帧,以及1302481个人体标注框和2687段人体标注轨迹。数据集场景十分复杂,行人密集且遮挡严重,如图5所示,因此跟踪难度极大。图5中的黄色框即为HiEve官方所提供的检测框,由Faster RCNN检测器生成,由于遮挡严重且存在很多小目标,因此检测难度也较高,误检和漏检都较为严重,进一步加大了跟踪的难度。

图5  HiEve数据示意图

与其他的多目标跟踪算法相比,优图提出的算法主要有三点创新:

1

提出框级超平面匹配算法(BPM,Box-Plane Matching),通过自适应构建超平面的方式对同一时段所有目标的跟踪分而治之,适于处理大规模人体跟踪任务;

2

引入基于多层融合机制的人体判别模型(LADM,Layer-wise Aggregation Discriminative Model ),能有效去除误检,提高跟踪效果;

3

设计基于全局注意力图的人体特征模型(GAFM, Global Attention Feature Model),可获得鲁棒性较强的人体外观特征。

优图提出的算法框图如图6所示,对于输入的检测框,首先使用人体判别模型过滤掉误检框,再通过人体特征模型提取每个检测框的外观特征,最后自适应构建超平面从而将当前帧的检测框与历史轨迹进行匹配,完成跟踪。

图6  框级超平面匹配跟踪算法BPM的框架流程图

由于误检较多,所以跟踪的第一步是训练一个人体判别模型来过滤误检,考虑到训练数据和测试数据分布差异较大,为了避免过拟合,优图借鉴了集成学习算法bagging中的“投票”思想,使用多个特征图进行预测,之后进行自适应加权平均,作为最终的输出。其中权重是网络中可以学习的参数,在训练过程中不断更新。

图7  基于多层融合机制的人体判别模型

筛选完检测框后,为了准确地对检测框进行匹配,需对检测框crop出的图片提取外观特征以计算相似度,由于视频拍摄视角、距离的多样性,导致人体图像差异较大且遮挡严重,为此优图引入全局注意力图来增强网络的学习能力和表达能力。将空间注意力图和通道注意力图相乘得到全局注意力图。原特征图和全局注意力图对位元素相乘,即可得到attention后的特征图。

图8  基于全局注意力图的人体特征模型

得到筛选后检测框的特征后,可以依此计算跟踪过程中当前帧检测框与历史轨迹的相似度矩阵,再基于相似度矩阵自适应构建框级超平面,可将代表同一目标的检测框和轨迹划分至同一超平面中,将容易混淆的检测框和轨迹划分至不同超平面中,再通过Kuhn-Munkres算法对所有超平面内部的检测框和历史轨迹进行关联,即可完成轨迹的更新,得到准确的跟踪结果。

腾讯优图作为腾讯旗下顶尖的人工智能实验室之一,深耕计算机视觉领域,取得了丰硕的成果。腾讯优图多目标跟踪技术应用场景广泛,为助力各个行业发挥了重要作用。未来腾讯优图将继续夯实研究,推进AI技术落地发展。