论文解析丨基于BSN算法改进的动作时序检测BMN算法论文解析
编者按
随着互联网视频数量的快速增长,视频内容分析方法受到了学术界和业界的广泛关注。时间动作检测是视频内容分析领域的一项重要任务,其目的是在既有动作类别又有时间边界的未裁剪长视频中定位动作实例。与目标检测类似,时间动作检测方法可以分为两个阶段:时间动作提议生成和动作分类。虽然动作识别方法可以达到令人信服的分类精度,但在主流基准中检测性能仍然较低[14,5]。因此,许多最近的方法都致力于提高时序动作提名的质量。
BMN: Boundary-Matching Network for Temporal Action Proposal Generation
1. Introduction
为了提高提名的质量,提名生成方法应该:(1)生成时间灵活、边界精确的时间提案,精确、详尽地覆盖ground – truth action实例;(2)生成可靠的置信度分数,使提名可以被正确检索。
现有的大多数提案生成方法[3,4,8,23]采用“自上而下”的方式,在规则的间隔内生成具有多尺度时间滑动窗口的提名,然后分别或同时评估提案的置信度得分。这些方法的主要缺点是生成的建议通常在时间上不够精确,或者不够灵活,不能涵盖持续时间不同的真实行动实例。
最近,边界敏感网络(BSN)[17]采用了“自底向上”的方式生成提名,分为两个阶段:(1)定位时间边界并将边界合并为提案;(2)利用构造的提案特征评估每个提名的可信度得分。通过利用局部线索,BSN可以生成比现有的自上而下方法更精确的边界和更灵活的时间。
但BSN存在三个主要缺陷:
(1)对每个提名分别进行提名特征构建和置信度评估程序,导致效率低下;
(2) BSN中构造的proposal feature过于简单,无法捕捉足够的时间上下文;
(3) BSN是多阶段的,但不是一个统一的框架。
我们能否在丰富的背景下同时评估所有提名的可信度?自上而下的方法[18,2]可以通过锚定机制轻松实现这一点,锚定机制将提案预先定义为非连续的分布式锚。但是,由于提名的边界和期限要灵活得多,锚定机制不适合BSN等自下而上的方法。
图 1:我们方法的概述。给定一个未裁剪的视频,BMN可以同时生成(1)边界概率序列来构造建议,(2)边界匹配置信图来密集评估所有建议的置信度。
为了提高提名的质量,提名生成方法应该:
(1)生成时间灵活、边界精确的时间提案,精确、详尽地覆盖ground – truth action实例;
(2)生成可靠的置信度分数,使提名可以被正确检索。
现有的大多数提案生成方法[3,4,8,23]采用“自上而下”的方式,在规则的间隔内生成具有多尺度时间滑动窗口的提名,然后分别或同时评估提案的置信度得分。这些方法的主要缺点是生成的建议通常在时间上不够精确,或者不够灵活,不能涵盖持续时间不同的真实行动实例。最近,边界敏感网络(BSN)[17]采用了“自底向上”的方式生成提名,分为两个阶段:
(1)定位时间边界并将边界合并为提案;
(2)利用构造的提案特征评估每个提名的可信度得分。
通过利用局部线索,BSN可以生成比现有的自上而下方法更精确的边界和更灵活的时间。但BSN存在三个主要缺陷:
(1)对每个提名分别进行提名特征构建和置信度评估程序,导致效率低下;
(2) BSN中构造的proposal feature过于简单,无法捕捉足够的时间上下文;
(3) BSN是多阶段的,但不是一个统一的框架。
我们能否在丰富的背景下同时评估所有提名的可信度?自上而下的方法[18,2]可以通过锚定机制轻松实现这一点,锚定机制将提案预先定义为非连续的分布式锚。但是,由于提名的边界和期限要灵活得多,锚定机制不适合BSN等自下而上的方法。为了解决这些困难,我们提出了边界匹配(BM)机制来评估密集分布的提议的置信度。在BM机制中,将一个提名表示为其起始边界和结束边界的一对匹配对,然后将所有的BM对组合为一个二维BM置信图,以表示密集分布且起始边界和时间持续时间连续的提议。因此,我们可以通过BM置信度图同时生成所有提名的置信度得分。提出了一种基于时间特征序列生成BM特征图的BM层,利用一系列的卷积层从BM特征图获得BM置信度图。BM特征图包含了每个提名的丰富特征和时间上下文,并为开发相邻提案的上下文提供了潜力。总之,我们的工作有三个主要贡献:
-
我们引入了边界匹配机制来评估分布密集的建议的置信度,该机制可以很容易地嵌入到网络中。
-
我们提出了一种高效、有效、端到端的时间动作提议生成方法——边界匹配网络(BMN)。在BMN的两个分支中同时生成时间边界概率序列和BM置信图,并将其联合训练成统一的框架。
-
大量的实验表明,与目前最先进的方法相比,BMN可以获得明显更好的提议生成性能,具有显著的效率、良好的泛化性和较好的时间动作检测任务性能。
2. Related Work
2.1 行为识别
动作识别是视频理解领域的一项基本而重要的任务。手工制作的特征如HOG、HOF和MBH在早期的著作中被广泛使用,如improved Dense Trajectory (iDT)[29,30]。近年来,深度学习模型在动作识别任务中取得了显著的性能提升。主流网络分为两类:双流网络[9,24,32]分别利用RGB图像和堆叠光流的外观和运动线索;3D网络[27,21]直接从原始视频量中利用外观和运动线索。在我们的工作中,我们按照惯例,采用动作识别模型来提取未裁剪视频的视觉特征序列。
2.2 相关匹配
相关匹配算法广泛应用于图像配准、动作识别和立体匹配等计算机视觉任务中。立体匹配是指从立体图像中找到相应的像素点。对于矫正后的图像对左图像中的每个像素,立体匹配方法需要沿水平方向在右图像中找到相应的像素,或者说以最小的代价找到右像素。因此,所有左像素的最小成本可以表示为成本体积,表示每个左像素对作为体积上的一个点。在cost volume的基础上,近年来的许多著作[26,20,16]采用相关层[20]或特征拼接[6],通过结合两个特征映射直接生成cost volume来实现端到端网络。受cost volume的启发,我们提出的BM置信度图包含一对时间开始和结束边界作为提名,因此可以使用卷积层直接为所有提名生成置信度得分。提出了一种BM层算法,通过对每个方案的起始边界和结束边界进行采样,有效地生成BM特征图。
2.3 时序动作提名
如前所述,时序动作检测任务的目标是检测未修剪视频中具有时间边界和动作类别的动作实例,分为时间提议生成和动作分类两个阶段。这两个阶段在大多数检测方法中被分开[23,25,35],在一些方法中被合并为单一模型[18,2]。对于提名生成任务,以往的作品[3,4,8,12,23]大多采用自顶向下的方式生成具有预定义时间和时间间隔的提案,其主要缺点是缺乏边界精度和时间灵活性。也有一些方法[35,17]采用自下而上的方式。标签[35]使用时间分水岭算法生成建议,但缺乏检索的置信度。近年来,BSN[17]通过局部定位时间边界和全局评估置信度来生成建议,与以前的建议生成方法相比,取得了显著的性能提升。在这项工作中,我们提出了边界匹配机制来评估提议的可信度,这大大简化了BSN的流程,并在效率和有效性方面带来了显著的提升。
图2。BM置信图图解。同一行中的提案具有相同的时间持续时间,同一列中的提案具有相同的开始时间。由于右下角建议的结束边界超出了视频的范围,所以在训练和推理时不考虑这些建议。
3. Our Approach
3.1 问题公式化
图3 BM层图。对于每个提名,我们在采样权值和时间特征序列之间进行T维点积,生成形状为C×N的BM特征。
3.4 边界匹配网络
与BSN[17]的多级框架不同,BMN同时生成局部边界概率序列和全局建议置信度图,同时在统一框架下对整个模型进行训练。
如图4所示,BMN模型包含三个模块:
表1。BMN的详细架构,其中基本模块的输出特征序列由时间评估和提案评估模块共享。T和D分别为输入特征序列长度和最大提案持续时间。
时序评估模块(TEM)
TEM 的目标是评估未裁剪视频中所有时间点的起始和结束概率,这些边界概率序列用于在后处理过程中产生提名。
提案评估模块(PEM)。
PEM的目标是生成边界匹配(BM)置信度图,该置信度图包含对分布密集的提名的置信度值。为此,PEM包含BM层和一系列的3d、2d卷积层。如3.3节所述,BM层通过S与采样掩码权值W在时间维度上的矩阵点积,将时间特征序列S转移到BM特征映射 M_F。
在生成BM feature map M_F后,我们首先在样本维数上进行conv3d1层,将维数长度从N减少到1,将隐藏单位从128增加到512。
然后,我们引入了conv2d1层和conv2d2层,其中conv2d层采用1×1核来减少隐含单元,conv2d2层采用3×3核来捕获相邻建议的上下文。
最后,我们通过sigmoid激活生成了两种BM置信映射M_CC,M_CR∈R^{D×T} M ,其中M_{CC}和M_{CR} 分别使用二元分类和回归损失函数进行训练。
5. Conclusion
在本文中,我们引入了边界匹配机制来评估分布密集的建议的置信度,该机制是通过将建议表示为BM对,并将所有建议组合为BM置信度映射来实现的。同时,我们提出了边界匹配网络(Boundary-Matching Network, BMN),用于有效和高效地生成时间动作提议,BMN通过结合高概率边界生成具有精确边界和灵活时间的提议,同时基于BM机制为所有提议生成可靠的置信度分数。大量实验表明,无论是在提议生成还是时间动作检测任务上,BMN都优于其他最先进的提议生成方法,具有显著的效率和通用性。