自动驾驶跑得好,行人行为意图建模和预测要做好

  • 2019 年 10 月 31 日
  • 筆記

作者 | 黄浴

出品 | AI科技大本营(ID:rgznai100)

【导读】上周,在《自动驾驶关键环节:行人的行为意图建模和预测(上)》文中,作者介绍了最近行人行为意图建模和预测的研究工作,本文为下半部分。

  • l SR-LSTM: State Refinement for LSTM towards Pedestrian Trajectory Prediction

2019年3月arXiv论文。

在人群场景中行人的可靠轨迹预测需要对他们的社会行为有深刻的了解。对这些行为已经有了大量的研究,而仍然很难完全通过手工规则来表达。基于LSTM网络的最新研究显示出其学习社交行为的强大能力。虽然这些方法都依赖于以前的邻居隐状态,但忽略了他们当前意图这个信息的重要性。为此,这里提出一个LSTM网络数据驱动状态细化模块(SR-LSTM,data-driven state refinement module for LSTM network),该模块激活了如何利用邻居当前意图,并通过消息传递(message passing)机制联合地迭代细化人群所有参与者的当前状态。

为了有效地提取邻居的社会影响,作者还引入了一种社会-觉察信息选择机制(social-aware information selection mechanism),该机制由逐元运动门(motion gate)和行人注意(pedestrian attention)组成,从相邻行人中选择有用的消息。

文章强调的:

1)邻居当前状态对于及时交互推断很重要。如图所示,在时间t预测女士时,考虑时间t(a)还是时间t -1(b)右侧男人的轨迹,可能会导致预测结果较大的偏差(虚线) 。

2)根据邻居的动作和位置自适应地从邻居中选择有用的信息。如图所示,(a)是从起点开始的LSTM隐神经元激活轨迹模式,其中每个颜色标记的轨迹模式都包含属于头20个隐神经元响应的数据库轨迹。(b)是三个行人交互的样本,二分(dyad)将如何注意左边的行人?

如图是SR-LSTM的框架图。状态细化模块被视为LSTM单元的附加子网,将行人对齐并更新行人的当前状态。细化状态用于预测下一个时间步的位置。

Vanilla LSTM(V-LSTM)一般是分别从行人轨迹中提取特征。和SR-LSTM的主要区别在于,状态细化(SR)模块通过行人之间传递消息来细化单元状态。SR模块输入是行人的三个信息源:行人当前位置、隐状态和LSTM单元状态。SR模块输出是细化的单元状态。

在行人轨迹预测任务中,进一步的细化可以提高交互模型的质量,表明行人交互中的意图协商。运动门设和行人注意两个模块为消息传递一起从相邻行人中选择重要信息。

最后是一些实验验证,SR-LSTM和V-LSTM、Social LSTM (S-LSTM)比较。首先,如图所示,SR-LSTM中行人的当前状态,特别是在行人改变意图的情况下可以及时相互完善。

其次,如图所示,SR-LSTM能够隐含解释常见的社会行为,从而给出适度的、相对较低误差的未来预测。

  • Pedestrian Path, Pose, and Intention Prediction Through Gaussian Process Dynamical Models

发表在2019年5月IEEE T-ITS的论文,工作相对较早,这里简单介绍一下。

行人路径预测改善了当前的自动紧急制动(AEB)系统。它可以提前1秒预测未来的行人路径、姿势和意图。本文方法基于平衡的高斯过程动力学模型(B-GPDM,balanced Gaussian process dynamical models),该模型将行人身体的关键点或关节提取的3D时间相关信息减少到一个位置和位移的低维空间。B-GPDM还推断它们未来的潜在位置并重建其相关观测值。

学习一个所有行人活动的通用模型通常产生较不准确的预测。这里提出的方法获得了四种活动类型的多个模型,即步行、停止、开始和站立,并选择最相似的模型来估计未来的行人状态。如图是基于B-GPDM方法的说明。该算法分为两个阶段:离线训练(顶部)和在线执行(底部)。行人不同活动的运动序列训练数据集,根据典型的穿过方向和活动类型,可分为8个子集,数据集中每个序列包含一个活动,得到一个B-GPDM。

实验结果是:步态开始后该方法在125毫秒检测到开始活动,准确度为80%;并在58.33毫秒之前识别出停止意图,准确度为70%。

  • StarNet: Pedestrian Trajectory Prediction using Deep Neural Network in Star Topology

2019年6月美团自动驾驶组发表在arXiv的论文。

由于行人之间的复杂互动,行人轨迹预测问题是一个巨大的挑战。先前的方法仅对行人之间的成对交互进行建模,这不仅过分简化了行人之间的交互,而且计算效率低下。StarNet具有星形拓扑结构,包括唯一的枢纽(hub)网络和多个主(host)网络。枢纽网络观察所有行人的轨迹,给出一个人际交互的全面描述。然后,每个与行人相对应的主网络将咨询该描述并预测未来的轨迹。下图是StarNet的结构图。

由于未来运动的不确定性,行人路径预测是一个巨大的挑战。常规方法通过手工制作的特征解决了这个问题。而数据驱动方法消除了手工制作特征的要求,并大大提高了预测行人轨迹的能力。但是,现有方法计算成对特征,在真实环境中过分简化交互。同时,在拥挤的场景中承受着巨大的计算负担。

与以前的方法相比,StarNet具有两个优点:

1)表示不仅描述成对相互作用,而且还描述集体相互作用;这样全面的表示使StarNet能够做出准确的预测。

2)有效地计算出一个行人与其他行人之间的交互;当预测所有行人的轨迹时,随着行人数量的增加,计算时间线性增加,而不是平方地增加。如图是StarNet预测坐标的过程。

枢纽网络同时获取所有观测的轨迹,并生成人群的综合表示r。该表示r包含人群的空间和时间信息,这是描述行人之间交互的关键。枢纽网络通过两个步骤生成表示r:1)在每个时间步生成人群的空间表示;2)将空间表示形式输入LSTM以产生时-空表示形式r。对于第i个行人,主网络首先嵌入观察轨迹Oi,然后将嵌入轨迹与时-空表示形式rt相结合,从而预测未来的轨迹。具体地,主网络通过两个步骤来预测未来轨迹:1)以观察轨迹Oi和时-空表示rt输入生成综合的表示;2)根据观测轨迹Oi和综合表示来预测第i个行人的未来轨迹。

看结果:如图4个场景的预测轨迹和相应的真实值,其中不同的颜色表示不同的轨迹,真实轨迹用点标记,预测的轨迹用三角形标记。

  • Social Ways: Learning Multi-Modal Distributions of Pedestrian Trajectories with GANs

发表CVPR 2019 workshop的论文。

本文提出了一种行人与他人互动的运动预测方法。它为场景的代理用生成对抗网络(GAN)采样合理的预测。由于GAN非常容易发生模式崩溃和掉落(mode collapsing and dropping),这个论文表明,最近提出的Info-GAN可以极大地改善多模式行人轨迹预测,避免出现这些问题。

与以前的工作不同,这个方法省去了训练生成器的L2损失项;原因是,尽管它收敛速度更快,但会导致严重的模式崩溃。通过对真实数据和合成数据的实验表明,所提出的方法可以生成更多样化的样本并保留预测分布的模式。特别是,该工作设计了一个玩具示例轨迹数据集,可评估不同保存预测分布模式方法的性能。

如图是轨迹预测问题的示意图。有了观察的感兴趣行人轨迹(用*表示)以及环境中其他行人的轨迹,系统能够建立可能轨迹的预测分布(虚黄线显示的两种模式)。

在决定行人的转向动作时,他/她会预测到不久的将来周围环境可能发生的变化。现在,由于邻居未来行动和意图的不确定性,这种预期不总是那么容易。在最新的基于NN运动预测系统中,输入是周围行人的最新观察集合。因此,从观测到NN网络预测轨迹的映射不会明确考虑邻居未来轨迹的不确定性和多模态性质。这样从某种意义上说,NN网络也希望学习这些,这样的期望难免过高。

在已知场景中所有代理持续时间τ的初始跟踪轨迹片段(tracklets)情况下,社交方式(Social Ways)GAN生成独立的随机轨迹样本,模拟训练数据中轨迹的分布。

下图是Social Ways GAN预测系统框图。黄色椭圆表示损失计算,虚线箭头表示反向传播的方向,粗体箭头带真实数据(GT)。

众所周知,GAN训练很困难,因为它可能不会收敛,当生成器和鉴别器之间不平衡时,梯度会消失,或者可能会发生模式崩溃(即合成数据的采样缺乏多样性)。在预测行人运动时,避免模式崩溃至关重要,因为它可能导致灾难性的决策,即导致自动驾驶陷入困境。

这里介绍GAN训练的两个主要改变。1)不使用L-2损失强制生成样本接近真实数据,因为已经观察到该项损失对生成样本的多样性有负面影响;而且,相对于GAN其他版本,Info-GAN架构对于避免模式崩溃问题有非常积极的影响;Info-GAN在学习中引入新的编码变量c作为输入,去学习数据中变化源的解脱(disentangled)表示。2)训练中添加另一项,最大化c分布与生成输出的分布之间的互信息(mutual information)下限,这需要训练另一个子网作为替代项评估生成数据的似然。

看一下结果:如图显示结果示例(洋红色),观察轨迹以蓝色线显示,真实的预测和恒速预测以青色和橙色线显示。

  • Multi-Agent Tensor Fusion for Contextual Trajectory Prediction

2019年7月arXiv发表论文。

轨迹预测具有挑战性,因为它需要推理代理过去的运动、不同数量和种类的代理之间的社会交互、场景上下文的限制以及人类行为的随机性。

本文方法在多代理张量融合(MATF,Multi-Agent Tensor Fusion)网络中对这些交互和约束联合建模。具体来说,该模型将多个代理的过去轨迹和场景上下文编码为多代理张量,然后应用卷积融合捕获多代理交互,同时保留代理和场景上下文的空域结构。该模型用对抗性损失(adversarial loss)学习随机预测,递归地解码出多代理未来轨迹。作者在高速公路驾驶和行人数据集上做实验,这里仅仅取高速公路(该方法适用于行人轨迹预测,在“行人行为建模和预测”讨论中会再举例分析)。

MATF体系结构有两个并行编码流。一个单代理LSTM编码器独立地编码每个单独的代理xi的过去轨迹,另一个CNN编码静态场景上下文图像c。每个LSTM编码器共享相同的参数集,因此体系结构对场景中代理的数量具有不变性。LSTM编码器的输出是没有时域结构的一维代理状态向量{x'1,x'2,..,x'n}。场景上下文编码器CNN的输出是一个缩放的特征图c',保留鸟瞰静态场景上下文图像的空域结构。

接着,将两个编码流空间上串联成一个多代理张量(MAT)。代理编码{ x'1,x'2,..,x'n}合并成一个鸟瞰空间张量,该张量初始化为0,并且与编码的场景图像c'的形状(宽度和高度)相同。

编码的维度轴适合张量的通道轴。代理编码放在空间张量中,相对于其过去轨迹在最后时间步的位置。然后,该张量与通道维的编码场景图像连接,获得组合张量。如果多个代理因为离散化放置在张量的同一单元,则执行逐元最大池化。

多代理张量(MAT)被馈送到全卷积层,这些层学习多个代理之间以及代理与场景上下文之间的交互,同时保留空域局部性,可生成融合的多代理张量(MATF)。具体来说,这些层采用类似U-Net模型的体系结构在不同空间尺度上对交互进行建模。该融合模型c''的输出特征图在宽度和高度上具有与c'完全相同的形状,保留编码的空域结构。

如下图所示,从开销的角度来看,多代理张量编码是场景上下文和多代理的空间特征图,包括代理通道(上方)和上下文通道(下方)。单个代理LSTM编码器输出的代理特征向量(红色)在空间上相对代理坐标放置,形成代理通道。代理通道在空间上与场景上下文编码层输出的上下文通道(上下文特征图)对齐,保留空间结构。

为了解码每个代理的预测轨迹,每个代理{x1'',x2'',..,xn''}根据融合多代理张量输出c''的坐标,切出(slice out)具有代理交互特征的的特定表示。然后,将这些特定表示形式作为残差添加到原始编码代理矢量中,形成最终的代理编码矢量{x1'+ x1'',x2'+ x2'',…,xn'+ xn''},其中编码来自代理自身的过去轨迹、静态场景上下文以及多代理之间的交互特征等信息。

这种方法使每个代理都可以专注于自身而获得不同的社交和上下文嵌入。重要的是,该模型不是对n个代理进行n次操作,而是使用共享特征提取器,为多个代理获取这些嵌入。最后,对于场景中的每个代理,其最终矢量xi'+ xi''由LSTM解码器解码为未来轨迹预测yiˆ。类似于每个代理编码器,共享参数确保当场景中代理数量变化时网络仍然能很好地泛化。如图是多代理张量融合(MATF)架构图。

最后是实验结果图:斯坦福无人机数据集(Stanford Drone dataset)。从左到右:MATF 多代理场景,MATF多代理和LSTM。蓝色的过去轨迹,红色的真实轨迹和绿色的预测结果。绿色预测轨迹与红色真实未来轨迹越接近,则预测越准确。该模型预测(1)从顶部进入回旋处的两个代理将从左边离开;(2)在回旋处上方的路径上,从左侧来的一名代理左转,朝图片顶部移动;(3)一名代理在回旋处上方和右侧的建筑物门口减速。(4)一个有趣的失败案例,其中位于回旋处右上角的一个代理向右转,朝图像顶部移动;模型预测转弯,但没有预测转弯多大。

  • Which Way Are You Going? Imitative Decision Learning for Path Forecasting in Dynamic Scenes

下面几篇均是CVPR2019论文。

该文提出一种模仿决策学习(IDL,Imitative Decision Learning)方法,该方法更深入地研究固有地表征多模式的关键,即潜决策(latent decision)。提出的IDL首先从运动历史中学习推断此类潜决策的分布。然后,考虑采样的潜决策生成预测未来的策略。不同的可能路径对应于每个采样的潜决策。

这种方法与主流文献很大不同,后者依靠预定义的潜变量来推断各种预测。为了加深对潜决策和生成的多模式未来的理解,通过相互信息优化(mutual information optimization)研究它们之间的联系。此外,与两步处理方法相比,IDL将空间和时间相关性集成到一个单一的框架中。这种方法可以同时预测场景所有行人的路径。

对于动态场景的路径预测任务而言,一个具有挑战性的问题是未来的多模态:鉴于一系列历史观测,未来可能不止一个路径;尽管预见确定性未来的工作也不少了,但是大多数方法未能考虑到未来的多种可能性。如图展示这种多模态性质:基于相同的历史运动记录(红色和青色实线),有多个可能的未来路径(红色和青色虚线),这里只是以三种可能举例。

这项工作的重点是理解和模仿人类潜决策过程,预测动态场景的未来路径。从根本上讲,IDL可以看作是联合训练:

(1)推断潜决策的推理子网L;

(2)策略/生成器π,恢复策略来生成未来的路径,

(3)统计子网络Q,它发现潜决策对预测的影响,

(4)鉴别器D,将产生的结果与专家示范区分开。

下图显示了预测未来路径的详细示意图:红色箭头指示每个模块之间信息流的方向;黑色箭头表示模块内部信息流的方向;历史轨迹输入到推理子网推断潜决策的分布;时间卷积子模块接收来自预训练卷积子模块的输出,生成一个二-单位(two-unit)矢量;预训练的反卷积子模块和softmax层读取每个单位,形成潜决策高斯分布的均值和导数;同时,策略/生成器π的编码器通过ConvGRU层处理历史轨迹;编码的隐状态henctk和采样的潜决策S逐元乘积相加(element-wise addition product)初始化该解码器;最终的预测是反卷积层从解码的隐状态hdect'生成的;统计子网读取预测和潜决策测量S在多模态的重要性;鉴别器将预测与真实未来路径(专家示范)区分开。

下面是IDL伪代码实现算法:PPO指紧邻策略优化(Proximal Policy Optimization)算法

如图是在斯坦福航空拍摄的行人数据集(SAP,Stanford Aerial Pedestrian)各个方法的定性比较:左上方显示观察记录和匹配的真实数据(GT);为了获得清晰的可视化效果更好地理解多模态,示例1-5分别展示几个轨迹及其不同预测路径和真实轨迹(GT)比较。

  • TraPHic: Trajectory Prediction in Dense and Heterogeneous Traffic Using Weighted Interactions

马里兰大学在CVPR2019的论文。

这是一种用于密集交通视频道路代理的近期轨迹预测算法。此方法为异构交通(heterogeneous traffic)设计,其中道路代理可能对应于公共汽车、汽车、踏板车、自行车或行人。该方法用LSTM-CNN混合网络对不同道路代理之间的交互建模并进行轨迹预测。特别是,它考虑异构交互(heterogeneous interactions),这种交互方式隐式地考虑了不同道路代理在形状、动力学和行为的差别。

它还对基于界限的交互(horizon-based interactions)进行建模,这种交互方式隐式地对每个道路代理的驾驶行为进行建模。预测算法TraPHic(Trajectory Prediction in Dense and Heterogeneous Traffic)在标准数据集和新的密集异构交通数据集进行了测试。

两个观测事实:

1)在如此密集的交通中道路代理不会对周围的每个代理做出反应;相反,他们有选择地将注意力集中在视场中半椭圆形区域的关键交互,称为“界限(horizon)”;

2)要捕获异构道路代理的动态,需要将其属性嵌入到状态空间中,并馈入混合网络。

而提出的TraPHic网络步骤如下:

1)根据轨迹信息和异构动态约束(例如,代理形状、速度和在代理空间坐标的交通集中度)以及其他参数,生成所有代理的输入嵌入(input embeddings);

2)这些嵌入通过LSTM传递,并最终用于构造界限图(horizon map)、邻居图和自代理的张量图;

3)界限图和邻居图通过ConvNet传递,与自代理张量连接在一起产生潜表示;

4)最后,这些潜表示通过LSTM生成自代理的轨迹预测。

如图所示的TraPHic网络体系结构:自代理由红点标记;周围的绿色椭圆区域是它的邻域,而前面的青色半椭圆区域是它的界限。

最后是结果展示,如图就是轨迹预测结果:重点介绍各种轨迹预测方法在有不同类型路标的TRAF数据集上的性能。其中:真实(GT)轨迹-绿色实线;TraPHic模型预测-红色实线;其他方法(RNN-ED,S-LSTM,S-GAN,CS-LSTM)的预测结果-虚线。

  • Learning to Infer Relations for Future Trajectory Forecast

同样发表在CVPR2019的论文。

关系推理(Relational inference)灵活地将“目标”定义为离散化网格中每个区域提取的空间特征表示,与该区域存在什么无关。推断道路参与者者以及道路参与者及其周围物理空间之间的关系行为(relational behavior),是对道路场景参与者有效导航策略进行建模和预测的重要一步。

本文提出的是用于未来轨迹预测的关系-觉察(relation-aware)框架,其目的是从道路参与者彼此之间以及与环境之间的交互推断出相关信息。为了分析关系的不同重要性,它设计一个具有内部门控过程的关系门模块(RGM,relation gate module)。RGM有利于控制经过多个开关门(switch gates)的信息,并在已知目标的过去轨迹情况下确认对目标未来运动影响很大的描述关系(descriptive relations)。

在此框架中,目标就是道路参与者(如果存在的话)空间行为和环境表示以及他们时域交互的视觉编码,这自然对应于道路参与者在离散网格每个区域的局部人-人和人-空间交互特性。最重要的是,从全局角度它学习从所有目标(即上下文中的时-空交互信息)推断关系行为。

给定图像序列,门控关系编码器(GRE,gated relation encoder)通过空间行为编码器(SBE,spatial behavior encoder)时间交互编码器(TIE,temporal interaction encoder)在视觉上提取时空交互(即目标)信息。GRE的关系门模块(RGM)从目标推断其成对关系,然后着重研究,基于目标过去行为,对预测目标未来运动哪些关系具有潜在意义。

在以热图方式体现的轨迹预测网络(TPN,trajectory prediction network)中,RGM用聚合的关系特征预测代理的未来位置,可以考虑利用预测位置之间空间依赖性进一步细化这些热图,并扩展它们,学习测试时的未来预测不确定性。

如图所示,门控关系编码器(GRE)随时间变化从离散网格的每个区域直观地发现人-人交互(第j个区域:女人-男人)和人-空间交互(第i个区域:自行车手-锥体)。

轨迹预测网络(TPN)预测的热图有时是不明确的。该问题的主要点在于,预测之间缺乏空间依赖性。由于TPN网络独立地预测热图δ,因此没有约束可以强制预测之间空间对齐。为此,这里设计一个空间细化网络(SRN,spatial refinement network)学习特征空间中的隐空间依赖性。

首先,将TPN的中间激活(早期和晚期特征)串联起来,然后采用大感受野的SRN。结果是,输出显示的热图位置之间混淆较少,这充分利用了相邻预测之间丰富的上下文信息。这里总损失函数是基于特征的热图误差和,

其中两个L-2 损失定义为

如图所示是空间细化网络(SRN)对空间依赖性的效果。

已经有人用贝叶斯神经网络(BNN)来解决网络权重参数的不确定性。研究发现,蒙特卡洛退出(Monte Carlo dropout)方法从确定性网络权重参数的后验分布中采样近似得出BNN的推断。这里使用测试时的退出来近似变分推断(variational inference),从退出分布(dropout distribution)中提取多个样本。这可以从网络学习的权重参数不确定性中捕获多个合理的轨迹。但是取L个样本的平均值作为预测,因为这样最好地近似BNN的变异推断。本文计算L = 5个样本的方差测量不确定度。如图所示是蒙特卡洛退出将不确定性嵌入这个框架的效果。

最后,提供一些实验结果。如图是一些定性评估图,其中黄色是过去的轨迹,红色是真实轨迹,绿色是预测结果。

而这个结果图是人-人复杂交互的预测:(a)骑自行车的人与行走缓慢的人交互;(b)一个人遇见一群人;(c)一名自行车手首先与前面的另一位自行车手交互,然后考虑另外一个人的影响。结果是说,这种方法在社交上避免了潜在的碰撞。

  • Peeking into the Future: Predicting Future Person Activities and Locations in Videos

这个是谷歌在CVPR2019的论文。

在许多应用中,解密人类行为对预测其未来的路径/轨迹以及从视频分析其打算做什么等是很重要的。谷歌研究人员提出了一种名为Next的端到端多任务学习系统,利用人类的行为信息以及与周围环境交互的丰富视觉特征。

它通过丰富的语义特征对人进行编码,这些语义特征包括视觉外观、身体运动以及与周围环境的交互,其实人们也是依靠类似的视觉线索得出这样预测。为了方便训练,网络通过辅助任务(auxiliary task)学习,这个任务可以预测活动发生的将来位置。在辅助任务中,一个离散化的网格,称为“曼哈顿网格(Manhattan Grid)”,被设计为系统的位置预测目标(location prediction target)。

如图给出一个直观解释:系统目的是共同预测一个人的未来道路和活动。绿线和黄线显示了两种可能的未来轨迹,绿框和黄框显示了两种可能的活动。取决于未来的活动,此人(右上方)可能会采用不同的路径,例如 黄色路径用于“加载(loading)”,绿色路径用于“目标迁移(object transfer)”。

人们通常会带着特定的目的在公共场所中行走,从简单的进入房间到复杂的将东西放进汽车等。但是,这种意图认识在现有工作中大多被忽略。活动和路径的联合预测模型(joint prediction model)可以有两个好处:

1)活动与路径一起学习可能有益于未来的路径预测;凭直觉,人类能够从他人的肢体语言中读取信息,预测他们是要过马路还是继续沿着人行道行走。

2)考虑视频中丰富的语义上下文,联合模型不仅提高了理解未来路径的能力,而且还提高了对未来活动的理解能力;这提高了自动视频分析的社会效益,例如安全应用,例如预测交通路口行人的运动或帮助人将货物运输到汽车的道路机器人。

该模型有四个4个关键组件:

人行为模块(person behavior module)从人的行为序列中提取视觉信息。

人交互模块(person interaction module)着眼于人与周围环境之间的互动。

轨迹生成器(Trajectory generator)通过聚焦注意(focal attention)的LSTM解码器总结编码的视觉特征并预测未来的轨迹。

活动预测(Activity prediction)利用丰富的视觉语义预测将来的活动标记。

此外,“曼哈顿网格”将场景划分为多个尺度的离散化网格来计算分类和回归,能可靠地提供活动位置预测。

如下是Next模型的概图:给定用于预测人的帧序列,此模型利用人的行为模块和人的交互模块将丰富的视觉语义信息编码为特征张量。

对人的外观变化建模,该系统采用有“ RoIAlign”功能的预训练目标检测模型为每个人的边框提取固定大小的CNN特征。

如图所示是人行为模块的直观图。首先,对每个人空间维度的特征平均;然后,将其输入LSTM编码器;最后,获得Tobs×d的特征表示,其中d是LSTM的隐藏大小。要捕获人体运动,要使用人关键点检测模型来提取人员关键点信息。用线性变换嵌入关键点坐标,然后输入LSTM编码器。编码特征是Tobs×d。

如图所示是人交互模块人-目标特征可以捕获人与另一个人和汽车之间的距离。 人-场景特征可以捕获人员是否在人行道附近或在草地上。这些信息被设计提供给模型,希望学习一些事情,类似人在人行道比在草地更频繁走动并且避免撞上汽车。

它使用LSTM解码器直接预测x-y坐标的未来轨迹。该解码器的隐状态用行人轨迹LSTM编码器(trajectory LSTM encoder)的最后状态进行初始化。除了预测人的未来活动标记之外,还有辅助任务,即活动位置的预测。在每个时刻,x-y坐标将根据解码器状态和全连接层计算。

它采用了有效的聚焦注意机制,最初是为了对图像序列进行多模式(multimodal)推理从而执行视觉问答。其关键思想是将多个特征投影到相关的空间中,因此通过注意力机制可以更轻松地捕获鉴别性特征(discriminative features)。

如图所示,为了弥合轨迹生成和活动标记预测之间的差距,它提出一个活动位置预测(ALP,activity location prediction)模块,预测该人将从事未来活动的最终位置。活动位置预测包括两个任务,位置分类和位置回归

最后是结果展示。如图给出此方法与基准方法之间的定性比较:黄色路径是可预测的轨迹,绿色路径是预测期间的真实轨迹。而最后的预测显示为蓝色的热图。

之前分析过驾驶行为建模和预测的近期论文(大概20-30篇)。这次针对行人行为讨论,选取了近20篇论文。总结一下,这些文章反映出建模算法的一些特点:

1. 和驾驶行为一样,不确定性和多模态是行人行为建模的挑战;

2. 大多方法采用递归神经网络,如RNN/LSTM/GRU模型;

3. 有采用对抗理论GAN,比如social GAN和Social Ways;

4. 有采用增强学习(RL),本身RL和GAN之间有联系;

5. 大多考虑环境的交互(interaction)模型,不管局部或者全局,这是对行人的社会属性建模;

6. 对人群(grouping)和单个行人,社会行为建模会不同;

7. 一些采用注意机制,比如social attention和Sophie;

8. 对行人意图和行人活动类型的理解。