自動駕駛跑得好，行人行為意圖建模和預測要做好

2019 年 10 月 31 日
筆記

作者 | 黃浴

出品 | AI科技大本營（ID:rgznai100）

【導讀】上周，在《自動駕駛關鍵環節：行人的行為意圖建模和預測(上)》文中，作者介紹了最近行人行為意圖建模和預測的研究工作，本文為下半部分。

l SR-LSTM: State Refinement for LSTM towards Pedestrian Trajectory Prediction

2019年3月arXiv論文。

在人群場景中行人的可靠軌跡預測需要對他們的社會行為有深刻的了解。對這些行為已經有了大量的研究，而仍然很難完全通過手工規則來表達。基於LSTM網路的最新研究顯示出其學習社交行為的強大能力。雖然這些方法都依賴於以前的鄰居隱狀態，但忽略了他們當前意圖這個資訊的重要性。為此，這裡提出一個LSTM網路數據驅動狀態細化模組（SR-LSTM，data-driven state refinement module for LSTM network），該模組激活了如何利用鄰居當前意圖，並通過消息傳遞（message passing）機制聯合地迭代細化人群所有參與者的當前狀態。

為了有效地提取鄰居的社會影響，作者還引入了一種社會-覺察資訊選擇機制（social-aware information selection mechanism），該機制由逐元運動門（motion gate）和行人注意（pedestrian attention）組成，從相鄰行人中選擇有用的消息。

文章強調的：

1）鄰居當前狀態對於及時交互推斷很重要。如圖所示，在時間t預測女士時，考慮時間t（a）還是時間t -1（b）右側男人的軌跡，可能會導致預測結果較大的偏差（虛線）。

2）根據鄰居的動作和位置自適應地從鄰居中選擇有用的資訊。如圖所示，（a）是從起點開始的LSTM隱神經元激活軌跡模式，其中每個顏色標記的軌跡模式都包含屬於頭20個隱神經元響應的資料庫軌跡。（b）是三個行人交互的樣本，二分（dyad）將如何注意左邊的行人？

如圖是SR-LSTM的框架圖。狀態細化模組被視為LSTM單元的附加子網，將行人對齊並更新行人的當前狀態。細化狀態用於預測下一個時間步的位置。

Vanilla LSTM（V-LSTM）一般是分別從行人軌跡中提取特徵。和SR-LSTM的主要區別在於，狀態細化（SR）模組通過行人之間傳遞消息來細化單元狀態。SR模組輸入是行人的三個資訊源：行人當前位置、隱狀態和LSTM單元狀態。SR模組輸出是細化的單元狀態。

在行人軌跡預測任務中，進一步的細化可以提高交互模型的品質，表明行人交互中的意圖協商。運動門設和行人注意兩個模組為消息傳遞一起從相鄰行人中選擇重要資訊。

最後是一些實驗驗證，SR-LSTM和V-LSTM、Social LSTM （S-LSTM）比較。首先，如圖所示，SR-LSTM中行人的當前狀態，特別是在行人改變意圖的情況下可以及時相互完善。

其次，如圖所示，SR-LSTM能夠隱含解釋常見的社會行為，從而給出適度的、相對較低誤差的未來預測。

Pedestrian Path, Pose, and Intention Prediction Through Gaussian Process Dynamical Models

發表在2019年5月IEEE T-ITS的論文，工作相對較早，這裡簡單介紹一下。

行人路徑預測改善了當前的自動緊急制動（AEB）系統。它可以提前1秒預測未來的行人路徑、姿勢和意圖。本文方法基於平衡的高斯過程動力學模型（B-GPDM，balanced Gaussian process dynamical models），該模型將行人身體的關鍵點或關節提取的3D時間相關資訊減少到一個位置和位移的低維空間。B-GPDM還推斷它們未來的潛在位置並重建其相關觀測值。

學習一個所有行人活動的通用模型通常產生較不準確的預測。這裡提出的方法獲得了四種活動類型的多個模型，即步行、停止、開始和站立，並選擇最相似的模型來估計未來的行人狀態。如圖是基於B-GPDM方法的說明。該演算法分為兩個階段：離線訓練（頂部）和在線執行（底部）。行人不同活動的運動序列訓練數據集，根據典型的穿過方向和活動類型，可分為8個子集，數據集中每個序列包含一個活動，得到一個B-GPDM。

實驗結果是：步態開始後該方法在125毫秒檢測到開始活動，準確度為80％；並在58.33毫秒之前識別出停止意圖，準確度為70％。

StarNet: Pedestrian Trajectory Prediction using Deep Neural Network in Star Topology

2019年6月美團自動駕駛組發表在arXiv的論文。

由於行人之間的複雜互動，行人軌跡預測問題是一個巨大的挑戰。先前的方法僅對行人之間的成對交互進行建模，這不僅過分簡化了行人之間的交互，而且計算效率低下。StarNet具有星形拓撲結構，包括唯一的樞紐（hub）網路和多個主（host）網路。樞紐網路觀察所有行人的軌跡，給出一個人際交互的全面描述。然後，每個與行人相對應的主網路將諮詢該描述並預測未來的軌跡。下圖是StarNet的結構圖。

由於未來運動的不確定性，行人路徑預測是一個巨大的挑戰。常規方法通過手工製作的特徵解決了這個問題。而數據驅動方法消除了手工製作特徵的要求，並大大提高了預測行人軌跡的能力。但是，現有方法計算成對特徵，在真實環境中過分簡化交互。同時，在擁擠的場景中承受著巨大的計算負擔。

與以前的方法相比，StarNet具有兩個優點：

1）表示不僅描述成對相互作用，而且還描述集體相互作用；這樣全面的表示使StarNet能夠做出準確的預測。

2）有效地計算出一個行人與其他行人之間的交互；當預測所有行人的軌跡時，隨著行人數量的增加，計算時間線性增加，而不是平方地增加。如圖是StarNet預測坐標的過程。

樞紐網路同時獲取所有觀測的軌跡，並生成人群的綜合表示r。該表示r包含人群的空間和時間資訊，這是描述行人之間交互的關鍵。樞紐網路通過兩個步驟生成表示r：1）在每個時間步生成人群的空間表示；2）將空間表示形式輸入LSTM以產生時-空表示形式r。對於第i個行人，主網路首先嵌入觀察軌跡Oi，然後將嵌入軌跡與時-空表示形式rt相結合，從而預測未來的軌跡。具體地，主網路通過兩個步驟來預測未來軌跡：1）以觀察軌跡Oi和時-空表示rt輸入生成綜合的表示；2）根據觀測軌跡Oi和綜合表示來預測第i個行人的未來軌跡。

看結果：如圖4個場景的預測軌跡和相應的真實值，其中不同的顏色表示不同的軌跡，真實軌跡用點標記，預測的軌跡用三角形標記。

Social Ways: Learning Multi-Modal Distributions of Pedestrian Trajectories with GANs

發表CVPR 2019 workshop的論文。

本文提出了一種行人與他人互動的運動預測方法。它為場景的代理用生成對抗網路（GAN）取樣合理的預測。由於GAN非常容易發生模式崩潰和掉落（mode collapsing and dropping），這個論文表明，最近提出的Info-GAN可以極大地改善多模式行人軌跡預測，避免出現這些問題。

與以前的工作不同，這個方法省去了訓練生成器的L2損失項；原因是，儘管它收斂速度更快，但會導致嚴重的模式崩潰。通過對真實數據和合成數據的實驗表明，所提出的方法可以生成更多樣化的樣本並保留預測分布的模式。特別是，該工作設計了一個玩具示例軌跡數據集，可評估不同保存預測分布模式方法的性能。

如圖是軌跡預測問題的示意圖。有了觀察的感興趣行人軌跡（用*表示）以及環境中其他行人的軌跡，系統能夠建立可能軌跡的預測分布（虛黃線顯示的兩種模式）。

在決定行人的轉向動作時，他/她會預測到不久的將來周圍環境可能發生的變化。現在，由於鄰居未來行動和意圖的不確定性，這種預期不總是那麼容易。在最新的基於NN運動預測系統中，輸入是周圍行人的最新觀察集合。因此，從觀測到NN網路預測軌跡的映射不會明確考慮鄰居未來軌跡的不確定性和多模態性質。這樣從某種意義上說，NN網路也希望學習這些，這樣的期望難免過高。

在已知場景中所有代理持續時間τ的初始跟蹤軌跡片段（tracklets）情況下，社交方式（Social Ways）GAN生成獨立的隨機軌跡樣本，模擬訓練數據中軌跡的分布。

下圖是Social Ways GAN預測系統框圖。黃色橢圓表示損失計算，虛線箭頭表示反向傳播的方向，粗體箭頭帶真實數據（GT）。

眾所周知，GAN訓練很困難，因為它可能不會收斂，當生成器和鑒別器之間不平衡時，梯度會消失，或者可能會發生模式崩潰（即合成數據的取樣缺乏多樣性）。在預測行人運動時，避免模式崩潰至關重要，因為它可能導致災難性的決策，即導致自動駕駛陷入困境。

這裡介紹GAN訓練的兩個主要改變。1）不使用L-2損失強制生成樣本接近真實數據，因為已經觀察到該項損失對生成樣本的多樣性有負面影響；而且，相對於GAN其他版本，Info-GAN架構對於避免模式崩潰問題有非常積極的影響；Info-GAN在學習中引入新的編碼變數c作為輸入，去學習數據中變化源的解脫（disentangled）表示。2）訓練中添加另一項，最大化c分布與生成輸出的分布之間的互資訊（mutual information）下限，這需要訓練另一個子網作為替代項評估生成數據的似然。

看一下結果：如圖顯示結果示例（洋紅色），觀察軌跡以藍色線顯示，真實的預測和恆速預測以青色和橙色線顯示。

Multi-Agent Tensor Fusion for Contextual Trajectory Prediction

2019年7月arXiv發表論文。

軌跡預測具有挑戰性，因為它需要推理代理過去的運動、不同數量和種類的代理之間的社會交互、場景上下文的限制以及人類行為的隨機性。

本文方法在多代理張量融合（MATF，Multi-Agent Tensor Fusion）網路中對這些交互和約束聯合建模。具體來說，該模型將多個代理的過去軌跡和場景上下文編碼為多代理張量，然後應用卷積融合捕獲多代理交互，同時保留代理和場景上下文的空域結構。該模型用對抗性損失（adversarial loss）學習隨機預測，遞歸地解碼出多代理未來軌跡。作者在高速公路駕駛和行人數據集上做實驗，這裡僅僅取高速公路（該方法適用於行人軌跡預測，在「行人行為建模和預測」討論中會再舉例分析）。

MATF體系結構有兩個並行編碼流。一個單代理LSTM編碼器獨立地編碼每個單獨的代理xi的過去軌跡，另一個CNN編碼靜態場景上下文影像c。每個LSTM編碼器共享相同的參數集，因此體系結構對場景中代理的數量具有不變性。LSTM編碼器的輸出是沒有時域結構的一維代理狀態向量{x'1，x'2，..，x'n}。場景上下文編碼器CNN的輸出是一個縮放的特徵圖c'，保留鳥瞰靜態場景上下文影像的空域結構。

接著，將兩個編碼流空間上串聯成一個多代理張量（MAT）。代理編碼{ x'1，x'2，..，x'n}合併成一個鳥瞰空間張量，該張量初始化為0，並且與編碼的場景影像c'的形狀（寬度和高度）相同。

編碼的維度軸適合張量的通道軸。代理編碼放在空間張量中，相對於其過去軌跡在最後時間步的位置。然後，該張量與通道維的編碼場景影像連接，獲得組合張量。如果多個代理因為離散化放置在張量的同一單元，則執行逐元最大池化。

多代理張量（MAT）被饋送到全卷積層，這些層學習多個代理之間以及代理與場景上下文之間的交互，同時保留空域局部性，可生成融合的多代理張量（MATF）。具體來說，這些層採用類似U-Net模型的體系結構在不同空間尺度上對交互進行建模。該融合模型c''的輸出特徵圖在寬度和高度上具有與c'完全相同的形狀，保留編碼的空域結構。

如下圖所示，從開銷的角度來看，多代理張量編碼是場景上下文和多代理的空間特徵圖，包括代理通道（上方）和上下文通道（下方）。單個代理LSTM編碼器輸出的代理特徵向量（紅色）在空間上相對代理坐標放置，形成代理通道。代理通道在空間上與場景上下文編碼層輸出的上下文通道（上下文特徵圖）對齊，保留空間結構。

為了解碼每個代理的預測軌跡，每個代理{x1''，x2''，..，xn''}根據融合多代理張量輸出c''的坐標，切出（slice out）具有代理交互特徵的的特定表示。然後，將這些特定表示形式作為殘差添加到原始編碼代理矢量中，形成最終的代理編碼矢量{x1'+ x1''，x2'+ x2''，…，xn'+ xn''}，其中編碼來自代理自身的過去軌跡、靜態場景上下文以及多代理之間的交互特徵等資訊。

這種方法使每個代理都可以專註於自身而獲得不同的社交和上下文嵌入。重要的是，該模型不是對n個代理進行n次操作，而是使用共享特徵提取器，為多個代理獲取這些嵌入。最後，對於場景中的每個代理，其最終矢量xi'+ xi''由LSTM解碼器解碼為未來軌跡預測yiˆ。類似於每個代理編碼器，共享參數確保當場景中代理數量變化時網路仍然能很好地泛化。如圖是多代理張量融合（MATF）架構圖。

最後是實驗結果圖：斯坦福無人機數據集（Stanford Drone dataset）。從左到右：MATF 多代理場景，MATF多代理和LSTM。藍色的過去軌跡，紅色的真實軌跡和綠色的預測結果。綠色預測軌跡與紅色真實未來軌跡越接近，則預測越準確。該模型預測（1）從頂部進入迴旋處的兩個代理將從左邊離開；（2）在迴旋處上方的路徑上，從左側來的一名代理左轉，朝圖片頂部移動；（3）一名代理在迴旋處上方和右側的建築物門口減速。（4）一個有趣的失敗案例，其中位於迴旋處右上角的一個代理向右轉，朝影像頂部移動；模型預測轉彎，但沒有預測轉彎多大。

Which Way Are You Going? Imitative Decision Learning for Path Forecasting in Dynamic Scenes

下面幾篇均是CVPR2019論文。

該文提出一種模仿決策學習（IDL，Imitative Decision Learning）方法，該方法更深入地研究固有地表徵多模式的關鍵，即潛決策（latent decision）。提出的IDL首先從運動歷史中學習推斷此類潛決策的分布。然後，考慮取樣的潛決策生成預測未來的策略。不同的可能路徑對應於每個取樣的潛決策。

這種方法與主流文獻很大不同，後者依靠預定義的潛變數來推斷各種預測。為了加深對潛決策和生成的多模式未來的理解，通過相互資訊優化（mutual information optimization）研究它們之間的聯繫。此外，與兩步處理方法相比，IDL將空間和時間相關性集成到一個單一的框架中。這種方法可以同時預測場景所有行人的路徑。

對於動態場景的路徑預測任務而言，一個具有挑戰性的問題是未來的多模態：鑒於一系列歷史觀測，未來可能不止一個路徑；儘管預見確定性未來的工作也不少了，但是大多數方法未能考慮到未來的多種可能性。如圖展示這種多模態性質：基於相同的歷史運動記錄（紅色和青色實線），有多個可能的未來路徑（紅色和青色虛線），這裡只是以三種可能舉例。

這項工作的重點是理解和模仿人類潛決策過程，預測動態場景的未來路徑。從根本上講，IDL可以看作是聯合訓練：

（1）推斷潛決策的推理子網L；

（2）策略/生成器π，恢復策略來生成未來的路徑，

（3）統計子網路Q，它發現潛決策對預測的影響，

（4）鑒別器D，將產生的結果與專家示範區分開。

下圖顯示了預測未來路徑的詳細示意圖：紅色箭頭指示每個模組之間資訊流的方向；黑色箭頭表示模組內部資訊流的方向；歷史軌跡輸入到推理子網推斷潛決策的分布；時間卷積子模組接收來自預訓練卷積子模組的輸出，生成一個二-單位（two-unit）矢量；預訓練的反卷積子模組和softmax層讀取每個單位，形成潛決策高斯分布的均值和導數；同時，策略/生成器π的編碼器通過ConvGRU層處理歷史軌跡；編碼的隱狀態henctk和取樣的潛決策S逐元乘積相加（element-wise addition product）初始化該解碼器；最終的預測是反卷積層從解碼的隱狀態hdect'生成的；統計子網讀取預測和潛決策測量S在多模態的重要性；鑒別器將預測與真實未來路徑（專家示範）區分開。

下面是IDL偽程式碼實現演算法：PPO指緊鄰策略優化（Proximal Policy Optimization）演算法

如圖是在斯坦福航空拍攝的行人數據集（SAP，Stanford Aerial Pedestrian）各個方法的定性比較：左上方顯示觀察記錄和匹配的真實數據（GT）；為了獲得清晰的可視化效果更好地理解多模態，示例1-5分別展示幾個軌跡及其不同預測路徑和真實軌跡（GT）比較。

TraPHic: Trajectory Prediction in Dense and Heterogeneous Traffic Using Weighted Interactions

馬里蘭大學在CVPR2019的論文。

這是一種用於密集交通影片道路代理的近期軌跡預測演算法。此方法為異構交通（heterogeneous traffic）設計，其中道路代理可能對應於公共汽車、汽車、踏板車、自行車或行人。該方法用LSTM-CNN混合網路對不同道路代理之間的交互建模並進行軌跡預測。特別是，它考慮異構交互（heterogeneous interactions），這種交互方式隱式地考慮了不同道路代理在形狀、動力學和行為的差別。

它還對基於界限的交互（horizon-based interactions）進行建模，這種交互方式隱式地對每個道路代理的駕駛行為進行建模。預測演算法TraPHic（Trajectory Prediction in Dense and Heterogeneous Traffic）在標準數據集和新的密集異構交通數據集進行了測試。

兩個觀測事實：

1）在如此密集的交通中道路代理不會對周圍的每個代理做出反應；相反，他們有選擇地將注意力集中在視場中半橢圓形區域的關鍵交互，稱為「界限（horizon）」；

2）要捕獲異構道路代理的動態，需要將其屬性嵌入到狀態空間中，並饋入混合網路。

而提出的TraPHic網路步驟如下：

1）根據軌跡資訊和異構動態約束（例如，代理形狀、速度和在代理空間坐標的交通集中度）以及其他參數，生成所有代理的輸入嵌入（input embeddings）；

2）這些嵌入通過LSTM傳遞，並最終用於構造界限圖（horizon map）、鄰居圖和自代理的張量圖；

3）界限圖和鄰居圖通過ConvNet傳遞，與自代理張量連接在一起產生潛表示；

4）最後，這些潛表示通過LSTM生成自代理的軌跡預測。

如圖所示的TraPHic網路體系結構：自代理由紅點標記；周圍的綠色橢圓區域是它的鄰域，而前面的青色半橢圓區域是它的界限。

最後是結果展示，如圖就是軌跡預測結果：重點介紹各種軌跡預測方法在有不同類型路標的TRAF數據集上的性能。其中：真實（GT）軌跡-綠色實線；TraPHic模型預測-紅色實線；其他方法（RNN-ED，S-LSTM，S-GAN，CS-LSTM）的預測結果-虛線。

Learning to Infer Relations for Future Trajectory Forecast

同樣發表在CVPR2019的論文。

關係推理（Relational inference）靈活地將「目標」定義為離散化網格中每個區域提取的空間特徵表示，與該區域存在什麼無關。推斷道路參與者者以及道路參與者及其周圍物理空間之間的關係行為（relational behavior），是對道路場景參與者有效導航策略進行建模和預測的重要一步。

本文提出的是用於未來軌跡預測的關係-覺察（relation-aware）框架，其目的是從道路參與者彼此之間以及與環境之間的交互推斷出相關資訊。為了分析關係的不同重要性，它設計一個具有內部門控過程的關係門模組（RGM，relation gate module）。RGM有利於控制經過多個開關門（switch gates）的資訊，並在已知目標的過去軌跡情況下確認對目標未來運動影響很大的描述關係（descriptive relations）。

在此框架中，目標就是道路參與者（如果存在的話）空間行為和環境表示以及他們時域交互的視覺編碼，這自然對應於道路參與者在離散網格每個區域的局部人-人和人-空間交互特性。最重要的是，從全局角度它學習從所有目標（即上下文中的時-空交互資訊）推斷關係行為。

給定影像序列，門控關係編碼器（GRE，gated relation encoder）通過空間行為編碼器（SBE，spatial behavior encoder）和時間交互編碼器（TIE，temporal interaction encoder）在視覺上提取時空交互（即目標）資訊。GRE的關係門模組（RGM）從目標推斷其成對關係，然後著重研究，基於目標過去行為，對預測目標未來運動哪些關係具有潛在意義。

在以熱圖方式體現的軌跡預測網路（TPN，trajectory prediction network）中，RGM用聚合的關係特徵預測代理的未來位置，可以考慮利用預測位置之間空間依賴性進一步細化這些熱圖，並擴展它們，學習測試時的未來預測不確定性。

如圖所示，門控關係編碼器（GRE）隨時間變化從離散網格的每個區域直觀地發現人-人交互（第j個區域：女人-男人）和人-空間交互（第i個區域：自行車手-錐體）。

軌跡預測網路（TPN）預測的熱圖有時是不明確的。該問題的主要點在於，預測之間缺乏空間依賴性。由於TPN網路獨立地預測熱圖δ，因此沒有約束可以強制預測之間空間對齊。為此，這裡設計一個空間細化網路（SRN，spatial refinement network）學習特徵空間中的隱空間依賴性。

首先，將TPN的中間激活（早期和晚期特徵）串聯起來，然後採用大感受野的SRN。結果是，輸出顯示的熱圖位置之間混淆較少，這充分利用了相鄰預測之間豐富的上下文資訊。這裡總損失函數是基於特徵的熱圖誤差和，

其中兩個L-2 損失定義為

如圖所示是空間細化網路（SRN）對空間依賴性的效果。

已經有人用貝葉斯神經網路（BNN）來解決網路權重參數的不確定性。研究發現，蒙特卡洛退出（Monte Carlo dropout）方法從確定性網路權重參數的後驗分布中取樣近似得出BNN的推斷。這裡使用測試時的退出來近似變分推斷（variational inference），從退出分布（dropout distribution）中提取多個樣本。這可以從網路學習的權重參數不確定性中捕獲多個合理的軌跡。但是取L個樣本的平均值作為預測，因為這樣最好地近似BNN的變異推斷。本文計算L = 5個樣本的方差測量不確定度。如圖所示是蒙特卡洛退出將不確定性嵌入這個框架的效果。

最後，提供一些實驗結果。如圖是一些定性評估圖，其中黃色是過去的軌跡，紅色是真實軌跡，綠色是預測結果。

而這個結果圖是人-人複雜交互的預測：（a）騎自行車的人與行走緩慢的人交互；（b）一個人遇見一群人；（c）一名自行車手首先與前面的另一位自行車手交互，然後考慮另外一個人的影響。結果是說，這種方法在社交上避免了潛在的碰撞。

Peeking into the Future: Predicting Future Person Activities and Locations in Videos

這個是Google在CVPR2019的論文。

在許多應用中，解密人類行為對預測其未來的路徑/軌跡以及從影片分析其打算做什麼等是很重要的。Google研究人員提出了一種名為Next的端到端多任務學習系統，利用人類的行為資訊以及與周圍環境交互的豐富視覺特徵。

它通過豐富的語義特徵對人進行編碼，這些語義特徵包括視覺外觀、身體運動以及與周圍環境的交互，其實人們也是依靠類似的視覺線索得出這樣預測。為了方便訓練，網路通過輔助任務（auxiliary task）學習，這個任務可以預測活動發生的將來位置。在輔助任務中，一個離散化的網格，稱為「曼哈頓網格（Manhattan Grid）」，被設計為系統的位置預測目標（location prediction target）。

如圖給出一個直觀解釋：系統目的是共同預測一個人的未來道路和活動。綠線和黃線顯示了兩種可能的未來軌跡，綠框和黃框顯示了兩種可能的活動。取決於未來的活動，此人（右上方）可能會採用不同的路徑，例如黃色路徑用於「載入（loading）」，綠色路徑用於「目標遷移（object transfer）」。