KeyPose:從立體影像估計透明物體3D姿態

  • 2020 年 9 月 10 日
  • AI

字幕組雙語原文:KeyPose:從立體影像估計透明物體3D姿態

英語原文:KeyPose: Estimating the 3D Pose of Transparent Objects from Stereo

翻譯:雷鋒字幕組(小哲


在增強現實,機器人操控等涉及對象級物品感知的電腦視覺的應用中,3D物體的位置與姿勢評估是一個核心的難題。在這些應用中,重要的是要知道物體的在實際世界中的三維位置資訊,要麼直接影響他們,要麼正確的放置相似的物品在這些物體周圍。雖然使用機器學習的技術特別是深度網路,在相應的主題上有很多的研究,但是,他們中的大多數都依賴於深度感測器設備,例如Kinect,這些設備可以直接給出目標的位置測量資訊.對於有光澤或透明的物體,直接深度感測效果不佳。例如下邊這張包含了很多物品的圖(左邊),其中有兩個物體是透明的,深度設備不能找到這些物體很好的深度資訊,並且實際的三維重構效果非常差。(右邊)

 左邊: 透明物體的RGB影像. 右邊:四個面板的影像顯示了左邊場景的重構的深度影像, 上邊的一行顯示了重構影像,下邊的一行顯示了三維點雲. 左邊面板影像採用深度相機,右邊的面板利用ClearGrasp模型輸出結果. 注意,雖然ClearGraph修復了恆星的深度,但它會錯誤地顯示最右邊的一個的實際深度。

對於這個難題的一個解決方案, 例如ClearGrasp提出的方案, 就是使用深度神經網路去修復受損的透明物體的深度圖。給定透明物體的RGB-D影像, ClearGrasp使用深度神經網路推測物體表面法線、透明表面的掩模和遮擋邊界,用於優化場景中所有透明曲面的初始深度估計(上圖中最右側).這種方法非常有前景的, 並且允許利用依賴於深度的姿勢估計的方法處理透明物體的場景.但是修復可能很難辦, 特別是完全使用合成的影像進行訓練時,可能會導致深度的錯誤。

在於斯坦福AI實驗室聯合發表在CVPR2020上的文章, ” 在與KeyPose:從立體圖者估計透明物體的三維姿態” 中, 我們介紹了一個ML系統,直接預測三維關鍵點來評估透明物體的深度。 為了訓練這個系統,我們自用自動的方式採集了一個搭的真實世界透明物體數據集,並且利用手工選定的三維關鍵點高效的標註他們的姿勢.然後我們訓練深度模型(稱為KeyPose)來從單目或立體影像中端到端地估計3D關鍵點,而不需要顯式地計算深度. 在訓練過程中,模型可以處理可見和不可見的對象,包括單個對象和對象類別。雖然KeyPose可以處理單目影像,但立體影像提供的額外資訊使其能夠在單目影像輸入的基礎上將結果提高兩倍, 根據對象的不同,典型誤差從5毫米到10毫米不等。它在這些物體的姿態估計方面比最先進的方法有了實質性的改進,即使競爭性的方法提供了真實深度。我們正在發布keypoint標記的透明對象的數據集,供研究團體使用。

帶有三維關鍵點標註的真實透明物體數據集

為了構建收集高品質的真實影像, 我們構建了機器人數據收集系統,著這個系統中,機械臂通過一個軌跡移動,同時用兩個設備拍攝影片,一個是立體攝影機,一個是Kinect Azure深度攝影機。

使用帶有立體攝像機與Azure Kinect設備的機械臂自動影像序列捕捉

目標上的AprilTags可以精確跟蹤攝像機的姿態。通過在每個影片中用2D關鍵點手工標記少數影像,我們可以使用多視圖幾何體為影片的所有幀提取3D關鍵點,從而將標記效率提高了100倍。

我們使用10中不同的背景紋理和四種不同的姿勢,捕捉15個不同的透明物體, 得到一共600個影片序列壓縮為48k立體與深度影像. 我們對於不透明版本的物體捕捉相似的影像,從而提升真實深度影像的精度. 所有的影像都標註三維關鍵點, 我們將公開發布這個真實世界影像的數據集,以補充與之共享相似對象的合成ClearGrap數據集。

基於早期融合立體的KeyPose演算法

直接使用立體影像進行關鍵點估計的想法的發展是獨立於我們這個項目之外的;它近年來出現在手追蹤的場景中, 下圖顯示了基本思想:在對象周圍裁剪立體相機的兩幅影像,並輸入到KeyPose網路中,KeyPose網路預測一組稀疏的3D關鍵點,這些關鍵點代表對象的3D姿勢。網路通過使用標籤3D關鍵點的監督進行訓練。

立體KeyPose的一個關鍵方面是使用早期融合來混合立體影像,並允許網路隱式地計算視差,而後期融合則是分別預測每個影像的關鍵點,然後進行組合。如下圖所示,KeyPose的輸出是影像平面中的2D關鍵點熱圖以及每個關鍵點的視差(即逆深度)熱圖。這兩個熱圖的組合生成每個關鍵點的關鍵點的三維坐標。

 Keypose系統的圖解. 立體影像傳入CNN模型來為每個關鍵點產生一個可能性熱圖. 這個熱圖為每個關鍵點給出了二維影像的坐標U, V. CNN模型也為每個關鍵點產生視差(逆深度)熱圖, 當混合U, V坐標之後,就可以給出三維位置(X,Y,Z)。

與後期融合或單目輸入相比,早期融合立體像的精度通常是後者的兩倍。

結果

下邊的影像顯示了KeyPose在單個物體上的定性結果.左邊時原始立體影像,;中間是投影到物體上的預測的三維關鍵點;右邊,我們將瓶子的三維模型中的點可視化,放置在由預測的3D關鍵點確定的姿勢上. 網路非常高效準確, 對於這個瓶子的預測關鍵點MAE為5.2mm, 馬克杯為10.1mm,在一個標準的GPU上僅僅需要5毫秒。

接下來的一張表格顯示了KeyPose的類別層面的估計結果. 測試集使用了訓練集中不存在的背景紋理。注意,MAE在5.8 mm到9.9 mm之間變化,顯示了該方法的準確性。

 KeyPose與最先進的DenseFusion系統在類別級數據上的定量比較。我們為DenseFusion提供兩種深度版本,一種來自透明對象,另一種來自不透明對象。<2cm是誤差小於2cm的估計值的百分比。MAE是關鍵點的平均絕對誤差,單位為mm。

關於定量結果的完整統計,以及 ablation studies ,請參閱論文和補充材料以及KeyPose網站。  

總結

這篇文章展示了,不依賴於深度影像來估計透明物體的三維姿態是可能的。 它驗證了使用例題影像作為融合深度網路的輸入, 訓練這個網路直接從力圖影像對中提取稀疏的三維關鍵點,。我們希望一個廣泛,有標註的透明物體數據集的可以促進這個領域的發展。最後雖然我們使用了半自動的方法高效的標註數據集,但是在未來的工作中我們希望採用自監督的方式來代替手工的標註。

致謝

我想要感謝我的共同作者, Xingyu Liu of Stanford University, and Rico Jonschkowski and Anelia Angelova; 也有那些在項目實施與論文寫作過程中,幫助我們的人, 包括: Andy Zheng, Shuran Song, Vincent Vanhoucke, Pete Florence, and Jonathan Tompson。


雷鋒字幕組是一個由 AI 愛好者組成的翻譯團隊,匯聚五百多位志願者的力量,分享最新的海外AI資訊,交流關於人工智慧技術領域的行業變革與技術創新的見解。

團隊成員有大數據專家、演算法工程師、影像處理工程師、產品經理、產品運營、IT諮詢人、在校師生;志願者們來自IBM、AVL、Adobe、阿里、百度等知名企業,北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內外高校研究所。

如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學習新知,分享成長。

雷鋒網雷鋒網