找東西不再瞎蒙！CMU、FAIR開發出有常識的機器人

2020 年 9 月 18 日
AI

作者 | 青暮

編輯 | 叢末

CMU和FAIR合作開發了一款語義導航系統SemExp，可以利用常識來進行導航和執行尋物任務，SemExp還在上個月的CVPR室內目標導航挑戰賽中贏得了冠軍。

如果SemExp事先知道沙發在客廳，冰箱在廚房，它在尋找沙發或冰箱時會更有效率，即使是在一個陌生的地方。也就是說，SemExp可以使用類似於人類常識的知識來找東西。

上個月，名為SemExp的機器人在CVPR上贏得了室內目標導航挑戰賽（Habitat ObjectNav Challenge），險勝三星中國研究院。這是CMU團隊在年度挑戰賽中連續第二次獲得第一名。

SemExp（即目標導向的語義探索）使用機器學習方法來尋找目標物體。SemExp能夠區分茶几和廚房桌子，從而推斷出它位於哪個房間。

CMU機器學習系博士生Devendra S. Chaplot說，SemExp可以戰略性地思考如何搜索事物。也就是說，SemExp理解物體和房間布局之間的語義關係。

相比之下，傳統的機器人導航系統通過構建顯示障礙物的地圖來探索空間。機器人最終能成功找到目標，但是路線可能是迂迴曲折的，會進行很多不必要的探索。

過去使用機器學習來訓練語義導航系統的嘗試效果不佳，因為它們傾向於記住目標及其在特定環境中的位置。這些環境不僅複雜，而且系統通常難以將其學到的知識泛化到不同的環境。一旦到了新環境，系統就很難利用已有的經驗執行類似的任務。SemExp採用領域無關的模組化方法解決了這個問題，它不僅能夠適應新的虛擬環境，還能遷移到現實世界中。

SemExp：要找烤箱（oven）？烤箱不也在廚房裡嘛。

這項研究由Chaplot、CMU Robotics Institute副教授Abhinav Gupta、CMU機器學習系教授Ruslan Salakhutdinov和FAIR的Dhiraj Gandhi共同完成。

論文地址：//arxiv.org/pdf/2007.00643.pdf

項目地址：//www.cs.cmu.edu/~dchaplot/projects/semantic-exploration.html

參考內容：//www.cmu.edu/news/stories/archives/2020/july/robot-navigation.html

Chaplot說，該系統利用其語義洞察力來確定尋找特定物體的最佳位置。「一旦決定要去哪裡，就可以使用經典規劃方法來達到目標。」

事實證明，這種模組化方法在很多方面富有成效。SemExp的學習過程專註於目標與房間布局之間的關係，而不是學習路線規劃；應用語義推理確定最有效的搜索策略；最後，應用經典的導航規劃使機器人到達目的地。

語義導航將使人們與機器人的交互變得更加容易，人們能夠簡單地告訴機器人在特定位置取回一件物品。

演算法。然而當時的強化學習演算法只能每次使用一種策略來訓練一個智慧體模型。”,”0:\”%233e3e3e\”|27:\”12\”|31:2″],[20,”\n”,”24:\”KLNL\”|linespacing:\”115\””],[20,”\n”,”24:\”ST7D\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/ullbSVWjkIev0mfy.gif”},”29:0|30:0|3:\”600\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”278\”|ori-width:\”600\””],[20,”\n”,”24:\”RwF7\”|linespacing:\”115\””],[20,”那如果想要一次訓練幾十上百種智慧體模型（如上圖所示）該怎麼辦？難道要訓練幾百次嗎？”],[20,”\n”,”24:\”rOcc\”|linespacing:\”115\””],[20,”\n”,”24:\”eHYB\”|linespacing:\”115\””],[20,”近日，一篇發表在ICML 2020上的論文提出了一種方法：僅僅需要一種策略就可以同時訓練所有的智慧體。”],[20,”\n”,”24:\”zX5C\”|linespacing:\”115\””],[20,”\n”,”24:\”2JTN\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/0KJQqphPbRHuv0kN.png!thumbnail”},”29:0|30:0|3:\”895\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”803\”|ori-width:\”895\””],[20,”\n”,”24:\”MTuT\”|linespacing:\”115\””],[20,”這篇論文在Twitter上獲得了很大的關注，觀看量很快就達到了46.7K。就連宣布「封推」的LeCun轉發了（他只是轉發，沒有說話，沒說話就不算破戒[狗頭護體]）”],[20,”\n”,”24:\”dcK5\”|linespacing:\”115\””],[20,”\n”,”24:\”80dR\”|linespacing:\”115\””],[20,”這項讓一度退推的LeCun都忍不住轉發的研究，到底是如何實現如此強大的泛化能力的呢？”],[20,”\n”,”24:\”Bd2N\”|linespacing:\”115\””],[20,”\n”,”24:\”Qwwu\”|linespacing:\”115\””],[20,”訓練策略”,”8:1″],[20,”\n”,”24:\”TI3Q\”|linespacing:\”115\””],[20,”\n”,”24:\”Xi5C\”|linespacing:\”115\””],[20,”作者在論文中提出的訓練策略是一種模組化共享策略SMP（Shared Modular Policies），特點是：區別於一次對整個模型進行訓練的傳統做法，該方法是分別對智慧體的每個肢體進行訓練。”],[20,”\n”,”24:\”bz0N\”|linespacing:\”115\””],[20,”\n”,”24:\”uV9W\”|linespacing:\”115\””],[20,”訓練過程中同一智慧體的不同肢體之間策略權重”],[20,”πθ”,”0:\”%23333333\”|27:\”12\”|31:2″],[20,”是共享的：”],[20,”\n”,”24:\”7kmj\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/PFaKffqRV5Y6scxn.png!thumbnail”},”29:0|30:0|3:\”382\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”378\”|ori-width:\”382\””],[20,”\n”,”24:\”7KVu\”|linespacing:\”115\””],[20,”而不同智慧體之間的策略權重”],[20,”πθ也是共享的：”,”0:\”%23333333\”|27:\”12\”|31:2″],[20,”\n”,”24:\”JGfw\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/GGvlcljmGqtXF4z9.png!thumbnail”},”29:0|30:0|3:\”1260\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”526\”|ori-width:\”1260\””],[20,”\n”,”24:\”r87l\”|linespacing:\”115\””],[20,”這樣一來所有智慧體的所有肢體之間的權重都是共享的，之後把所有的智慧體放在一起來訓練：”],[20,”\n”,”24:\”rlD6\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/DEF8HYpqX1bQbEVR.png!thumbnail”},”29:0|30:0|3:\”1193\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”630\”|ori-width:\”1193\””],[20,”\n”,”24:\”QAZE\”|linespacing:\”115\””],[20,”為了確保各肢體之間能夠協調統一地控制，必須允許資訊能在各肢體之間傳遞：”],[20,”\n”,”24:\”Nq2w\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/nfVfsFqQ8uMSRRyS.png!thumbnail”},”29:0|30:0|3:\”965\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”524\”|ori-width:\”965\””],[20,”\n”,”24:\”4vEJ\”|linespacing:\”115\””],[20,”那麼資訊傳遞究竟是應該從上往下還是從下往上呢？”],[20,”\n”,”24:\”ibCf\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/wHRQR4OE4vDHuKYB.png!thumbnail”},”29:0|30:0|3:\”967\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”426\”|ori-width:\”967\””],[20,”\n”,”24:\”zCj5\”|linespacing:\”115\””],[20,”不如來看一下實際效果吧：”],[20,”\n”,”24:\”teXw\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/wCkeGbO45Ud7GlBO.gif”},”29:0|30:0|3:\”1228\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”622\”|ori-width:\”1228\””],[20,”\n”,”24:\”cMpN\”|linespacing:\”115\””],[20,”上面是對同一組智慧體分別執行從下往下和從上往下的資訊傳遞，可以看出效果並不好。”],[20,”\n”,”24:\”SxaW\”|linespacing:\”115\””],[20,”\n”,”24:\”MxHJ\”|linespacing:\”115\””],[20,”於是作者想到乾脆把兩種資訊傳遞方式結合起來：”],[20,”\n”,”24:\”YErH\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/r44PzWbhc93ekuTC.png!thumbnail”},”29:0|30:0|3:\”1255\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”492\”|ori-width:\”1255\””],[20,”\n”,”24:\”3VPj\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/X2T9QjUq4ji1qXx4.png!thumbnail”},”29:0|30:0|3:\”696\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”420\”|ori-width:\”696\””],[20,”\n”,”24:\”iEbP\”|linespacing:\”115\””],[20,”\n”,”24:\”SuGj\”|linespacing:\”115\””],[20,”兩種資訊傳遞方式共享模組化策略：”],[20,”\n”,”24:\”kp2Y\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/fK5BYxYR7KTiKkhS.png!thumbnail”},”29:0|30:0|3:\”854\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”560\”|ori-width:\”854\””],[20,”\n”,”24:\”BiDc\”|linespacing:\”115\””],[20,”那麼這樣一來效果如何呢？”],[20,”\n”,”24:\”qGox\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/682vxigH3Jq6Kv2K.gif”},”29:0|30:0|3:\”772\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”458\”|ori-width:\”772\””],[20,”\n”,”24:\”a40M\”|linespacing:\”115\””],[20,”從上可以看出在使用雙向資訊傳遞後，一個單獨的策略也能很好地控制所有的智慧體，即使這些智慧體的形狀迥異。”],[20,”\n”,”24:\”5hk2\”|linespacing:\”115\””],[20,”\n”,”24:\”7jug\”|linespacing:\”115\””],[20,”整體模型架構”,”27:\”12\”|8:1″],[20,”\n”,”24:\”S8vp\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/6QKqY9RGjV9iIuuN.png!thumbnail”},”29:0|30:0|3:\”1461\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”529\”|ori-width:\”1461\””],[20,”\n”,”24:\”Wlfx\”|linespacing:\”115\””],[20,”如上圖所示，智慧體被表示為使用共享控制策略的模組化組件的集合。多個智慧體控制器（左）與具有共享參數的局部模組同時訓練（中），這些模組學習將消息傳遞給中心控制器（右）。”],[20,”\n”,”24:\”aeYp\”|linespacing:\”115\””],[20,”\n”,”24:\”UOLQ\”|33:1|linespacing:\”115\””],[20,”泛化效果”,”27:\”12\”|8:1″],[20,”\n”,”24:\”zBE4\”|linespacing:\”115\””],[20,”\n”,”24:\”uS77\”|33:1|linespacing:\”115\””],[20,”在從未訓練過的智慧體上面做測試，可以看出這種模組化共享策略同樣能夠很好的控制智慧體，哪怕有些智慧體的胳膊有很多或者很重。”],[20,”\n”,”24:\”Twtz\””],[20,{“gallery”:”//uploader.shimo.im/f/Sv2P6EMXxwKHqayo.gif”},”29:0|30:0|3:\”940\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”420\”|ori-width:\”940\””],[20,”\n”,”24:\”U8dM\”|linespacing:\”115\””],[20,”另外，智慧體也可以負重前行，負重的物體是在測試時直接加上去的，並沒有經過訓練，從下圖可以看出前行效果還不錯。”],[20,”\n”,”24:\”wyBQ\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/UTRSFz323Z5Lq1Bd.gif”},”29:0|30:0|3:\”876\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”220\”|ori-width:\”876\””],[20,”\n”,”24:\”5AJ9\”|linespacing:\”115\””],[20,”\n”,”24:\”OY1C\”|linespacing:\”115\””],[20,”但是模型的局限性同樣是存在的，如果把某部分肢體變得超級大或者乾脆去掉腿部的肢體，則智慧體很難保持平衡。”],[20,”\n”,”24:\”auyu\”|linespacing:\”115\””],[20,”\n”,”24:\”mG5b\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/Ws7SiCYUoXqBV7BG.gif”},”29:0|30:0|3:\”1236\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”298\”|ori-width:\”1236\””],[20,”\n”,”24:\”s9mz\”|linespacing:\”115\””],[20,”\n”,”24:\”6YYW\”|linespacing:\”115\””],[20,”數據分析實證”,”27:\”12\”|8:1″],[20,”\n”,”24:\”YFBL\”|linespacing:\”115\””],[20,”\n”,”24:\”dr7L\”|linespacing:\”115\””],[20,”智慧體的表現變好確實是因為”],[20,”模組化共享策略嗎？”,”27:\”12\”|31:2″],[20,”\n”,”24:\”mYqa\””],[20,”\n”,”24:\”OJ7E\”|linespacing:\”115\””],[20,”下圖是不同消息傳遞模式在同一組智慧體上的比較。可以看出分散式消息傳遞方案（例如自上而下或自下而上）可以在一定程度上學習簡單智慧體的運動任務，但對於複雜的三肢和兩肢變體智慧體則無法學習任何有意義的資訊。相反，雙向消息傳遞可以模擬多種步態，並顯示出明顯的優勢。”],[20,”\n”,”24:\”1fW7\””],[20,{“gallery”:”//uploader.shimo.im/f/QJ6RhdEMTqS4DQxR.png!thumbnail”},”29:0|30:0|3:\”1777\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”477\”|ori-width:\”1777\””],[20,”\n”,”24:\”spct\”|linespacing:\”115\””],[20,”下圖展示了隨著訓練次數的增加，智慧體在運動過程種進行資訊傳遞的資訊值。可以看出，智慧體在運動過程中的資訊值會出現峰值，這正是智慧體觸地時為了保持自身平衡而進行大量資訊傳遞。這證明了”,”27:\”12\”|31:2″],[20,”資訊捕捉到了與運動行為相對應的交替步態，而且在控制整個智慧體姿態中起到了重要作用。”],[20,”\n”,”24:\”Mf4P\”|linespacing:\”150\””],[20,”\n”,”24:\”b2wW\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/IbBhCEqQKAj9Cale.png!thumbnail”},”29:0|30:0|3:\”1786\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”400\”|ori-width:\”1786\””],[20,”\n”,”24:\”72vx\”|linespacing:\”115\””],[20,”從上面兩個數據分析圖可以看出智慧體的表現變好確實是因為模組化共享策略”],[20,”。”,”27:\”12\”|31:2″],[20,”\n”,”24:\”lY7q\”|linespacing:\”115\””],[20,”\n”,”24:\”95wz\”|linespacing:\”115\””],[20,”\n”,”24:\”evfj\”|linespacing:\”115\””],[20,”論文詳細資訊”,”27:\”12\”|8:1″],[20,”\n”,”24:\”j8P8\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/AWQtA5tOqRab63LR.png!thumbnail”},”29:0|30:0|3:\”1377\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”375\”|ori-width:\”1377\””],[20,”\n”,”24:\”MB7V\”|linespacing:\”150\””],[20,”論文地址://arxiv.org/pdf/2007.04976.pdf”],[20,”\n”,”24:\”CKW3\”|linespacing:\”150\””],[20,”開源程式碼：//github.com/huangwl18/modular-rl”],[20,”\n”,”24:\”r6Si\”|linespacing:\”150\””],[20,”項目主頁://wenlong.page/modular-rl/”],[20,”\n”,”24:\”z1If\”|linespacing:\”150\””],[20,”論文的一作Wenlong Huang，加州大學伯克利分校大二，在伯克利人工智慧實驗室（BAIR ）研究電腦視覺。個人主頁：”,”0:\”%23333333\”|27:\”12\”|31:2″],[20,”//wenlong.page/”],[20,”\n”,”24:\”zdOB\”|linespacing:\”150\””],[20,”\n”,”24:\”5pMy\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/qb2zWKUkmwFc6JXy.png!thumbnail”},”29:0|30:0|3:\”941\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”912\”|ori-width:\”941\””],[20,”\n”,”24:\”h5iC\”|linespacing:\”115\””],[20,”\n”,”24:\”Qy6T\”|linespacing:\”115\””],[20,”\n”,”24:\”r5JL\”|linespacing:\”115\””],[20,”延申思考”,”27:\”13\”|8:1″],[20,”\n”,”24:\”nxSC\”|linespacing:\”115\””],[20,”\n”,”24:\”NCjA\”|linespacing:\”115\””],[20,”作者在論文之外說到這種共享模組化策略是可以從自然界之中看到。”],[20,”\n”,”24:\”i0rj\””],[20,”\n”,”24:\”tnxo\””],[20,”如下圖，昆蟲、人、袋鼠等都是有不同肢體組成的。”],[20,”\n”,”24:\”xM56\””],[20,{“gallery”:”//uploader.shimo.im/f/Maf7n3cC4MxiJvnZ.png!thumbnail”},”29:0|30:0|3:\”1130\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”696\”|ori-width:\”1130\””],[20,”\n”,”24:\”NLMe\”|linespacing:\”115\””],[20,”如下圖，馬和長頸鹿可以在出生不久之後就能走路跑步，動物這種強大的運動學習能力是一種強化學習的體現，那麼動物運動能力這塊是不是如作者提出的是共享策略模組呢？”],[20,”\n”,”24:\”RxVs\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/N9lJ93SvXzHlWErk.png!thumbnail”},”29:0|30:0|3:\”1303\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”756\”|ori-width:\”1303\””],[20,”\n”,”24:\”MxBq\”|linespacing:\”115\””],[20,”\n”,”24:\”mlSa\”|linespacing:\”115\””],[20,”作者提出的共享策略模組表現出了強大的泛化能力，可以說是強化學習的一種新範式，然而實驗環境是在完美的平面上，這種條件過於理想。”],[20,”\n”,”24:\”6veI\”|linespacing:\”115\””],[20,”\n”,”24:\”56mH\”|linespacing:\”115\””],[20,”如果是類比DeepMind之前做的AI跑酷的環境，那麼作者的模型還能實現很好的效果嗎？還能一種策略控制所有的智慧體嗎？”],[20,”\n”,”24:\”0tNR\”|linespacing:\”115\””],[20,”\n”,”24:\”KYNO\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/fHux5ojqrgvNHLw2.gif”},”29:0|30:0|3:\”583px\”|4:\”389px\”|crop:\”\”|frame:\”none\”|ori-height:\”267\”|ori-width:\”400\””],[20,”\n”,”24:\”HGPD\”|linespacing:\”115\””],[20,”\n”,”24:\”pwC0\”|linespacing:\”115\””],[20,”拋開上面不談，來思考一下作者目前提出模型的可應用場景：”],[20,”\n”,”24:\”OqwQ\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/jVzLbV9ReY0v5BrZ.gif”},”29:0|30:0|3:\”644\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”302\”|ori-width:\”644\””],[20,”\n”,”24:\”40oJ\”|linespacing:\”115\””],[20,”\n”,”24:\”tWkz\”|linespacing:\”115\””],[20,”用作者的模型來同時生成上百隻奇行種的運動場景，想想就很有趣。”],[20,”\n”,”24:\”tg95\”|linespacing:\”115\””],[20,”\n”,”24:\”3GiT\”|linespacing:\”150\””],[20,”\n”,”24:\”NbyC\”|linespacing:\”115\””],[20,”參考鏈接：”],[20,”\n”,”24:\”QxE5\”|linespacing:\”115\””],[20,”\n”,”24:\”dKxm\”|linespacing:\”115\””],[20,”//www.reddit.com/r/MachineLearning/comments/hpajb2/r_one_policy_to_control_them_all_shared_modular/”],[20,”\n”,”24:\”BhFb\”|linespacing:\”115\””],[20,”\n”,”24:\”IUmx\”|linespacing:\”115\””],[20,”//www.youtube.com/watch?v=gEeQ0nzalzo&feature=youtu.be”]]” style=”letter-spacing: 0.5px;font-size: 18px;”>學習「餐桌在哪裡」的常識

在尋找「餐桌」的任務中，就語義理解而言，涉及目標檢測，即「餐桌」的外觀。研究者利用了現有的預訓練目標檢測和語義分割模型來構建語義圖，而不是從頭開始學習。

此外，還涉及對更可能在哪裡找到「餐桌」的場景的理解。這需要長期的情節記憶以及學習場景中目標相對位置的語義先驗。

學習語義先驗，即目標和區域關聯的常識，可以使智慧體使用情節記憶來決定下一個要探索的區域，以便在最短的時間內找到目標。

長期的情景記憶使智慧體可以跟蹤去過和未去過的區域。

SemExp由兩個模組組成，即語義映射模組（Semantic Mapping）和面向目標的語義策略模組（Goal-Oriented Semantic Policy）。

語義映射模組用於構建明確的語義圖，面向目標的語義策略模組使用可理解語義的長期策略來學習語義先驗。

語義映射模組接收RGB（It）和景深（Dt）影像序列，並生成自上而下的語義圖。

面向目標的語義策略根據當前的語義圖確定長期目標，以達到給定的目標（G）。

研究者使用神經網路來學習語義先驗。神經網路以語義圖、智慧體的當前和過去位置以及目標作為輸入，並預測自上而下的地圖空間中的長期目標。如此，就能將目標類別和通常所處的區域關聯起來。智慧體看不到目標時，就先以區域為線索。比如智慧體在找餐桌時，所處位置看不到餐桌，就會先以餐桌可能在的區域為線索（餐桌一般放在客廳吧）。

面向目標的語義策略使用強化學習進行訓練，將以目標與智慧體的距離減小作為獎勵。

實驗結果

下圖展示了Gibson測試集場景中SemExp的示例軌跡。智慧體看到的取樣影像顯示在上行，預測的語義圖顯示在下行。

SemExp的目標是「床」。面向目標的語義策略選擇的長期目標以藍色顯示。帶有智慧體軌跡的真實地圖（智慧體看不到）顯示在右側，以供參考。

下圖展示了SemExp尋找椅子的第一人稱視角、語義圖和軌跡圖。

如下表所示，與Gibson和MP3D數據集的基準線相比，SemExp的性能均達到最佳。

SemExp沒有使用覆蓋率最大化探索策略（目標不可見），而是訓練面向目標的語義探索策略，該策略學習語義先驗以進行有效導航。如此，可以節省不必要的全面探索的時間。

下圖展示了使用面向目標策略（圖左）和不使用面向目標策略（圖右）的探索軌跡，前者使用了81s找到目標，後者使用了332s才找到同一個目標。

下圖展示了SemExp遷移至真實世界的表現，SemExp的目標是「盆栽」，它成功找到了。

SemExp學到了多少常識？

CMU在官網報道中宣稱SemExp利用了常識執行尋物任務，但實際上這種常識還是非常有限的，它只是建立了某個物體和通常存在區域的統計關聯。沒錯，冰箱大概率存在廚房，但在辦公室場景里，冰箱一般而言會有，但廚房就很少見了。

一般而言，常識是無法窮盡的不成文規則，無法用邏輯以有限的方式進行壓縮，何況常識之間甚至可能是互相衝突的（例如印度人的搖頭表示肯定，和大多數國家相反）。常識是人類對世界運作方式的印象，由數不清的知識片段構成。常識對於人類的預測能力很有幫助，可以幫助人類在日常生活中保證生存以及便利地解決問題。

要理解常識，語言通常是不夠的，需要結合人的感覺和理解，並且要融入統一的場景，這必然涉及到多模態數據的處理。

要解決常識問題，還有很長的路要走。即便是強大如OpenAI開發的GPT-2那樣的語言模型，也經不住常識問題的考驗（它不知道木柴+火柴=火）。Douglas Lenat於1984年設立的Cyc知識庫不可能通過編寫條目窮盡所有的常識，也無法克服脆弱性問題（常識應用中的模稜兩可現象）。艾倫人工智慧研究所提出的自動知識圖譜構建模型COMET，將常識推理想像成對新輸入生成即便不完美也是合理的響應過程，作為融合深度學習和符號推理的嘗試，在一定程度上緩解了覆蓋性和脆弱性問題。

CMU的這項研究值得稱道的地方在於，將視覺資訊轉換為語義知識構建導航系統的常識，將多種模態的數據進行了關聯，而沒有局限於語言知識。SemExp在構建常識的路上，走出了穩健的一步。

雷鋒網雷鋒網雷鋒網