CoRL2021落幕:多模態通向機器人智慧,無模型框架擁抱現實應用

  • 2021 年 11 月 29 日
  • AI
經濟學家熊彼特認為,所謂創新就是要」建立一種新的生產函數」,即”生產要素的重新組合」, 就是要把一種從來沒有的關於生產要素和生產條件的「新組合」引進生產體系中去,以實現對生產要素或生條件的「新組合」。目前,機器人就是新的生產要素,要妥帖地縫合在社會生活中。

後疫情時代的科學家與產業人士,已經找到機器人與人工智慧發展的方向,我們將看到,他們會逐漸把重心放在技術發展的時速上,保證機器人在進擊的道路上,適應這個時代的節奏。
作者 | 吳彤
編輯 | 青暮

今年的CoRL落下帷幕,這個專註於機器人領域的新秀,再一次將機器人前端研究推至大眾面前。

今年的機器人研究有哪些看點?公開展示的11個機器人研究和最佳論文獎到底有何突破?與往年相比,今年的機器人研究有哪些不同?後續將會影響哪些產業?

帶著這些問題,AI科技評論深剖了今年的CoRL會議,與大家共同探討 「2021年最前沿的機器人研究」。


1

CoRL中的11demo

在公布今年最佳論文獎之前,CoRL展示了11個機器人項目,透露了本年度最受關注的機器人研究方向。

demo鏈接://www.robot-learning.org/program/demos

這11項中,其中四項為四足機器狗,即2,4,7,10,分別為瑞士ANYbotics的ANYmal 和杭州宇樹科技A1。

在性能上,它們都利用了機載本體感受和外感受回饋,將感官資訊和所需的速度命令映射到腳步計劃中,實時、在線地適應未見過的地形環境,表現顯著優於其他腿式機器人。除此之外,它們還能在一系列運動步態之間隨意切換,以最小化其能量消耗。

而它們背後的模型強化學習,也一舉成為腿式機器人運動控制器開發中的最優方法。

具體來說,無模型強化學習指智慧體與環境進行實時交互和探索,並直接對得到的經驗數據進行學習,最終實現累積收益最大化或達到特定目標。它不需要擬合環境動態模型,只要與環境的實時交互,就可以保證智慧體漸近收斂得到最優解。

擁有這種模型的四足機器狗,不僅能順利走出實驗室,還能在更複雜的場景中自我決策,成就名副其實的–「跟著感覺走」。

接著,在機器人感知領域,視覺領域的項目有兩項,即1,3;觸覺領域有三項,即6,8,9。

在CV領域,實時密集三維映射稱為密集SLAM(Simultaneous localization and mapping,同步定位與建圖),一直是機器人技術的主要挑戰之一,問題包括估計感測器的自由度位姿和環境的三維重建。儘管目前存在RGB-D映射解決方案,但深度值不能簡單地從感測器讀取並融合,單目攝像機成為性價比最高的方案。

TANDEM框架的創新之處在於,它在攝像機跟蹤方面優於其他基於學習的單目視覺里程計(VO)方法,並展現出實時三維重建的性能。

具體來說,它採用了一種新的跟蹤前端,該前端使用由密集深度預測增量構建的全局模型渲染的深度圖來執行密集直接影像對齊。其次,為了預測稠密的深度圖,作者提出了級聯視圖聚合MVSNet (CVA-MVSNet),能夠利用整個活動關鍵幀窗口,通過分層構造具有自適應視圖聚合的3D成本量來平衡關鍵幀之間的不同立體基準線。最後,將預測的深度圖融合為一致的全局圖,並以截斷的帶符號距離函數(TSDF)體素網格表示。

而iMAP模型,則是第一個使用神經隱式場景表示的 SLAM 系統,能夠MLP 在沒有先驗數據的情況下在實時操作中進行訓練,構建一個密集的、特定於場景的隱式 3D 佔用和顏色模型。

除了視覺研究,機器人的觸覺研究也在今年展現出不俗的研究勢頭。

其中,ReSkin是一款利用機器學習和磁感測技術的觸覺軟感測器,能實現無源共形接觸(conformal contact),又能根據感測器特性提供主動接觸數據,可視化地表現其接觸定位和力預測。

此外,為解決長期以來軟感測器壽命短、退化快的問題,ReSkin在設計中將磁感測將電子電路從被動介面中分離出來,便於更換介面。

雖然目前的皮膚感知難以起步,但在現階段,研究者不約而同將目光聚焦在「指尖感應」上,通過深度學習解讀高解析度的觸覺數據,可實現對手持物體的精細控制和輕而穩的抓取。

最後,在機械臂運動規劃的研究中,模仿學習成為今年熱點。

視覺模仿學習可以建模為一個狀態估計問題,狀態定義為對象交互開始時末端執行器的姿勢。因此在學習中,無需使用大量演示或強化學習來明確學習策略,也無需儲存對與之交互的對象的任何先驗知識,而是訓練一個自我監督的姿態估計器,可從單個人類演示中學習各種技能,同時還產生一個穩定且可解釋的控制器。

而重頭戲–最佳論文獎,則將研究聚焦在「靈巧手」上。


2

 最佳論文獎:靈巧手

團隊三人來自麻省理工學院電腦科學與人工智慧實驗室 (MIT CSAIL),分別為陳濤、徐捷,以及陳濤的博導Pulkit Agrawal

巧的是,陳濤與徐捷同為2016年本科畢業,分別畢業於上海交通大學的機械工程及自動化專業與清華大學電腦科學與技術系。目前,兩人同在MIT CSAIL實驗室,各自師從於Improbable AI實驗室的Pulkit Agrawal教授與計算設計和製造組(CDFG)的Wojciech Matusik教授。

在研究方向上,兩人各有側重,陳濤擅長機器人學習、操作和導航;徐捷擅長機器人模擬、設計協同優化與模擬現實,這為兩人在靈巧手的合作上奠定了最基本的優勢。

從左至右為陳濤、徐捷、Pulkit Agrawal

在CoRL會後,AI科技評論聯繫到陳濤,對項目的研究思路和三人的工作做了詳細的了解。陳濤談到,這個項目最大的貢獻是為大家提供了一種研究思路:如何用強化學習和模仿學習訓練靈巧手控制器,並且展示了機械手在最為極端的情況(手面朝下)下轉動形狀任意的物體。研究還發現,當靈巧手控制器足夠魯棒時,即使不知道物體形狀資訊,也可以以高成功率轉動任意物體到指定朝向。

論文中表示,這個靈巧手有 24 個自由度,已通過無模型框架重新定位了超2000個形狀各異的物體,具有非常高的通用性。

對於許多小的圓形物體,比如蘋果、網球、彈珠,成功率接近 100%,對於更複雜的物體,如勺子、螺絲刀或剪刀,則接近 30%。研究發現,成功率因物體形狀而異,接下來還要基於對象形狀來訓練模型來。

在性能上,這個靈巧手不僅能夠藉助桌子平台上向上和向下重定向物體,還能免除桌子支撐,在空中重定向,表現接近人手。

左邊為物體應該定向的姿勢,右邊為定向演示。該圖為藉助桌子支撐的重定向展示

空中重定向,且手掌向下,需要考慮重力因素

空中重新定向,且手掌向上,物體的形狀複雜性加大。看這個靈活度,很適合盤核桃

在靈巧手研究領域,中國外都不乏研究者,但是目前使用最多的控制器,形式上無非是真空式吸盤或者平行夾爪。性能上,它們的優點在於抓取速度快且裝載系統的成本低,但缺點在於自由度有限,靈活度不高。

陳濤舉了一個例子:如果人手是鉗子的形狀,那麼我們只能控制手部的打開和閉合,這種情況下,我們還能使用我們家裡的很多工具嗎,比如剪刀,螺絲刀等。而這,就是「靈巧手」研究所在。

「我們希望未來能進入人們日常生活的機器人,能夠幫我們處理最基本的家務,比如說清理餐具,打掃廚房客廳, 收拾衣物等。那麼我們現有的機器人具有這個能力嗎?顯然是還不具備的。這個涉及到很多原因,其中一個物理條件就是是缺少靈巧的機械手。」陳濤談到。

那為什麼要研究靈巧手重定向物體呢(轉動物體到目標朝向)?其實這是一個很實用的技能:在我們生活中,擰螺絲,擰瓶蓋等動作都可以描述為物體在手上發生位移,由一開始的水平朝向變為豎直朝向,如果用靈巧手來實現這一高頻技能,機器人就會使用更多的工具,解決了大部分的場景應用問題。

從機器人面向複雜場景的應用到靈巧的末端控制器重定向研究,整個研究的轉向是極其自然又合理的。陳濤談到,靈巧手的研究源於自己和導師Pulkit Agrawal的一次飯後閑聊,隨後快速推進,前後周期不過三、四個月。但因為期間還給導師新開的一門課程做助教花費了大量的時間,所以實際周期要更短。

在項目推進中,徐捷的加入則使得整個研究更加健備。囿於當時疫情情況,想要在真實機械手上模擬成為難題,於是研究物理模擬的徐捷輔助搭建環境,解決了靈巧手在模擬環境中的棘手問題。

涉及靈巧手的研究方法,陳濤談到,靈巧手的自由度很高,如果用傳統的控制理論以及建立動力學模型的方法,項目將很難推進。

靈巧手本身是一個高維度的控制系統,是否能跳過建立模型這一步,直接採用無模型的強化學習來訓練靈巧手完成任務。

在一系列實驗後,他們發現,如果只給控制器提供物體姿態,手指關節角,物體目標朝向的資訊,那麼控制器學習訓練過程非常慢,而且最後訓練完成後的成功率也不夠高。所以他們又想到,如何能加快控制器的訓練?

受2019年CoRL的一篇研究自動駕駛的論文的啟發,他們想到,雖然最後測試過程中我們想要一個只依賴於物體姿態,手指關節角,物體目標朝向資訊的控制器,但是訓練過程中我們並不應該受限於只使用這些資訊。也就是說,在訓練過程中,我們可以使用更多的輔助資訊來幫助加快控制器的訓練。等到控制器學會這個技能後,再考慮去掉這些輔助資訊。

陳濤又舉了個例子,我們駕校學車的時候,科目二訓練場地會有一些輔助線或者輔助桿幫助學員掌握側方停車的技能。這些輔助線就是訓練過程中的輔助資訊,學員可以更快掌握側方停車的方法,隨後應用到現實世界中。

所以在陳濤他們的研究中也採用了相似的思路。

首先在訓練過程中,給控制器提供了許多額外的狀態資訊,比如物體的速度資訊。這些輔助資訊的加入極大地加速控制器的訓練。當訓練好這樣一個控制器後,就需要考慮怎麼讓控制器沒有這些額外輔助資訊也能工作。這時就用到了知識蒸餾(Knowledge Distillation) 或者說模仿學習(Imitation Learning)的技術。

他們把之前訓練好的控制器作為「教師」,然後訓練第二個控制器,即」學生」。「學生」控制器不需要使用額外的輔助資訊作為輸入,但通過模仿學習去模仿「教師」控制器的行為。最終,將獲得一個聰明的「學生」控制器,也就是可以用來訓練機械手轉動大量形狀不一的物體。在測試中,陳濤他們一共重定向了2000多個形狀不同的物體。

解決了靈巧手學習框架的問題,接下來就是模擬現實應用。在真實場景中,手做任務時會有各種朝向,其中最極端的一種情況就是手掌朝下:不僅要操縱物體,還要避免重力因素導致物體脫落。

陳濤談到,經過實驗測試,我們發現現有的框架依然是夠用的,只是需要在每次轉物體開始前給物體姿態和手指關節角提供一個好的初始值,而非隨機初始化。這裡好的初始值是指能在初始時刻讓手指觸碰到物體,但是因為物體形狀的複雜多樣,靈巧手的高維狀態空間,所以很難通過經典方法比如運動學逆解來獲取這些好的初始值。

為了解決這一問題,他們首先訓練了一個藉助桌子而向下抓取物體的控制器。那麼抓起之後,自然而然就獲得了一個好的初始姿態設定。在此基礎上,就可以用之前提到的框架去訓練控制器。

通過這樣的訓練後,他們發現靈巧手朝下轉動物體成功率僅有50%左右,實際上,即使與人相比,這個成功率已經很高了。陳濤說到,想像一下,你在閉眼時手掌朝下將一個任意形狀的物體轉到特定朝向,你的成功率有多高呢?

「但是我們依舊想進一步提高成功率,由此想到物體重力的影響。這就啟發了我們下一個提高成功率的技巧:我們首先讓機械手在真空(無重力)環境下訓練,等到它學會怎麼轉東西了之後,我們逐漸增加重力加速度,並繼續訓練控制器直到它能在正常的重力環境下轉動物體。我們稱這個技巧為 「Gravity Curriculum」(重力課程)。」

最終,整個項目最出乎意料的發現是:無論是機械手朝上或朝下,都能成功訓練一個控制器,使它在不知道物體形狀的情況下還能夠任意轉動形狀各異的物體。即論文中所說的「無感官預訓練」。

最後,陳濤談到:靈巧手是在機器人領域尚未被充分研究的的一項研究,希望我們的工作能讓更多人關注到靈巧手操作這一領域,有更多人能進入這一領域共同促進靈巧手的發展。

但會議落幕,研究尚未結束。陳濤表示目前還會做一些拓展工作,比如將當前在模擬器里訓練好的控制器遷移到真實的機械手上。「我們希望能在真實機械手上也能實現轉動許多不同物體的目標。如果之後有其他人在這款靈巧手中加入視覺的資訊或觸覺的資訊,使它的成功率更高,也要看在真實環境中的測試。」

未來,這款機械手可以轉移到真實機器人系統,或應用到物流和製造業中,比如物體打包,插槽裝配等;或應用於家庭場景中,處理雜物等。總之,它將使得機器人距離我們更近


3

「無模型強化學習+模仿學習」組CP

總結來看,今年的CoRL中的研究有兩種:一、基於無模型強化學習+模仿學習的機器人;二、基於視覺觸覺等感知的機器學習系統。

為何「無模型強化學習+模仿學習」組了CP?

說到底,這是研究者們更加重視機器人在環境中的進化結果。

比如,和ANYmal機器狗在現實環境中在線進化不同,陳濤團隊的靈巧手研究首先在模擬環境中訓練,然後通過模仿學習一步一步提高泛化能力,並最終在真實的機械手上觀測遷移性能。

同樣,與陳濤團隊的研究路徑相比,ANYmal機器狗強調在現實環境中進化,從而獲得更合適的回饋,比如得到更適合機器「狗」的回饋數據。

總之,無論是用有模型的訓練框架,還是用無模型的訓練框架;是在真實環境內中訓練、在模擬環境中訓練,各種方法並無優劣,而是是否適配特定的機器本體(仿人,仿狗等等)。

拿無模型強化學習來說,它成為今年的CoRL會議上頻出的研究方法,其優勢為何?

要解釋何為無模型強化學習,首先要看向強化學習。

在定義中,強化學習作為機器學習領域中與監督學習、無監督學習並列的第三種學習範式,它是通過與環境進行交互來學習,最終將累積收益最大化。而強化學習演算法分為模型化強化學習和無模型強化學習。

基於模型的強化學習演算法是智慧體通過與環境交互獲得數據,根據數據學習和擬合模型,智慧體根據模型利用強化學習演算法優化自身的行為。

基於模型的強化學習演算法的優點:由於智慧體利用數據進行模型的擬合,因此智慧體將數據進行了充分的利用,因為模型一旦擬合出來,那麼智慧體就可以根據模型來推斷智慧體從未訪問過的區域。因為數據得到了最高的利用效率。智慧體與環境之間的交互次數會急劇減少。用一個詞來概括基於模型的強化學習演算法就是Data efficiency。

從基於模型的強化學習演算法的過程我們也可以很容易看到它的缺點:擬合的模型存在偏差,因此基於模型的強化學習演算法一般不能保證最優解漸近收斂。

而在無模型強化學習中,智慧體通過與環境進行實時交互學習收斂得到最優策略。由於沒有擬合環境模型,所以智慧體對環境的感知和認知只能通過與環境之間不斷的交互。這個交互量多大呢?在陳濤的研究中使用了2000個形狀各異的物體做模擬訓練。如此多的交互次數使得無模型的強化學習演算法效率很低,而且難以應用到實際物理世界中。

然而,跟基於模型的強化學習演算法相比,無模型的強化學習演算法有一個很好的性質,該性質是漸近收斂。也就是說,無模型的強化學習演算法經過無數次與環境的交互可以保證智慧體得到最優解。

然後從這點出發,再尋找提高訓練速度的方法,比如添加更多的輔助資訊,然後再通過知識蒸餾方法去掉輔助資訊。先做加法、

隨之而來的還有泛化問題,從模擬環境到現實環境,訓練出在某個問題上泛化能力強的模型,才是機器學習最根本的目的。師生模仿學習成為這一階段的利器。

此外,為何小數據模型受到追捧,或許還能從近年來的技術研究範式看出端倪:

一方面,科學家們逐漸厭惡大數據研究,累瀆般的數據搬運和數據標記,勞神費力又泛化能力弱。另一方面,隨著認知神經科學等學科的參與,生物進化思想滲透到智慧體迭代的研究中,科學家們逐漸認識到:機器人研究,一端朝向「機器」,一端朝向「人」,只有將機器人置於環境中進化,才能學到人類最根本的學習範式:經驗學習。

反思機器人與自己的數據化生存,成為研究者走出研究囹圄的第一步。

然而,技術並非抽象生存,將機器人置於環境進化中,其背後的科學家處於何種浪潮?


4

後疫情時代的機器人研究

後疫情時代,很多故事圍繞機器人。但不樂見的是,疫情並未結束,不時以一種幽怨的方式臨場。兩年來,這種非常態化的社會環境,如何籠罩機器人的前端研究?

以應用場景劃分,機器人劃分為工業、服務、醫療三大領域,隨著機器人硬體市場規模持續增長與迭代,機器人的底層研發邏輯也在改變:第一階段,機器人以「機械」名義入場,成為人類感官的延伸,如醫療手術機器臂。

第二階段,受疫情特殊社會化環境影響,機器人以「車」的形式再度登場,並發揮組織調度能力,延伸人的四肢,比如用於倉儲分類,幹線運輸,清潔服務等機器人。也是從這一階段開始,機器人玩家發力生活服務的最後一公里,愈發越接近人的環境,由此引出第三階段:面向非結構化複雜場景的機器人。

隨著第三階段的到來,機器人的研發模式也在變化,一面是鋼鐵本體的擬人化,出現更多的仿生機器人,模仿生物的骨骼和外形結構;一面是機器人智力的融合化,開始調動「耳目口舌」等多模態資訊並與環境交互。

目前,機器人本體控制和軟體演算法的快速耦合正在擴大機器人能夠自主執行的任務範圍,換句話說,也就是機器人的可商業化場景。

回頭來看,非常態化的疫情環境更像是為機器人研發建構了一間屋子,加快前端研發沿著多模態和環境進化的方向發展。而機器人玩家在這個時間點瘋狂入局,更是為這階段的技術研發打了一道牆,既將機器人產業的視線縮小在「最後一公里」,又迫使前端科學家專註於機器人技術的可用性,儘快完成機器人智力的升級。

房間里打牆,除了更狹塞,也會更聚焦。往前往後沒有出路,只有喚醒體內所有暗流,鼓裂頭頂上的一點。

在疫情後的第二年,CoRL也驗證了這一點:多模態是通向機器人智慧的一條新路,無模型框架才能讓技術儘快走出實驗室。

說到底,技術是為人服務的。最後一公里的競爭,會更細分,也更有想像力。

億歐智庫曾對中國商用服務機器人及各細分市場均進行測算,預期2025年中國商用服務機器人市場將突破1000億元規模,商用清潔機器人將呈現持續高增長至約749億元,終端配送(不含室外)機器人約達348億元,講解引導機器人約達62億元。

相比工業機器人來說,服務機器人離人更近,應用範圍更廣,商業化程度也更高。

雖然疫情沒有消失,甚至自2019年12月後轉為常態化,但後疫情時代,產業端是否會再打一堵牆,都不再撼動機器人的前端研究。

然而,無模型強化學習通常需要大量的訓練樣本和訓練時間,如何提高數據利用率和學習效率成為無模型強化學習的研究重點。

所以,總體來看,CoRL中的三種研究模式各有側重:仿生機器狗的重點是測試無模型強化學習在環境交互中的收斂性能,靈巧手則是推進最容易嫁接到機器人系統中的封裝模組,視覺觸覺研究則是推進多模態研究中的重要一環。

明年機器人會出現哪些重要的產學研發展,其實都離不開這三塊。

參考鏈接:

//36kr.com/p/1467495756712960

//zhuanlan.zhihu.com/p/28563483

CoRL論文鏈接:

//arxiv.org/pdf/2012.03094.pdf

//openreview.net/pdf?id=eIk6eBz3Wlt

//openreview.net/pdf?id=wK2fDDJ5VcF

//openreview.net/pdf?id=vm8Hr9YJHZ.

//www.robot-learning.uk/coarse-to-fine-imitation-learning

//openreview.net/pdf?id=p-TBwVowXRH

//openreview.net/forum?id=7uSBJDoP7tY

雷峰網雷峰網