拿下200萬美元獎金,DARPA地下挑戰賽冠軍機器人長啥樣?輪式、腿式、飛行,多形態齊上陣!

  • 2021 年 10 月 14 日
  • AI
三年競賽落下帷幕,CERBERUS團隊贏得DARPA地下挑戰賽冠軍!

作者 | 吳彤

編輯 | 陳彩嫻

DARPA,Defense Advanced Research Projects Agency,為美國國防高級研究計劃局,也是一所以軍事目的的科研機構。作為引領美軍科技創新的「技術引擎」,自創立以來,DARPA一直是美國國防部的核心研發部門。

可以說,美國人工智慧的發展很大程度上歸功於DARPA的支援。

從20世紀60年代初至今,在60餘年的研究中,從最初的基礎研究項目到軍事應用研究,DARPA在基礎研究和應用研究之間建立了平衡,先後進行了自然語言理解、感知和機器人、可解釋的人工智慧、下一代人工智慧、人機融合、基於人工智慧的網路攻擊與防禦技術等領域的研究。

DARPA一向具有對未來極具前瞻性,通過舉辦系列挑戰賽,DARPA充分發掘利用民間商用前沿技術對接軍事應用需求的潛力。

比賽時間線://www.youtube.com/watch?v=HuJGIAjuxLE

從2018年比賽至今的地下挑戰賽(SubT挑戰賽),終於在今年9月24日終於落下帷幕。

在SubT 系統挑戰賽總決賽中,有兩支隊伍戰績不差毫分!第二名是CSIRO Data61與CERBERUS同樣獲得23分,最終以CERBERUS先於幾個小時得分而獲得冠軍。CERBERUS團隊以「四足多形態機器人」贏得DARPA地下挑戰賽一等獎,200萬美元!

總決賽得分情況


1

地下挑戰賽

地下挑戰賽(Subterranean Challenge,SubT)在2018年由DARPA開始組織。由兩條賽道組成:系統賽道和虛擬賽道,這兩條賽道都分為三個子領域,即隧道、城市和洞穴賽道。虛擬競賽的重點是開發能夠參與基於模擬的活動的軟體,而系統競賽的重點是在真實野外環境中運行的物理機器人。通過人造環境和天然環境的競賽,挑戰各團隊的自主和地下機器人技術的極限,為實現”開發創新技術,擴大地下作業”的目標角逐新方法。

DARPA戰術技術辦公室項目經理 Timothy Chung 表示,舉辦「SubT」挑戰賽的目的就是為了在執行地下行動時獲得從未有過的態勢感知能力,尋求在地下環境中快速偵查、通過、搜索等任務的新方法。這些挑戰的目的是為無法使用GPS和直接通訊的地下環境中的急救人員開發自主機器人解決方案,同時這種為地球上的極端環境探索而開發的技術也可直接應用於空間探索。

今年,有10個團隊在整個地下挑戰賽中只採用了虛擬形式,爭奪75萬美元的最高獎金。進入地下挑戰賽系統賽道決賽的隊伍共有8個,涉及到的學校及組織機構有30多個,匯聚在前肯塔基石灰石礦,參與一系列複雜的地下場景競賽。

在總決賽中,還出現了六足仿蜘蛛機器人,四輪車型機器人、履帶坦克型機器人、飛行機器人

最後一場競賽在400萬平方英尺(37萬平方米)的路易斯維爾巨型洞穴舉行,其特點是DARPA設計的所有三個子競賽的結合,從具有不規則通道和大型洞穴的洞穴系統到具有複雜布局的地下結構,達到幾層樓高。

對於每個賽道,團隊必須完成一系列目標。主要任務是搜索、檢測並提供競賽所要求的 10 到 30 件物品精確的地理參考位置。這些物品可能包括人類倖存者(人體模型)、門、電動泵、閥門、背包、滅火器、收音機或手機,以及更多抽象的東西,如煤氣泄漏。團隊的最終得分主要取決於他們能夠找到多少物品,以及用時多長。但 DARPA 希望團隊在整個過程中可以提供連續、實時的 3D 地圖更新。

DARPA 強調了「SubT」的四個技術領域,包括自主、感知、網路和移動性。所有這些都是由「SubT」環境驅動的,它們包含了一系列技術挑戰元素,DARPA 將使用它們來大體評估系統性能。

具體來說,以下就是參賽團隊必須要面對和處理的事情:

  • 嚴格導航:挑戰包括多個級別,傾斜、循環、死角、滑動誘導地形介面和急轉彎等。可見度有限,困難地形和稀疏特徵的這種環境可導致顯著的定位誤差並且在延長的運行期間漂移。

  • 降級感測:比賽包括從受限制的通道到大開口,照明區域到完全黑暗,以及潮濕到多塵的條件。感知和本體感受器將需要在這些低光、模糊或散射環境中可靠地操作,同時具有適應這種變化條件的動態範圍。灰塵、霧、水和煙霧都在這個挑戰元素的範圍內。極端溫度,火災和有害物質預計不在範圍內。

  • 嚴密通訊:有限的視距,無線電頻率傳播挑戰以及地下環境中不同地質的影響對可靠的網路和通訊鏈路造成嚴重障礙。物理競賽階段以及「SubT」虛擬測試平台環境旨在儘可能地涵蓋這些通訊限制。鼓勵團隊思考出克服這些約束的解決方案,包括硬體、軟體、波形、協議、分散式或分散式概念或部署方法的新穎組合。

  • 地形障礙:要求系統在導航一系列具有移動性的地形特徵和障礙物時表現出穩健性。地形元素和障礙物可包括受約束的通道、急轉彎、陡坡、傾斜、台階、梯子以及泥沙和水。環境可包括有機或人造材料; 結構化或非結構化的構造; 完整或倒塌的結構和碎片。

  • 動態地形:地形特徵和障礙物還可以包括動態元素,其可以包括例如移動障礙物、移動牆壁和障礙物,落下的碎片或環境的其他物理變化,其測試系統自主性的敏捷性、反應,並可能從地圖變化的可能性中恢復。

  • 耐力限制:預計成功的系統需要具有 120 分鐘的團隊聚合耐力才能完成任務。預計每個賽道的運行時間為 60 – 90 分鐘,每場總決賽的運行時間為 60 – 120 分鐘。這種總體耐久性可能需要新穎的部署理念、能量感知規劃、能量收集或轉移技術,以及各種方法的組合以克服各種挑戰元素。


2

冠軍機器人:ANYmal C

在任務中,團隊合作者依靠各種各樣的機器人來完成任務目標。他們首先派出機器人偵察員探索環境,然後根據機器人的運動模式選擇最能集體滿足總體任務目標的機器人子集。

CEREBUS通過成功定位放置在不同領域內的40件文物中的23件而贏得了比賽。雖然該團隊利用了多旋翼無人機和地面機器人的協作組合,但大部分工作是由蘇黎世聯邦理工學院的衍生公司ANYbotics製造的四個ANYmal C四足機器人完成和拍攝。除其他外,ANYmal C的四足行走步態使機器人能在不平坦的地形上移動,在被碰撞時保持穩定,甚至可以爬上和爬下樓梯。

在本次的極端環境挑戰中的ANYmal C, 是一種適用於極限環境的四足行走機器人。

它像一隻大型犬,重100斤,將高端電腦系統與堅固的硬體結合在一起,並配備了感測系統,可以執行搜救行動,檢查和其他監視任務。

四足機器人的形態,不僅保證了它在運動過程中,身體部分的姿態會動態調整。在運動中,能以每秒1米的速度移動,管理20度斜坡和45度樓梯,跨越25厘米的間隙,並通過寬度僅為60厘米的通道。並且,它還配備了攝影機和3D感測器,包括用於3D繪圖和同步定位和映射(SLAM)的光學雷達。所有這些感測器以及通過ANYmal完成的大量步態研究,使其成為最可靠的自主四足人工智慧機器人之一,具有實時運動規劃和避障功能。

爬雪山、過草地、走水路
在過去的十年中,ANYmal 系列機器人經歷了一系列的更新換代和技術革新,從最初的 ANYmal Alph 到 ANYmal Beth、ANYmal B 再到如今的 ANYmal C,數次迭代,ANYmal 愈發強大。
其設計團隊ANYbotics 表示,他們從事腿式機器人的研究已經超過 10 年,2019年又根據工業需求重新對 ANYmal 機器人進行了設計。他們的研究核心是設計出強大的扭矩可控制動器,使得機器人能夠爬上陡峭的樓梯,承受各種環境變化帶來的壓力。
在地下挑戰賽中,是ANYmal C被部署在實際環境中進行應用的例子,並證明從研發至今,ANYmal C依舊保持優秀的性能、安全性和可靠性。
作為一隻應對工業的商用機器人來說,ANYmal C大部分性能提升受到行業客戶或商業經驗的驅動。現實中,客戶心中的大多數用例都是現實的,要實現的,比如在50°C的高溫環境中爬50°樓梯、行過一條長度3公里的地下煤炭隧道,並拍到實地圖。
隨著考慮更多場景,用於在崎嶇等特殊地形上進行腿式運動的常規系統的複雜性不斷升級,尤其是機器人自主決策。在主人「離線」的情況下,「跟著感覺走」?
在不平坦的地形上,常規腿式運動方法方法使得控制架構越來越複雜。許多情況都要依賴複雜的狀態機來協調運動原語和反射控制器的執行。為了觸髮狀態之間的轉換或反射的執行,許多系統都明確地預估狀態,例如地面接觸和滑行移動。這種預估通常是基於經驗設置的,並且在存在諸如泥土、雪地或植被等未建模因素的情況下可能會變得不穩定。還有一些在腳部使用接觸式感測器的系統,在野外條件下也會變得不可靠。
無模型強化學習(RL)成為腿式機器人運動控制器開發中的一種替代方法。強化學習方向的觀點是調整控制器以優化給定的獎勵函數。優化是通過執行控制器本身獲取的數據來執行的,這會隨著經驗的增加而改進。強化學習已經用於簡化運動控制器的設計,自動化設計過程的各個部分以及學習之前的方法無法設計的行為。
但是,將強化學慣用於腿式運動在很大程度上僅限於實驗中的環境和條件。此前的研究實現了運動和恢復行為的端到端學習,但僅限於在實驗室的平坦地面上進行。其他研究也開發了用於腿式運動的強化學習技術,但同樣是在實驗的環境中,主要集中在平坦或帶有中等紋理的表面上。
ANYbotics 的研究者提出了一種穩健的控制器,用於在充滿挑戰的地形上進行盲四足運動。該控制器僅使用聯合編碼器和慣性測量單元的本體感受(proprioceptive)度量,這是腿式機器人上最耐用最可靠的感測器。
研究人員介紹說,這個控制器由一種神經網路策略驅動,在模擬環境中進行訓練。雖然沒有任何現實世界的數據和精確的地形模型,該控制器仍然能克服野外的各種不規則地形。研究人員還強調說,「我們的系統可以穿越幾乎所有地形,而且一次都沒有摔倒。」
此外,這項研究中提到的方法並沒有用到攝影機、光學雷達或接觸式感測器資訊,只依賴本體感受感測器訊號(proprioceptive sensor signal)來提高控制策略在不同地形中的適應性和穩健性。
ANYmal C在地下挑戰賽中
從這次挑戰賽的結果來看,ANYmal C不需要進行艱苦的建模過程,以及危險且高成本的實地測試,物理世界的極度複雜性也可以被克服,這一方法還在繼續引領腿式機器人的發展。


3

CERBERUS團隊

CEREBUS團隊是一個國際財團(即工商企業聯合組織),團隊名字的全稱叫CollaborativE walking and flying RoBots for autonomous ExploRation in Underground Settings(在地下環境中自主探索的協作行走和飛行機器人),由來自內華達大學裡諾分校、蘇黎世聯邦理工學院、挪威科技大學(NTNU)、加州大學伯克利分校、牛津大學、無人機製造商Flyability和內華達山脈公司的人員組成。
項目於2018年9月18日啟動,由NTNU工程式控制制論系的Kostas Alexis教授領導,他在內華達大學(UNR)里諾分校任教時獲得了項目撥款,並一直擔任團隊負責人。
團隊領導還包括Marco Hutter教授(蘇黎世聯邦理工學院機器人系統實驗室)、Roland Siegwart教授(蘇黎世聯邦理工學院自主系統實驗室)、Mark Mueller教授(加州大學伯克利分校)、Maurice Fallon教授(牛津大學)、Adrien Briod教授(Flyability)、Eelke Folmer教授(UNR)以及Sierra Nevada公司的公司領導。
這次地下挑戰賽獲得200萬美元的獎金,對整個團隊來說,都是一次振奮。但創立之初,牽頭人Kostas Alexis還有遲疑,「團隊該如何吸引世界優秀學生?」
UNR的電腦科學與工程系主任Eelke Folmer說到:「 我記得Kostas一開始甚至對申請DARPA的挑戰都有所保留,因為他必須與世界上最好的大學的團隊競爭,但是這些大學擁有更好的學生和更多的資源。」
Eelke Folmer透漏出細節,Kostas為了這個項目,長期把辦公桌「安」在實驗室,與學生一起做研究。
「作為一名導師,Kostas 真的很出色,他對學生都很好,無論他們是研究生、本科生還是暑期在他實驗室實習的高中生。Kostas的辦公室實際上就是他實驗室中間的一張桌子,這讓他有很多時間和他的學生在一起。他沒有讓學生為他工作,而是去幫助學生,一起解決最難的人工智慧挑戰。隨著他在機器人界的聲望不斷提高,也幫助他吸引了頂尖大學的學生。」
目前,對於CERBERUS團隊的所有成員來說,能夠將彈性自主機器人的工作向前推進,並藉由團隊力量充分交流,對科技發展來說彌足珍貴。


4

結語:挑戰賽的盡頭是什麼?

功成名就之後,增強型自主機器人會走向何處?
DARPA表示,已經啟動了開發第三代AI技術的下一代人工智慧(AI Next)項目,以及大型的、多樣的基礎及應用的人工智慧項目組合—人工智慧探索(AIE)計劃致力於將AI提升為有洞察力和可信賴的合作者的AIRA計劃以及為第三代AI開發新演算法的虛擬智慧處理(VIP)項目。
未來第三代AI技術可能會極大地改變軍事任務規劃,科學家可利用機器開展研究,人類可與機器互動,兩者之間更加密切的合作可實現更好的決策能力和產生更具創造性的思維。
本身就具有軍事目的的DARPA,在SubT官網中引用了Clausewitz在《戰爭論》中的一句話,「戰爭與地形的關係需要作戰雙方快速準確地掌握任何區域地形的能力。」這是否暗示未來軍事交戰將下沉到地下作戰,形成「海陸空+地道戰」的新型作戰形式?或藉助地下空間進行隱藏、機動、休整、支援保障的戰後修養工作?
不管大國是否瞄準至暗之地,服務現世才是剛需。無論如何,自主機器人將徹底改變我們在地下領域的運作方式。

參考資料:

//www.newscientist.com/article/2293061-team-of-underground-rescue-robots-wins-2-million-darpa-prize/
//www.163.com/dy/article/FPP8O3NE0514R9P4.html
//www.anybotics.com/news/
//www.darpa.mil/about-us/subterranean-challenge

雷鋒網雷鋒網