拿下200万美元奖金，DARPA地下挑战赛冠军机器人长啥样？轮式、腿式、飞行，多形态齐上阵！

2021 年 10 月 14 日
AI

三年竞赛落下帷幕，CERBERUS团队赢得DARPA地下挑战赛冠军！

作者 | 吴彤

编辑 | 陈彩娴

DARPA，Defense Advanced Research Projects Agency，为美国国防高级研究计划局，也是一所以军事目的的科研机构。作为引领美军科技创新的“技术引擎”，自创立以来，DARPA一直是美国国防部的核心研发部门。

可以说，美国人工智能的发展很大程度上归功于DARPA的支持。

从20世纪60年代初至今，在60余年的研究中，从最初的基础研究项目到军事应用研究，DARPA在基础研究和应用研究之间建立了平衡，先后进行了自然语言理解、感知和机器人、可解释的人工智能、下一代人工智能、人机融合、基于人工智能的网络攻击与防御技术等领域的研究。

DARPA一向具有对未来极具前瞻性，通过举办系列挑战赛，DARPA充分发掘利用民间商用前沿技术对接军事应用需求的潜力。

比赛时间线：//www.youtube.com/watch?v=HuJGIAjuxLE

从2018年比赛至今的地下挑战赛（SubT挑战赛），终于在今年9月24日终于落下帷幕。

在SubT 系统挑战赛总决赛中，有两支队伍战绩不差毫分！第二名是CSIRO Data61与CERBERUS同样获得23分，最终以CERBERUS先于几个小时得分而获得冠军。CERBERUS团队以“四足多形态机器人”赢得DARPA地下挑战赛一等奖，200万美元！

总决赛得分情况

1

地下挑战赛

地下挑战赛(Subterranean Challenge，SubT)在2018年由DARPA开始组织。由两条赛道组成：系统赛道和虚拟赛道，这两条赛道都分为三个子领域，即隧道、城市和洞穴赛道。虚拟竞赛的重点是开发能够参与基于模拟的活动的软件，而系统竞赛的重点是在真实野外环境中运行的物理机器人。通过人造环境和天然环境的竞赛，挑战各团队的自主和地下机器人技术的极限，为实现”开发创新技术，扩大地下作业”的目标角逐新方法。

DARPA战术技术办公室项目经理 Timothy Chung 表示，举办“SubT”挑战赛的目的就是为了在执行地下行动时获得从未有过的态势感知能力，寻求在地下环境中快速侦查、通过、搜索等任务的新方法。这些挑战的目的是为无法使用GPS和直接通信的地下环境中的急救人员开发自主机器人解决方案，同时这种为地球上的极端环境探索而开发的技术也可直接应用于空间探索。

今年，有10个团队在整个地下挑战赛中只采用了虚拟形式，争夺75万美元的最高奖金。进入地下挑战赛系统赛道决赛的队伍共有8个，涉及到的学校及组织机构有30多个，汇聚在前肯塔基石灰石矿，参与一系列复杂的地下场景竞赛。

在总决赛中，还出现了六足仿蜘蛛机器人，四轮车型机器人、履带坦克型机器人、飞行机器人

最后一场竞赛在400万平方英尺（37万平方米）的路易斯维尔巨型洞穴举行，其特点是DARPA设计的所有三个子竞赛的结合，从具有不规则通道和大型洞穴的洞穴系统到具有复杂布局的地下结构，达到几层楼高。

对于每个赛道，团队必须完成一系列目标。主要任务是搜索、检测并提供竞赛所要求的 10 到 30 件物品精确的地理参考位置。这些物品可能包括人类幸存者(人体模型)、门、电动泵、阀门、背包、灭火器、收音机或手机，以及更多抽象的东西，如煤气泄漏。团队的最终得分主要取决于他们能够找到多少物品，以及用时多长。但 DARPA 希望团队在整个过程中可以提供连续、实时的 3D 地图更新。

DARPA 强调了“SubT”的四个技术领域，包括自主、感知、网络和移动性。所有这些都是由“SubT”环境驱动的，它们包含了一系列技术挑战元素，DARPA 将使用它们来大体评估系统性能。

具体来说，以下就是参赛团队必须要面对和处理的事情：

严格导航：挑战包括多个级别，倾斜、循环、死角、滑动诱导地形界面和急转弯等。可见度有限，困难地形和稀疏特征的这种环境可导致显著的定位误差并且在延长的运行期间漂移。
降级传感：比赛包括从受限制的通道到大开口，照明区域到完全黑暗，以及潮湿到多尘的条件。感知和本体感受器将需要在这些低光、模糊或散射环境中可靠地操作，同时具有适应这种变化条件的动态范围。灰尘、雾、水和烟雾都在这个挑战元素的范围内。极端温度，火灾和有害物质预计不在范围内。
严密通信：有限的视距，无线电频率传播挑战以及地下环境中不同地质的影响对可靠的网络和通信链路造成严重障碍。物理竞赛阶段以及“SubT”虚拟测试平台环境旨在尽可能地涵盖这些通信限制。鼓励团队思考出克服这些约束的解决方案，包括硬件、软件、波形、协议、分布式或分散式概念或部署方法的新颖组合。
地形障碍：要求系统在导航一系列具有移动性的地形特征和障碍物时表现出稳健性。地形元素和障碍物可包括受约束的通道、急转弯、陡坡、倾斜、台阶、梯子以及泥沙和水。环境可包括有机或人造材料; 结构化或非结构化的构造; 完整或倒塌的结构和碎片。
动态地形：地形特征和障碍物还可以包括动态元素，其可以包括例如移动障碍物、移动墙壁和障碍物，落下的碎片或环境的其他物理变化，其测试系统自主性的敏捷性、反应，并可能从地图变化的可能性中恢复。
耐力限制：预计成功的系统需要具有 120 分钟的团队聚合耐力才能完成任务。预计每个赛道的运行时间为 60 – 90 分钟，每场总决赛的运行时间为 60 – 120 分钟。这种总体耐久性可能需要新颖的部署理念、能量感知规划、能量收集或转移技术，以及各种方法的组合以克服各种挑战元素。

2

冠军机器人：ANYmal C

在任务中，团队合作者依靠各种各样的机器人来完成任务目标。他们首先派出机器人侦察员探索环境，然后根据机器人的运动模式选择最能集体满足总体任务目标的机器人子集。

CEREBUS通过成功定位放置在不同领域内的40件文物中的23件而赢得了比赛。虽然该团队利用了多旋翼无人机和地面机器人的协作组合，但大部分工作是由苏黎世联邦理工学院的衍生公司ANYbotics制造的四个ANYmal C四足机器人完成和拍摄。除其他外，ANYmal C的四足行走步态使机器人能在不平坦的地形上移动，在被碰撞时保持稳定，甚至可以爬上和爬下楼梯。

在本次的极端环境挑战中的ANYmal C，是一种适用于极限环境的四足行走机器人。

它像一只大型犬，重100斤，将高端计算机系统与坚固的硬件结合在一起，并配备了传感系统，可以执行搜救行动，检查和其他监视任务。

四足机器人的形态，不仅保证了它在运动过程中，身体部分的姿态会动态调整。在运动中，能以每秒1米的速度移动，管理20度斜坡和45度楼梯，跨越25厘米的间隙，并通过宽度仅为60厘米的通道。并且，它还配备了摄像头和3D传感器，包括用于3D绘图和同步定位和映射（SLAM）的激光雷达。所有这些传感器以及通过ANYmal完成的大量步态研究，使其成为最可靠的自主四足人工智能机器人之一，具有实时运动规划和避障功能。

爬雪山、过草地、走水路

在过去的十年中，ANYmal 系列机器人经历了一系列的更新换代和技术革新，从最初的 ANYmal Alph 到 ANYmal Beth、ANYmal B 再到如今的 ANYmal C，数次迭代，ANYmal 愈发强大。

其设计团队ANYbotics 表示，他们从事腿式机器人的研究已经超过 10 年，2019年又根据工业需求重新对 ANYmal 机器人进行了设计。他们的研究核心是设计出强大的扭矩可控制动器，使得机器人能够爬上陡峭的楼梯，承受各种环境变化带来的压力。

在地下挑战赛中，是ANYmal C被部署在实际环境中进行应用的例子，并证明从研发至今，ANYmal C依旧保持优秀的性能、安全性和可靠性。

作为一只应对工业的商用机器人来说，ANYmal C大部分性能提升受到行业客户或商业经验的驱动。现实中，客户心中的大多数用例都是现实的，要实现的，比如在50°C的高温环境中爬50°楼梯、行过一条长度3公里的地下煤炭隧道，并拍到实地图。

随着考虑更多场景，用于在崎岖等特殊地形上进行腿式运动的常规系统的复杂性不断升级，尤其是机器人自主决策。在主人“离线”的情况下，“跟着感觉走”？

在不平坦的地形上，常规腿式运动方法方法使得控制架构越来越复杂。许多情况都要依赖复杂的状态机来协调运动原语和反射控制器的执行。为了触发状态之间的转换或反射的执行，许多系统都明确地预估状态，例如地面接触和滑行移动。这种预估通常是基于经验设置的，并且在存在诸如泥土、雪地或植被等未建模因素的情况下可能会变得不稳定。还有一些在脚部使用接触式传感器的系统，在野外条件下也会变得不可靠。

无模型强化学习（RL）成为腿式机器人运动控制器开发中的一种替代方法。强化学习方向的观点是调整控制器以优化给定的奖励函数。优化是通过执行控制器本身获取的数据来执行的，这会随着经验的增加而改进。强化学习已经用于简化运动控制器的设计，自动化设计过程的各个部分以及学习之前的方法无法设计的行为。

但是，将强化学习用于腿式运动在很大程度上仅限于实验中的环境和条件。此前的研究实现了运动和恢复行为的端到端学习，但仅限于在实验室的平坦地面上进行。其他研究也开发了用于腿式运动的强化学习技术，但同样是在实验的环境中，主要集中在平坦或带有中等纹理的表面上。

ANYbotics 的研究者提出了一种稳健的控制器，用于在充满挑战的地形上进行盲四足运动。该控制器仅使用联合编码器和惯性测量单元的本体感受（proprioceptive）度量，这是腿式机器人上最耐用最可靠的传感器。

研究人员介绍说，这个控制器由一种神经网络策略驱动，在模拟环境中进行训练。虽然没有任何现实世界的数据和精确的地形模型，该控制器仍然能克服野外的各种不规则地形。研究人员还强调说，「我们的系统可以穿越几乎所有地形，而且一次都没有摔倒。」

此外，这项研究中提到的方法并没有用到摄像头、激光雷达或接触式传感器信息，只依赖本体感受传感器信号（proprioceptive sensor signal）来提高控制策略在不同地形中的适应性和稳健性。

ANYmal C在地下挑战赛中

从这次挑战赛的结果来看，ANYmal C不需要进行艰苦的建模过程，以及危险且高成本的实地测试，物理世界的极度复杂性也可以被克服，这一方法还在继续引领腿式机器人的发展。

3

CERBERUS团队

CEREBUS团队是一个国际财团（即工商企业联合组织），团队名字的全称叫CollaborativE walking and flying RoBots for autonomous ExploRation in Underground Settings（在地下环境中自主探索的协作行走和飞行机器人），由来自内华达大学里诺分校、苏黎世联邦理工学院、挪威科技大学(NTNU)、加州大学伯克利分校、牛津大学、无人机制造商Flyability和内华达山脉公司的人员组成。

项目于2018年9月18日启动，由NTNU工程控制论系的Kostas Alexis教授领导，他在内华达大学（UNR）里诺分校任教时获得了项目拨款，并一直担任团队负责人。

团队领导还包括Marco Hutter教授(苏黎世联邦理工学院机器人系统实验室)、Roland Siegwart教授(苏黎世联邦理工学院自主系统实验室)、Mark Mueller教授(加州大学伯克利分校)、Maurice Fallon教授(牛津大学)、Adrien Briod教授(Flyability)、Eelke Folmer教授(UNR)以及Sierra Nevada公司的公司领导。

这次地下挑战赛获得200万美元的奖金，对整个团队来说，都是一次振奋。但创立之初，牵头人Kostas Alexis还有迟疑，“团队该如何吸引世界优秀学生？”

UNR的计算机科学与工程系主任Eelke Folmer说到：“ 我记得Kostas一开始甚至对申请DARPA的挑战都有所保留，因为他必须与世界上最好的大学的团队竞争，但是这些大学拥有更好的学生和更多的资源。”

Eelke Folmer透漏出细节，Kostas为了这个项目，长期把办公桌“安”在实验室，与学生一起做研究。

“作为一名导师，Kostas 真的很出色，他对学生都很好，无论他们是研究生、本科生还是暑期在他实验室实习的高中生。Kostas的办公室实际上就是他实验室中间的一张桌子，这让他有很多时间和他的学生在一起。他没有让学生为他工作，而是去帮助学生，一起解决最难的人工智能挑战。随着他在机器人界的声望不断提高，也帮助他吸引了顶尖大学的学生。”

目前，对于CERBERUS团队的所有成员来说，能够将弹性自主机器人的工作向前推进，并借由团队力量充分交流，对科技发展来说弥足珍贵。

4

结语：挑战赛的尽头是什么？

功成名就之后，增强型自主机器人会走向何处？

DARPA表示，已经启动了开发第三代AI技术的下一代人工智能（AI Next）项目，以及大型的、多样的基础及应用的人工智能项目组合—人工智能探索(AIE)计划致力于将AI提升为有洞察力和可信赖的合作者的AIRA计划以及为第三代AI开发新算法的虚拟智能处理（VIP）项目。

未来第三代AI技术可能会极大地改变军事任务规划，科学家可利用机器开展研究，人类可与机器互动，两者之间更加密切的合作可实现更好的决策能力和产生更具创造性的思维。

本身就具有军事目的的DARPA，在SubT官网中引用了Clausewitz在《战争论》中的一句话，“战争与地形的关系需要作战双方快速准确地掌握任何区域地形的能力。”这是否暗示未来军事交战将下沉到地下作战，形成“海陆空+地道战”的新型作战形式？或借助地下空间进行隐藏、机动、休整、支援保障的战后修养工作？

不管大国是否瞄准至暗之地，服务现世才是刚需。无论如何，自主机器人将彻底改变我们在地下领域的运作方式。

参考资料：

//www.newscientist.com/article/2293061-team-of-underground-rescue-robots-wins-2-million-darpa-prize/

//www.163.com/dy/article/FPP8O3NE0514R9P4.html

//www.anybotics.com/news/

//www.darpa.mil/about-us/subterranean-challenge

雷锋网雷锋网