「行勝於言」：語言模型如何適應機器人？

2022 年 4 月 19 日
AI

解讀 | Antonio

編輯丨陳彩嫻

Google Brain的機器人團隊（Robotics at Google）最近發布了一篇文章，介紹了他們如何將大規模語言模型的「說」的能力和機器人「行」的能力結合在一起，從而賦予機器人更適用於物理世界的推理能力（physically-grounded）。

動機

面對對方「我不小心灑了我的飲料，你可以幫我一下嗎？」的問題的時候，你會怎麼反應？

你評估一下當下的環境，可能會幫對方把飲料瓶收拾掉，如果周圍有抹布，你會拿起抹布幫他收拾乾淨，當然這些一步一步的指令可能會在你的心中默念一遍。

當你沒有觀察到吸塵器在周圍時候，你顯然不會告訴對方要使用吸塵器收拾，因為那不符合當下的環境條件。

這樣的行為決策已經體現了兩個步驟：面對一個求助，你擁有一些可以解決當下問題的行為候選項，然後你還得實際下來，選擇最符合現實的那個行為。

放在機器人的語境下，在前一個步驟，我們需要一個語言模型去理解一段人類語言發出的指令，並「說出」我們可能的種種解決方案；第二個步驟需要結合周圍環境，挑出那些符合現實世界的方案。

這篇文章就是試圖將這兩個行為解耦出來，並以恰當的方式結合在一起。

首先是用於理解和生成可能的候選項的第一步。很自然地，文章使用了現在在自然語言處理領域很流行的大規模語言模型（LLM）。它可以是生成式的，即面對一個問題，生成可能的問答，如下圖所示：

三個LLM給出的回應

可以看出這種生成式的結構並非適用在面對行為的機器人領域，一方面如FLAN模型輸出的結果沒有明確的行為指令；另一方面，即使像GPT3中給出了具體的做法，它仍然沒有考慮到現實場景：萬一當下沒有吸塵器呢？

就像開頭想表達的：會說什麼並不重要，重要的是可行嗎？

因此，第二個步就需要考慮機器人所處的環境、它能夠完成的行為、它當下擁有的技能等等了，這些往往採用強化學習的value function（VF）或者affordance function進行評估。

如果將第一步的LLM視作是可以思考和講話的「心和嘴」，後一步的affordance則充當了「眼和手」的功能。前一步「說」（Say），後一步判斷「能」（Can）做什麼，文章將這一模型起名為SayCan。

方法

從上文所述文章方法的關鍵是如何將沒有與現實世界結合的「理想化」的LLM變得更加「現實」。只是根據一段指令，採用對話生成的方式產生一段雖然合理但是無關的語句並非我們所要的。因此，SayCan採用了prompt以及給特定行為打分的方式。

具體而言，機器人先觀察周圍環境，利用VF找出一些可行（actionable）的行為候選項。LLM根據問題和一小段prompt對於這些行為進行打分。

VF和LLM打出的兩個分數的乘積作為最終選擇該行為的置信度，挑選出最高得分的行為作為這一步選擇的行為。

之後，將當前選擇的行為在接到上一步的回答模板中，作為下一步的模板輸入，繼續重複上述的動作，遞歸式推斷之後的行為，直到最終推斷出一個結束的標誌。這一過程，可以參考下圖。

選擇行為的流程示意圖

具體LLM是如何做的呢？

如下圖所示，LLM採用模板「I would：1.」作為回答「How would…」問題的命令辭彙（prompt）。值得注意的是，文章中也提到，這樣以比較標準的方式開頭的對話都是在機器人語境下專門設計的，現實場景可能會更加複雜。除此之外，用於in-context learning的例子也由類似的語句構成，為了讓模型生成語句時候有所參考，也就是圖中的：prompt engineering的部分。

之後的LLM是針對預選好的行為進行打分，是一種類似分類或者檢索的方式，而不是生成式的。