找東西不再瞎蒙!CMU、FAIR開發出有常識的機器人
- 2020 年 9 月 18 日
- AI
編輯 | 叢 末

論文地址://arxiv.org/pdf/2007.00643.pdf
項目地址://www.cs.cmu.edu/~dchaplot/projects/semantic-exploration.html
演算法。然而當時的強化學習演算法只能每次使用一種策略來訓練一個智慧體模型。”,”0:\”%233e3e3e\”|27:\”12\”|31:2″],[20,”\n”,”24:\”KLNL\”|linespacing:\”115\””],[20,”\n”,”24:\”ST7D\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/ullbSVWjkIev0mfy.gif”},”29:0|30:0|3:\”600\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”278\”|ori-width:\”600\””],[20,”\n”,”24:\”RwF7\”|linespacing:\”115\””],[20,”那如果想要一次訓練幾十上百種智慧體模型(如上圖所示)該怎麼辦?難道要訓練幾百次嗎?”],[20,”\n”,”24:\”rOcc\”|linespacing:\”115\””],[20,”\n”,”24:\”eHYB\”|linespacing:\”115\””],[20,”近日,一篇發表在ICML 2020上的論文提出了一種方法:僅僅需要一種策略就可以同時訓練所有的智慧體。”],[20,”\n”,”24:\”zX5C\”|linespacing:\”115\””],[20,”\n”,”24:\”2JTN\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/0KJQqphPbRHuv0kN.png!thumbnail”},”29:0|30:0|3:\”895\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”803\”|ori-width:\”895\””],[20,”\n”,”24:\”MTuT\”|linespacing:\”115\””],[20,”這篇論文在Twitter上獲得了很大的關注,觀看量很快就達到了46.7K。就連宣布「封推」的LeCun轉發了(他只是轉發,沒有說話,沒說話就不算破戒[狗頭護體])”],[20,”\n”,”24:\”dcK5\”|linespacing:\”115\””],[20,”\n”,”24:\”80dR\”|linespacing:\”115\””],[20,”這項讓一度退推的LeCun都忍不住轉發的研究,到底是如何實現如此強大的泛化能力的呢?”],[20,”\n”,”24:\”Bd2N\”|linespacing:\”115\””],[20,”\n”,”24:\”Qwwu\”|linespacing:\”115\””],[20,”訓練策略”,”8:1″],[20,”\n”,”24:\”TI3Q\”|linespacing:\”115\””],[20,”\n”,”24:\”Xi5C\”|linespacing:\”115\””],[20,”作者在論文中提出的訓練策略是一種模組化共享策略SMP(Shared Modular Policies),特點是:區別於一次對整個模型進行訓練的傳統做法,該方法是分別對智慧體的每個肢體進行訓練。”],[20,”\n”,”24:\”bz0N\”|linespacing:\”115\””],[20,”\n”,”24:\”uV9W\”|linespacing:\”115\””],[20,”訓練過程中同一智慧體的不同肢體之間策略權重”],[20,”πθ”,”0:\”%23333333\”|27:\”12\”|31:2″],[20,”是共享的:”],[20,”\n”,”24:\”7kmj\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/PFaKffqRV5Y6scxn.png!thumbnail”},”29:0|30:0|3:\”382\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”378\”|ori-width:\”382\””],[20,”\n”,”24:\”7KVu\”|linespacing:\”115\””],[20,”而不同智慧體之間的策略權重”],[20,”πθ也是共享的:”,”0:\”%23333333\”|27:\”12\”|31:2″],[20,”\n”,”24:\”JGfw\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/GGvlcljmGqtXF4z9.png!thumbnail”},”29:0|30:0|3:\”1260\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”526\”|ori-width:\”1260\””],[20,”\n”,”24:\”r87l\”|linespacing:\”115\””],[20,”這樣一來所有智慧體的所有肢體之間的權重都是共享的,之後把所有的智慧體放在一起來訓練:”],[20,”\n”,”24:\”rlD6\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/DEF8HYpqX1bQbEVR.png!thumbnail”},”29:0|30:0|3:\”1193\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”630\”|ori-width:\”1193\””],[20,”\n”,”24:\”QAZE\”|linespacing:\”115\””],[20,”為了確保各肢體之間能夠協調統一地控制,必須允許資訊能在各肢體之間傳遞:”],[20,”\n”,”24:\”Nq2w\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/nfVfsFqQ8uMSRRyS.png!thumbnail”},”29:0|30:0|3:\”965\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”524\”|ori-width:\”965\””],[20,”\n”,”24:\”4vEJ\”|linespacing:\”115\””],[20,”那麼資訊傳遞究竟是應該從上往下還是從下往上呢?”],[20,”\n”,”24:\”ibCf\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/wHRQR4OE4vDHuKYB.png!thumbnail”},”29:0|30:0|3:\”967\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”426\”|ori-width:\”967\””],[20,”\n”,”24:\”zCj5\”|linespacing:\”115\””],[20,”不如來看一下實際效果吧:”],[20,”\n”,”24:\”teXw\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/wCkeGbO45Ud7GlBO.gif”},”29:0|30:0|3:\”1228\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”622\”|ori-width:\”1228\””],[20,”\n”,”24:\”cMpN\”|linespacing:\”115\””],[20,”上面是對同一組智慧體分別執行從下往下和從上往下的資訊傳遞,可以看出效果並不好。”],[20,”\n”,”24:\”SxaW\”|linespacing:\”115\””],[20,”\n”,”24:\”MxHJ\”|linespacing:\”115\””],[20,”於是作者想到乾脆把兩種資訊傳遞方式結合起來:”],[20,”\n”,”24:\”YErH\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/r44PzWbhc93ekuTC.png!thumbnail”},”29:0|30:0|3:\”1255\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”492\”|ori-width:\”1255\””],[20,”\n”,”24:\”3VPj\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/X2T9QjUq4ji1qXx4.png!thumbnail”},”29:0|30:0|3:\”696\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”420\”|ori-width:\”696\””],[20,”\n”,”24:\”iEbP\”|linespacing:\”115\””],[20,”\n”,”24:\”SuGj\”|linespacing:\”115\””],[20,”兩種資訊傳遞方式共享模組化策略:”],[20,”\n”,”24:\”kp2Y\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/fK5BYxYR7KTiKkhS.png!thumbnail”},”29:0|30:0|3:\”854\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”560\”|ori-width:\”854\””],[20,”\n”,”24:\”BiDc\”|linespacing:\”115\””],[20,”那麼這樣一來效果如何呢?”],[20,”\n”,”24:\”qGox\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/682vxigH3Jq6Kv2K.gif”},”29:0|30:0|3:\”772\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”458\”|ori-width:\”772\””],[20,”\n”,”24:\”a40M\”|linespacing:\”115\””],[20,”從上可以看出在使用雙向資訊傳遞後,一個單獨的策略也能很好地控制所有的智慧體,即使這些智慧體的形狀迥異。”],[20,”\n”,”24:\”5hk2\”|linespacing:\”115\””],[20,”\n”,”24:\”7jug\”|linespacing:\”115\””],[20,”整體模型架構”,”27:\”12\”|8:1″],[20,”\n”,”24:\”S8vp\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/6QKqY9RGjV9iIuuN.png!thumbnail”},”29:0|30:0|3:\”1461\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”529\”|ori-width:\”1461\””],[20,”\n”,”24:\”Wlfx\”|linespacing:\”115\””],[20,”如上圖所示,智慧體被表示為使用共享控制策略的模組化組件的集合。多個智慧體控制器(左)與具有共享參數的局部模組同時訓練(中),這些模組學習將消息傳遞給中心控制器(右)。”],[20,”\n”,”24:\”aeYp\”|linespacing:\”115\””],[20,”\n”,”24:\”UOLQ\”|33:1|linespacing:\”115\””],[20,”泛化效果”,”27:\”12\”|8:1″],[20,”\n”,”24:\”zBE4\”|linespacing:\”115\””],[20,”\n”,”24:\”uS77\”|33:1|linespacing:\”115\””],[20,”在從未訓練過的智慧體上面做測試,可以看出這種模組化共享策略同樣能夠很好的控制智慧體,哪怕有些智慧體的胳膊有很多或者很重。”],[20,”\n”,”24:\”Twtz\””],[20,{“gallery”:”//uploader.shimo.im/f/Sv2P6EMXxwKHqayo.gif”},”29:0|30:0|3:\”940\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”420\”|ori-width:\”940\””],[20,”\n”,”24:\”U8dM\”|linespacing:\”115\””],[20,”另外,智慧體也可以負重前行,負重的物體是在測試時直接加上去的,並沒有經過訓練,從下圖可以看出前行效果還不錯。”],[20,”\n”,”24:\”wyBQ\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/UTRSFz323Z5Lq1Bd.gif”},”29:0|30:0|3:\”876\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”220\”|ori-width:\”876\””],[20,”\n”,”24:\”5AJ9\”|linespacing:\”115\””],[20,”\n”,”24:\”OY1C\”|linespacing:\”115\””],[20,”但是模型的局限性同樣是存在的,如果把某部分肢體變得超級大或者乾脆去掉腿部的肢體,則智慧體很難保持平衡。”],[20,”\n”,”24:\”auyu\”|linespacing:\”115\””],[20,”\n”,”24:\”mG5b\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/Ws7SiCYUoXqBV7BG.gif”},”29:0|30:0|3:\”1236\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”298\”|ori-width:\”1236\””],[20,”\n”,”24:\”s9mz\”|linespacing:\”115\””],[20,”\n”,”24:\”6YYW\”|linespacing:\”115\””],[20,”數據分析實證”,”27:\”12\”|8:1″],[20,”\n”,”24:\”YFBL\”|linespacing:\”115\””],[20,”\n”,”24:\”dr7L\”|linespacing:\”115\””],[20,”智慧體的表現變好確實是因為”],[20,”模組化共享策略嗎?”,”27:\”12\”|31:2″],[20,”\n”,”24:\”mYqa\””],[20,”\n”,”24:\”OJ7E\”|linespacing:\”115\””],[20,”下圖是不同消息傳遞模式在同一組智慧體上的比較。可以看出分散式消息傳遞方案(例如自上而下或自下而上)可以在一定程度上學習簡單智慧體的運動任務,但對於複雜的三肢和兩肢變體智慧體則無法學習任何有意義的資訊。相反,雙向消息傳遞可以模擬多種步態,並顯示出明顯的優勢。”],[20,”\n”,”24:\”1fW7\””],[20,{“gallery”:”//uploader.shimo.im/f/QJ6RhdEMTqS4DQxR.png!thumbnail”},”29:0|30:0|3:\”1777\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”477\”|ori-width:\”1777\””],[20,”\n”,”24:\”spct\”|linespacing:\”115\””],[20,”下圖展示了隨著訓練次數的增加,智慧體在運動過程種進行資訊傳遞的資訊值。可以看出,智慧體在運動過程中的資訊值會出現峰值,這正是智慧體觸地時為了保持自身平衡而進行大量資訊傳遞。 這證明了”,”27:\”12\”|31:2″],[20,”資訊捕捉到了與運動行為相對應的交替步態,而且在控制整個智慧體姿態中起到了重要作用。”],[20,”\n”,”24:\”Mf4P\”|linespacing:\”150\””],[20,”\n”,”24:\”b2wW\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/IbBhCEqQKAj9Cale.png!thumbnail”},”29:0|30:0|3:\”1786\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”400\”|ori-width:\”1786\””],[20,”\n”,”24:\”72vx\”|linespacing:\”115\””],[20,”從上面兩個數據分析圖可以看出智慧體的表現變好確實是因為模組化共享策略”],[20,”。”,”27:\”12\”|31:2″],[20,”\n”,”24:\”lY7q\”|linespacing:\”115\””],[20,”\n”,”24:\”95wz\”|linespacing:\”115\””],[20,”\n”,”24:\”evfj\”|linespacing:\”115\””],[20,”論文詳細資訊”,”27:\”12\”|8:1″],[20,”\n”,”24:\”j8P8\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/AWQtA5tOqRab63LR.png!thumbnail”},”29:0|30:0|3:\”1377\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”375\”|ori-width:\”1377\””],[20,”\n”,”24:\”MB7V\”|linespacing:\”150\””],[20,”論文地址://arxiv.org/pdf/2007.04976.pdf”],[20,”\n”,”24:\”CKW3\”|linespacing:\”150\””],[20,”開源程式碼://github.com/huangwl18/modular-rl”],[20,”\n”,”24:\”r6Si\”|linespacing:\”150\””],[20,”項目主頁://wenlong.page/modular-rl/”],[20,”\n”,”24:\”z1If\”|linespacing:\”150\””],[20,”論文的一作Wenlong Huang,加州大學伯克利分校大二,在伯克利人工智慧實驗室 (BAIR )研究電腦視覺。 個人主頁:”,”0:\”%23333333\”|27:\”12\”|31:2″],[20,”//wenlong.page/”],[20,”\n”,”24:\”zdOB\”|linespacing:\”150\””],[20,”\n”,”24:\”5pMy\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/qb2zWKUkmwFc6JXy.png!thumbnail”},”29:0|30:0|3:\”941\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”912\”|ori-width:\”941\””],[20,”\n”,”24:\”h5iC\”|linespacing:\”115\””],[20,”\n”,”24:\”Qy6T\”|linespacing:\”115\””],[20,”\n”,”24:\”r5JL\”|linespacing:\”115\””],[20,”延申思考”,”27:\”13\”|8:1″],[20,”\n”,”24:\”nxSC\”|linespacing:\”115\””],[20,”\n”,”24:\”NCjA\”|linespacing:\”115\””],[20,”作者在論文之外說到這種共享模組化策略是可以從自然界之中看到。”],[20,”\n”,”24:\”i0rj\””],[20,”\n”,”24:\”tnxo\””],[20,”如下圖,昆蟲、人、袋鼠等都是有不同肢體組成的。”],[20,”\n”,”24:\”xM56\””],[20,{“gallery”:”//uploader.shimo.im/f/Maf7n3cC4MxiJvnZ.png!thumbnail”},”29:0|30:0|3:\”1130\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”696\”|ori-width:\”1130\””],[20,”\n”,”24:\”NLMe\”|linespacing:\”115\””],[20,”如下圖,馬和長頸鹿可以在出生不久之後就能走路跑步,動物這種強大的運動學習能力是一種強化學習的體現,那麼動物運動能力這塊是不是如作者提出的是共享策略模組呢?”],[20,”\n”,”24:\”RxVs\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/N9lJ93SvXzHlWErk.png!thumbnail”},”29:0|30:0|3:\”1303\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”756\”|ori-width:\”1303\””],[20,”\n”,”24:\”MxBq\”|linespacing:\”115\””],[20,”\n”,”24:\”mlSa\”|linespacing:\”115\””],[20,”作者提出的共享策略模組表現出了強大的泛化能力,可以說是強化學習的一種新範式,然而實驗環境是在完美的平面上,這種條件過於理想。”],[20,”\n”,”24:\”6veI\”|linespacing:\”115\””],[20,”\n”,”24:\”56mH\”|linespacing:\”115\””],[20,”如果是類比DeepMind之前做的AI跑酷的環境,那麼作者的模型還能實現很好的效果嗎?還能一種策略控制所有的智慧體嗎?”],[20,”\n”,”24:\”0tNR\”|linespacing:\”115\””],[20,”\n”,”24:\”KYNO\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/fHux5ojqrgvNHLw2.gif”},”29:0|30:0|3:\”583px\”|4:\”389px\”|crop:\”\”|frame:\”none\”|ori-height:\”267\”|ori-width:\”400\””],[20,”\n”,”24:\”HGPD\”|linespacing:\”115\””],[20,”\n”,”24:\”pwC0\”|linespacing:\”115\””],[20,”拋開上面不談,來思考一下作者目前提出模型的可應用場景:”],[20,”\n”,”24:\”OqwQ\”|linespacing:\”115\””],[20,{“gallery”:”//uploader.shimo.im/f/jVzLbV9ReY0v5BrZ.gif”},”29:0|30:0|3:\”644\”|4:\”auto\”|crop:\”\”|frame:\”none\”|ori-height:\”302\”|ori-width:\”644\””],[20,”\n”,”24:\”40oJ\”|linespacing:\”115\””],[20,”\n”,”24:\”tWkz\”|linespacing:\”115\””],[20,”用作者的模型來同時生成上百隻奇行種的運動場景,想想就很有趣。”],[20,”\n”,”24:\”tg95\”|linespacing:\”115\””],[20,”\n”,”24:\”3GiT\”|linespacing:\”150\””],[20,”\n”,”24:\”NbyC\”|linespacing:\”115\””],[20,”參考鏈接:”],[20,”\n”,”24:\”QxE5\”|linespacing:\”115\””],[20,”\n”,”24:\”dKxm\”|linespacing:\”115\””],[20,”//www.reddit.com/r/MachineLearning/comments/hpajb2/r_one_policy_to_control_them_all_shared_modular/”],[20,”\n”,”24:\”BhFb\”|linespacing:\”115\””],[20,”\n”,”24:\”IUmx\”|linespacing:\”115\””],[20,”//www.youtube.com/watch?v=gEeQ0nzalzo&feature=youtu.be”]]” style=”letter-spacing: 0.5px;font-size: 18px;”>學習「餐桌在哪裡」的常識





實驗結果




SemExp學到了多少常識?