郝建業:從囚徒困境到自動駕駛,蟄伏數十載的多智慧體強化學習,期待破繭成蝶
- 2021 年 8 月 19 日
- AI

作者 | 青暮
編輯 | 王曄
2019年郝建業的團隊獲得了第一屆DAI最佳論文獎,距離他那篇研究多智慧體系統中的「囚徒困境」論文的發表時間,已經整整過去了11年。
郝建業也沒有想到,當初那篇只是基於簡單博弈場景的研究成果,幾乎被遺忘。如今通過結合深度強化學習,用於處理更複雜的場景,竟一下子成為了聚光燈下的寵兒,「仔細看DAI這篇文章裡面的一些設計,其實都能在我以前的工作里找到原型。」
相對於以前的工作,這篇DAI 2019論文提出的模型,在參數空間上更加複雜,「儘管仍然是demo,但也是從理論走向實踐的關鍵一步。」
在近期,AI科技評論與天津大學副教授、華為諾亞方舟實驗室科學家郝建業進行了交流,談了談他從讀博到科研工作期間的學術歷程,試圖理解他在十幾年內,從簡單的囚徒困境,跨越到複雜的囚徒困境,乃至自動駕駛等實際場景的研究和落地時,背後所付出的汗水,支撐他的信念,以及多智慧體強化學習領域的時代剪影。
2009年7月,郝建業入學香港中文大學攻讀博士學位,拜師梁浩鋒,開啟了多智慧體系統和強化學習的研究之路。在當時,多智慧體系統以及強化學習這兩個方向都還屬於冷門領域。
梁浩鋒教授是香港中文大學電腦科學與工程學系教授和社會學系教授,研究領域包括多智慧體系統、博弈論分析、本體(知識圖譜)和大數據分析等。
在郝建業的印象中,當時這兩個方向的研究對象也還很簡單,一般這些博弈問題都能以表格的形式表示。在深度強化學習概念還沒有形成的那個時期,學者們研究的場景都是相當局限的,也就是基於表格的強化學習。
著名的囚徒困境就是一個典型的博弈場景,可以用下表來表示,在逼供場景下,囚徒有兩個選擇。
在囚徒困境問題中,囚徒不僅困於監獄,亦困於僅有兩個選擇。但這些研究更多是在提出新的概念、範式、機制,偏向於理論,對於博弈論而言仍然具有很大的貢獻。
而彼時更受歡迎的是不包括深度學習的模式識別,數據挖掘等方向,但在梁教授的引導下,郝建業還是慢慢喜歡上了這兩個冷門方向。
然而在剛入學時,郝建業在數學和領域知識方面還是個「菜鳥」。
比如博弈論是多智慧體系統中最關鍵的一套數學工具,為此,梁教授甚至專門為他開設了個人課堂。
看論文也是一門必修課,郝建業看遍了AAMAS近一兩年的幾乎所有相關論文,「泛讀的至少幾百篇,精讀的也有幾十篇。」按照當年列印論文的習慣,這些論文大概得有半米的高度。AAMAS是多智慧體領域最有影響力的會議,亦屬於機器人領域高峰會。
堅持啃論文差不多一年時間以後,郝建業才初步對多智慧體方向建立了系統的認知,以及了解自己到底對哪個topic感興趣。
「興趣應該是做的過程中慢慢培養起來的。當你對某樣東西一無所知的時候,也很難引發興趣,而只是知道一個名詞而已。比如現在很多學生說對人工智慧感興趣,但是你問對方『什麼是人工智慧』,對方經常都答不上來,這種其實不是真正的興趣,只是一時好奇。」在與梁教授的接觸中,郝建業才慢慢領悟到這個道理。
回溯至更早期時光,他恍然大悟。本科期間,他在香港理工大學張大鵬教授和哈爾濱工業大學左旺孟教授指導下做研究時,「儘管對AI沒什麼認知,但興趣就是在那個時候萌芽的。」
梁教授奉行「大方向把控,小方向自由」的培養風格,因此會讓學生花費大量時間自己去找方向,同時實驗室的大方向都會聚焦在多智慧體系統上。「這種培養方式,讓我養成了非常獨立的科研風格。」
如果導師在方方面面都管的太細,容易造成學生被動,視野狹窄。「有了獨立的思考方式,和廣闊的研究視野和對方向脈絡的把握,就知道怎麼規劃自己的未來方向,以及在做戰略轉型、跨界研究的時候,都能心中有數。」
這種自由又不同於放任的散養模式,在具體執行層面,梁教授可謂細緻入微,在郝建業寫的第一篇論文上,梁教授就加上了密密麻麻的紅色批註。
在博士期間,郝建業選擇了公平性和社會利益最優,作為多智慧體系統領域下的研究方向。
在那時候,團隊以及相關領域的學者,都在研究怎麼用強化學習等方法,在不同的博弈環境下快速學習到納什均衡。「納什均衡是博弈論里最核心的概念,甚至上世紀90年代的很多相關工作都沿著這個方向來做。」
在博弈論中,納什均衡是指在包含兩個或以上參與者的非合作博弈中,假設每個參與者都知道其他參與者的均衡策略的情況下,沒有參與者可以通過單方面改變自身策略使自身受益。
囚徒困境中兩個囚徒都選擇招供的策略,就是一個典型的納什均衡解。兩個囚徒無法與對方進行合作(或溝通),此時選擇招供就會比不招供收益更大。
那麼,這類研究存在什麼問題呢?很明顯,均衡解雖然穩定,但不一定是最好的解。在囚徒困境中,雙方都不招供其實才是全局最優解,而全局最優解又存在不穩定的問題。此外,公平性問題也是存在的,即在一個均衡點上,每一方的利益不一定對等。
因此,郝建業就在探索,怎麼用強化學習的方法,讓智慧體有意願、有動力、有理性地去學習到社會全局最優的、公平的解,以及研究是否存在新型的均衡解,即保留原始均衡穩定性的特點,同時有具備公平性,社會最優等屬性,也就是從「策略層面」而言的均衡 (strategy equilibrium)。
而當初那些基於表格的toy example,在深度強化學習的助力下,得以應對更加複雜的場景,智慧體也得以產生更加多樣化和靈活的決策。「反過來說,如果我們細看現在的深度強化學習的代表工作,很多其實都是借鑒了上世紀90年代至2010年之前的工作,並擴展了深度學習方法。」然而目前大部分深度強化學習下的工作還沒有走到關注「策略均衡」的階段,還停留在類比於「基於表格強化學習的多智慧體系統研究「相對早期的階段。
郝建業將「從簡單到複雜」的理念貫徹至今,並在2019年首屆國際分散式AI大會上,以複雜場景的囚徒困境研究獲得了DAI最佳論文獎。這一次,囚徒不再限於兩個選擇,而是無限個,雖然這也只讓其更自由了一點點。
經典囚徒困境對囚徒的決策選擇做了很大限制,要麼合作,要麼背叛。但囚徒困境並不是憑空捏造的思維遊戲,不只有《蝙蝠俠前傳2》中的小丑會玩。
在現實世界,也存在因為無法完全信任或推測對方心理,導致選擇相信就可能遭遇損失的情況。可以說,存在競爭和信任危機時都容易引發囚徒困境,比如戰爭,乃至任何形式的合作關係。畢竟,合作意味著妥協,意味著出讓部分利益,這就讓背叛者有機可乘。在論文中,郝建業等人將這種背叛行為稱之為「剝削」。
因此,在這項工作中,郝建業等人應用深度強化學習,探索了在複雜場景下,能抵抗對手剝削,同時又能適當合作的智慧體策略。這其中的關鍵點,就在於推測對手心理。
他們提出了一個合作度檢測網路,它相當於一個心理模型。給定對方的一系列動作,來預測對方的合作程度。該網路結合了LSTM和自編碼器,可以保證對觀察到的動作進行有效的特徵提取,加快心理模型的訓練速度,提高魯棒性。

合作度檢測網路
比如在 Apple-Pear 遊戲中,有一個紅蘋果和一個綠梨。藍色智慧體喜歡蘋果,而紅色智慧體喜歡梨。每個智慧體有四個動作:上、下、左、右,每走一步都會產生 0.01 的成本。當智慧體走到水果對應方格時,就能收集到水果。
當藍色(紅色)智慧體單獨收集一個蘋果(梨)時,它會獲得更高的獎勵 1。當智慧體收集到不喜歡的水果時,則只能獲得更低的獎勵 0.5。但是,當它們分享一個梨或一個蘋果時,它們都會獲得相應獎勵的一半。
以合作度為度量,智慧體可以產生更加多樣化的決策。實驗結果也不意外地顯示,這兩個智慧體合作程度越高,總體獎勵越高。
郝建業將這種博弈場景稱之為序列囚徒困境(SPD),它更加接近於現實世界中的博弈過程,即結合觀察來隨時調整策略。
訓練方面,該方法包括兩個階段:離線和在線階段。離線階段生成不同合作度的策略並訓練合作度檢測網路。在線階段則根據檢測到的對手的合作程度,從連續的候選範圍中自適應地選擇具有適當合作程度的策略。
直觀地說,該演算法是面向合作的,並且對對手的自私、剝削行為也有防禦能力。
論文地址://ala2018.it.nuigalway.ie/papers/ALA_2018_paper_18.pdf
科研更像是在撒播種子,學者們依靠期望和想像去支撐意志力,從而堅持不懈地耕耘。這一過程存在太大的不確定性,但每次或隔一個月、或隔十年回到原野時,都期盼能看到令人出乎意料的景觀。
郝建業坦言,「儘管最初只是非常簡單的模型,但時間的力量以及外部環境的助推,可以令其茁壯成長,並最終在現實中變成讓我們驚嘆的樣子。」
他沒有僅僅滿足於增加問題複雜度,而是進一步將目光聚焦到了更貼近現實的層面——研究自動駕駛場景的多智慧體系統。
在華為諾亞方舟實驗室,他和團隊與上海交通大學、倫敦大學學院合作開發了一個自動駕駛模擬模擬平台——SMARTS。

SMARTS針對的是模擬平台的兩個限制性問題,一個是環境單一,比如大部分模擬平台都只設置了晴天的天氣;另一個則是缺少與其它智慧體的互動場景,比如下圖中的「雙重合併」。
可以說,多樣的互動場景是SMARTS的一大特色。
SMARTS的相關論文「SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving」發表在機器人高峰會之一CoRL 2020上,並斬獲最佳系統論文獎。
論文地址://arxiv.org/pdf/2010.09776.pdf
缺乏互動場景研究會導致一個問題,即自動駕駛汽車在遭遇複雜場景時,通常選擇更加保守的策略,比如放慢速度,而不是主動尋找另一條出路。即便是採用了保守的方案,也不見得安全。
在 2018 年的加利福尼亞州,57% 的自動駕駛汽車事故是追尾事故,29% 是側滑事故。所有這些都是其他汽車造成的,因此可以歸因於自動駕駛汽車的保守性。
類比於自動駕駛汽車的L0-L5級別,郝建業等人在這項研究中提出了「多智慧體學習級別」,或簡稱「M級別」。
其中,M0級別的智慧體為完全遵守規則的保守派;M1級別的智慧體可以在線學習,以增加應對未知情況的能力;M2級別的智慧體要學會建模其他智慧體,但還沒有直接的資訊交換;M3級別的智慧體在訓練期間會進行資訊交換,在部署時則不需要;M4級別的智慧體需要學會應對局域交互場景,比如十字路口會車,找到符合納什均衡或其他均衡的策略;M5級別的智慧體則需要在滿足全局最優的前提下,去學習局域決策。
郝建業等人認為,迄今為止,自動駕駛研究主要集中在 M0,對 M1 和 M2 的嘗試非常有限,而一個關鍵原因是缺乏對道路上的異構智慧體之間交互的合適模擬。看來這個標準相比「L級別」要更加嚴苛。
在第二屆DAI(DAI 2020)上,華為諾亞基於該平台舉辦了自動駕駛挑戰賽,郝建業回憶道,「比賽中,選手們沒有局限於強化學習,提出了多種不同的解決方案,這是一個很好的現象。」
他進一步說道,「SMARTS有兩方面的價值,一方面是它作為平台,可以讓所有做相關研究的人針對自動駕駛的不同場景做相關演算法的研究。另一方面,我們希望通過這個平台,生成多樣化的真實社會模型,從而讓自動駕駛演算法在現實落地中安全、有效。」
17世紀,當伽利略觀察金屬球在光滑的斜面上滾過時,不會想到這背後的物理學支撐著如今在天空中飛馳的蜻蜓狀龐然巨物。
多智慧體強化學習從最初的表格學習,進化到今天的自動駕駛模擬,亦宛如完成了《2001太空漫遊》中的史詩級蒙太奇一般。
相信時間之力量的信念,或許有一部分來自郝建業在MIT期間受到的潛移默化的影響。
2013年,郝建業博士畢業於香港中文大學,畢業後遠走美國,在MIT CSAIL做博士後研究。
「CSAIL給我的整體感覺是,學術氛圍非常濃厚。他們有最頂尖的人才,學生、老師之間交流起來沒有隔閡,沒有輩分顧慮,非常舒服,學術合作的效率也非常高。」
這種濃厚可以用「聽不完的講座,參加不完的學術競賽和研討會」來形容,也可以借鑒一句名言來體會。MIT第十三任校長、電腦科學與工程系教授Jerome Weisner曾經說過「Getting an education from MIT is like taking a drinkfrom a fire hose.」這句話是說,在麻省理工學院讀書就像是從消防栓里喝水,「想想消防栓的水量,那是根本喝不完的。」
郝建業提到了一個有趣的細節。MIT CSAIL的學術大牛非常多,隨隨便便就能遇到,可能是你在食堂吃飯的時候,也可能是你在運動場上散步的時候,「我有一次在電梯里遇到了一位老學者Silvio Micali,其貌不揚,當時沒注意,結果上課的時候才發現,那是我們的授課老師,而且拿了當年的圖靈獎。」

Silvio Micali
「不僅是學校和老師,MIT整體的學術氛圍也造就了實驗室博士生非常務實的研究風格,希望博士期間作出有影響力的工作,而不是盲目於發論文。如果沒有做出自己滿意的成果,很多學生會主動要求延畢,7年畢業對於他們而言是很正常的。」
如果一個MIT博士生畢業時的學術成果不行,就會被評價學術潛力一般,這對以後的發展會有很大影響。「因此,他們情願延期一到兩年,拿出有代表性的成果,再去找教職,或進入市場競爭。」
所謂的代表性成果,不是看論文數量,而是看工作的價值,「價值是要往長遠去看的,不管是學術層面的奠基性作用,還是應用層面的普惠意義。」
在博士後期間,團隊研究課題聚焦在基於AI+形式化的方法來實現CPS系統安全,團隊大部分成員包括郝建業的導師、MIT電腦科學系教授Daniel Jackson,主要專註的領域是形式化驗證。
形式化驗證即是用數學方法驗證系統是否存在bug,比如在CPU設計中用電腦模擬驗證是否存在潛在問題。因此,形式化驗證也可以叫軟體模擬,重點在於預防錯誤發生。
在這裡,郝建業探索了另一條研究道路——學科交叉。其實,在博士期間,他就在廣泛地做多學科閱讀,比如微觀經濟學、行為科學等等,「多智慧體系統是一個交叉學科,不會局限於電腦科學。」
甚至在本科大三實習期間,郝建業第一次接觸科研,也就是走進香港理工大學張大鵬教授的實驗室時,做的也不是多智慧體系統研究,而是生物資訊學方面的工作,這也是他在哈工大王寬全教授指導下研究的方向。當時他做的課題是基於傳統機器學習的舌頭病變檢測,除了數據準備,也要做特徵提取。在郝建業的思維里,「AI不只有端到端,不只有深度學習」的思想,從那時候就埋下了種子。
在Daniel Jackson的指導下,郝建業探索了將多智慧體系統和形式化驗證結合的方向,並卓有成效。
以智慧交通為例,郝建業研究了如何在所有行人、車輛等智慧體都遵循相同交通規則的前提下,保證行人、車輛之間都不會相撞,並找到滿足條件的最少規則。這裡,相撞即是形式化驗證中要尋找的bug。
例如,為避免碰撞,兩列自主列車在同一條隧道中行駛,可以執行「如果在隧道內觀察到另一列列車,則不應允許移動動作」的規則。也就是說,這項工作嘗試讓AI自動設計最適合的交通規則,並能夠自動化驗證該套規則是否安全可靠。
在形式化規則約束下,對於交通系統中的每輛車而言,它們都只知道在當前局部場景下應該遵守的規則,和可選的決策,而不知道遠處其它智慧體的情況,但最終整個交通系統的效率能達到全局最優。研究結果也顯示,AI找到的規則和手動設計的規則效果相當。
而反觀現實中常見的堵車問題,郝建業指出,「這本質上其實是缺乏規則共識。」每個人心中對於規則的認可程度都不一樣,導致單一的形式化系統的預測在現實中根本匹配不上。人與自動駕駛汽車之間也存在類似關係,「有一個說法是,只有真人駕駛汽車的道路,與只有自動駕駛汽車的道路,在通暢度上也會更好。」
」多閱讀交叉學科的文章,對以後的工作會有長期的啟發性影響。」郝建業在博士期間受到的提點,終於在這一刻有了真實的感悟。
在華為,郝建業也進一步將相關技術應用到了自動駕駛技術的研發上,「由於可以保證車輛之間不碰撞,形式化系統的結合對於自動駕駛的安全性非常重要。」
郝建業認為,「模擬技術和形式化驗證是兩條差別比較大的路線,可以說是兩個極端。其中基於深度強化學習的模擬技術笨一點,一般通過遍歷所有可能場景來尋找可行的方案,而形式化驗證則精一點,可以從理論上直接保證結果是可靠的,「但它們都是值得探索的方向,是互補的。」
在論文中,郝建業研究的也是相對簡單的場景。而如今,這項技術對於智慧電網乃至智慧城市的開發都已具有非常重要的啟發意義。
論文地址://groups.csail.mit.edu/sdg/pubs/2016/norms-fse16.pdf
多學科交叉的有效性或許也可以從歷史中尋找淵源。博弈論最早起源於經濟學,但它的創始人,實際上是電腦之父馮·諾依曼,博弈論與電腦科學之間或許早就暗藏千絲萬縷的聯繫,如今終於在AI時代被放大。
電腦科學在艾倫·圖靈提出圖靈機概念後,早就有了統治科學世界的野心。哪怕十分簡陋,如今做科研誰能離開電腦呢?深度學習正好在人們困惑、嘲笑電腦只能處理程式碼,不能理解感官世界的豐富時,提供了一個連接橋樑。似乎在神經網路中,萬物都能被統一為無數的電脈衝,不同學科之間的隔閡亦不再厚重和神秘。
遊戲是一個龐大的虛擬世界,疫情的到來更是將無數被困現實的新玩家湧入,讓這個虛擬世界急速擴張,而裡面24小時活躍著的玩家、NPC都是多智慧體系統天然的研究對象。
在與網易伏羲人工智慧實驗室、南洋理工大學等合作完成的論文「Wuji: Automatic Online Combat Game Testing Using Evolutionary Deep Reinforcement Learning」中,郝建業等人延續多學科交叉道路,研究了如何將演化學習與強化學習結合起來,提出了動態遊戲測試框架Wuji,從而將遊戲測試自動化,並提高效率。
論文地址://nos.netease.com/mg-file/mg/neteasegamecampus/art_works/20200812/202008122020238586.pdf
測試遊戲潛在bug的一個難點,就是觸發,「有些bug可能非常隱蔽,大部分玩家都不會觸發,比如它可能在某個難度很高的關卡中,而一旦觸發就會帶來非常不好的體驗。」
而現有深度強化學習主要聚焦於贏得勝利,獲取高分,因此在開發探索能力上受限於目標,也就是獎勵函數的設置。
例如,下圖展示了一個簡單的迷宮遊戲,其中機器人需要尋找左上角的黃金。如果機器人到達圖中標記的綠點、黃點或紅點,就會觸發錯誤。機器人可以輕鬆到達黃點,因為它們靠近初始位置。然而,綠點和紅點更難到達,因為需要找到更精準的路徑,或者距離目標太遠。
強化學習演算法的兩大階段是探索(exploration)和利用(exploitation),演化演算法相當於提升了強化學習演算法的探索能力,從而得以遍歷不同的策略,觸及角落中隱藏的bug。這樣的策略,其實也相當於一種遊戲測試腳本,腳本指導智慧體去玩遊戲,遍歷各種場景和各種互動。
為了實現目標,Wuji不僅考慮完成任務,還考慮尋找不同的方向,這兩種策略相輔相成。比如在迷宮遊戲中,完成任務的策略有助於達到一般隨機策略難以覆蓋的綠點,探索的策略則有助於觸及可能不在遊戲主線中的紅點。
當時這項成果稱得上是業界第一個利用機器學習方法進行遊戲測試的工具,幫助遊戲測試人員發現了大量多人在線遊戲中之前未知的bug。相關論文也在軟體工程頂級會議ASE 2019中獲得了ACM SIGSOFT 傑出論文獎。

部分測試場景示例
多智慧體系統研究是一個非常複雜的全局優化問題,它不像影像識別、語音生成、文本生成,通常只有固定的少量輸入、輸出埠,而是有多少智慧體,就得有多少的輸入、輸出。
系統除了要滿足全局優化目標,即社會利益最優,還需要考慮每個智慧體的利益問題,這就涉及到了公平性,也因此郝建業格外注重這兩個方面。甚至要考慮存在性問題,把多智慧體系統類比為神經網路,一個智慧體在某些場景下是不能像一個神經元那樣被輕易dropout的。映射到真實世界的人類社會,在滿足社會、企業利益目標的時候,一個普通人也不該被輕易地剝削或犧牲。
事實上,這一點在斯坦福大學電腦科學名譽教授Yoav Shoham於2006年發表的一篇論文中就有提到,即多智慧體學習研究的其中一個重要目標——解釋現實世界,Yoav Shoham稱之為描述性範式。


雷鋒網雷鋒網雷鋒網