《王者榮耀》「絕悟」升級完全體:全英雄池解禁

AI 王者「絕悟」升級了,能達到精通金庸武俠里所有武功的那種水平。

今天,騰訊宣布,由騰訊 AI Lab 與王者榮耀聯合研發的策略協作型 AI「絕悟」推出升級版本「絕悟完全體」。

這一升級的背後,則是騰訊策略協作型 AI 演算法能力的進一步提升,與之相關的研究也已被 AI 頂級會議 NeurIPS 2020 與頂級期刊 TNNLS 收錄。

《王者榮耀》「絕悟」升級完全體:全英雄池解禁

英雄池完全解禁

在王者榮耀中,若每個職業都有 4 個紫色熟練度英雄,就能解鎖「全能高手」稱號。但受到練習時間與精力限制,很少有人能精通所有英雄,但「絕悟」做到了。

那麼,王者再進化,將有多強?

據了解,「絕悟」一年內掌握的英雄數從 1 增加到 100+,王者榮耀英雄池也實現了完全解禁,不但掌握了所有英雄的全部技能,能應對高達 10 的 15 次方的英雄組合數變化,甚至還「自帶軍師」,可做出最佳的英雄博弈策略選擇,綜合自身技能與對手情況等多重因素,派出最優英雄組合。

《王者榮耀》「絕悟」升級完全體:全英雄池解禁

目前,「絕悟完全體」已在王者榮耀 App 限時開放,玩家都可與之對戰,親身體驗 AI 在複雜策略、團隊協作與微觀操作方面的強大能力。

11 月 14-30 日,「絕悟」在 20 個關卡的能力將不斷提升,最強的 20 級於 11 月 28 日開放,接受 5v5 組隊挑戰。

AI 教練的田忌賽馬術

AI+遊戲研究,是騰訊攻克 AI 的終極研究難題,也是通用人工智慧(AGI)的關鍵一步。

騰訊技術團隊的長期目標不僅是讓「絕悟」學會所有英雄的技能,而且每個英雄都要達到頂尖水平,可以根據陣型排列組合打出制勝局。

但難點就在於,「絕悟」的不同英雄會共享一個模型參數,從零學會單個陣容易如反掌,但面對多英雄組合時就難如登天。對戰中,因為地圖龐大且資訊不完備,不同的 10 個英雄組合有不同的策略規劃、技能應用、路徑探索及團隊協作方式,這將使決策難度幾何級增加。

同時不可忽略的是「災難性遺忘」問題,模型容易邊學邊忘,這也長期困擾著開發者。

畢竟,一場比賽勝負的關鍵不僅在於擁有頂尖選手,排兵布陣的教練也非常重要。

基於此,技術團隊為「絕悟」找了一個能排兵布陣的 AI 教練,也就是在遊戲 BP 環節(禁選英雄)的最優策略。

《王者榮耀》「絕悟」升級完全體:全英雄池解禁
絕悟 vs 人類 BP 測試

受到圍棋 AI 演算法的啟發,研究團隊創新地採用了蒙特卡洛樹搜索(MCTS)和神經網路結合的自動 BP 模型,能夠又快又准地選出具備最大長期價值的英雄。

具體來講,先採用引入「老師分身」模型,每個 AI 老師在單個陣容上訓練至精通,再引入一個 AI 學生模仿學習所有的 AI 老師。

最終,「絕悟」掌握了所有英雄的全部技能,正所謂「少林有七十二藝,功夫既有不同,練習之法,亦必各異。學者苟能盡之,則無敵於世矣。」

「絕悟」手握強兵善用兵

自然,團隊的長期目標,就是要讓「絕悟」手握強兵,且每個英雄都能達到頂尖水平,因此技術上有了三項重點突破:

首先,團隊構建了一個最佳神經網路模型,讓模型適配 MOBA 類任務、表達能力強、還能對英雄操作精細建模。

模型綜合了大量 AI 方法的優勢,如:

在時序資訊上引入長短時記憶網路(LSTM)優化部分可觀測問題;

在影像資訊上選擇卷積神經網路(CNN)編碼空間特徵;

用注意力(Attention)方法強化目標選擇;

用動作過濾(Action Mask)方法提升探索效率;

用分層動作設計加快訓練速度;

用多頭值估計(Multi-Head Value)方法降低估計方差。

《王者榮耀》「絕悟」升級完全體:全英雄池解禁

其次,團隊研究出了拓寬英雄池,讓「絕悟」掌握所有英雄技能的訓練方法——CSPL(Curriculum Self-Play Learning,課程自對弈學習)。

根據下圖可以看出,使用 CSPL 方法擴展英雄池有明顯優勢。

《王者榮耀》「絕悟」升級完全體:全英雄池解禁

據悉,這是一種讓 AI 從易到難的漸進式學習方法——第一步是挑選多組覆蓋全部英雄池的陣容,在小模型下用強化學習訓練;第二步是蒸餾,把第一步得到的多個模型的能力遷移到同一個大模型中;第三步是隨機陣容的強化訓練,在蒸餾後的大模型里,隨機挑選陣容繼續強化訓練和微調。

《王者榮耀》「絕悟」升級完全體:全英雄池解禁

最後,團隊搭建了大規模訓練平台騰訊開悟(aiarena.tencent.com),依託項目積累的演算法經驗、脫敏數據及騰訊雲的算力資源,為訓練所需的大規模運算保駕護航。

2020 年 8 月,開悟平台對 18 所高校開放,未來希望為更多科研人員提供技術與資源支援,深化課題研究。

早在 2018 年 12 月的 KPL 秋季總決賽中,「絕悟」就曾公開亮相對戰人類玩家。

當時,團隊研發了監督學習(SL)方法,針對大局觀和微操策略同時建模,使得「絕悟」同時擁有優秀的長期規劃和即時操作,達到了非職業玩家的頂尖水平。

《王者榮耀》「絕悟」升級完全體:全英雄池解禁

但其實,團隊對於監督學習的研發一直在進行——今年 11 月 14 日起開放的絕悟第 1 到 19 級,就有多個關卡由監督學習訓練而成。

理論上,監督學習訓練出的 AI 表現遜於強化學習的結果,但這一方向極具研究與應用價值,相關成果也入選了頂刊 TNNLS 。

《王者榮耀》「絕悟」升級完全體:全英雄池解禁

如今,「絕悟」前有強兵,後有軍師,不折不扣的一代宗師終於練成了。

《王者榮耀》「絕悟」升級完全體:全英雄池解禁