Alphastar再登Nature!星際爭霸任一種族,戰網狂虐99.8%人類玩家
- 2019 年 11 月 6 日
- 筆記

大數據文摘出品
星際爭霸 2 上達到了最高的 Grandmaster(宗師)段位。
AlphaStar成為了第一款在無限制情況下躋身電子競技頂級聯賽的AI。
今天,Deepmind在《自然》雜誌發布最新研究:在不設限制的情況下,以Grandmaster級別玩一場完整遊戲,並放出了相關遊戲影片和論文,相關數據顯示,AlphaStar在戰網上的排名已超越 99.8%的活躍玩家。

論文鏈接:
https://www.nature.com/articles/s41586-019-1724-z
年初,由DeepMind構建的另一演算法AlphaStar擊敗了《星際爭霸Ⅱ》的頂級人類選手MaNa和TLO。不同於圍棋,《星際爭霸Ⅱ》是一款即時戰略而非回合制的遊戲,玩家的資訊隱蔽性和移動自由性較圍棋更高。之後,Deepmind設立了更宏偉的目標:在不設限制的情況下,以Grandmaster級別玩一場完整遊戲。
Deepmind也發布了相關部落格,詳細敘述了這次的新研究,稱在幾個關鍵方面超越了先前的工作:
1、AlphaStar現在通過與人類相同的攝影機視野觀察地圖,以及對AI動作頻率進行了更嚴格限制(與星際爭霸專業Dario「 TLO」Wünsch合作)。
2、AlphaStar現在可以與星際爭霸中三大種族——人族、神族和蟲族進行一對一的對抗。
3、訓練過程完全自動化,並且僅從通過監督學習培訓的智慧體開始,而不是從以前的實驗中受過培訓的智慧體。
4、AlphaStar在官方遊戲伺服器Battle.net上使用與人類玩家相同的地圖和條件進行遊戲。所有遊戲重播均已放出。

Deepmind稱,使用通用的機器學習技術(包括神經網路,通過自己與自己遊戲進行強化學習,多智慧體學習和模仿學習)。從《自然》雜誌中發表的論文可以看到,AlphaStar在Battle.net平台上排名高於99.8%的活躍玩家,並且在星際爭霸II的神族、人族和蟲族都達到了宗師級水平。
基於學習的系統和自我博弈是很好的研究概念,這促進了人工智慧的顯著進步。1992年IBM的研究人員開發了TD-Gammon,它將基於學習的系統與神經網路相結合來玩西洋雙陸棋。TD-Gammon並非根據編碼規則或無窮舉例法來玩遊戲,而是被設計為使用強化學習,通過反覆試驗來找出如何以最大化獲勝概率的方式玩遊戲。
它的開發人員使用自玩博弈的概念來使系統變得更加穩定:通過與自身進行對抗,系統越來越精通遊戲,當與數據結合起來時,基於學習的系統和自我遊戲的概念將提供開放式學習的強大範例。
自那時以來的許多研究取得的進展表明,這些方法可以擴展到其他有待突破的領域。例如,AlphaGo和AlphaZero確立了一種系統,可以在圍棋、國際象棋上實現超越人類的表現,而OpenAI Five和DeepMind的FTW則在Dota 2和Quake的現代遊戲中展示了全新的能力。
DeepMind研究了開放式學習的潛力和局限性,進而能夠開發穩定而靈活的AI,以應對更加複雜的領域。《星際爭霸》就是驗證並發展這些方法的絕佳訓練場,因為玩家必須使用有限的資訊來做出實時且關鍵的決定,從而在多個層次和時間尺度上對戰局產生影響。
儘管取得了成功,但自玩遊戲仍存在眾所周知的缺點。其中最大的問題是——遺忘:一個與自博弈爭的智慧體可能會不斷進步,但也可能會很快忘記如何與先前的自身競爭。遺忘會造成不斷「追逐尾巴」的循環,而永遠不會收斂或取得真正的進步。
例如,在遊戲剪刀石頭布中,智慧體目前可能更喜歡出「石頭」。隨著自我玩法的發展,新的智慧體將選擇轉用「布」,因為它會贏得勝利。稍後,智慧體將切換到「剪刀」上,最後回到「石頭」,從而形成一個循環。虛擬自我遊戲-與以前所有策略綜合對抗-是應對這一挑戰的一種解決方案。
Deepmind稱,在首次將StarCraft II開源作為研究環境之後發現,即使虛擬的自玩技術也不足以產生強大的智慧體,因此著手開發更好的通用解決方案。
Deepmind在《自然》雜誌發布論文的中心思想,是將虛構的自學遊戲這一概念擴展到一組智慧體–聯盟。
通常,在自學遊戲中,每個智慧體都希望最大程度地贏得對手。但這其實只是解決方案中的一部分。現實世界中,嘗試在《星際爭霸》中精進的玩家一般會選擇與朋友合作,訓練特定的策略,一起獲取勝利。因此,你的戰友不一定在與所有對手對抗中競爭,而是幫助你發現你的缺點,以使整個團隊更加強大。合作的主要策略是,不僅僅要贏得勝利。一隻強大的團隊不僅需要與所有人抗衡的「核心」智慧體,也需要「剝削者」智慧體,他們專註於通過揭示其缺陷而不是最大程度地幫助「核心」智慧體變得更強大。通過這種訓練方法,整個隊伍以端到端的全自動方式學習了複雜的《星際爭霸II》策略。

在星際爭霸的複雜環境中,探索是另一個關鍵挑戰。每個智慧體在每個步驟中最多可以執行1026種操作,並且該智慧體必須先進行數千次操作之後,然後才能知道它是贏了還是輸了。
在如此龐大的方案處理領域中,尋找制勝戰略確實是一項挑戰。即使擁有強大的自我博弈系統,如果沒有一些先驗知識,在如此複雜的環境中,系統幾乎就不可能制定出成功的策略。
學習人的策略,並確保智慧體在整個遊戲過程中不斷學習這些策略,這是提升AlphaStar能力的關鍵。為此,Deepmind使用了模仿學習,再加上基於語言建模的高級神經網路的體系結構和技術,來制定初始策略,使智慧體把遊戲玩得比84%的活躍玩家更好。另外deepmind還使用了一個潛在變數,該變數確定了策略並對人類遊戲的開局動作分布進行編碼,這有助於保留一些開局的高級策略。然後,AlphaStar在整個自我遊戲過程中使用一種distillation手段,這種方法使AlphaStar可以在單個神經網路中展現許多策略(每個種族一個)。在評估過程中,神經網路不以任何特定的開局動作為條件。

影片鏈接:
此外,Deepmind稱,由於星際爭霸具有巨大的動作空間,許多先前的強化學習方法均無效。尤其是AlphaStar使用了一種新的演算法進行政策外強化學習(Off-Policy),使其能夠在遊戲中有效地更新策略。

影片鏈接:
有助於現實「戰略推理」研究,已被五角大樓看中
利用自我學習智慧體的開放式學習系統在越來越具有挑戰性的領域中取得了令人印象深刻的結果。deepmind稱,這多虧了模仿學習,強化學習和聯盟的進步,才得以訓練出AlphaStar Final,這是在整個《星際爭霸II》完整遊戲中達到宗師級水平的智慧體,如上面的影片所示。該智慧體使用遊戲平台戰網匿名在線玩遊戲,並通過三場《星際爭霸II》競賽達到了宗師級水平。
AlphaStar通過攝影機介面進行播放,具有與人類玩家類似的資訊,並且對其動作速度有所限制,以使其與人類玩家具有可比性。介面和限制都已獲專業玩家批准,因此這些結果為證明通用學習技術可以擴展AI系統提供了有力的證據,它們能夠在涉及多個參與者的複雜動態環境中工作。
總體而言,Deepmind稱,用於開發AlphaStar的技術將有助於進一步提高AI系統的安全性和魯棒性,並且可能有助於推進在現實世界中的研究。比如,五角大樓中負責開發商業技術的國防創新部主任Michael Brown表示,利用AI實現「戰略推理」是他們的重點研究方向之一。