­

AI歷史首次在《我的世界》中挖到鑽石 難度遠超想像

近日,在NeurIPS會議上舉辦的MineRL 2021 Diamond Competition落下帷幕,來自網易互娛AI Lab的Athena AI憑藉高超的挖鑽技巧,在以《我的世界》遊戲為競技環境的比賽中拿下Intro賽道的冠軍以及Research賽道的亞軍。

這是AI第一次在《我的世界》中挖掘到鑽石。

該比賽由CMU, OpenAI, DeepMind, Microsoft Research等機構聯合舉辦,是強化學習方向最負盛名的比賽之一。比賽自2019年起,每年在機器學習和計算神經科學領域頂級學術會議NeurIPS上舉辦,今年為第三屆。

該比賽近年來吸引了包括騰訊AI Lab,華為諾亞方舟,啟元,清華,北大,中科院,香港中文大學,南洋理工大學,斯坦福大學,美國西北大學、德國比勒費爾德大學在內的眾多工業界和學術界的相關研究人員。

今年的比賽同樣有來自海內外近60支隊伍、超過400名研究人員同場競技。

歷史首次挖到鑽石!網易AI在《我的世界》競賽中奪冠

本屆MineRL比賽劃分為了Intro和Research兩個賽道。與Research賽道注重高效地利用玩家數據,對訓練數據表徵、訓練規模等方面進行了諸多的限制不同,Intro賽道更加貼近遊戲AI開發中的真實場景,需要參賽者根據遊戲特性設計針對性的演算法,最大限度地提升AI的水平。

歷史首次挖到鑽石!網易AI在《我的世界》競賽中奪冠

MineRL比賽要求參賽者在我的世界(MineCraft)遊戲生存模式中,訓練出一個能夠從零開始收集各種資源、製作工具最後挖到鑽石的智慧體。

該任務的主要難點有:

1、巨大的動作空間和狀態空間:

我的世界是一款3D開放世界遊戲,智慧體僅能依賴經過壓縮處理的遊戲畫面以及背包中的部分物品數量資訊來感知周圍環境,能夠執行的動作包括移動、攻擊、視角調整、工具製作、裝備切換、物品放置等所有玩家能夠進行的操作,動作空間巨大。

歷史首次挖到鑽石!網易AI在《我的世界》競賽中奪冠

2、複雜的工具鏈:

我的世界中存在龐雜的資源系統和物品合成體系,即使是僅為了獲取鑽石也需要智慧體學會按順序收集並製作各種所需的資源和物品。

例如為了保證在挖到鑽石前製作出鐵鎬,智慧體必須學會在探索到地下深處時做好木棍、收集至少三塊鐵礦和一些燃料並在放置好的熔爐邊燒制出所需的鐵錠。

歷史首次挖到鑽石!網易AI在《我的世界》競賽中奪冠

3、長期規劃能力:

在MineRL環境中智慧體能夠與環境進行至多18000次交互,這就要求智慧體能夠具備長期規劃的能力。

例如智慧體需要在遊戲開始時就根據出生地周圍環境,決定是否在收集完附近的木質資源後直接向地下探索礦物或是花費時間離開出生地尋找更多的木材以避免下礦後可能出現沒有木頭製作工具的尷尬。

歷史首次挖到鑽石!網易AI在《我的世界》競賽中奪冠

4、數據集有限且不完美

主辦方提供了可供AI學習的約200場人類玩家數據,數據集規模十分有限且並不是所有場次中的玩家最終都獲得了鑽石

在本次比賽中,在其他隊伍更傾向於利用玩家數據集並使用層次化訓練方法的氛圍中,網易互娛AI Lab,另闢蹊徑,採用端到端的純強化學習方案,史無前例地訓練出了能夠從零開始獲得鑽石的Athena AI。

Athena AI通過合理地約束有效動作,達到了對狀態的搜索空間進行剪枝的目的,使得AI在不使用分層策略的情況下依然能夠高效地在巨大的狀態空間中進行探索和學習。

Athena AI的實現方案表明,即使是在多任務且任務之間有著複雜依賴關係的遊戲場景內,單一的端到端模型的表現也是可以達到甚至超過精細設計的分層訓練方式。

在最終Intro賽道的結果中,來自網易互娛AI Lab的隊伍WinOrGoHome以645.55分奪得冠軍,在100場遊戲中累計21場都成功挖到了鑽石,超越第二名的隊伍近50%的分數。

歷史首次挖到鑽石!網易AI在《我的世界》競賽中奪冠

值得一提的是,作為智慧AI系統,網易互娛AI Lab研發的Athena AI目前已經落地應用於網易互娛旗下的多款遊戲。

網易互娛AI Lab成立於2017年,AI Lab所提供的人工智慧服務包括電腦視覺、自然語言處理、語音訊號處理、遊戲AI多個方面。

目前技術已應用於網易互娛旗下多款熱門遊戲,如《夢幻西遊》、《哈利波特:魔法覺醒》、《陰陽師》、《大話西遊》、《荒野行動》、《明日之後》等等。