AI 用遊戲大勝人類的背後,其實是生物學

  • 2019 年 12 月 1 日
  • 筆記

美國當地時間 6 月 25 日,OpenAI 宣布由其研發的 5 個神經網路組成的 AI 演算法 OpenAI Five,已經能打敗 Dota2 的人類玩家隊伍,這是 AI 首次在 Dota 2 五對五團戰中打敗人類,且平均天梯分數超過 4200 分。不過目前被 AI 擊敗的人類團隊均為業餘玩家,OpenAI 表示,將在今年 8 月份的 Dota 2 – The International 2018 賽事期間,與國際頂尖職業團隊一決高下。

細思恐極,未來我們玩遊戲時,對面的玩家是人還是 AI 真的分不清了。請答應我,不要教 AI 裝女聲小姐姐來欺騙我們的感情。

AI 基本在所有遊戲里都戰勝了人類

早在 1997 年,IBM 的「深藍」擊敗了當時的國際象棋世界冠軍卡斯帕羅夫,這是機器第一次在比賽中擊敗世界冠軍。到本世紀早中期,這項技術已經進步到了一定程度,在幾乎所有不同玩法的國際象棋中,機器都在不斷地打敗國際象棋大師。

於是電腦科學家們又把研究的注意力轉向圍棋,這是一個來自中國的古老的策略遊戲,非常容易學會,但是很難做到精通。

卡內基梅隆大學的一個研究小組在 2017 年 1 月舉辦了一場更加公開的活動,當時它的 Libratus AI 系統花了 20 天時間,與四名專業的撲克玩家一起玩了 12 萬局無限注的德州撲克。

在經過近一個月的不間斷遊戲之後,這台機器總共贏了170萬美元,而這4位專業人士中的每一位都損失了數千美元的虛擬貨幣。

2017 年 5 月,AlphaGo Master 打敗了柯潔——世界上排名第一的圍棋選手。在 AlphaGo 和柯潔對戰的三場比賽中,這台機器一直處於優勢地位。

到 2017 年 12 月,DeepMind 推出了一個更先進的系統版本。這款名為 AlphaZero 的新人工智慧可以在幾小時內掌握多種遊戲,簡直太 IMBA 了。

先解決生物學問題,再解決技術問題

在這些遊戲中,不可否認 Dota2 是難度最高、策略最為複雜的遊戲之一,大部分時間裡,玩家都面臨著在需要在遊戲中探索方位。

所以首先需要解決的就是角色的導航問題,這時候就先要邀請生物學家先來解釋,人腦是如何進行導航的。

探索人腦的奧秘可以說是一件難度係數 9.9 以上的任務,但站在巨人肩上的 Deepmind 不費吹灰之力就找到了問題的答案。這裡要特別感謝 2005 年諾貝爾生理或醫學獎獲得者英裔美國科學家 John O'Keefe(約翰·奧基夫),及來自挪威的 May-Britt (梅-布里特)和他的丈夫 Edvard Moser(愛德華·莫澤)。

通過不懈努力歷經千辛萬苦,他們找到人腦 GPS 的核心——「網格單元」,這讓 Deepmind 輕鬆發現人腦空間感知的關鍵。網格單元是一種神經元組織,由無數個網格細胞構成,主要功能是幫助人類及大多數哺乳動物給自己定位和導航。

當我們在移動時,網格單元會不斷更新當前所在位置和周邊環境,並記錄下行走路徑和歷史位置,然後在大腦里繪製出一張虛擬地圖,幫助大腦確定位置和方向。

每到一個新的地方,網格細胞就會自動繪製一張新的地圖。也就是說你到過的地方越多,這張地圖就越全,你的空間感知範圍也就越大。

AI 版網格單元

在該成果的啟發下,Deepmind 團隊聯合 UCL(倫敦大學學院)科學家,共同開發出一套遞歸神經網路系統。該系統在模擬小白鼠尋找方向的過程中,神奇的發現神經網路產生了類似網格單元在確定位置時的一些特徵。

(圖註:神經網路生成的網格單元跟人類很類似)

通過進一步研究和改進,他們成功打造出神經網路版網格單元(也叫 AI 網格單元)。AI 網格單元不僅能判斷自身位置,還能在複雜的環境里找到通向目標點的最佳路線。

這個發現讓 Deepmind 團隊喜出望外,他們迫切需要一次機會來秀一把真正的技術。於是,團隊決定跳過小白鼠和大猩猩,直接向人宣戰。

在一場與專業玩家對戰的迷宮遊戲里,搭載神經網路版網格單元的 AI 不僅在複雜的環境里找到方向,還準確計算出到目標點的距離,並找到最快行進路線(包括其他一些耗時較長的路線),成功戰勝人類。

雖然只是在虛擬環境中取得勝利,但這意味著 AI 有能力在不藉助 GPS 等外部數據的前提下,在實際場景中找到方向。因此,Deep mind 刷存在的同時,也不可否認這是一次里程碑式的勝利。

此前,AI 僅被證明在影像識別、棋牌遊戲等領域有過人之處,但很少能在像導航這種主觀認知領域超越人類。而這次 AI「進化」出自動導航功能,證明 AI 不僅能複製大腦,還能很好的理解大腦。

腦洞時間

可以預見的是,在未來 AI 將擁有更多可能性。依靠其強大的計算和學習能力,它能對同一個問題得出若干種解決方案,並找出最佳答案。

就遊戲來說,如果不斷去訓練 AI 適應各種遊戲環境,再配上 Google Assistant 真假難辨的聲音。

我們怕是更難分清對面的遊戲玩家,究竟是個小姐姐還是 AI 了。

所以 Sad.