網(wǎng)易互娛AI Lab在國際人工智能頂級會議NeurIPS 2022 Neural MMO挑戰(zhàn)賽中,包攬了所有賽事指標的第一名,以總分領先第二名129%的優(yōu)勢奪得冠軍,擊敗了來自全球35個國家和地區(qū)的頂尖隊伍。
【資料圖】
比賽概況
近日,國際人工智能頂級會議NeurIPS 2022在美國新奧爾良落下帷幕,在本屆會議舉辦的Neural MMO挑戰(zhàn)賽中,網(wǎng)易互娛AI Lab從來自全球35個國家和地區(qū)的134支隊伍中脫穎而出,以領先第二名得分129%的巨大優(yōu)勢奪得冠軍,并強勢包攬了所有賽事指標的第一名。這是網(wǎng)易互娛AI Lab研發(fā)的Athena AI在連續(xù)奪得多項國際冠軍后,再次登頂國際AI競賽,同時也是繼去年在NeurIPS MineRL挑戰(zhàn)賽上首次教會AI在《我的世界》中挖到鉆石后,連續(xù)兩年獲得NeurIPS競賽冠軍,彰顯了網(wǎng)易互娛AI Lab在人工智能領域的綜合技術實力。
本屆比賽由超參數(shù)科技、麻省理工學院、清華大學深圳研究院和AICrowd聯(lián)合舉辦,在今年的NeurIPS(Conference and Workshop on Neural Information Processing Systems)大會中舉行。該會議是人工智能領域最重要的學術會議之一,和ICLR、ICML并稱為機器學習領域的三大頂級會議。本屆比賽是Neural MMO系列挑戰(zhàn)賽的第三屆,由于新引入了裝備系統(tǒng)、交易系統(tǒng)和毒圈機制,且地形環(huán)境也變得更為復雜,因此比賽難度相較于前兩屆大幅提升。本屆比賽在兩個半月的賽程內(nèi)吸引了來自中國、美國、英國、法國、俄羅斯、加拿大、日本等世界各地的學術界和工業(yè)界的隊伍,其中包括網(wǎng)易、騰訊、嗶哩嗶哩、InstaDeep、twosense.ai、CVTE、清華大學、浙江大學、香港中文大學、波士頓大學、愛丁堡大學、京都大學等,也包括了上一屆Neural MMO挑戰(zhàn)賽的冠軍。
規(guī)則介紹
本次比賽所依托的環(huán)境Neural MMO最初由OpenAI于2019年發(fā)布,現(xiàn)由麻省理工學院繼續(xù)開發(fā)和維護,是一個用于大規(guī)模多智能體研究的平臺。Neural MMO的設計靈感來自于大型多人在線角色扮演游戲(MMORPG),模擬出了一個在廣闊且持續(xù)的環(huán)境中支持可變數(shù)量玩家互相競爭的大型生態(tài)系統(tǒng)。不同于Dota、星際爭霸等AI已經(jīng)取得領先人類水平的游戲場景,Neural MMO中的AI設計不光要考慮隊伍內(nèi)大量智能體之間的配合,還要考慮如何與其他十幾支甚至更多的隊伍進行競爭。
本次比賽的場景中,一共有128個智能體,分成16支隊伍,每支隊伍由8個智能體組成。每位參賽者需要控制其中的一支隊伍在128x128大小的地圖上和其他15個參賽者的隊伍進行對抗。比賽持續(xù)時間為1024步,智能體在每一步中可以同時執(zhí)行多種操作,如移動、攻擊目標選擇、攻擊類型選擇、背包物品使用、從市場上購買物品、出售物品并對其進行定價等。智能體可發(fā)起的攻擊類型包括近戰(zhàn)攻擊、遠程攻擊和魔法攻擊,三種類型為互相克制的關系。智能體還可以收集對應的武器和彈藥來提升攻擊力,同時也可以收集頭盔胸甲等裝備來提升的防御力。比賽開始后,每支隊伍會隨機出生于地圖邊緣,隨著比賽進行,逐漸縮小的毒圈會迫使所有智能體向地圖中心聚集,爆發(fā)更加激烈的對抗。每個智能體除了需要補充收集食物和水以保證基本生存外,還需要考慮很多復雜的長期決策問題,例如遇到敵人時判斷是進攻還是逃跑、隊友遇到危險時自己應該馬上趕去幫忙還是繼續(xù)擊殺附近的NPC、如何找到進圈通道、背包裝滿后到底是賣掉彈藥還是賣掉回復藥水等等。
最終戰(zhàn)況
比賽最終的排名由參賽隊伍之間互相對抗(PvP)決定,每支隊伍的得分由生存分和擊殺分兩部分組成,其中生存分主要根據(jù)隊伍內(nèi)存活到最后的智能體數(shù)量決定,存活的數(shù)量越多得分越高,而擊殺分則是根據(jù)全隊擊殺敵方智能體的數(shù)量乘以0.5計算得到。來自網(wǎng)易互娛AI Lab的隊伍realikun在最終的PvP對抗中以8.86的生存分、19.18的擊殺分,總分28.04分奪得冠軍,分數(shù)甚至超越了第二三名的得分總和。值得一提的是,PvP環(huán)節(jié)中最初還額外設置了兩個特別獎項,分別為坦克獎——用于獎勵場均承受傷害最高的隊伍,和打錢獎——用于獎勵每局平均獲得金錢數(shù)量最多的隊伍。比賽初期大家普遍認為注重生存和擊殺方面的隊伍是難以承受更多傷害或是獲取更多金錢的,獎項的設立旨在鼓勵比賽中涌現(xiàn)出更加多樣化的策略。但從PvP的結果上看,網(wǎng)易互娛AI Lab最終同時包攬了生存、擊殺、打錢、承傷所有四項賽事數(shù)據(jù)的第一名。
Final PvP 排行榜
另外比賽還設置了兩個PvE環(huán)節(jié),用于幫助選手們在PvP前能有一個穩(wěn)定的評估智能體水平的環(huán)境。網(wǎng)易互娛AI Lab也同樣分別以63.50分和25.35分的分數(shù)大幅領先其他隊伍占據(jù)榜首。在PvE Stage 1中,智能體需要同其他15支隊伍共120名由規(guī)則控制的智能體進行對抗,網(wǎng)易互娛AI Lab在保證獲得最高生存分的情況下,每場平均擊殺了其中107名敵方智能體。在PvE Stage 2中,其他15支隊伍的智能體由主辦方訓練的神經(jīng)網(wǎng)絡控制,強度相較于上一階段大幅提升,但網(wǎng)易互娛AI Lab在第二階段發(fā)布后僅用六天時間就達到了Top1 ratio 1.0(在每場16支隊伍中排名第一的概率為100%)的成績,并一路占據(jù)榜首至比賽結束。
PvE Stage 1 排行榜
PvE Stage 2排行榜
方案介紹
本次比賽中,網(wǎng)易互娛AI Lab整體采用了深度強化學習和規(guī)則相結合的方式構建Neural MMO版Athena AI智能體。其中強化學習部分使用了PPO(近端優(yōu)化算法)在CTRL(Centralized Training based Reinforcement Learning)模式下進行自博弈訓練,主要控制智能體在移動、選敵、補給道具的使用和交易這些方面做出決策,同時使用基于規(guī)則的方法控制了攻擊方式、非補給道具的使用和交易、出價等,這樣設計是因為:
1.Neural MMO中攻擊方式涉及到智能體的職業(yè)成長,一旦選擇一種主戰(zhàn)攻擊類型后再更換其他攻擊方式收益較低;
2.使用盔甲、武器等非補給品也沒有涉及到太過復雜的時機選擇問題;
3.交易行為中尤其是出價所包含的動作空間巨大,讓神經(jīng)網(wǎng)絡學習到正常的交易行為所需的訓練代價遠遠超過移動、攻擊等,但是對于最終智能體的強度提升卻十分有限,因為在Neural MMO中取得勝利最為關鍵的要素是團隊配合,而智能體之間的配合在很大程度上并不是依靠交易來完成的。
針對復雜的游戲機制,網(wǎng)易互娛AI Lab也相應地為Athena AI設計了精細的神經(jīng)網(wǎng)絡結構。如圖所示,網(wǎng)絡主要由特征編碼器、隱變量交互結構以及動作解碼器三部分組成,其中隱變量交互結構中的Transformer和LSTM兩大模塊占據(jù)了整個網(wǎng)絡的絕大部分參數(shù)量。隊伍中每個智能體均由參數(shù)相同的一份網(wǎng)絡副本所控制,網(wǎng)絡根據(jù)不同的輸入而使每個智能體做出各自的決策。
神經(jīng)網(wǎng)絡架構圖
特征編碼器將每個智能體的生命值和等級之類的標量特征、周圍地圖信息、歷史動作信息、裝備信息、動作掩碼以及游戲進度等信息作為輸入,其中部分特征會經(jīng)過一些如ResNet的子編碼器進行總結抽象后再和其他特征拼接輸出。
隱變量交互結構是網(wǎng)絡的核心部分,其中Transformer結構將每個智能體同其他友方單位、敵方單位和NPC利用自注意機制進行充分的特征交互,是增進智能體團隊配合能力的重要組件,而LSTM結構通過引入歷史特征進行交互,從一定程度上解決了Neural MMO中部分可觀測的問題。
動作解碼器將LSTM的輸出分別映射為四種動作的選擇,包括移動、目標選取、裝備使用和售賣。四種動作均通過PPO分別獨立優(yōu)化。此外訓練過程中還會將所有智能體的LSTM輸出經(jīng)平均池化后映射為一個聯(lián)合的價值估計,使智能體具有團隊意識。
此外為了進一步增強團隊配合以及歷史信息的使用,網(wǎng)易互娛AI Lab將表示智能體視野的二維特征大小從15x15擴充至了25x25,擴充的部分由來自隊友的視野以及過去探索得到的信息進行填充,同時在原有的地形信息上,還額外設計了足跡、戰(zhàn)爭迷霧、毒圈信息等共計7個通道增強網(wǎng)絡的表達能力。
作為ResNet輸入特征的7個通道
網(wǎng)易互娛AI Lab使用了自研的分布式深度強化學習框架進行Athena AI的訓練,該框架不但訓練高效,也能支持同時模擬和數(shù)百種不同風格的對手進行對戰(zhàn)的場景,因此能夠在此次比賽中面對各種未知對手的情況下穩(wěn)定取勝。相較于其他參賽隊伍,網(wǎng)易互娛AI Lab的智能體也表現(xiàn)出了更加多樣的策略,例如吃雞類游戲中玩家經(jīng)常使用的卡圈、堵圈以及借助地形完成十字圍殺等高級戰(zhàn)術。
值得一提的是,本次比賽中大部分隊伍都會攜帶工具和彈藥,分別在智能體靠近資源點時或接近敵方智能體時使用。得益于自研框架強大的平衡性測試功能,網(wǎng)易互娛AI Lab發(fā)現(xiàn)由于每種等級的彈藥和工具都會占用一格物品欄,但由于Neural MMO中數(shù)值設計的原因這些道具帶來的提升十分有限,導致在和敵方智能體對拼時反而會因為沒有攜帶足夠的補給品率先陣亡。而每件補給道具雖然也要單獨占用一格物品欄,但是能提供非??捎^的回復能力。于是在比賽后期,網(wǎng)易互娛AI Lab大膽地放棄了比賽中主流的裝備選擇策略,轉(zhuǎn)而讓智能體攜帶更多回復道具,大幅提升了生存能力。
展望未來,我們相信AI技術可以讓MMO中的每一個游戲角色都擁有與真實世界邏輯更相符合的行為舉止,而通過Neural MMO這個試驗場我們也欣喜地看到了AI不僅能夠掌握基本的資源獲取、裝備選擇,也能借助地形完成十字圍殺、卡圈、堵圈等高級戰(zhàn)術,相信在不遠的未來我們就能看到AI技術在MMO或是其他品類游戲中的更多應用。
關于互娛AI Lab和Athena AI系統(tǒng)
網(wǎng)易互娛AI Lab成立于2017年,隸屬于網(wǎng)易互動娛樂事業(yè)群,是游戲行業(yè)領先的人工智能實驗室。AI Lab所提供的人工智能服務包括計算機視覺、自然語言處理、語音信號處理、游戲AI多個方面。目前技術已應用于網(wǎng)易互娛旗下多款熱門游戲,如《夢幻西游》、《哈利波特:魔法覺醒》、《陰陽師》、《大話西游》、《荒野行動》等等。
Athena AI是互娛AI Lab研發(fā)的游戲AI系統(tǒng),應用了前沿的模仿學習、強化學習、進化學習算法實現(xiàn)游戲中的競技對戰(zhàn),友好陪玩,平衡性測試等AI需求。目前已落地《夢幻西游》《哈利波特:魔法覺醒》《荒野行動》《顛峰極速》《決戰(zhàn)!平安京》《指環(huán)王》《百聞牌》《網(wǎng)易棋牌》《超凡先鋒》等多款游戲,涵蓋棋牌、RPG、SLG、體育、卡牌、TPS等多種類的游戲。
參考資料:
[1]NeurIPS 2022 The Neural MMO Challenge 比賽主頁
[2]Neural MMO: A Massively Multiagent Game Environment, OpenAI blog
[3]The Neural MMO Platform for Massively Multiagent Research
[4]Neural MMO: A massively multiagent game environment for training and evaluating intelligent agents
[5]Neural MMO Decumentation
[6]Neural MMO GitHub Repository
[7]OpenAI開發(fā)AI版《文明》,一塊CPU就能重現(xiàn)AI生存戰(zhàn)爭史
[8]在游戲世界組建一支AI團隊,超參數(shù)的多智能體「大亂斗」開賽
[9]讓AI小隊混戰(zhàn)跑毒經(jīng)商,還設“坦克獎”,NeurIPS這比賽真不是打游戲?
[10]1000個教AI打電競的人