亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

蟲蟲首頁| 資源下載| 資源專輯| 精品軟件
登錄| 注冊

您現(xiàn)在的位置是:首頁 > 技術(shù)閱讀 >  浙大提出會(huì)打德?lián)涞摹缸晕也┺摹笰I,還會(huì)玩射擊游戲

浙大提出會(huì)打德?lián)涞摹缸晕也┺摹笰I,還會(huì)玩射擊游戲

時(shí)間:2024-01-13

人工智能已在圍棋這樣的完美信息游戲上實(shí)現(xiàn)了遠(yuǎn)超人類的水平,但在信息未完全披露的多人對(duì)戰(zhàn)游戲上還無法戰(zhàn)勝人類。近年來,OpenAI 和 DeepMind 在 DOTA2 和星際爭霸 2 上的嘗試都難言成功。近日,來自浙江大學(xué)的研究人員提出了一種新方法,結(jié)合蒙特卡洛樹搜索和 NFSP,大大提高了在信息不完整的大規(guī)模零和游戲上的表現(xiàn)。

面對(duì)信息不完整的環(huán)境,浙大的研究人員提出了異步神經(jīng)虛擬自我對(duì)弈(ANFSP)方法,讓 AI 學(xué)會(huì)在多個(gè)虛擬環(huán)境中進(jìn)行「自我博弈」,從而生成最優(yōu)決策。他們的方法在德州撲克和多人 FPS 射擊游戲中均取得了不錯(cuò)表現(xiàn)。

隨著深度強(qiáng)化學(xué)習(xí)的快速發(fā)展,AI 已經(jīng)在圍棋等信息完整的游戲中戰(zhàn)勝了人類專業(yè)玩家。然而,「星際爭霸」等信息不完整游戲的研究還沒有取得同樣的進(jìn)展。這類研究的一大問題是,它們很少從理論和量化的角度考慮對(duì)其訓(xùn)練和結(jié)果進(jìn)行評(píng)估,因此效果難以保證。

博弈論是研究現(xiàn)實(shí)世界競賽中人類行為模式的基石。該理論主要研究智能體如何通過競爭與合作實(shí)現(xiàn)其利益最大化并度量決策的質(zhì)量。它已經(jīng)成為計(jì)算機(jī)科學(xué)中一個(gè)頗具吸引力的研究任務(wù)。名為「算法博弈論」的交互研究課題已經(jīng)確立,并隨著人工智能的發(fā)展受到越來越多的關(guān)注。對(duì)于交易、交通管理等現(xiàn)實(shí)世界中的復(fù)雜問題,計(jì)算維度會(huì)急劇增加,因此有必要利用算法和人工智能的思想使其在實(shí)踐中發(fā)揮作用,這也是該研究的主要?jiǎng)訖C(jī)之一。

在博弈論中,納什均衡是博弈的一個(gè)最優(yōu)解決方案,即沒有人可以通過緩和自己的策略獲得額外收益。虛擬對(duì)弈(Fictitious Play)是求解正規(guī)博弈中納什均衡的一種傳統(tǒng)算法。虛擬對(duì)弈玩家反復(fù)根據(jù)對(duì)手的平均策略做出最佳反應(yīng)。玩家的平均策略將收斂到納什均衡。Heinrich 等人提出了廣泛的虛擬對(duì)弈(Extensive Fictitious Play),將虛擬對(duì)弈的概念擴(kuò)展到了擴(kuò)展式博弈。然而,狀態(tài)在每個(gè)樹節(jié)點(diǎn)中都以查找表的形式表示,因此(類似狀態(tài)的)泛化訓(xùn)練是不切實(shí)際的,而且平均策略的更新需要遍歷整個(gè)游戲樹,這就給大型游戲帶來了維數(shù)災(zāi)難。

虛擬自我對(duì)弈(Fictitious Self-Play,F(xiàn)SP)通過引入基于樣本的機(jī)器學(xué)習(xí)方法解決這些問題。對(duì)最佳反應(yīng)的逼近是通過強(qiáng)化學(xué)習(xí)學(xué)到的,平均策略的更新是通過基于樣本的監(jiān)督學(xué)習(xí)進(jìn)行的。但為了提高采樣效率,智能體之間的交互由元控制器協(xié)調(diào),并且與學(xué)習(xí)是異步的。

Heinrich 和 Silver 介紹了神經(jīng)虛擬自我對(duì)弈(NFSP),將 FSP 與神經(jīng)網(wǎng)絡(luò)函數(shù)近似結(jié)合起來。一個(gè)玩家由 Q-學(xué)習(xí)網(wǎng)絡(luò)和監(jiān)督式學(xué)習(xí)網(wǎng)絡(luò)組成。該算法通過貪婪深度Q學(xué)習(xí)(greedy deep Q-learning)計(jì)算一個(gè)「最佳反應(yīng)」,通過對(duì)智能體歷史行為的監(jiān)督學(xué)習(xí)計(jì)算平均策略。它通過引入預(yù)期動(dòng)態(tài)來解決協(xié)調(diào)問題——玩家根據(jù)它們的平均策略和最佳反應(yīng)展開行動(dòng)。這是第一個(gè)在不完全博弈中不需要任何先驗(yàn)知識(shí)就能學(xué)習(xí)近似納什均衡的端到端強(qiáng)化學(xué)習(xí)方法。

然而,由于對(duì)手策略的復(fù)雜性和深度 Q 網(wǎng)絡(luò)在離線模式下學(xué)習(xí)的特點(diǎn),NFSP 在搜索空間和搜索深度規(guī)模較大的游戲中表現(xiàn)較差。本文提出了蒙特卡洛神經(jīng)虛擬自我對(duì)弈(Monte Carlo Neural Fictitious Self Play,MC-NFSP),該算法結(jié)合了 NFSP 與蒙特卡洛樹搜索(Monte Carlo Tree Search)。研究人員在雙方零和的棋牌游戲中評(píng)估了該方法。實(shí)驗(yàn)表明,在奧賽羅棋中,MC-NFSP 將收斂到近似納什均衡,但 NFSP 無法做到。

另一個(gè)缺點(diǎn)是在 NFSP 中,最佳反應(yīng)依賴于深度 Q-學(xué)習(xí)的計(jì)算,這需要很長時(shí)間的計(jì)算直到收斂。在本文中,研究人員提出了異步神經(jīng)虛擬自我對(duì)弈(ANFSP)方法,使用并行的 actor learner 來穩(wěn)定和加速訓(xùn)練。多個(gè)玩家并行進(jìn)行決策。玩家分享 Q 學(xué)習(xí)網(wǎng)絡(luò)和監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),在 Q 學(xué)習(xí)中累積多個(gè)步驟的梯度,并在監(jiān)督學(xué)習(xí)中計(jì)算小批量的梯度。與 NFSP 相比,這減少了數(shù)據(jù)存儲(chǔ)所需的內(nèi)存。研究人員在雙人零和撲克游戲中評(píng)估了其方法。實(shí)驗(yàn)表明,與 NFSP 相比,ANFSP 可以更加穩(wěn)定和快速地接近近似納什均衡。

為了展示 MC-NFSP 和 ANFSP 技術(shù)在復(fù)雜游戲中的優(yōu)勢,浙大研究人員還評(píng)估了算法在多人 FPS 對(duì)戰(zhàn)游戲的有效性,其中 AI 智能體隊(duì)伍和人類組成的隊(duì)伍進(jìn)行了比賽,新提出的系統(tǒng)提供了良好的策略和控制,幫助 AI 戰(zhàn)勝了人類。

神經(jīng)虛擬自我對(duì)弈

虛擬對(duì)弈(FP)是根據(jù)自我對(duì)弈學(xué)習(xí)納什均衡的經(jīng)典博弈論模型。在每次迭代的時(shí)候,玩家隊(duì)伍根據(jù)對(duì)方的平均策略做出最佳回應(yīng),并更新其平均策略。在特定的游戲場景(如零和游戲)中,玩家在虛擬對(duì)弈中的平均策略可以達(dá)到納什均衡。因?yàn)?FP 主要是針對(duì)正規(guī)博弈,Heinrish 等人將 FP 擴(kuò)展為虛擬自我對(duì)弈,F(xiàn)SP 致力于遍歷游戲擴(kuò)展形式的游戲樹,有可能在更大規(guī)模的游戲中找到納什均衡。但是 FSP 方法需要玩家和對(duì)手遵循動(dòng)作順序,因此它不適合信息不完整的游戲。

玩家和對(duì)手需要遵循動(dòng)作順序的要求使得 FSP 不適用于信息不完整的游戲。神經(jīng)虛擬自我對(duì)弈(NFSP)是一個(gè)在信息不完整的游戲上學(xué)習(xí)近似納什均衡的模型。該模型結(jié)合了虛擬博弈和深度學(xué)習(xí)。在每一步,玩家會(huì)選擇混合使用最佳反應(yīng)和平均策略。玩家通過深度 Q 學(xué)習(xí)接近最佳反應(yīng),并通過監(jiān)督學(xué)習(xí)更新平均策略。只有當(dāng)玩家根據(jù)最佳反應(yīng)決定動(dòng)作時(shí),狀態(tài)-動(dòng)作對(duì)(St, at)會(huì)被存儲(chǔ)在監(jiān)督學(xué)習(xí)記憶中。

圖 1:FSP 和 NFSP 的訓(xùn)練效率

蒙特卡洛神經(jīng)虛擬自我對(duì)弈(MC-NFSP)

該算法利用兩種神經(jīng)網(wǎng)絡(luò):蒙特卡洛樹搜索的策略-估值網(wǎng)絡(luò)(policy-value network)(如最佳反應(yīng)網(wǎng)絡(luò),bestresponse network)和監(jiān)督學(xué)習(xí)的策略網(wǎng)絡(luò)(如平均策略網(wǎng)絡(luò))。最佳反應(yīng)網(wǎng)絡(luò)如圖 2 所示。神經(jīng)網(wǎng)絡(luò)的輸入是邊界狀態(tài)。策略-估值網(wǎng)絡(luò)有兩種輸出:策略 p(當(dāng)前狀態(tài)到動(dòng)作概率的映射)和估值 v(指定狀態(tài)的預(yù)測值)。估值范圍為「0,1」,其中輸?shù)舯荣惖膶?duì)應(yīng)估值 0,贏得比賽的對(duì)應(yīng)估值 1。在浙大研究人員提出的網(wǎng)絡(luò)中,relu 激活函數(shù)用于卷積層;dropout 用于全連接層以減少過擬合;softmax 用于策略概率。策略網(wǎng)絡(luò)幾乎與最佳反應(yīng)網(wǎng)絡(luò)相同,但前者僅輸出策略 p 0(不會(huì)輸出估值),而這也是玩家的平均策略。

圖 2:MCTS 的最佳反應(yīng)網(wǎng)絡(luò)

實(shí)驗(yàn)

浙大研究人員在改進(jìn)版無限制州撲克(Leduc Hold』em)中對(duì) ANFSP 和 NFSP 進(jìn)行比較。為了簡化計(jì)算,浙大研究人員在無限制德州撲克中將每輪的最大賭注大小限制為 2。實(shí)驗(yàn)研究了改進(jìn)版無限制德州撲克中 ANFSP 對(duì)納什均衡的收斂性,并以學(xué)得策略的可利用性作為比較標(biāo)準(zhǔn)。

圖 5 顯示在改進(jìn)版無限制德州撲克中 ANFSP 接近納什均衡。可利用性持續(xù)降低,并在 140w 個(gè)游戲片段后穩(wěn)定在 0.64 左右。訓(xùn)練時(shí)間約 2 小時(shí)。

圖 5:ANFSP 在改進(jìn)版無限制德?lián)渲械目衫眯?/span>

在第一人稱射擊游戲(FPS)中的評(píng)估

為了在信息不完整的復(fù)雜游戲中評(píng)估本文算法的有效性,研究人員在一個(gè) FPS 游戲上訓(xùn)練了該算法,并且讓它與人類對(duì)戰(zhàn)。本次實(shí)驗(yàn)中使用的 FPS 平臺(tái)是由浙大研究人員設(shè)計(jì)的。游戲場景是兩個(gè)隊(duì)伍(10 VS 10)的攻防對(duì)抗。在訓(xùn)練過程中,一方是 MC-NFSP,另一方是由上千場人類游戲(SL-Human)訓(xùn)練的記憶。該實(shí)驗(yàn)在固定的封閉式 255 x 255 正方形地圖上進(jìn)行。整個(gè)地圖被分為 12 x 12 個(gè)區(qū)域,每個(gè)區(qū)域有一個(gè) 20 x 20 的正方形。

圖 7:FPS 游戲環(huán)境

與本文之前的研究不同,這兩個(gè)網(wǎng)絡(luò)是同時(shí)為外部隊(duì)伍和內(nèi)部隊(duì)伍構(gòu)建和訓(xùn)練的。圖 8 顯示了外部隊(duì)伍的訓(xùn)練結(jié)果(內(nèi)部隊(duì)伍的訓(xùn)練結(jié)果與此類似)。從圖中不難看出,訓(xùn)練收斂得非常快(少于 150 個(gè)片段,每個(gè)片段有 5 場游戲)。外部隊(duì)伍對(duì)戰(zhàn) SL-Human 的勝率提高了 80%,而訓(xùn)練損失接近 0。

圖 8:在 FPS 游戲上的評(píng)估結(jié)果

論文:

Monte Carlo Neural Fictitious Self-Play: Achieve Approximate Nash equilibrium of Imperfect-Information Games

論文地址:https://arxiv.org/abs/1903.09569

摘要:人工智能領(lǐng)域的研究人員已經(jīng)用 AI 在信息完整的大規(guī)模游戲上達(dá)到了人類水準(zhǔn),但要在信息不完整的大規(guī)模游戲(即戰(zhàn)爭游戲、足球教練或商業(yè)策略游戲)上實(shí)現(xiàn)最優(yōu)結(jié)果(即近似納什均衡)仍是一大挑戰(zhàn)。神經(jīng)虛擬自我對(duì)弈(NFSP)算法可以通過自我對(duì)弈,在沒有先驗(yàn)領(lǐng)域知識(shí)的情況下有效學(xué)習(xí)信息不完整游戲的近似納什均衡。但是,它依賴于深度 Q 網(wǎng)絡(luò),但這種網(wǎng)絡(luò)是離線的而且很難融入對(duì)手策略不斷變化的在線游戲,因此深度 Q 網(wǎng)絡(luò)無法在游戲中用大規(guī)模搜索和深度搜索來達(dá)到近似納什均衡。本文中,我們提出了蒙特卡洛神經(jīng)虛擬自我對(duì)弈(MC-NFSP)算法,該方法結(jié)合了蒙特卡洛樹搜索和 NFSP,大大提高了模型在信息不完整的大規(guī)模零和游戲中的表現(xiàn)。實(shí)驗(yàn)證明,該算法可以利用大規(guī)模深度搜索達(dá)到 NFSP 無法實(shí)現(xiàn)的近似納什均衡。此外,我們開發(fā)了異步神經(jīng)虛擬自我對(duì)弈(ANFSP)算法,該算法使用異步架構(gòu)和并行架構(gòu)來收集游戲經(jīng)驗(yàn)。在實(shí)驗(yàn)中,我們發(fā)現(xiàn)并行 actor-learner 能夠進(jìn)一步加速和穩(wěn)定訓(xùn)練。

機(jī)器之心編譯

作者:Li Zhang、Wei Wang、Shijian Li、Gang Pan

文章來源:機(jī)器之心


IEEE Spectrum

《科技縱覽》

官方微信公眾平臺(tái)



往期推薦

李克強(qiáng)政府工作報(bào)告首提“智能+”,科技大佬提案AI倫理應(yīng)用

工信部全面啟動(dòng)人工智能揭榜,17大領(lǐng)域遴選中國頂級(jí)AI單位!

【AI大神們的書架】吳恩達(dá)、LeCun、馬斯克、Goodfellow最近看什么書

主站蜘蛛池模板: 牙克石市| 浪卡子县| 哈尔滨市| 城固县| 容城县| 桂东县| 巴林左旗| 青岛市| 茶陵县| 无为县| 定日县| 建始县| 榆林市| 红桥区| 祥云县| 辽中县| 宁德市| 肇州县| 栖霞市| 赣榆县| 邓州市| 巴彦淖尔市| 万载县| 若尔盖县| 富顺县| 平远县| 永春县| 玉门市| 马龙县| 广宗县| 叶城县| 锦屏县| 东丰县| 四平市| 班玛县| 衢州市| 永胜县| 宣武区| 雅安市| 石城县| 蓝山县|