原文作者:Douglas Heaven 德州撲克人工智能(AI)擊敗了五名人類(lèi)對(duì)手,這讓AI距離解決現(xiàn)實(shí)問(wèn)題更近了一步。 人工智能(AI)再次提高了賭注。德州撲克機(jī)器玩家Pluribus在德州撲克最流行的一種變體——六人無(wú)限注中擊敗了頂級(jí)人類(lèi)職業(yè)選手。這是AI首次在玩家人數(shù)超過(guò)兩人的游戲中擊敗頂級(jí)人類(lèi)選手。 多人德州撲克也被AI征服了。 來(lái)源:Alexandre Rotenberg/Alamy “雖然從二人增加到六人看起來(lái)只是多了幾個(gè)人,但實(shí)際上卻有本質(zhì)差別。”紐約大學(xué)研究博弈和AI的Julian Togelius說(shuō),“‘多人’是至今為止未曾研究過(guò)的游戲要素?!?/p> 此前,Pluribus背后的團(tuán)隊(duì)構(gòu)建過(guò)一臺(tái)叫做“Libratus”的 AI,并在一對(duì)一的德州撲克中擊敗了職業(yè)選手。Pluribus是基于Libratus的升級(jí),并且它打比賽需要的計(jì)算力要少很多。在連續(xù)12天超過(guò)10000手的比賽中,它擊敗了15名頂級(jí)人類(lèi)玩家?!昂芏郃I研究者原本認(rèn)為我們的技術(shù)是不可能做到的。”來(lái)自卡內(nèi)基·梅隆大學(xué)和Facebook人工智能研究院的Noam Brown說(shuō)。他與其卡內(nèi)基大學(xué)的同事Tuomas Sandholm一起開(kāi)發(fā)了Pluribus。 其他AI也擊敗過(guò)人類(lèi)選手,例如Libratus和DeepMind的圍棋AI。它們證明了在二人零和游戲中,人類(lèi)無(wú)法戰(zhàn)勝機(jī)器。在這些場(chǎng)景中,一定是一人贏一人輸,而博弈論提供了一種良定義的最優(yōu)策略。 但是在有多位玩家,利益互相沖突,缺乏明確的輸贏條件的時(shí)候,博弈論就沒(méi)那么有效了——而現(xiàn)實(shí)生活中的難題大多屬于這一類(lèi)。Brown說(shuō),征服多人德州撲克就意味著Pluribus為未來(lái)AI解決這類(lèi)復(fù)雜問(wèn)題奠定了基礎(chǔ)。他認(rèn)為這一成果有助于推動(dòng)其他應(yīng)用發(fā)展,例如機(jī)器談判、偵查欺詐以及自動(dòng)駕駛。 多一個(gè)玩家,多一層復(fù)雜性 為了玩好六人德州撲克,Brown和Sandholm大幅改變了Libratus的搜索算法。大部分游戲AI都是沿著決策樹(shù)向前搜索,尋找給定局面下的最優(yōu)行動(dòng)。Libratus會(huì)搜索到游戲終局,才會(huì)選擇某個(gè)行動(dòng)。 但是玩家數(shù)量增加所帶來(lái)的復(fù)雜性讓這種策略變得不再可行。德州撲克要求使用隱藏信息進(jìn)行推理——玩家必須根據(jù)此前的下注來(lái)思考對(duì)方可能會(huì)有什么牌,對(duì)方又認(rèn)為自己有什么牌,然后才能制定策略。但是增加玩家會(huì)讓選擇行動(dòng)變得更為困難,因?yàn)檫@樣就必須思考更多的可能性。 關(guān)鍵突破在于開(kāi)發(fā)一種算法,讓Pluribus可以只向前看為數(shù)不多的幾步就做出決策,而不需要看到游戲終局。 和DeepMind的圍棋AI AlphaZero一樣,Pluribus使用了一種強(qiáng)化學(xué)習(xí)算法從零開(kāi)始自學(xué)。它先隨機(jī)打,等發(fā)現(xiàn)哪些行動(dòng)可以贏更多錢(qián)之后就會(huì)不斷優(yōu)化。每手之后,它會(huì)回顧自己打得如何,并檢查哪些地方采用不同的行動(dòng)就可以賺更多的錢(qián),例如某處跟注應(yīng)該改成加注。如果更改策略會(huì)帶來(lái)更好的結(jié)果,之后它就更可能采取更優(yōu)的行動(dòng)。 和自己打了上萬(wàn)億手牌之后,Pluribus就訓(xùn)練出了一種可以在比賽中使用的基本策略。在每個(gè)決策點(diǎn),它會(huì)將牌局和手中的基本策略進(jìn)行比較,并向前搜索幾步看各個(gè)行動(dòng)會(huì)導(dǎo)致什么結(jié)果。之后它會(huì)檢測(cè)是否能有更優(yōu)的策略。由于Pluribus是自我訓(xùn)練,沒(méi)有人類(lèi)輸入,因此它會(huì)用一些人類(lèi)玩家不太可能使用的策略。 AI的玩具箱 Pluribus的成功很大程度上是因?yàn)樗母咝?。它打牌的時(shí)候只使用2個(gè)CPU。與之相比,DeepMind最早的圍棋AI在首次擊敗頂級(jí)人類(lèi)玩家的時(shí)候使用了將近2000個(gè)CPU,而Libratus使用了100個(gè)CPU。自己對(duì)戰(zhàn)的時(shí)候,Pluribus一手只需大約20秒——這比人類(lèi)職業(yè)玩家大約要快一倍。 游戲是一種公認(rèn)的可以有效檢測(cè)AI進(jìn)展的方式,因?yàn)锳I可以和人類(lèi)頂級(jí)玩家直接對(duì)決。如果獲勝的話,就可以名正言順地被譽(yù)為“超人”。但是Brown認(rèn)為,AI已經(jīng)要離開(kāi)自己的玩具箱了。“這是德州撲克里面最后的一項(xiàng)挑戰(zhàn)。”他說(shuō)。 但Togelius認(rèn)為AI研究者和游戲還有一段路要走?!?strong>還有很多未被探索的領(lǐng)域。”他說(shuō)。掌握了超過(guò)一種游戲的AI并不多——這要求AI有某種綜合能力,而非專(zhuān)精一技。此外, AI也不應(yīng)局限于當(dāng)玩家,“還可以設(shè)計(jì)游戲,這對(duì)AI會(huì)是一項(xiàng)很不錯(cuò)的挑戰(zhàn)。”Togelius說(shuō)。 原文以No limit: AI poker bot is first to beat professionals at multiplayer game為標(biāo)題 發(fā)布在2019年7月11日《自然》新聞上 ? Nature|doi:10.1038/d41586-019-02156-9 版權(quán)聲明: |
|
來(lái)自: 板橋胡同37號(hào) > 《芯科》