【原】AI戰(zhàn)勝全球頂級(jí)德?lián)涓呤?，?jì)算機(jī)是如何學(xué)會(huì)忽悠的？

全球風(fēng)口 2020-12-09

展開全文

科技洞察 丨深入科技行業(yè)最前沿

這次和AI的競(jìng)技比賽，人類又輸了。這次不僅僅是輸在計(jì)算慢，會(huì)失誤，還輸在不會(huì)忽悠。

Facebook 和卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University)的研究人員開發(fā)出了迄今為止最有效的能嚇唬人的工具。這款名為“Pluribus”的機(jī)器人是人工智能的一次飛躍，也是德州撲克的一名狡猾玩家。

AI智能首次在多人競(jìng)賽中獲勝

這并不是人工智能在撲克牌中打敗人類的唯一案例，兩年前，卡內(nèi)基梅隆大學(xué)開發(fā)的另一個(gè)人工智能系統(tǒng)Libratus甚至擊敗了一位撲克明星。

此次比賽Pluribus與13名德州撲克高手進(jìn)行了1萬(wàn)手不限注對(duì)局的六人桌比賽，每次比賽由機(jī)器對(duì)5名人類選手，結(jié)果機(jī)器取得勝利。

另一種形式，5名Pluribus（它們之間無(wú)法合作）與1名人類選手對(duì)局，結(jié)果Pluribus分別在5000手對(duì)局中先后擊敗了德州世界冠軍達(dá)倫·伊萊亞斯和克里斯·弗格森。

撲克職業(yè)選手Jason Les被計(jì)算機(jī)程序Pluribus擊敗

來(lái)源：The Wall Street Journal

“我感到非常絕望。你不會(huì)覺得你能做些什么來(lái)贏得比賽?！睋淇寺殬I(yè)選手杰森萊斯(Jason Les)這樣說(shuō)。

不得不說(shuō)，在撲克這項(xiàng)賭博類的競(jìng)技決賽中，練就的是懂博弈、會(huì)唬人的頂級(jí)玩家。

▏博弈與計(jì)算——從不完全信息博弈到新算法突破

人工智能其實(shí)已經(jīng)在多個(gè)領(lǐng)域打敗了人類，在圍棋、象棋、跳棋等戰(zhàn)績(jī)輝煌。那么這次在撲克取勝又有什么大驚小怪的呢？

我們知道，在棋牌游戲中，圍棋、象棋、跳棋等大部分的信息是完全公開的，所有參與者掌握著相同的空間和組合信息。針對(duì)這種“完全信息博弈”比賽所要做的是向下推演，從以后所有可能性中選一個(gè)對(duì)自己獲勝最有利的行動(dòng)。

而像斗地主、德州撲克、橋牌這種不明牌的紙牌類游戲，需要找到綜合對(duì)手存在的多種可能性向下推演，而從尋求一個(gè)期望值（勝率*賠率）盡可能高的一種結(jié)果。這種“不完全信息博弈”不追求每局都贏，而是追求能夠做到在最應(yīng)該投入的時(shí)候多贏和最應(yīng)該放棄的時(shí)候少輸?shù)淖顑?yōu)組合解。

更近一步，在此前卡內(nèi)基梅隆大學(xué)開發(fā)的另一個(gè)人工智能系統(tǒng)Libratus，針對(duì)的一對(duì)一的撲克游戲，采用的“戰(zhàn)略性推理”，通過(guò)決策樹向前推理。Libratus軟件在選擇動(dòng)作之前會(huì)搜索到游戲結(jié)束，選出一個(gè)最佳組合方案。

而面對(duì)六人游戲，兩人以外的額外玩家?guī)?lái)了大量的隱藏信息。為此團(tuán)隊(duì)主要?jiǎng)?chuàng)建者布朗博士改進(jìn)了Libratus的算法，讓Pluribus能夠在只看后續(xù)幾個(gè)牌，而不是比賽搜索到結(jié)束后做出正確選擇的“有限前瞻搜索”算法，賦予了Pluribus展望前方兩三步的搜索功能，被成為“真正的突破”。

“與多個(gè)對(duì)手玩撲克意味著Pluribus必須能夠?qū)崟r(shí)推理。”

——Facebook人工智能研究科學(xué)家、Pluribus創(chuàng)始人之一諾姆·布朗(Noam Brown)

▏忽悠和反忽悠能力

有人認(rèn)為，多人撲克已經(jīng)不是一種游戲，而更像一種需要多種技能的藝術(shù)表達(dá)，這種藝術(shù)需要我們能夠有效甄別其他人的互動(dòng)、肢體動(dòng)作甚至微表情，更需要決勝者可以利用這些信息在這次博弈中取勝，簡(jiǎn)單來(lái)說(shuō)，這是忽悠和防忽悠能力的對(duì)抗。

Pluribus使用了DeepMind公司人工智能圍棋玩家的的強(qiáng)化學(xué)習(xí)形式，從零開始自學(xué)。它與自身的副本對(duì)弈，并且在每次手牌結(jié)束后，回顧自己的玩法，并檢查如果采取不同的選項(xiàng)，看它是否能賺到更多的錢。經(jīng)過(guò)了數(shù)萬(wàn)億次的對(duì)弈訓(xùn)練慢慢發(fā)展獲勝的虛張聲勢(shì)技巧。

那么，Pluribus在棋牌中如何表達(dá)他們的忽悠和反忽悠技能？以下是比賽實(shí)例中選取的簡(jiǎn)單描述。

例子一：當(dāng)Pluribus發(fā)覺自己手氣比較差時(shí)，接連下注和加注讓對(duì)手誤判或棄牌（fold）。

例子二：識(shí)破人類牌很差而試圖嚇唬Pluribus，希望其棄牌獲勝的全部押注行為（All in），Pluribus最后跟注（call）取得勝利。

據(jù)報(bào)道，輸給Pluribus都是頂級(jí)人類棋手。

我們一直以為，虛張聲勢(shì)是一種非常人性化的能力，我們直視對(duì)方的眼睛，聲東擊西讓對(duì)方難辨真假。

但是，在Pluribus與人類的競(jìng)技中，虛張聲勢(shì)的含義似乎被提升為一種基于算法和訓(xùn)練的能力，一種進(jìn)階版的談判博弈能力。對(duì)手越多，需要處理博弈的隱藏信息越多。

此外Pluribus的能夠練就強(qiáng)大的忽悠能力還有一個(gè)得天獨(dú)厚的優(yōu)勢(shì)，那就是他們永遠(yuǎn)不會(huì)累也不會(huì)餓。那些疲勞和壓力帶來(lái)的不利因素對(duì)于Pluribus都不存在。

▏人工智能未來(lái)還能贏我們什么？

撲克一直是人工智能和博弈論領(lǐng)域中最難掌握的游戲之一。從博弈論的創(chuàng)始人約翰·馮·諾伊曼1928年在他的論文《室內(nèi)游戲理論》中寫的關(guān)于撲克的文章，到愛德華·索普的杰作《打敗莊家》，再到麻省理工學(xué)院的21點(diǎn)團(tuán)隊(duì)，幾十年來(lái)，撲克策略一直困擾著數(shù)學(xué)家們。

職業(yè)撲克玩家說(shuō)，玩復(fù)雜的撲克之所以困難，是因?yàn)樗牟豢深A(yù)測(cè)性。專家說(shuō)，這也正是技術(shù)進(jìn)步的核心動(dòng)力。人們對(duì)與撲克和星際爭(zhēng)霸等充滿了不確定因素的機(jī)器智能的游戲充滿了極大的興趣，正是因?yàn)槟抢锔袷乾F(xiàn)實(shí)世界的縮影，也讓我們更深刻了解到未來(lái)的機(jī)器智能是如何依靠數(shù)據(jù)和數(shù)學(xué)計(jì)算獲得勝利。

Pluribus的成功并不僅僅代表一個(gè)牌類競(jìng)技的勝利符號(hào)，他的成功或許是邁向自動(dòng)化談判，更好的欺詐檢測(cè)市場(chǎng)和自動(dòng)駕駛汽車等復(fù)雜應(yīng)用的關(guān)鍵一步。

據(jù)了解，卡內(nèi)基梅隆大學(xué)教授和Pluribus開發(fā)人員Tuomas Sandholm參與了戰(zhàn)略機(jī)器人公司(Strategy Robot Inc.)和優(yōu)化市場(chǎng)公司(optimization Markets Inc.)這兩家初創(chuàng)公司的合作，他們正在利用與Pluribus類似的技術(shù)，將其應(yīng)用于國(guó)防、金融服務(wù)、游戲和醫(yī)療保健等領(lǐng)域。

未來(lái)，也許機(jī)器智能還能在更多單一場(chǎng)景領(lǐng)域戰(zhàn)勝人類。但在AI戰(zhàn)勝人類的同時(shí)，也帶給我們更多思考，思考如何借助人工智能的提升去開辟新的市場(chǎng)。更重要的是，人類在不斷的開發(fā)機(jī)器智能和與機(jī)器智能競(jìng)賽中，也剛好慢慢的挖掘自身大腦的無(wú)限潛能。所以不必?fù)?dān)心，人工智能在進(jìn)步，人類的大腦同樣也在進(jìn)化。

這么看來(lái)，未來(lái)是誰(shuí)戰(zhàn)勝了誰(shuí)，誰(shuí)造福了誰(shuí)，還真不一定呢。

參考來(lái)源：

Computers Can Now Bluff Like a Poker Champ. Better, Actually., The Wall Street Journal, July, 16th, 2019

- 猜你愛看 -