色一伦一情一区二区三区,日本免费一区二区三区中文

人工智能與撲克大戰(zhàn)30年：機(jī)器為何現(xiàn)在開始碾壓頂級(jí)牌手？

2017-10-20 02:16

《終結(jié)者》、《我，機(jī)器人》和《A．I．人工智能》只是過去四十年中反映人工智能發(fā)展超過人類并導(dǎo)致人類毀滅這一主題的眾多電影中的幾個(gè)例子�！睹绹�(guó)新聞與世界報(bào)道》的Jeff Nesbit表示，雖然這種情況在近期內(nèi)發(fā)生的可能性仍然不大，但是很多人認(rèn)為這個(gè)主題里的第一部分——人工智能會(huì)超過人腦的水平，達(dá)到超級(jí)人工智能水平（artificial superintelligence，ASI）——這一情況將會(huì)在未來三十年內(nèi)的某個(gè)時(shí)刻實(shí)現(xiàn)。

ASI是否會(huì)導(dǎo)致人類的終結(jié)還有待觀察，但人工智能最近在撲克界取得了很大的突破。

AI與撲克大戰(zhàn)30年為何現(xiàn)在才全面碾壓

人工智能與撲克的“戰(zhàn)斗史”可追溯到1984年，那一年，Mike Caro創(chuàng)建了一款名為Orac的基礎(chǔ)撲克人工智能軟件以征戰(zhàn)World Series of Poker（世界撲克系列賽，世界撲克比賽中一項(xiàng)最權(quán)威、最受尊重的賽事。WSOP與WPT，EPT并稱世界三大撲克賽事）�？梢哉f，人工智能與撲克的“戰(zhàn)爭(zhēng)”已經(jīng)打了30多年。

從那時(shí)起，人工智能在撲克領(lǐng)域的發(fā)展勢(shì)頭非常迅猛，最近的一份信息圖以視覺化的方式提供了撲克領(lǐng)域人工智能研究進(jìn)展的深度介紹和統(tǒng)計(jì)概覽，同時(shí)提供了到目前為止研究提煉出的見解。

對(duì)人工智能而言打敗牌手比打敗棋手更難

幾個(gè)月前，幾個(gè)在線撲克網(wǎng)站的社論撰稿人和社區(qū)經(jīng)理Josh Wardini在PokerSites博客上發(fā)表了題為《撲克和人工智能：機(jī)器對(duì)人類的興起》的信息圖。Wardini提供了在過去30年中撲克和人工智能之間關(guān)系的介紹。

人工智能應(yīng)用于策略游戲是最流行的方向。在過去二十年中，人工智能在各種游戲中擊敗了人類，包括國(guó)際象棋、圍棋和《危險(xiǎn)邊緣》（譯注：哥倫比亞廣播公司益智問答游戲節(jié)目）。在過去十年中，大部分研究已轉(zhuǎn)向創(chuàng)造會(huì)玩撲克的人工智能程序。

你可能會(huì)問的一個(gè)問題是：為什么是撲克？

國(guó)際象棋大師Garry Kasparov在2010年發(fā)文指出了國(guó)際象棋和撲克的區(qū)別：國(guó)際象棋100％的信息博弈——兩個(gè)玩家都會(huì)同時(shí)獲知相同的數(shù)據(jù)信息——與計(jì)算機(jī)敏感的計(jì)算能力相比，玩撲克牌可以隱藏自己的牌，其中有很多變量和不確定性，概率、以假象迷惑對(duì)手的心理層面因素、風(fēng)險(xiǎn)管理等在撲克牌中十分關(guān)鍵。似乎是撲克完全基于人類心理活動(dòng)的方面令其在面對(duì)計(jì)算機(jī)時(shí)顯得無懈可擊。一臺(tái)機(jī)器可以很容易地計(jì)算出每一手牌的可能性或者概率，但在面對(duì)低概率同時(shí)卻是高賭注的時(shí)刻，人工智能卻并不占優(yōu)勢(shì)。

Wardini認(rèn)為，大學(xué)的人工智能部門是因?yàn)閾淇说膹?fù)雜性而對(duì)這種游戲進(jìn)行研究的。像許多現(xiàn)實(shí)生活中的情況一樣，“撲克要處理很多不完善信息”，并且人工智能的目標(biāo)是解決反映在撲克中的問題。

Carnegie Mellon University （卡內(nèi)基梅隆大學(xué)，CMU）博士生及人工智能研究員Noam Brown表示，在不限注的德州撲克單挑比賽中有10的163次方（10后面接著有163個(gè)零）不同的游戲情況，假設(shè)啟動(dòng)堆棧為20，000個(gè)芯片，那么即使是最強(qiáng)的計(jì)算機(jī)也不可能計(jì)算所有可能的情況。

人工智能在撲克上取得突破 Libratus戰(zhàn)勝頂級(jí)職業(yè)牌手

人工智能在撲克領(lǐng)域的研究主要來自University of Alberta（阿爾伯塔大學(xué)），University of Auckland（奧克蘭大學(xué)）和前面提到的CMU。CMU在撲克界赫赫有名，其推出了兩款人工智能程序Claudico和Libratus，并在最近挑戰(zhàn)了一些頂級(jí)的撲克玩家。

雖然Claudico獲得了多場(chǎng)勝利，但在2015年，Claudico被一個(gè)由Doug Polk、Bjorn Li、Dong Kim和Jason Les四名玩家組成的團(tuán)隊(duì)擊敗，但Claudico也一路獲了多場(chǎng)勝利。

Doug Polk曾對(duì)《PokerNews》表示，Claudico“使用了一個(gè)非常復(fù)雜的策略，包括許多大大小小的賭注”，但人工智能技術(shù)還是存在一些漏洞。

經(jīng)過改進(jìn)迭代的Libratus，在2017年1月挑戰(zhàn)了四名頂級(jí)職業(yè)撲克玩家，Kim和Les回歸了第二場(chǎng)戰(zhàn)役，Jimmy Chou和Daniel McAulay加入了他們的團(tuán)隊(duì)。最后，Libratus擊敗了這一組世界級(jí)的德州撲克職業(yè)選手，并且是以每100手14倍大盲（譯者注：縮寫為14bb／100，意為玩100手牌，平均能贏對(duì)手14倍大盲注）完勝頂級(jí)人類玩家團(tuán)隊(duì)。在Libratus對(duì)人類玩家12萬手牌的不限注德州撲克挑戰(zhàn)賽后，Libratus從四名職業(yè)玩家手中贏得了1，766，250美元的籌碼。

Dong Kim在比賽結(jié)束后接受了《PokerNews》Sarah Herring的采訪。他表示，“對(duì)于我們來說真的很難玩。我們會(huì)提出一個(gè)策略，這個(gè)策略可能在當(dāng)天效果不錯(cuò)，然后是第二天它就會(huì)帶來新的東西。我們則沒有為此做好準(zhǔn)備，所以總體來說是真的、真的很艱難�！�

為什么會(huì)這樣？Libratus會(huì)進(jìn)行自我糾正，它每天晚上分析自己的打法，糾正錯(cuò)誤，并在第二天使用不同的策略，但這不是全部。

不同于之前的Claudico，Libratus依賴于一種算法，該算法使用了數(shù)百萬內(nèi)核小時(shí)計(jì)算，這樣大量計(jì)算的實(shí)現(xiàn)要依靠的Pittsburgh Supercomputing Center（匹茲堡超級(jí)計(jì)算中心，PSC）“Bridges”源才變得有可能，它沒有使用固定的內(nèi)置策略。它也會(huì)隨機(jī)化自己的行為，使對(duì)手難以破譯它是否在虛張聲勢(shì)。最令人驚訝的是，Libratus不僅僅是一個(gè)人工智能在撲克領(lǐng)域的應(yīng)用程序，而是可以應(yīng)用于任何不完善的信息系統(tǒng)，有無數(shù)潛在的應(yīng)用可能。

Kim承認(rèn)他的這個(gè)沒有血肉對(duì)手的能力令人印象深刻。“人工智能玩得很好，我認(rèn)為它有世界級(jí)的水平�！�

當(dāng)被問及他自己在打牌的時(shí)候可以使用哪些Libratus的策略時(shí)，Kim解釋說，人工智能程序的混合策略使其難以對(duì)抗。

Kim表示，“有很多很好的東西，我都想要在我自己打牌的時(shí)候融會(huì)進(jìn)來，但真的很難做到。Libratus有一些真的非常好的策略，但也是一個(gè)混合的策略，所以當(dāng)你用一個(gè)策略用得太多了一點(diǎn)，那么你的這一點(diǎn)就會(huì)非常容易被人利用，所以一般來說模仿或模擬很難，讓我們拭目以待吧�！�

Libratus經(jīng)常在其壓倒性的打法中使用超額下注。Kim表示，“它使用超額下注比任何人都多。如果是一個(gè)人類玩家，那么說實(shí)在的，我們會(huì)認(rèn)為這個(gè)家伙完全是一個(gè)技術(shù)拙劣的玩家，因?yàn)樗眠@招用得太多了。”

“實(shí)際上，當(dāng)它超額下注的時(shí)候，它其實(shí)是在虛張聲勢(shì)。是的，它就是在大張旗鼓地虛張聲勢(shì)�！�

CMU的研究員Brown，在2016年3月向《PokerNews》解釋稱：“這并不令人驚奇（Libratus會(huì)虛張聲勢(shì)），因?yàn)殡娔X正在做的是模擬數(shù)以萬億計(jì)手的牌，它對(duì)虛張聲勢(shì)的看法和我們并不一樣。它所做的只是反復(fù)地遇到這種情況，它注意到即使沒有很好的牌，仍然可以通過下注賺到更多的錢。”

人工智能戰(zhàn)勝人類牌手的關(guān)鍵因素是什么？

雖然大多數(shù)撲克玩家不會(huì)很快就與人工智能正面交鋒，但是看看人工智能如何打敗人類玩家所使用的技巧倒是很有價(jià)值的。是什么讓諸如Libratus之類的人工智能程序表現(xiàn)得這么好？

在玩撲克時(shí)有一些情緒本身并不是壞事——在某些情況下甚至可能是有益的——從某種意義上來說，在這個(gè)游戲中，將成功的職業(yè)玩家和不賺不賠或者是虧錢的業(yè)余愛好者區(qū)分開來的一個(gè)重要特征就是模仿人工智能的能力。

雖然大多數(shù)職業(yè)玩家和撲克教練都不會(huì)這樣說，但他們告訴有抱負(fù)的專業(yè)人士，在這個(gè)游戲中成功的關(guān)鍵是在游戲中做出決定時(shí)不要考慮錢。

2016年，Andrew Robl在《PokerNews》發(fā)表的一篇文章中，他表示要想成為一個(gè)成功的撲克玩家，應(yīng)該具備六個(gè)特征，其中五個(gè)可以說是符合Libratus這樣的人工智能程序：經(jīng)驗(yàn)、智力、欲望和學(xué)習(xí)的意愿（除掉欲望部分）、控制情緒的能力以及進(jìn)行了次數(shù)多到令人想吐的比賽。

不過，第六個(gè)特征只適用于人類——社交和人際交往技能。人工智能在這部分的表現(xiàn)是糟糕的——至少在目前是這樣。

在情緒控制方面，人工智能相比于人類擁有明顯的優(yōu)勢(shì)，包括偏見和疲勞因素在內(nèi)。而當(dāng)Libratus在連續(xù)落敗的時(shí)候，它不會(huì)生氣或者是感到沮喪，更不會(huì)毆打?qū)κ只蛘呤窃诤竺娴膶?duì)抗中狀態(tài)不佳。在經(jīng)歷了漫長(zhǎng)的一整天磨礪之后，它不會(huì)感到精力不濟(jì)，更不會(huì)因此犯下錯(cuò)誤。因此它是更好的玩家。

在同Libratus進(jìn)行了對(duì)抗之后，Kim的一個(gè)評(píng)論凸顯出了人工智能與人類之間的關(guān)鍵區(qū)別：“我們并沒有想到會(huì)輸這么多，這是非常艱難的部分……這并不一定是因?yàn)槿斯ぶ悄鼙旧�。而是不斷地輸，�?duì)伍的士氣非常低落�！�

同時(shí)，Libratus不斷根據(jù)經(jīng)驗(yàn)調(diào)整策略，始終如一地發(fā)揮最佳水平。

人工智能無法感覺到錢的價(jià)值，這讓它們能夠免受風(fēng)險(xiǎn)的影響，并且總是能夠?qū)崿F(xiàn)“正確的”游戲理論最優(yōu)（GTO策略），即使在風(fēng)險(xiǎn)回報(bào)比例非常糟糕的情況下也是如此。這導(dǎo)致它們會(huì)大量使用虛張聲勢(shì)的戰(zhàn)術(shù)。

Libratus無論風(fēng)險(xiǎn)如何，都會(huì)做出最好的決定，它們沒有資金管理的概念，也不需要支付賬單，這也有助于它們做到這一點(diǎn)。

戰(zhàn)勝人類牌手也只是開始

Libratus的共同創(chuàng)始人Tuomas Sandholm在Carnegie Mellon（卡內(nèi)基．梅隆）的一份出版物中評(píng)估了人工智能的勝利產(chǎn)生的影響。

他表示，“人工智能根據(jù)不完美的信息進(jìn)行策略推理的能力現(xiàn)在已經(jīng)超過了人類。”

Polk在接受《PokerNews》采訪時(shí)回應(yīng)了這種情緒，他注意到的Claudico的漏洞在Libratus中被修復(fù)了。

“對(duì)于我來說，現(xiàn)在事情已經(jīng)很清楚了，人類在不限注德州撲克單挑比賽中落后于形勢(shì)變化，我認(rèn)為這種情況將繼續(xù)以其他形式發(fā)生。”

CMU的計(jì)算機(jī)科學(xué)系主任Frank Pfenning表示，融入虛張聲勢(shì)是一個(gè)關(guān)鍵概念，因?yàn)闆]有這項(xiàng)能力就無法取勝。他說道，“開發(fā)一個(gè)能夠成功做到這一點(diǎn)的人工智能程序是科學(xué)前進(jìn)的一個(gè)巨大進(jìn)步。想象一下，有朝一日你的智能手機(jī)能夠?yàn)槟阋I的新車談判得到最優(yōu)惠的價(jià)格。這還只是開始�！�

通過人工智能訓(xùn)練牌手

看起來我們可以從這些會(huì)玩撲克的人工智能程序身上學(xué)到很多東西，但是不要矯枉過正——有一些撲克技巧，我們?nèi)祟惐葯C(jī)器更好。

雖然人工智能非常擅長(zhǎng)通過模擬數(shù)萬億手牌來實(shí)現(xiàn)游戲理論最優(yōu)（GTO策略），但是由于針對(duì)特定對(duì)手，人工智能可獲得手牌的樣本數(shù)量有限，在對(duì)個(gè)人對(duì)手采用針對(duì)弱點(diǎn)的策略的能力較差。

Brown表示，“這是一個(gè)積極的研究領(lǐng)域，如何利用對(duì)手有限數(shù)量的樣本。我們不知道為什么人類玩家非常精于此道，這可能是人工智能的一個(gè)重要的薄弱環(huán)節(jié)�！�

雖然撲克玩家可能會(huì)因?yàn)閾?dān)心沒有情緒的人工智能會(huì)賺走他們所有的錢而感到擔(dān)心震驚，但這些程序的發(fā)展實(shí)際上可以對(duì)他們的盈虧情況產(chǎn)生積極的影響。Wardini提到存在“人工智能模擬和培訓(xùn)軟件可以幫助人類”，包括幫助玩家開發(fā)一種“平衡的、沒有漏洞可被利用的方法”并采用“更好的決策”來提高他們的游戲水平。

附：《撲克和人工智能：機(jī)器對(duì)人類的興起》信息圖