GPU的主页

帮趣游戏     进入个人中心

GPU

gpu

幫趣網協助針對GPU資訊發佈, 幫趣網擁有針對IT領域数十萬筆活動聯繫資訊,並且協助廠商做資訊發佈,活動發佈

http://bangqu.com/gpu

职业: GPU

现居:

  • 浏览 363次
  • 感谢 0人
  • 收益 ¥0.0元

人工智能將挑戰德州撲克,與人類爭奪20萬美元獎金

攻陷圍棋后,人工智能開始轉向德州撲克。


谷歌的AlphaGo升級版剛剛在網絡平台上連續60次擊敗各路世界頂尖圍棋手。正如在1997年,IBM的深藍超級計算機擊敗國際象棋世界冠軍卡斯帕羅夫那樣,它已成為人工智能發展的里程碑事件。在下週,由卡耐基梅隆大學(CMU)開發的名為Libratus的人工智能係統即將開始一場新的挑戰:試圖在一對一、無限制投注的規則下擊敗世界最強的人類德州撲克玩家。


也許Libratus 會很快與「深藍」和AlphaGo相提並論,它正在試圖解決與後兩者大不相同的問題——圍棋和國際象棋都是完全信息公開的博弈,玩家們可以看到棋盤上的每個旗子,考慮所有落子的可能性。相比之下,德州撲克屬於不完整信息博弈,這對於人工智能來說更加具有挑戰性。


「在完整信息博弈中,計算機可以在決策樹中進行分析,」CMU 教授Tuomas Sandholm 解釋道,他與自己的博士生NoamBrown 共同開發了Libratus 系統。在國際象棋和圍棋中,人工智能可以通過預測所有未來步驟的勝率來思考自己的下一步。「然而在不完整信息博弈中,事情就變得複雜起來了,你不知道對面手握什麼底牌,」Sandholm 解釋道。「這意味著你不能在決策樹的架構下選擇下一步了。而且,你也不知道發牌員在flopturn river 上發出的下一張牌是什麼。」


比宇宙中原子數量更多的組合可能性

不完整信息博弈早已被證明是難以攻克的計算機難題。對此,CMU 的人工智能研究者們專注於信息集(Tuomas Sandholm2010),通過同時思考未知和已知變量各種可能狀態的方式來進行預測。這需要強大的計算能力。「德州撲克有10 160 次方個信息集,還有10 165 次方個遊戲樹節點,」Sandholm 說道。這意味著牌局的可能性大於宇宙中所有原子的數量(目前可觀測宇宙約有10 75 次方個原子)。「而且即使宇宙中的每個原子是一個宇宙,所有原子的數量也無法與牌局的可能性數量相比。」


AlphaGo 不同,Libratus 系統不通過分析大量可能的下一步完成任務,這個CMU 構建的新系統通過平衡風險與收益來決定自己的下一步——在納什均衡定義中的完美遊戲狀態。JohnNash,電影《美麗心靈》的原型,在20 世紀50 年代發展出了這一偉大理論,它隨後成為博弈論的基石,並讓Nash 1994 年獲得了諾貝爾經濟學獎。


「在存在兩名玩家的零和遊戲中,如果有一人不遵從納什均衡的策略,那麼兩名玩家獲得的收益都將受損,但我們的系統不會這樣,」Sandholm 解釋說。「在此類游戲中,以納什均衡的方式思考是最安全的。遵從規律的玩家將合理地獲得受益,同時在任何地方都不會被對手利用。」


對於人類玩家而言是長時間的艱難折磨

對於和機器交手的人類玩家而言,他們面臨的會是一個無情的對手。「我一直這樣向大家描述當時的感覺,用一個詞來描述:折磨。(與計算機交手的)最初的幾天,我們每天都玩到了深夜,當我們打完牌回到酒店後,我們會繼續研究幾個小時再睡覺。然後我們會在早上9 點起床,再度過這樣的一天,」Jason Les 說道,他是CMU 請來與Libratus 原型版本交手的第一位職業玩家。這次比賽中,他將再次披掛上陣。


對於觀眾們來說,計算機與人類在德州撲克上的對決或許不如AlphaGo 那樣引人注目,後者曾創造了具有詭異美感的新棋風。「很多人把Libratus 的策略視為只會防守,它想做的是避免被擊敗,然後在所有對手都有所疏忽的時候展開反擊。」


人工智能採用了顛覆傳統的玩法

Sandholm 很快指出,玩法傳統並不代表安全。「這個撲克程序,以及一年半之前的Claudico 程序,它們都想出了新花招。他們會玩出一些有經驗的撲克玩家會認為很糟糕的玩法。」比如說,在一手撲克的第一輪,limping(注:在Pre-Flop 只有跟注盲注而沒有加註)表示你跟注對手,即用最小數量的錢繼續玩一手。所有的撲克書上都說這是一種糟糕的玩法,但CMU 的撲克bot 7% 16% 的時間會選擇limping


「這與這個遊戲的民間智慧是真正矛盾的,」Sandholm 說,「這些算法是單純從這個遊戲的規則中總結出的這種玩法,我們沒有給它們任何人類這樣玩的歷史數據。它們玩得就像火星人一樣,它們想出了自己的策略。」這個人工智能還總是利用donk betting(注:翻牌前只有跟注,翻牌後在沒有位置時率先下注)來破壞規則,將主動權從之前一輪的最後一位玩家那裡搶過來。


人類玩家也在學習人工智能的策略

「我認為它們向人類表明一些非傳統的策略也是有效的,」Les 說,「但是,在現實中,如果沒有計算機的幫助,它們實在太難效仿了。」


曾經在2015 年與CMU 以前的系統比賽過的Dong Kyu Kim 就採納其中一些奇怪的策略:「我從Claudico學到了很多來用在我自己的遊戲中。」Kim 相信學習人工智能的策略可以讓他在與人類對手比賽時獲得優勢。


來自阿爾伯塔大學的一個團隊在2008 年的時候就在有限制德州撲克(limit Texas Holdem)上超過了最好的人類玩家,並且在2015 年就幾乎達到了完美的水平。而對於投注不受限的無限制德州撲克(No-LimitTexas Hold'em),情況可就複雜得多了,但曾經參與了那些比賽的職業玩家都認為機器的最終勝利也只是一個時間問題。


職業玩家知道機器超過他們只是時間問題

「我不認為撲克和國際象棋與圍棋有什麼不同,我認為最終計算機也將主宰這個遊戲,」JimmyChou 說,「因為人類不確定的本質,我們可能偶爾會佔優勢,但從長期來看,我會願意把錢壓到機器的有效性上,因為它有數學和科學。」


Kim 同意這種觀點:「作為職業撲克玩家,我不願意承認這一點,但我確實相信機器將能在所有的撲克遊戲中打敗人類。這只是個時間問題。」


儘管深藍和AlphaGo的勝利點燃了公眾的想像,但能解決完美信息博弈的系統的應用範圍還很有限。Sandholm說:「大多數真實世界的交互都包含了多方信息和不完整的信息。」在這些類型的任務中打造一個能夠超越人類的系統「從人工智能的角度來看要重要得多,從而讓整個世界變得更好。」AlphaGo的創造者也已經將目光投向了不完全信息博弈(imperfect-informationgames),比如無限制撲克遊戲和《星際爭霸II》。


這種類型的人工智能可以擊敗黑客和癌症

Sandholm 見過類似他的團隊所打造的這種系統被用於自動談判或討價還價,比如在一項複雜的交易之中作為消費者或企業的代表。這樣的系統也可以在網絡安全領域有所作為,可以幫助優化一個網絡針對黑客攻擊的防禦。而且Sandholm 還希望有一天能將其廣泛應用於醫療領域。「我們已經在研究自身免疫疾病和癌症了。通過引導一個人自己的免疫系統來更好地對抗自己的疾病,」他解釋說,「T 細胞實際上並不是對手,但你可以使用這些技術來應對它們。」


這場人機撲克大賽將於當地時間1 11 日在賓夕法尼亞州匹茲堡的Rivers 賭場開始。Jason LesDong KimDanielMcAulay Jimmy Chou 這四位世界頂級的撲克職業玩家將會與Libratus 在為期20 天的賽程裡面對玩12 萬手,爭奪20 萬美元的獎金。如果你對這場比賽感興趣,可以在Twitch 上觀看比賽直播。


來源:

http://it.sohu.com/20170106/n477949941.shtml



分享时间: