柯潔再次成爲圍棋 AI 的 benchmark,這次讓二子也落敗

 2018-01-21 00:11:00.0

前言:作爲圍棋界檢驗 AI 水平的 human benchmark,柯潔再次落敗。

2018 年 1 月 17 日晚八點半,在騰訊野狐圍棋平臺的1059號對弈房,迅速聚集了 7000多名圍觀棋友。如此火爆,只因這裏正發生着一場圍棋史上極爲罕見的對弈——作爲國際圍棋界職業頂尖棋手,而且是最頂尖的那個,柯潔首次在公開對戰中成爲被讓子的一方,而且是讓二子(黑帖 6 目半)。

與柯潔對弈的是騰訊 AI Lab 研發的圍棋 AI 「絕藝」(絕藝指導 A)。但是很快,儘管被讓二子,柯潔仍在第 77 手或許是對自己的表現太過不滿而直接認輸。這場意義重大的對決,就這樣猝然終結。

隨後,超級銀冠棋手劍過無聲(連笑九段)登場挑戰「絕藝」,但苦戰 247 手後仍然無奈認輸。

柯潔再次成爲圍棋 AI 的 benchmark,這次讓二子也落敗

「絕藝」對弈柯潔九段(即「潛伏」)和連笑九段(即「劍過無聲」)。對弈中,柯潔追殺白棋右上未果,僅弈77手,便爽快認輸;一個小時後連笑九段跟進,鏖戰247手後中盤告負

圍棋界的人士可能對「絕藝」的大名已經耳熟能詳了;而非圍棋界的人士,可能還不是很瞭解此「國產狗」。

相比於日本的 DeepZenGo 和英國的 AlphaGo,國內在 Computer Go(電腦圍棋)的投入起步較晚。騰訊公司從 2016 年 2 月纔開始着手研製圍棋 AI。但很快,「絕藝」人工智能的第一個版本便於 2016 年 3 月 4 日完成了。

隨後,「絕藝 AI」在騰訊圍棋的野狐平臺上開設了多個賬號,包括虎虎有生氣、野狐掃地僧、天下無狗 20、絕藝、驪龍、刑天等。其中「絕藝」賬號使用時間最久,對弈盤數最多,名氣也最大。目前在野狐平臺上有「絕藝指導」A、B、C、D 等各個小號,分別用於對弈不同段位的棋手。

「絕藝」藝名來源:

重送絕句(杜牧)

絕藝如君天下少,閒人似我世間無。

別後竹窗風雪夜,一燈明暗覆吳圖。

雖然起步晚,但是絕藝 AI 發展卻很快。僅僅經過 4 個月的時間,在 2016 年 6 月下旬,絕藝已經突破了業餘 6 段;同年 8 月便開始在騰訊旗下的野狐圍棋網絡對弈平臺測試,8 月 23 日首次戰勝職業棋手,11 月 2 日第一次戰勝世界冠軍江維傑,11 月 19 日首次交手柯潔取勝。

絕藝第一次大範圍引起關注,是 2017 年 3 月初在野狐平臺上晉升爲「十段」高手。但實際上在此之前,它已經戰勝了包括韓國圍棋國手古力、連笑、樸廷桓等高手;甚至在 2 月 14 日至 2 月 24 日期間,和柯潔交手十次,無一敗績。

隨後,絕藝在 2017 年 3 月 18-19 日的第 10 屆 UEC 杯世界電腦圍棋大會上戰勝了當時電腦圍棋界的「第二」AI——DeepZenGo,奪得冠軍。由於這次奪冠,絕藝獲得了參加第 5 屆電聖戰的資格,在 2017 年 3 月 26 日對弈來自日本棋院的新銳棋手一力遼,並執黑 157 手中盤勝。

事情總是無挫不勇。2017 年 8 月在鄂爾多斯舉辦的中國圍棋大會首屆世界智能圍棋公開賽上,「絕藝」半決賽對弈 DeepZenGo 不幸落敗,未能進入決賽。此役之後,「絕藝」臥薪嚐膽,不斷迭代。

2017 年 11 月 15 日野狐平臺上出現了一個暱稱爲「符合預期」的賬號,數日內鏖戰 99 局,除了第 40 局被柯潔擊敗外,餘者全勝。同時「符合預期」還對戰了絕藝指導 A(UEC 杯奪冠版),在讓二子的情況下,以 60 連勝完成版本升級。

12 月 10 日在日本秋葉原舉辦的 2017 圍棋龍星戰(AI RYUSEI)決賽中,升級版「絕藝」相繼以平穩的表現戰勝 MayoiGo、Raynz 和 AQ,並在決賽中再會老對手 DeepZenGo 並輕鬆獲勝。知名棋手劍過無聲(連笑)甚至評論說「絕藝可讓 Zen 兩子」。

進入 2018 年後,從本月 9 日開始,裝備了最強公開版本的「絕藝」(野狐平臺賬號爲「絕藝指導 A」),開始了讓二子(黑帖 6 目半)對決職業棋手的行程。截止到與柯潔對弈前,事實上「絕藝」已經與職業棋手對弈了 31 局 27 勝 4 負。與柯潔和連笑的兩場讓二子對弈更是讓這輪對決的意義推上了巔峯。

我們瞭解到,就圍棋 AI 對弈中讓二子的問題騰訊 AI Lab 做了以下回應:

包括 AlphaGo 在內的圍棋 AI 都存在贏棋退讓的問題,原因是 AI 以贏棋爲目標,勝率過高時下哪裏都贏,不一定會選擇贏最多的下法。

而讓子棋就是另外一種勝率過低的極端情況,以絕藝海南挑戰賽版本爲例,這是一個分先版本的 AI,如果要求其以讓 2 子開始對局,則初始勝率爲 7%(讓 3 子則初始勝率 1%,讓 4 子則初始勝率 0.1%)。並且實力越強的版本,下讓子棋時的初始勝率就越低(因爲 AI 下棋時會假設對手跟自己一樣)。

初始勝率過低將導致 AI 不能發揮出真正的實力,這也是現在絕藝讓 2 子還不能全勝的原因。我們最近在嘗試優化算法,來解決勝率過低帶來的負面影響,爭取以後在讓子棋裏有更好的表現。

據騰訊 AI Lab 的公開新聞介紹,此次與柯潔等職業棋手對弈的「絕藝」挑戰賽版,參考了 2017 年 10 月公開的 AlphaGo Zero 論文,並在實踐中做出了改進;使用了 40 block dual-resnet 模型,以老版本的「絕藝」爲基礎進行強化學習,自對弈了數百萬棋局,在有限的資源和時間內,通過把強化學習和監督學習相結合來加速訓練,快速提升了棋力。

爲了瞭解「絕藝」如此迅猛發展背後的技術細節,我們也特地採訪了「絕藝」團隊的成員。

AI 科技評論:這次「絕藝」在與柯潔、連笑等職業選手的對弈中,均取得不錯的成績。請問柯潔等職業棋手是否參與了「絕藝」的開發?在「絕藝」的成長中他們起到了什麼樣作用?

答:柯潔沒有參與絕藝的開發,但是柯潔等幾十位職業棋手可以使用絕藝內測網站,「絕藝」也在騰訊野狐圍棋上與棋手對弈,所以很多棋手共同見證了整個「絕藝」的成長過程。

羅洗河九段是絕藝的技術顧問,給絕藝團隊圍棋技術方面的指導。

AI 科技評論:通過您們的新聞了解到,這個版本的絕藝技術上主要參考了 2017 年 10 月份 deepmind 發表的關於 AlphaGo Zero 的文章。您們對這篇文章的內容怎麼評價?在具體實踐中,您們做了哪些方面的改進?

答:AlphaGo Zero 是非常讓人震撼的研究成果,除了讓圍棋水平達到一個新的高度,它還不依賴人類知識,讓 zero 的算法具備更高的推廣價值。

絕藝學習了 Zero 的 dual-resnet 模型,和絕藝老版本相比有更高效的強化學習算法。因爲絕藝還在不斷參加比賽進行鍛鍊,比如 2017 年 12 月騰訊棋牌的「絕藝挑戰賽」等,所以我們沒有選擇從「零」開始,而是以絕藝老版本爲基礎進行強化學習。這樣可以大幅減少訓練時間,在有限的資源和時間內完成。目前我們已經在開發從零開始的版本了。

AI 科技評論:相比 11 月底的「符合預期」以及 12 月中旬的「絕藝」,挑戰賽版的「絕藝」有哪些方面的改進?   開發這個版本的「絕藝」花費了多少時間?

答:絕藝近期公開亮相的三個版本之間的主要差異:

  •  2017 年 11 月符合預期:20 block dual-resnet,自對弈了數十萬棋局

  •  2017 年 12 月日本 AI 龍星戰:20 block dual-resnet,自對弈了數百萬棋局

  •  2017 年 12 月三亞絕藝挑戰賽:40 block dual-resnet,自對弈了數百萬棋局

從 10 月下旬開始,用了 1 個多月時間完成了上述三個版本的開發。

AI 科技評論:「絕藝」在多個比賽中戰勝了國際上一些歷史悠久的電腦圍棋,請問與 DeepZenGo 等電腦圍棋相比,「絕藝」有哪些方面的優勢和不足?(例如技術、理念、團隊等)

答: 我們很難簡單把「絕藝」和其他圍棋 AI 進行比較,如果回顧「絕藝」從研發到成長過程中,始終與柯潔、古力和騰訊圍棋上的職業和業餘棋手密切交流與切磋。

AI 科技評論:「絕藝」團隊已經在「絕藝」的研發上做了很久的工作,請問您們對「絕藝」的定位是什麼?現在絕藝已經達到能夠讓二子與人類的職業選手進行比賽了。再開發下去的意義在哪?

答:我們認爲在研究、應用和社會價值上,「絕藝」都有其特定意義。

圍棋 AI 研究由來已久,相關的算法也不斷推陳出新。「絕藝」涵蓋了人工智能最熱門的研究領域——深度學習和強化學習,我們在不斷研發中受益良多。

從應用價值上,騰訊野狐圍棋是國內最大、最活躍的的圍棋平臺之一,「絕藝」目前已經有還開發了指導棋、棋賽講解等功能,也深受廣大棋迷喜愛和關注。

而在社會意義上,圍棋是國粹運動,「絕藝」是騰訊推進前沿科技賦能國粹文化的代表,我們看到 AI 的每一次進步,不僅挖掘圍棋的潛力與邊界,也在展現着人類的智慧與進步。這也是 AI Lab 對於絕藝的期待——希望它能與人類棋手積極互動,從而激發更多關注並傳承圍棋這一中國傳統文化。這是我們的一種科技責任感。

AI 科技評論:在去年三月份 UEC 世界盃大賽中的絕藝總體框架遵循的是 AlphaGo 在 2017 年 1 月份發表的文章;而這次則主要依據 2017 年 10 月份 AlphaGo Zero 的文章。現在 Deepmind 已經不再繼續開發 AlphaGo 了。所以您們打算以後如何進一步開發絕藝的性能呢?

答:絕藝會一直堅持開發下去,除了不斷提高棋力,我們也會研究解決一些有趣的問題,比如現在的 AI 以獲勝爲目標,勝率過高時可能會退讓,不一定會選擇最優的下法。

騰訊將繼續加大對 AI 的研究與投入,打造世界級圍棋 AI 能力與推廣,更在 AI 上推進深度學習等前沿 AI 科技的研究與應用。

相關文章:

「國產狗」勝「日本狗」,圍棋龍星戰騰訊絕藝報「一箭之仇」

60秒慢棋賽制「電聖戰」,騰訊「絕藝」戰勝日本新銳棋手一力遼

專訪騰訊AI Lab「絕藝」負責人:把絕藝的技術應用在其他領域還比較遠,但我們會開放

揚名UEC杯,騰訊圍棋AI「絕藝」奪冠之路全回顧!

DeepMind 的 2017:有 AlphaGo,更有社會責任

DeepMind 推出 AlphaGo 圍棋教學工具,圍棋學習新紀元來啦?

從AlphaGo到Libratus,百頁白皮書詳解機器博弈

100:0!Deepmind Nature論文揭示最強AlphaGo Zero,無需人類知識


文章來源:雷鋒網