觀點 | Facebook田淵棟盛讚DeepMind最新圍棋論文:方法乾淨標準,結果好

 2017-10-20 06:11:00.0

原標題:觀點 | Facebook田淵棟盛讚DeepMind最新圍棋論文:方法乾淨標準,結果好

機器之心轉載自知乎

作者:田淵棟

昨日,DeepMind 在《自然》雜誌上發表了一篇論文,正式推出人工智能圍棋程序AlphaGo Zero。這篇論文的發佈引起了業內極大的關注與討論。Facebook AI 研究員田淵棟在知乎上發佈了一篇簡短的文章,介紹了自己對這篇論文的看法。

老實說這篇 Nature 要比上一篇好很多,方法非常乾淨標準,結果非常好,以後肯定是經典文章了。

Policy network 和 value network 放在一起共享參數不是什麼新鮮事了,基本上現在的強化學習算法都這樣做了,包括我們這邊拿了去年第一名的 Doom Bot,還有 ELF 裏面爲了訓練微縮版星際而使用的網絡設計。另外我記得之前他們已經反覆提到用 Value network 對局面進行估值會更加穩定,所以最後用完全不用人工設計的 default policy rollout 也在情理之中。

讓我非常吃驚的是僅僅用了四百九十萬的自我對局,每步僅用 1600 的 MCTS rollout,Zero 就超過了去年三月份的水平。並且這些自我對局裏有很大一部分是完全瞎走的。這個數字相當有意思。想一想圍棋所有合法狀態的數量級是 10^170,五百萬局棋所能覆蓋的狀態數目也就是 10^9 這個數量級,這兩個數之間的比例比宇宙中所有原子的總數還要多得多。僅僅用這些樣本就能學得非常好,只能說明卷積神經網絡(CNN)的結構非常順應圍棋的走法,說句形象的話,這就相當於看了大英百科全書的第一個字母就能猜出其所有的內容。用 ML 的語言來說,CNN 的 induction bias(模型的適用範圍)極其適合圍棋漂亮精緻的規則,所以稍微給點樣本水平就上去了。反觀人類棋譜有很多不自然的地方,CNN 學得反而不快了。我們經常看見跑 KGS 或者 GoGoD 的時候,最後一兩個百分點費老大的勁,也許最後那點時間完全是花費在過擬合奇怪的招法上。

如果這個推理是對的話,那麼就有幾點推斷。一是對這個結果不能過分樂觀。我們假設換一個問題(比如說 protein folding),神經網絡不能很好擬合它而只能採用死記硬背的方法,那泛化能力就很弱,Self-play 就不會有效果。事實上這也正是以前圍棋即使用 Self-play 都沒有太大進展的原因,大家用手調特徵加上線性分類器,模型不對路,就學不到太好的東西。一句話,重點不在左右互搏,重點在模型對路。

二是或許卷積神經網絡(CNN)系列算法在圍棋上的成功,不是因爲它達到了圍棋之神的水平,而是因爲人類棋手也是用 CNN 的方式去學棋去下棋,於是在同樣的道路上,或者說同樣的 induction bias 下,計算機跑得比人類全體都快得多。假設有某種外星生物用 RNN 的方式學棋,換一種 induction bias,那它可能找到另一種(可能更強的)下棋方式。Zero 用 CNN 及 ResNet 的框架在自學習過程中和人類世界中圍棋的演化有大量的相似點,在側面上印證了這個思路。在這點上來說,說窮盡了圍棋肯定是還早。

三就是更證明了在理論上理解深度學習算法的重要性。對於人類直覺能觸及到的問題,機器通過採用有相同或者相似的 induction bias 結構的模型,可以去解決。但是人不知道它是如何做到的,所以除了反覆嘗試之外,人並不知道如何針對新問題的關鍵特性去改進它。如果能在理論上定量地理解深度學習在不同的數據分佈上如何工作,那麼我相信到那時我們回頭看來,針對什麼問題,什麼數據,用什麼結構的模型會是很容易的事情。我堅信數據的結構是解開深度學習神奇效果的鑰匙。

另外推測一下爲什麼要用 MCTS 而不用強化學習的其它方法(我不是 DM 的人,所以肯定只能推測了)。MCTS 其實是在線規劃(online planning)的一種,從當前局面出發,以非參數方式估計局部 Q 函數,然後用局部 Q 函數估計去決定下一次 rollout 要怎麼走。既然是規劃,MCTS 的限制就是得要知道環境的全部信息,及有完美的前向模型(forward model),這樣才能知道走完一步後是什麼狀態。圍棋因爲規則固定,狀態清晰,有完美快速的前向模型,所以 MCTS 是個好的選擇。但要是用在 Atari 上的話,就得要在訓練算法中內置一個 Atari 模擬器,或者去學習一個前向模型(forward model),相比 actor-critic 或者 policy gradient 可以用當前狀態路徑就地取材,要麻煩得多。但如果能放進去那一定是好的,像 Atari 這樣的遊戲,要是大家用 MCTS 我覺得可能不用學 policy 直接當場 planning 就會有很好的效果。很多文章都沒比,因爲比了就不好玩了。

另外,這篇文章看起來實現的難度和所需要的計算資源都比上一篇少很多,我相信過不了多久就會有人重複出來,到時候應該會有更多的 insight。大家期待一下吧。

原文地址:https://zhuanlan.zhihu.com/p/30262872?utm_medium=social&utm_source=wechat_timeline&from=timeline&isappinstalled=0

本文爲機器之心經授權轉載,轉載請聯繫原作者獲得授權。

責任編輯:

文章來源:機器之心