哈薩比斯首次解讀AlphaZero竟被當場diss，他起身當面回擊說……

2017-12-09 16:40:43.0

編者按：本文來自微信公衆號「量子位」，作者夏乙，36氪經授權發佈。

有爭論纔有意思。昨天是機器學習「鍊金術」，今天則是AlphaZero。

在NIPS大會期間，DeepMind創始人兼CEO哈薩比斯（Demis Hassabis）出席了自己贊助的一個研討會。在這個活動上，哈薩比斯首次公開解讀了他們最新的研究成果AlphaZero。

哈薩比斯在演講中首先提到DeepMind背後的哲學，這家公司奉行的第一性原理。回顧了AlphaGo在此前比賽中的表現，特別是那些具有「獨創性」的時刻。

至於最新的AlphaZero，哈薩比斯坦言結果出乎他們預料。DeepMind本來認爲手動調整的國際象棋引擎Stockfish已經接近最優解，但沒想到AlphaZero還是在24小時之內，通過不斷地自我對弈，最終擊敗了Stockfish。

當然不只是擊敗了一個國際象棋程序，AlphaZero還橫掃了日本將棋程序Shogi，以及剛剛創下佳績的圍棋程序AlphaGo Zero。

在國際象棋比賽中，AlphaZero的棋風，既不像人、也不像電腦。

哈薩比斯介紹說，AlphaZero偏愛遠期的局面性棄子，沒有子力的概念。AlphaZero會根據當前的局面進行判斷，相較而言，如果使用了剛性規則就無法動態調整策略。人類可以向AlphaZero學習國際象棋的戰略，而不是戰術。

當然，哈薩比斯也沒忘了問一句：人類關於國際象棋的知識是不是太有限了？

對於DeepMind最新搞出的AlphaZero，有人溢於言表的讚美。當然也有人一萬個不爽。

比方，紐約大學的馬庫斯老師（Gary Marcus）。他是紐約大學心理學和神經科學教授，所涉獵的領域包括人類和動物行爲、神經科學、人工智能。馬庫斯還曾擔任Uber AI實驗室的負責人（主要他的AI創業公司被Uber收購了）。

哈薩比斯講完後不久，馬庫斯登臺。他很快指出：DeepMind令人驚歎的結果，仍然依賴於一些人類知識，比方使用了蒙特卡洛樹搜索。

接着，他提出一個「理論」：認知（Cognition）可以視爲三個變量的函數，寫成公式就是：Cognition = f (a,k,e)。其中a代表先天算法，k代表先天知識，e代表經驗。

「DeepMind已經非常令人信服的表明，即便k值接近於0（zero），也能獲得出色的認知表現」，馬庫斯表示。

不過你有沒有發現，馬庫斯實際上用公式寫了一個大大的單詞：f a k e。

馬庫斯對於DeepMind以及AlphaGo的主要抨擊點在於，哈薩比斯等人的工作，低估了對人類知識和特定領域的需求。

馬庫斯主張人類擁有先天的知識，而神經網絡基本不具備。他認爲在特定領域的專長，不等於先天性。他舉了幾個例子，例如膝跳反射、人臉識別、國際象棋都是特定領域的能力，但先天性方面各自不同。

而通用智能不分領域，有部分是天生的。

馬庫斯指出，如何認知對象等等能力，可能都是進化所賦予人類的天生能力（當然也有觀點說這些都不是天生的）。

「生命不是一場Kaggle競賽。」

馬庫斯表示，生命是一場訓練集（training set），沒有什麼是預先準備好的整齊數據，很多情況都無法預測。在這個過程中，每天的挑戰都不一樣，真正應該重視的是那些可以用在多個領域的知識。

其實馬庫斯有點看什麼都不滿意的習慣，之前馬庫斯還跟LeCun等人公開叫板。只不過這一次，他diss的對象，就坐在臺下。

於是最勁爆的一幕出現了。

哈薩比斯聽完馬庫斯的一番言論，然後當場起身開始了回擊。哈薩比斯表示，DeepMind並不是反對先天知識，他們方法已經遠超完美信息博弈的範疇，而且整合了神經科學、認知心理學的原理。

關於AlphaGo、AlphaZero的爭論，讓我們想起不久前看到的一篇論文。論文的題目是AlphaGo祛魅：Demystifying AlphaGo Zero as AlphaGo GAN。

這篇論文的作者是南京東南大學的幾位學者：董曉，副教授，影像科學與技術系；伍家鬆，講師，影像科學與技術系；周玲，副教授，計算機工程系。

他們在這篇論文中指出：

AlphaGo Zero的驚人成功，在全球範圍內引發了對人類社會未來的討論，期間夾雜着希望、焦慮、興奮和恐懼混合的情緒。

我們嘗試對AlphaGo Zero去魅，通過定性分析表明AlphaGo Zero可以被理解爲特定結構的GAN（生成對抗網絡），這個系統本應具有良好的收斂性。

因此，我們認爲AlphaGo Zero的成功，可能不是新一代AI的標誌。

可能影響AlphaGo Zero性能的因素包括：

1、圍棋的固有屬性；

2、AlphaGo Zero的結構（基於ResNet的價值和策略網絡，MCTS和強化學習）。

這篇論文中，我們通過指出AlphaGo Zero可以被理解爲一個具有良好收斂預期的特殊GAN，來試圖定性的回答這個問題。

文中的現場圖文：@thinkmariya、@willknight等。

文章來源：36kr