哈薩比斯首次解讀AlphaZero竟被當場diss,他起身當面回擊說……

 2017-12-09 16:40:43.0

編者按:本文來自微信公衆號「量子位」,作者夏乙,36氪經授權發佈。

有爭論纔有意思。昨天是機器學習「鍊金術」,今天則是AlphaZero。

在NIPS大會期間,DeepMind創始人兼CEO哈薩比斯(Demis Hassabis)出席了自己贊助的一個研討會。在這個活動上,哈薩比斯首次公開解讀了他們最新的研究成果AlphaZero。

哈薩比斯首次解讀AlphaZero竟被當場diss,他起身當面回擊說……

哈薩比斯在演講中首先提到DeepMind背後的哲學,這家公司奉行的第一性原理。回顧了AlphaGo在此前比賽中的表現,特別是那些具有「獨創性」的時刻。

至於最新的AlphaZero,哈薩比斯坦言結果出乎他們預料。DeepMind本來認爲手動調整的國際象棋引擎Stockfish已經接近最優解,但沒想到AlphaZero還是在24小時之內,通過不斷地自我對弈,最終擊敗了Stockfish。

當然不只是擊敗了一個國際象棋程序,AlphaZero還橫掃了日本將棋程序Shogi,以及剛剛創下佳績的圍棋程序AlphaGo Zero。

哈薩比斯首次解讀AlphaZero竟被當場diss,他起身當面回擊說……

在國際象棋比賽中,AlphaZero的棋風,既不像人、也不像電腦。

哈薩比斯介紹說,AlphaZero偏愛遠期的局面性棄子,沒有子力的概念。AlphaZero會根據當前的局面進行判斷,相較而言,如果使用了剛性規則就無法動態調整策略。人類可以向AlphaZero學習國際象棋的戰略,而不是戰術。

當然,哈薩比斯也沒忘了問一句:人類關於國際象棋的知識是不是太有限了?

馬庫斯當場Diss哈薩比斯

對於DeepMind最新搞出的AlphaZero,有人溢於言表的讚美。當然也有人一萬個不爽。

比方,紐約大學的馬庫斯老師(Gary Marcus)。他是紐約大學心理學和神經科學教授,所涉獵的領域包括人類和動物行爲、神經科學、人工智能。馬庫斯還曾擔任Uber AI實驗室的負責人(主要他的AI創業公司被Uber收購了)。

哈薩比斯講完後不久,馬庫斯登臺。他很快指出:DeepMind令人驚歎的結果,仍然依賴於一些人類知識,比方使用了蒙特卡洛樹搜索。

哈薩比斯首次解讀AlphaZero竟被當場diss,他起身當面回擊說……

接着,他提出一個「理論」:認知(Cognition)可以視爲三個變量的函數,寫成公式就是:Cognition = f (a,k,e)。其中a代表先天算法,k代表先天知識,e代表經驗。

「DeepMind已經非常令人信服的表明,即便k值接近於0(zero),也能獲得出色的認知表現」,馬庫斯表示。

不過你有沒有發現,馬庫斯實際上用公式寫了一個大大的單詞:f a k e。

哈薩比斯首次解讀AlphaZero竟被當場diss,他起身當面回擊說……

馬庫斯對於DeepMind以及AlphaGo的主要抨擊點在於,哈薩比斯等人的工作,低估了對人類知識和特定領域的需求。

馬庫斯主張人類擁有先天的知識,而神經網絡基本不具備。他認爲在特定領域的專長,不等於先天性。他舉了幾個例子,例如膝跳反射、人臉識別、國際象棋都是特定領域的能力,但先天性方面各自不同。

而通用智能不分領域,有部分是天生的。

馬庫斯指出,如何認知對象等等能力,可能都是進化所賦予人類的天生能力(當然也有觀點說這些都不是天生的)。

「生命不是一場Kaggle競賽。」

馬庫斯表示,生命是一場訓練集(training set),沒有什麼是預先準備好的整齊數據,很多情況都無法預測。在這個過程中,每天的挑戰都不一樣,真正應該重視的是那些可以用在多個領域的知識。

哈薩比斯當面回擊

其實馬庫斯有點看什麼都不滿意的習慣,之前馬庫斯還跟LeCun等人公開叫板。只不過這一次,他diss的對象,就坐在臺下。

於是最勁爆的一幕出現了。

哈薩比斯聽完馬庫斯的一番言論,然後當場起身開始了回擊。哈薩比斯表示,DeepMind並不是反對先天知識,他們方法已經遠超完美信息博弈的範疇,而且整合了神經科學、認知心理學的原理。

OMT

關於AlphaGo、AlphaZero的爭論,讓我們想起不久前看到的一篇論文。論文的題目是AlphaGo祛魅:Demystifying AlphaGo Zero as AlphaGo GAN。

這篇論文的作者是南京東南大學的幾位學者:董曉,副教授,影像科學與技術系;伍家鬆,講師,影像科學與技術系;周玲,副教授,計算機工程系。

他們在這篇論文中指出:

AlphaGo Zero的驚人成功,在全球範圍內引發了對人類社會未來的討論,期間夾雜着希望、焦慮、興奮和恐懼混合的情緒。

我們嘗試對AlphaGo Zero去魅,通過定性分析表明AlphaGo Zero可以被理解爲特定結構的GAN(生成對抗網絡),這個系統本應具有良好的收斂性。

因此,我們認爲AlphaGo Zero的成功,可能不是新一代AI的標誌。

可能影響AlphaGo Zero性能的因素包括:

1、圍棋的固有屬性;

2、AlphaGo Zero的結構(基於ResNet的價值和策略網絡,MCTS和強化學習)。

這篇論文中,我們通過指出AlphaGo Zero可以被理解爲一個具有良好收斂預期的特殊GAN,來試圖定性的回答這個問題。

文中的現場圖文:@thinkmariya、@willknight等。

文章來源:36kr