DeepMind 16篇NIPS 2017論文，全部信息都在這裏了 | NIPS 2017

2017-12-02 12:57:00.0

按：作爲人工智能領域的「領頭羊」，DeepMind的最新研究總是能引起大家的關注。那麼在即將在加州長灘召開的機器學習領域頂級會議NIPS 2017上，DeepMind又會給我們帶來什麼樣的先知卓見呢？我們爲你整理了DeepMind在NIPS 2017上的論文，便於大家按自己感興趣的內容按圖索驥。一起來看一下：

第1天 12月4日 2Poster

論文1：《Robust imitation of diverse behaviours》

作者：Ziyu Wang，Josh Merel，Greg Wayne，Nando de Freitas，Scott Reed，Nicolas Heess

摘要：我們提出了一個建立在最先進的生成模型上的神經網絡架構，該架構能夠學習不同行爲之間的關係，並模仿它所顯示的具體行爲。訓練結束後，我們的系統可以編碼一個單一的觀察動作，並根據這個演示創建一個新的小動作。它也可以在不同類型的行爲（如步行的不同風格）之間切換，儘管之前並沒有看到過這種切換。

（上面的小人切換步行風格像不像在跳舞？）

展示時間/地點：Pacific Ballroom #143，Poster環節，6:30-22:30

論文2：《Sobolev training for neural networks》

作者：Wojtek Czarnecki，Simon Osindero，Max Jaderberg，GrzegorzŚwirszcz，Razvan Pascanu

摘要：本文給出了一種將目標函數導數的知識納入深度神經網絡訓練的簡單方法。我們證明最近的基於ReLU的體系結構非常適合這樣的任務，並評估它們在三個問題即低維迴歸，政策蒸餾和合成梯度訓練上的有效性。我們觀察到訓練的效率尤其是在低數據情況下顯著提高，並且以接近最新的準確度訓練了第一個基於梯度的合成的ImageNet模型。

展示時間/地點：Pacific Ballroom #139，Poster環節，6:30-22:30

第2天 12月5日 4Poster

論文3：《Filtering variational objectives》

作者：Chris J. Maddison，Dieterich Lawson，George Tucker，Nicolas Heess，Mohammad Norouzi，Andriy Mnih，Arnaud Doucet，Yee Whye Teh

摘要：我們考慮將變分的下界擴展到基於粒子濾波的邊界似然估計器（注：主要特指估算概率分佈）定義的下界族羣。這些過濾目標可以利用模型的順序結構在深生成模型中形成更緊密的界限和更好的模型學習目標。在我們的實驗中，我們發現用濾波目標進行訓練比使用變分下限訓練相同的模型體系結構有了實質性的改進。

展示時間/地點：Pacific Ballroom #114，Poster環節，6:30-22:30

論文4：《Visual interaction networks: Learning a physics simulator from video》

作者：Nicholas Watters，Andrea Tacchetti，Theophane Weber，Razvan Pascanu，Peter Battaglia，Daniel Zoran

摘要：在這項研究中我們提出了一種基於神經網絡的模型」視覺交互網絡「（VIN），在沒有先驗知識的情況下學習物理動力學。 VIN能夠從幾幀視頻中推斷出多個物理對象的狀態，然後用這些來預測對象位置。它還能夠推斷隱形物體的位置，並學習依賴於物體屬性（如質量）的動力原理。

由VIN（右）預測的動力學與真實模擬（左）相比較

展示時間/地點：Pacific Ballroom #123，Poster環節，6:30-22:30

論文5：《Neural discrete representation learning》

作者：Aäronvan den Oord，Oriol Vinyals，Koray Kavukcuoglu

摘要：在沒有監督的情況下學習有用的陳述仍然是機器學習中的關鍵挑戰。這項研究中，我們提出了一個簡單而強大的生成模型，該模型被稱爲矢量量化變分自動換能器（VQ-VAE）以學習這種離散表徵。當這些表徵與先前的自迴歸配對時，該模型能夠生成高質量的圖像，視頻和語音以及進行高質量的揚聲器轉換。

展示時間/地點：Pacific Ballroom #116，Poster環節，6:30-22:30

論文6：《Variational memory addressing in generative models》

作者：JörgBornschein，Andriy Mnih，Daniel Zoran，Danilo Jimenez Rezende

摘要：基於注意力的記憶可用於增強神經網絡，並被用於Few-shot learning、快速適應性、更普遍地支持非參數擴展等領域。不同於目前流行的可區分的軟注意機制，我們使用隨機的硬注意力來生成模型中的記憶內容，這使得我們可以將變分推理應用於內存尋址，使用目標信息獲得更精確的內存查找，尤其是在內存緩衝區大且內存條目混雜的模型中。

展示時間/地點：Pacific Ballroom #117，Poster環節，6:30-22:30

第3天 12月6日 2 Oral/4 Spotlight/4Poster

論文7：《REBAR: Low-variance, unbiased gradient estimates for discrete latent variable models》

作者：George Tucker, Andriy Mnih, Chris J Maddison, Dieterich Lawson, Jascha Sohl-Dickstein

摘要：由於具有高方差梯度估計量，對具有離散潛變量的模型進行學習具有挑戰性。之前的方法要麼產生高方差/無偏梯度，或低方差/有偏差的梯度。 REBAR使用控制變量和重新參數化技巧來獲得兩者中最好的結果：低方差/無偏差的梯度，使得收斂更快，效果更好。

展示時間/地點：Hall A，10:35-10:50，Oral講解；

Pacific Ballroom #178，Poster環節，6:30-22:30

論文8：《Imagination-augmented agents for deep reinforcement learning》

作者：Sébastien Racanière, Théophane Weber, David P. Reichert, Lars Buesing, Arthur Guez, Danilo Rezende, Adria Puigdomènech Badia, Oriol Vinyals, Nicolas Heess, Yujia Li, Razvan Pascanu, Peter Battaglia, Demis Hassabis, David Silver, Daan Wierstra.

摘要：我們描述了一個基於想象力的規劃方法的新族類，並介紹了爲智能體學習和構建計劃，從而最大化任務效率提供新方法的架構。這些架構對於複雜和不完善的模型是有效的，穩健的，並且可以採取靈活的策略來擴展他們的想象力。我們介紹的智能體受益於一個「想象編碼器」，這是一個神經網絡，它學習提取任何對未來決策有用的信息，但忽略那些不相關的信息。

圖爲智能體進行飛船任務遊戲。該遊戲必須激活一定次數的推進器以穩定飛行器。紅色表示執行的軌跡，藍色和綠色表示想象的軌跡。

展示時間/地點：Hall A，15:05-15:20，Oral講解；

Pacific Ballroom #139，Poster環節，6:30-22:30

論文9：《A simple neural network module for relational reasoning》

作者：Adam Santoro, David Raposo, David Barrett, Mateusz Malinowski, Razvan Pascanu, Peter Battaglia, Timothy Lillicrap

摘要：我們演示了使用簡單的即插即用神經網絡模塊來解決需要複雜關係推理的任務。這個稱爲「關係網絡」的模塊可以接收非結構化的輸入，比如圖像或故事，並隱含地推理其中包含的關係。

展示時間/地點：Hall A，15:25-15:30，Spotlight講解；

Pacific Ballroom #139，Poster環節，6:30-22:30

論文10：《Simple and scalable predictive uncertainty estimation using deep ensembles》

作者：Balaji Lakshminarayanan, Alexander Pritzel, Charles Blundell

摘要：量化神經網絡（NN）中的預測不確定性是一個具有挑戰性但尚未解決的問題。大部分工作集中在貝葉斯解決方案上，但這些方案都是計算密集型的，需要對訓練管道進行重大修改。我們提出了一種貝葉斯神經網絡的替代方案，該方案易於實現和並行，只需要很少的超參數調整，併產生高質量的預測不確定性估計。通過一系列關於分類和迴歸基準的實驗，我們證明了我們的方法可產生良好校準的不確定性估計，其與近似貝葉斯神經網絡一樣好或更好。

展示時間/地點：Hall A，15:45-15:50，Spotlight講解；

Pacific Ballroom #133，Poster環節，6:30-22:30

論文11：《Natural value approximators: learning when to trust past estimates》

作者：Zhongwen Xu, Joseph Modayil, Hado van Hasselt, Andre Barreto, David Silver, Tom Schaul

摘要：基於隨輸入而平滑變化觀察的典型近似值，我們重新回顧了RL的價值逼近器的結構，但是當到達獎勵值時真值會突然發生變化。我們提出的方法使用插值與預測值估計，用於適應這種不對稱的不連續性。

展示時間/地點：Hall A，17:25-17:30，Spotlight講解；

Pacific Ballroom #6，Poster環節，6:30-22:30

論文12：《Successor features for transfer in reinforcement learning》

作者：Andre Barreto, Will Dabney, Remi Munos, Jonathan Hunt, Tom Schaul, David Silver, Hado van Hasselt

摘要：我們提出了一個強化學習的轉移框架。我們的方法取決於兩個關鍵的觀點：1）「繼承者特徵」，這是一種價值函數表示，將環境的動態與回報分離開來；2）「廣義的政策改進」，一種考慮了一整套策略的一般化的動態規劃策略改進步驟。綜合起來，這兩個想法導致了一種無縫集成在強化學習框架內的方法，並允許在任務之間不受任何限制地進行轉移。

展示時間/地點：Hall A，17:40-17:45，Spotlight講解；

Pacific Ballroom #9，Poster環節，6:30-22:30

論文13：《Deep reinforcement learning from human preferences》

作者：Paul Christiano (Open AI), Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei (Open AI)

摘要：人工智能安全的一個核心問題是如何告訴一個算法我們希望它做什麼。 OpenAI展示了一個全新的系統，允許沒有技術經驗的人員教AI如何執行一個複雜的任務，如操縱模擬機器人手臂。

通過900個人的反饋教會了這個算法後空翻。

展示時間/地點：Pacific Ballroom #1，Poster環節，6:30-22:30

論文14：《A multi-agent reinforcement learning model of common-pool resource appropriation》

作者：Julien Perolat, Joel Z Leibo, Vinicius Zambaldi, Charles Beattie, Karl Tuyls, Thore Graepel

摘要：本文考察了共同資源佔用問題的複雜性。如漁業，放牧牧場或淡水的系統，許多人或行爲者可以獲得相同的資源。社會科學的傳統模式往往表明，獲得資源的各方以自利的方式行事，最終導致不可持續的資源枯竭。但我們在人類社會的實際經驗知道可能會產生很多中可能的結果。像漁業這樣的資源，有時候會被過度開發，有時可以可持續地收穫。在這項研究中，我們提出了可用於研究的新建模技術，旨在解釋我們在現實世界中觀察到的與傳統模型預測的差距。

展示時間/地點：Pacific Ballroom #86，Poster環節，6:30-22:30

論文15：《DisTraL: Robust multitask reinforcement learning》

作者：Yee Whye Teh, Victor Bapst, Wojciech Czarnecki, John Quan, James Kirkpatrick, Raia Hadsell, Nicholas Heess, Razvan Pascanu

摘要：我們開發了一個強化多任務學習的方法。我們的假設是，任務是彼此相關的（例如處於相同的環境或具有相同的物理特性），好的動作序列傾向於在任務中重複出現。我們的方法通過將特定於任務的策略同時提煉爲一個通用的默認策略，並通過將所有特定於任務的策略規則化爲違約策略來跨這些任務轉移這些常識。我們的研究表明，這會導致更快、更強大的學習。

展示時間/地點：Pacific Ballroom #138，Poster環節，6:30-22:30

論文16：《A unified game-theoretic approach to multiagent reinforcement learning》

作者：Marc Lanctot, Vinicius Zambaldi, Audrunas Gruslys, Angeliki Lazaridou, Karl Tuyls, Julien Perolat, David Silver, Thore Graepel

摘要：在這項研究中，我們首先觀察到獨立強化學習者產生可以共同關聯但在執行過程中未能與其他主體進行良好的概括的策略。我們通過提出一個稱爲聯合策略關聯的新度量來量化這種影響，然後我們提出了一個由博弈論基礎所推動的算法，該算法概括了虛擬遊戲，迭代最佳響應，獨立RL和雙重預言等幾種方法。我們的研究表明，我們的算法可以在第一人稱協調遊戲中顯着降低聯合策略的相關性，並在普通的撲克基準遊戲中找到穩健的反策略。

展示時間/地點：Pacific Ballroom #203，Poster環節，6:30-22:30

文章來源：雷鋒網

喜歡這篇文章嗎？快分享吧！