學界 | DeepMind提出Rainbow：整合DQN算法中的六種變體

2017-10-10 16:06:00.0

選自DeepMind

參與：李澤南、蔣思源

「AlphaGo 之父」David Sliver 等人最近探索的方向轉向了強化學習和深度 Q 網絡（Deep Q-Network）。在 DeepMind 最近發表的論文中，研究人員整合了 DQN 算法中的六種變體，在 Atari 遊戲中達到了超越以往所有方法的表現。

大規模強化學習（RL）在複雜連續決策問題中最成功的方法是 Deep Q-Network 算法（DQN; Mnih et al. 2013, 2015）。它包含了 Q 學習的卷積神經網絡與以及反覆經驗（experience replay）而從原像素中學習，已在多種 Atari 遊戲中達到或超過了人類水平的表現。從那時起，很多擴展性方法被不斷提出，不斷提升着這種方法的速度和穩定性。

Double DQN（DDQN；van Hasselt、Guez&Silver；2016）通過解耦選擇（decoupling selection）和引導行動評估解決了 Q 學習過度估計偏差的問題。Prioritized experience replay（Schaul 等人；2015）通過重放（replay）學習到更頻繁的轉換，提升了數據效率。dueling 網絡架構（Wang 等人；2016）可以通過分別表示狀態值和動作獎勵來概括各種動作。從多步驟引導程序目標中學習（Sutton；1988；Sutton & Barto 1998）如 A3C（Mnih 等人；2016）中使用偏差-方差權衡而幫助將最新觀察到的獎勵快速傳播到舊狀態中。分佈式 Q 學習（Bellemare、Dabney & Munos；2017）學習了折扣回報（discounted returns）的分類分佈（代替了估計平均值）。Noisy DQN（Fortunato 等人；2017）使用隨機網絡層進行勘測（exploration）。當然，以上幾種方法還不是全部。

圖 1. 57 個 Atari 遊戲中等人類水平與各類 DQN 方法的對比。研究人員將各類 DQN 方法結合起來（彩虹色）與 DQN（灰色）和各自的表現基準進行了對比（其他各顏色）。DQN 混合方法的優勢在 7 百萬幀後開始顯現，在 4400 萬幀後大幅度領先，隨後性能提升趨於平緩。

以上這些算法各自都可以提升 DQN 性能的某個方面，因爲它們都着力於解決不同的問題，而且都構建在同一個框架上，所以能夠被我們整合起來。在一些例子中這種方法已經被使用過了：Prioritized DDQN 和 Dueling DDQN 都使用了 Q 學習，Dueling DDQN 也結合了 prioritized experience replay。在 DeepMind 最近發表的論文中，研究人員討論了綜合上述所有方法的整合性方案，並提出了單智能體系統：Rainbow。研究人員展示了整合後的表現，證明了它們很大程度上是互補的。實際上，這些組合在 57 個 Atari 2600 遊戲組成的基準測試環境中在數據效率和最終結果上都達成了新的業界最佳水平。該研究也提供了分類測試結果，顯示了每種組件對於提升性能的貢獻。

表 1. Rainbow 的超參數。在 57 種 Atari 遊戲的測試中，研究使用了同一個智能體和參數。

表 2. Rainbow 和其他測試基準的表現分數對比。

圖 4. 所有 57 個 Atari 遊戲的獨立智能體（ablation agents）性能下降測試。性能是學習曲線下的面積，相對於 Rainbow 智能體和 DQN 進行了規則化。其中，DQN 超越 Rainbow 的兩種遊戲被剔除了。導致性能下降最嚴重的組件在每個遊戲中都被高亮顯示了。刪除優先級和多步驟學習在大多數遊戲中造成的性能影響最大，不過每個組件在不同遊戲中的影響各有差異。

論文：Rainbow: Combining Improvements in Deep Reinforcement Learning

論文鏈接：https://arxiv.org/abs/1710.02298

深度強化學習社區對於提升 DQN 算法的性能已經做出過很多種獨立的改進嘗試。但是，目前我們尚不清楚這些擴展是不是互補的——它們是否可以互相結合？在本論文中，我們研究了 DQN 算法的 6 個擴展，對其組合進行了實證研究。我們的實驗組合在 Atari 2600 基準測試中，數據效率和最終表現上都實現了實現了業內最佳水平。我們也提供了詳細的研究結果，其顯示了每種組件對於總體性能的貢獻。

本文爲機器之心編譯，轉載請聯繫本公衆號獲得授權。

責任編輯：

文章來源：機器之心

喜歡這篇文章嗎？快分享吧！