學界 | 取代學習率衰減的新方法：谷歌大腦提出增加Batch Size

2017-11-05 13:13:00.0

選自arXiv

作者：Samuel L. Smith等

參與：李亞洲、路雪

谷歌大腦在最新的一篇論文中提出，通過增加訓練過程中的 batch size，能夠在訓練集和測試集上取得類似學習率衰減的表現。此外這種方法還有一系列的優勢：參數更新數量更少、更強大的並行、更短的訓練時間等等。機器之心對此論文做了摘要介紹，更詳細的內容請閱讀原論文。

論文鏈接：https://arxiv.org/abs/1711.00489

摘要：學習率衰減是一種常見的方法。在這篇論文中，我們展示了通過增加訓練過程中的 batch size 也能在訓練集和測試集上獲得同樣的學習曲線。這一方法對隨機梯度下降（SGD）、帶有動量的 SGD、Nesterov 動量和 Adam 同樣有效。在經過同樣數量的訓練 epoch 之後，它能獲得同樣的測試準確率，且需要進行的參數更新更少，從而實現更強大的並行、更短的訓練時間。通過增加學習率ϵ、縮放 batch size B∝ϵ，我們可以進一步減少參數更新的數量。最後，你可以增加動量係數 m，縮放 B∝1/(1−m)，儘管這會稍微降低測試準確率。最重要的是，該技術能讓我們在不調整超參數的情況下，重設對大型 batch 訓練的現有訓練調度方法（schdule）。我們在 ImageNet 上訓練 ResNet-v2，驗證準確率達到 77%，參數更新低於 2500，高效利用了 65536 張圖片的訓練 batch。