如何找到全局最小值?先讓局部極小值消失吧

 2019-02-10 14:00:39.0

通過添加一個神經元,就可以讓一種二分類深度神經網絡損失函數局部極小值消失。早在去年 5 月就有人發現了這個有趣的結果,MIT 將其進一步推廣到了更廣泛的損失函數類。

目前,深度神經網絡計算機視覺機器學習人工智能等領域取得了巨大的實際成功。然而,從理論上對深度神經網絡的理解相對於其在經驗上的成功來說是較爲缺乏的。在理論上,理解深度神經網絡的一個主要難點是用於訓練網絡的目標函數的非凸性以及高維度。由於非凸性和高維度,能否保證深度神經網絡在訓練過後具有理想的性質,而不是陷入一個隨機的糟糕的局部極小值點附近,往往還不清楚。實際上,尋找一個通用的非凸函數(Murty & Kabadi, 1987)以及用於訓練特定種類神經網絡的非凸目標函數(Blum & Rivest, 1992)的全局極小值是 NP-Hard 的問題,這引起了研究人員對高維問題的關注(Kawaguchi et al., 2015)。在過去,這類理論問題被認爲是人們偏向於選擇只需要進行凸優化的經典機器學習模型(無論帶不帶有核方法)的原因之一。儘管深度神經網絡近來取得了一系列的成功,但始終繞不開一個問題:能否在理論上保證深度神經網絡避開糟糕的局部極小值點?

近來,有許多研究分析了神經網絡的訓練中目標函數的變化情況和局部極小值。一些研究在假設深度神經網絡被顯著簡化(Choromanska et al.,2015;Kawaguchi,2016;Hardt & Ma,2017)和顯著過參數化(Nguyen & Hein,2017;2018)的條件下取得了積極的結果。對於僅僅包含一個隱藏層的淺層網絡,已經取得了許多積極的結果,但往往帶有很強的假設,例如,需要使用顯著的過參數化處理、簡化處理和高斯化的輸入(Andoni et al., 2014; Sedghi & Anandkumar, 2014; Soltanolkotabi, 2017; Brutzkus & Globerson, 2017; Ge et al., 2017; Soudry & Hoffer, 2017; Goel & Klivans, 2017; Zhong et al., 2017; Li & Yuan, 2017; Du & Lee, 2018)。

除了強假設之外,深度神經網絡中漸漸出現了兩種明顯的積極結果。首先,某些深度神經網絡在損失處於所有局部極小值點時的性能已經被證明並不亞於相應的經典機器學習模型在全局最小值點的性能(Shamir, 2018; Kawaguchi & Bengio, 2018; Kawaguchi et al., 2018);通過不可忽略的殘差表徵(Kawaguchi & Bengio, 2018)以及對網絡深度和寬度的增加,即使並沒有經過顯著的過參數化處理,也能夠保證模型性能可以被進一步提升。其次,研究表明,增加一個神經元可以爲一個帶有特定類型的平滑的鉸鏈損失(hinge loss)函數(Liang et al., 2018)的二分類器消除所有的次優局部極小值(即不是全局最小值的局部極小值)。第二種類型的結果已經被多篇不同的論文提及(Nguyen et al., 2018; Wang et al., 2018; Zhang et al., 2018)。然而,由於假設二分類問題帶有特定的損失函數,目前這種技術還不適用於許多常見的深度學習任務,而這也正是該技術的一個主要的侷限性(如 Fessler, 2018 的論文所述)。

在本文中,作者證明了,在沒有任何強假設的情況下,對於帶有任意損失函數的多分類、二分類以及迴歸任務,爲每個輸出單元增加一個神經元可以消除所有次優局部極小值。據作者所知,這是第一個在沒有任何典型的未滿足的假設的情況下,能夠保證許多常見的深度學習任務沒有次優局部極小值的結果。此外,作者還展示了用這種方法消除次優局部極小值的侷限性。

論文:Elimination of All Bad Local Minima in Deep Learning

論文地址:https://arxiv.org/abs/1901.00279

摘要:本文從理論上證明了,對於帶有一個任意的損失函數的多分類、二分類以及迴歸問題,我們可以通過向任意深度神經網絡的每個輸出單元添加一個神經元,消除所有的次優局部極小值。在任意加入了神經元深度神經網絡的每一個局部極小值處,可以保證原神經網絡(不增加神經元)的參數設置可以使原神經網絡處於全局極小值。本文證明了,新加入的神經元的作用效果可以自動地在每個局部極小值消失(從而不影響神經網絡的輸出)。與先有工作中的許多相關結果不同,我們的理論結果直接適用於常見的深度學習任務,因爲這些結果僅僅依賴於在常見任務中自然成立的假設。此外,我們還提供了額外的理論結果和幾個例子,討論了以這種方式消除次優局部極小值的幾個限制。

文章來源:機器之心