ICLR 2020 | 如何讓圖卷積網絡變深？騰訊AI Lab聯合清華提出DropEdge

2020-04-07 17:00:26.0

騰訊 AI Lab 和清華大學的這項研究表明，圖神經網絡無法做深由兩個原因造成：過擬合 (Overfitting) 和過平滑（Oversmoothing）。爲了解決這兩個問題，文章提出了一種簡潔但非常有效的方法：隨機刪邊技術，DropEdge，極大提升了超深圖卷積網絡的訓練效率和節點分類效果。值得注意的是，文章投稿到 openreview 的時候就引來了衆多研究同行的關注。文章正式被接收後，圖靈獎獲得者 Yoshua Bengio 的團隊成員 Petar Veličković（注意力圖網絡 GAT 的發明者）在 openreview 平臺上也給與了關注與好評。

論文地址：https://openreview.net/forum?id=Hkx1qkrKPr
代碼地址：https://github.com/DropEdge/DropEdge

引言

圖神經網絡（GNN）在近年取得了長足的發展。非常多的圖神經網絡的模型，例如圖卷積神經網絡（GCN），圖注意力網絡（GAT）等，在各種圖學習的應用上都取得了非常不錯的結果。但是，現在大部分的圖卷積網絡結構，其實都是淺層的（兩層）。這種淺層網絡極大的限制了圖卷積網絡的表達能力。最近，基於卷積神經網絡裏面的經驗，有一些對圖卷積網絡做深的模型修改嘗試。但是這些工作並沒有真正去分析爲什麼圖卷積網絡很難做深以及去解釋模型修改在圖卷積網絡裏面是有效的。

這篇論文希望能夠對圖卷積網絡不能做深這一問題得到一個完善的理論分析；並且基於理論的結果，尋找到可以解決深度圖卷積網絡訓練的問題：過擬合 (Overfitting) 和過平滑（Oversmmothing）。在這裏，過擬合指的是使用複雜模型去擬合少量數據的時候造成的泛化能力變差的情況。過擬合的現象在深度學習模型中是廣泛存在的。

而過平滑則是指在圖神經網絡消息傳遞過程中，所有節點的輸入特徵會收斂到一個和輸入無關的子空間的過程。這一過程會導致輸入 GCN 的特徵失效並造成梯度消失。過平滑是 GCN 模型特有的問題，它造成了深層圖神經網絡的訓練困難。

下圖的虛線部分是原始的 4 層和 8 層 GCN 在 Cora 數據集上的訓練曲線（這裏爲了更好展示過擬合和過平滑，取消了 GCN 層中的 bias），可以看到，在 GCN-4 上，驗證集 (Validation Set) 的損失函數在訓練經過一定輪數後反向增長。這個增長是優於過擬合。而在 GCN-8 上，訓練集 (Training Set) 上的損失函數則根本沒有下降，這是因爲過平滑的存在，導致 GCN-8 上訓練失效。

文章定義了一個 subspace 和-smoothing 的概念去刻畫過平滑這一現象。具體地，

其中爲一個 GCN 層。是正則化後的鄰接矩陣，爲當前層參數。通過將過平滑的收斂目標定義爲一個子空間而非一個固定點，-smoothing 可以刻畫包含非線性激活函數和參數矩陣的 GCN。

DropEdge

本質上，減緩過平滑的影響就是要去增加-smoothing layer 的層數，以及減少收斂到子空間的信息損失。基於此，文章設計了一種非常簡單但是有效的方法 DropEdge。在每輪訓練的時候，DropEdge 會隨機去掉輸入的圖上的邊，即會將鄰接矩陣中的非零元素置 0，是刪邊概率。如果用表示 DropEdge 後的鄰接矩陣，則，是被去掉的邊的鄰接矩陣。在得到後，對其進行正則化得到代替進行計算。

基於 relaxed -smoothing layer 的定義，文章證明了經過 DropEdge 後的鄰接矩陣在進行 GCN 計算中可以減弱過平滑對模型的影響，即：

這種隨機刪邊技術，可以看作是 Dropout 在圖結構上的推廣：Dropout 是通過丟掉特定的特徵來實現模型內部的 Ensemble，而 DropEdge 則是通過丟掉邊來實現 GNN 的 Ensemble，所以 DropEdge 也有防止 Overfitting 的作用。有趣的是，這種防止 Overfitting 的作用可以和 Dropout 一起使用來防止模型過擬合。同時，DropEdge 作爲一個前處理的步驟，可以和任意 GNN 方法結合，具有非常強的普適性。

從圖 1 可以看出，在加了 DropEdge 後，GCN-4 在驗證集的損失函數不再升高，而 GCN-8 可以成功進行訓練，得到下降的損失函數。這驗證了 DropEdge 可以在防止過擬合和過平滑兩個方面提升深層 GNN 的訓練效率和模型效果。

爲了進一步驗證這一簡單方法的有效性，文章在不同模型，不同層數，不同數據集上進行了大量的實驗，可以看到不同模型添加 DropEdge 可以顯著提升節點分類任務的效果：

同時，在四個數據集上，添加 DropEdge 後均可以超過現有的 STOA 模型，值得注意的是，大部分的結果都是在大於等於 4 層圖神經網絡上得到的。

另外，下表也展示了 Dropout 和 DropEdge 在減弱過擬合上的協同效果：

總而言之，這篇文章提出了一個新穎且有效的方法 DropEdge 來提高深度圖卷積網絡訓練效率和在節點分類任務上的性能。DropEdge 具有很好的通用性可以很方便地應用到已有的圖卷積網絡的架構中。更重要的是，文章給出了圖卷積網絡訓練過程中遇到的過平滑現象詳細嚴謹的理論描述，這爲未來研究人員進行深度圖神經網絡的研究提供了非常重要的指導意義。

文章來源：機器之心