學界 | Bengio等人提出圖注意網絡架構GAT,可處理複雜結構圖

 2017-11-06 15:42:00.0

近日,Bengio 團隊提出了基於近鄰節點注意機制的網絡架構 GAT,可用於處理複雜、不規則結構的計算圖,並在三種困難的基準測試中得到了業內最佳水平,研究人員稱該模型有望在未來處理任意不規則結構圖。該論文現已提交至 ICLR 2018 大會。

卷積神經網絡已成功應用於解決圖像分類、語義分割、機器翻譯等問題,其中背後的數據表證有着網格狀的結構。這些結構通過把學習到的參數應用到所有的輸入位置,能高效的重複使用局部過濾器。

然而,許多有趣任務的數據並不能表示爲網格狀的結構,而是分佈在不規則的區域。這就像是 3D 網格、社交網絡、通信網絡、生物網絡或者大腦連接組一樣。這樣的數據通常用圖(graph)的形式表示。

目前的文獻中,已經有很多嘗試來拓展神經網絡以解決圖隨意的架構。早期的研究使用遞歸神經網絡在圖域中把數據直接表達爲有向非循環圖。圖神經網絡網絡(GNN)首次出現於 Gori 等人(2005)與 Scarselli 等人(2009)的論文,把它作爲遞歸神經網絡的泛化形式,能夠直接處理更普遍的圖類,比如循環圖、有向和無向的圖。GNN 包括一個迭代過程,來傳播節點狀態直到平衡;然後是一個神經網絡,基於其狀態爲每個節點生成一個輸出;之後,這種思路被 Li 等人(2016)採用並改進,提出在傳播步驟中使用門控循環單元(Cho et al.,2014)。

因此,把卷積泛化到圖域中一直是個引發研究者興趣的課題。在這個方面的進步通常可被歸類爲光譜方法與非光譜方法。

在這篇論文中,作者們提出了一種基於注意機制的架構,能夠完成圖結構數據的節點分類。該方法的思路是通過注意其鄰位節點,計算圖中每個節點的隱藏表徵,還帶有自注意策略。這種注意架構有多重性質:

(1)運算高效,因爲臨近節點對可並行;

(2)可以通過對近鄰節點指定任意的權重應用於不同 degree 的圖節點;

(3)該模型可以直接應用於歸納學習問題中,其中包括了需要將模型泛化到此前未見的圖的任務。

作者們提出的通過節點連接共享神經網絡計算的方法和關係網絡(Santoro et al., 2017)的形式類似,其中對象之間的關係(用卷積神經網絡提取圖像中的區域特徵)通過應用一種共享機制將所有的對象兩兩配對然後聚合而成。他們在三種有挑戰性的基準測試上驗證了提出的方法:Cora 和 Citeseer 引用神經網絡數據集和一個蛋白質與蛋白質相互作用的數據集,新方法在這些測試中均獲得了當前最佳的結果,展現了基於注意的模型處理任意結構圖的潛力。

論文:Graph Attention Networks

論文鏈接:https://arxiv.org/abs/1710.10903

我們提出了圖注意網絡(graph attention networks,GATs),這是一種新型的神經網絡架構,用於處理圖結構化的數據(graph-structured data),利用隱藏的自注意層克服了過去的基於圖卷積或其近似的方法的缺點。這些層的節點可以注意近鄰節點的特徵,通過將這些層堆疊起來,我們可以爲不同節點的近鄰指定不同的權重,而不需要耗費任何繁重的矩陣計算(比如矩陣求逆),也不需要預先知道圖的結構。通過這種方法,我們同時解決了多個基於頻譜的圖神經網絡的關鍵挑戰,並準備將模型應用於歸納問題以及直推問題。我們的 GAT 模型在三種公認的直推和歸納圖基準測試中取得了當前最佳的結果:Cora 和 Citeseer 引用神經網絡數據集和一個蛋白質與蛋白質相互作用的數據集(其中的測試圖在訓練過程中完全不可見)。

GAT 的架構

圖 1. 左方:GAT 模型中應用的注意機制 a(W~hi ,W~hj ),通過一個權重向量參數化~a ∈ R^2F'。右方:節點 1 對其近鄰節點的多頭注意(其中 K=3 heads)。不同的箭頭格式和顏色表示獨立的注意計算。來自每個頭的聚合特徵連接或平均後得到 ~h1'。

表 1:實驗中使用的數據集。

表 2:對 Cora 和 Citeseer 數據集的實驗結果(分類準確度)的總結。

表 3:對 PPI 數據集的實驗結果(微平均的 F1 分數)的總結。

圖 2. 在 Cora 數據集上對一個預訓練的 GAT 模型的第一個隱藏層的計算特徵表示的 t-SNE 圖。節點顏色表示類別。邊的粗細表示節點 i 和 j 之間的聚合歸一化注意係數,由所有 8 個注意頭計算得出:

文章來源:機器之心