谷歌大腦提出Adversarial Spheres:從簡單流形探討對抗性樣本的來源

 2018-01-16 11:04:00.0

原標題:學界 | 谷歌大腦提出Adversarial Spheres:從簡單流形探討對抗性樣本的來源

選自arXiv

近日,Ian Goodfellow 等人提出對抗性同心高維球,他們利用數據流形的維度來研究輸入維度的改變對神經網絡泛化誤差的影響,並表明神經網絡對小量對抗性擾動的脆弱性是測試誤差的合理反應。

已經有大量工作證明,標準圖像模型中存在以下現象:絕大多數從數據分佈中隨機選擇的圖片都能夠被正確分類,但是它們與那些被錯誤分類的圖片在視覺上很類似(Goodfellow et al., 2014; Szegedy et al., 2014)。這種誤分類現象經常被稱作對抗樣本。這些對抗的錯誤在角度、方向和縮放方面有着很強的魯棒性(Athalye & Sutskever, 2017)。儘管已經有了一些理論工作和應對的策略 (Cisse et al., 2017; Madry et al., 2017; Papernot et al., 2016),但是這種現象的成因仍然是很難理解的。

目前有一些針對對抗樣本而提出的假設:一個比較常見的假設就是神經網絡分類器在輸入空間中不同區域的線性特徵太強了 (Goodfellow et al., 2014; Luo et al., 2015)。另一個假設認爲對抗樣本不是數據的主要部分 (Goodfellow et al., 2016; Anonymous, 2018b,a; Lee et al., 2017)。Cisse 等人則認爲,內部矩陣中較大的奇異值會讓分類器在面臨輸入中的小波動時變得更加脆弱(2017)。

在盡力解釋對抗樣本背後的原因時,還有一些工作爲增加模型的魯棒性提出了一些應對方法。有的工作通過改變模型所用的非線性變換來增強魯棒性 (Krotov & Hopfield, 2017),將一個大型的網絡提煉成一個小型網絡 (Papernot et al., 2016),或者使用正則化 (Cisse et al., 2017)。其他的工作探索使用另一個統計模型來檢測對抗樣本((Feinman et al., 2017; Abbasi & Gagné, 2017; Grosse et al., 2017; Metzen et al., 2017))。然而,很多這種方法都被證明是失敗的 l (Carlini & Wagner, 2017a,b)。最終,很多例子中出現了使用對抗訓練來提升魯棒性的方法 (Madry et al., 2017; Kurakin et al., 2016; Szegedy et al., 2014; Goodfellow et al., 2014)。儘管對抗訓練使得模型在面臨對抗擾動時有所進步,但是在超越對抗訓練所設計的範圍時,局部誤差還是會出現(Sharma & Chen,2017)。

這種現象特別有趣,因爲這些模型在測試集上具有很高的準確率。我們假設這種現象本質上是由數據流形的高維度造成的。爲了着手研究這些假設,我們定義了一個簡單的合成任務,來區分兩個同心的(concentric)高維球。這使得我們可以研究具有良好數學定義的數據流形中的對抗樣本,我們還可以對模型學到的決策邊界進行定性地描述。更重要的是,我們可以自然地改變數據流形的維度來研究輸入維度的改變對神經網絡泛化誤差的影響。我們在多個數據集上的實驗和理論分析證明以下幾點:

  • 與圖像模型中類似的現象出現了:大多數從數據分佈中隨機選擇的點被正確分類了,然而未被正確分類的點和不正確的輸入很「相近」。即使在測試誤差小於百萬分之一的時候,這種現象仍然會發生。

  • 在這個數據集中,泛化誤差和最近誤分類點之間的平均距離存在一個權衡。尤其是,我們證明,任何一個能夠將球體的少量點誤分類的模型都會在面臨 O(1 square root d) 大小的對抗擾動時表現得很脆弱。

  • 在這個數據集上訓練得到的神經網絡順理成章地逼近誤差集合最近誤差平均距離的理論最優的權衡。這表明,爲了線性地增加到最近誤差的平均值,模型的錯誤率必須指數降低。

  • 我們還證明,即使忽略掉大部分的輸入,在在這個數據集上訓練的到的模型也能夠達到極高的準確率。

下面,我們探討一下高維球中的對抗樣本和圖像模型中的對抗樣本之間的聯繫:

圖 1:輸入空間的二維切面。左邊:兩個隨機方向;中間:一個隨機方向,一個「對抗」方向;右邊:兩個正交的「對抗方向」。數據流形用黑色標記,最大邊界用紅色標記。綠色的區域表示被 relu 網絡歸類爲球內的數據點。在最後一張圖中,即使模型的錯誤率低於十萬分之一,但是球外數據點的映射還是被錯誤地分類了。

圖 2:左:兩個在 ReLU net 上基於 5 千萬樣本從半徑爲 1.0 和 1.3 的高維球上訓練的結果。我們使用 1.15 的理論決策邊界評價了整個空間中的準確率。我們畫出了每一個範數在 10000 個隨機樣本上的準確率。可以發現,隨着遠離理論邊界,準確率劇烈上升。當我們離理論邊界足夠遠的時候,再也沒有觀察到隨機樣本的錯誤。然而,我們即便已經遠離理論邊界 0.6 或者 2.4,我們還是可以發現「誤差」。右:d=2 的情況下,我們在 100 個樣本上訓練了同樣的 reLU 網絡。通過對整個空間的一個稠密子集的可視化,結果顯示模型在兩個圓中都沒有出現錯誤。

圖 3:左:二次網絡在 10 萬個樣本上進行訓練之後α的分佈。紅色的線條代表完美分類所需的區間。儘管在絕大多數α下只有 1e-11 比例的樣本被誤分類了。右邊:二次網絡使用沒有錯誤的完美初始化之後的訓練曲線。隨着訓練的進行,平均樣本損失會在非常差的樣本損失下達到最小化。錯誤數量α在以相似的速率增加。

圖 4:我們將輸入維度爲 d 的樣本投影到 k 維子空間中的分類模型。然後我們繪製爲了得到確定的錯誤率所需要的 k/d 的圖形。我們發現,隨着 輸入維度的增加,k/d 快速減小。

圖 5:我們比較了在高維球數據集上訓練出的三個網絡的最近誤差平均距離和錯誤率。結果顯示所有的錯誤都在球內。三個網絡是使用 5 個不同大小的訓練集訓練的,它們的性能通過訓練過程中的不同點來衡量(網絡最終變得特別準確,以至這幅圖中無法顯示出來,因爲錯誤率太小,無法進行統計估計)。意外的是,我們觀察到誤差量和到最近誤差的平均距離之間的衡量追蹤了優化過程。需要注意的是:由於估計錯誤率和平均距離的時候存在一些噪聲,一些網絡可能表現出比優化之後更好的性能。

論文:Adversarial Spheres

論文鏈接:https://arxiv.org/abs/1801.02774

摘要:目前最先進的計算機視覺模型表現出了對微弱對抗性擾動的脆弱性。換句話說,數據分佈中的絕大多數圖像能夠被模型正確分類,而且這些被正確分類的圖像與被誤分類的圖像在視覺上特別相似(人眼無法察覺)。儘管這個現象目前已經存在大量的研究,但是這個現象的成因仍然是很難被理解的。我們假設這個反直覺的現象本身是由於輸入數據流形的高維幾何特徵造成的。作爲探索這個假設的第一步,我們研究了在一個簡單的合成數據集上對兩個高維同心球的分類。我們對這個數據集展示了測試誤差和最近誤差的平均距離之間的權衡。尤其是,我們證明,任何一個能夠將球體的少量點誤分類的模型都會在面臨 O(1 square root d) 大小的對抗擾動時表現得很脆弱。意外地,當我們在這個數據集上訓練幾個不同結構的網絡時,它們的所有誤差都達到了這個理論邊界。理論結論是,神經網絡對小量對抗擾動的脆弱性是觀察到測試誤差數量的必然結果。希望我們對這個簡單例子的理論分析能夠推動這種探索:現實世界中複雜數據集的複雜幾何結構是如何導致對抗樣本的。


文章來源:機器之心