完勝ReLU!斯坦福的神經網絡採用這種激活函數,竟高保真還原各種圖像視頻

 2020-06-22 20:48:25.0

一個來自斯坦福團隊研究的、名爲SIREN的簡單神經網絡結構,剛引爆了機器學習圈。

不爲別的,實在是因爲它展現出來的音/視頻及圖像復原效果,太令人驚歎了(效果展示中,Ground Truth爲原始視頻、音頻或圖像數據)。


視頻中對一隻貓咪的動態進行了還原,可以看見,使用SIREN重構的貓咪明顯具有更高的清晰度。



從圖中就能看見,SIREN對音頻的還原幾乎可以用「完全一致」來形容。



對於圖像的還原,SIREN的效率有點高,視頻中可見,SIREN以極少的迭代次數將圖像高度還原了出來。

要問爲什麼這個神經網絡架構能表現出這麼好的效果?

接着往下看。

以連續的方式存儲圖像數據

在採樣的過程中,我們所獲得的的數據往往是離散的,這也就意味着,在還原圖像時,需要通過插值的方式來對圖像進行表示。

不僅如此,以離散的形式存儲大量原始數據也需要佔據一定的空間。

SIREN在這個方向上進行了突破,通過採用週期性激活函數Sine代替常見的非線性激活函數(如ReLU、TanH等),以連續的方式進行數據存儲。

相比於ReLU、TanH等非週期性的激活函數來說,SIREN將正弦周期函數用作激活函數,相當於爲神經網絡引入了週期性

由於週期性的正弦激活函數處處可微,使得其能夠快速適應複雜信號,很好地對自然圖像空間進行參數化,建模更爲精細。

這不僅意味着函數能以連續的方式表示圖像,而且能在不丟失任何信息的情況下,以任一種分辨率表示它。

不僅圖像如此,在3D模型上也是如此。照這樣看,是不是可以3D修復建築物了?


△ 建模效果就像精裝房對比毛坯房一樣


即使原始數據顯然是離散的,通過連續的方式存儲數據也有一個好處,就是不必再擔心採樣的問題。

這對於數據壓縮和圖像修復研究的影響不可忽視。

基於梯度的監督學習

有沒有想過對神經網絡中函數的導數進行監督學習?

SIREN就這麼做了。

之所以它能這麼做,是因爲其所採用的正弦激活函數,導數仍然具有周期性(餘弦函數),即SIREN的導數仍然是SIREN。

因此,SIREN的導數繼承了SIREN的特性。這使得在進行監督學習時,我們能夠使用複雜的信號來對SIREN的任何階次的導數進行監督。

下圖是SIREN對海星圖像採用梯度或Laplacians(綠色下劃線表示採用的監督方式)進行監督學習的效果。



與圖左的真值相比,這兩種方式的重構效果都不錯,其中中間的圖像是採用梯度監督、針對原圖進行的重構,而右邊的圖像則是採用Laplacians監督、針對圖像導數進行的重構。

結果證明了當使用導數監督SIREN時,其仍然有良好的表現,這項結論對於解決邊值問題(BVP)的效果非常好。

不僅如此,SIREN相較於其他結構而言,收斂速度更快,往往只需要在GPU上花費幾秒鐘,就能獲得高保真的圖像重構效果。

是突破性創新還是有所侷限?

別忘了,週期性正弦激活函數是在隱式表示神經網絡的基礎上使用的。

隱式表示,與之相對的是顯性表示,後者函數的表達式只用自變量表示,前者則無法將函數與自變量很好地區分開來。

隱式表示舉例:f(x)= [f(x)]^2 + x,表達式中仍然包含f(x)

顯式表示舉例:f(x)= x + 2

相較於顯式神經表示,隱式神經表示的研究近年來逐漸興起,這種函數能表達的關係式更豐富多樣,但與此同時也存在着建模不夠精細的問題。

此次斯坦福團隊的研究可以說是在隱式神經表示領域內的一次突破,採用了週期性激活函數和適當的初始化方案,取得了不錯的效果。

研究成果剛出來時,不少網友在Twitter上對這次研究作出了評論,其中大部分表示驚歎

這位網友顯然對這次的研究成果非常狂熱。



震驚!必讀!沒時間解釋了,快上車!這是Vincent 無與倫比的作品!

有的網友已經開始重新考量ReLU在當今神經網絡中的地位。



這種週期性正弦激活函數會成爲新的「ReLU」嗎?

也有網友表示,相較於整篇論文的研究成果,將正弦激活函數用於神經網絡這個觀點,對機器學習領域的影響顯然更大。



相較於這篇拙劣的論文所進行的研究,將正弦激活用於神經網絡的想法對機器學習的影響應該更大吧。

也有網友認爲這次研究依舊具有侷限性。



以正弦激活的神經網絡展現的結果令我驚訝,特別是與舊的ReLU相比,它可以非常精確地表示圖像和視頻。但是,與SOTA AFAIK相比,以這種方式表示神經PDE仍然效果不佳。

在Reddit上,一名網友在對論文進行仔細研讀後,更是毫不留情地提出了自己的質疑



我認爲論文中有許多難以解釋的漏洞,以至於極大地降低了結論的可信度……(舉出6點質疑)我的看法是,儘管這篇論文給我帶來了新奇感,但作者實際上並沒有將太多心思放在論文觀點的證明、以及判斷研究成果的實用價值上。

立刻有網友表示同意。



這些用MNIST或CelebA數據集作爲測試結果的圖像重構論文都非常具有誤導性,沒有實例能證明這些神經網絡算法可以用於實際生活中的圖像處理。

由此看來,這項研究的實際應用價值,也許還需要更多的考量。

目前,已經有專業的網友對論文進行了詳細解析,在不到一個小時的時間裏,清晰易懂地介紹了論文核心內容。



論文解析時間軸如下,如果你對其中某一部分感興趣的話,可以瞭解一下~(視頻鏈接在文章末尾哦)

0:00 - 概要介紹2:15 - 隱式神經表達9:40 - 圖像示例14:30 - SIREN網絡18:05 - 初始化方案20:15 - SIREN導數23:05 - 泊松圖像重構28:20 - 泊松圖像編輯31:35 - 符號距離函數(SDF)45:55 - 研究網站48:55 - 其他應用50:45 - SIREN中的超網絡54:30 - 廣泛影響

研究團隊


△ Vincent Sitzmann



主作者Vincent Sitzmann是剛畢業於斯坦福大學的博士,目前在麻省理工學院攻讀博士後,主要研究的方向包括神經場景表示、計算機視覺和深度學習。

這是一個人均博士水平的研究團隊,對於計算機視覺方向的研究非常深入。

在計算機視覺日漸發達的今天,行業希望機器達成的遠不僅是「像照相機一樣,能夠對圖像進行簡單的二維複製」,而是像人類一樣,能夠擁有視覺感知能力。

傳送門

論文鏈接

arxiv.org/pdf/2006.0966

項目介紹

vsitzmann.github.io/sir

論文解析

youtube.com/watch?

—完—

@量子位 · 追蹤AI技術和產品新動態

文章來源:量子位