人有多大膽,GAN有多高產 | AI創作利器演變全過程

 2020-01-30 15:48:09.0

GAN自從誕生以來,一路升級,功能越來越強。

這種強大的方法走過了怎樣的進化之路?

GAN的誕生和構架

GAN誕生在2014年,Ian Goodfellow和他的同事發表了名爲生成性對抗網絡Generative Adversarial Nets的論文。


GAN的構架從此奠定。

它由生成器generators判別器discriminators兩部分組成,以無人監督的方式運行。

生成器抓取數據併產生新的合成樣本,混入原始數據中,一起送給判別器,判別器區分哪些是原始數據,哪些是後來合成的。這一過程反覆進行,直到判別器無法以超過50%準確度從合成樣本中分辨出真實樣本。



在實踐中,GAN的構架也帶來一些缺陷。

首先,同時訓練生成器和判別器與生俱來的不穩定性。每次參數更新後,需要優化的問題性質都會發生變化,因此模型內部的參數值會振盪或不穩定。更嚴重的情況是,生成器崩潰,吐出一大堆看起來同類的樣本。

其次,生成器和判別器還有互相壓倒的風險。如果生成器太精確,就會去利用判別器的弱點鑽空子,而不是靠生成更逼真的圖片來欺騙判別器;如果判別器太精確,就會阻礙生成器的收斂過程。

最後,缺乏訓練數據,也會影響到GAN在語義方面的發展,

不過,英特爾AI實驗室的高級主管Hanlin Tang 表示,正在出現的新興技術可以應對這些侷限。他提出了兩種方法,一是將多個判別器放入一個模型中,並根據特定數據進行微調。二是餵給判別器密集的嵌入表示,或者數據的數字表示。這樣它們可以有更多的信息,來從中提取。

GAN的應用:從圖片到語音

1、圖像

GAN最有常見和有名的應用是合成以假亂真的圖像。

比如英偉達的Style GAN,可以把人物B的臉部特徵遷移到人物A上。



詳細介紹可以戳:

這些假臉實在太逼真了!英偉達造出新一代GAN,生成壁紙級高清大圖毫無破綻

除了人臉,還可以進行其它對象之間的遷移。卡內基·梅隆大學的科學家開發了出了Recycle-GAN ,它能把一個視頻或照片的內容傳到另一個上。

比如人臉和動畫臉:



或者讓一朵花模仿另一朵開的姿勢:



2、視頻

從圖片前進一步,就是視頻。Deepmind開發了DVD-GAN

原始數據集是從Youtube上收集的50萬張10秒長的高分辨率視頻,最終可以生成256 x 256像素視頻,最長能有48幀。



3、音樂

除了可以來製作照片,GAN還可以用來作曲。

亞馬遜的deepcomposer鍵盤的原理和GAN一致。

輸入一個簡單的旋律,生成器根據隨機數據創建樣本,判別器進行區分。兩者反覆改進,最終就會生成一段樂曲。

4、語音

GAN在語音上的應用並不多,谷歌和帝國理工學院的研究者一起研發了GAN-TTS ,這個系統運用GAN,將文本轉爲自然真實的語音。

這個系統裏有10個辨別器,一部分負責判別輸出的語音和文本是否一致,另外一部分只關注語音是否真實自然。

5、檢測垃圾評論

想解決網上有人用機器刷虛假評論的問題。有研究者開發 spamGAN來檢測網上的垃圾評論。

spamFAN採用半監督學習的技術,其中將未標記的數據與少量標記的數據結合使用。

在使用10%的標記數據進行訓練時,準確性達到了71%至86%。

GAN的未來:如何精細控制

儘管GAN已經取得了很多的進步,英特爾實驗室的Hanlin Tang 表示,現在依舊處於早期。

GAN 仍然缺少非常精細的控制,這是一個很大的挑戰。

在計算方面,也有研究人員嘗試輕型模型。

IBM多模式算法和引擎小組的研究人員Youssef Mroueh正在和同事一起開發小型GAN,用來減少訓練時間和內存使用。

它們想努力實現的是,如果生成器太精確,就會去利用判別器的弱點鑽空子,而不是靠生成更逼真的圖片來欺騙生成器;如果判別器太精確,就會阻礙生成器的收斂過程

如果不用那麼多的計算量,不做那麼多麻煩的事情,應該怎麼改變模型。這就是他們現在努力的方向。

參考資料:venturebeat.com/2019/12

papers.nips.cc/paper/54

— 完 —

文章來源:量子位