GAN自從誕生以來,一路升級,功能越來越強。
這種強大的方法走過了怎樣的進化之路?
GAN的誕生和構架
GAN誕生在2014年,Ian Goodfellow和他的同事發表了名爲生成性對抗網絡Generative Adversarial Nets的論文。

GAN的構架從此奠定。
它由生成器generators 和 判別器discriminators兩部分組成,以無人監督的方式運行。
生成器抓取數據併產生新的合成樣本,混入原始數據中,一起送給判別器,判別器區分哪些是原始數據,哪些是後來合成的。這一過程反覆進行,直到判別器無法以超過50%準確度從合成樣本中分辨出真實樣本。

在實踐中,GAN的構架也帶來一些缺陷。
首先,同時訓練生成器和判別器與生俱來的不穩定性。每次參數更新後,需要優化的問題性質都會發生變化,因此模型內部的參數值會振盪或不穩定。更嚴重的情況是,生成器崩潰,吐出一大堆看起來同類的樣本。
其次,生成器和判別器還有互相壓倒的風險。如果生成器太精確,就會去利用判別器的弱點鑽空子,而不是靠生成更逼真的圖片來欺騙判別器;如果判別器太精確,就會阻礙生成器的收斂過程。
最後,缺乏訓練數據,也會影響到GAN在語義方面的發展,
不過,英特爾AI實驗室的高級主管Hanlin Tang 表示,正在出現的新興技術可以應對這些侷限。他提出了兩種方法,一是將多個判別器放入一個模型中,並根據特定數據進行微調。二是餵給判別器密集的嵌入表示,或者數據的數字表示。這樣它們可以有更多的信息,來從中提取。
GAN的應用:從圖片到語音
1、圖像
GAN最有常見和有名的應用是合成以假亂真的圖像。
比如英偉達的Style GAN,可以把人物B的臉部特徵遷移到人物A上。

詳細介紹可以戳:
這些假臉實在太逼真了!英偉達造出新一代GAN,生成壁紙級高清大圖毫無破綻
除了人臉,還可以進行其它對象之間的遷移。卡內基·梅隆大學的科學家開發了出了Recycle-GAN ,它能把一個視頻或照片的內容傳到另一個上。
比如人臉和動畫臉:

或者讓一朵花模仿另一朵開的姿勢:

2、視頻
從圖片前進一步,就是視頻。Deepmind開發了DVD-GAN
原始數據集是從Youtube上收集的50萬張10秒長的高分辨率視頻,最終可以生成256 x 256像素視頻,最長能有48幀。

3、音樂
除了可以來製作照片,GAN還可以用來作曲。
亞馬遜的deepcomposer鍵盤的原理和GAN一致。
輸入一個簡單的旋律,生成器根據隨機數據創建樣本,判別器進行區分。兩者反覆改進,最終就會生成一段樂曲。
4、語音
GAN在語音上的應用並不多,谷歌和帝國理工學院的研究者一起研發了GAN-TTS ,這個系統運用GAN,將文本轉爲自然真實的語音。
這個系統裏有10個辨別器,一部分負責判別輸出的語音和文本是否一致,另外一部分只關注語音是否真實自然。
5、檢測垃圾評論
想解決網上有人用機器刷虛假評論的問題。有研究者開發 spamGAN來檢測網上的垃圾評論。
spamFAN採用半監督學習的技術,其中將未標記的數據與少量標記的數據結合使用。
在使用10%的標記數據進行訓練時,準確性達到了71%至86%。
GAN的未來:如何精細控制
儘管GAN已經取得了很多的進步,英特爾實驗室的Hanlin Tang 表示,現在依舊處於早期。
GAN 仍然缺少非常精細的控制,這是一個很大的挑戰。
在計算方面,也有研究人員嘗試輕型模型。
IBM多模式算法和引擎小組的研究人員Youssef Mroueh正在和同事一起開發小型GAN,用來減少訓練時間和內存使用。
它們想努力實現的是,如果生成器太精確,就會去利用判別器的弱點鑽空子,而不是靠生成更逼真的圖片來欺騙生成器;如果判別器太精確,就會阻礙生成器的收斂過程
如果不用那麼多的計算量,不做那麼多麻煩的事情,應該怎麼改變模型。這就是他們現在努力的方向。
參考資料:https://venturebeat.com/2019/12/26/gan-generative-adversarial-network-explainer-ai-machine-learning/
https://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf
— 完 —