人有多大膽，GAN有多高產 | AI創作利器演變全過程

2020-01-30 15:48:09.0

GAN自從誕生以來，一路升級，功能越來越強。

這種強大的方法走過了怎樣的進化之路？

GAN的誕生和構架

GAN誕生在2014年，Ian Goodfellow和他的同事發表了名爲生成性對抗網絡Generative Adversarial Nets的論文。

GAN的構架從此奠定。

它由生成器generators 和 判別器discriminators兩部分組成，以無人監督的方式運行。

生成器抓取數據併產生新的合成樣本，混入原始數據中，一起送給判別器，判別器區分哪些是原始數據，哪些是後來合成的。這一過程反覆進行，直到判別器無法以超過50%準確度從合成樣本中分辨出真實樣本。

在實踐中，GAN的構架也帶來一些缺陷。

首先，同時訓練生成器和判別器與生俱來的不穩定性。每次參數更新後，需要優化的問題性質都會發生變化，因此模型內部的參數值會振盪或不穩定。更嚴重的情況是，生成器崩潰，吐出一大堆看起來同類的樣本。

其次，生成器和判別器還有互相壓倒的風險。如果生成器太精確，就會去利用判別器的弱點鑽空子，而不是靠生成更逼真的圖片來欺騙判別器；如果判別器太精確，就會阻礙生成器的收斂過程。

最後，缺乏訓練數據，也會影響到GAN在語義方面的發展，

不過，英特爾AI實驗室的高級主管Hanlin Tang 表示，正在出現的新興技術可以應對這些侷限。他提出了兩種方法，一是將多個判別器放入一個模型中，並根據特定數據進行微調。二是餵給判別器密集的嵌入表示，或者數據的數字表示。這樣它們可以有更多的信息，來從中提取。

1、圖像

GAN最有常見和有名的應用是合成以假亂真的圖像。

比如英偉達的Style GAN，可以把人物B的臉部特徵遷移到人物A上。

詳細介紹可以戳：

這些假臉實在太逼真了！英偉達造出新一代GAN，生成壁紙級高清大圖毫無破綻

除了人臉，還可以進行其它對象之間的遷移。卡內基·梅隆大學的科學家開發了出了Recycle-GAN ，它能把一個視頻或照片的內容傳到另一個上。

比如人臉和動畫臉：

或者讓一朵花模仿另一朵開的姿勢：

2、視頻

從圖片前進一步，就是視頻。Deepmind開發了DVD-GAN

原始數據集是從Youtube上收集的50萬張10秒長的高分辨率視頻，最終可以生成256 x 256像素視頻，最長能有48幀。

3、音樂

除了可以來製作照片，GAN還可以用來作曲。

亞馬遜的deepcomposer鍵盤的原理和GAN一致。

輸入一個簡單的旋律，生成器根據隨機數據創建樣本，判別器進行區分。兩者反覆改進，最終就會生成一段樂曲。

4、語音

GAN在語音上的應用並不多，谷歌和帝國理工學院的研究者一起研發了GAN-TTS ，這個系統運用GAN，將文本轉爲自然真實的語音。

這個系統裏有10個辨別器，一部分負責判別輸出的語音和文本是否一致，另外一部分只關注語音是否真實自然。

5、檢測垃圾評論

想解決網上有人用機器刷虛假評論的問題。有研究者開發 spamGAN來檢測網上的垃圾評論。

spamFAN採用半監督學習的技術，其中將未標記的數據與少量標記的數據結合使用。

在使用10％的標記數據進行訓練時，準確性達到了71％至86％。

儘管GAN已經取得了很多的進步，英特爾實驗室的Hanlin Tang 表示，現在依舊處於早期。

GAN 仍然缺少非常精細的控制，這是一個很大的挑戰。

在計算方面，也有研究人員嘗試輕型模型。

IBM多模式算法和引擎小組的研究人員Youssef Mroueh正在和同事一起開發小型GAN，用來減少訓練時間和內存使用。

它們想努力實現的是，如果生成器太精確，就會去利用判別器的弱點鑽空子，而不是靠生成更逼真的圖片來欺騙生成器；如果判別器太精確，就會阻礙生成器的收斂過程

如果不用那麼多的計算量，不做那麼多麻煩的事情，應該怎麼改變模型。這就是他們現在努力的方向。

— 完 —

文章來源：量子位