二次元妹子五官畫風都能改，周博磊團隊用無監督方法控制GAN | CVPR 2021

2021-03-09 15:48:14.0

現在，GAN不僅能畫出二次元妹子，還能精準調節五官、表情、姿勢和繪畫風格。

而且在調控某個因素的時候，其他條件能儘量保持不變。

這就是香港中文大學周博磊團隊提出的SeFa（語義分解，Semantics Factorization），該論文最近入選了CVPR 2021（Oral）。

SeFa適用於PGGAN、StyleGAN、BigGAN和StyleGAN2等常見GAN模型，不僅對二次元妹子有效，甚至還能調控貓咪上下左右不同方向。

通過這種方法分離出映射矩陣的各個本徵值，即可實現對不同圖像元素的精準調控

更重要的是，SeFa無需對GAN生成的數據進行標註，它能自己找到這些元素變化對應的編碼。也就說SeFa是一種無監督方法。

目前，SeFa相關代碼已經開源。

周博磊教授團隊的這一成果還得到了母校CSAIL實驗室的轉發。

無監督方法調節GAN

這些年，GAN在圖像合成上取得了巨大的成功。如果想要更好的操控GAN，就需要正確識別其中語義。

但是，由於潛在空間的高維性以及圖像語義的多樣性，在潛在空間中尋找有效的語義非常具有挑戰性。

現有一些基於監督學習的方法，通常首先對大量的潛在編碼進行隨機採樣，然後合成大量圖像，並使用一些預定義的標籤對其進行註釋，最後使用這些標記樣本來學習潛在空間中的分離邊界。

這種對大量GAN生成圖片進行標註的方法，耗時耗力。

因此，作者沒有直接利用合成樣本作爲中間步驟，而是直接研究了GAN的生成機制以解釋其內部表示。

更具體地說，對於所有基於神經網絡的GAN架構，都是將全連接層用作將輸入潛在編碼帶入生成器的第一步。

這種變換實際上會濾除潛在空間中一些可忽略的因素，突顯對於圖像合成關鍵的因素。如果我們能夠識別出這些重要的潛在方向，就可以控制圖像生成過程。

SeFa對圖像的操作，可以看做是將d維潛在空間中的對應向量z沿着n的方向進行移動。

而GAN還會將z映射到另一個m維空間的y。

最終，作者將這一問題轉化爲：

與其他方法對比

與現有的監督和無監督方法相比，SeFa方法能夠更準確，更廣泛地識別可解釋的維度。而且該方法靈活通用，可適用於不同的GAN。

在下圖中，SeFa（b）和無監督的GANSpace（a）、有監督的InterFaceGAN進行了定性對比。SeFa已經接近於有監督方法的效果。

和InfoGAN（a）對比發現，SeFa（b）對不同語義因素的分解程度更高，因爲前者在變換人臉姿勢時，髮色發生了明顯的變化。

SeFa不僅能處理GAN製造的圖片，對真實照片也有效。利用之前周博磊團隊提出的GAN反演方法，將真實照片反向投影到潛在空間，就能改變真實照片。

作者簡介

這篇論文的第一作者是香港中文大學多媒體實驗室的在讀博士生Shen Yujun，本科畢業於清華大學。

他的研究方向是計算機視覺、深度學習、生成模型、網絡解釋、可解釋人工智能（XAI）。

今年他已有3篇論文被CVPR 2021接收，其中兩篇爲Oral。之前他還在CVPR 2020上發表了2篇論文，在CVPR 2018上發表了1篇論文，總計發表了6篇CVPR。

論文的通訊作者是香港中文大學助理教授周博磊。

周博磊是MIT CSAIL實驗室博士，他的研究涉及計算機視覺和機器學習，尤其是視覺場景理解和可解釋AI系統。

—完—
@量子位 · 追蹤AI技術和產品新動態
深有感觸的朋友，歡迎贊同、關注、分享三連վ'ᴗ' ի ❤

文章來源：量子位