二次元妹子五官畫風都能改,周博磊團隊用無監督方法控制GAN | CVPR 2021

 2021-03-09 15:48:14.0

現在,GAN不僅能畫出二次元妹子,還能精準調節五官、表情、姿勢和繪畫風格。



而且在調控某個因素的時候,其他條件能儘量保持不變。

這就是香港中文大學周博磊團隊提出的SeFa(語義分解,Semantics Factorization),該論文最近入選了CVPR 2021(Oral)。

SeFa適用於PGGANStyleGANBigGANStyleGAN2等常見GAN模型,不僅對二次元妹子有效,甚至還能調控貓咪上下左右不同方向。



通過這種方法分離出映射矩陣的各個本徵值,即可實現對不同圖像元素的精準調控



更重要的是,SeFa無需對GAN生成的數據進行標註,它能自己找到這些元素變化對應的編碼。也就說SeFa是一種無監督方法。

目前,SeFa相關代碼已經開源。



周博磊教授團隊的這一成果還得到了母校CSAIL實驗室的轉發。



無監督方法調節GAN

這些年,GAN在圖像合成上取得了巨大的成功。如果想要更好的操控GAN,就需要正確識別其中語義。

但是,由於潛在空間的高維性以及圖像語義的多樣性,在潛在空間中尋找有效的語義非常具有挑戰性。

現有一些基於監督學習的方法,通常首先對大量的潛在編碼進行隨機採樣,然後合成大量圖像,並使用一些預定義的標籤對其進行註釋,最後使用這些標記樣本來學習潛在空間中的分離邊界。

這種對大量GAN生成圖片進行標註的方法,耗時耗力。

因此,作者沒有直接利用合成樣本作爲中間步驟,而是直接研究了GAN的生成機制以解釋其內部表示。



更具體地說,對於所有基於神經網絡的GAN架構,都是將全連接層用作將輸入潛在編碼帶入生成器的第一步。

這種變換實際上會濾除潛在空間中一些可忽略的因素,突顯對於圖像合成關鍵的因素。如果我們能夠識別出這些重要的潛在方向,就可以控制圖像生成過程。

SeFa對圖像的操作,可以看做是將d維潛在空間中的對應向量z沿着n的方向進行移動。



而GAN還會將z映射到另一個m維空間的y。



最終,作者將這一問題轉化爲:



與其他方法對比

與現有的監督和無監督方法相比,SeFa方法能夠更準確,更廣泛地識別可解釋的維度。而且該方法靈活通用,可適用於不同的GAN。

在下圖中,SeFa(b)和無監督的GANSpace(a)、有監督的InterFaceGAN進行了定性對比。SeFa已經接近於有監督方法的效果。

和InfoGAN(a)對比發現,SeFa(b)對不同語義因素的分解程度更高,因爲前者在變換人臉姿勢時,髮色發生了明顯的變化。

SeFa不僅能處理GAN製造的圖片,對真實照片也有效。利用之前周博磊團隊提出的GAN反演方法,將真實照片反向投影到潛在空間,就能改變真實照片。

作者簡介

這篇論文的第一作者是香港中文大學多媒體實驗室的在讀博士生Shen Yujun,本科畢業於清華大學。

他的研究方向是計算機視覺、深度學習、生成模型、網絡解釋、可解釋人工智能(XAI)。

今年他已有3篇論文被CVPR 2021接收,其中兩篇爲Oral。之前他還在CVPR 2020上發表了2篇論文,在CVPR 2018上發表了1篇論文,總計發表了6篇CVPR

論文的通訊作者是香港中文大學助理教授周博磊



周博磊是MIT CSAIL實驗室博士,他的研究涉及計算機視覺和機器學習,尤其是視覺場景理解和可解釋AI系統。

論文地址: arxiv.org/abs/2007.0660

代碼地址: github.com/genforce/sef

Colab地址: colab.research.google.com

—完—
@量子位 · 追蹤AI技術和產品新動態
深有感觸的朋友,歡迎贊同、關注、分享三連վ'ᴗ' ի ❤

文章來源:量子位