CVPR2018 | 擺好Pose卻沒管理好面部表情?騰訊優圖Facelet-Bank人臉處理技術瞭解一下

 2018-06-01 13:01:15.0

項目鏈接:https://github.com/yingcong/Facelet_Bank

引言

數字人臉處理技術旨在改變語義表達和有意義的特徵,如微笑和悲傷,或給人臉添加虛擬妝容/配飾,例如小鬍子和眼鏡。隨着智能手機和數碼相機的日益普及,人們迫切需要一個實用且快速的系統。人臉處理在計算機視覺和圖形領域已經受到廣泛關注 [14, 3, 6, 4, 33, 31, 28]。以前的方法致力於美顏 [19, 8],去美顏 [10],表情處理 [28] 和看臉辨齡等等。

通過這些方案,我們知道,不同的妝容或屬性變化需要不同的處理操作。例如,美顏會處理膚色和紋理,而面部表情處理則更關注 2D 或 3D 幾何體。基於此,大多數方法都是專門爲單個任務設計的,任何專業效果都需要專家努力和專業知識才能制定有效的新方案。

圖 1. 使用我們的模型進行臉部處理的樣例。

接下來,我們將闡述我們在尋求統一的人臉屬性處理框架過程中遇到的問題,而後介紹我們最終的方案。

1.1 可能的解決方案及問題

直接回歸

從外部數據學習人臉處理操作的直接方法是直接回歸編輯前的輸入和編輯後的真實圖像 [10, 5]。但是,這一過程需要標註好的配對數據,而很多情況下沒有這些數據或者需要大量人力來創建。對於任何以前沒有的效果,這些處理都不易建立。

生成對抗網絡

最近,生成對抗網絡(GAN)已經顯示了它在集合至集合的無監督學習中的能力 [36]。它使用循環一致性損失來保存圖像內容,並且利用對抗損失將一組的屬性轉移到另一組中去。

雖然這個概念很明瞭而且效果驚人,但是很難訓練,特別是對於需要修改系統組件的新效果。訓練需要保持生成和判別的平衡。我們發現非最佳訓練會產生很差的效果,這在視覺敏感的人臉上很容易被發現。

深度特徵插值

深度特徵插值 [29] 爲學習兩個不同集合的圖像屬性轉換提供了另一種解決方案。這種方案需要基於兩個圖像集的深層特徵。但是,這不是一個端到端的框架,因此無法進行全局優化。此外,即使在測試過程中,由於涉及數百個面部對齊和卷操作,它仍然是計算密集型的。

1.2 我們的方案

我們追求一個通用、靈活和高質量輸出的人臉處理網絡。圖 1 展示了我們的方法生成的效果。我們採用了編碼器解碼器架構,而不是流行的生成對抗網絡。

受 Style-Bank[9] 學習可替換風格轉移層的啓發,我們提出了一個 Facelet-Bank 框架,該框架可以用不同的中層網絡(稱爲 Facelet)來對不同的人臉屬性處理操作建模。有意思的是,爲了產生不同的效果,只需更新中層網絡就可以了,而無需完全重新設計框架。

此外,考慮到很多人臉處理任務缺乏參考標準,我們利用 [29] 的結果來生成僞目標以學習 Facelet 網絡。有趣的是,儘管僞目標通常包含噪音,由於 Facelet 網絡的架構中隱式地帶有正則化功能,它仍然可以正確地捕獲真正的屬性操作。

最後,我們表明 Facelet 網絡可以自動關注最重要的區域,以便以端對端的方式執行面部處理。我們專門設計爲允許用戶自定義效果級別,因此可以實現交互式臉部處理。我們的總體貢獻是多方面的。

我們爲面部處理提出了一個集合到集合的 CNN 框架。它不需要配對數據來訓練。

該框架很靈活,可以通過簡單地更新一些卷積層來生成不同的效果和級別,這對系統開發人員非常友好。

受益於卷積網絡對圖像的約束,我們的方法對僞目標中的噪聲不敏感。

實驗表明,我們的方法可以快速處理各種各樣的人臉效果。

圖 2. 我們的框架圖。(a)是編碼器 E(·);(b)是 facelet-bank V(·)的卷積層;(c)是解碼器 D(·)。facelet-bank 的結構是 Conv-ReLU-Conv-ReLU-Conv,其中所有 Convs 的內核尺寸都是 3×3。此外,facelet-bank 的所有 Convs 都不會改變先前輸入的高度,寬度和通道數量。

圖 3. 抗噪效果圖。(a)原始圖像。(b)由等式(3)計算的僞偏移方向的熱圖。藍色矩形標記不需要變化的區域。(c)等式(3)的對應結果。(d)我們估計的方向轉移熱圖。(e)我們的結果。

圖 4. 關注區域可視化。注意力掩模由對應於添加鬍鬚、製作笑臉和改變年齡的操作等式(8)、(a)、(b)和(c)計算得來。注意,對於鬍子效果,facelet-bank 專注於嘴巴區域。對於微笑效果,它會出現在與微笑有關的面部肌肉上。至於年齡變化的效果,關注區域覆蓋整個臉部。這些結果符合我們的直覺。

圖 5. 比較 facelet-bank 方法和基準方法。

圖 6. 去除面部毛髮的結果。(a)原始圖像;(b)、(c)和(d)分別是使用層 5,層 5 +層 4 和全部三層的結果。

圖 7. 不同編輯強度的效果圖。(a)、(b)和(c)分別表示不同編輯強度的效果

圖 8. 與 CycleGAN [36] 和 DFI [29] 的比較。

論文:Facelet-Bank:快速人像處理

論文鏈接:https://arxiv.org/abs/1803.05576

摘要:隨着智能手機和社交網絡的普及,數字人臉處理技術已成爲美圖的熱門方式。鑑於用戶對面部表情和配飾的各種偏好,迫切需要一個通用且靈活的模型,以適應不同類型的面部處理。

爲實現此目標,本文提出了一個基於端到端卷積神經網絡的模型,這種端到端的卷積神經網絡支持快速推理、編輯效果可控及部分模型快速更新。另外,該模型基於不同屬性的非成對圖像集訓練。實驗結果表明,我們的框架可以處理各種各樣的表情,配飾和化妝效果。它可以快速生成高分辨率和高質量的效果。

文章來源:機器之心