業界 | 技術解讀：騰訊優圖12篇論文入選 ICCV 2017

2017-10-19 10:21:00.0

機器之心發佈

來源：騰訊優圖實驗室

被譽爲計算機視覺領域三大頂級會議之一的 ICCV（另外兩個爲 CVPR、ECCV）不久之前揭曉了收錄論文名單，騰訊優圖共有 12 篇論文入選，居業界實驗室前列，其中 3 篇被選做口頭報告（Oral），該類論文僅佔總投稿數的 2.1%（45/2143）。

本屆 ICCV 共收到 2143 篇論文投稿，其中 621 篇被選爲大會論文，錄用比例 29%。其中有 45 篇口頭報告（Oral）和 56 篇亮點報告（Spotlight）。今年參會人數預計將超過 3000 人。

ICCV 作爲計算機視覺領域最高級別的會議之一，其論文集代表了計算機視覺領域最新的發展方向和水平。此次騰訊優圖入選的論文提出了諸多亮點：全球首個 AI 卸妝效果的算法；現今最準確的單張圖像深度估計算法；完美解決多幀信息融合困難的多幀超分辨率視頻結果；史無前例的手機雙攝圖像匹配和分割研究成果。這些論文呈現了有趣且可擴展應用的技術，讓視覺 AI 成爲了一個工業界和學術界的交叉熱點。其中，騰訊優圖的智能卸妝超分辨率、雙攝融合、濾鏡還原和智能圖像縮放都是具有極大應用前景的技術。它們創造出新應用的同時也改進了現有算法，爲後續的研究提供了更多的經驗和指導。

下文對騰訊優圖 12 篇入選論文進行解析：

1. Oral 論文：美化人像的盲復原

Makeup-Go: Blind Reversion of Portrait Edit
http://open.youtu.qq.com/research/publications

本文與香港中文大學合作完成。目前市面上有很多關於人臉美化的應用，如騰訊天天 P 圖等。由於這些應用的流行，網絡上的人像很多與真人不符。本文提出一種圖像盲復原的算法，用於將美化過的人像復原爲真實的人像。爲了簡化問題，本文着重闡述如何解決全局美化操作的復原問題，例如膚色美白，去皺，磨皮等。由於這些操作是在圖像的不同尺度上完成的，而我們又無法得到人臉美化應用中所使用的操作類型和參數，直接使用現有的模型並無法解決這個問題。我們提出了一種新的深度網絡結構，成分迴歸網絡，來對美化圖像進行盲復原。即使在不知道美化系統具體參數的情況下，該網絡結構亦能更好地將美化後的圖像映射爲原始圖像。實驗表明，該網絡在不同尺度上均可以得到較高的還原度。

本文入選 ICCV 2017 口頭報告（Oral），該類論文僅佔總投稿數的 2.1%。

2. Oral 論文：細節還原深度視頻超分辨率

Detail-revealing Deep Video Super-resolution
http://open.youtu.qq.com/research/publications

本論文與香港中文大學、多倫多大學和 Adobe 合作完成。本論文關注解決視頻超分辨率的問題，即利用視頻中低分辨率的多幀信息，恢復出清晰而真實的高分辨率圖像。傳統的超分辨率算法處理速度慢，恢復效果嚴重依賴於繁瑣的參數調整，因此難以實用。近期的基於深度學習的算法則由於運動估計不夠準確，難以恢復足夠豐富的真實細節。

本文作者從原理和實驗上發現並指出：正確的運動估計對於圖像細節恢復至關重要，並基於此設計了亞像素運動補償網絡層 SPMC Layer。本文提出的適用於視頻超分辨率的網絡結構能夠實現：單模型處理任意尺寸輸入，任意倍率放大，任意多幀處理。同時，本文算法能夠在取得豐富的真實細節情況下，達到很快的處理速度（百倍於同等效果的傳統方法）。本文算法在效果、速度和實用性上均能超過現有其他算法。

本文入選 ICCV 2017 口頭報告（Oral），該類論文僅佔總投稿數的 2.1%。

3. Oral 論文：基於圖的 RGBD 圖像分割網絡

3D Graph Neural Networks for RGBD Semantic Segmentation
http://open.youtu.qq.com/research/publications

本論文與香港中文大學、多倫多大學合作完成。本論文專注解決 RGBD 圖像的語義分割問題。與比較常見的 RGB 圖像分割問題相比，這個問題又有了深度的信息。深度信息能夠表徵物體的幾何形狀，並且能夠更精確的描述像素件的幾何鏈接。因此如何利用深度信息做到更精確的圖像分割成爲這個問題最核心的模塊。在此之前的方法都是先將深度圖編碼成 HHA 圖像，然後再把 HHA 圖當作另外一張圖像並輸入到神經網絡裏抽取特徵。這種方法在本質上還是一個基於 2D 的解決思路，無法更好的融合點之間在真實空間的聯繫，並不能使得到的結果很好的利用深度信息。本文作者提出在把深度信息轉化爲點真實的三維座標，然後建立基於點實際座標的 knn 圖。並且利用基於圖的神經網絡，能夠讓圖像特徵可以根據 knn 圖相互迭代更新每個點的特徵。最後再利用分類網絡對更新過的特徵進行分類完成圖像 RGBD 圖像分割的問題。本文算法在效果上超過現在的基於 2d 卷積的方法，體現了該方法利用幾何信息完成特徵迭代更新的有效性。

本文入選 ICCV 2017 口頭報告（Oral），該類論文僅佔總投稿數的 2.1%。

4. Poster 論文：高質量的手機雙攝圖像匹配和分割估計

High-Quality Correspondence and Segmentation Estimation for Dual-Lens Smart-Phone Portraits
http://open.youtu.qq.com/research/publications

本文提出了一個高質量的手機雙攝圖像匹配以及分割的算法。同時解決了圖像匹配和物體分割這兩大計算機視覺裏的難題。隨着雙攝逐漸成爲手機的標配，怎樣更好的匹配雙攝圖像一直以來都是學術界和工業界關心的問題。爲了解決這一難題，作者提出了一種聯合優化匹配和分割的框架，爲了讓優化高效，還提出了一種區域的匹配算法。作者建立了一個 2000 對雙攝圖像的數據集用於算法的評估和測試。

5. Poster 論文：立體匹配的無監督機器學習

Unsupervised Learning of Stereo Matching
http://open.youtu.qq.com/research/publications

本論文與香港中文大學合作完成，主要提出了全新的立體匹配（Stereo Matching）的無監督學習（Unsupervised Learning）框架。深度神經網絡在立體匹配問題中被廣泛應用，與傳統方法相比較下，精度和效率都有顯著的提高。然而現有的方法大多基於有監督學習（Supervised Learning），另外少有的一些通過無監督學習得到的模型的精度也不甚理想。

在這篇論文中，作者提出了一種簡單又高效的對立體匹配問題的無監督學習方法。通過左右一致性檢測，此方法在每一次迭代中都會篩選出正確的匹配。這些正確的匹配會被用作下一次迭代的訓練數據。經過數次迭代，此方法收斂到穩定狀態。實驗結果證明了此方法的精度遠優於現有的無監督方法，且十分接近有監督方法。

6. Poster 論文：基於零階優化的圖像濾鏡還原

Zero-order Reverse Filtering
http://open.youtu.qq.com/research/publications

本論文與香港中文大學、多倫多大學和 Adobe 合作完成。在圖像處理領域，研究者們設計了種類的繁多的濾鏡用來消除噪聲，去除紋理等。本文另闢蹊徑，首次提出並探討了濾鏡問題的一個新方向：能否恢復經過圖像濾鏡處理之後的圖片？

通過對圖像濾鏡過程的分析，本文作者發現傳統平滑濾鏡可以近似看做測度理論中的壓縮映射。因此，在無需知道濾鏡實現算法的情況下，用簡單地零階迭代算法便可以恢復濾鏡前的效果。作者在常用的數十種濾鏡上測試了算法，並均能取得很好的效果。本算法本身實現簡單（無需知道濾鏡算法，無需計算梯度），效果顯著，其揭示的現象和背後的原理有望引起後續研究者們對濾鏡算法領域新的理解。

7. Poster 論文：基於圖模型神經網絡的情景識別

Situation Recognition with Graph Neural Networks
http://open.youtu.qq.com/research/publications

本論文與香港中文大學和多倫多大學合作完成，作者提出了一種基於圖模型的神經網絡用於情景識別任務。在情景識別任務中，算法需要同時識別圖中所展示的動作以及參與完成這個動作的各種角色，比如主語、賓語、目標、工具等等。爲了顯式地對不同角色間的關係建模，文中提出的圖模型神經網絡將表示不同角色的節點連接在了一起，並通過信息傳遞的方式使得網絡可以輸出一個結構化的結果。作者在實驗中比較了不同的連接方式，比如線形結構，樹形結構和全連接結構，發現在情景識別任務中全連接結構的效果最好。最後，文中還展示網絡所學習到的對於不同動作的特有的連接結構。上圖所示的結果圖，比較了不同模型的檢測結果。其中藍底的表示參與動作的角色，綠底表示正確的預測結果，紅底表示錯誤的預測結果。我們可以看到，使用全連接圖模型能夠糾正一些由其他模型產生的錯誤。

8.Poster 論文：基於序列性組合深度網絡的實例分割

Sequential Grouping Networks (SGN) for Instance Segmentation
http://open.youtu.qq.com/research/publications

本論文與香港中文大學，多倫多大學和 Uber 合作完成。實例分割是比物體檢測和語義分割更進一步的識別任務，旨在爲圖中每個實例都提供一個像素級別的掩膜，既保持了區分不同實例的能力，又保證了定位實例的精確性。該任務在自動駕駛，機器人等領域有廣闊的應用前景。

在本論文中，作者提出了一種全新的方式，通過一組序列性的不同的深度網絡逐步將一些低級的元素不斷組合成更加複雜的結構，最終得到每個實例對應的掩膜。該方法同時解決了一些早期工作中自下而上的方法會把被隔斷的物體錯判爲多個物體的問題。該方法在兩個數據集上都取得了比早期工作更好的結果。

9.Spotlight 論文：基於弱監督和自監督的深度卷積神經網絡圖片縮放算法

Weakly- and Self-Supervised Learning for Content-Aware Deep Image Retargeting
http://open.youtu.qq.com/research/publications

本論文與韓國 KAIST 大學一起合作。隨着數字顯示設備的普及，隨之而來的一個問題就是同一張圖片在不同分辨率設備上顯示效果的適應性問題。傳統的線性縮放，或是簡單裁剪等方法會帶來諸如圖片內容扭曲、內容丟失等負面效果。

作者提出了一種利用弱監督和自監督深度卷積神經網絡（WSSDCNN）來進行圖片縮放的算法。該算法通過建立一個在輸入圖片與目標分辨率圖片之間像素級別的映射，旨在對圖片大小進行調整的同時，儘量保留圖片中重要語義信息的比例結構，從而避免了內容扭曲、內容丟失等傳統方法的缺陷，在最大程度上保持了圖片顯示效果的一致性。

10. Poster 論文：分區域多人姿態識別算法

RMPE: Regional Multi-Person Pose Estimation
http://open.youtu.qq.com/research/publications

本論文與上海交通大學合作完成。自然場景下的多人姿態識別一直都是計算機視覺領域中較難攻克的課題之一。儘管目前人物檢測的算法已經十分穩定，但微小的誤差仍然很難避免。

針對在人物檢測結果不準的情況下進行穩定的多人姿態識別這一問題，作者提出了一種全新的解決方案——分區域多人姿態識別算法（RMPE）。該算法綜合利用了對稱性空間遷移網絡（Symmetric Spatial Transformer Network）和單人姿態估計算法，從而擺脫了多人姿態識別任務對人物檢測準確性的依賴，並且進一步通過參數化的人物姿態表達對識別結果進行了優化。根據在公開數據集 MPII 上的測試結果，該算法相較 CMU 提出的 OpenPose 算法提升了 1 個百分點，尤其是對手肘、手腕、膝蓋、腳踝等細小關鍵點的改善尤爲明顯。

11. Poster 論文：學習判別判別數據擬合函數來做圖像的去模糊

Learning Discriminative Data Fitting Functions for Blind Image Deblurring
http://open.youtu.qq.com/research/publications

本論文與南京科學技術大學，大連理工大學和加州大學默塞德分校合作完成。本論文是關於一個用數據擬合函數來解決圖像的去模糊問題。圖像去模糊是一個經典的計算機視覺問題，需要合理定義數據擬合函數和圖像先驗知識。但是目前的大部分算法都是通過更好的定義圖像先驗來提高去模糊的效果，對數據擬合函數的研究比較少。本文提出了一種機器學習方法來學習模糊圖像和清晰圖像之間的關係，從而得到更好的數據擬合函數。該擬合函數能進一步幫助估計更加準確的模糊核。該算法在非常難的去模糊圖像數據集中得到了最好結果。

12. Poster 論文：利用已知物體和物質信息遷移的弱監督物體檢測算法

Weakly Supervised Object Localization Using Things and Stuff Transfer
http://open.youtu.qq.com/research/publications

本論文與愛丁堡大學合作完成。本論文關注弱監督的物體檢測問題並利用已知物體（可數）和物質（不可數）信息遷移來提供幫助。弱監督物體檢測的目標集合的中物體位置信息未知，而源集合中對應的物體和物質的信息包括位置、標記等則已知。源集合和目標集合中的物體類別有一定的相似性，比如外形相似或者擁有共同物質背景。 爲了遷移利用這種相似性，本文作者從源集合中獲取三種信息：一個分割模型；源集合與目標集合物體類別之間相似度；源集合中物體與物質類別之間的共生性。作者緊接着利用分割模型對目標集合圖片首先做圖像分割，同時利用物體物質類別之間的相似度和共生性來修正分割結果。修正後結果被嵌入到多物體檢測框架中聯合訓練並檢測目標集合中的物體。本文算法效果在公開數據集上超過其他現有弱監督物體檢測算法。同時本文特別選擇了目標集和源集合差別很大的物體類別進行測試，顯示本文遷移算法具有很強大的泛化能力。

ICCV 簡介

ICCV 全稱爲 International Conference on Computer Vision（國際計算機視覺大會），由美國電氣和電子工程師學會（IEEE，Institute of Electrical & Electronic Engineers）主辦。作爲世界頂級的學術會議，首屆國際計算機視覺大會於 1987 年在倫敦揭幕，其後兩年舉辦一屆。今年 ICCV 將於 10 月 22 日到 29 日在意大利威尼斯舉辦。

ICCV 作爲計算機視覺領域最高級別的會議之一，是中國計算機學會推薦的 A 類會議。其論文集代表了計算機視覺領域最新的發展方向和水平。會議的論文收錄率較低，影響力遠超一般 SCI 期刊，大致與中科院 JCR 分區 1 區和 Web of Science 的 JCR 分區 Q1 中靠前的學術期刊相當。

本文爲機器之心發佈，轉載請聯繫本公衆號獲得授權。

責任編輯：

文章來源：機器之心

喜歡這篇文章嗎？快分享吧！