年度最精彩研究，CVPR 2017六篇最佳論文介紹（附打包下載）| CVPR 2017

2017-07-25 15:23:00.0

雷鋒網 AI 科技評論按：CVPR 2017的獲獎論文已經在大會的第一天中公佈，共有6篇論文獲得四項榮譽。雷鋒網 AI 科技評論對6篇獲獎論文做了簡要介紹如下。

CVPR最佳論文

本屆CVPR共有兩篇最佳論文，其中就有一篇來自蘋果。

「Densely Connected Convolutional Networks」

論文作者：康奈爾大學 Gao Huang，清華大學 Zhuang Liu，康奈爾大學 Kilian Q. Weinberger，Facebook 人工智能研究院 Laurens van der Maaten

論文簡介：近期的研究已經展現這樣一種趨勢，如果卷積網絡中離輸入更近或者離輸出更近的層之間的連接更短，網絡就基本上可以更深、更準確，訓練時也更高效。這篇論文就對這種趨勢進行了深入的研究，並提出了密集卷積網絡（DenseNet），其中的每一層都和它之後的每一層做前饋連接。對於以往的卷積神經網絡，網絡中的每一層都和其後的層連接，L層的網絡中就具有L個連接；而在DenseNet中，直接連接的總數則是L(L+1)/2個。對每一層來說，它之前的所有的層的 feature-map 都作爲了它的輸入，然後它自己的 feature-map 則會作爲所有它之後的層的輸入。

DenseNet 類型的網絡有這樣幾個引人注目的優點：它們可以緩和梯度消失的問題，可以加強特徵傳播，可以鼓勵特徵的重用，而且顯著減少參數的數量。論文中在 CIFAR-10、CIFAR-100、SVHN、ImageNet 這四個高競爭性的物體識別任務中進行了 benchmark，DenseNet 在多數測試中都相比目前的頂尖水平取得了顯著提升，同時需要的內存和計算力還更少。

「Learning From Simulated and Unsupervised Images through Adversarial Training」

論文作者：蘋果公司 Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Josh Susskind, Wenda Wang, Russ Webb

論文地址：https://arxiv.org/abs/1612.07828

論文簡介：隨着圖像領域的進步，用生成的圖像訓練機器學習模型的可行性越來越高，大有避免人工標註真實圖像的潛力。但是，由於生成的圖像和真實圖像的分佈有所區別，用生成的圖像訓練的模型可能沒有用真實圖像訓練的表現那麼好。爲了縮小這種差距，論文中提出了一種模擬+無監督的學習方式，其中的任務就是學習到一個模型，它能夠用無標註的真實數據提高模擬器生成的圖片的真實性，同時還能夠保留模擬器生成的圖片的標註信息。論文中構建了一個類似於 GANs 的對抗性網絡來進行這種模擬+無監督學習，只不過論文中網絡的輸入是圖像而不是隨機向量。爲了保留標註信息、避免圖像瑕疵、穩定訓練過程，論文中對標準 GAN 算法進行了幾個關鍵的修改，分別對應「自我正則化」項、局部對抗性失真損失、用過往的美化後圖像更新鑑別器。

論文中表明這些措施可以讓網絡生成逼真的圖像，並用定性的方法和用戶實驗的方法進行了演示；定量測試則是用生成的數據訓練模型估計目光注視方向、估計手部姿態。結果表明，經過模型美化後的生成圖像可以爲模型表現帶來顯著提升，在 MGIIGaze 數據集中不依靠任何有標註的真實數據就可以取得超過以往的表現。

論文詳解：上週時候蘋果開放了自己的機器學習博客「蘋果機器學習日記」，其中第一篇就是對這篇獲獎論文的詳解，雷鋒網 AI 科技評論編譯文章在這裏，歡迎感興趣的讀者詳細瞭解。

CVPR最佳論文提名

「Annotating Object Instance with a Polygon-RNN」

論文作者：多倫多大學計算機學院Llu´ıs Castrejon，Kaustav Kundu，Raquel Urtasun，Sanja Fidler

論文地址：https://arxiv.org/abs/1704.05548

論文簡介：論文中介紹了一種半自動的物體標註方法。這套系統的思路是，不再像以往一樣把圖像中的物體分割作爲一種像素標註問題，把它看作一個多邊形位置預測問題，從而模仿目前已有的標註數據集的方式生成檢測標註框。具體來講，論文中的方法在輸入圖像後可以依次生成多邊形的邊把圖像中的物體圍起來。這個過程中，人類標註員可以隨時參與並糾正錯誤的頂點，從而得到人類標註員眼中儘可能準確的分割。

根據論文中的測試，他們的方法可以在 Cityscapes 的所有類別中把標註速度提升至4.7倍，同時還可與原本真值的重合度 IoU 達到78.4%，與人類標註者之間的典型重合率相符。對於車輛圖像，標註速度可以提升至7.3倍，重合度達到82.2%。論文中也研究了這種方法對於從未見過的數據集的泛化能力。

「YOLO9000: Better, Faster, Stronger」

論文作者：華盛頓大學，Allen 人工智能學院的 Joseph Redmon 與 Ali Farhadi

論文地址：https://arxiv.org/abs/1612.08242

論文簡介：論文中介紹了名爲「YOLO9000」的頂級水平的實時物體檢測系統，它可以檢測的物體種類達到了9000種。論文中首先介紹了對原始的 YOLO 系統的多方面提升，有些是論文中新提出的方法，有些是從之前別人的成果中借鑑的。提升後的 YOLOv2 模型在 PASCAL VOC 和 COCO 這樣標準的物體檢測任務中有頂級的表現。在使用一個新的、多尺度訓練方法之後，這個 YOLOv2 模型可以處理各種不同的圖像，從而在速度和準確性之間輕鬆地取得了平衡。在67FPS下，YOLOv2 可以在 VOC 2007中取得76.8mAP；在40FPS下，分數可以提升爲78.6mAP。這樣的準確率不僅超越了目前最好的帶有 ResNet 和 SSD 的 Faster R-CNN，而且運行速度還明顯更快。論文中最後還提出了一種將物體檢測和物體分類合併訓練的方法，論文作者們藉助這種方法，同時運用物體檢測數據集 COCO 和物體分類數據集 ImageNet 訓練得到了 YOLO9000。有的物體類別並沒有對應的物體檢測數據，而合併訓練的方法讓 YOLO9000 遇到它們的也時候也能夠預測檢測結果。

爲了驗證方法的效果，論文中進行了物體檢測的驗證測試，YOLO9000 只用了200個類別中44個類別的檢測數據，就在 ImageNet 的檢測驗證數據集中取得了 19.7mAP；對於 COCO 中沒有的156個類別，YOLO9000得到了16.0mAP。不過YOLO9000能夠檢測的類別遠不只這200個類，它可以預測超過9000個不同類別物體的檢測結果，而且仍然可以實時運行。

最佳學生論文獎

「Computational Imaging on the Electric Grid」

論文作者：以色列理工學院電氣工程學院 Mark Sheinin、Yoav Y. Schechner，多倫多大學計算機學院 Kiriakos N. Kutulakos

論文地址：http://openaccess.thecvf.com/content_cvpr_2017/papers/Sheinin_Computational_Imaging_on_CVPR_2017_paper.pdf

論文簡介：夜晚的風景隨着交流電照明一起跳動。通過被動方式感知這種跳動，論文中用一種新的方式揭示了夜景中的另一番畫面：夜景中燈泡的類型是哪些、上至城市規模的供電區域相位如何，以及光的傳輸矩陣。爲了提取這些信息需要先消除燈光的反射和半反射，對夜景做高動態範圍處理，然後對圖像採集中未觀察到的燈泡做場景渲染。最後提到的這個場景渲染是由一個包含各種來源的燈泡響應函數數據庫支持的，論文中進行了收集並可以提供給讀者。並且論文中還構建了一個新型的軟件曝光高動態範圍成像技術，專門用於供電區域的交流電照明。

Longuet-Higgins 獎

Longuet-Higgins 獎以英國著名理論化學家、認知科學家 H. Christopher Longuet-Higgins 的名字命名。該獎設立於 2005 年，用以獎勵對 CV 研究產生根本性影響的學術論文，專門用來獎勵十年以前在 CVPR 發表、「經得起時間考驗」產生廣泛影響的論文。它是世界上第一個針對過往論文的獎項。這個獎項是由 IEEE 計算機協會的「模式分析和機器智能技術委員會」TCPAMI 評選的。

在頒佈該獎項時還有一個有意思的花絮——主持人介紹說，設立這樣一個獎項的初衷，是因爲「大家都知道，許多對學界貢獻很大、影響力也很大的論文，在當年並不是最佳論文。」

「Object retrieval with large vocabularies and fast spatial matching」

論文作者：牛津大學科學工程學院James Philbin、Ondˇrej Chum、Josef Sivic、Andrew Zisserman，微軟硅谷研究院 Michael Isard

論文地址：https://pdfs.semanticscholar.org/943d/793f6cbbc6551d758c1eefca2a9333bd8921.pdf

論文簡介：這篇論文介紹了一個大規模的物體圖像搜尋系統。系統把用戶在一副圖片中框選的區域作爲查詢輸入，然後就可以返回一個有序列表，其中都是從指定的大數據集中找到的含有同一個物體的圖像。論文中用從 Flickr 上爬超下來的超過100萬張圖像組成一個數據集，用牛津大學的地標作爲查詢輸入，展示了系統的可拓展性和查詢性能。

由於數據集規模的原因，實驗過程中給圖像特徵構建列表的過程是時間和性能的主要瓶頸。基於這個問題，論文中對比了不同規模拓展的方法在構建特徵列表方面的表現，並且介紹了一種全新的基於隨機樹的量化方法，這種方法在廣泛的真值中都具有最好的表現。論文中的實驗表明這種量化方法對搜索結果質量的提高也有重要作用。爲了進一步提升搜索性能，系統中還增加了一個高效的空間驗證階段來對論文中構建的這種基於特徵列表的方法進行重新標識，結果表明它可以穩定地提高搜索質量，雖然當特徵列表很大的時候效果並不顯著。作者們覺得這篇論文是通往更多圖片、互聯網規模的圖像語料庫的前途光明的一步。

六篇論文打包下載如下鏈接： http://pan.baidu.com/s/1dFgq4d7 密碼: 3t73

更多 CVPR 後續報道、更多近期學術會議現場報道，請繼續關注雷鋒網(公衆號：雷鋒網) AI 科技評論。

CVPR 獲獎論文公佈，蘋果斬獲最佳論文！| CVPR 2017

騰訊 AI Lab入選 CVPR 的六篇論文逐一看 | CVPR 2017

CVPR現場直擊：一文盡覽最頂級的CV+學術盛會！| CVPR 2017

CVPR最有趣的5篇論文，不容錯過！內含最佳學生論文！ | CVPR2017

文章來源：雷鋒網

喜歡這篇文章嗎？快分享吧！