MSRA研究員提出物體關係模塊,實現首個完全端到端的物體檢測系統|微軟亞洲研究院

 2017-12-03 11:28:00.0

原標題:專欄 | MSRA研究員提出物體關係模塊,實現首個完全端到端的物體檢測系統

現有的物體檢測算法均採用單獨識別物體的方式,而沒有利用物體之間的相互關係。近日,來自微軟亞洲研究院視覺計算組的研究員們提出了物體關係模塊(object relation module)。該模塊通過建模物體間外觀和幾何的交互信息來首次實現了所有物體的聯合推理學習。該模塊可以用於提高物體識別的精度,也可以替代通常使用的非極大抑制(non-maximum suppression)後處理方法。在現今最好的物體檢測框架下,利用該模塊實現了首個完全端到端的物體檢測系統。

鏈接:https://arxiv.org/pdf/1711.11575.pdf

目前最好的物體檢測方法一般遵循單個區域分類的範式:給定一些候選區域(object proposal),對每個區域單獨做分類和迴歸。此後,運行一個手工設計的啓發式後處理方法去刪除重複的檢測框,稱作非極大抑制。

微軟亞洲研究院研究員們打破了這一範式,其中的關鍵是新提出的物體關係模塊,這一模塊使得所有物體能被聯合推理,而不是像目前一般採用的範式那樣對每個區域單獨處理。如圖 1 所示,研究員們將這一個模塊應用到物體框識別(instance recognition)和重複框刪除(duplicate removal)兩個步驟中,物體的識別精度得到提升,同時,此前手工設計但不可或缺的非極大抑制也得以被一個可學習的模塊所替換並提升,從而實現首個完全端到端的物體檢測器。

圖 1. 目前最好的物體檢測器基於一個四步法的流程。物體關係模塊(紅色虛線框)能很方便地嵌入這個流程,用於提升物體框識別和重複框刪除這兩個步驟,最終得到一個完全端到端的物體檢測器。

其中關鍵的物體關係模塊本質上基於 attention 機制。Attention 機制在自然語言處理(NLP)領域已經有不少成功應用,它可以建模處於任意位置或者不同特徵分佈的元素之間的關係。NLP 中的詞語是符合這樣特點的元素,物體檢測中的物體也是這樣的元素,都很適合用 attention 機制來建模。與詞語不同的是,物體位於二維的圖像空間,不同的物體其尺度和長寬比會有較大差異。一般而言,物體的位置關係(或者幾何特徵)相比於一維句子中的詞語位置會更復雜,並起到更重要的作用。基於此,提出的物體關係模塊推廣了原始的 attention 權重計算方法,新的 attention 權重將包含兩項,一項是原始的權重,另一項是一個新的幾何權重。幾何權重建模了物體間的空間位置關係,具體來說它考慮相對位置,使得整個物體關係模塊滿足平移不變性(物體識別中很重要的一個性質)。實驗表明這一新的幾何權重對於物體關係模塊非常重要。

這一新的物體關係模塊可以處理任意數目的物體,這些物體是並行處理的(此前通常採用的序列關係建模方法),同時也是可微的,in-place 的(輸入輸出特徵維度不變)。因此,它可以作爲一個基本構件很方便地嵌入到任何網絡框架中。事實上,在應用到物體檢測時,原始的訓練方法和超參數不用做任何改變,參數量和計算量也只有少量增加。同時,這一模塊也是通用的,這個工作中展示了其在物體檢測裏的應用,但其應用並不侷限於物體檢測,事實上看不到任何妨礙其應用到其他諸多視覺問題的理由,例如物體分割,動作識別,視覺自動標題,視覺問答等等。

圖 2. 左:物體關係模塊;右:關係特徵計算。f_A 表示輸入的表觀特徵,f_G 表示輸入的幾何特徵(4 維 bounding box),f_R 表示關係特徵。該模塊可以完全由現有深度學習框架中的基本操作來實現(例如 mxnet)。

圖 3.將物體關係模塊應用到 a) 物體框識別(增強的 2fc head)和 b)重複檢測框刪除網絡。在端到端檢測系統中,b) 中紅色箭頭部分的梯度將會回傳。

表 1.應用到物體框識別(對應圖 3a)的 ablation 實驗(ResNet50 on COCO minival)。添加 {4, 4} 個模塊可以帶來 3.2 個點(mAP@all)的提升。爲了效率,後面的實驗採用 {1, 1} 個模塊。

表 2.比較不同的 head 在相同複雜度下的準確率。物體關係模塊的提升不是由更多的參數和計算量來實現的(簡單加深和加寬提升很小)。

表 3.應用到重複檢測框刪除(對應圖 3a)的 ablation 實驗(none 表示不用相關的特徵)。

表 4.重複檢測框刪除網絡和 NMS/SoftNMS 進行了比較。採用端到端訓練以後,檢測性能進一步提升(30.5->31.0)。

表 5.從左到右依次是 2fc head+SoftNMS (baseline),2fc+RM head (應用物體關係模塊到 2fc head) 和 2fc+RM head+端到端。基本網絡是 ResNet101。訓練過程中均採用了在線難樣本挖掘(OHEM)。

圖 4.高相關權重的檢測框對(代表性例子)。藍色框是被影響的參考框,橙色框表示對其有較大貢獻的檢測框(左上角的數字顯示具體的相關權重)。左圖顯示重疊的框對中心的框產生大的影響;有圖顯示人對手套產生較大影響。

拓展閱讀:專欄 | MSRA視覺組最新研究:可變形卷積網絡

文章來源:機器之心