標題黨太嚇人？這篇文章會告訴你DeepMind關係推理網絡的真實面貌

2017-09-22 16:01:00.0

每當DeepMind發表一篇新論文時，媒體都會狂熱的跟蹤報道，而且會使用很多誤導人的短語。比如關於該關係推理網絡的報道：

DeepMind開發了一種神經網絡，能夠感知其周圍的物體。

實際上這種報導不僅僅是誤導性的，而且使得很多不明真相的吃瓜羣衆感到恐慌：AI真的已經強到如此地步了嗎？在這篇文章中，將介紹DeepMind論文：A simple neural network modulefor relational reasoning，試着通過最簡單的方式介紹這個最新的架構。

從最簡單的角度來說，關係推理就是學着去理解不同物體之間的關係（思想）。這種能力被認爲是智能的一個基本特徵。作者使用了一個圖來解釋什麼是關係推理：

圖1，模型需要關注一個不同形狀、大小、顏色的物體，並能夠回答關於多個物體之間關係的問題

作者提出了一種神經網絡，其本質是爲了捕捉關係（就像卷積神經網絡是爲了捕捉圖像的特徵）。他們提出了一個如下定義的架構：

等式1：推理網絡的定義

解釋：

對O的關係網絡是函數f_Φ，其中O是想要學習關係的一組物體。

g_θ是關於兩個物體：o_i, o_j的方程。輸出爲我們所關心的「關係」。

Σ表示計算所有可能的物體對，計算他們的關係並加和。

在學習神經網絡，反向傳播等的時候，我們很容易忘記這點，但實際上，神經網絡就是一個數學函數！因此，上面等式1描述的就是一個神經網絡，更準確的說是兩個神經網絡：

1. g_θ，計算了一對物體之間的關係

2. f_Φ，計算了所有g的加和，並計算了整個模型的最終輸出

g_θ和f_Φ在最簡單的情況下都是多層感知機。

關係神經網絡的靈活性

作者提出了關係神經網絡作爲組件。他們可以接受編碼過的物體作爲輸入，並從中學習關係，更重要的是，他們可以很容易的插入到卷積神經網絡，以及長短期記憶網絡（LSTM）中。

卷積網絡可以通過圖像學習到物體。這對於實際應用有很大幫助，因爲從圖像中推理遠比用戶手工定義物體數組更實用。

LSTM和單詞嵌入何以用來理解問題的含義。這同樣更有實際意義，目前模型已經可以接受英文句子作爲輸入，而不是編碼的數組。

作者提出了一種方法將關係網絡、卷積網絡、LSTM網絡結合到一起，構建了一種端到端的神經網絡，以學習物體之間的關係。

圖2：端到端關係推理神經網絡

圖2的解釋

圖像會通過一個標準卷積神經網絡（CNN），在這個過程中卷積神經網絡會通過k個濾波器提取圖像特徵。推理網絡中的「物體」即是圖中網格每點的特徵向量。例如，途中黃色的向量就代表一個「物體」。

問題會通過一個LSTM網絡，這會產生該問題的特徵性向量。可以粗略地表示這個問題的「含義」。

對於等式1，這裏有一個輕微的修正，加入了一個額外的項：

額外的一項q，表示LSTM的最終狀態。

在這之後，從CNN網絡中得到的「物體「以及從LSTM網絡中得到的向量被用來訓練關係網絡。每個物體對，以及從LSTM中得到的問題向量都被用作g_θ（一個神經網絡）的輸入。

將g_θ的輸出求和，作爲f_Φ（另一個神經網絡）的輸入。然後優化f_Φ以回答問題。

作者在幾個數據集上展示了該模型的有效性。這裏只介紹一個最重要的數據集中的結果—CLEVR數據集。

CLEVR數據集包括不同形狀、大小和顏色的物體的圖像。模型會被問到如下圖的問題：

這個立方體的材質與這個圓柱體的材質一樣嗎？

圖3：物體的類型（上），位置組合（中&下）

作者表示，在準確度方面，其他系統都遠遠落後於他們的模型。這是由於關係網絡就是爲捕捉關係而設計的。他們的模型達到了前所未有的96%+的準確度，相比之下，使用stacked attention模型的準確度只有75%。

圖3.1 CLEVR數據集上不同方法的比較

關係網絡機器適合於學習關係。該方法可以高效地使用數據。同時該方法也足夠靈活，可以與CNN，LSTM一起作爲一個混合解決方案。

本文也想通過正確的解讀，來打破許多大型媒體關於「AI將會接管一切」的宣傳，讓大家正確的瞭解目前最好的方法能夠做到什麼程度。

本文由我們編譯，欲進一步瞭解，請閱讀原文。

文章來源：雷鋒網