百度提出問答模型GNR:檢索速度提高25倍

 2017-09-28 07:39:44.0

選自Baidu Research

作者:Jonathan Raiman & John Miller

參與:劉曉坤、李澤南、蔣思源

近日,百度人工智能實驗室的Jonathan Raiman 和John Miller 提出了在問答類檢索提取答案的新方法Globally Normalized Reader(GNR),通過將問答類檢索當成搜索問題,選取關鍵句子、標定起始詞和終止詞定位答案,在得到相同表現水平的同時降低了計算複雜度,並能有效應對過擬合。 GNR 在斯坦福 SQAD 數據集的實驗中得到了單個模型第二位的表現水平,比雙向注意流快了 24.7 倍。

論文:Globally Normalized Reader


論文鏈接: http://aclweb.org/anthology/D17-1112

代碼: https://github.com/baidu-research/GloballyNormalizedReader

我們提出了提取答案的問答類檢索的新方法 Globally Normalized Reader(GNR),它和以前的方法有相同的表現水平,但是計算複雜度更低。很多流行的模型比如雙向注意流(Bidirectional Attention Flow)使用計算費力的注意機制,而其它的比如 Match-LSTM 會對所有可能的答案評分。相反,GNR 把問答類檢索當作一個搜索問題,應用了一個學習搜索的框架。我們在斯坦福問答類檢索數據集(Stanford Question Answering Dataset,SQAD)的實驗中得到了單個模型第二位的表現水平,比雙向注意流(bi-attention-flow)快了 24.7 倍。

所有的頂尖神經問答類檢索系統都面臨過擬合的困難。為了幫助解決這些問題,我們還提出了第一個成功的針對神經問答類檢索的數據增強技術 Type Swaps。利用 Type Swaps 進行數據增強後,可以降低我們模型的生成錯誤,並在 SQuAD 開發集的訓練中得到了 1% 提升的 EM。

通過搜索進行問答類檢索

為了回答「Nikola 在哪一年去世?」這樣的問題,我們可以瀏覽維基百科,查看文章:

Nikola Tesla(塞爾維亞西里爾文:Никола Тесла;1856 年7 月10 日– 1943 年1 月7 日)是美國塞爾維亞裔發明家、電機工程師、機械工程師、物理學家和未來學家,他最著名的貢獻是現代交流電(AC)供應系統的設計。

問答系統(QA)和信息提取系統被證明在很多類應用中比如關於藥物和基因的醫療信息收集,大規模健康影響研究,或者教育材料發展現狀。基於問答提取模型的神經網絡的最近進展表明,其在多個基準的 QA 任務(比如 SQuAD、MS MARCO 或 NewsQA)中的表現正快速接近人類水平。然而,目前的問答提取方法仍然有很多局限性:

計算資源被平均分配給了整個文檔,而不顧答案的定位,不能忽略無關部分或者集中計算特定的部分,這限制了在長文中的應用;

過分依賴計算費力的雙向注意機制,或者不得不按等級列出所有可能的答案;

雖然問答系統的數據增強方法已經提出,目前的方法仍然不能提供訓練數據提升現有系統的表現水平。

我們的方法是將提取答案的問答類檢索作為一個迭代搜索問題:選擇答案的句子、起始詞和終止詞。在每一步通過選擇簡化搜索空間,從而將計算集中於相關性最大的部分:潛在搜索路徑。

我們證明了全局標準化決策過程和通過束搜索進行反向傳播,可以進行這種表示,提高學習效率。我們在斯坦福問答類檢索數據集的實驗中得到了單個模型第二位的表現水平(比雙向注意流(bi-attention-flow)快了 24.7 倍),從而證實了我們的觀點。

我們還介紹了一種數據增強方法,通過匹配知識庫中的命名實體並按相同的類型替換新的命名實體,生成符合語義邏輯的例句。這個方法提升了我們研究中所有使用的模型的表現水平,對多種自然語言處理任務有獨立的增益效果。

GNR 是怎麼工作的?

舉一個例子來說明我們的方法:「是誰第一個認識到分析機(Analytical Engine)有超出純粹計算以外的應用的呢?」,我們閱讀以下一段文字來回答這個問題:

Ada Lovelace 因她對 Charles Babbage 分析機的研究而為人所知。她第一個認識到分析機有超出純粹計算以外的應用。於是,她經常被認為是認識到「計算機器」全部潛能的第一人,以及第一個計算機編程者。

文中不是每一部分都和問題相關,所以我們需要在早期先探測答案可能出現的地方。 GNR 將這種直覺翻譯為逐漸選取文檔的各個子部分。下方展示了這個過程,其中垂直條形表示決策概率,並用盤桓的節點強調文檔中正被考慮的部分。

提取答案的問答類檢索問題是從給定的通道中提取死亡日期,「1943 年 1 月 7 日」。 GNR 將問答類檢索當做一個搜索問題。首先,尋找包含正確答案的句子。然後,尋找句子中答案的起始詞。最後,尋找答案的終止詞。這個過程在下方中展示。


一旦 GNR 在文檔中選擇了一個句子,就可以對該句子做更深入的挖掘。在以下列出的圖表中我們可以看到它是如何集中註意於所有句子中的一個,然後選擇句子中的正確詞子集:

有很多方法能將句子、起始詞和終止詞選擇的概率分佈參數化。 GNR 其中一個關鍵部分就是用全局(和局域相反)標準化方法將分佈參數化。

在全局標準化模型中,分佈在全部的元數組上標準化,而局域標準化模型中,句子、起始詞和終止詞的每一個選擇都被分別標準化然後用鍊式法則連乘起來。

全局標準化使模型更具表現力,使它更加容易從搜索錯誤中恢復。我們的研究展示了全局標準化使 EM 增長了 1%,並達到了頂尖的表現水平。

學習如何搜索

Ada Lovelace was known for her work on Charles Babbage's Analytical Engine. She was the first to recognize that the machine had applications beyond calculation. As a result, she is often regarded as the first to recognise the full potential of a "computing machine" and the first computer programmer.


即使全局歸一化模型具有良好的表徵性能,但它卻又提出了更大的計算挑戰。特別地,評估任何特定元組(句子、起始詞和終止詞)需要對所有類似的元組進行求和以計算歸一化常數,即在一組「# sentences * # starting words * # ending words 」的和。

為了克服這一挑戰,我們採用了束搜索。特別地,我們僅對最終束搜索候選項求和以逼近在所有元組上的求和結果。

在測試時,我們通過束搜索獲取最高排序的候選元組。這就意味著該模型只需要對 O(束大小)候選回答的跨度進行評分,而不需要如同常用方法那樣對所有可能的跨度進行評分。該過程減少了模型訓練與評估之間的差異,並且是對現有方法提供 GNR 20 倍加速的關鍵。

學習如何搜索的成功點在哪?

現在已經有一些方法在多種 NLP 任務和條件計算上學習如何搜索。最近有展示表明了全局歸一化網絡和使用束搜索進行語音標註和基於轉化的依存句法分析的有效性。而 Wiseman 等人在 2016 年就表示這些技術可以應用於序列到序列模型,包括機器翻譯等潛力巨大的應用領域。這些工作關注於解析和序列預測任務,並且具有固定計算而不管搜索路徑,但我們表示相同的技術也可以直接應用於問答系統並擴展到允許基於搜索路徑的條件計算。

在一些研究中,學習如何搜索同樣可以應用於帶有條件計算的模塊化神經網絡。在他們的研究工作中,強化學習可以用於學習如何打開或關閉計算,但我們發現條件計算能很容易通過最大似然而學到這一點,然後再幫助早期的更新以引導訓練過程。

下一步

我們相信廣泛的結構化預測問題(代碼生成、圖片生成模型、音頻或視頻)最終都能夠實現,即使目前因為原始搜索空間過大而限制了技術的發展,但如果利用條件計算並作為學習如何搜索的問題,那麼結構化預測問題最終會得到解決。

我們如何生成 quasi-infinite 數據


幾乎所有目前在 SQuAD 問答上使用神經網絡的方法都受限於過擬合問題,必須進行大量規範化才能保證獲得足夠好的結果。在機器學習的其他領域,如圖像和語音識別,研究人員通過數據擴充來提高泛化效果。然而目前還沒有人提出在問答任務中使用數據擴充的方式。為了解決這個問題,百度研究人員提出了 Type Swaps,一種全新的策略,可以生成大量合成的 QA 範例。同時,研究人員驗證了 Type Swaps 可以提升 GNR 的表現。

類型互換通過識別文檔中的問題實現,隨後通過 WikiData 來製成相近類型的新實體。由於 Wikidata 包含相當數量的實體,我們可以生成相當數量的新範例。

我們發現通過增加類型敏感的合成示例可以提高所有模型的表現,在研究中可以提高性能最好的 GNR 模型 2% 的 EM。由於這些改進並不與架構選擇有關,理論上這種提升方法可以適用於不同類型的模型,應該也可以適用於其他包含命名實體,使用有限監督數據的自然語言任務中。

類型互換,我們的數據增加策略提供了一種在模型學習過程中整合問題與回答來減少表面變化敏感性的方法。目前的神經網絡提取 QA 的方法忽略了此類信息。通過類型敏感合成示例,增強數據集可以通過覆蓋不同的回答類型來提升系統表現。在研究中,我們發現增加使用的增強樣本數量可以提升所有模型的表現。

除了增加一定數量,我們也觀察到了性能的降級。這表明即使增加的數據非常接近於原始訓練集,在訓練時仍然會產生不匹配與重複。

例子

為了更好地介紹模型的性能,以下列出了一些參考問題,文檔和搜索樹:

One of the most famous people born in Warsaw was Maria Skłodowska-Curie, who achieved international recognition for her research on radioactivity and was the first female recipient of the Nobel Prize. Famous musicians include Władysław Szpilman and Frédéric Chopin. Though Chopin was born in the village of Żelazowa Wola, about 60 km (37 mi) from Warsaw, he moved to the city with his family when he was seven months old. Casimir Pulaski, a Polish general and hero of the American Revolutionary War, was born here in 1745.


In 2015 Beyoncé signed an open letter which the ONE Campaign had been collectingsignatures for; the letter was addressed to Angela Merkel and Nkosazana Dlamini-Zuma,urging them to focus on women as they serve as the head of the G7 in Germany and the AUin South Africa respectively, which will start to set the priorities in development fundingbefore a main UN summit in September 2015 that will establish new development goals forthe generation.


A Turing machine is a mathematical model of a general computing machine. It is a theoretical device that manipulates symbols contained on a strip of tape. Turing machines are not intended as a practical computing technology, but rather as a thought experiment representing a computing machine- anything from an advanced supercomputer to a mathematician with a pencil and paper. It is believed that if a problem can be solved by an algorithm, there exists a Turing machine that solves the problem. Indeed, this is the statement of the Church-Turing thesis . Furthermore, it is known that everything that can be computed on other models of computation known to us today, such as a RAM machine, Conway's Game of Life, cellular automata or any programming language can be computed on a Turing machine. Since Turing machines are easy to analyze mathematically, and are believed to be as powerful as any other model of computation, the Turing machine is the most commonly used model in complexity theory.


There is evidence that there have been significant changes in Amazon rainforest vegetation over the last 21,000 years through the Last Glacial Maximum (LGM) and subsequent deglaciation. Analyses of sediment deposits from Amazon basin paleolakes and from the Amazon Fan indicate that rainfall in the basin during the LGM was lower than for the present, and this was almost certainly associated with reduced moist tropical vegetation cover in the basin. There is debate, however, over how extensive this reduction was. Some scientists argue that the rainforest was reduced to small, isolated refugia separated by open forest and grassland; other scientists argue that the rainforest remained largely intact but extended less far to the north, south, and east than is seen today. This debate has proved difficult to resolve because the practical limitations of working in the rainforest mean that data sampling is biased away from the center of the Amazon basin, and both explanations are reasonably wel l supported by the available data.


原文地址: http://research.baidu.com/gnr/

文章來源:機器之心