百度SVAIL實驗室推出高效問答模型GNR,比雙向注意流快24.7倍

 2017-09-28 11:47:00.0

百度SVAIL實驗室推出高效問答模型GNR,比雙向注意流快24.7倍

雷鋒網AI科技評論消息,百度硅谷AI實驗室最近推出強文,文中提出了一種被稱爲GNR(Globally Normalized Reader)的方法。據雷鋒網瞭解,該方法相比起之前的方法,其優勢在於能夠在保持問答抽取(Extractive question answering)任務性能不變的前提下,大大降低計算複雜度。當前許多的流行的模型,比如說雙向注意流(Bi-Directional Attention Flow),都採用了代價昂貴的注意力機制和其它的諸如Match-LSTM來明確得到所有候選答案。相比之下,GNR將問答過程轉化成檢索問題,然後通過一個學習搜索框架(Learning to search framework)來解決該檢索問題。通過在斯坦福的SQAD數據集上進行測試,最終結果表明,GNR模型比雙向注意流快出了24.7倍,並且取得了模型排名第二的好成績。

當前所有最新的基於神經網絡的問答系統總是避免不了過擬合問題。爲了解決這一問題,研究員們同時還提出了類型交換(Type Swaps)技術,這是在神經問答(Neural question answering)研究領域中第一個取得成功的數據增強(Data augmentation)技術。使用通過類型交換技術產生的增強數據,能有效地減少GNR模型的泛化誤差,並且在SQuAD數據集實現了1%的EM增益。

轉問答爲檢索

假設我們想要回答這麼一個問題——「尼古拉·特斯拉在哪年死亡的?」。我們也許會瀏覽維基百科然後找到相關的文章:

尼古拉·特斯拉(塞爾維亞西里爾語:НиколаТесла; 1856年7月10日至1943年1月7日)是一位塞爾維亞美國發明家,電氣工程師,機械工程師,物理學家和未來學家,以爲現代交流(AC)電力供應系統設計作出的貢獻而聞名。

問答(QA)和信息抽取系統已經被證明了在各種各樣的場景中都具有非常高的應用價值,例如藥物和基因的醫療信息收集[4],大規模健康影響研究[5]或者教育資料彙編(Educational material development)[6]。最近,基於神經網絡的問答抽取模型在諸如SQuAD[3]、MSMARCO[7]或NewsQA[8]等幾個基準QA任務中的表現正在迅速地接近人類的水平。然而,當前的問答抽取方法也正面臨着以下幾個瓶頸:

  • 無論正確答案位於何處,模型都需要均等地遍歷計算整個文檔,無法忽略或者專注於某些特定部分。這將限制模型在更長更大文檔中的性能表現。

  • 它們廣泛依賴於代價昂貴的雙向注意力機制[1],或者必須排列所有候選答案[17]。

  • 儘管針對問答任務的數據增強方法已經被提出了[18],但是該方法依然無法爲現有的系統提供能夠提升性能表現的訓練數據。

研究員們提出了將問答抽取轉化爲迭代搜索問題(Iterative search problem)進行處理:挑選出與答案有關的句子,開始單詞和結束單詞。在每個步驟中,都將修剪搜索空間,這樣算法才能將計算力放在最重要的地方:更有希望的搜索路徑。

實驗表明,通過波束搜索(Beam search)在全局範圍內歸一化決策過程和反向傳播將使得表徵變得可行以及提高學習效率。文中所提理論通過實驗進行了經驗性的論證,該算法在斯坦福的問答數據集[3](68.4 EM, 76.21 F1 dev)上取得了單一模型排名第二的成績,並且計算速度比雙重注意力流[1]快出了24.7倍。

文中還提出了一種數據增強的方法,通過將命名實體與知識庫進行對齊並將它們與相同類型的新實體進行交換從而生成語義有效的新樣本(Semantically valid examples)。該方法提高了本篇論文中提及的所有模型的性能,並且對於各類NLP任務具有各不相同的提升效果。

GNR是如何「閱讀」的?

爲了更好地描述GNR算法,讓我們先來考慮一個簡單的樣例「是誰首先意識到分析引擎(Analytical Engine)的應用超出了純粹的計算?」。爲了回答這個問題讓我們先閱讀下邊的一段引文:

Ada Lovelace因爲她在Charles Babbage的分析引擎中所做的工作而聞名於世。她是第一個意識到機器不單單只是一個計算工具的人。因此,她經常被當做是第一個認識到「計算機」潛力的人和第一名計算機程序員。

文中並不是所有內容都與問題相關。爲了反映出這一點,我們可以提前檢測答案可能出現在哪裏。GNR通過逐步選擇文檔的子部分來表現出這種直覺。下面將採用垂直條塊展示決策的概率,並將條塊懸停在一個節點上以突出顯示對應的文檔部分。

這裏的問答抽取問題是從所給的文章中抽取死亡日期「1943年1月7日」。GNR將問答轉化爲搜索問題。所以首先,算法會找到包含有正確答案的語句。然後,找到句子中與答案有關的起始單詞。最終,找到答案的結束單詞。該過程如下所示:

百度SVAIL實驗室推出高效問答模型GNR,比雙向注意流快24.7倍

一旦讀者在文檔中選擇了相關的句子,算法就可以在該文檔的該子部分進一步深入分析。在下面的圖表中,可以看到算法如何將注意力集中在其中一個句子上,然後選擇出了句子中正確的單詞子集:

有許多的方法可以用來參數化句子、起始單詞和結束單詞選擇的概率分佈。而GNR的一個關鍵因素是採用全局(而不是局部)歸一化的方式參數化概率分佈。

在全局歸一化模型(Globally normalized model)中,分佈對所有的(句子,起始單詞,結束單詞)元組進行歸一化。而在局部歸一化模型(Locally normalized model)中,每個句子、起始單詞和結束單詞的選擇都被單獨歸一化然後通過鏈式法則進行相乘。

全局歸一化使得模型更具表現力,並且使得其能夠更容易地從搜索錯誤中恢復。在這項工作中,展示了通過使用全局歸一化使得模型在EM上取得了1%的提升,並且使得模型的性能更加接近於當前的最佳模型。

如果想獲得更多與全局歸一化有關的細節內容,請參閱[9]中的詳細介紹。

學習搜索(Learning to search)

百度SVAIL實驗室推出高效問答模型GNR,比雙向注意流快24.7倍

儘管全局歸一化模型擁有很好的表徵能力,但是同時也帶來了計算上的挑戰。特別的,評估任何特定(句子,起始單詞,結束單詞)元組的概率都需要對所有這樣的元組進行代價昂貴的求和計算來獲得歸一化常數,亦即,對一組大小爲#句子*#起始單詞*#結束單詞進行求和。但是對於一篇長文,這樣的計算量是不被允許的。

爲了克服這一挑戰,本文作者採用了波束搜索。特別地,通過對最終波束候選進行求和來近似所有的元組的和。這個方法,也被稱爲學習搜索,要求我們在訓練的時候通過波束搜索進行反向傳播。

在測試時,排位最高的候選元組也是通過波束搜索獲得的。這意味着該模型只需要對O(波束大小)個候選答案進行評分,而不是按照現有最常見的模型需要對所有可能候選進行評分。該過程縮小了模型訓練與評估方式之間的差異,並且是使得GNR取得20多倍計算加速的關鍵改進。

學習搜索成功在哪?

許多關於學習搜索(Learning to search)的方法已經被提出,這些方法針對各種各樣的NLP任務以及條件計算(Conditional computation)。最近,[9]和[10]證明了全局歸一化網絡和使用波束搜索進行部分語音標記(Part of speech tagging)和基於過渡的依賴解析(Transition-based dependency parsing)的訓練的有效性,而Wiseman等人在2016年的工作[14]表明這些技術也可以應用於基於序列到序列模型(Sequence-to-sequence models)的幾個應用領域,比如機器翻譯。這些工作集中於解析和序列預測任務,並且具有固定的計算而不考慮搜索路徑,而本文的工作則表明相同的技術可以直接應用於問答,並且可以擴展以允許基於搜索路徑的條件計算。

在[12]的圖像摘要(Image captioning)工作中,學習搜索也已經被用於具有條件計算的模塊化神經網絡的上下文中。在他們的工作中,強化學習被用來學習打開和關閉計算,而我們發現條件計算可以很容易地進行學習,如果有最大似然和早期一些方法[9, 10, 13]來指導訓練過程。

下一步

本文的作者認爲當前存在着大量的結構化預測問題(代碼生成,圖像、視頻和音頻的生成模型),其中由於原始搜索空間過大而使得當前的技術難以處理。但是如果用條件計算作爲學習搜索問題,則有可能實現。

如何生成準無限(quasi-infinite)數據?

百度SVAIL實驗室推出高效問答模型GNR,比雙向注意流快24.7倍

幾乎所有的最新的基於神經網絡方法的問答模型在SQuAD任務中均面臨着過擬合的問題,並且需要採用非常嚴格的歸一化才能獲得較好的結果。在機器學習的其它領域,如圖像或語音識別,研究員已經能通過數據增強的方式來提高模型的泛化能力。但是到目前爲止,還沒有人提出一種能提高問答任務性能的數據增強策略。爲了解決這個問題,該項工作中提出了類型互換(Type Swaps)策略。這是一種全新的策略,可用於生成大量的合成問答樣本,並且通過實驗證明類型互換策略可以提高GNR的性能。

類型互換通過識別文檔和問題彙總的實體,然後利用WikiData交換相同類型的新實體。由於Wikidata包含有大量的實體,因此我們可以生成的新樣本數量接近於天文數字。有關於更多技術細節,請參見圖中的示例和論文。

論文中還發現使用額外的類型敏感的合成樣本(Additional type-sensitive synthetic examples)來增強數據集可以提高論文中所研究的所有模型的性能,並且這種提升在GNR模型上尤爲顯著,最高可以提高2%的EM。由於這種改進來源並不與我們的架構選擇有關,所以這些增益預計能夠轉移到不同的模型[1,14,15],也可能更廣泛地適用於其它包含命名實體以及數量有限的監督數據的自然語言任務中。

類型互換策略提供了一種方法,將問題的性質和命名實體的類型結合到GNR模型的學習過程中,從而降低了模型對錶面變化(Surface variation)的敏感性。迄今爲止,基於神經網絡方法的問答抽取已經忽視了這一信息。使用額外的類型敏感合成樣本來增強的數據集通過覆蓋更全面的、不同的答案類型來提高性能。增加使用的增強樣本數量可以提高所研究的所有模型性能。

不過當增強數據超過了一定的數量,還會導致性能的下降。這表明儘管在數據增強過程中增強策略努力去嘗試模仿原始的訓練集,但是在生成的實例中存在訓練測試不匹配或者過多重複的問題。

示例

爲了更好地瞭解模型的行爲,這裏還提供了各種其它示例問題、文檔和搜索樹:

百度SVAIL實驗室推出高效問答模型GNR,比雙向注意流快24.7倍

百度SVAIL實驗室推出高效問答模型GNR,比雙向注意流快24.7倍

想獲取更多示例,請移步官方網站瀏覽。

Via Globally Normalized Reader

Reference

  1. Bidirectional Attention Flow for Machine Comprehension [PDF]
    Seo, Minjoon and Kembhavi, Aniruddha and Farhadi, Ali and Hajishirzi, Hannaneh, 2016, arXiv preprint arXiv:1611.01603

  2. Machine comprehension using match-lstm and answer pointer [PDF]
    Wang, Shuohang and Jiang, Jing, 2016, arXiv preprint arXiv:1608.07905

  3. Squad: 100,000+ questions for machine comprehension of text [PDF]
    Rajpurkar, Pranav and Zhang, Jian and Lopyrev, Konstantin and Liang, Percy, 2016, arXiv preprint arXiv:1606.05250

  4. Distant Supervision for Relation Extraction beyond the Sentence Boundary [PDF]
    Quirk, Chris and Poon, Hoifung, 2016, arXiv preprint arXiv:1609.04873

  5. Influence of Pokemon Go on physical activity: Study and implications [PDF]
    Althoff, Tim and White, Ryen W and Horvitz, Eric, 2016, Journal of Medical Internet Research

  6. Data mining and education [PDF]
    Koedinger, Kenneth R and D'Mello, Sidney and McLaughlin, Elizabeth A and Pardos, Zachary A and Ros{\'e}, Carolyn P, 2015, Wiley Interdisciplinary Reviews: Cognitive Science

  7. MS MARCO: A Human Generated MAchine Reading COmprehension Dataset [PDF]
    Nguyen, Tri and Rosenberg, Mir and Song, Xia and Gao, Jianfeng and Tiwary, Saurabh and Majumder, Rangan and Deng, Li, 2016, arXiv preprint arXiv:1611.09268

  8. NewsQA: A Machine Comprehension Dataset [PDF]
    Trischler, Adam and Wang, Tong and Yuan, Xingdi and Harris, Justin and Sordoni, Alessandro and Bachman, Philip and Suleman, Kaheer, 2016, arXiv preprint arXiv:1611.09830

  9. Globally normalized transition-based neural networks [PDF]
    Andor, Daniel and Alberti, Chris and Weiss, David and Severyn, Aliaksei and Presta, Alessandro and Ganchev, Kuzman and Petrov, Slav and Collins, Michael, 2016, arXiv preprint arXiv:1603.06042

  10. A Neural Probabilistic Structured-Prediction Model for Transition-Based Dependency Parsing. [PDF]
    Zhou, Hao and Zhang, Yue and Huang, Shujian and Chen, Jiajun, 2015, ACL (1)

  11. Sequence-to-sequence learning as beam-search optimization [PDF]
    Wiseman, Sam and Rush, Alexander M, 2016, arXiv preprint arXiv:1606.02960

  12. Learning to compose neural networks for question answering [PDF]
    Andreas, Jacob and Rohrbach, Marcus and Darrell, Trevor and Klein, Dan, 2016, arXiv preprint arXiv:1601.01705

  13. Incremental parsing with the perceptron algorithm [PDF]
    Collins, Michael and Roark, Brian, 2004, Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics

  14. FastQA: A Simple and Efficient Neural Architecture for Question Answering [PDF]
    Weissenborn, Dirk and Wiese, Georg and Seiffe, Laura, 2017, arXiv preprint arXiv:1703.04816

  15. Dynamic Coattention Networks For Question Answering [PDF]
    Xiong, Caiming and Zhong, Victor and Socher, Richard, 2016, arXiv preprint arXiv:1611.01604

  16. Gated Self-Matching Networks for Reading Comprehension and Question Answering [PDF]
    Wang, Wenhui and Yang, Nan and Wei, Furu and Chang, Baobao and Zhou, Ming, 2017, Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics

  17. Learning Recurrent Span Representations for Extractive Question Answering [PDF]
    Lee, Kenton and Kwiatkowski, Tom and Parikh, Ankur and Das, Dipanjan, 2016, arXiv preprint arXiv:1611.01436

  18. Neural Question Generation from Text: A Preliminary Study [PDF]
    Zhou, Qingyu and Yang, Nan and Wei, Furu and Tan, Chuanqi and Bao, Hangbo and Zhou, Ming, 2017, arXiv preprint arXiv:1704.01792

雷鋒網(公衆號:雷鋒網)AI科技評論編譯

百度SVAIL實驗室推出高效問答模型GNR,比雙向注意流快24.7倍

文章來源:雷鋒網