ACL 2017,Facebook帶來了哪些精彩內容?

 2017-08-02 09:48:00.0

雷鋒網 AI科技評論按:ACL 2017已經在加拿大溫哥華拉開帷幕,本次會議收錄論文創下歷史新高,除了論文展示還有workshop和軟件展示。Facebook的研究員也會在ACL 2017上展示他們的研究成果,他們究竟帶來了什麼,跟着雷鋒網(公衆號:雷鋒網) AI科技評論往下看。

Facebook目前主要針對對話、文本表示和機器翻譯進行了一些卓有成效的研究,並將在ACL上展示這幾個方向的內容。

他們在ACL 2017上被收錄的論文有如下幾篇:

  • A Convolutional Encoder Model for Neural Machine Translation (針對神經機器翻譯的卷積編碼器模型),by Jonas Gehring, Michael Auli, David Grangier, Yann N. Dauphin

  • Automatically Generating Rhythmic Verse with Neural Networks(利用神經網絡自動生成有韻律的詩歌),by Jack Hopkins, Douwe Kiela

  • Enriching Word Vectors with Subword Information(使用子字信息豐富詞彙向量),by Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov

  • Reading Wikipedia to Answer Open-Domain Questions(閱讀維基百科來回答開放性問題),by Danqi Chen, Adam Fisch, Jason Weston, Antoine Bordes

在理解對話上進行的研究

Facebook已經在最近的文章《爲了理解對話進行的長期研究》中概述了對對話的研究。真正有效的對話系統將會成爲一種輔助技術,例如可以通過自然語言與人進行交流的聊天機器人。

由斯坦福大學的Danqi Chen,Facebook AI研究員Adam Fisch, Jason Weston和Antoine Bordes共同發表的一篇論文《閱讀維基百科來回答開放性的問題》中,他們試着讓系統智能地回答以下問題:

17世紀奧斯曼帝國有多少個省?

美國哪個州的座右銘是「Live free or Die」?

Chadwick發現了原子中的哪個部分?

這些問題看起來是隨機的,他們其實來自Facebook的問答(QA)訓練數據集,Facebook已經用這個數據集來建立處理不限領域查詢問題的系統了。在這裏,維基百科是唯一的知識來源,系統需要能在一個條目中找出相關的文段來回答問題。要處理這項任務,需要解決多個挑戰:大規模的機器閱讀、文檔檢索(查找相關條目)和關於文本的機器理解(從這些條目中識別答案)。

這個系統對第一個答案的回答流程如下:

條目:奧斯曼帝國

段落:……在17世紀初,奧斯曼帝國包括32個省和許多屬國。其中一些屬國後來被併入了奧斯曼帝國,而另一些則在數百年的時間裏獲得了各種形式的自治權。

這項研究的一個關鍵要求是:讓系統在遍歷所有的QA數據集時,一直都具有良好的表現。

與許多計算上的挑戰一樣,爲了構建一個完整的系統,需要將許多的方法結合起來。在這裏的問答中涉及到搜索、遠程監督和多任務學習這幾種技術。

與自然語言處理(NLP)相關的研究工作

除了目前在智能體對話方面的取得的成果,Facebook在自然語言處理的研究上也取得了突破性的進展。他們針對文本處理開發了有效的方法和輕量級的工具,這些都是基於去年發佈的FastText和隨後發佈的預訓練單詞向量模型,他們在之前的開源聲明中有詳述FastText。

FastText是一個用於文本理解的庫,利用它可以輕鬆地學會word embedding,容易得到效果卓羣的分類器,目前已經被研究人員廣泛採用。在ACL 2017上Facebook將要展示的《使用子字信息豐富詞彙向量》一文中的系統就是基於FastText庫構建的。

他們將在ACL 2017上展示《針對神經機器翻譯的卷積編碼器模型》一文,會講解他們目前序列到序列的神經學習中最先進的軟件架構——Fairseq。

除了在現場介紹論文,Facebook的研究員也隨時歡迎業內人士來探討,共同推進AI技術再攀高峯。

參加的workshop

CoNLL是由SIGNLL組織的計算自然語言學習會議,側重於統計學、認知學和語法推理。Facebook在會上的海報上會展示Xian Qian and Yang Liu發表的《用於依存句法分析的非DNN特徵的工程方法》一文。

在第二屆Rep4NLP的workshop中,將展示Facebook研究員Holger Schwenk和 Matthijs Douze發表的《神經機器翻譯學習聯合多語言句子表徵》一文。這屆workshop由Facebook和DeepMind贊助,側重於研究詞義的向量空間模型、語義合成、NLP中的深度神經網絡的應用和譜方法。同期將會舉辦一個論壇,論壇上會討論這些問題的最新進展和NLP中基於語義的向量模型未來的研究方向。

RoboNLP(機器人學中的基礎語言研究)研討會上將匯聚NLP、機器人和視覺研究領域的相關研究人員,探討目前迫切需要解決的面向任務的基礎語言研究。

除了論文的展示和研討,Facebook也試圖加速智能聊天機器人的研究工作,公開徵集研究建議。他們在Facebook research blog中表示:

如何讓聊天機器人更加智能是研究中的關鍵挑戰,Facebook正竭盡全力加速研究:創建和分享相關的工具,鼓勵對這一基礎架構進行探索和擴展的相關研究工作。

Facebook今年發佈的ParlAI是一個可以在很多公開可用的對話數據集上使用開源的能學習的智能體訓練和評估AI模型的統一平臺。

這個平臺是對最近發佈的CommAI(通過越來越多的複雜任務開發通用人工智能的基於溝通的環境)的補充。

Facebook熱烈歡迎大學的研究團隊積極響應,對基於ParlAI訓練的聊天機器人和對話系統提出相應的研究建議,同時也希望他們對智能體的研究獻出一份力,例如進一步研究效果很好的模型,或者增加對訓練和評估智能體有用的任務。

via:Facebook research blog

雷鋒網 AI科技評論 編輯整理

論文地址:

Automatically Generating Rhythmic Verse with Neural Networks(https://research.fb.com/publications/automatically-generating-rhythmic-verse-with-neural-networks/)

Enriching Word Vectors with Subword Information(https://research.fb.com/publications/enriching-word-vectors-with-subword-information-2/)

Reading Wikipedia to Answer Open-Domain Questions(https://research.fb.com/publications/reading-wikipedia-to-answer-open-domain-questions/)

Learning Multilingual Joint Sentence Embeddings with Neural Machine Translation(https://research.fb.com/publications/learning-multilingual-joint-sentence-embeddings-with-neural-machine-translation/)

文章來源:雷鋒網