騰訊知文團隊 3 篇 IJCAI 2018 一作長文解讀

 2018-04-20 10:15:00.0

備受關注的人工智能領域頂級國際會議 IJCAI,2018 年將於 7 月 13 日至 19 日在瑞典斯德哥爾摩舉行。IJCAI-ECAI 2018, the27th International Joint Conference on Artificial Intelligence and the 23rd European Conference on Artificial Intelligence 是國際 AI 領域研究內容最爲全面、最具影響力的頂級學術會議之一。在近日揭曉 2018 年收錄論文名單中,騰訊知文團隊有 3 篇一作長文被錄取,我們將對文章進行簡要解讀,歡迎交流討論。

騰訊知文團隊介紹

騰訊知文團隊 3 篇 IJCAI 2018 一作長文解讀

騰訊知文是 SNG 數據中心的 NLP 團隊,目前專注於問答與對話領域,服務與支持的產品包括騰訊雲小微機器人、騰訊雲金融智能客服、騰訊雲內容理解等。基於語義分析、知識計算、機器閱讀理解等技術,知文團隊在語言智能的求知之路持續探索,同時通過騰訊雲提供專業的產品與服務,爲更多的業務實踐賦能 AI。知文致力於打造業界下一代智能問答平臺,深度融合 KBQA、DocQA、TaskQA 等多種問答模式。問答是搜索的進化形式,加入我們,加入 1998 年的 Google。

騰訊知文團隊 3 篇入選長文解讀

1.PLASTIC:基於生成對抗網絡調節推薦系統裏全局和局部信息的互補性

PLASTIC: PrioritizeLong and Short-term Information in Top-n Recommendation using AdversarialTraining

本文由騰訊知文團隊與中科院深圳先進技術研究院等高校聯合完成。傳統的基於協同過濾的推薦系統是認爲用戶偏好和電影屬性都是靜態的,但他們實質是隨着用時間的推移而緩慢變化的。例如,一個電影的受歡迎程度可能由外部事件(如獲得奧斯卡獎)所改變。另一方面,隨着深度學習應用的爆發式發展,基於深度學習的推薦系統越來越引發大家的關注。循環神經網絡(RNN)理論上能夠有效地對用戶偏好和物品屬性的動態性進行建模,基於當前的趨勢,預測來的行爲。爲了有效地利用傳統協同過濾推薦技術(i.e., 矩陣分解)和深度學習方法(i.e., 循環神經網絡)各自的優點,捕獲用戶和電影之間的長期(全局)和短期(局部)關聯,本文主要研究和探索基於生成對抗網絡(GAN)調節矩陣分解(Matrix Factorization, MF)和循環神經網絡(RNN)在推薦系統上的互補性。

2. 基於主題模型和強化學習的文本摘要

A ReinforcedTopic-Aware Convolutional Sequence-to-Sequence Model for Abstractive TextSummarization

本文由騰訊知文團隊與蘇黎世聯邦理工學院(ETH)、美國哥倫比亞大學、騰訊 AI lab 聯合完成。自動文本摘要方法一般有兩種類型,分別爲提取式和總結式。提取式方法通過選擇重要的文本片段來生成摘要,更具可讀性。總結式方法需要先「理解」文檔,然後再組織並生成文本摘要,更靈活,目前更受關注,但可控制性和相關性有所欠缺。另一方面,近年來廣泛應用的傳統基於 RNN 的文本摘要模型存在 exposure bias 和難以並行化的問題。針對以上問題,該研究工作提出一種基於卷積神經網絡的總結式文本摘要生成方法,並結合主題模型的注意力機制,利用強化學習方法進行優化。卷積神經網絡具有可並行化的特點,可以提高訓練速度。這是首次將基於主題模型的注意力機制引入自動文本摘要的生成,可以提高摘要結果的信息相關性和多樣性。另一方面,self-critical 強化學習方法的引入使模型可以針對摘要的評價指標進行優化,緩解訓練和預測過程的 exposure bias。

3. 基於多任務學習的圖像描述自動生成

A Multi-task LearningApproach for Image Captioning

本文由騰訊知文團隊與中科院深圳先進技術研究院、豐田工業大學芝加哥分校(TTIC)等高校聯合完成。傳統的基於編解碼器的圖像描述任務沒有識別和定位多物體的能力,生成的文本經常遇到語言學問題,比如缺少成分、語法錯誤和論點矛盾等。特別是語言學問題,目前的測量方法是無法給出公正評價的。例如,「a group of people standing next to a.「和「agroup of people standing next a fire truck.」兩個句子各項指標的分數差異不顯著,但前者缺少名詞性補語,讓讀者難以理解。本文采用多任務學習方法共享編解碼器,同時提升編碼器對物體的識別能力,以及減少解碼器在生成文本過程中出現的語法錯誤。從離線、線上榜單和人工評測的結果來看,本文提出的方法有不錯的性能表現。

文章來源:雷鋒網