搜狗清華斬獲NTCIR-STC2冠軍,如何在檢索生成兩大任務中脫穎而出?

 2017-09-30 07:53:00.0

搜狗清華斬獲NTCIR-STC2冠軍,如何在檢索生成兩大任務中脫穎而出?

雷鋒網 AI 科技評論:第十三屆 NTCIR 評測比賽於近日正式公佈了短文本對話任務(STC2)的賽果。本次比賽吸引了國內共有 11 家企業、29 所大學和研究所,包括 BAT 等企業,以及北京大學、中國人民大學等多所知名高校參與。搜狗搜索聯合清華大學人工智能國家重點實驗室組成的 SG01 戰隊首度參戰,在 NTCIR13-STC2 評測比賽中以絕對優勢排名第一。雷鋒網 AI 科技評論第一時間聯繫了冠軍團隊,瞭解本次比賽的箇中細節。

往期報道:搜狗搜索聯合清華首戰NTCIR13-STC2,以絕對優勢排名第一

據雷鋒網 AI 科技評論瞭解,SG01 的團隊成員共 5 人,包括搜狗搜索研發部研究員趙海舟,杜毅,黎航宇,以及清華人工智能所的研究生錢橋和周昊。搜狗搜索總經理許靜芳和清華大學朱小燕、黃民烈教授都對該團隊進行了充分指導。

在分工上,清華人工智能所與搜狗合作進行生成模型的設計與驗證,另外搜狗還負責檢索模型研發、系統搭建以及評測的工作。「搜狗在搜索領域有着十分深厚的技術基礎,而清華人工智能所在生成式對話領域也有着豐富的研究基礎,二者剛好互補,」錢橋向雷鋒網 AI 科技評論表示。

NTCIR Workshop 是一個針對信息訪問(IA)技術(包括信息檢索、問題回答、文本摘要、提取等)的評估比賽,經過十餘年的發展,現在已經成爲一項國際重要賽事。

在 2016 年,第十二屆 NTCIR 中首次設置了基於中文、日文兩種語料的評測新任務,即短文本對話任務(STC),這也是目前國際上唯一的開放域對話方面的評測比賽。

從語料上講,一個對話系統可以分爲兩種,即任務域語料以及開放域語料。任務域是指其對話內容可以被某一任務領域的語料所涵蓋,比如訂餐,天氣查詢等等,其對話意圖以及語言的複雜性比較可控;開放域是指其對話內容沒有限制,可以是生活中的任意對話場景,其對話意圖十分廣泛,可以說涵蓋所有對話意圖,語言複雜性也很高。

雷鋒網 AI 科技評論從官網獲悉,本次賽事共分爲兩個子任務,即檢索任務和生成任務。在檢索任務中,研究者需要基於微博作爲中文語料(或 Twitter 作爲日語語料),並針對給定的一條新微博,通過給定的以往評論知識庫檢索到對應的連貫且有效的評論;而在生成任務中,則是希望參賽團隊能根據給定帖子生成流暢、連貫且有意義的評論。根據規定,這一任務採用與第一個任務相同的知識庫。生成器可通過使用統計機器翻譯(SMT)模型或基於 RNN 的神經模型進行建模,當然,參賽團隊也可以使用其它 NLG 方法。

對於團隊而言,檢索任務和生成任務可以看作是完全不同的兩個任務。「檢索任務像是選擇題,核心問題是語義相似度的計算。生成任務更漫無邊際一些,要做自然語言的生成,並且還要保證與問題的邏輯相關性。」錢橋向雷鋒網 AI 科技評論表示,在問題層面,生成模型產出的結果可以通過檢索模型進行重排序。在模型層面,二者都用到了深度學習模型,相互的借鑑是很有必要的。

錢橋告訴雷鋒網 AI 科技評論,本次比賽所採用的所有模型都是基於 Seq2Seq 模型的,「它可以看作一個帶有 Attention 的 RNN-Encoder-Decoder,此外我們還使用了 VAE 等模型。比賽中我們還使用了基於檢索以及基於學習的方法對 Beam-Search 生成的結果進行重排序,從而挑選出更爲合理的回覆。」

在基於檢索的方法中,搜狗團隊告訴雷鋒網(公衆號:雷鋒網) AI 科技評論,檢索式的對話系統主要使用了 deep match 和 learning to rank 的技術,除此之外還加入了生成式的 seq2seq 模型的生成概率作爲 feature 進行排序。

由於這次比賽在過程中並沒有組織公開的評測,而是在比賽結束後統一評測,錢橋表示,這使得 SG01 團隊在比賽過程中只能跟自己比較,自己就是自己最強勁的對手。「在組長的安排下,我們每週都會組織一次評測工作,評測標準與大賽一致且都是人工評測。這個評測結果驅動着我們挑戰現有的最好模型,從而創造更好的模型。」

而在評審階段,團隊認爲一條評論是否「合適」(符合評分標準)主要從兩個方面入手,一是語法性和通順性,第二是評論與原貼的邏輯關係的合適程度。

除此之外,主辦方還有更加詳細的指標,如信息量和場景依賴等,但 SG01 團隊表示,通過他們所進行的測試看來,前兩點還是起了更加重要的作用。「技術上我們通過多個模型的集成學習來增加多樣的評論候選列表,並且通過重排序模型進行後處理選出最合適的評論。」

而在與錢橋交流的過程中,他認爲生成式模型會是未來對話系統的主流。「檢索式方法最大的問題就是不能根據特定的問題產生定製的回覆,而且其數據庫也很難涵蓋所有的開放域的對話內容。從這兩點來看,生成式的方法可以根據有限的語料學習到人類對話的模式,根據特定問題產生定製的回覆,從技術上來講有成爲未來的主流對話系統的可能性。」

比賽雖然已經告一段落,但 SG01 團隊依然在爲年底的 NTCIR-13 會議做準備。而從對話系統研究的角度來講,團隊正在嘗試解決多輪對話系統中的一些問題,比如上下文一致性,話題相關性等,雷鋒網 AI 科技評論也將持續關注,希望搜狗和清華人工智能所團隊能繼續針對這一領域給我們帶來更多的驚喜。

搜狗清華斬獲NTCIR-STC2冠軍,如何在檢索生成兩大任務中脫穎而出?

文章來源:雷鋒網