專訪科大訊飛:成爲世界第一,只是閱讀理解系統萬里長征的第一步

 2017-08-02 06:36:00.0

近日,在斯坦福大學發起的SQuAD(Stanford Question Answering)數據集測試榜單中,科大訊飛與哈工大聯合實驗室(HFL)提交的系統模型奪得第一,這也是中國本土研究機構首次取得該比賽的冠軍。在加拿大溫哥華舉辦的ACL大會現場,雷鋒網對正在參加大會的科大訊飛研究院副院長王士進進行了專訪,王士進不僅向雷鋒網(公衆號:雷鋒網)介紹了訊飛取得良好成績的關鍵因素,還對在機器閱讀理解領域的未來研發方向及產業化狀況做了解答。王士進認爲,機器閱讀理解具有廣闊的應用場景,目前的成績只是萬里長征的第一步,訊飛也會繼續探索機器閱讀理解技術落地應用的場景。

王士進:博士,科大訊飛北京研究院院長,兼科大訊飛研究院副院長。2003年本科畢業於中國科技大學,2008年博士畢業於中科院自動化所,長期從事語音、語言、人工智能方向研究,主持的語音評測技術國內首次應用大規模英語口語考試,主持的機器翻譯曾兩次獲國際比賽第一名。作爲主要負責人蔘加了863計劃重點項目、工信部電子信息產業發展基金項目等項目,在相關國際會議和期刊上有多篇學術論文,擁有十幾項專利和軟件著作權。

以下是採訪實錄,雷鋒網就全文進行了不改原意的刪減:

Q:在SQuAD之前還有哪些類似的數據集?相比SQuAD有什麼不足?

A:之前像Facebook、Google和微軟都有一些類似的測試和數據集,但都沒能起到像SQuAD這樣的影響。

像Facebook,他的特點是用機器去自動生成一些問題,這樣會有兩個缺點:第一,機器生成的問題集合不大;第二,用機器生成問題,再用機器去學習,這樣比較容易學到機器的Model;

Google Deepmind做過一個測試集,主要是在新聞領域上,主要是在新聞領域上,就是一個新聞前面有一個摘要,這個摘要和正文內容相近但又不完全一樣,把這裏面的一部分實體摳掉,然後就可以形成問題。缺點是有摘要的新聞數據不多;

還有微軟,之前還做了一個比較小的數據集叫MCTest,它和斯坦福的SQuAD比較接近,主要問題是數據集比較小,只有一百多篇文章,兩千來個問題。

所以大家爲什麼認爲SQuAD是閱讀理解的ImageNet?第一,它是通過衆包採用人工做出來的問題,第二,這個數據集特別大,所以很多單位都在圍繞着SQuAD做一些研究工作。

Q:閱讀理解是NLP領域裏一個比較關鍵的問題嗎?

A:對,這是公認的一個難題,也是大家認爲的一個非常重要的趨勢。它隱含的首先是精準的問答,這其實是NLP裏面一個比較經典的問題。我們知道的IBM Watson在「危險邊緣」和人類選手的PK,它其實更多的是知識的記憶,相對於機器,人很難記憶這麼多的知識點,但反而在對一篇簡單的文章的理解上機器還有着差距。

我們說一篇文章,它也可能有其他的形式,像在產品上就是一本說明書,在司法領域可能是一個電子卷宗,在醫療領域可能是一個人的病歷。基於這個東西去問你一個問題你要給出一個答案,這是一個非常有意義,也是非常難的事情。所以國際大部分主流研究團隊也在做這方面的工作,包括微軟、Google、蘋果、Facebook、百度、訊飛等。

Q:目前對於這種精準問答的研究進展到什麼程度?

A:這方面大家也做了很多的工作,但從目前來看總體的效果還不是能讓所有人滿意。因爲在認知推理方面,大家覺得現在機器還沒有達到人所具備的真實能力,像我們開始定義這個問題的時候,我們給這個項目起名叫「六齡童」,按我們評價效果來看,我們找了很多六歲也就是小學一年級的孩子來做對比評價,基本我們比小學一年級的水平要高一點點。

Q:iMageNet競賽已經有八年曆史,而SQuAD近兩年纔出來,爲什麼會有這樣的差別?

A:這與閱讀理解技術的突破有關。早期在做「理解」的做法更多是基於模塊去做,分析篇章和問題,然後拿分析的篇章和問題去找對應關係,這樣做整體錯誤就會特別多,這也是這個領域整體技術進展不大的原因。而近一兩年來隨着深度學習技術在自然語言領域的應用,大家都用深度學習技術來訓練、處理篇章和問題,開始取得了一些進展,所以大家纔開始去做源頭的東西也就是數據,斯坦福也是在這種潮流下推出的SQuAD。

Q:換言之,SQuAD的起點比ImageNet要高?

A:對。它主要是出來的時間晚一點,現在SQuAD纔到第二年,大家的模糊匹配結果(F1-Score)已經普遍做到百分之八十多了,但大家認爲這個事情希望做到百分之九十甚至以上的時候才能夠接近人類。我估計現在可能再有一年左右的時間,精確匹配(Exact Match)和模糊匹配(F1-Score)就能夠達到這樣的水平。

Q:再往後呢?比如說,95%或者99%?

A:像ImageNet一樣,它做到一定程度後可能就不會再做下去了。這有兩種類型,一種是技術可能會基本解決現在的問題,然後會繼續提出新的問題;另一種是在解決問題後會往產品化方向去做,例如我提到的電子卷宗和病歷的例子。

科大訊飛也在做一些產品化方面的嘗試。例如電子說明書,現在產品電子化程度越來越高,說明書越來越複雜,很多人在遇到問題的時候是不清楚的。我們也是把這塊技術和我們原來的語音交互系統結合,你去問一些問題,可能是像天氣或者聽音樂這樣的一些簡單的問題,但也有可能是更深入的一些服務,例如醫學推薦等更精確的解決方案。

Q:這次訊飛取得了第一名的成績,採用的方法和其他參賽者有什麼不同嗎?

A:從大的方向看大家可能都差不多,主流的做法都是用深度學習。原來的做法是,它會給出一些訓練集,包括包括篇章、問題和對應的答案,然後通過神經網絡去學習,自動構建找到問題和答案的對應關係的一個方式。但我們做法有兩點不一樣的地方,一個是我們的「基於交互式層疊注意力模型」,一開始她可能先鎖定住一些片段,然後通過多輪迭代的方式進行過濾,進一步鎖定篩選出更精準的一些內容,去除整篇文章的干擾,最終得出問題的答案。

第二,我們採用了模型融合的方式。對於問題我們會提出不同的模型,然後對這些模型進行一個融合(ensamble)。因爲我們知道,一般來說單一模型的性能並不是特別好,我們其實研究的是如何把多個不同機理的模型融合和在一起產生最好的效果。

我們在SQuAD這個數據集上面大概做了四個多月的時間。其他一些機構做得更久一些,像微軟從這個數據集開始設計的時候就參與了,做了一年多了吧。其他還有像Salesforce、國內的浙大、復旦都有參加,成績刷新得很快,基本兩週或者一個月就會被刷新一次。

Q:所以現在可能就是在看,誰能夠第一個突破一個比較重要的關口,比如說90%?

A:對。我們認爲90%是一個比較重要的關口,再往後的話我們就看第二關,就是誰能夠最先落地去應用。因爲就這個數據集本身來說,到了90%以後意義可能並不是特別大,最關鍵的還是能夠在真實的業務場景裏面把這個技術儘快落地。現在的數據也很大,但相對於工業級的數據來說還是偏小。

Q:工業級的大數據大概會是怎樣的一個量級?

A:像ImageNet這種數據量從科研角度來說還是很大的。可是到了工業級,比如說我們語音,工業級的數據量可能是原來的上百倍甚至上千倍,而且更重要的是,這是真實的數據,相對於科研上問When、Where、Who的問題,像How、Why這樣更復雜的問題一定會更多,如何去解決這種真實的問題,我覺得我們這真是萬里長征的第一步,拿現在的技術到工業應用上基本是不能直接用的。

Q : 除了這些現實應用的問題,訊飛在做這方面的研究還有遇到一些怎樣的挑戰,如何解決的?

A:從以單個詞爲答案的閱讀理解到目前以文章片段(短語或句子)作爲答案的閱讀理解最大的不同是要精準的控制答案的邊界。機器選擇答案的邊界容易多一個詞或少一個詞,這就會造成答案不夠精準。而人在做這類閱讀理解題的時候就不會出現這種問題,會去選擇語義單元較爲完整的文章片段。 我們在研究初期經常遇到這種問題,當時主要是通過對答案的邊界詞進行一些懲罰,例如對邊界出現介詞的情況懲罰等等。但在後期隨着模型效果提升,此類問題得到逐步緩解,這種懲罰的收益就不那麼明顯了。

Q:那麼解決問題的關鍵點是不是也是如何建模和調參數?訊飛在這方面有什麼經驗?

A:對,包含建模。我們雖然說神經網絡是一個黑盒子,但最關鍵的是,這裏面的技術是怎麼去組合的。我們在網上也公開了我們自己的模型結構,這裏麪包含兩個部分,第一是模型結構,決定了模型是否足夠優秀來解決問題;第二就是參數調整,參數調整上我們也有很多細節,我們在這裏就不展開了。

Q:訊飛已經做出了最好的閱讀理解系統,在未來還有怎樣的計劃?

A:哈工大訊飛聯合實驗室曾先後在Google DeepMind閱讀理解公開數據測試集、Facebook閱讀理解公開數據測試集取得世界最好成績,本次在SQuAD測試集再獲全球最佳,包攬了機器閱讀理解權威測試集的「大滿貫」。對訊飛來說,現在只是萬里長征的第一步,訊飛會繼續推進在自然語言領域更深層次的歸納、總結、推理的研究工作,往後訊飛也會在不同領域繼續探索閱讀理解技術應用落地的場景。

文章來源:雷鋒網