專訪MSRA副院長周明:中國NLP如何躋身世界頂尖水平?

 2017-12-17 17:22:00.0

按:近期中國計算機學會(CCF)舉辦的第六屆自然語言處理及中文計算大會(NLPCC 2017)在大連成功舉辦。作爲國內 NLP 領域首個面向國際的大會,NLPCC 無論從會議的形式、參會的人數、還是報告的質量,都展現出了一副朝氣蓬勃的氣象,欲有引領中國 NLP 走向國際之勢。

爲深入瞭解中國當前 NLP 的發展狀況及前景、CCF 在 NLP 方向的努力,以及 NLPCC 會議的發展情況,我們對 CCF 中文信息技術專委會主任、微軟亞洲研究院副院長周明(同時他也是中國中文信息學會(CIPS)的常務理事和國際計算語言學會 ACL 的候任主席)和 CCF 中文信息技術專委會祕書長、北京大學趙東巖教授(我們將隨後報道)進行了專訪。

本文主要內容爲周明博士站在 CCF 中文信息技術專委會角度對 NLP 研究進展及中國 NLP 發展現狀及前景的深入介紹。他的開場白是這樣的:

目前各國政府(包括美國、德國、日本、中國等)都在制定一些人工智能的規劃,但中國對人工智能的規劃最爲清楚。結合國務院的《中國人工智能發展規劃》(2017 年 7 月)和總書記《十九大報告》(2017 年 10 月)相關的內容,可以看出,中國把人工智能的發展規劃爲兩個階段,第一個階段是 2020 年進入世界先進水平,第二個階段是 2030 年達到頂尖水平。

我們國內的自然語言處理,跟國家對人工智能的規劃基本上是同步的。也就是說,我們到2020年進入到世界先進水平,期待着在2030年達到世界頂尖水平。
先進水平跟頂級水平有什麼大的差別呢?先進水平是你追隨世界最發達的國家,你也掌握所有的關鍵技術,但是你不是關鍵技術的提出者,也就是你不是領跑者;頂級水平實際上是你在領跑,你告訴全世界往哪個方向走,你提出了關鍵的理論模型,而別人在follow你。差就差在這一點。
在NLP領域,我們中國現在是很好的追隨者,國際上(主要是美國)一旦出現任何技術,我們馬上就學習掌握,而且快速應用起來,應用的比美國都不差。現在差就差在我們不是最先提出這個技術和方法的。所以我們CCF 中文信息技術專委會認爲現在我們也可以說基本上在世界先進水平了, 三年後即2020年將全面達到世界先進水平。在此基礎上,我們期待2030年達到世界頂級水平。這是我們的願景。

以下爲周明博士的深入講解,我們根據採訪內容作了不改變原意的精簡和編輯,以饗讀者。

一、NLP是認知智能的核心

問:NLP在整個AI領域中處於什麼樣的位置?

周明:近年來,人工智能由於大計算、大數據、算法模型(以深度學習爲代表)以及落地場景四大要素的齊備,進入了一個高速發展的時期。其主要發展方向:感知智能和認知智能。

所謂感知智能,即視覺(圖像)、聽覺(語音)等的感知能力。大家都知道感知智能突飛猛進,像圖像識別的 ImageNet 的評測,語音識別的 Switchboard 評測等,它們都已經達到了甚至超過了人類在該測試集的水平。這方面的研究進展也推動了很多應用的發展,例如安防、人臉識別、物體檢測,以及語音識別在手機、智能家居等設備上的應用。

認知智能,通俗講就是「能理解會思考」。認知智能有很多東西,其內核包括語言智能、知識圖譜、用戶畫像等。在此基礎上,支持幾個方面的應用,例如智能寫作、聊天對話、詩歌創作、文本生成、遊戲博弈等。有的做的很好,比如 AlphaGo 爲代表的博弈系統;但有的還差強人意。目前認知智能相對於感知智能總體上來講在引入深度學習方面落了半拍,但目前處於奮起直追的狀態。比如,神經機器翻譯的質量越來越好,聊天系統、人機對話也越來越好。

自然語言理解是處在認知智能最核心的地位。它的進步會引導知識圖譜的進步,會引導對用戶理解能力的增強,也會進一步推動整個推理能力。在此基礎上,聊天、解題、翻譯、對話等也都會得到進步。認知智能一旦進步,加上感知智能的進步,整體的人工智能就會進一步發展。

比爾·蓋茨曾經說「語言理解是人工智能皇冠上的明珠」,沈向洋博士也說過「懂語言者得天下」,都是在強調 NLP 的重要性。自然語言處理的技術會推動人工智能整體的進展,從而使得人工智能技術可以落地實用化。

二、NLP未來五到十年發展

:NLP在未來五到十年將會如何發展?

周明:大致有這麼幾個方向:1)問答和閱讀理解的進步會使得搜索引擎更加精準;2)語音識別和神經機器翻譯會使得口語機器翻譯會完全實用;3)由於用戶畫像的精準和實時性的提高,推動信息服務和廣告更加自然、友好和個性化;4)聊天、問答和對話技術提高,推動自然語言會話達到實用;5)由於對話技術和知識圖譜的進步,使得智能客服與人工客服更加完美結合,從而大大提高客服效率;6)由於自然語言生成技術的進步,使得自動寫詩、作曲、自動生成新聞甚至小說會流行起來;7)人機對話的進步推動語音助手、物聯網、智能硬件、智能家居的普及;8)最後是 NLP+,就是 NLP 在金融、法律、教育、醫療等垂直領域得到廣泛應用。

以搜索引擎智能化爲例。以前的搜索引擎,輸入關鍵詞返回來一堆東西,你需要自己去看。隨着自動問答、閱讀理解等能力的提高,現在的搜索引擎,你可以問個問題,句子長一點也不怕,它能夠分析這個問句,把答案從浩如煙海的文檔中找出來;甚至不只是給你一個文檔鏈接,它還能夠把答案直接給你,搜索引擎的結果也越來越精準。

:未來NLP研究需要關注哪些方向?

周明:我個人比較關心以下幾點:1)通過用戶畫像實現個性化服務;2)通過可解釋的學習洞察人工智能機理;3)通過知識與深度學習的結合提升學習效率;4)通過遷移學習實現領域自適應;5)通過強化學習實現不斷進化;6)通過無監督學習充分利用未標註數據;7)多媒體和多模態之間的理解、問答、轉換。

三、中國NLP研究穩居世界第二

:中國目前在NLP領域的發展處於什麼樣的狀態?

周明:中國 NLP 的發展有兩個方面,一個是科研水平、一個是產業化。在 NLP 產業化方面,中國做的不錯,比如搜索引擎、電子商務、新聞網站、機器翻譯、智能音箱的技術體系中,NLP 居核心地位。我下面重點介紹一下中國 NLP 的科研水平。

以 ACL 爲例,ACL 是世界上自然語言處理領域最高級別的學術會議。大概 20 年以前,中國沒有一篇 ACL 文章。在 1998 年,清華大學黃昌寧教授課題組發表了第一篇 ACL 文章。那時候中國在 NLP 方向的研究基礎薄弱,日本、韓國,甚至中國的臺灣、香港地區都比中國大陸在 ACL 上發表的文章多很多。

微軟中國研究院(注:後改名爲微軟亞洲研究院)在 1998 年 11 月成立之後,大大地帶動了 NLP 在中國的發展。歷屆院長都號召大家要走向國際,鼓勵研究院的研究員們跟高校和有關學會合作,大家一起努力推動中國的研究水平。微軟研究院通過聯合實驗室、暑期學校、實習生計劃幫助中國培養了大批 NLP 人才。

同時 CIPS、CCF 等學會組織各類講習班、學術會議,引進國際先進的理論和技術,大大地促進了本土 NLP 的提高。在文章發表方面,中國 NLP 人士也不斷努力提高在 ACL 的影響力。中國政府在 NLP 領域通過自然科學基金、863 和 973 等計劃加強了投資和引導。通過各界的努力,經過過去 20 年左右的快速發展,中國已經成爲 ACL 裏排名第二的國家。

近五年來中國在 ACL 上的文章數量(包括長文和短文),穩居第二位,僅次於美國。長文方面,跟美國的距離大概在 20 到 30 篇;同時遠超其他所有國家,包括日本、韓國、德國、英國等,原來中國是不能望這些國家的項背的。如果未來中國 ACL 長文數目持續增長,就有可能在三年內趕上美國。由於中國 NLP 發展勢頭良好,這是一個可以期待的目標。

若以華人的文章來算,2014 年華人第一作者的文章佔 ACL 總文章數的 36%,之後逐年提高,今年是 40% 這裏面除了中國本土的人士,很多是中國留學生。

從以上的數字看,中國的 ACL 文章確實已經躍居世界前列了。這是非常驚人的一個結果。20 年以前中國只有一篇 ACL 文章,而如今已經穩居世界第二。

除了文章數量外,中國 ACL 文章的質量也有很大提高。比如 2017 年 ACL 的 22 篇傑出論文中,來自中國的五篇文章入列。

在國際活動的參與中,中國也越來越活躍。例如 ACL 執委會有 13 位執委,其中 3 位是來自中國,中國大陸有我和百度的趙世奇;我是 ACL 侯選主席(注:將於 2019 年上任),趙世奇是祕書長,來自臺灣的張景新是首席 IT 官。

另外,來自中國的贊助總數和贊助商的數目也接近美國;從參會人數上看,我們也是位居第二。

NLP 領域其他重要的會議,比如 COLING 或者 EMNLP,情況也大致類似。

所以中國是當之無愧的 NLP 第二強國。

CCF 在這裏面做了很多貢獻。CCF 中文信息技術專委會組織了 NLPCC 這樣的學術大會,組織了 ADL 講座,組織了多次走進高校活動。在 NLPCC 大會上還專門組織了學生 workshop,講授如何做研究和寫論文。CCF 還跟 CIPS 緊密合作輪流主辦語言與智能峯會。這個峯會有效地促進 NLP 領域發展,提升它在社會上的影響力。

當然我們目前也有一些問題仍待改進。這表現在:1)在中國舉行的 NLP 領域的國際會議或活動較少;2)來自中國的 ACL 的會員比較少;3)在國際 NLP 大會中,來自中國的特邀報告、最佳論文、SIG 主席、workshop 主席、tutorial 講者等較少;4)來自中國的論文,雖然數量居第二,但是很多文章多多少少有追隨別人的味道,期待將來來自中國的文章可以更多地體現引領的趨勢。

四、中國NLP迅速崛起的原因

:是哪些因素導致我國NLP迅速進展?

周明: 第一,整個國家在上升的趨勢發展,無論是工農業,還是國民經濟或者綜合國力等。第二,我們跟國際接軌越來越好,比如我們的 NLPCC 大會的工作語言是英文,大會主席、程序委員會主席和各個領域主席,都設兩位共同主席,一位來自國內,一位來自國外。第三,中國的高校和公司通過培養和引進,吸納了大批優秀的 NLP 人才。

尤其要提一下外企和國內互聯網企業對 ACL 的貢獻。比如,微軟亞洲研究院跟國內和亞洲地區很多高校全方位的合作包括暑期學校聯合實驗室聯合培養博士生、實習生計劃等等,培養了大批 NLP 人才。比如 18 年來微軟研究院培養的 NLP 領域的實習生已經有 450 人之多。這些人來自全國各地,經過在微軟實習鍛鍊後,又回到各個高校,然後加入公司或者學校任職,成爲領軍任務,又帶動下一波人才的成長,不斷推動這個領域的發展。

應該指出的是,百度、阿里、騰訊、京東、今日頭條等大型互聯網公司,以及很多新銳公司(比如出門問問、國雙、奇點機智、小牛翻譯、思必馳、新華智雲等許多公司)也在各方面對國內 NLP 發展做出了非常大的貢獻。我代表 CCF,非常的感謝這些國內外企業對 NLP 領域的發展和取得的進步做出的貢獻。

:NLP領域日、韓等國比中國發展的更早一些,爲什麼現在相對中國它們會落後很多呢?

周明:我認爲有幾個因素。第一個因素就是互聯網時代中國抓住了中國互聯網的發展和機遇,很多其他國家在互聯網方面(尤其是移動互聯網、電子商務、搜索等方面)相對落後。舉個例子,很多國家沒有自己的搜索引擎,而中國有很多,像百度、搜狗以及微軟本地化的必應。搜索引擎對自然語言的推動作用非常之大,因爲它對問題理解、文章理解、問答、翻譯的需求,促進了相關 NLP 技術的發展。同時它的巨大經濟價值,也吸引了很多人在這個領域投資做研究,做產業化。一個國家沒有搜索引擎,NLP 方面自然就會落後。

另一個因素是數據。中國擁有世界上最大的數據,有 8 億多移動互聯網用戶,有大量的電子商務數據,這些數據會幫助研究和技術的發展。

第三是政府在這方面的作用。國家在世界經濟鏈條中的地位,會導致在互聯網和移動互聯網的時代,尤其是現在的人工智能時代所擁有的地位。中國現在由於是 GDP 第二大國,在互聯網時代趕上了這個潮流,尤其在移動互聯網時代中國甚至引領了潮流。中國政府制定相關的規劃,支持並引領技術和產業的發展。所以期待在人工智能時代中國能夠超越其他國家,成爲頂級的人工智能發達國家。跟人工智能有關的研究也會得到相應的帶動,包括 NLP。

:除中、美外,NLP領域哪些國家做的比較好?

周明:如果按 ACL 算,美國、中國、英國、德國、日本、韓國、加拿大都有自己的特色。英國的愛丁堡大學、牛津大學他們在自然語言研究方面有很好的特色。

NLP 在加拿大也有很好的發展。雖然它從事自然語言的人相對較少,中國僅北京地區搞 NLP 的人就遠比整個加拿大從事 NLP 的多很多,但是它提出了很多引領世界的方法,比如用於神經機器翻譯、機器閱讀理解的新方法。在理論創新方面值得中國學習。

五、如何成爲NLP強國

:中國下一步該如何提升自己在NLP方向的研究或者應用?

周明:這要從幾個方面來說。

首先,我覺得要抓住中國發展的良機。1)數字化轉型。現在中國講究數字化轉型,各企業、各行業要數字化,有了數字化你纔能有人工智能。但很多企業連數字化都沒有做好,所以這裏孕育着很多機會。2)AI 熱潮。AI 熱潮帶動市場投資需求,人才、數據進一步發展,這是一個非常好的良機,所有搞 NLP 的人應該乘勢而上。

其次,要抓好普及。雖然我們國內有很多搞 NLP 的高校,但是有很多學校還屬於相對落後,對最新的技術理解不夠,很多高校(尤其西部高校)基礎相對薄弱,所以我們要搞好普及。CCF 專委會專門有一個工作小組,叫「走進高校小組」。響應 CCF 的號召,我們自然語言學者也走進高校。我們已經去了很多高校(例如西藏大學),去講授人工智能、自然語言的發展、最新的的技術等,呼籲更多的學生學習人工智能和自然語言。

專訪MSRA副院長周明:中國NLP如何躋身世界頂尖水平?

注:AI 科技評論公衆號(ID:aitechtalk)某篇代表性的AI 文章的閱讀分佈,西部地區常常呈兩位數(甚至個位數)的狀態。這某種程度上也反映了國內 AI 工作者的分佈情況。

第三,拔尖人才的吸引和培養。首先,吸引國際拔尖人才到中國來,通過回國參加會議或者合作,瞭解中國的發展現狀,加強和國內高校和企業的交流,最終希望能有一部分人才被國內的發展機會吸引從而留下來。另外更加重要的是,通過學校的學位培養模式,同時利用公司的實習渠道,來培養更多具備紮實的理論基礎和實戰經驗的優秀人才,甚至高水平的領軍人才。

第四,促進我們中國的研究走向國際化。包括 CCF 辦的 NLPCC。過去幾年都是在中國舉辦,未來我們也會考慮到新加坡、日本、韓國,甚至美國去開會,把我們中國原生的研究帶到全世界去,尤其是要引領在國際中文計算領域的潮流。

第五,加強創新。包括 1)理論創新。例如發展無監督的機器學習算法,利用上下文和用戶畫像來增強 NLP 任務建模,綜合知識和數據來提升 NLP 系統的能力等等;2)開闢學科交叉的新領域,比如 NLP 和圖像和視頻的交叉。還有深入研究 NLP 在重要的垂直領域的廣泛應用;3)產品創新,通過軟硬件結合,結合具體場景,提升用戶體驗。

第六,要注重數據和工具共享,注重評測。CCF 以及我們的中文計算專委會目前已經專門成立了數據工作組,把數據分享給大家來使用,做訓練、做評測等。比如 NLPCC2017 所組織的詞彙語音關係識別、短文本分類、單文檔文摘、問答和用戶畫像吸引了很多學校和公司參加。

第七,促進產學研大協作。通過 CCF 以及其他一些平臺,吸引工業界的人士加入到我們的研究過程中,通過各種合作來促進公司的產業發展,也同時促進高校的學術發展。

最後,就是中國要考慮在國際會議和組織中發揮更大的影響力。包括多組織和承辦國際一流會議,多爭取擔任國際一流學會的執委會委員、大會主席,程序委員會主席和領域主席,把中國的影響力更多地發揮出來。

需要指出的是,雖然中國 NLP 發展勢頭良好,但是我們還面臨很多困難。需要政府、學校、科研機構、公司、有關學會還有社會各界人士繼續努力。尤其是加強理論創新、探索學科交叉和垂直領域的新機會,才能逐步從跟隨者到引領着過渡。我相信,如果所有這些措施都能夠很好地落實,下一步中國的 NLP 一定會穩步地向更高的目標發展,最終一定會躋身於世界 NLP 的頂尖水平。

相關文章:

MSRA 首席研究員周明博士當選 ACL 候任主席

微軟副院長周明:NLP目前存在的問題、以及未來的發展方向


文章來源:雷鋒網