深度學習NLP的現有優勢與未來挑戰

 2017-10-06 07:44:56.0

選自NSR

參與:路雪、黃小天

近日,AI 技術大牛李航博士(已加入今日頭條)在《國家科學評論》(National Science Review,NSR)上發表了一篇題為《Deep Learning for Natural Language Processing: Advantages and Challenges》的論文,扼要地探討了深度學習NLP 的當前現狀與未來機遇。作者認為深度學習可通過與強化學習、推斷等技術的結合,進一步擴展 NLP 的邊界。

論文鏈接: https://academic.oup.com/nsr/article/doi/10.1093/nsr/nwx110/4107792/Deep-Learning-for-Natural-Language-Processing

1. 介紹

深度學習是指學習和利用「深度」人工神經網絡比如深度神經網絡(DNN)、卷積神經網絡(CNN)、循環神經網絡(RNN)的機器學習技術。目前深度學習已成功應用於自然語言處理(NLP)並取得了重大進展。本論文對深度學習在 NLP 方面的最新進展做了總結,並進一步探討了其優勢與挑戰。

我們認為 NLP 有五個主要任務:分類、匹配、翻譯、結構化預測、與序貫決策過程。對於前四個任務,深度學習方法的表現優於或顯著優於傳統方法。

端到端訓練與表徵學習是深度學習的核心特徵,這使其成為 NLP 的強大工具。但深度學習並非萬能,它在對解決多輪對話等複雜任務異常關鍵的推斷和決策上表現欠佳。此外,如何結合符號處理與神經處理、如何應對長尾現像等問題依然是深度學習 NLP 面臨的挑戰。

2. NLP 的進展

如上所述,我們認為 NLP 主要有五個任務:分類、匹配、翻譯、結構化預測、與序貫決策過程。自然語言處理中的絕大多數問題皆可歸入其中的一個,如表 1 所示。在這些任務中,單詞、詞組、語句、段落甚至文檔通常被看作標記(字符串)序列而採取相似的處理,儘管它們的複雜度並不相同。事實上,語句是 NLP 中最常用的處理單元。

最近發現,深度學習有助於解決前四個任務,並成為解決這些問題的當前最佳技術(比如 [1-8])。


表 1:NLP 的五個主要任務


表 2:不同方法在 NLP 問題上的表現對比

表 2 表明在示例問題上深度學習的表現已超越傳統方法。在所有的 NLP 問題中,機器翻譯的進展尤其引人注目。神經機器翻譯(使用深度學習的機器翻譯)的表現顯著優於傳統的統計機器翻譯。當前最佳的神經翻譯系統採用了包含 RNN [4-6] 的序列到序列學習模型。

此外,深度學習首次使某些應用變成可能。比如,深度學習成功應用於圖像檢索(又叫 text to image),首先使用 CNN 把查詢和圖像轉換成與 DNN 匹配的向量表徵,然後計算查詢和圖像的相關性 [3]。深度學習還可用於基於生成的自然語言對話,該任務中給出一句話,系統可以自動生成回答,該模型使用序列到序列學習進行訓練 [7]。

第五項任務中,序貫決策過程,如馬爾科夫決策過程,是多輪對話的關鍵問題。但是,深度學習對該任務有何貢獻尚未得到完全驗證。

3. 優勢和挑戰

深度學習應用於自然語言處理時具備很多優勢,也面臨許多挑戰,如表 3 所示。

表 3. 深度學習 NLP 的優勢和挑戰


3-1. 優勢

我們認為端到端訓練和表徵學習真正使深度學習區別於傳統的機器學習方法,使之成為自然語言處理的強大工具。

深度學習中通常可以執行端到端的訓練。原因在於模型(深度神經網絡)能夠提供充足的可表徵性,數據中的信息能夠在模型中得到高效「編碼」。比如,在神經機器翻譯中,模型完全利用平行語料庫自動構建而成,且通常不需要人工干預。與傳統的統計機器翻譯(特徵工程是其關鍵)相比,這是一個明顯的優勢。

使用深度學習,數據可以有不同形式的表徵,比如,文本和圖像都可以作為真值向量被學習。這使之能夠多模態執行信息處理。比如,在圖像檢索任務中,將查詢(文本)與圖像匹配並找到最相關的圖像變得可行,因為所有這些都可以用向量來表徵。

3-2. 挑戰

深度學習還面臨著更普遍的挑戰,比如,缺乏理論基礎和模型可解釋性、需要大量數據和強大的計算資源。而 NLP 需要面對一些獨特的挑戰,即長尾挑戰、無法直接處理符號以及有效進行推斷和決策。

自然語言數據通常遵循冪律分佈(power law distribution)。因此,詞彙量隨著數據規模的增加而增加。這意味著不管有多少訓練數據,通常都會存在訓練數據無法覆蓋的情況。如何處理長尾問題對深度學習來說是一個巨大挑戰。僅僅憑藉深度學習解決該問題比較困難。

語言數據是自然符號數據,和深度學習通常使用的向量數據(真值向量)不同。目前的方法是,先將語言中的符號數據轉換成向量數據,然後輸入神經網絡中,再把神經網絡的輸出轉換成符號數據。事實上,自然語言處理的大量知識都是符號的形式,包括語言學知識(如語法)、詞彙知識(如 WordNet)和世界知識(如 Wikipedia)。目前,深度學習方法尚未有效利用這些知識。符號表徵易於解釋和操作,而向量表徵對歧義和噪聲具有一定的魯棒性。如何把符號數據和向量數據結合起來、如何利用二者的力量仍然是 NLP 領域一個有待解決的問題。

自然語言處理領域有很多複雜任務,這些任務可能無法僅使用深度學習來輕鬆完成。例如,多輪對話是一個非常複雜的過程,涉及語言理解、語言生成、對話管理、知識庫訪問和推斷。對話管理可以正式作為序貫決策過程,其中強化學習發揮關鍵作用。很明顯,把深度學習和強化學習結合起來可能有利於完成任務。

總之,深度學習 NLP 仍然面臨許多待解決的挑戰。深度學習與其他技術(強化學習、推斷、知識)結合起來將會進一步擴展 NLP 的邊界。

參考文獻

1. P Blunsom, E Grefenstette and N Kalchbrenner. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, Baltimore USA, 655-65, 2014.

2. B Hu, Z Lu and H Li et al. Advances in Neural Information Processing Systems 27, Montreal Canada, 2042-50, 2014.

3. L Ma, Z Lu and L Shang et al., Proceedings of International Conference on Computer Vision, Santiago, Chile, 2623-31, 2015.

4. K Cho, B Van Merriënboer and C Gulcehre et al. Proceedings of Conference on Empirical Methods in Natural Language Processing, Doha, Qatar, 1724-34, 2014.

5. D Bahdanau, K Cho and Y Bengio. Proceedings of the 3rd International Conference on Learning Representations, San Diago USA, 2015.

6. Y Wu, M Schuster and Z Chen et al. CoRR, vol. abs/1609.08144, 2016.

7. L Shang, Z Lu and H Li. ACL-IJCNLP'​​15, Proceedings of the 53th Annual Meeting of Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, Beijing, China, 1577-86, 2015.

8. D Chen and C D. Manning. Proceedings of Conference on Empirical Methods in Natural Language Processing, Doha, Qatar, 740-50, 2014.

文章來源:機器之心