上海科技大學屠可偉團隊:小談無監督依存句法解析

 2017-09-19 09:50:00.0

上海科技大學屠可偉團隊:小談無監督依存句法解析

雷鋒網AI科技評論按:本文作者蔣勇爲上海科技大學博士生,師從屠可偉博士。本文爲蔣勇接受雷鋒網(公衆號:雷鋒網)AI科技評論獨家約稿撰寫的工作介紹,未經許可不得轉載。

自然語言總有豐富的內部結構信息,而這些信息一般都是通過解析樹(parse tree)來進行表示。一般而言,我們把從一個句子到句法樹的這一過程稱爲句法解析(parsing)。

句法解析有很多種形式,最爲常用的是基於短語的句法解析(constituency parsing)和依存句法解析(dependency parsing)。句法解析作爲自然語言處理(NLP)的基礎任務之一,可以幫助很多其它的任務,包括機器翻譯(machine translation),句子分類(sentence classification)和語義角色標註(semantic role labeling)等。

可是,句法解析的標註數據通常很少而且解析樹需要專業的語言學家來進行標註。因此,如何通過未標註數據來學習一個句法解析器就很重要。我們組這兩年在無監督依存句法解析做了一些研究,分別在自然語言處理國際頂級會議EMNLP 2016和EMNLP 2017上有四篇相關工作。

無監督依存句法解析的研究歷史

在2004年之前,無監督句法分析有一些研究工作,但是效果都不好(甚至超不過從左連到右(right-branching)和從右連向左(left-branching)這倆baseline)。

第一個取得突破性進展的是來自Stanford的NLP組。當時Dan Klein還在 Stanford跟隨Chris Manning讀博士,主要的研究方向就是無監督句法分析,其2004年在ACL發表的工作提出的Dependency Model with Valence (DMV)生成式模型首次超過了branching的baseline。Dan Klein天才式的直覺使得其在無監督句法解析上獲得突破性進展,並在畢業後擔任UC Berkeley的助理教授,領導Berkeley NLP Group。

DMV 模型提出後,有很多改進的工作。來自Johns Hopkins的Noah Smith當時正在跟Jason Eisner讀博士,他對DMV的目標函數和學習方式做了一些改進,把英文句法解析的效果提高了近20個百分點。2006年他以傑出的工作在博士畢業後任職CMU的助理教授(現在在UW)。

Shay Cohen是Noah Smith在CMU指導的第一屆博士生之一,他把Bayesian方法引入DMV模型的訓練中,發表了一系列工作,畢業後在Michael Collins做了一段時間Post Doc然後加入University of Edinburgh任助理教授。

自Dan Klein畢業後,Stanford的Daniel Jurafsky組的Valentin I Spitkovsky繼續從事這一方向的研究,提出了baby step learning,viterbi EM training等方法來訓練DMV模型,因其提出的方法簡單有效,後續有很多基於viterbi EM training的工作。

無監督句法解析任務設定

下圖是傳統句法解析的步驟,左圖是原始句子,中圖是詞性標註後的結果,右圖是解析出的句法樹:

上海科技大學屠可偉團隊:小談無監督依存句法解析


因爲無監督句法解析這個任務比較困難,我們一般用標註後的詞性序列(POS Tag sequence)作爲訓練數據,而不是原始的句子。

生成式模型的訓練

(一篇發表在EMNLP 2016上,一篇發表在EMNLP 2017上)

DMV是一個句子級別的生成模型,建模句子x和句法樹y的聯合概率分佈P(x, y)。從根節點開始遞歸地生成句子中的詞。下面是一個詞性序列生成過程的例子:

上海科技大學屠可偉團隊:小談無監督依存句法解析


這個生成過程有10個採樣步驟,每一步生成一個詞或者做一個是否繼續生成的決策。這裏採樣的概率在原始的DMV模型裏是用一些表來建模,我們在EMNLP 2016提出使用神經網絡來計算這些概率,同時,把離散的詞,方向等通過embedding來表示。如下圖所示,輸入是詞性,valence和方向,輸出是規則的概率集合,我們把模型稱爲Neural DMV (NDMV)。

上海科技大學屠可偉團隊:小談無監督依存句法解析


在我們瞭解的範圍內,這是第一次把神經網絡用在無監督句法解析上。學習的過程也很簡單:

上海科技大學屠可偉團隊:小談無監督依存句法解析


學習是期望最大化(EM)算法的變種,E步使用動態規劃得到每個grammar rule的使用次數,M步分爲兩部分:

  • 第一部分是通過grammar rule的使用次數訓練神經網絡的參數;

  • 第二部分是通過神經網絡預測grammar rule的概率,以此循環直至收斂。

下圖是我們在PTB上的實驗效果,可以發現我們在相同設定下取得了目前最好的效果:

上海科技大學屠可偉團隊:小談無監督依存句法解析


我們知道,大模型和大數據是深度學習成功的關鍵,因此我們也想在無監督句法解析上大模型和大數據的關係。我們對NDMV進行了拓展,引出詞的信息,並在多種大小數據集上進行了實驗,有了以下三個實驗發現,發表在EMNLP 2017上:

下圖是在傳統DMV模型上的實驗,我們發現在相同數據下隨着degree of lexicalization的增加(模型變大),效果變差。但是隨着訓練數據的增加,效果有所提升。

上海科技大學屠可偉團隊:小談無監督依存句法解析


當我們用神經網絡來smooth這個概率分佈後,明顯發現在少量數據下隨着degree of lexicalization的增加效果下降的不那麼嚴重了。

 上海科技大學屠可偉團隊:小談無監督依存句法解析


當我們使用更好的模型初始化方法(’expert’ initialization)時,我們發現隨着數據集的增大和degree of lexicalization的提高,效果有了明顯提升。

上海科技大學屠可偉團隊:小談無監督依存句法解析


下圖是我們在WSJ10數據上的表現:可以看到,我們在WSJ10上取得目前最好的效果,在完整的WSJ數據上也表現的不錯。


 上海科技大學屠可偉團隊:小談無監督依存句法解析

判別式模型的訓練

(發表在EMNLP 2017上)

幾乎所有之前的工作都是在生成式模型(如DMV)上做的,生成式模型有優點也有相應缺點,比如不能很好地建模上下文的信息。我們在這篇文章中提出了一種新的判別式模型來做無監督句法解析:條件隨機場自編碼器(CRF Autoencoder)。

下圖是我們提出模型的一個例子。CRF Autoencoder包括兩部分:encoder和decoder。Encoder是一個基於CRF的Discriminative模型,Decoder是一個基於詞的bigram生成模型。模型的輸入是詞序列(用x來表示),隱藏層是輸入詞對應的父親詞序列(用y來表示),輸出是重建的詞序列(用上海科技大學屠可偉團隊:小談無監督依存句法解析來表示)。

上海科技大學屠可偉團隊:小談無監督依存句法解析


給定一系列未標註的數據樣本,我們訓練的目標函數是(帶正則項的)重建概率:

上海科技大學屠可偉團隊:小談無監督依存句法解析


注意這裏我們與原始CRF-Autoencoder的區別在於,我們是尋找條件聯合概率最大的y而不是窮舉所有可能的y。爲了鼓勵學習到的句法樹符合一些語言知識,我們在這個目標函數上添加了一個軟限制條件,最後的目標函數如下:

上海科技大學屠可偉團隊:小談無監督依存句法解析


這裏的Q(x, y)是一個對(x, y)對進行打分的項。我們提出使用座標下降法來優化這個目標函數:交替優化encoder的參數和decoder的參數。在優化encoder的參數時,我們跑兩個epoch的隨機梯度下降;在優化decoder時,我們跑兩輪維特比EM算法。

我們在八個語言上進行了測試,下表是在英語上的結果:

上海科技大學屠可偉團隊:小談無監督依存句法解析


可以發現,我們的模型比2015年提出的另外一種判別式模型效果要好,跟目前最好的效果相當。 

生成式和判別式模型的聯合訓練

(發表在EMNLP 2017上)

通過以上的分析我們知道,生成式模型和判別式模型在無監督句法分析上具有各自的優勢。在這一篇論文裏,我們提出聯合訓練這兩個模型。聯合訓練的目標函數是:

 上海科技大學屠可偉團隊:小談無監督依存句法解析 

這裏的F和G分別代表兩個模型,F是LC-DMV而G是Convex-MST。各自優化的目標函數是:

上海科技大學屠可偉團隊:小談無監督依存句法解析


我們提出利用座標下降來優化這個目標函數:交替優化y和兩個模型的參數。在優化y的時候,對於每一個句子我們需要進行解碼(decoding),這裏我們利用對偶分解算法來求解。整個學習過程如下所述:

上海科技大學屠可偉團隊:小談無監督依存句法解析


我們在30個語言上驗證了我們的聯合訓練方法,最終效果如下所示:

上海科技大學屠可偉團隊:小談無監督依存句法解析


實驗發現,聯合訓練可以分別幫助兩個模型得到更好的效果,有趣的是生成式模型最終效果比判別式的好。同時我們也做了一些實驗的分析,發現聯合訓練後兩個模型確實可以相互取長補短,學到對方一些好的特性。

最後想介紹一下上海科技大學屠可偉老師研究組。我們的研究組主要從事自然語言處理、機器學習、知識表示等人工智能領域的研究,近兩年在EMNLP、IJCAI、AAAI、ICCV等頂級會議上發表了十餘篇論文,現招收碩士研究生和博士後,歡迎對自然語言處理和機器學習有興趣的同學聯繫屠可偉老師。

更多信息請訪問:http://sist.shanghaitech.edu.cn/faculty/tukw/

上海科技大學屠可偉團隊:小談無監督依存句法解析

文章來源:雷鋒網