計算語言頂會ACL 2018最佳論文公佈！這些大學與研究員榜上有名

2018-06-11 12:00:34.0

ACL 2018 獲獎名單如下：

最佳長論文

1. Finding syntax in human encephalography with beam search（尚未公開）

作者：John Hale、Chris Dyer、Adhiguna Kuncoro、Jonathan Brennan

2. Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

作者：Sudha Rao、Hal Daumé III 均來自於馬里蘭大學帕克分校。

3. Let’s do it 「again」: A First Computational Approach to Detecting Adverbial Presupposition Triggers

作者：Andre Cianflone、Yulan Feng、Jad Kabbara、Jackie Chi Kit Cheung，來自於麥吉爾大學和 MILA。

最佳短論文

1. Know What You Don’t Know: Unanswerable Questions for SQuAD.（尚未公開）

作者：Pranav Rajpurkar、Robin Jia、Percy Liang

目前，該論文尚未公開，但三位研究員都來自斯坦福大學。

2. ‘Lighter’ Can Still Be Dark: Modeling Comparative Color Descriptions.（尚未公開）

作者：Olivia Winn、Smaranda Muresan

該獲獎論文的兩位作者來自於哥倫比亞大學。

在本文中，機器之心對兩篇已公開的獲獎論文進行了編譯介紹，感興趣的同學可以查看原論文：

論文 1： Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

論文地址：https://arxiv.org/abs/1805.04655

摘要：詢問對於交流而言是很基礎的，然而機器無法與人類進行高效協作，除非它們可以學會問問題。在這項研究中，我們爲給澄清性（clarification）提問排序的任務構建了一個神經網絡模型。該模型受完美信息期望值的思想啓發：一個問題好不好在於其期望的回答是否有用。我們使用了來自 StackExchange 的數據來研究這個問題，StackExchange 是一個豐富的在線資源，人們通常在帖子中詢問澄清性問題，從而他們可以更好地爲帖子樓主提供幫助。我們創建了一個由大約 77000 個澄清性問題帖子構成的數據集，其中每個帖子包含一個問答對，這些帖子來自 StackExchange 的三個領域：askubuntu、unix 和 superuser。我們在該數據集的 500 個樣本上通過和人類專家判斷對比對我們的模型進行了評估，並在受控基線上實現了顯著的提高。

提問的核心目標是填補信息鴻溝，該過程通常通過澄清性問題進行。我們認同好的問題是其答案最可能有用的問題。考慮到圖 1 中的信息交流，其中樓主（我們叫他 Terry）就配置環境變量提問。這個帖子不夠細化，一個回覆者（Parker）問了一個澄清性問題（如下 a），不過也可以問問題（b）或（c）。

（a）你使用的是哪個版本的 Ubuntu？

（b）你的無線網卡型號是什麼？

（c）你是在 x86 64 架構上運行 Ubuntu 14.10 kernel 4.4.0-59- generic 嗎？

Parker 不應該問（b）因爲答案可能沒什麼用；也不應該問（c）因爲這個問題太具體了，「No」或「I do not know」這樣的答案也沒什麼用處。Parker 的問題（a）就好多了：答案有用的可能性高，且對於 Terry 來說是可以回答的。

圖 1：更新在線問答論壇「askubuntu.com」上的帖子來補充評論中缺失的信息。

圖 2：我們的模型在測試過程中的行爲：給出帖子 p，我們使用 Lucene 檢索出 10 個與 p 類似的帖子。對這 10 個帖子提問的問題是我們的候選問題 Q，對這些問題的答覆是我們的候選答案 A。對於每個候選問題 q_i，我們生成答案表徵 F(p, q_i)，並計算候選答案 a_j 與答案表徵 F(p, q_i) 之間的接近程度。然後我們計算帖子 p 的效用，並確定是否使用答案 a_j 對它進行更新。最後，我們根據公式 1，按照問題的期望效用對候選問題 Q 進行排序。

圖 3：答案生成器的訓練過程。給定一個帖子 p_i 和問題 q_i，我們生成答案表徵，其不僅與原始答案 a_i 很接近，而且在候選問題 q_j 與原始問題 q_i 接近的情況下答案表徵與候選答案 a_j 也很接近。

實驗結果

我們在實驗評估過程中使用的主要研究問題是：

1. 神經網絡架構是否比非神經網絡基線模型有所改善？

2. EVPI formalism 是否能影響有類似表徵力的前饋網絡？

3. 答案有助於識別正確的問題嗎？

4. 在候選問題（不包括原始問題）上評估模型時，模型性能如何？

表 2：在 500 個樣本上評估的模型性能，包括「最佳」標註的並集（B1 ∪ B2）、「有效」標註的交集（V1 ∩ V2），以及數據集中和帖子配對的原始問題。加粗和非加粗數字的區別在於統計顯著性 p＜0.05（使用自引導檢驗計算）。p@k 是模型排序最高的 k 個問題的精度，MAP 是模型預測排序的平均精度。

結論

我們爲學習給澄清性問題排序構建了一個新的數據集，併爲求解該任務提出了新的模型。該模型結合了著名的深度網絡架構和完美信息期望值的經典概念，可以從提問者的角度爲實用的選擇有效地建模：如果我問了這個問題，我應該如何設想對方的回答。這種實用原則近期被證明在其它任務中也有用（Golland et al., 2010; Smith et al., 2013; Orita et al., 2015; Andreas and Klein, 2016）。人們可以自然地將我們的 EVPI 方法擴展到完全的強化學習方法，以處理多回合的對話。實驗結果表明 EVPI 模型對於求解問題生成任務而言是有潛力的範式。

論文 2：Let’s do it 「again」: A First Computational Approach to Detecting Adverbial Presupposition Triggers

論文地址：https://www.cs.mcgill.ca/~jkabba/acl2018paper.pdf

摘要：我們介紹了預測狀語預設觸發語（如 also、again）的任務。解決這樣的任務需要檢測語篇中的重複或類似事件，並且在自然語言生成任務中有應用，例如摘要和對話系統。我們爲這項任務創建了兩個新的數據集，分別來自賓州樹庫（Penn Treebank）和 Annotated English Gigaword 語料庫，併爲其定製了一個新的注意力機制。我們的注意力機制增強了基線循環神經網絡，而不需要額外的可訓練參數，從而使注意力機制的額外計算成本最小化。我們已證實，根據統計數據，該模型優於許多基線模型，包括基於 LSTM 的語言模型。

在本文中，我們的重點是如 again、also、still 這樣的狀語預設觸發語。狀語預設觸發語指出了語篇中事件的重複、延續或終止，或者類似事件的存在。

本論文的主要貢獻如下：

介紹了預測狀語預設觸發語的任務；
提出了用於檢測狀語預設觸發語的新數據集，以及一種可應用於其它類似預處理任務的數據提取方法；
在 RNN 架構中使用一種新的注意力機制，可用於預測狀語預設觸發語任務。這種注意力機制無需引入額外的參數，但預測效果優於很多基線模型。

3 數據集

我們從兩個語料庫中提取了數據集，即賓州樹庫（PTB）語料庫（Marcuset al.，1993）和第三版 English Gigaword 語料庫（Graff et al.，2007）的子集（sections 000-760）。

圖 1：我們的數據集中一個包含預設觸發語的實例。

4 學習模型

本章介紹了我們基於注意力的模型。該模型計算每一時間步上隱藏狀態之間的相關性，然後再在這些相關性上應用注意力機制，從而擴展雙向 LSTM 模型。我們提出的加權池化（WP）神經網絡架構如圖 2 所示。

圖 2：我們提出的加權池化神經網絡架構（WP）。分詞後的輸入將嵌入到預訓練詞嵌入中，並可能與經過 one-hot 編碼的 POS 標籤相級聯。輸入序列隨後會通過雙向 LSTM 進行編碼，並饋送到注意力機制內。計算得出的注意力權重隨後可用於編碼狀態的加權平均運算，依次連接到全連接層以預測預設觸發語。

6 結果

表 2 顯示了具有 POS 標籤和沒有該標籤的不同模型的表現。總體而言，在結合不同數據集以及是否使用 POS 標籤的所有 14 個場景裏，我們的注意力模型 WP 在 10 個場景中優於所有其它模型。重要的是，該模型在未引入額外參數的情況下，超越了常規 LSTM 模型，這突出了 WP 基於注意力的池化方法的優勢。

表 2：各種模型的性能，包括加權池化的 LSTM（WP）模型。MFC 指最常見的基線，LogReg 是 logistic 迴歸基線。LSTM 和 CNN 對應強大的神經網絡基線模型。請注意，我們把每個「+ POS」案例和「- POS」案例中最佳模型的性能數字加粗顯示了。

表 3：最佳模型的混淆矩陣，預測預設觸發語是否存在。

表 4：在 Giga_also 數據集上 LSTM 基線模型與注意力模型（WP）正確預測（cor.）和錯誤預測（inc.）的列聯表。

參考內容：https://acl2018.org/2018/06/10/best-papers/

文章來源：機器之心

喜歡這篇文章嗎？快分享吧！