Transformer多輪對話改寫實踐

2020-05-02 10:49:15.0

本文介紹了多輪對話存在指代和信息省略的問題，同時提出了一種新方法-抽取式多輪對話改寫，可以更加實用的部署於線上對話系統，並且提升對話效果。

1 背景

在日常的交流對話中，30%的對話會包含指代詞。比如「它」用來指代物，「那邊」用來指代地址；同時有50%以上的對話會有信息省略。具體可以看下面的示例。

這張圖演示了一個人機對話過程中，人(A)和系統(B)的交流過程。用戶的真實意思label是對用戶上一句說的話A2進行信息還原（改寫）

因此在對話系統中需要結合對話的上下文才可以更好的對用戶輸入的語句做語義理解。

前幾天有一篇論文介紹中文多輪對話的數據集[crosswoz數據集]。文中提出了一種BertContext nlu的方法利用對話歷史向量增強對多輪對話語句的語義理解能力，效果非常好。但是這種方法需要大量的意圖和槽的標註工作。多輪對話的數據標註工作是比較困難的，同時該方法對語句中指代槽的提取也無能爲力，只能根據對話狀態獲取。

對於任務型對話，是可以對用戶狀態進行追蹤。然後根據用戶狀態結合當前用戶的輸入知道用戶的真實目的。目前用戶狀態追蹤用規則做比較穩定。但是這種方法就需要我們去寫很多狀態機做狀態之間的轉移，比較繁瑣。同時指代消岐和信息省略的處理能力也很低。

對於聊天系統，用戶的狀態就更難進行標註。

因此考慮起充分利用上下文來增強對話的語義理解能力就是一個很好的選項。其中一個有前途有實際落地效果的就是對話改寫。

改寫就是根據用戶的聊天內容，把用戶此時此刻說的話補全。輸入是用戶A和系統B的對話歷史，然後對用戶下一句說的話utterance改寫爲label。改寫之後label裏面包含了用戶表達的完整信息。再通過檢索信息或者語義理解引擎就可以更好的執行相應的對話策略。

去年有一篇論文介紹多輪對話改寫[1]，使用的方法是基於PointNetwork的生成方法，利用copy機制取得了很好的效果。這篇論文將會成爲本文的baseline。這裏復現的時候沒有和原論文一樣分割輸入，而是把輸入全部連接做attention。

基於生成的方法有兩個主要缺點。1是速度慢，beamsearch部分解碼套路多[參考文章]；2是對訓練數據需求量大。Baseline論文還有一個重要的貢獻是放出了一批一萬多條的改寫數據集，本文的實驗數據也主要基於它。

2 方法

通過分析用戶的對話數據，可以發現大部分的對話數據要麼是正常的不用改寫，要麼就是用了信息省略或者指代詞。因此對話改寫的任務有兩個：1這句話要不要改寫；2 把信息省略和指代識別出來。對於baseline論文放出的數據集，有90%的數據都是簡單改寫，也就是滿足任務2，只有信息省略或者指代詞。少數改寫語句比較複雜，本文訓練集剔除他們，但是驗證集保留。

對於用戶和系統的對話歷史，本文用A1/B1來分別表示用戶說的話和系統的回覆。對於用戶說的話A2，本文要將它改寫爲label。

首先需要根據訓練集裏面label對A2做的操作進行有格式的還原。我發現90%的改寫數據都滿足以下兩種模式之一。

對於指代消岐類，先是識別A2中的指代詞「他」，同時識別出上下文中的關鍵信息「張藝興」，然後替換掉「他「。

對於信息補全類，先是識別出上下文中的關鍵信息「天氣」，然後識別出A2中需要補全信息的位置在"呢"之前。

因此對於文本改寫，我們可以理解爲就是完成上述兩個任務(可以準確覆蓋90%的改寫)。這裏我們(微信公衆號：樸素人工智能)使用了五個指針來做改寫任務的預測。首先把用戶輸入A1和系統回覆B1連接起來，再和用戶輸入A2(待改寫語句)一起作爲模型輸入。中間採用transformers結構進行特徵提取，也可以使用預訓練的transformers比如bert或者rbt3。

Transformers結構可以通過attention機制有效提取指代詞和上下文中關鍵信息的配對，最近也有一篇很好的工作專門用Bert來做指代消岐[2]。經過transformer結構提取文本特徵後，模型結構及輸出如下圖。