歷經一年,DeepMind WaveNet語音合成技術正式產品化

 2017-10-06 08:01:57.0

選自DeepMind

參與:劉曉坤

昨日,谷歌發布了一系列新的產品,從音箱到手機,讓我們看到了其產品全面 AI 化的趨勢。而 DeepMind 一年前宣布的語音合成技術 WaveNet 也正式產品化,融入谷歌助手之中。本文對升級後的 WaveNet 技術做了解讀。

就在一年前,谷歌 DeepMind 發布了 WaveNet,這是一種新的深度神經網絡,能生成新的聲音信號波形,並且比起其它現有技術,其生成的語音擁有更加逼真的音效。當時這個模型還只處於研究雛形階段,對於消費性產品而言,模型的計算消耗量太大。

經過 12 個月的努力而大大提升了模型運行的速度和質量之後,谷歌 DeepMind 現在已經推出了 WaveNet 的更新版本,可以在所有的平台上生成美式英語和日語的谷歌助手語音。

使用新的 WaveNet 模型可以使谷歌助手生成一系列更加自然逼真的聲音。

為什麼 WaveNet 的性能如此高效並可以超越現有的最先進技術水平呢?首先需要理解今天的「文本到語音」(text-to-speech,TTS)系統或語音合成(speech synthesis)系統的工作方式。

大部分系統都是基於所謂的連續式 TTS,即使用大型的高質量錄音的數據庫,收集單個人數小時的聲音記錄。這些錄音將被分成小塊然後組合或成串連接以合成完整的所需的發音。但是這些系統生成的語音通常都是不自然的而且很難調整,因為只要出現了一系列變化,比如需要表達新的情緒或語調的情況,就得建立一個新的數據庫記錄。

為了解決這些問題,有時候會用一種替代模型,稱為參量 TTS。這個模型不需要使用一系列規則和語法、嘴唇動作的參量成串連接聲音,而引導計算機生成語音。雖然這個方法更加經濟,計算速度也更快,但生成的語音不自然。

WaveNet 採取了完全不同的方法。在相關論文中,作者描述了一種深度生成模型,可以從頭開始生成單獨的信號波形,每次生成一個樣本,每秒生成 16000 個樣本,並且在單獨的聲音之間是無縫過渡的。


在原始的 WaveNet 模型上強化的捲積神經網絡結構

WaveNet 使用一個卷積神經網絡構建,並在大型的語音樣本的數據庫中訓練。在訓練過程中,網絡將決定語音的潛在結構,比如哪些音調相互依存,以及哪些信號波形是現實的(哪些又不是現實的)。訓練後的網絡將每一次合成一個語音樣本,而每一個樣本都和上一個樣本的特性相關。最後生成的語音包含自然的語調以及其它的特徵比如咂嘴聲,其「口音」依賴於用於訓練的語音,為從混合數據集中創造任意數量的獨特的聲音開闢了可能性。正如其它所有的 TTS 系統一樣,WaveNet 使用一個文本輸入告訴系統在回答問題的時候,應該生成什麼詞。

從原始模型中生成如此高保真的聲音波形需要消耗相當大的計算量,這意味著 WaveNet 雖然有潛力但是還無法在現實世界中應用。不過經過了 12 個月的努力,谷歌已經開發出了能快速生成信號波形的新模型。它還可以大規模運行,並且是在谷歌最新的 TPU 雲基礎架構上運行的第一個產品。


WaveNet 的研究團隊未來將公佈新模型的研究細節。最新改進的 WaveNet 模型仍然能生成新的信號波形但是是以原始模型的 1000 倍的速度生成,意味著它只需要 50ms 就可以生成 1 秒的語音。實際上,該模型不只是快,而且保真度很高,可以在一秒內生成 24000 個信號波形的樣本。而且每一個樣本的分辨率也從 8bit 提高到了 16bit(和光碟一樣的分辨率)。

這將使模型在人類聽眾測試中給出更加自然的聽感。例如,最新的 US English voice I,在 1-5 scale 的測試中得到了 4.347 的平均意見分數(mean-opinion-score,MOS),而即使是人類語音也只能得到 4.667 的分數。


新模型同樣保留了原始模型的靈活性,可以在訓練過程中更好的利用大量的數據。具體來說就是,可以使用多種語音訓練網絡。從而,即使對於所需輸出的語音只有少量的訓練數據,仍然可以生成高質量、細緻入微的語音。 DeepMind 表示這只是 WaveNet 的開始,他們有信心在未來,語音界面的強大功能將對全世界的語言開放。

原文鏈接: https://deepmind.com/blog/wavenet-launches-google-assistant/

文章來源:機器之心