Alexa學會了「回憶」,但這還只是機器「理解上下文」的一小步

 2018-04-28 23:01:14.0

前幾天,亞馬遜推出了三個針對 Alexa 的改進方案,而且要在 5 月底之前實現這些功能。

其中重要的一個功能叫做「context carryover」(上下文轉攜):當語音請求從一個轉向另外一個時,Alexa 可以「回憶」起之前的信息。

也就是說,當用戶連續問幾個問題時,不需要在第二次發問時重複同一個信息點。比如,問「Alexa,西雅圖的天氣怎麼樣?」之後接着問「這個週末呢?」,它可以理解到用戶要的還是西雅圖在週末的天氣情況。

利用深度學習模式在口頭語言理解流程中的優勢,它可以更自然地理解用戶的後續問題並作出恰當迴應。

另外,Alexa 還將擁有一項新的記憶功能,可以幫助 Alexa 保存用戶指示它記住的信息,並加以提醒。

例如,通過發出類似「Alexa,請記住肖恩的生日是 6 月 20 日」這樣的指令,Alexa 就會回答:「好的,我會記得肖恩的生日是 6 月 20 日」。Alexa 也可以在當天向用戶自動發出提醒。

最後,亞馬遜還提高了 Alexa 的搜索和執行新「技能」的能力,這種新的「技能」與智能手機應用程序相當。

例如,詢問 Alexa 如何去除襯衫上的油污,就會激活「汰漬劑」技能,通過去污過程與用戶交談。

還有些技能幫 Alexa 用戶檢查信用卡餘額、獲得開盤的股票價格,或者只用幾句話就能把酒和飯菜搭配起來。

最近,《科學美國人》採訪了亞馬遜語音助手研發業務負責人 Ruhi Sarikaya。

他曾於週四在法國里昂舉行的 AI 會議上發表主題演講。Sarikaya 討論了語音識別和自然語言處理的進步如何幫助簡化 Alexa,使技術能夠更好地解釋用戶想要什麼。《科學美國人》也就相關問題與他聊了聊。

語音會是我們與設備交流的主要方式,你是根據什麼做出這樣的判斷?

想想 1976 年吧。

蘋果 (Apple) 聯合創始人史蒂夫•沃茲尼亞克 (Steve Wozniak) 創建了第一臺帶有顯示器和鍵盤的個人電腦。直到今天,人們仍然使用顯示器和鍵盤來與他們的大部分設備進行交互。

即使使用智能手機,你要麼打字,要麼觸摸屏幕來獲取輸出。這是一個問題,因爲它實際上讓我們患了「葛優癱」。即使你可以四處走動,但注意力仍然集中在屏幕上。

這種情況會隨着語音技術變化而有所改變。原因有三個:

小型設備的計算能力增強; 收集和分析大量數據的能力; 以及機器學習的進步,特別是深度學習。這些類型的人工智能算法使語音識別和自然語言理解更加準確。

想在消費產品中很好地使用語音界面,最大的挑戰是什麼?

主要集中在兩個層面:組件層面(component-level)和用戶體驗層面。

當環境相對安靜時,語音識別準確率非常好。如果有背景噪音或很多人在說話,那麼我們仍然需要應對這個挑戰。多個人同時說話時,你需要能跟蹤不同的聲音。

至於理解自然語言,上下文語境是關鍵挑戰。

如果數字個人助理的任務僅限於少數領域或功能,例如,播放音樂,就很容易理解用戶的意圖。除此之外,如果還需要對電影、視頻和有聲讀物的數據進行篩選,如果接到一個突然的命令,「播放 X」這個指令的意思就會變得模棱兩可,因爲它可以指這些任務中的任何一種。

與智能設備設備交互,上下文語境爲什麼那麼重要?

如果你和我正在聊天,我可能會把上次我們談話時的信息代入。我們不需要重複我們之前討論過的一切,以實現無縫對話。

這對人們來說是很自然的。但是,當你和機器交談的時候卻不是這樣。現在,你必須使用精確的措辭才能被理解。

你可能認爲如果一臺機器足夠聰明,它將能夠從早期的對話中獲取信息。

比如,如果問「Alexa,西雅圖的天氣怎麼樣?」之後接着問「這個週末怎麼樣?」,我希望聽到這個週末西雅圖天氣情況,但不會在第二個問題中明確說出來。

如果我問「Alexa,今天的日程安排是什麼?」系統利用存儲在日曆上的信息會立刻作出反應。如果我接着問,「這個週末怎麼樣?」我希望這個週末能得到日曆信息,而不是天氣信息。

對於第二個問題,在沒有背景的情況下,可能會有許多種答案。這被稱爲「會話上下文」,它允許機器根據當前的會話正確地回答問題。

機器如何學習理解上下文?

從接收語音命令的設備開始。

你不能在亞馬遜 Echo 上播放視頻,所以當用戶要求設備播放一個特定標題時,這就縮小了設備的選擇範圍。

 您還可以使用該設備查看用戶的個人偏好,包括先前的請求和隨着時間推移給設備發出的其他命令。這就是機器學習發揮作用的地方。

背景噪音很大,如何提高 Alexa 的識別能力?

這是一個開放的問題,我們正在取得進展。過去致力於發展語音技術之後,我認爲有幾種不同的方法:

一是先清理或移除背景噪聲,然後對剩下的數據進行語音識別。當你這樣做的時候,一個副作用就是你可能刪除一些與語音本身相關的數據。

另一種技術是儘可能多的收集特定環境中的聲音,並配備系統地圖,或識別不同的聲音ーー無論是背景噪音還是語音。但挑戰在於,因爲有這麼多不同的聲音,以至於很難確定它們的來源,尤其是電視機開着的時候。

亞馬遜如何使用 Alexa 用戶的信息?

我只能談 Alexa 的機器學習部分。

機器學習依賴於從 Alexa 用戶收集的數據。我們不會使用所有這些數據ーー我們爲某些類型做了標註,以便教 Alexa 識別不同的聲音線索、音調 (男性和女性) 和口音。我們的客戶是多樣化的,我們希望 Alexa 能夠識別不同的用戶。我們不能建立一種只適用於一類聲音的技術。

亞馬遜如何解決人們對 Alexa 隱私問題的關注?

Alexa 在雲端存儲用戶信息,而不是設備本身比如 Echo 或者智能手機。

消費者有能力刪除他們想要 Alexa 忘記的任何內容:應用程序和"管理你的內容和設備"網頁中使用到的任何信息。

例如,你可以通過在 Alexa 應用程序中訪問「Settings」中的「History」來檢查與 Alexa 的語音交互,並刪除與你的賬戶相關的特定聲音記錄。

文章來源:https://www.scientificamerican.com/article/alexa-how-do-we-take-our-relationship-to-the-next-level/?utm_source=twitter&utm_medium=social&utm_campaign=sa-editorial-social&utm_content=&utm_term=tech_news_text_free&sf187853846=1

文章來源:機器之心