我們找到大象聲科,好好聊了聊被羅永浩點名的AI通話智能降噪

 2018-04-10 11:00:35.0

4 月 9 日,錘子科技 2018 春季新品發佈會如約而至。

 在錘粉們的期待下,羅永浩帶着他的新機堅果 3 走上了舞臺。

在剛剛過去的三月份裏,華爲、小米、vivo、OPPO 相繼出招,紛紛亮出自家的新品旗艦機。
 

而緊跟其後的錘子僅用堅果 3 上交了如下答卷:

儘管這樣一款性能平平的千元機並沒有滿足錘粉們的期待,但我們還是想從一張 PPT 談起。

不同於時下的手機廠商發新機時必然花上幾頁 PPT 大談特談 AI,羅永浩對堅果 3AI 能力的姿態是——一頁 PPT、一筆帶過式介紹。

但對用戶的使用體驗來說,這項「AI 通話智能降噪技術」能夠實實在把他們從三個典型場景中的糟糕通話體驗中解救出來。

簡單理解起來,它能幫用戶過濾掉周圍嘈雜的背景音,加強通話者本身的聲音。

羅永浩介紹,這項功能的背後整合了語音信號處理引擎供應商大象聲科的技術能力。

說到這裏,不得不提到那個經典的「雞尾酒會」難題——在語音識別技術已經能夠以較高精度識別一個人講話的前提下,說話人數增加爲兩人或者多人時,語音識別率就會極大地降低。

大象聲科聯合創始人兼首席科學家汪德亮曾在公開演講中提到,雞尾酒會問題本質是一個聲源分離問題。爲了解決這個問題,大象聲科選擇從神經網絡領域切入,利用深度學習技術完成降噪和語音增強方案。

而不同於雞尾酒會問題的分離人聲,在手機通話場景下需要解決的則是人聲和非人聲的分離。大象聲科創始人兼任 CEO 苗健彰告訴機器之能,儘管二者從實現原理上是一致的,但是團隊在其中做了運算量上面的權衡。「嚴格意義上說,我們距離完全解決雞尾酒會問題還差一步。」

憑藉深度學習技術,大象聲科基於人類聽覺系統對環境聲音感知和處理機制,再結合傳統信號處理降噪方法,實現了利用手機單麥克風,在各種複雜噪音環境下的語音提取和信號增強。

與雙麥降噪等傳統的麥克風降噪技術相比,利用深度學習手段可以使那些傳統降噪方案比較難處理的動態噪音得到很好的抑制。更重要的是,深度學習降噪處理只需要一個麥克風就可以達到傳統信號處理技術兩個麥克風的降噪效果,這不僅降低了硬件成本,更極大地降低了硬件的調試周期。

目前,大象聲科實現了單麥克風下的人聲和噪音分離。按照官方說法,在各類噪音場景下信噪比平均提升超過了 25dB。一般來說,信噪比數值越高,說明混在信號中的雜音越少。

「這個提升意味着,在一般吵雜的環境中(比如飯店或者馬路)通話,對方是幾乎聽不到噪音的。」苗健彰解釋道,也會發現一些衝擊、尖銳的噪音(比如施工工地敲擊聲或者汽車喇叭聲)也抑制得很好,而這些都是動態噪音。

不過,在手機上部署深度學習降噪解決方案也並非易事,更何況,其中最大難點並不在於計算資源的限制。苗健彰表示,堅果 3 使用的驍龍 625 完全滿足目前算法的運算需求。

「由於手機覆蓋的應用場景是各種硬件當中最多的,所以要讓深度學習的降噪解決方案在手機上應用,首當其衝的其實是要解決模型的泛化性能。我們在這方面投入了大量的研發工作,目前在保持模型小型化的前提下,獲得了最優的噪聲環境覆蓋。」

這次和錘子手機的合作,是大象聲科在手機領域的第一次,公司計劃陸續將智能語音降噪技術推廣到更多的手機品牌和廠商。

「大象聲科希望成爲新一代手機語音信號處理技術提供商,爲手機通訊以及人機交互提供智能降噪服務,打造更清晰的機器聽覺體驗。」苗健彰這樣說道。

除了手機領域,智能硬件、車載、可穿戴設備以及安防,也是大象聲科在應用落地與合作方面的重點方向,由此把遠場拾音、聲紋識別以及關鍵詞識別等前端語音技術擴展到各種高噪音場景中去。

儘管 AI 通話智能降噪背後的技術並非噱頭或是故弄玄虛,但對於消費者來說,這終究算不上殺手級應用,不少錘粉甚至在這場發佈會上大喊「涼了」。從另一個角度也不難看出,手機品牌商想要持續保持高市場佔有率,在性能提升、功能創新上所面臨的挑戰。

羅永浩也在現場迴應說,錘子現在每年會發布 4、5 款手機,所以不會每一款就具有顛覆性。同時,還預告了 5 月 15 日發佈會纔會發佈真正具有顛覆性的產品。

對於一個月後的大招,羅永浩還提供了一條線索:玄機都在錘子科技發佈的愚人節視頻當中。

而回顧這條視頻不難發現,其中確有 AI 的濃重痕跡:智能降噪的小熱身之後,錘子的重磅會是什麼?

文章來源:機器之心