FPGA 2017最佳論文出爐:深鑑科技ESE語音識別引擎獲獎

 2017-02-25 16:15:53.0

FPGA 芯片領域頂級會議 FPGA 2017 於 2 月 24 日在加州 Monterey 結束。在本次大會上,斯坦福大學在讀 PhD、深鑑科技聯合創始人韓鬆等作者的論文 ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA 獲得了大會最佳論文獎。得知此消息後,機器之心對深鑑科技科技創始人兼 CEO 姚頌與聯合創始人韓鬆(本論文的第一作者)進行了聯繫,他們對該文章進行了技術解讀。

755466010644100403.jpg

韓鬆在FPGA'17會場講解 ESE 硬件架構

FPGA 領域頂級會議 FPGA 2017 於 2 月 24 日在加州 Monterey 結束。在本次大會上,深鑑科技論文《ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA》獲得了大會最佳論文獎(Best Paper Award)。

WechatIMG34.jpg

圖1:韓鬆提出的深度學習部署方案。跟傳統的「訓完即用」的方案相比,「訓練後經過壓縮再用硬件加速推理」的方案,可以使得推理更快、能耗更低。

該項工作聚焦於使用 LSTM 進行語音識別的場景,結合深度壓縮(Deep Compression)、專用編譯器以及 ESE 專用處理器架構,在中端的 FPGA 上即可取得比 Pascal Titan X GPU 高 3 倍的性能,並將功耗降低 3.5 倍。而此前,本文還曾獲得 2016 年 NIPS Workshop on Efficient Method for Deep Neural Network 的最佳論文提名。據悉,本文所描述的 ESE 語音識別引擎,也是深鑑科技 RNN 處理器產品的原型。

WX20170225-144731@2x.jpg

圖 2:ESE 語音識別引擎工作全流程

LSTM 全稱為 Long-Short Term Memory,在語音識別、機器翻譯、Image Captioning中有較多的應用。對於語音識別而言,LSTM 是其中最重要一環,也是計算耗時最多的一環,通常佔到整個語音識別流程時間的 90% 以上。

WX20170225-143738@2x.jpg

圖 3:LSTM 在語音識別中的位置

Deep Compression 算法可以將 LSTM 壓縮 20 倍以上。但在以往的純算法壓縮上,並沒有考慮多核並行時的負載均衡,這樣在實際運行時,實際的運行性能被負載最大的核所限制。本文提出了一種新的 Load Balance Aware Pruning,在稀疏化時保證剪枝後分配到每個核的計算量類似,從而進一步加速的計算。

WX20170225-144848@2x.jpg

圖 4:Load-Balance-Aware Pruning示意:保證稀疏性的同時保證多核負載均衡

結合新的模型壓縮算法以及 ESE 專用處理架構,在一個可實際使用的 LSTM 模型上測試,相同情況下,深鑑基於中等 FPGA 平臺的耗時為 82.7us,功耗為 41W;而 Pascal Titan X GPU 則需要 287.4us 的運行時間,並且耗能 135W。這也再次證明了稀疏化路線的作用:在價格、資源全面弱於 GPU 的專用硬件上,通過算法與硬件的協同優化,的確可以取得更好的深度學習運算能力。

深鑑科技成立於 2016 年 3 月,創始成員來自清華大學和斯坦福大學,公司致力於結合深度壓縮與深度學習專用處理架構,提供更高效與便捷的深度學習平臺。

公司聚焦於稀疏化神經網絡處理得技術路線,提出的 Deep Compression 算法可以將模型尺寸壓縮數十倍大小而不損失預測精度,並結合專用的深度學習處理架構來實現加速。而 ICLR 2016 和 FPGA 2017 兩篇最佳論文的獲獎,也證實深鑑科技所聚焦的稀疏化路線越來越得到深度學習界的關注。

論文:ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA

20170225102937.png

摘要:長短期記憶網絡(LSTM)被廣泛用於語音識別領域。為實現更高的預測精度,機器學習研究者們構建了越來越大的模型。然而這樣的模型十分耗費計算和存儲資源。部署此類笨重的模型會帶數據中心來很高的功耗,從而帶來很高的總擁有成本(TCO)。為了增加預測速度,提高能源效率,我們首次提出了一種可以在幾乎沒有預測精度損失的情況下將 LSTM 模型的尺寸壓縮 20 倍(10 倍來自剪枝和 2 倍來自量化)的負載平衡感知剪枝(load-balance-aware pruning)方法。這種剪枝後的模型對並行計算很友好。另外,我們提出了可以對壓縮模型進行編碼和分割成 PE 以進行並行化的調度器(scheduler),並編排了其複雜的 LSTM 數據流。最後,我們設計了一種可以直接在這種壓縮模型上工作的硬件框架——Efficient Speech Recognition Engine (ESE)。該框架使用了運行頻率為 200 MHz 的 Xilinx XCKU060 FPGA,具有以 282 GOPS 的速度直接運行壓縮 LSTM 網絡的性能,相當於在未壓縮 LSTM 網絡上 2.52 TOPS 的速度;此外,該框架執行一個用於語音識別任務的全 LSTM 僅需 41 W 功耗。在基於 LSTM 的語音基準測試中,ESE 的速度為英特爾 Core i7 5930k CPU 的 43 倍,英偉達 Pascal Titan X GPU 的 3 倍。它的能量效率分別為以上兩種處理器的 40 倍和 11.5 倍。

文章來源:機器之心