FPGA 2017最佳論文出爐：深鑑科技ESE語音識別引擎獲獎

2017-02-25 16:15:53.0

FPGA 芯片領域頂級會議 FPGA 2017 於 2 月 24 日在加州 Monterey 結束。在本次大會上，斯坦福大學在讀 PhD、深鑑科技聯合創始人韓鬆等作者的論文 ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA 獲得了大會最佳論文獎。得知此消息後，機器之心對深鑑科技科技創始人兼 CEO 姚頌與聯合創始人韓鬆（本論文的第一作者）進行了聯繫，他們對該文章進行了技術解讀。

韓鬆在FPGA'17會場講解 ESE 硬件架構

FPGA 領域頂級會議 FPGA 2017 於 2 月 24 日在加州 Monterey 結束。在本次大會上，深鑑科技論文《ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA》獲得了大會最佳論文獎（Best Paper Award）。

圖1:韓鬆提出的深度學習部署方案。跟傳統的「訓完即用」的方案相比，「訓練後經過壓縮再用硬件加速推理」的方案，可以使得推理更快、能耗更低。

該項工作聚焦於使用 LSTM 進行語音識別的場景，結合深度壓縮（Deep Compression）、專用編譯器以及 ESE 專用處理器架構，在中端的 FPGA 上即可取得比 Pascal Titan X GPU 高 3 倍的性能，並將功耗降低 3.5 倍。而此前，本文還曾獲得 2016 年 NIPS Workshop on Efficient Method for Deep Neural Network 的最佳論文提名。據悉，本文所描述的 ESE 語音識別引擎，也是深鑑科技 RNN 處理器產品的原型。

圖 2：ESE 語音識別引擎工作全流程

LSTM 全稱為 Long-Short Term Memory，在語音識別、機器翻譯、Image Captioning中有較多的應用。對於語音識別而言，LSTM 是其中最重要一環，也是計算耗時最多的一環，通常佔到整個語音識別流程時間的 90% 以上。

圖 3：LSTM 在語音識別中的位置

Deep Compression 算法可以將 LSTM 壓縮 20 倍以上。但在以往的純算法壓縮上，並沒有考慮多核並行時的負載均衡，這樣在實際運行時，實際的運行性能被負載最大的核所限制。本文提出了一種新的 Load Balance Aware Pruning，在稀疏化時保證剪枝後分配到每個核的計算量類似，從而進一步加速的計算。

圖 4：Load-Balance-Aware Pruning示意：保證稀疏性的同時保證多核負載均衡

結合新的模型壓縮算法以及 ESE 專用處理架構，在一個可實際使用的 LSTM 模型上測試，相同情況下，深鑑基於中等 FPGA 平臺的耗時為 82.7us，功耗為 41W；而 Pascal Titan X GPU 則需要 287.4us 的運行時間，並且耗能 135W。這也再次證明了稀疏化路線的作用：在價格、資源全面弱於 GPU 的專用硬件上，通過算法與硬件的協同優化，的確可以取得更好的深度學習運算能力。

深鑑科技成立於 2016 年 3 月，創始成員來自清華大學和斯坦福大學，公司致力於結合深度壓縮與深度學習專用處理架構，提供更高效與便捷的深度學習平臺。

公司聚焦於稀疏化神經網絡處理得技術路線，提出的 Deep Compression 算法可以將模型尺寸壓縮數十倍大小而不損失預測精度，並結合專用的深度學習處理架構來實現加速。而 ICLR 2016 和 FPGA 2017 兩篇最佳論文的獲獎，也證實深鑑科技所聚焦的稀疏化路線越來越得到深度學習界的關注。

論文：ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA

摘要：長短期記憶網絡（LSTM）被廣泛用於語音識別領域。為實現更高的預測精度，機器學習研究者們構建了越來越大的模型。然而這樣的模型十分耗費計算和存儲資源。部署此類笨重的模型會帶數據中心來很高的功耗，從而帶來很高的總擁有成本（TCO）。為了增加預測速度，提高能源效率，我們首次提出了一種可以在幾乎沒有預測精度損失的情況下將 LSTM 模型的尺寸壓縮 20 倍（10 倍來自剪枝和 2 倍來自量化）的負載平衡感知剪枝（load-balance-aware pruning）方法。這種剪枝後的模型對並行計算很友好。另外，我們提出了可以對壓縮模型進行編碼和分割成 PE 以進行並行化的調度器（scheduler），並編排了其複雜的 LSTM 數據流。最後，我們設計了一種可以直接在這種壓縮模型上工作的硬件框架——Efficient Speech Recognition Engine (ESE)。該框架使用了運行頻率為 200 MHz 的 Xilinx XCKU060 FPGA，具有以 282 GOPS 的速度直接運行壓縮 LSTM 網絡的性能，相當於在未壓縮 LSTM 網絡上 2.52 TOPS 的速度；此外，該框架執行一個用於語音識別任務的全 LSTM 僅需 41 W 功耗。在基於 LSTM 的語音基準測試中，ESE 的速度為英特爾 Core i7 5930k CPU 的 43 倍，英偉達 Pascal Titan X GPU 的 3 倍。它的能量效率分別為以上兩種處理器的 40 倍和 11.5 倍。

文章來源：機器之心