英偉達發布TensorRT 3可編程推理加速器，比起CPU能實現高達40倍吞吐率

2017-09-26 17:21:43.0

北京時間9月26日，在英偉達GPU技術峰會上，英偉達創始人兼CEO黃仁勳正式發布TensorRT 3 神經網絡推理加速器。據官方介紹，TensorRT 3能極大改善處理性能，削減從雲到邊緣設備（自動駕駛汽車、機器人等）的推理開銷。TensorRT 3 是在Volta GPU 實現最優推理性能的關鍵，比起CPU它能實現高達40倍的吞吐量，時延在7ms之內。目前，對於英偉達開發者計劃成員，現在有針對Tesla GPU (P4, P100, V100)和Jetson嵌入式平台的TensorRT 3提供免費下載。

關於TensorRT

據了解，英偉達TensorRT是一種高性能神經網絡推理引擎，用於在生產環境中部署深度學習應用程序。應用有圖像分類，分割和目標檢測，提供的幀/秒速度比只有CPU的推理引擎高14倍。

TensorRT是世界上第一款可編程推理加速器，能加速現有和未來的網絡架構，TensorRT可編譯到廣泛的目標CUDA GPU中，從120 TOPS到1 TOPS，從250瓦到低於1瓦。

它包含一個為優化在生產環境中部署的深度學習模型而創建的庫，可獲取經過訓練的神經網絡（通常使用32 位或16 位數據），並針對降低精度的INT8 運算來優化這些網絡。

為何TensorRT 3有著無可比擬的地位，他提到了以下幾點：

一是網絡設計呈爆發性增長：AI推理平台必須具備可編程性才能運行種類繁多且不斷演進的網絡架構；新的架構、更深的網絡、新的分層設計會繼續提升CNN的性能。

二是智能機器呈爆發性增長：AI會將智能諸如到2000萬台雲服務器、上億台汽車和製造機器人中；最終，以萬億計的物聯網設備和傳感器將智能地監測一切，從心率和血壓監測，到需維修設備的震動監測；AI推理平台必須可擴展，以解決海量計算的性能、公號和成本需求。

TensorRT 3新的亮點如下：

--相較Tesla P100，在Tesla V100上能實現3.7倍的加速，時延在7ms之內

--在Tesla V100上進行優化和配置TensorFlow模型時，比起TensorFlow框架能實現18倍的推理加速

--輕鬆使用Python API接口，生產力得到極大改進

據黃仁勳現場介紹，

TensorRT3的性能非常卓越，運行在Volta上的TensorRT3在圖像分類方面比最快的CPU還要快40倍，在語言翻譯方面則要快140倍。

另外，現場他還提到，神經網絡的響應時間或處理延時會對服務質量造成直接影響，運行在V100上的TensorRT在處理圖像是可實現7ms的延時，在處理語音是延時不到200ms，這是標準雲服務的理想目標，單靠CPU是無法實現的。

TensorRT3能支持Caffe2、mxnet、PaddlePaddle、Pytorch、TensorFlow、theano、Chainer等所有的深度學習框架，將TensorRT 3和英偉達的GPU結合起來，能在所有的框架中進行超快速和高效的推理傳輸，支持圖像和語言識別、自然語言處理、可視化搜索和個性化推薦等AI服務。

AI新紀元

另外，在演講中，黃仁勳提到，現在已是計算新紀元，包括TensorRT在內的NVIDIA多個平台已被BAT等多家科技巨頭採用：

--目前，NVIDIA TensorRT已經被BAT、科大訊飛、京東所採用；

--除了 TensorRT，NVIDIA Tesla V100 AI平台已被BAT、華為、浪潮和聯想在內的中國領軍IT公司採用；

--NVIDIA AI 城市平台已被阿里巴巴、海康威視、大華和華為所採用，以解決最大規模的AI和推理難題之一；

另外，黃仁勳在現場正式發布全球首款自主機器處理器Xavier，這是迄今為止最複雜的片上系統，將於18年第一季度向早期接觸的合作夥伴提供，在18年第四季度全面推出。這個處理器的發布將揭開人工智能時代新篇章。

除了Xavier，他們也發布了一個虛擬機器人仿真環境Isaac Lab。談及為何要創造這個自主機器系統，他提到，

教機器人與外部世界交互和執行複雜的任務一直是一個未解決的難題，但相信隨著深度學習和AI的突破，這個問題最終必將得到解決。在機器人學習執行具體任務的過程中，他們可能會對周邊的事物造成損壞，並且需要很長的訓練週期。因此，需要創造一個可供機器人學習的虛擬世界——看起來像真實世界，並遵守物理學定律，機器人可以在其中超實時地學習。

在現場，他也強調，NVIDIA將會全力推進“統一架構”CUDA GPU計算。通過Inception計劃，將支持1900家初創公司創建AI未來。

究竟NVIDIA能讓AI跨進怎樣的未來，拭目以待！

文章來源：雷鋒網