時不我待,NVIDIA推出GPU加速平台RAPIDS提昇機器學習效率

 2018-11-01

作為科技行業的熱點,人工智能(AI)與機器學習正持續受到業界的關注。調研機構Gartner表示人工智能和先進的機器學習技術是被廣泛關注的新興技術,將在企業甚至整個行業中掀起革命浪潮。它們能夠大幅度降低勞動力成本,產生意想不到的新見解,從原始數據中發現新模式,並建立預測模型。據分析師估計,面向數據科學和機器學習的服務器市場每年價值約為200 億美元,加上科學分析和深度學習市場,高性能計算市場總價值大約為360 億美元。
“數據分析和機器學習是高性能計算市場中最大的細分市場,不過目前尚未實現加速。”NVIDIA 創始人兼首席執行官黃仁勳在GPU 技術大會主旨演講中表示,“全球最大的行業均在海量服務器上運行機器學習算法,目的在於了解所在市場和環境中的複雜模式,同時迅速、精準地做出將直接影響其基礎的預測。”
在這種趨勢下,NVIDIA於今年10月10日的GPU 技術大會上發布了一款針對數據科學和機器學習的GPU 加速平台--- RAPIDS。日前,NVIDIA在京召開了媒體溝通會,系統講解了RAPIDS的應用場景、平台性能和生態策略。在NVIDIA亞太區解決方案架構高級總監趙立威看來,RAPIDS能夠幫助超大規模公司以前所未有的速度分析海量數據並進行精準的業務預測,顯著提升端到端預測數據分析能力。

圖NVIDIA亞太區解決方案架構高級總監趙立威


後摩爾時代下的GPU加速需求
眾所周知,機器學習包含了數據、特徵以及算法。趙立威介紹對於數據科學家而言,一個標準的系統流程是數據準備、數據訓練與可視化呈現三個步驟,其中數據準備主要進行數據特徵的提取、數據的合併以及降維等;數據訓練則是一個不斷循環的過程,通過參數調整、優化使精度更高;最後進行上線展示,從而進一步運營。

圖數據科學通用流程
隨著大數據技術的快速發展,不管是在數據處理還是訓練的過程,都需要大量的計算力,而在後摩爾時代,數據的增長量遠遠超過了計算力,基於Hadoop、SPARK的分佈式節點加速會越來越困難。趙立威表示雖然市場出現了GPU Data base技術,但並沒有把數據的準備、操作、ETL過程和機器學習訓練整合成一個pipeline。對於GPU加速深度學習而言,它本質是加速了計算的應用,而數據分析和機器學習目前是最大的HPC應用分支,伴隨著未來高速增長,它對計算力有著巨大的需求。對此,NVIDIA推出GPU 加速平台RAPIDS,該平台已與全球最流行的數據科學庫及工作流無縫整合,可加速機器學習,如包括Anaconda、BlazingDB、Graphistry、NERSC、PyData、INRIA和Ursa Labs在內的主要開源貢獻者,都在RAPIDS推出後立即給予了其廣泛的生態系統支持。
這裡,趙立威展示了一個形象的例子,在過去數據工程師每天的大部分時間都在喝咖啡中度過,因為數據處理的過程中涉及到大量等待時間。應用RAPIDS後,相較於下圖左邊的等待時間,右圖的效率得到了大大的提高,數據科學家可與更加專注與建模、測試與進行數據分析工作。RAPIDS為數據科學家提供了他們需要用來在GPU 上運行整個數據科學管線的工具。最初的RAPIDS 基準分析利用了XGBoost 機器學習算法在NVIDIA DGX-2™ 系統上進行訓練,結果表明,與僅有CPU 的系統相比,其速度能加快50 倍。這可以幫助數據科學家將典型訓練時間從數天減少到數小時,或者從數小時減少到數分鐘,具體取決於其數據集的規模。

圖數據科學家應用RAPIDS的日常對比


開源生態提升數據分析能力

趙立威介紹RAPIDS 構建於Apache Arrow、pandas 和scikit-learn 等流行的開源項目之上,為最流行的Python 數據科學工具鏈帶來了GPU 提速。為了將更多的機器學習庫和功能引入RAPIDS,NVIDIA 廣泛地與開源生態系統貢獻者展開合作,其中包括Anaconda、BlazingDB、Databricks、Quansight、scikit-learn、Ursa Labs 負責人兼Apache Arrow 締造者WesMcKinney 以及迅速增長的Python 數據科學庫pandas 等等。
從硬件的角度,除了NVIDIA的DGX-2、DGX-1、DGX station外,RAPIDS還包括一系列合作夥伴基於HGX-1、HGX-2兩種架構提供的硬件產品。此外,NVIDIA也在跟下游的ODM、OEM廠商合作,進一步拓展RAPIDS的運行和使用。
目前,趙立威介紹包括HPE、IBM、Oracle、開源社區、創業公司等都在積極採用RAPIDS,顯著提升端到端預測數據分析能力。例如沃爾瑪已經採用RAPIDS實現了複雜模式大規模地運行,同時進行更加精準的預測。最後,他總結RAPIDS包含以下特點:

無憂一體化:只需要使用最少的代碼加速Python數據科學工具鏈,不需要重新編碼或者使用新工具;
在任何GPU上擴展:從GPU工作站到多GPU服務器的無縫擴展多節點集群;
頂級模型精度:通過更快地迭代模型來提高機器學習模型的準確性,並更迅捷地實現部署;
減少培訓時間:通過交互數據科學大幅提高工作效率;
開源可定制,可擴展,可互操作:這裡趙立威特別強調開源一方面是指NVIDIA支持並基於Apache Arrow構建,與PYTHON、SPARK、DASK等所有開源社區保持緊密合作;另一方面,因為RAPIDS本身的開源特性,未來也希望有跟多的開發者能夠貢獻代碼,不斷的完善平台、豐富它的基礎特性、服務於更多的應用場景。


 
GPU Taiwan Facebook
Facebook 社團 · 20,718 位成員
加入社團
關注AI與深度學習、人工智慧、智慧城市、智能駕駛、智慧機器、Fintech、未來醫療、AR/VR、智能硬件、物聯網、區塊鍊等 GPU Taiwan Facebook社團為封閉性社團,需要經過審核後才能加入,你填了嗎? https://goo.gl/ANgnVA 我們希望能透過這個平台,真正讓專...
 


















文章來源:數字化企業網