GTC 2020 | NVIDIA提供全球最先進AI系統NVIDIA DGX A100

2020-05-15 05:42:28.0

一站式訓練、推理、數據分析平臺；

每臺系統都極富靈活性，可配置爲1個GPU或多至56個獨立的GPU，

軟件定義的數據中心基礎架構

NVIDIA於今日推出了NVIDIA DGX™ A100，這是全球最先進AI系統的第三代產品，具有高達5Petaflops 的AI性能，並且首次將整個數據中心的性能和功能集成到一個靈活的平臺中。

即刻起，DGX A100系統已開始向全球供應。首批訂單將送往美國能源部（U.S. Department of Energy ，DOE）的阿貢國家實驗室（Argonne National Laboratory）。該實驗室將運用該集羣的AI和計算力來更好地研究和應對COVID-19。

NVIDIA創始人兼首席執行官黃仁勳表示：「NVIDIA DGX A100是專爲先進AI打造的高性能系統。NVIDIA DGX是首個爲端到端機器學習工作流——從數據分析到訓練再到推理構建的AI系統。藉助於全新DGX的巨大性能飛躍，面對呈指數級速度增長的AI模型和數據，機器學習工程師們能夠保持領先。」

DGX A100系統集成了8個全新NVIDIA A100 Tensor Core GPU，具有320GB內存用以訓練最大型的AI數據集，以及最新的高速NVIDIA Mellanox® HDR 200Gbps互連。

利用A100的多實例GPU功能，每臺DGX A100系統能夠被分割爲多達56個實例，用於加速多個小型工作負載的處理速度。憑藉這些功能，企業可在一個完全集成的軟件定義平臺上根據自己的需求優化計算力和資源，加快數據分析、訓練和推理等各種工作負載的速度。

DGX A100的快速普及與客戶的大力支持

多家全球大型企業、服務供應商和政府機構已訂購了前幾批DGX A100。首批系統已於本月早些時候交付給了阿貢國家實驗室。

阿貢國家實驗室計算機、環境和生命科學實驗室副主任Rick Stevens表示：「我們正在使用美國最強大的超級計算機來對抗COVID-19，利用NVIDIA DGX A100等最新技術運行AI模型和模擬。全新DGX A100系統爲阿貢國家實驗室所帶來的計算力將幫助研究人員探索治療方法和研發疫苗、研究病毒的傳播方式，使科學家能夠利用AI加速工作，在數月甚至數日內完成以前需要數年才能完成的工作。」

佛羅里達大學（University of Florida）將成爲美國首所採用DGX A100系統的高等院校。該大學將把DGX A100系統應用於其課程當中，培養具備AI能力的人才。

佛羅里達大學校長Kent Fuchs表示：「佛羅里達大學希望成爲美國人工智能領域的領導者，NVIDIA 是幫助我們實現這一目標的重要合作伙伴。我們的全新NVIDIA DGX A100系統將幫助我們各個學科的研究人員解決一些全球最緊迫的難題，並使得新一代的學生能夠掌握這項將徹底改變未來工作的技能。」

其他早期採用者還包括：

德國漢堡-埃彭多夫大學醫學中心（University Medical Center Hamburg-Eppendorf）的生物醫學人工智能中心—其將使用DGX A100推進臨牀決策支持和流程優化。
朱拉隆功大學（Chulalongkorn University）—泰國頂尖研究型大學，將使用DGX A100加速泰國的創新研究，例如自然語言處理、自動語音識別、計算機視覺和醫學成像等。
德國人工智能研究中心（German Research Center for Artificial Intelligence ，DFKI）將使用DGX A100系統進一步加快其在新型深度學習方法及其可解釋性方面的研究，同時大幅減少空間使用和能耗。
Element AI—一家總部位於蒙特利爾的AI解決方案和服務開發商，其正在部署DGX A100，用於加快其Orkestrator GPU調度器的性能、優化功能，以滿足不斷增長的AI訓練和應用需求。
Harrison.ai—一家位於悉尼的AI醫療公司，將部署澳大利亞的首批DGX A100系統，用於加快AI醫療設備的開發速度。
阿聯酋人工智能辦公室（The UAE Artificial Intelligence Office）–中東首個部署全新DGX A100的機構。該機構正在建設能夠幫助公共部門和私營機構加快AI研究、開發和應用速度的國家級基礎設施。
VinAI Research—位於河內和胡志明市的越南一流AI研究實驗室，將使用DGX A100進行有影響力的研究並加速AI的應用。

目前全球範圍內有數千臺前代DGX系統被全球衆多政府部門和私營企業機構所使用，其中包括一些全球領先的汽車製造商、醫療健康機構、零售商、金融機構和物流公司等。它們正在推動AI在其行業中的發展。

NVIDIA打造新一代DGX SuperPOD ，性能達700 Petaflops

NVIDIA還展示了新一代DGX SuperPOD。該集羣由140臺DGX A100系統組成， AI計算能力高達700 Petaflops。利用Mellanox HDR 200Gbps InfiniBand互連技術，NVIDIA將140臺DGX A100系統結合在一起，構建了DGX SuperPOD AI超級計算機，用於公司內部對話式AI、基因組學和自動駕駛等領域的研究。

該集羣是全球速度最快的AI超級計算機之一，其性能相當於此前數千臺服務器的性能。憑藉DGX A100的企業就緒型架構和性能，NVIDIA得以在不到一個月的時間內構建了該系統，而以往交付具備這樣能力的超級計算機需要花費數月甚至數年的時間來計劃和採購專用的組件。

爲幫助客戶構建他們自己的由A100賦能的數據中心，NVIDIA發佈了全新DGX SuperPOD參考架構。該參考架構爲客戶提供了指引藍圖，使客戶能夠參照NVIDIA所採取的設計原則和最佳實踐經驗，構建他們自己的基於DGX A100的AI超級計算集羣。

DGXpert計劃與DGX-Ready軟件

NVIDIA還推出了NVIDIA DGXpert 計劃，幫助DGX客戶與NVIDIA的AI專家建立聯繫；此外還有NVIDIA DGX-Ready 軟件計劃，幫助客戶在AI工作流程中充分利用各種經過認證的企業級軟件。

DGXperts是一羣精通AI的專家。他們可以幫助指導客戶完成從計劃、實施到持續優化的整個AI部署流程，還可以幫助DGX A100客戶構建和維護最先進的AI基礎架構。

NVIDIA DGX-Ready軟件計劃可幫助客戶快速找到和使用經NVIDIA測試的第三方MLOps軟件，幫助客戶提高數據科學生產效率、加速AI工作流程並增加AI基礎架構的可訪問性和利用率。該計劃的首批NVIDIA認證合作伙伴有：Allegro AI、cnvrg.io、Core Scientific、Domino Data Lab、="http://www.iguazio.com/">Iguazio 和Paperspace。

DGX A100 技術規格

8個NVIDIA A100 Tensor Core GPU， AI性能達5Petaflops，GPU內存共320GB，有着每秒12.4TB的帶寬。
6個採用第三代NVIDIA NVLink® 技術的NVIDIA NVSwitch™互聯結構， 4.8TB每秒的雙向帶寬。
9個Mellanox ConnectX-6 HDR 200Gb/s網絡接口，提供總計每秒3.6TB的雙向帶寬。
Mellanox網絡計算和網絡加速引擎，例如RDMA、GPUDirect®，以及SHARP™技術（Scalable Hierarchical Aggregation and Reduction Protocol），實現最高性能和可擴展性。
15TB Gen4 NVMe內存，速度比Gen3 NVMe SSDs快2倍。
NVIDIA DGX軟件堆棧，其中包括專爲AI和數據科學工作負載而優化的軟件，能夠實現性能的最大化，使企業能夠更快獲得AI基礎架構投資回報。

一個由5臺DGX A100系統組成的機架可代替一個包括了AI訓練和推理基礎設施的數據中心，而且功耗僅是其1/20，所佔用的空間是其1/25，成本是其1/10。

供應情況

NVIDIA DGX A100系統售價199,000美元起，並現已通過NVIDIA全球合作伙伴網絡經銷商開始供貨。DDN Storage、Dell Technologies、IBM、NetApp、Pure Storage和Vast等存儲技術供應商也計劃將DGX A100集成到其產品當中，包括其各自基於NVIDIA DGX POD和DGX SuperPOD參考架構推出的產品。

NVIDIA DGX-Ready數據中心合作伙伴在26個國家/地區的超過122個站點提供主機託管服務，爲尋求高性價比設施的客戶管理他們的DGX基礎架構。通過此項服務，客戶能夠在這些經過驗證的世界一流數據中心設施內存放並訪問DGX A100基礎架構。

敬請訪問www.nvidia.com/DGX-A100瞭解更多信息，包括詳細的技術規格和訂購信息。

文章來源：知乎