Nvidia訓練出83億參數世界最大語言模型,53分鐘成功訓練Bert

 2019-08-14 08:00:00.0

智東(公衆號:zhidxcom)
編 | 年年

導語:Nvidia訓練出世界最大語言模型MegatronLM,模型使用了83億個參數,比Bert大24倍,比OpenAI的GPT-2大5倍。

智東西8月14日消息,據外媒報道,Nvidia今天宣佈,它已經訓練出了世界上最大的語言模型MegatronLM,該模型使用了83億個參數,比Bert大24倍,比OpenAI的GPT-2大5倍。

Nvidia還宣佈其打破了BERT模型的最快訓練時間記錄,通過使用優化的PyTorch軟件和超過1,000個GPU的DGX-SuperPOD,Nvidia能夠在53分鐘內訓練出行業標準的BERT模型。

除此之外,Nvidia還通過運行Tesla T4 GPU和針對數據中心推理優化的TensorRT 5.1,成功將BERT推理時間降至了2.2毫秒。

一、世界最大語言模型MegatronLM比Bert大24倍

Nvidia今天宣佈,它已經訓練出了世界上最大的語言模型MegatronLM,這是這家GPU製造商旨在推進會話式AI的一系列更新中的最新版本。

爲了實現這一壯舉,Nvidia利用模型並行性,用一種技術將神經網絡分割成多個部分,創建出了MegatronLM模型,該模型使用了83億個參數,比Bert大24倍,比OpenAI的GPT-2大5倍。

Nvidia同時還宣佈打破了BERT的最快訓練記錄,通過使用優化的PyTorch軟件和超過1,000個GPU的DGX-SuperPOD,Nvidia能夠在53分鐘內訓練出行業標準的BERT模型。

Nvidia深度學習應用(applied deep learning)副總裁Bryan Catarazano在與記者和分析師的一次談話中說:「如果沒有這種技術,訓練這些大型語言模型可能需要數週時間。」

Nvidia還表示它已經實現了最快的BERT推理時間,通過運行Tesla T4 GPU和針對數據中心推理優化的TensorRT 5.1,BERT推理時間能夠降至2.2毫秒。

Bryan Catarazano表示,當用CPU進行推理時,BERT推理最多需要40毫秒,而許多會話式AI系統今天會在10毫秒內完成。

Nvidia訓練出83億參數世界最大語言模型,53分鐘成功訓練Bert

▲MegatronLM代碼已經在在GitHub上開源

Nvidia已經將MegatronLM代碼在GitHub上開源,以幫助人工智能從業者和研究人員探索大型語言模型的創建,或使用GPU進行速度訓練或推理。

二、53分鐘訓練BERT

2018年10月,谷歌正式推出了基於雙向 Transformer 的大規模預訓練語言模型「BERT」,並在短期內刷新了當時11 項 NLP 任務的最優性能記錄。

BERT能高效抽取文本信息並應用於各種 NLP 任務,所以非常適合語言理解任務,如翻譯,問答,情感分析和句子分類等。

Nvidia本次用帶有92個DGX-2H節點的NVIDIA DGX SuperPOD在短短53分鐘內就成功訓練BERT-Large,這創造了新的記錄。

爲了實現這個新紀錄,Nvidia用了1,472 個V100 SXM3-32GB 450W GPU和每個節點8個Mellanox Infiniband計算適配器以自動混合精度( Automatic Mixed Precision)運行PyTorch以加快處理數量和速度。

Nvidia訓練出83億參數世界最大語言模型,53分鐘成功訓練Bert

▲不同數量的GPU訓練BERT-Large的時間

相比之下,對於只能訪問單個節點的研究人員來說,使用16個V100的DGX-2服務器訓練BERT-Large需要3天。

結語:MegatronLM模型促進NLP發展

讓計算機理解人類語言及其所有細微差別並做出適當反應一直是AI研究人員追求的方向,但在現代AI技術的到來之前,建立具有真正NLP功能的系統是不可能的。

隨着BERT和具有10億多參數的GPT-2模型等大型語言模型的出現,我們看到了高難度語言理解任務實現的可能,而Nvidia本次發佈的MegatronLM模型更是將NLP處理提高了一個臺階。

更重要的是,新的模型可能會減少像亞馬遜Alexa、Google Assistant和百度Duer這樣的語音助手交互延遲時間,這對於語音交互實際的發展有非常大的推動作用。

文章來源:Venturebeat、Nvidia

文章來源:智東西