快科技5月24日訊息,AI算力目前的瓶頸已經從GPU轉向了儲存晶片,國內尤其缺少高效能HBM記憶體等晶片,所以也發展出了各種優化技術,清華大學日前的研究就在華為昇騰上實現了6倍用量的降低。
面壁智慧、清華大學與 OpenBMB 社羣日前聯合釋出了BitCPM-CANN,這是首個原生基於華為昇騰NPU構建的端到端1.58位元(三元)大語言模型訓練系統。
顧名思義,這套系統引入了一套三元量化的技術,模型權重被壓縮為-1、0、1三種狀態,使得視訊記憶體佔用量降低了6倍,還順帶著降低了功耗,因為運算中高耗能的浮點乘法計算簡化成了加減法運算。

通常降低運算元也會導致大模型的精度降低,不過這套三元量化的實際表現還是很強的,團隊公佈了從0.5B、1B、3B再到8B引數量的大模型與全精度MiniCPM4的對比,1B、3B和8B 三元版本分別保留了各自對應尺寸全精度原版模型97.1% 、97.2%和95.7%的平均效能。
0.5B小尺寸的效能損失雖然是最大的,但也達到了90.1%的比率。
速度上的損失也在可接受範圍內,在昇騰910B晶片平臺上,全尺寸精度的吞吐量是155TFLOP/S,三元量化版也有148TFLOP/S,損失只有4.5%。
更重要的是,這套系統一開始就是基於昇騰平臺原生開發的,做到了端到端執行,而且開源、可完全復現——從研究到部署,使用者可以放心使用任意尺寸的模型。
至於這些技術的意義,不只是提升了國產AI平臺的能力,更重要的是降低了對HBM等高價儲存晶片的依賴,當初谷歌的那個TurboQuant技術也是差不多降低6倍記憶體用量,一度引發了三星、SK海力士、美光等公司股價暴跌。
如今記憶體市場不僅價格漲得離譜,而且廠商幾乎都不會增加產能,任由缺貨漲價蔓延,改變這個局面是不可能指望三星等公司自己了,還得靠國內的公司提升記憶體快閃記憶體晶片產能,同時加大技術優化,讓記憶體快閃記憶體的用量不那麼虛高才行。
