華為昇騰AI晶片獲清華大學等機構超級優化：記憶體用量直降6倍

2026-05-24 21:26:13.0

快科技5月24日訊息，AI算力目前的瓶頸已經從GPU轉向了儲存晶片，國內尤其缺少高效能HBM記憶體等晶片，所以也發展出了各種優化技術，清華大學日前的研究就在華為昇騰上實現了6倍用量的降低。

面壁智慧、清華大學與 OpenBMB 社羣日前聯合釋出了BitCPM-CANN，這是首個原生基於華為昇騰NPU構建的端到端1.58位元（三元）大語言模型訓練系統。

顧名思義，這套系統引入了一套三元量化的技術，模型權重被壓縮為-1、0、1三種狀態，使得視訊記憶體佔用量降低了6倍，還順帶著降低了功耗，因為運算中高耗能的浮點乘法計算簡化成了加減法運算。

通常降低運算元也會導致大模型的精度降低，不過這套三元量化的實際表現還是很強的，團隊公佈了從0.5B、1B、3B再到8B引數量的大模型與全精度MiniCPM4的對比，1B、3B和8B 三元版本分別保留了各自對應尺寸全精度原版模型97.1% 、97.2%和95.7%的平均效能。

0.5B小尺寸的效能損失雖然是最大的，但也達到了90.1%的比率。

速度上的損失也在可接受範圍內，在昇騰910B晶片平臺上，全尺寸精度的吞吐量是155TFLOP/S，三元量化版也有148TFLOP/S，損失只有4.5%。

更重要的是，這套系統一開始就是基於昇騰平臺原生開發的，做到了端到端執行，而且開源、可完全復現——從研究到部署，使用者可以放心使用任意尺寸的模型。

至於這些技術的意義，不只是提升了國產AI平臺的能力，更重要的是降低了對HBM等高價儲存晶片的依賴，當初谷歌的那個TurboQuant技術也是差不多降低6倍記憶體用量，一度引發了三星、SK海力士、美光等公司股價暴跌。

如今記憶體市場不僅價格漲得離譜，而且廠商幾乎都不會增加產能，任由缺貨漲價蔓延，改變這個局面是不可能指望三星等公司自己了，還得靠國內的公司提升記憶體快閃記憶體晶片產能，同時加大技術優化，讓記憶體快閃記憶體的用量不那麼虛高才行。

文章來源：快科技