Copyright 2018-2025 報紙迷 版權所有 京ICP備2018136890號
華為在大模型訓練上搞了個大動作:用自家的昇騰芯片和鯤鵬芯片,把AI訓練里的老大難的問題一通爆改,訓練速度更快,成本還省了不少。
那到底他們是怎么做到的?
首先,在AI大模型里,現在很流行一種叫MoE(專家混合模型)的架構。這個模型好比是“專家問診”系統:每次輸入一個問題,只找一部分最合適的專家來回答,省下其他專家休息,不用每次都讓所有人上陣。這樣既能做大模型,又能節省一些計算。
但問題來了:
第一,計算調度容易卡殼。 比如有些算子像FlashAttention、矩陣乘法這些特別費時,數據來回搬運、安排順序的時候很容易堵車,導致芯片沒法全速運轉。
第二,內存壓力巨大。 模型參數太大,訓練時產生的中間數據又堆得飛快,昂貴的NPU內存一下子就滿了,訓練經常被“撐爆”。
針對這兩大難題,華為做了兩步優化:
第一步:把計算做快點
華為團隊專門對最費時間的幾類算子做了深度優化:
FlashAttention:優化掉了重復計算,支持不規則輸入直接處理,提升前向速度50%。
矩陣乘法:優化了數據搬運和調度,讓芯片的計算單元能多干活,利用率提升10%。
向量重排:把多個小算子合并,搬數據的次數減少,速度提升3倍以上!
光是這一輪,訓練吞吐量就提升了15%。
第二步:把任務安排更順點,內存也省下來了
算子下發“零等待”:鯤鵬CPU和昇騰NPU協同配合,像交通管制一樣提前安排順序,不讓CPU和NPU相互等待,整體訓練速度又提升了4%。
內存精準手術:有些數據先不保存,等用時現算(重計算),再配合智能卸載(Swap),把暫時不用的數據挪到別處存著。整體內存節省70%,徹底緩解爆倉問題。
通過這兩大系統優化,華為讓超大規模MoE模型訓練又快又穩,訓練成本大大降低,硬件利用率也提升了一大截。
簡單來說:
算力利用更高了
訓練速度更快了
內存空間更寬裕了
這背后是華為昇騰+鯤鵬的軟硬件協同全鏈路優化,也是國產AI基礎能力越來越硬核的一個縮影。
未來大模型時代,拼的不只是“有多少芯片”,更拼誰能把芯片用得更高效。華為這波操作,給國產AI打了個很好的樣板,值得借鑒。