算力體系經(jīng)歷著從超算傳統(tǒng)范式向智算新架構(gòu)的生態(tài)重構(gòu),更孕育出“超智融合”這一顛覆性技術(shù)范式:通過異構(gòu)資源池化、云邊端協(xié)同、算法—芯片共設(shè)計,構(gòu)建起支撐大模型時代的新型基礎(chǔ)設(shè)施
當前計算技術(shù)正呈現(xiàn)“超智融合”的演進趨勢:一方面,超算開始引入AI加速技術(shù),另一方面智算系統(tǒng)借鑒HPC通信優(yōu)化方法。錢德沛院士提出的三階段論也指出,未來將進入“超智內(nèi)生融合”階段,即AI算法成為計算系統(tǒng)的原生組成部分。這種融合在生物醫(yī)藥領(lǐng)域已初見成效,如AlphaFold2結(jié)合HPC分子動力學與AI結(jié)構(gòu)預(yù)測,將蛋白質(zhì)折疊模擬效率提升百萬倍。
當下,人類正經(jīng)歷由算力革命引發(fā)的第四次生產(chǎn)力躍遷。據(jù)IDC數(shù)據(jù)顯示,全球AI算力需求以年均82.3%的速度激增,遠超通用算力增速的15.9%。這種劇變源于雙重驅(qū)動力﹕大模型訓(xùn)練所需算力每3、4個月翻番的“新摩爾定律”,以及GPT類應(yīng)用引發(fā)的推理需求核爆式增長——單日交互請求突破3000億次的場景已不鮮見。在這種技術(shù)風暴中,算力體系經(jīng)歷著從超算傳統(tǒng)范式向智算新架構(gòu)的生態(tài)重構(gòu),更孕育出“超智融合”這一顛覆性技術(shù)范式:通過異構(gòu)資源池化、云邊端協(xié)同、算法—芯片共設(shè)計,構(gòu)建起支撐大模型時代的新型基礎(chǔ)設(shè)施。
算力需求的爆炸式增長:模型訓(xùn)練規(guī)?;c推理需求激增
隨著人工智能技術(shù)的迅猛發(fā)展,大模型時代對算力資源的需求正呈現(xiàn)出前所未有的增長態(tài)勢。這種增長主要體現(xiàn)在模型訓(xùn)練規(guī)模的急劇擴大和推理需求的快速激增兩個方面。
在訓(xùn)練層面,當前萬億級參數(shù)的大模型訓(xùn)練已成為行業(yè)常態(tài),根據(jù)OpenAI統(tǒng)計,2012年以來AI訓(xùn)練任務(wù)的算力需求每3.43個月就會翻倍,遠超傳統(tǒng)芯片性能提升的摩爾定律周期(18—24個月)。以Meta的Llama 3為例,其訓(xùn)練過程消耗超過3000萬GPU小時,訓(xùn)練成本高達千萬美元級別。這種現(xiàn)象源于算法擴展定律(Scaling law)的作用——模型性能與參數(shù)規(guī)模、數(shù)據(jù)樣本和算力投入成正比,導(dǎo)致業(yè)界為追求更好性能不斷突破模型規(guī)模的極限。GPT系列模型的演進極具代表性:從2019年GPT-2的15億參數(shù),到2020年GPT-3的1750億參數(shù),再到當前GPT-4的1.8萬億參數(shù),模型規(guī)模在6年內(nèi)增長超2萬倍,相應(yīng)的算力需求呈現(xiàn)指數(shù)級攀升。這種增長趨勢使得單次訓(xùn)練任務(wù)所需算力從早期的幾十PD(PetaFlops/s-day,每秒千萬億次的計算機完整運行一天消耗的算力總量)急劇增加到數(shù)千PD,例如GPT-3訓(xùn)練就需3640PD算力支持,而最新規(guī)劃中的5萬億參數(shù)模型訓(xùn)練預(yù)計需要2421 PFlops(每秒浮點運算次數(shù)),算力連續(xù)運轉(zhuǎn)95天也就是需要229995PD的算力。
在推理應(yīng)用層面,IDC預(yù)測到2028年AI推理負載將占總算力需求的73%,這種結(jié)構(gòu)性轉(zhuǎn)變源于大模型在產(chǎn)業(yè)端的規(guī)?;渴?。一方面,自然語言處理、計算機視覺等技術(shù)的成熟推動了智能客服、文檔處理等應(yīng)用場景爆發(fā),2021年中國NLP(自然語言處理)市場規(guī)模同比增長126.9%;另一方面,AIGC(生成式AI)商業(yè)化落地催生了包括以文生圖、虛擬數(shù)字人在內(nèi)的新興應(yīng)用,使得推理請求呈現(xiàn)高并發(fā)特征。不同于訓(xùn)練任務(wù)對算力的集中式消耗,推理應(yīng)用需要算力基礎(chǔ)設(shè)施具備低延遲響應(yīng)、高吞吐處理能力,這對傳統(tǒng)計算架構(gòu)提出了巨大挑戰(zhàn)。特別是當大規(guī)模模型應(yīng)用于實時交互場景(如自動駕駛決策、金融風控)時,現(xiàn)有系統(tǒng)的響應(yīng)延遲和能效比往往難以滿足需求。更值得關(guān)注的是,隨著多模態(tài)大模型的發(fā)展,未來同時處理文本、圖像、語音的復(fù)合推理任務(wù)將成主流,這類任務(wù)的計算復(fù)雜度較單模態(tài)任務(wù)呈現(xiàn)幾何級數(shù)增長。
面對這種雙重壓力,算力基礎(chǔ)設(shè)施正加速向異構(gòu)計算架構(gòu)演進,通過GPU+ASIC+FPGA的多元芯片組合及池化技術(shù)提升資源利用率,但算力供給與需求之間的鴻溝仍在持續(xù)擴大,這為下一代智能計算體系創(chuàng)新提供了關(guān)鍵驅(qū)動力。
智算與超算的技術(shù)范式與應(yīng)用場景分析
計算范式與技術(shù)特性對比
在計算技術(shù)范式上,超級計算(HPC)以物理規(guī)律驅(qū)動的數(shù)值模擬為核心,有兩大技術(shù)特性﹕一是采用FP64等高精度浮點運算單元構(gòu)建大規(guī)模并行計算架構(gòu),典型應(yīng)用于基因組比對、氣象模式運算等長周期批處理任務(wù);二是通過MPI(跨語言的通信協(xié)議)等通信協(xié)議實現(xiàn)萬核級并行計算,在流體仿真、核聚變模擬等領(lǐng)域具有不可替代性。
相較而言,智能計算(AI Computing)則遵循數(shù)據(jù)驅(qū)動的異構(gòu)計算范式﹕一方面依賴GPU/ASIC的Tensor核心加速矩陣運算,如NVIDIA A100通過第三代Tensor Core實現(xiàn)3922.3 TFLOPS的FP8計算能力;另一方面,重點優(yōu)化INT8/FP8等低精度推理吞吐,典型案例包括需實時處理千萬級IoT數(shù)據(jù)的智駕大腦系統(tǒng),其推理延遲需控制在毫秒級。
兩者從性能評價體系來看,超算以雙精度浮點性能(FP64 FLOPS)為核心指標,如AMD Instinct MI300A的FP64向量計算峰值達61.3 TFLOPS6,而智算更關(guān)注混合精度計算效率,以NVIDIA H100為例,其稀疏加速下的FP8矩陣運算性能達3922.3 TFLOPS,較FP64性能提升64倍。
在負載特征方面,超算任務(wù)具有強同步性(如WRF氣象模型需全局數(shù)據(jù)交換)與長周期(單任務(wù)常持續(xù)數(shù)天),而智算負載呈現(xiàn)彈性分片特性,如Transformer模型推理可通過Continuous Batching(連續(xù)批處理,一種優(yōu)化大型語言模型推理性能的技術(shù))技術(shù)實現(xiàn)動態(tài)請求批處理。這種差異本質(zhì)源于超算對物理守恒定律的嚴格遵從與智算對統(tǒng)計規(guī)律的近似擬合。
值得關(guān)注的是,當前計算技術(shù)正呈現(xiàn)“超智融合”的演進趨勢:一方面,超算開始引入AI加速技術(shù),另一方面智算系統(tǒng)借鑒HPC通信優(yōu)化方法。錢德沛院士提出的三階段論也指出,未來將進入“超智內(nèi)生融合”階段,即AI算法成為計算系統(tǒng)的原生組成部分。這種融合在生物醫(yī)藥領(lǐng)域已初見成效,如AlphaFold2結(jié)合HPC分子動力學與AI結(jié)構(gòu)預(yù)測,將蛋白質(zhì)折疊模擬效率提升百萬倍。
超算智算應(yīng)用場景分析
在計算技術(shù)的實際應(yīng)用中,智算與超算呈現(xiàn)出顯著的應(yīng)用場景分化與協(xié)同潛力,各領(lǐng)域應(yīng)用可系統(tǒng)歸納如下﹕
交通優(yōu)化領(lǐng)域,超算應(yīng)用集中在宏觀交通流仿真和道路應(yīng)力分析等離線高精度場景,而智算則聚焦智駕實時決策和停車位動態(tài)預(yù)測等低延遲任務(wù),二者通過車路云一體化架構(gòu)實現(xiàn)協(xié)同,例如將超算生成的交通仿真數(shù)據(jù)與智算的實時邊緣計算結(jié)合優(yōu)化信控策略。
氣象服務(wù)領(lǐng)域,超算承擔ECMWF等數(shù)值預(yù)報模型的計算,智算則處理衛(wèi)星云圖分割和短臨預(yù)警,氣象局試點物理約束耦合AI修正的雙驅(qū)動模式,將暴雨預(yù)測準確率提升12%。
工業(yè)制造領(lǐng)域,超算完成CFD流體仿真和材料疲勞測試,智算負責AOI視覺檢測與設(shè)備RUL預(yù)測,數(shù)字孿生工廠通過OPC UA協(xié)議實現(xiàn)毫米級仿真數(shù)據(jù)與產(chǎn)線PLC的毫秒級聯(lián)動。
醫(yī)療健康領(lǐng)域,超算支撐基因組測序和藥物分子對接,智算賦能CT影像分割和電子病歷NER,瑞金醫(yī)院正構(gòu)建基因型—表型關(guān)聯(lián)分析平臺,將GWAS運算時間從30天壓縮至8小時。
低空經(jīng)濟領(lǐng)域,超算優(yōu)化空域結(jié)構(gòu),智算處理無人機路徑動態(tài)調(diào)整,部署融合系統(tǒng)實現(xiàn)靜態(tài)空管規(guī)則與實時氣象避障的協(xié)同決策,沖突解決率提升至99.7%。
這些實踐驗證了錢德沛院士提出的“超算筑基+智算賦能”融合范式,其技術(shù)實現(xiàn)依賴三大關(guān)鍵﹕基于RDMA的高速數(shù)據(jù)交換、多瑙/ModelArts混合調(diào)度器以及FP32-FP8的精度自適應(yīng)框架。
超智融合協(xié)同模式的系統(tǒng)化實現(xiàn)路徑研究
調(diào)度層協(xié)同技術(shù)創(chuàng)新。在調(diào)度層協(xié)同方面,需要通過標準化API架構(gòu)實現(xiàn)異構(gòu)計算資源的統(tǒng)一納管。一是開發(fā)兼容多瑙調(diào)度器(超算)與ModelArts(智算)的混合編排引擎,支持MPI作業(yè)與Kubernetes容器的混合部署,實測任務(wù)排隊時間減少40%;二是采用動態(tài)優(yōu)先級調(diào)度算法,根據(jù)作業(yè)特征(如超算任務(wù)的強耦合性、智算任務(wù)的可分片性)自動分配資源,例如氣象模式計算優(yōu)先分配InfiniBand網(wǎng)絡(luò)隔離的FP64節(jié)點,而自動駕駛訓(xùn)練任務(wù)則調(diào)度至NVLink互連的GPU集群。
計算層能力互補機制。計算層的協(xié)同表現(xiàn)為雙向能力輸送﹕超算系統(tǒng)通過高保真仿真生成AI訓(xùn)練所需的合成數(shù)據(jù),例如基于LAMMPS(大規(guī)模原子分子并行模擬器)生成的納米材料斷裂過程數(shù)據(jù)集,解決了智能檢測算法真實樣本不足的問題;智算設(shè)施則提供實時后處理能力,如將CFD仿真輸出的萬億級網(wǎng)格數(shù)據(jù)通過3D卷積神經(jīng)網(wǎng)絡(luò)進行流場特征提取,處理耗時從傳統(tǒng)方法的26小時壓縮至47分鐘。這種模式下,國家超算無錫中心已實現(xiàn)分子動力學模擬與分子構(gòu)象預(yù)測的管道化銜接,使新藥研發(fā)周期縮短38%。
數(shù)據(jù)流架構(gòu)與性能優(yōu)化。數(shù)據(jù)流通體系構(gòu)建了1.2Tbps全閃存存儲網(wǎng)絡(luò),包含兩大技術(shù)特性。采用GPUDirect RDMA技術(shù)實現(xiàn)超算與智算內(nèi)存的直接交換,避免了PCIe總線帶來的12μs延遲;部署分布式存儲系統(tǒng),通過EC糾刪碼和智能分層策略,將PB級氣象數(shù)據(jù)的跨域遷移效率提升至98.6%。例如在低空經(jīng)濟試點中,可以支撐幾千架無人機軌跡數(shù)據(jù)與空管仿真系統(tǒng)的實時交互,通信丟包率低于0.001%,混合數(shù)據(jù)流處理吞吐量達2.1TB/s時,端到端延遲仍能控制在9.3ms以內(nèi)。
協(xié)同效益與實證分析。通過上述技術(shù)融合,已初步形成三類典型范式﹕超算物理模型驗證智算算法、智算優(yōu)化超算參數(shù)配置和聯(lián)合推理。據(jù)行業(yè)測算顯示,到2026年這種協(xié)同可使超算資源利用率從現(xiàn)在的65%提升至89%。需要指出的是,當前仍存在超算作業(yè)檢查點機制與智算彈性伸縮不兼容、跨架構(gòu)調(diào)試工具鏈缺失等問題,這些問題將成為下一步技術(shù)攻關(guān)的重點方向。
新一代智算體系架構(gòu):超智融合
AI計算已進入多元算力融合時代,其核心是通過異構(gòu)架構(gòu)實現(xiàn)計算效率與能效比的協(xié)同提升。在硬件層面,GPU+ASIC+CPU的三元協(xié)同成為主流方案。英偉達(NVIDIA)的Transformer Engine通過混合精度計算動態(tài)分配GPU Tensor Core(GPU張量核心)資源,在H100架構(gòu)中實現(xiàn)層間精度自適配,相比傳統(tǒng)FP32計算能效提升3倍以上;而專用ASIC芯片采用存算一體設(shè)計,針對Transformer模型的矩陣乘加運算進行指令集級優(yōu)化,在推理場景下單位功耗算力可達GPU的5—8倍。軟件生態(tài)方面,RISC-V開放指令集通過定制化擴展為AI芯片提供靈活的設(shè)計空間,清華大學Tianjic芯片采用“RISC-V+神經(jīng)形態(tài)計算混合”架構(gòu),在圖像識別任務(wù)中實現(xiàn)每瓦特算力成本降低57%。
這種異構(gòu)協(xié)同的運作依賴于跨設(shè)備計算流水線技術(shù)﹕云邊端協(xié)同架構(gòu)將訓(xùn)練任務(wù)分配至GPU集群,邊緣推理由ASIC芯片執(zhí)行,而CPU通過AMX指令集處理稀疏計算,形成“訓(xùn)練—推理—稀疏計算”三級流水。如國內(nèi)某企業(yè)智算平臺采用Cube+Vector單元設(shè)計,結(jié)合編譯器實現(xiàn)算子自動切分,使BERT-Large模型在GPU訓(xùn)練與ASIC推理間的數(shù)據(jù)傳輸開銷減少62%。未來,隨著Chiplet技術(shù)的發(fā)展,異構(gòu)計算將向三維堆疊集成演進,通過硅中介層實現(xiàn)GPU邏輯單元、ASIC計算陣列與CPU控制器模塊的die-to-die(芯片到芯片)互連,進一步突破馮·諾依曼架構(gòu)的內(nèi)存墻限制。
清華大學武永衛(wèi)教授與章明星助理教授團隊在大模型推理領(lǐng)域提出的協(xié)同計算框架,通過“云邊協(xié)同”分層架構(gòu)實現(xiàn)了從大規(guī)模集群到邊緣設(shè)備的全覆蓋優(yōu)化。在數(shù)據(jù)中心級部署中,Mooncake架構(gòu)構(gòu)建了分布式內(nèi)存池化系統(tǒng),其核心包括﹕
基于RDMA/NVMe-oF的跨節(jié)點KVCache透明緩存池,通過動態(tài)前綴匹配復(fù)用機制將Kimi服務(wù)的推理吞吐提升75%;
面向過載場景的Cache-aware(緩存感知方式)調(diào)度算法,支持數(shù)千卡集群中Prefill/Decode實例的異構(gòu)協(xié)同,NVIDIA Dynamo參考Mooncake架構(gòu)實現(xiàn)了兼容的分布式推理標準接口。
對于邊緣與單機場景,KTransformers采用計算強度導(dǎo)向的資源分配策略﹕通過將MLA稀疏注意力卸載至CPU AMX指令集,同時保留FP8精度的Linear運算在GPU Tensor Core,使得671B模型在單機382GB內(nèi)存環(huán)境下推理速度較llama.cpp提升3—28倍。
該系列方案在技術(shù)集成層面實現(xiàn)了三重突破﹕
一是存儲—計算聯(lián)合優(yōu)化。Mooncake的分布式內(nèi)存池與KTransformers的混合精度卸載共同構(gòu)成“以存換算+以存強算”技術(shù)鏈,硬件采購成本降低40%的同時支持1M長文本的準確率超過90%;
二是動態(tài)負載適配?;赥ransformer Engine的FP8自動精度切換技術(shù),配合統(tǒng)一稀疏注意力框架,實現(xiàn)計算資源在云邊場景的動態(tài)遷移——云端大batch任務(wù)優(yōu)先分配至GPU集群,邊緣稀疏請求則由CPU AMX處理;
三是生態(tài)協(xié)同創(chuàng)新。開源社區(qū)已吸引眾多國產(chǎn)芯片企業(yè)/Intel等廠商共建,其混合架構(gòu)設(shè)計啟發(fā)了存算一體芯片優(yōu)化,形成“軟件定義—硬件加速”的良性循環(huán)。
這種分層協(xié)同范式為大模型部署提供了可擴展的技術(shù)路徑﹕Mooncake(一個開源的分布式計算框架)解決萬級并發(fā)下的集群效率問題,而KTransformers(由清華大學 KVCache.AI團隊聯(lián)合趨境科技推出的開源項目)降低邊緣設(shè)備部署門檻,兩者通過統(tǒng)一的KVCache接口實現(xiàn)算力資源全局調(diào)度,印證了“Multi-DC as a Computer”的新型數(shù)據(jù)中心架構(gòu)理念。
算力即生產(chǎn)力,未來技術(shù)演進與社會經(jīng)濟影響
計算能力的泛在化發(fā)展正在重塑現(xiàn)代產(chǎn)業(yè)格局,算力已從傳統(tǒng)輔助工具躍升為核心生產(chǎn)力要素,主要包括三個層面﹕
算力基建化——公共資源屬性強化
未來智算中心將深度融入城市基礎(chǔ)設(shè)施體系,其發(fā)展呈現(xiàn)出三大特征﹕第一,區(qū)域級算力協(xié)同網(wǎng)絡(luò)加速成型,依托“東數(shù)西算”工程構(gòu)建的跨域調(diào)度平臺實現(xiàn)京津滬深等8大節(jié)點間算力資源彈性調(diào)配(延遲lt;15ms),使西部地區(qū)可再生能源供電的超算設(shè)施與東部AI訓(xùn)練需求高效匹配,資源利用率提升27%。第二,算力服務(wù)模式向“訂閱制”轉(zhuǎn)變,某城市試點推出的“算力信用卡”允許中小企業(yè)按需調(diào)用FP64至FP8多元算力,使生物醫(yī)藥初創(chuàng)企業(yè)的分子模擬成本下降63%。第三,算力—運力協(xié)同成為關(guān)鍵,全調(diào)度以太網(wǎng)(GSE)技術(shù)將智算中心間數(shù)據(jù)傳輸效率提升至1.6Tbps/機柜,支撐起每秒50萬億次的參數(shù)同步,為超大模型訓(xùn)練提供底層保障。
預(yù)計到2028年,我國算力基建化將拉動GDP增長1.2個百分點,其中制造業(yè)受益最顯著(附加值提升約3800億元/年)。
邊緣算力崛起——分布式智能新范式
隨著輕量化技術(shù)突破,AI算力持續(xù)向邊緣側(cè)下沉,其核心驅(qū)動力包括﹕算法層面,MoE架構(gòu)(如谷歌Switch Transformer)推動模型參數(shù)動態(tài)激活,使手機端運行175B參數(shù)模型的功耗控制在5W以內(nèi);硬件層面,邊緣端芯片的INT8算力達256TOPS,可支持L3級自動駕駛的實時決策(時延lt;10ms)。
據(jù)IDC預(yù)測,2027年全球邊緣AI算力占比將達42.3%,主要承載高頻交互型(如AR眼鏡的SLAM定位)、隱私敏感型(如醫(yī)療影像的聯(lián)邦學習)、時延敏感型(如工業(yè)機械臂的6DoF控制)三類負載。
可持續(xù)發(fā)展——綠色算力技術(shù)體系
AI產(chǎn)業(yè)的碳中和目標倒逼算力技術(shù)綠色革新,表現(xiàn)為三大技術(shù)路徑﹕
基礎(chǔ)設(shè)施建設(shè)方面,數(shù)據(jù)中心采用沉浸式液冷(冷卻能耗降低70%)與光伏直供(年減碳8.3萬噸),PUE降至1.12以下;
算法創(chuàng)新層面,深度求索的4-bit量化技術(shù)(ZeroQuant-V2)在保持LLM精度損失小于1%的前提下,使單次訓(xùn)練能耗從27.6MWh降至6.9MWh;
資源調(diào)度維度,阿里云“算力碳地圖”通過動態(tài)遷移負載至清潔能源富集區(qū)域(如張家口風電場),年減少碳排放14.2萬噸。
與此同時,眾多地區(qū)將單位算力碳排放納入數(shù)據(jù)中心考核指標,以此強化綠色算力技術(shù)創(chuàng)新應(yīng)用。
算力泛在化將引發(fā)連鎖式產(chǎn)業(yè)變革,如在制造領(lǐng)域,NVIDIA的Omniverse平臺已支持超算數(shù)值模型實時驅(qū)動數(shù)字孿生產(chǎn)線,使某汽車工廠的工藝調(diào)試周期縮短78%;在科研領(lǐng)域,某大學建設(shè)的“科學智算云”通過融合HPC與AI,使新材料發(fā)現(xiàn)效率提升40倍……然而還需注意到,這一進程仍面臨標準不統(tǒng)一及安全風險等挑戰(zhàn)。
大模型不僅是一場技術(shù)革命,更是一次算力體系的全面重構(gòu)。未來,通過“超智融合”——即通過算法創(chuàng)新、異構(gòu)算力、綠色低碳的協(xié)同進化,才能突破算力瓶頸,真正釋放AI的普惠價值。中國憑借政策引導(dǎo)、技術(shù)攻堅與場景落地優(yōu)勢,正成為全球智算革命的引領(lǐng)者,而這場變革,才剛剛開始。
(作者系中國特色數(shù)字化轉(zhuǎn)型方法論創(chuàng)始人,著有《精益數(shù)據(jù)方法論》《數(shù)據(jù)要素價值化藍圖》等書。)