算力作為人工智能三大“底座”之一,是傳輸處理數(shù)據(jù)的關(guān)鍵能力,是工業(yè)智能化轉(zhuǎn)型和數(shù)據(jù)安全可信的重要保障,為提升我國人工智能競(jìng)爭力、促進(jìn)經(jīng)濟(jì)高質(zhì)量發(fā)展提供了重要支撐。
中國算力規(guī)模全球第二,算力基礎(chǔ)設(shè)施持續(xù)完善,數(shù)據(jù)中心機(jī)架數(shù)量約810萬架,市場(chǎng)規(guī)模超2470.1億元,基礎(chǔ)電信運(yùn)營商全網(wǎng)智算規(guī)模超過每秒30百億億次浮點(diǎn)運(yùn)算,上海、呼和浩特等地萬卡集群初步實(shí)現(xiàn)多元異構(gòu),中國總算力水平居全球第二。但中國在高端算力芯片及生態(tài)、算力結(jié)構(gòu)、算力協(xié)同與效率等方面存在諸多短板弱項(xiàng)亟待補(bǔ)齊。
一是高端算力芯片短缺。中國大陸無全球排名前15的半導(dǎo)體廠商,自主量產(chǎn)工藝落后國際先進(jìn)水平2~3代,加上美國對(duì)我國禁售A/H100、A/H800、B100、B/H200等高端智算芯片和ASML高端光刻機(jī),將華為、龍芯、寒武紀(jì)、曙光、海光等企業(yè)列入實(shí)體清單,中國芯片進(jìn)口和芯片制造先進(jìn)工藝受限,導(dǎo)致中國缺乏高端算力芯片。而美國有8家半導(dǎo)體廠商全球排名前15,在電子設(shè)計(jì)自動(dòng)化(EDA)和半導(dǎo)體制造設(shè)備(SME)上處于絕對(duì)優(yōu)勢(shì),其核心算力芯片性能領(lǐng)先中國2~3代。
二是算力配套軟件生態(tài)不完善,不能滿足客戶需求,導(dǎo)致其銷售不佳、發(fā)展乏力。據(jù)不完全統(tǒng)計(jì),2023年騰出貨量十幾萬塊,英偉達(dá)H/A100、L40S等芯片出貨199萬塊。與之對(duì)比,英偉達(dá)CUDA生態(tài)完備,有550個(gè)SDK,是中國相關(guān)企業(yè)的上百倍,加上芯片性能強(qiáng)勁,已占全球85%市場(chǎng)份額。
三是算力結(jié)構(gòu)不平衡。目前,中國通用算力規(guī)模占比最高,超算、智算算力總體規(guī)模較小,大模型訓(xùn)練、無人駕駛等AI專項(xiàng)算力、高性能算力缺口較大,整體算力結(jié)構(gòu)有待優(yōu)化。2023年,中國2200多個(gè)算力中心的算力規(guī)模超0.23ZFLOPS(每秒十萬億億次浮點(diǎn)運(yùn)算),智算算力占比約30%,仍有很大提升空間。因智算占比少、智算需求放大導(dǎo)致智能算力不足,如Kimi高峰時(shí)期提示算力不足。
四是算力利用不充分。中國工程院院士劉韻潔指出,“通用算力和超算算力,我們國家的利用率都不高”。數(shù)據(jù)顯示,中國IDC 機(jī)柜上架率在58%左右,MFU(模型算力利用率)普遍在30%左右,頂尖集群利用率約50%,整體算力利用率不足30%,通用算力利用率低于20%,很多數(shù)據(jù)中心服務(wù)器長時(shí)間閑置,CPU平均利用率僅5%~10%,完成同樣任務(wù)用電量為美國的8倍。貴州、寧夏、甘肅、內(nèi)蒙古等地受技術(shù)、成本、機(jī)制等多重因素制約,一些數(shù)據(jù)中心利用效率不高,“存多算少”,如中衛(wèi)集群以存儲(chǔ)為主,調(diào)用計(jì)算頻次低。
五是算力協(xié)同面臨技術(shù)及統(tǒng)籌挑戰(zhàn)。由于我國異構(gòu)算力兼容性不足、不同算力節(jié)點(diǎn)間的網(wǎng)絡(luò)傳輸時(shí)延較高、數(shù)據(jù)交換帶寬不足等原因,導(dǎo)致算力協(xié)同效率不高。首先,我國各算力平臺(tái)硬件配置、軟件資源、服務(wù)接口各不相同,不同構(gòu)架芯片、操作系統(tǒng)、固件、數(shù)據(jù)庫、整機(jī)之間存在各種兼容性問題。其次,智算中心內(nèi)應(yīng)用層端到端時(shí)延需求在微秒級(jí),而目前全國主要城市算力樞紐節(jié)點(diǎn)處于20 ms時(shí)延圈,如北京與呼和浩特的端到端時(shí)延為12 ms,是集群內(nèi)應(yīng)用層端到端時(shí)延的千倍以上。而英偉達(dá)InfiniBand技術(shù)讓多服務(wù)器節(jié)點(diǎn)間延遲低至微秒級(jí)。再次,以一臺(tái)DGX-1工作站配置8塊NVLink V100 GPU,每塊GPU配置100 Gbit/s的網(wǎng)卡測(cè)算,單機(jī)架兩臺(tái)GPU服務(wù)器間需1.6 Tbit/s帶寬,而通常每機(jī)架僅配置百兆帶寬,要實(shí)現(xiàn)GPU高效協(xié)同,存在海量帶寬缺口。最后,算力協(xié)同缺乏統(tǒng)一規(guī)劃、調(diào)度、指揮的體制機(jī)制,各單位獨(dú)立研究大模型,“百模大戰(zhàn)”,難免低水平重復(fù)。
我國應(yīng)構(gòu)建全國一體化的創(chuàng)新、協(xié)調(diào)、綠色、開放、共享的高質(zhì)量算力體系,實(shí)現(xiàn)智算技術(shù)先進(jìn)、算力生態(tài)優(yōu)美、算用協(xié)同高效的發(fā)展目標(biāo)。
一是加強(qiáng)自主研發(fā)創(chuàng)新。構(gòu)建國產(chǎn)萬卡大模型訓(xùn)練平臺(tái);借助人工智能技術(shù)提高芯片設(shè)計(jì)能力;優(yōu)先研制訓(xùn)練芯片、推理芯片、3D視覺芯片、類腦芯片等細(xì)分領(lǐng)域AI芯片;加強(qiáng)異構(gòu)計(jì)算創(chuàng)新,整合CPU、GPU、ASIC、FPGA、NPU、DPU多元芯片,x86、ARM、RISC-V、MIPS多元架構(gòu),形成異構(gòu)算力。
二是構(gòu)建綠色、靈活、可持續(xù)的高質(zhì)量算力。充分利用蒙、甘、青、新等地區(qū)豐富的風(fēng)電、光伏、水電等清潔能源,減少“運(yùn)營碳”;優(yōu)化服務(wù)器和芯片設(shè)計(jì),減少“隱含碳”;新建萬卡智算基地電能利用效率(PUE)在1.2以下;算力服務(wù)分層解耦、靈活替換,不綁定廠商;建立關(guān)鍵組件和資源戰(zhàn)略庫存、加強(qiáng)供應(yīng)鏈上下游合作協(xié)同、多元化供應(yīng)鏈,實(shí)現(xiàn)供應(yīng)鏈可持續(xù);算力芯片及配套軟件升級(jí)迭代必須兼容,實(shí)現(xiàn)技術(shù)可持續(xù)。
三是共建全球開放、開源共享的算力體系。用開源共享打破算力芯片生態(tài)壟斷,共建基于國際標(biāo)準(zhǔn)的開放統(tǒng)一的智能計(jì)算軟件棧;發(fā)力RISC-V+AI開源技術(shù),力爭成為全球主力貢獻(xiàn)者;向“一帶一路”沿線國家提供算力租用服務(wù),實(shí)現(xiàn)互利共贏發(fā)展。
四是營造優(yōu)美算力生態(tài)環(huán)境。建立與算力芯片協(xié)調(diào)適配的軟件生態(tài),基礎(chǔ)軟件先行,研制AI編程語言和編譯器,支持異構(gòu)處理器并行程序,實(shí)現(xiàn)算力的跨平臺(tái)部署、多場(chǎng)景兼容;研制兼容各類AI芯片和訓(xùn)練/推理框架的智算操作系統(tǒng),實(shí)現(xiàn)高效管理多類資源,異構(gòu)智算集群靈活調(diào)度、彈性擴(kuò)展;研制面向PC和小模型的桌面AI操作系統(tǒng)。建立與算力協(xié)調(diào)適配的運(yùn)載能力,研發(fā)NV-Link、InfiniBand類似技術(shù),提升芯片間、集群間互聯(lián)能力;推動(dòng)新式網(wǎng)絡(luò)基礎(chǔ)設(shè)施優(yōu)化升級(jí),構(gòu)建空天地一體化衛(wèi)星互聯(lián)網(wǎng),推進(jìn)5/6G基站建設(shè),提升算力帶寬;加快光傳送網(wǎng)(OTN)、網(wǎng)絡(luò)切片、分段路由(SRv6)、IPv6等技術(shù)應(yīng)用,推動(dòng)智算中心間直達(dá)。構(gòu)建算力安全可靠體系,加強(qiáng)算力核心軟硬件技術(shù)研發(fā),實(shí)現(xiàn)從元器件、芯片、固件、XPU通信的自主創(chuàng)新和全產(chǎn)業(yè)鏈的整體技術(shù)突破。
五是優(yōu)化算力結(jié)構(gòu),提高算效和算用協(xié)同能力。進(jìn)一步提升智能算力占比,力爭到2030年智能算力占比達(dá)50%;充分利用14個(gè)國家級(jí)超算中心,優(yōu)化軟硬件協(xié)同,設(shè)計(jì)在超算上做大模型訓(xùn)練;發(fā)揮算力的國家戰(zhàn)略力量作用,整合多方力量,形成算網(wǎng)及大模型研究建設(shè)應(yīng)用合力;構(gòu)建全國算網(wǎng)協(xié)同指揮系統(tǒng),統(tǒng)籌調(diào)度通用算力、智能算力、超級(jí)算力、量子算力,保持總算力與美國同等量級(jí),實(shí)現(xiàn)八大智算中心十萬億參數(shù)大模型分鐘級(jí)訓(xùn)練;將西部智算樞紐城市納入城市算力網(wǎng)建設(shè);著重考核算力中心XPU效率指標(biāo),對(duì)XPU平均效率低于40%的重點(diǎn)優(yōu)化;推動(dòng)數(shù)據(jù)中心智能化升級(jí),優(yōu)化自動(dòng)化管理和調(diào)度,提升液冷算力;豐富東西部協(xié)同算力應(yīng)用場(chǎng)景,建立公共算力服務(wù)體系,優(yōu)化算力產(chǎn)品,培育優(yōu)質(zhì)算力應(yīng)用項(xiàng)目并推廣復(fù)制。
作者單位:重慶市綜合經(jīng)濟(jì)研究院