[劉志軍]
近年來(lái),我國(guó)算力基礎(chǔ)設(shè)施不斷擴(kuò)展完善,算力規(guī)模大幅增長(zhǎng),對(duì)經(jīng)濟(jì)的拉動(dòng)顯著,其中又以智能算力的拉動(dòng)作用最為凸顯。如今,我國(guó)的智算中心建設(shè)已從早期的局部實(shí)驗(yàn)探索階段逐漸邁向規(guī)模化部署。與此同時(shí),人工智能產(chǎn)業(yè)蓬勃發(fā)展,催生出更多智能算力需求,后者亦不斷刷新更多人工智能應(yīng)用的可能。分析我國(guó)智算中心與智算業(yè)務(wù)的發(fā)展趨勢(shì)與原因,探索智能算力未來(lái)的建設(shè)方向與可能,對(duì)我國(guó)智算發(fā)展具有重要意義。
據(jù)中國(guó)信通院最新一期《中國(guó)算力發(fā)展指數(shù)白皮書》,我國(guó)算力規(guī)模正在持續(xù)擴(kuò)展,其中又以智能算力的增長(zhǎng)最為顯著,智能算力已經(jīng)成為我國(guó)算力資源增長(zhǎng)的主要來(lái)源。
智能算力規(guī)模的增長(zhǎng)體現(xiàn)在兩方面。一方面是基礎(chǔ)設(shè)施的布局加快。截至2022 年底,我國(guó)在用的數(shù)據(jù)中心標(biāo)準(zhǔn)機(jī)架數(shù)量已超過(guò)650 萬(wàn)架,基礎(chǔ)設(shè)施算力規(guī)模為150 EFLOPS,位居全球第二。其中,已投運(yùn)或在建的智能計(jì)算中心已超過(guò) 20 個(gè);另一方面,智能計(jì)算設(shè)備出貨增加。近六年我國(guó)AI 服務(wù)器出貨量超50 萬(wàn)臺(tái),智能算力增速達(dá)到 85%,份額占全球45%,處于全球第一梯隊(duì)。
縱觀我國(guó)智能算力的飛速發(fā)展,可總結(jié)為三方面的原因:國(guó)家政策大力推動(dòng)、行業(yè)數(shù)字化轉(zhuǎn)型需求以及人工智能應(yīng)用興起。
(1)國(guó)家政策支持
在政策的支持下,智算設(shè)施得以快速擴(kuò)展,也為算法和模型的創(chuàng)新提供的良好的條件,為我國(guó)智算發(fā)展的注入重要?jiǎng)恿Α?/p>
國(guó)家層面出臺(tái)了《關(guān)于支持建設(shè)新一代人工智能示范應(yīng)用場(chǎng)景的通知》《關(guān)于加快場(chǎng)景創(chuàng)新以人工智能高水平應(yīng)用促進(jìn)經(jīng)濟(jì)高質(zhì)量發(fā)展的指導(dǎo)意見(jiàn)》《新型數(shù)據(jù)中心發(fā)展三年行動(dòng)計(jì)劃(2021-2023 年)》等一系列政策,令全國(guó)智算基礎(chǔ)設(shè)施建設(shè)的重要性得以大幅度的提升,北京、上海、廣東、安徽、山東等地方政府也紛紛頒布政策響應(yīng),通過(guò)統(tǒng)籌資源、資金補(bǔ)助、設(shè)立先導(dǎo)區(qū)與試驗(yàn)區(qū)等方式激勵(lì)人工智能算力基礎(chǔ)設(shè)施的建設(shè)。當(dāng)前,國(guó)內(nèi)正在建設(shè)智算中心或正在籌建智算中心的城市超過(guò)30 個(gè),主要以東部城市為主,并呈現(xiàn)逐步向西部擴(kuò)展的態(tài)勢(shì)。
也有相關(guān)政策支持人工智能領(lǐng)域模型、算法的創(chuàng)新工作。2023 年4 月,中共中央政治局會(huì)議明確應(yīng)重視通用人工智能發(fā)展,營(yíng)造創(chuàng)新生態(tài),同時(shí)需重視防范風(fēng)險(xiǎn)。網(wǎng)信辦公布了《生成式人工智能管理服務(wù)暫行辦法》,目的在于事前規(guī)范人工智能算法、模型,助其長(zhǎng)期更好地發(fā)展[1]。
(2)行業(yè)數(shù)字化轉(zhuǎn)型需求
各行各業(yè)數(shù)字化轉(zhuǎn)型過(guò)程中誕生的人工智能需求是智能算力發(fā)展的又一因素。人工智能對(duì)企業(yè)的數(shù)字化轉(zhuǎn)型有多方面的促進(jìn)作用:通過(guò)前沿的算法、數(shù)據(jù)分析手段,增強(qiáng)服務(wù)體驗(yàn),推動(dòng)企業(yè)創(chuàng)新;借助機(jī)器人、柔性生產(chǎn)、智能流程等人工智能產(chǎn)物,釋放更多人力資源,提升企業(yè)運(yùn)作效率。隨著人工智能在各行業(yè)滲透度增加,應(yīng)用種類愈加廣泛,金融、互聯(lián)網(wǎng)、制造業(yè)、汽車等越來(lái)越多行業(yè)期望通過(guò)人工智能技術(shù)進(jìn)行數(shù)字化轉(zhuǎn)型升級(jí),從而達(dá)到市場(chǎng)競(jìng)爭(zhēng)力提升的目的。在數(shù)字化轉(zhuǎn)型的時(shí)代浪潮中,智能算力的需求將會(huì)持續(xù)增長(zhǎng)。
(3)新型人工智能應(yīng)用興起
元宇宙、大模型等是智能算力發(fā)展過(guò)程中催生的新型應(yīng)用,這些新型應(yīng)用也發(fā)過(guò)來(lái)促進(jìn)智能算力需求。
根據(jù)英特爾公司的預(yù)測(cè),全球未來(lái)屬于元宇宙的時(shí)代,但目前的智能算力水平,尤其是服務(wù)器的渲染速率上,仍遠(yuǎn)遠(yuǎn)不能滿足元宇宙所要求的沉浸式體驗(yàn),因此,繼續(xù)擴(kuò)大智能算力規(guī)模、提升智能計(jì)算水平,是社會(huì)邁向元宇宙時(shí)代的必經(jīng)之路,智能算力仍有巨大的增長(zhǎng)空間。
大模型的出現(xiàn)更是進(jìn)一步加快了智能算力增長(zhǎng)的速度。2022 年底,OpenAI 公司發(fā)布的ChatGPT 讓大模型具體地呈現(xiàn)在人們眼前,這一高準(zhǔn)確性、高質(zhì)量的大模型引起了全球關(guān)注。OpenAI 計(jì)劃在2023 年實(shí)現(xiàn)2 億美元營(yíng)收,2024 年底前達(dá)到10 億美元。由于AIGC(AI 生成內(nèi)容)背后的巨大市場(chǎng)潛力,大模型迅速成為國(guó)家之間、企業(yè)之間的競(jìng)爭(zhēng)焦點(diǎn)。在ChatGPT 問(wèn)世后,我國(guó)各大本土互聯(lián)網(wǎng)巨頭和科技巨頭也相繼推出自主研發(fā)的AI 大模型,包括阿里巴巴通義、百度文心、華為盤古等,這類大模型的訓(xùn)練以及推理依賴三大必要條件:參數(shù)、數(shù)據(jù)、算力,隨著大模型訓(xùn)練數(shù)據(jù)量不斷增長(zhǎng),復(fù)雜程度不斷提高,對(duì)智能算力的需求也在日益攀升。
2.3.1 分布趨勢(shì)
我國(guó)目前已投入運(yùn)營(yíng)和在建的人工智能計(jì)算中心共有23 個(gè),這些智能計(jì)算中心較集中分布在我國(guó)東部和中部地區(qū)??傮w而言,智能計(jì)算中心的數(shù)量和規(guī)模與所處地區(qū)的經(jīng)濟(jì)水平發(fā)達(dá)程度、城市發(fā)展程度相關(guān)——在這些智能計(jì)算中心中,處于長(zhǎng)三角、京津冀等東部省份的有12 個(gè),中部地區(qū)6 個(gè),西部和東北地區(qū)共有5 個(gè)。
智能計(jì)算中心的分布與地區(qū)的經(jīng)濟(jì)水平的相關(guān)性可從兩個(gè)方面解釋,其一,經(jīng)濟(jì)水平較高的地區(qū)有更強(qiáng)的經(jīng)濟(jì)實(shí)力支持智能計(jì)算中心的建設(shè)與發(fā)展;其二,經(jīng)濟(jì)較發(fā)達(dá)的地區(qū)往往是高新技術(shù)企業(yè)、人工智能企業(yè)、科研機(jī)構(gòu)、高等院校聚集的地方,因此具有更龐大的智能算力需求,需有足夠的智能計(jì)算中心作為智算資源的基礎(chǔ)設(shè)施保障。因此可以預(yù)見(jiàn),在未來(lái)較長(zhǎng)的一段時(shí)間內(nèi),我國(guó)東部、中部等經(jīng)濟(jì)發(fā)達(dá)地區(qū)仍然是我國(guó)智能計(jì)算中心的建設(shè)的主要陣營(yíng),也是人工智能產(chǎn)業(yè)快速生長(zhǎng)發(fā)育的主要區(qū)域。
2.3.2 合作建設(shè)趨勢(shì)
國(guó)內(nèi)已有的智能計(jì)算中心一部分為政府、運(yùn)營(yíng)商投資建設(shè),另一部分由互聯(lián)網(wǎng)頭部企業(yè)如騰訊、阿里自主建設(shè)。政府、運(yùn)營(yíng)商投資的智能計(jì)算中心多采取與頭部科技企業(yè)合作建設(shè)的模式,包括華為、騰訊、商湯等。
在這種合作模式中,投資方提供建設(shè)資金,頭部科技企業(yè)提供技術(shù)底座,攻克技術(shù)難點(diǎn),可提升建設(shè)效率,縮短建設(shè)周期,達(dá)到算力設(shè)施快速擴(kuò)張的目的,這也是合作建設(shè)模式被廣泛采用的最重要原因。
2021 年11 月,國(guó)家發(fā)改委印發(fā)的《貫徹落實(shí)碳達(dá)峰碳中和目標(biāo)要求 推動(dòng)數(shù)據(jù)中心和 5G 等新型基礎(chǔ)設(shè)施綠色高質(zhì)量發(fā)展實(shí)施方案》要求有序推動(dòng)以數(shù)據(jù)中心、5G 為代表的新型基礎(chǔ)設(shè)施綠色高質(zhì)量發(fā)展,助力實(shí)現(xiàn)碳達(dá)峰、碳中和目標(biāo),方案中明確強(qiáng)調(diào)要求到2025 年,新建大型、超大型數(shù)據(jù)中心PUE(電能利用效率)降到 1.3 以下,國(guó)家樞紐節(jié)點(diǎn)降至 1.25 以下。
數(shù)據(jù)中心由眾多IT 設(shè)備構(gòu)成,這些設(shè)備的計(jì)算性能取決與其搭載的芯片。相比普通數(shù)據(jù)中心,智能計(jì)算中心的GPU 服務(wù)器占比大幅增加[2],要滿足逐漸增長(zhǎng)的智能計(jì)算算力需求,機(jī)柜密度、芯片數(shù)量、芯片功耗需要相應(yīng)增加。GPU 是耗能大戶,如何降低智能計(jì)算中心能耗、實(shí)現(xiàn)減碳目標(biāo),成為智能計(jì)算中心建設(shè)的一大考驗(yàn)。
服務(wù)器運(yùn)行中產(chǎn)生大量熱量,需要配套制冷設(shè)備保持運(yùn)行環(huán)境正常溫度。傳統(tǒng)的數(shù)據(jù)中心的能耗約有40%消耗在散熱制冷中,大多使用風(fēng)冷技術(shù)實(shí)現(xiàn)制冷。風(fēng)冷機(jī)柜由于其造價(jià)成本相對(duì)較低、安裝難度小、技術(shù)成熟度高、接受度廣,目前仍被大規(guī)模使用中,設(shè)計(jì)者結(jié)合機(jī)架、優(yōu)化風(fēng)向設(shè)計(jì)等方式降低能耗。但智能計(jì)算中心部署的服務(wù)器數(shù)量、功耗都在傳統(tǒng)數(shù)據(jù)中心的若干倍,傳統(tǒng)風(fēng)冷系統(tǒng)已越來(lái)越難以滿足減碳目標(biāo),液冷服務(wù)器成為新的選擇。由于液體的大比熱容特性,液冷的散熱效率遠(yuǎn)高于風(fēng)冷,成為智能計(jì)算中心服務(wù)器選型的主流方向。除此以外,液冷式服務(wù)器還具有空間利用率高、噪聲小、延長(zhǎng)服務(wù)器使用壽命的優(yōu)點(diǎn)。目前業(yè)界存在的液冷服務(wù)器主要分為噴淋式、冷板式和浸沒(méi)式[3],各種液冷型服務(wù)器特點(diǎn)比較如表1 所示。
表1 液冷系統(tǒng)對(duì)比及選型建議
(1)噴淋式液冷系統(tǒng)
噴淋式液冷系統(tǒng)是通過(guò)向發(fā)熱的服務(wù)器電子元器件直接噴灑制冷液體,以實(shí)現(xiàn)散熱。制冷液體通過(guò)一定壓力,以精確的角度直接附著在元器件上,以及相連的導(dǎo)熱材料上,吸附熱量,降低電子元器件運(yùn)行時(shí)的溫度。冷卻液通過(guò)換熱單元將吸附的熱量循環(huán)到外部,通過(guò)室外冷源進(jìn)行冷卻。噴淋式液冷系統(tǒng)僅需對(duì)服務(wù)器加裝噴淋的裝置,成本較低,但由于器件表面有冷卻液,維護(hù)難度、成本有所升高。
(2)冷板式液冷系統(tǒng)
冷板式液冷系統(tǒng)通過(guò)冷板和電子元器件直接接觸達(dá)到散熱的目的。冷板中以冷卻介質(zhì)填充,可高效吸納熱量,經(jīng)過(guò)多個(gè)冷卻回路完成熱量的傳導(dǎo),將設(shè)備熱量傳到外部排放,完成熱交換傳遞。冷板液冷系統(tǒng)需要根據(jù)服務(wù)器定制冷板,成本較高,且需要在機(jī)房外新增一套液冷管道,對(duì)機(jī)房有一定要求。
(3)浸沒(méi)式液冷系統(tǒng)
浸沒(méi)式液冷服務(wù)器是把服務(wù)器整體浸泡在特殊的溶液里,利用液體大比熱容特性實(shí)現(xiàn)高效散熱,這種特殊的溶液具有沸點(diǎn)低、絕緣、無(wú)腐蝕性的特點(diǎn),不影響服務(wù)器的正常運(yùn)行。浸沒(méi)式液冷服務(wù)器在以上3 種服務(wù)器中散熱效果最好,但由于冷卻液使用量大,對(duì)于機(jī)房承重有較高的要求。服務(wù)器若發(fā)生故障,需要將其從冷卻液中取出,運(yùn)維難度大。
智能計(jì)算基礎(chǔ)設(shè)施將在政策的大力支持以及人工智能產(chǎn)業(yè)需求蓬勃發(fā)展的雙重作用下繼續(xù)擴(kuò)展,智算資源為人工智能產(chǎn)業(yè)、應(yīng)用的發(fā)展提供土壤,而后者催生的智算需求進(jìn)一步促進(jìn)前者的擴(kuò)展。在智能計(jì)算基礎(chǔ)設(shè)施擴(kuò)展的過(guò)程中,面臨的能耗、碳排放問(wèn)題不容小覷,未來(lái)智能計(jì)算中心的建設(shè)應(yīng)順應(yīng)政策要求,聚焦選型新型液冷型服務(wù)器以及既有設(shè)備的節(jié)能改造。此外,也應(yīng)對(duì)服務(wù)器節(jié)能調(diào)度算法[4]、購(gòu)用綠色電力等節(jié)能減碳手段加以關(guān)注,以便讓我國(guó)的智算之路走得更遠(yuǎn)。