張武生清華大學(xué)高性能計(jì)算研究所高級(jí)工程師
樊春北京大學(xué)高性能計(jì)算平臺(tái)主任工程師
張紫徽浙江大學(xué)信息技術(shù)中心總工程師
劉浩華中農(nóng)業(yè)大學(xué)作物遺傳改良全國重點(diǎn)實(shí)驗(yàn)室生物信息高性能計(jì)算平臺(tái)工程師
蔡哲賽爾網(wǎng)絡(luò)有限公司副總經(jīng)理
近年來,我國算力建設(shè)迎來高速發(fā)展的新階段。作為教學(xué)科研重地的高校也在不斷建立和發(fā)展超算中心,為廣大師生和科研人員提供優(yōu)質(zhì)高效的計(jì)算資源與服務(wù)支持。
如何推進(jìn)高校算力服務(wù)建設(shè)?本刊邀請(qǐng)清華大學(xué)高性能計(jì)算研究所高級(jí)工程師張武生、北京大學(xué)高性能計(jì)算平臺(tái)主任工程師樊春、浙江大學(xué)信息技術(shù)中心總工程師張紫徽、華中農(nóng)業(yè)大學(xué)作物遺傳改良全國重點(diǎn)實(shí)驗(yàn)室生物信息高性能計(jì)算平臺(tái)工程師劉浩、賽爾網(wǎng)絡(luò)有限公司副總經(jīng)理蔡哲對(duì)高校算力難點(diǎn)挑戰(zhàn)、建設(shè)模式、隊(duì)伍建設(shè)、未來發(fā)展等話題進(jìn)行了深入探討。
算力平臺(tái)作為“數(shù)字新基建”,在高校發(fā)揮著越來越大的作用。GhatGPT等人工智能應(yīng)用的爆發(fā),也對(duì)算力提出了更高的要求和期待。算力在高校已經(jīng)不是可有可無的存在,而是學(xué)校教學(xué)、科研、管理的重要基礎(chǔ)。高校算力服務(wù)建設(shè)面臨不少挑戰(zhàn):
第一,算力基礎(chǔ)設(shè)施建設(shè)還遠(yuǎn)遠(yuǎn)不夠。比如機(jī)房建設(shè),機(jī)房往往需要很長的建設(shè)周期,很多高校在建設(shè)時(shí)依據(jù)的標(biāo)準(zhǔn)并不像專業(yè)機(jī)房那么高,所以后期的運(yùn)維管理就會(huì)存在很多限制,而學(xué)校對(duì)基礎(chǔ)設(shè)施的持續(xù)投入比較保守。
第二,算力服務(wù)人才隊(duì)伍面臨挑戰(zhàn)。高校從事算力服務(wù)的人員在專業(yè)建設(shè)上的引領(lǐng)能力普遍偏弱,很多情況下都只是在做基礎(chǔ)的運(yùn)維工作。而運(yùn)維服務(wù)、安全服務(wù)、容量規(guī)劃,以及冗余、容災(zāi)等相關(guān)工作,已經(jīng)遠(yuǎn)遠(yuǎn)超過了高校算力隊(duì)伍的能力范圍,在團(tuán)隊(duì)規(guī)模和技術(shù)上與企業(yè)相比都存在一定差距。
第三,算力服務(wù)在應(yīng)對(duì)新需求方面能力不足。很多情況下,面對(duì)院系教師提出的新科研場景需求,超算中心現(xiàn)有的能力往往難以應(yīng)對(duì),比較被動(dòng)。
第四,高校對(duì)算力服務(wù)本身的認(rèn)識(shí)有待提升。無論從資金、人員投入還是學(xué)校重視程度上看,都存在不少欠缺。
高校的科研和教學(xué)對(duì)算力的需求一直在逐年增加。有幾種因素促進(jìn)了算力服務(wù)設(shè)施的建設(shè):第一,人才培養(yǎng)和引進(jìn)力度加大,高校在優(yōu)勢專業(yè)培育和開拓方面不斷進(jìn)展,留在或流入教學(xué)科研領(lǐng)域的高水平人員越來越多,這使得算力設(shè)施的建設(shè)有了需求基礎(chǔ);第二,國家和地方政府的持續(xù)支持,其中國家層面對(duì)教學(xué)科研儀器的引入和研發(fā)支持力度一直都很大,地方政府也會(huì)為高校的計(jì)算設(shè)施建設(shè)提供支持;第三,算力設(shè)施在學(xué)校設(shè)備管理中一般歸結(jié)為大型科研儀器,儀器建設(shè)的投入與高校教學(xué)科研水平提升顯然是正相關(guān)的;此外就是社會(huì)需求,大數(shù)據(jù)和統(tǒng)計(jì)學(xué)習(xí)在產(chǎn)業(yè)領(lǐng)域的應(yīng)用得到回報(bào),反過來影響人才培養(yǎng)和科研課題的設(shè)立,也推動(dòng)了高校算力平臺(tái)的建設(shè)。
但與此同時(shí),高校算力平臺(tái)建設(shè)也面臨不少挑戰(zhàn)。從平臺(tái)硬件投入來看,高校算力平臺(tái)從傳統(tǒng)的同構(gòu)型CPU平臺(tái)轉(zhuǎn)向了異構(gòu)型的CPU和加速計(jì)算混合平臺(tái)。平臺(tái)的規(guī)模越來越大,絕對(duì)能耗隨著硬件升級(jí)逐年增高,系統(tǒng)架構(gòu)愈加復(fù)雜,應(yīng)用軟件越來越豐富、版本迭代更加頻繁。計(jì)算平臺(tái)價(jià)值高、生命周期短、能耗大,如何確保每一臺(tái)設(shè)備投入都能在學(xué)科建設(shè)中發(fā)揮最大效用,如何客觀評(píng)估平臺(tái)的使用效益、解決應(yīng)用運(yùn)行中產(chǎn)生的各種瓶頸等,都是高校建設(shè)算力平臺(tái)面臨的挑戰(zhàn)。
對(duì)華中農(nóng)業(yè)大學(xué)作物遺傳改良全國重點(diǎn)實(shí)驗(yàn)室來說,算力平臺(tái)主要的作用是服務(wù)于科研任務(wù)。計(jì)算平臺(tái)助力實(shí)驗(yàn)室完成生物學(xué)研究的重要手段基因組測序,并對(duì)測序的數(shù)據(jù)進(jìn)行存儲(chǔ)分析。
我們需要非常大的存儲(chǔ)和計(jì)算來分析些數(shù)據(jù),因此,算力增長跟不上數(shù)據(jù)的增長,是實(shí)驗(yàn)室算力平臺(tái)面臨的難題。基因組測序的成本下降速度往往比IT領(lǐng)域硬件的摩爾定律還要快很多,導(dǎo)致我們的算力硬件投入往往跟不上數(shù)據(jù)產(chǎn)出。尤其是近幾年,數(shù)據(jù)由10年前的幾百T,擴(kuò)展到十幾PB,相應(yīng)的計(jì)算能力雖然在同步增長,但遠(yuǎn)遠(yuǎn)跟不上數(shù)據(jù)產(chǎn)出的速度。
除了對(duì)存儲(chǔ)容量要求大,存儲(chǔ)性能也非常重要,否則算力服務(wù)的效率就會(huì)下降很多。平臺(tái)在購買硬件設(shè)備時(shí)要格外重視存儲(chǔ)性能,才能更好地為用戶服務(wù)。
從高性能計(jì)算的發(fā)展趨勢來看,高校算力平臺(tái)建設(shè)面臨著以下挑戰(zhàn):
一是算力大眾化(HPC/AI for Everyone)帶來使用挑戰(zhàn)。當(dāng)前,算力正變得越來越廉價(jià),越來越多的用戶開始使用算力。這表明算力走向大眾化,大量傳統(tǒng)學(xué)科紛紛開始在研究中使用算力。以北京大學(xué)為例,很多文科生也開始使用高性能計(jì)算平臺(tái)。在此情況下,傳統(tǒng)的HPC軟件接入就顯得過于復(fù)雜,使用門檻過高,需要一種更簡單便捷的HPC算力使用方式。
在這方面,北京大學(xué)自主研制的開源算力中心門戶和管理平臺(tái)SCOW(Super Computing On Web)通過簡化集群軟件部署流程、統(tǒng)一平臺(tái)管理模式、提供圖形化操作界面、降低用戶使用門檻,實(shí)現(xiàn)算力中心資源易管理、易使用的目標(biāo),提高算力資源使用效率。
二是算力資源使用不均衡。我們看到,近一兩年來,國內(nèi)高校迎來超算項(xiàng)目建設(shè)的浪潮。當(dāng)高校開始紛紛建設(shè)算力平臺(tái),就會(huì)出現(xiàn)算力資源使用不均衡的問題,有的學(xué)校算力不足,有的卻使用不飽和,這就需要“削峰填谷”,實(shí)現(xiàn)算力資源利用效率最大化。
三是面臨“雙碳”目標(biāo)的挑戰(zhàn)。實(shí)現(xiàn)碳達(dá)峰和碳中和,實(shí)現(xiàn)綠色發(fā)展,是中國對(duì)國際社會(huì)作出的莊嚴(yán)承諾。而算力設(shè)備能源消耗巨大,在實(shí)現(xiàn)“雙碳”目標(biāo)時(shí)面臨諸多挑戰(zhàn)。面對(duì)該挑戰(zhàn),如果在能夠產(chǎn)生綠色電能的地方建立數(shù)據(jù)中心,是一個(gè)最合理的方向,通過光纖直達(dá)等技術(shù)“消除”數(shù)據(jù)中心和用戶之間的距離。但在這一點(diǎn)上,我們還面臨著決策和決心不足的問題。
四是算力融合的挑戰(zhàn)。當(dāng)前,各地紛紛建立超算中心、智算中心,但在很多情況下,這些超算和智算中心是分別建立的。而當(dāng)前有很多科研項(xiàng)目既需要超算算力,又需要智算算力,從應(yīng)用的需求上看就需要將這兩種算力融合。這就要求我們進(jìn)一步研究相關(guān)技術(shù),保證超算中心和智算中心更好地融合成為計(jì)算中心(算力中心),達(dá)到1+1>2的效果。
五是技術(shù)更新的挑戰(zhàn)。RoCE(RDMA over Converged Ethernet,基于以太網(wǎng)的RDMA技術(shù);RDMA,遠(yuǎn)程直接數(shù)據(jù)存取)網(wǎng)絡(luò)替代傳統(tǒng)的IB(InfiniBand,無限帶寬)是一種趨勢。但其推廣可能存在一定困難,因?yàn)槿藗兺?xí)慣舊有的方式而不愿意改變。
六是打造創(chuàng)新土壤面臨挑戰(zhàn)。創(chuàng)新的土壤,“浪費(fèi)”是必要的。在日前舉辦的ChatGPT研討會(huì)上,中國工程院院士趙沁平指出:“ChatGPT的出現(xiàn)和火爆使我們?cè)俅慰吹矫绹萍计髽I(yè)作為國家技術(shù)創(chuàng)新主體所具有的強(qiáng)大創(chuàng)新能力。創(chuàng)新型科技文化是創(chuàng)新型國家的靈魂因素。基礎(chǔ)研究和科技創(chuàng)新是不能追求效率的,而我們對(duì)基礎(chǔ)研究采用的評(píng)價(jià)基本還是以效率為重的工程性評(píng)價(jià)方法?!边@給我們帶來的啟示是,在做研究時(shí),科研人員需要充足的資源、良好的國際交流環(huán)境,能夠自由探索,并得到方向性的指引。這些都是算力發(fā)展的過程中需要突破的困境。
對(duì)于華中農(nóng)業(yè)大學(xué)來說,經(jīng)過對(duì)比和權(quán)衡,我們覺得自建算力平臺(tái)、自己管理/運(yùn)營平臺(tái)的模式對(duì)學(xué)校來說更合適。主要基于兩方面的考量。
一是成本問題。對(duì)老師們來說,使用實(shí)驗(yàn)室自建的平臺(tái),收費(fèi)大概只有外部商業(yè)服務(wù)的10%~20%。二是安全問題。我們實(shí)驗(yàn)室的數(shù)據(jù)量非常大,使用自建平臺(tái),可以有效保障數(shù)據(jù)傳輸和數(shù)據(jù)安全。
清華大學(xué)的科研計(jì)算平臺(tái)是校內(nèi)惠及學(xué)科門類最多、支撐用戶最廣的科研平臺(tái)之一。計(jì)算平臺(tái)由實(shí)驗(yàn)室與設(shè)備處指導(dǎo)建設(shè)和運(yùn)行,計(jì)算機(jī)科學(xué)與技術(shù)系負(fù)責(zé)技術(shù)保障,按照大型儀器進(jìn)行管理,其建設(shè)得到了學(xué)校持續(xù)支持。與大多數(shù)大型科研儀器的管理類似,采取科研和服務(wù)相結(jié)合的建設(shè)運(yùn)行模式,一方面是與各研究課題組合作,開展應(yīng)用研究,同時(shí)也依托和支撐高性能計(jì)算和系統(tǒng)結(jié)構(gòu)學(xué)科的研究。來自應(yīng)用領(lǐng)域的算法問題往往是高性能計(jì)算的研究熱點(diǎn),反過來高性能計(jì)算所開發(fā)的移植、優(yōu)化、并行化技術(shù)又可促進(jìn)各學(xué)科領(lǐng)域應(yīng)用軟件性能和效率的提升。我們與材料、地學(xué)、生命科學(xué)等學(xué)科深入合作,共同開發(fā)并行算法和軟件,同時(shí)也承擔(dān)高性能計(jì)算和系統(tǒng)結(jié)構(gòu)方面研究課題。
高校算力服務(wù)大概有以下幾種模式,一種是自建算力平臺(tái),一種是使用云平臺(tái)算力,一種是使用超算專業(yè)服務(wù)公司提供的計(jì)算服務(wù)。
另外還有一種模式是算力市場。當(dāng)前的算力市場是把應(yīng)用作為一個(gè)市場,其算力組成還是算力服務(wù)商自建的算力。未來,算力服務(wù)商本身也應(yīng)該市場化,也就是不僅在算力服務(wù)商平臺(tái)上有多種軟件的市場化,還有一個(gè)平臺(tái)能夠容納各種算力服務(wù)商來提供算力服務(wù)。這種形式是目前市面上比較缺乏的。我們?cè)诮ㄔO(shè)算力網(wǎng)絡(luò)時(shí),可以在這方面做一些突破性的研究。
高校超算的運(yùn)營模式跟學(xué)校的規(guī)模、算力發(fā)展的階段息息相關(guān)。第一種是自建模式,能夠滿足學(xué)校的一些教學(xué)科研和治理服務(wù)基本需求。第二種是混合模式,有自建平臺(tái),也有和企業(yè)合作的公有云平臺(tái), 其中自有機(jī)房可以承載核心應(yīng)用和私密應(yīng)用,其他應(yīng)用則可以用云平臺(tái)實(shí)現(xiàn)。除了基本的算力需求,還可以滿足突發(fā)的場景和需求變化。第三種模式,與學(xué)校其他部門的資源大戶合作,用信息中心的操作系統(tǒng)去調(diào)度其超算設(shè)備。實(shí)際上,第三種模式需要學(xué)校規(guī)模足夠大,對(duì)機(jī)房規(guī)模、電力的要求很高,建設(shè)周期也特別長,實(shí)現(xiàn)起來有一定難度。
以浙大為例,浙大算力平臺(tái)的建設(shè)分為三個(gè)階段。第一階段,自建算力服務(wù),專有云平臺(tái);第二階段,將專有云和公有云打通,形成混合模式;第三階段,學(xué)校信息技術(shù)中心與CAD&CG國家重點(diǎn)實(shí)驗(yàn)室聯(lián)合打造了“浙大云—圖形計(jì)算平臺(tái)”。平臺(tái)作為校內(nèi)首個(gè)眾籌式混合云,具有更完善、可擴(kuò)展和更節(jié)省的特點(diǎn)以及低成本、靈活性和超高集成優(yōu)勢。
未來,我們希望可以將此眾籌式模式從“1+1”拓展到“1+N”,進(jìn)一步服務(wù)校內(nèi)師生日益增長的科研需求。更進(jìn)一步,可以將學(xué)校之間的算力平臺(tái)連接起來,形成眾籌的生態(tài)圈。學(xué)校之間的算力“眾籌”有很多好處,規(guī)模小的學(xué)校其算力資源可能用不掉,而規(guī)模大的學(xué)校,算力又可能遠(yuǎn)遠(yuǎn)不夠,將不同學(xué)校的算力打通,可以更好地統(tǒng)籌利用算力資源。
當(dāng)然,除了算力合作,未來我們希望能更進(jìn)一步做跨校間的科研合作,打造科研協(xié)作的大平臺(tái)。比如國際大科學(xué)計(jì)劃(DDE計(jì)劃),就是國內(nèi)外眾多高校和學(xué)者共同參與的項(xiàng)目。可以預(yù)見,未來這種跨越千山萬水,由不同國家/地區(qū)、不同學(xué)校的學(xué)者共同參與的、基于算力協(xié)同的大科研方式,能夠讓人們合作參與大規(guī)??蒲?,隨時(shí)匯集科研成果,了解科研進(jìn)度。這就是算力驅(qū)動(dòng)科研范式變革的典范。
強(qiáng)大的超算能力可以更好地支撐科研成果的產(chǎn)出。我國高校非常重視算力建設(shè),整體需求旺盛,亟需高質(zhì)量的算力服務(wù)。對(duì)于研究型大學(xué)而言尤為明顯。但總體來看,目前我國大多數(shù)高校的算力建設(shè)僅集中在學(xué)科、學(xué)院或項(xiàng)目層面,擁有校級(jí)算力平臺(tái)的高校還是少數(shù),對(duì)于算力資源的整合能力有待提升。
站在企業(yè)的角度看,高校算力服務(wù)大概分為兩類,一類是智能AI算力GPU,還有一類是超算CPU,兩者特性不同,能夠完成的任務(wù)也不同。學(xué)校會(huì)根據(jù)需求不同,選擇不同的算力服務(wù)。
賽爾目前正在致力于算力建設(shè)服務(wù),在服務(wù)高校算力方面的最終服務(wù)目標(biāo)是發(fā)揮教科專網(wǎng)作用,助力教學(xué)科研。
以階段劃分來看,整體建設(shè)規(guī)劃為“三步走”:第一階段,為學(xué)校提供算力設(shè)備及安裝調(diào)試,這也是賽爾正在做的工作;第二階段,規(guī)劃是要推進(jìn)算力調(diào)優(yōu)服務(wù)和算力資源引進(jìn),包括引進(jìn)CPU、GPU的原廠資源,賽爾是AMD在中國教育行業(yè)的獨(dú)家合作伙伴,還在申請(qǐng)英偉達(dá)NPN的服務(wù)資質(zhì),并也在與英特爾逐漸建立聯(lián)系,這一階段整體是通過對(duì)廠商芯片的調(diào)優(yōu)來服務(wù)學(xué)校的算力;第三階段,未來要發(fā)揮教科專網(wǎng)作用,建立教育科研行業(yè)的算力專網(wǎng)以及資源平臺(tái),做到算網(wǎng)融合,為學(xué)校提供算力異地同步,在學(xué)校突發(fā)算力需求時(shí),能夠通過算力專網(wǎng)引入外部資源。
當(dāng)超算平臺(tái)所屬單位為信息中心/網(wǎng)絡(luò)中心時(shí),其人員往往是計(jì)算機(jī)相關(guān)專業(yè)出身,具備較強(qiáng)的IT背景,但對(duì)于數(shù)學(xué)、物理、能源、力學(xué)、材料等應(yīng)用背景卻很難介入。而當(dāng)超算平臺(tái)所屬單位為應(yīng)用院系時(shí),其人員具備比較好的專業(yè)應(yīng)用背景,但計(jì)算機(jī)素養(yǎng)卻有所不足。
但人才隊(duì)伍建設(shè)是一個(gè)比較復(fù)雜的問題,面臨著制度、管理等諸多方面的限制。比如在招聘員工時(shí),人事部門對(duì)人才的學(xué)歷和專業(yè)都會(huì)有詳細(xì)要求,這就可能把合適的人才拒之門外;此外,與互聯(lián)網(wǎng)公司相比,高校的待遇普遍偏低,網(wǎng)絡(luò)中心與院系相比又很難給出相應(yīng)的編制,導(dǎo)致很難招到高水平的人才。這些都是人才隊(duì)伍建設(shè)中面臨的具體困難。
在現(xiàn)實(shí)中,因?yàn)檐浻布夹g(shù)發(fā)展得很快,一些新的軟件能夠一定程度上減少集群管理工作的壓力。另外,如果能把高性能計(jì)算集群云化部署,或采用購買服務(wù)的方式,也能減緩人才隊(duì)伍缺失的壓力。
高校超算人才隊(duì)伍,需要各個(gè)類型的人才。
一是專家團(tuán)隊(duì)。在超算平臺(tái)建設(shè)初期,由顧問型的專家團(tuán)隊(duì)來指導(dǎo)如何建設(shè)機(jī)房、配置設(shè)備、分配電力、容災(zāi)設(shè)計(jì)、消防安全管理,等等。
二是運(yùn)維團(tuán)隊(duì)。在超算平臺(tái)建成后,日常運(yùn)維工作可以采用與企業(yè)合作的方式,將相關(guān)職能外包給企業(yè)。
三是科研服務(wù)團(tuán)隊(duì)。科研服務(wù)團(tuán)隊(duì)?wèi)?yīng)了解教師用戶的具體需求,做好溝通,在算力配置、經(jīng)費(fèi)管理、軟硬件選擇等方面提供優(yōu)質(zhì)的解決方案。
四是學(xué)科人才團(tuán)隊(duì)。學(xué)科人才應(yīng)該充分了解學(xué)科,讓不同學(xué)科的老師們形成學(xué)科交叉、科研交叉,打造學(xué)科融合的大項(xiàng)目。
五是宣傳隊(duì)伍。宣傳隊(duì)伍能夠?qū)W(xué)校算力建設(shè)的實(shí)踐經(jīng)驗(yàn)總結(jié)提煉,形成案例,再向更多的老師們推薦。
由此,各個(gè)人才隊(duì)伍將學(xué)校超算平臺(tái)從開始建設(shè),到日常運(yùn)維,到未來推廣的整個(gè)鏈條打通,形成環(huán)路,自然會(huì)有更多的教師用戶選擇使用平臺(tái)。
高校超算團(tuán)隊(duì)的建設(shè),有以下幾方面值得考量。
第一,除了計(jì)算機(jī)之外,需要對(duì)行業(yè)領(lǐng)域比較熟悉的人才。比如我們實(shí)驗(yàn)室,需要由基因組測序相關(guān)專業(yè)背景的人來協(xié)助管理和運(yùn)營,在跟用戶溝通時(shí)就會(huì)比較順暢。為了打造有專業(yè)背景的人才隊(duì)伍,建議學(xué)校超算中心多跟相關(guān)學(xué)院或?qū)I(yè)合作,打造相關(guān)的項(xiàng)目或比賽,在這個(gè)過程中發(fā)現(xiàn)人才、留住人才。
第二,高校超算中心對(duì)應(yīng)用的開發(fā)能力還比較欠缺,往往只能提供基礎(chǔ)的算力資源和服務(wù),對(duì)用戶應(yīng)用的開發(fā)和優(yōu)化還有很多不足,因此,具備開發(fā)能力
人們常說超算是國之重器,計(jì)算平臺(tái)對(duì)高校來說也是重要的大型科研設(shè)備。從外部條件來說,高校建設(shè)算力平臺(tái)普遍面臨能耗、空間等條件限制。就內(nèi)部機(jī)制而言,還是要讓建好的平臺(tái)充分發(fā)揮效用。在硬件建設(shè)過程中,應(yīng)結(jié)合學(xué)校的學(xué)科特點(diǎn)充分論證,先落實(shí)具體的用戶和應(yīng)用特征,再結(jié)合計(jì)算設(shè)備的硬件結(jié)構(gòu)妥善規(guī)劃,淡化對(duì)硬指標(biāo)的追求,強(qiáng)化應(yīng)用成果方面的評(píng)價(jià),確保以應(yīng)用成果為導(dǎo)向?qū)崿F(xiàn)投資效益最大化。
東數(shù)西算政策、算力網(wǎng)絡(luò)技術(shù)為計(jì)算平臺(tái)建設(shè)提供了一個(gè)新的思路。國外高校也有這種建設(shè)模式,比如波士頓大學(xué)、哈佛大學(xué)、MIT、東北大學(xué)、馬薩諸塞系統(tǒng)大學(xué)等幾所高校聯(lián)合在Holyoke這個(gè)地方建設(shè)了一個(gè)以消耗清潔能源為主的馬薩諸塞綠色高性能計(jì)算中心(MGHPCC),目前已具備服務(wù)兩萬多師生及研究人員的科研計(jì)算需求的能力。國內(nèi)高校,也可考慮借助國家東數(shù)西算政策探索類似的平臺(tái)建設(shè)思路,國家的信息基礎(chǔ)設(shè)施已經(jīng)提供了相當(dāng)好的條件,高校平臺(tái)參與東數(shù)西算在技術(shù)上沒有難度,可能需要一些具體的頂層政策設(shè)計(jì)。
算力網(wǎng)絡(luò)的內(nèi)涵不僅限于科研計(jì)算平臺(tái)的互聯(lián)互通,應(yīng)該是可以作為促進(jìn)實(shí)體產(chǎn)業(yè)發(fā)展的更高水平的基礎(chǔ)設(shè)施。特別是隨著大數(shù)據(jù)和統(tǒng)計(jì)學(xué)習(xí)技術(shù)與產(chǎn)業(yè)深度融合,一場生產(chǎn)力平臺(tái)的變革正在發(fā)生。算力網(wǎng)絡(luò)的基礎(chǔ)是網(wǎng)絡(luò),核心是應(yīng)用,推動(dòng)高校算力服務(wù)和算力網(wǎng)絡(luò)建設(shè),還是得立足于各校學(xué)科特色,加強(qiáng)跨的人才也是高校超算中心所急需的。
第三,無論是資源、技術(shù)、還是管理方面,各高校都有自己的特色和可借鑒的經(jīng)驗(yàn),高校超算平臺(tái)之間應(yīng)該加強(qiáng)各方面的交流,取長補(bǔ)短。交流體現(xiàn)在很多方面,其中在人才培養(yǎng)上,超算中心很多時(shí)候依賴傳統(tǒng)的傳幫帶,缺乏專業(yè)的交流培訓(xùn)機(jī)制,這一點(diǎn)有很多加強(qiáng)空間。另外,面對(duì)人才編制等方面的限制和要求,高??梢赞D(zhuǎn)變觀念,與科研單位、企業(yè)更多地合作交流,把部分管理、運(yùn)營的工作交給專業(yè)的公司去做。
馬薩諸塞綠色高性能計(jì)算中心(MGHPCC)
學(xué)科交叉合作和應(yīng)用能力方面的研發(fā),建設(shè)高速低延遲網(wǎng)絡(luò),促進(jìn)互聯(lián)互通和數(shù)據(jù)共享,以持續(xù)投入支持自主開發(fā)應(yīng)用軟件,形成活躍的科研應(yīng)用社區(qū)。以人工智能技術(shù)為驅(qū)動(dòng)的新一代生產(chǎn)力平臺(tái)、聯(lián)邦學(xué)習(xí)、隱私計(jì)算等應(yīng)用對(duì)算力基礎(chǔ)設(shè)施的需求沒有上限,這方面算力網(wǎng)絡(luò)相關(guān)的技術(shù)研發(fā)和設(shè)施建設(shè)也大有可為。
高校算力平臺(tái)建設(shè)和服務(wù)關(guān)鍵得看成效,要重視從需求論證到規(guī)劃設(shè)計(jì)建設(shè)全過程,盡量避免為建而建、先建后用的思維。平臺(tái)的硬件成本和運(yùn)行成本都比較大,我們強(qiáng)調(diào)平臺(tái)的使用效益,用得好不好跟建得合不合適有很大關(guān)系。所謂細(xì)節(jié)決定成敗,比如,冷卻、互聯(lián)網(wǎng)絡(luò)、存儲(chǔ)系統(tǒng)這三個(gè)子系統(tǒng)在算力平臺(tái)建設(shè)中,我們往往不會(huì)把它當(dāng)作核心設(shè)備,但每一個(gè)子系統(tǒng)設(shè)計(jì)規(guī)劃不到位都會(huì)影響整個(gè)計(jì)算平臺(tái)有效運(yùn)行。因此建設(shè)算力平臺(tái)之前有必要仔細(xì)規(guī)劃和論證好每個(gè)技術(shù)方案細(xì)節(jié)。
高校算力服務(wù)的前景非常廣闊。下一步,對(duì)于沒有高性能計(jì)算算力的學(xué)校來說,需要做好規(guī)劃,建設(shè)高性能計(jì)算平臺(tái)或購置高性能計(jì)算的算力服務(wù),同時(shí)在人事和管理制度上也要做好相應(yīng)的規(guī)劃;對(duì)于已有高性能算力平臺(tái)的學(xué)校來說,則要考慮如何進(jìn)一步用好平臺(tái),站在整個(gè)學(xué)校的高度和視角,探索出最優(yōu)的平臺(tái)管理運(yùn)行制度。
近來,ChatGPT等人工智能應(yīng)用的火熱,表明人工智能到了一個(gè)新的發(fā)展階段,從傳統(tǒng)的只能解決機(jī)器視覺和語言處理等個(gè)別領(lǐng)域問題,到現(xiàn)在解決跨模態(tài)的問題。在這樣的背景下,更多的學(xué)校老師會(huì)投入到人工智能領(lǐng)域,作為學(xué)校的支撐部門,要順應(yīng)時(shí)代潮流,為學(xué)校的人工智能發(fā)展提供相應(yīng)的支撐服務(wù),包括經(jīng)費(fèi)、人員、制度等在必要的情況下都可以向AI領(lǐng)域傾斜。
如果一個(gè)高校同時(shí)維持人工智能平臺(tái)和算力平臺(tái),一般需要配置兩套班子、兩套設(shè)備,對(duì)大部分高校是非常昂貴的投入。因此,高??梢钥紤]建立人工智能和超算的融合平臺(tái),建立統(tǒng)一的管理制度,包括資源分配制度、財(cái)務(wù)制度、收費(fèi)制度、費(fèi)用支出制度等,可以方便同時(shí)處理高性能計(jì)算任務(wù)和人工智能算力任務(wù),還可以由同一個(gè)團(tuán)隊(duì)把兩個(gè)平臺(tái)一起管好用好。
此外,高校算力服務(wù)還應(yīng)該善用我們現(xiàn)有的一些工作基礎(chǔ)。比如,賽爾網(wǎng)絡(luò)和教科網(wǎng)在各個(gè)高校之間建立了很好的帶寬連接,包括IPv6連接;而北京大學(xué)和賽爾網(wǎng)絡(luò)共同打造的CARSI體系,是非常重要的基礎(chǔ)性認(rèn)證軟件平臺(tái)。剛才提到,高校之前需要“削峰填谷”,實(shí)現(xiàn)算力資源利用效率最大化,這就需要我們充分利用這些已有的基礎(chǔ)性硬件網(wǎng)絡(luò)設(shè)施和認(rèn)證平臺(tái),再結(jié)合專門的算力資源管理工具,將學(xué)校之間的算力打通,為國內(nèi)高校算力服務(wù)做好基礎(chǔ)的儲(chǔ)備。除了高校之間的交流打通,高校與社會(huì)化算力之間也要加強(qiáng)交流,綜合評(píng)估各種社會(huì)算力資源,共同納入學(xué)校的算力生態(tài)體系中來。
未來,在高校算力服務(wù)發(fā)展上,有以下幾個(gè)方面要多加關(guān)注:
一是加強(qiáng)軟件建設(shè)。在算力支撐科研上,要更多關(guān)注老師們的科研環(huán)境,提供更加精準(zhǔn)的科研環(huán)境和軟件,從而對(duì)算力進(jìn)行更好的調(diào)度和更高效的使用。
二是構(gòu)建數(shù)據(jù)中心。在滿足教師的算力任務(wù)后,要想辦法把沉淀的數(shù)據(jù)存儲(chǔ)并利用起來。由此,基于數(shù)據(jù)的協(xié)同和驅(qū)動(dòng),可能也會(huì)引起很多科研范式的變化。
三是形成算力社區(qū)。我們?cè)诮ㄔO(shè)算力時(shí),不能只局限于算力本身,也要想辦法構(gòu)建它的上層應(yīng)用,如數(shù)據(jù)中心、模型中心,甚至再上層的開發(fā)者社區(qū)。
對(duì)于算力建設(shè),學(xué)校領(lǐng)導(dǎo)的重視和支持非常重要;在軟件配置、優(yōu)先支持等方面也要允許小范圍的試錯(cuò),最終達(dá)到百花齊放的狀態(tài);此外,持續(xù)的投入也很關(guān)鍵。
未來的一流大學(xué),除了學(xué)科科研之外,誰對(duì)數(shù)字能力的把握更好,誰就能夠脫穎而出。我們需要用更大的格局、更高的戰(zhàn)略眼光來看待算力服務(wù),它不是一個(gè)部門自己關(guān)起門來建機(jī)房的事,而是未來整個(gè)大學(xué)變革的巨大源泉。
未來高校算力服務(wù)的前景非常廣闊,中國教育和科研計(jì)算機(jī)網(wǎng)作為教育領(lǐng)域的專網(wǎng),應(yīng)該發(fā)揮自身優(yōu)勢,聚焦服務(wù)教育科研。為高校提供優(yōu)質(zhì)的算力服務(wù),是教科網(wǎng)和賽爾網(wǎng)絡(luò)的使命和責(zé)任。賽爾網(wǎng)絡(luò)也會(huì)持續(xù)加大投入力度,并在以下三個(gè)方面發(fā)力:
一是整體按照“三步走”規(guī)劃推動(dòng)算力建設(shè),從簡單的設(shè)備供貨及安裝調(diào)試,向算力服務(wù)優(yōu)化演進(jìn),最終發(fā)揮教科專網(wǎng)的作用,實(shí)現(xiàn)算網(wǎng)融合。目前賽爾正在做的是算力資源共享平臺(tái)建設(shè),目標(biāo)就是為高校提供優(yōu)質(zhì)的算力資源服務(wù)。
二是推動(dòng)算力服務(wù)性能力的輸出,依據(jù)學(xué)校特定需求,有針對(duì)性地做好網(wǎng)絡(luò)層面的服務(wù)。以第三代互聯(lián)網(wǎng)FITI為載體,未來還會(huì)根據(jù)高校學(xué)科分類來做細(xì)分專網(wǎng),促進(jìn)資源共享共建,進(jìn)一步推動(dòng)科研成果融合。
三是賽爾內(nèi)部會(huì)不斷加強(qiáng)算力隊(duì)伍建設(shè),培養(yǎng)專業(yè)團(tuán)隊(duì),為高校做好算力服務(wù)和維護(hù)。