文/本刊記者 項陽
林新華上海交通大學(xué)網(wǎng)絡(luò)信息中心副主任
在就高校算力服務(wù)建設(shè)話題接受本刊采訪時,上海交通大學(xué)網(wǎng)絡(luò)信息中心副主任林新華多次提到“學(xué)科融合”的重要性。計算機專業(yè)背景和計算科學(xué)專業(yè)背景的人才共同組成了交大計算團隊,通過學(xué)科融合,交大將計算能力的培養(yǎng)融入專業(yè)課教學(xué)中,并讓科研團隊專注于科研創(chuàng)新,讓算力服務(wù)充分支撐教學(xué)和科研。
關(guān)于高校算力服務(wù)的現(xiàn)狀和前景,林新華指出,當(dāng)前高校算力建設(shè)正處于“爆發(fā)”的風(fēng)口。但最重要的是要加強自主創(chuàng)新,未雨綢繆,讓算力建設(shè)“可持續(xù)發(fā)展”。
《中國教育網(wǎng)絡(luò)》:近年來,我國算力服務(wù)建設(shè)取得了不少進展?!皷|數(shù)西算”工程啟動已逾一周年,正從系統(tǒng)布局進入全面建設(shè)階段。在您看來,當(dāng)前我國算力行業(yè)發(fā)展呈現(xiàn)了哪些特點和趨勢?
林新華:“東數(shù)西算”工程在2022年正式全面啟動,一年多來,“東數(shù)西算”工程做了很多事??偨Y(jié)來說主要呈現(xiàn)了兩個特點:一是連點成網(wǎng),二是小網(wǎng)連大網(wǎng)。
連點成網(wǎng)。我們知道,“東數(shù)西算”工程計劃在京津冀、長三角、粵港澳大灣區(qū)、成渝、內(nèi)蒙古、貴州、甘肅、寧夏等8地建設(shè)國家算力樞紐節(jié)點,并規(guī)劃了10個國家數(shù)據(jù)中心集群。我們可以把這些樞紐節(jié)點和數(shù)據(jù)中心集群看成“點”。在工程前期,主要工作是對這些“點”的內(nèi)部進行建設(shè)。而從今年開始,在對“點”布局建設(shè)的同時,在國家樞紐節(jié)點之間進一步打通網(wǎng)絡(luò)傳輸通道,慢慢將“點”連成“網(wǎng)”。近日,科技部啟動國家超算互聯(lián)網(wǎng)部署工作,通過將國家級超算中心、區(qū)域性超算中心、高校超算中心等互相連接起來,打造國家算力底座,促進超算算力的一體化運營,就可以看作是“連點成網(wǎng)”的行動。
小網(wǎng)連大網(wǎng)。除了國家級超算互聯(lián)網(wǎng)外,實際上,各地也都在建設(shè)城市級的算力網(wǎng)。例如,上海市經(jīng)濟和信息化委員會近日發(fā)布《推進算力資源統(tǒng)一調(diào)度指導(dǎo)意見》,提出逐步推進建設(shè)“算網(wǎng)布局不斷完善、算力資源供給充沛、算力結(jié)構(gòu)持續(xù)優(yōu)化、算效水平穩(wěn)步提升、應(yīng)用場景不斷豐富”的發(fā)展格局。再如,武漢市計劃將集約型超算中心與分散型中小型算力站連接形成城市算力網(wǎng),再通過CENI(未來網(wǎng)絡(luò)試驗設(shè)施)并入國家算力骨干網(wǎng),作為中部樞紐節(jié)點與東西部形成算力互調(diào)。
從國家層面看,當(dāng)前我國算力行業(yè)的發(fā)展布局,一方面將國家算力樞紐節(jié)點“連點成網(wǎng)”;另一方面將小的城市級算力網(wǎng)連到大的國家級算力網(wǎng),打造支撐數(shù)字中國建設(shè)的“信息高速公路”。
《中國教育網(wǎng)絡(luò)》:近來,ChatGPT等人工智能應(yīng)用備受關(guān)注。您認(rèn)為,ChatGPT的出現(xiàn)對算力行業(yè)將產(chǎn)生怎樣的影響?最近一兩年有哪些重大的技術(shù)突破推動著算力行業(yè)的發(fā)展?
林新華:“計算是對人工智能最關(guān)鍵的技術(shù)?!蔽艺J(rèn)為,中國工程院院士、阿里云創(chuàng)始人王堅的這句話最能概括對ChatGPT熱潮的思考。這意味著,人工智能有多“火”,計算就有多重要。
實際上,近一兩年來,推動算力發(fā)展的重大技術(shù),沒有什么能和大模型(Large Language Model)的涌現(xiàn)相比。它極大地促進了大家對算力重要性的認(rèn)知。猶如“舊時王謝堂前燕,飛入尋常百姓家”,人們意識到,大模型這個此前離普通人遙不可及的“高端”技術(shù),似乎一夜之間開始涌入并改變我們的生活。
2012年12月,中國高校最強算力基座“思源一號”在上海交通大學(xué)的啟用備受矚目。
其中,GPT-4是大模型浪潮的引領(lǐng)者,引發(fā)了海量算力需求,讓大家看到了無限潛能。但與此同時,算力的現(xiàn)狀卻阻礙著基于Transformer(轉(zhuǎn)換器)架構(gòu)的GPT-4等大模型的進一步發(fā)展。我們簡單估算一下,如果GPT-4模型是1萬塊GPU(顯卡)訓(xùn)練而成(另一種說法是2.5萬塊GPU),根據(jù)GPT-3向GPT-4迭代的規(guī)律,GPT-5的訓(xùn)練量可能需要60萬塊GPU,而當(dāng)前的算力和電力根本無法滿足需求。接下來,GPT-4可能會有一些遞進性的技術(shù)進展,并在各個行業(yè)領(lǐng)域里慢慢落實,但由于算力所限,它無法迅速實現(xiàn)迭代升級。
總之,GPT-4的出現(xiàn)引爆了算力危機,但也引起大家對算力的關(guān)注,讓算力對人工智能的重要性成為一種共識。這也將推動算力基礎(chǔ)設(shè)施的進一步發(fā)展。
《中國教育網(wǎng)絡(luò)》:在高校,近幾年也掀起了一股算力建設(shè)熱潮。您認(rèn)為,從發(fā)展時機上看,高校超算是否到了一個突破的風(fēng)口?高校算力建設(shè)“爆發(fā)”背后的原因是什么?
林新華:當(dāng)前,高校超算的確到了突破的風(fēng)口??偨Y(jié)起來有三方面原因。
第一,高校對算力的需求有了突破性增長。除了高校自身的科研、教學(xué)算力需求一直在穩(wěn)步增長,如今又疊加了對大模型訓(xùn)練的需求,使高校的算力需求變得非常旺盛。
第二,高校的算力需求在有些情況下無法通過國家級超算中心得到滿足,這促使高校開始建設(shè)和發(fā)展自己的超算中心。這是因為高校的教師用戶非常多,對算力的需求也都各不相同,很難通過國家級超算為每個用戶都定制開發(fā)適配性的軟件。
第三,去年9月,教育部出臺新政擴大教育投資提供貼息貸款,加速高校數(shù)字化進程。根據(jù)計劃,專項貼息貸款重點支持高校教學(xué)科研、實驗實訓(xùn)等重大設(shè)備的購置和配套設(shè)施建設(shè),包括校園網(wǎng)絡(luò)及信息管理系統(tǒng)提檔升級,高性能計算、信息中心建設(shè),數(shù)據(jù)中心國產(chǎn)化替代等。如果說促使高校大規(guī)模發(fā)展算力的前兩個原因是長期的、漸進的,那么國家的政策和投入則讓高校算力真正迎來了爆發(fā)。
《中國教育網(wǎng)絡(luò)》:2021年12月,中國高校最強算力基座“思源一號”在上海交通大學(xué)的啟用備受矚目。“思源一號”具備哪些技術(shù)特色?您認(rèn)為,高校對算力服務(wù)的需求有哪些方面?上海交通大學(xué)擁有國內(nèi)高校頂尖的算力中心。能否分享一下,交大在提供算力服務(wù)方面的思路和經(jīng)驗?
林新華:“思源一號”首先有強勁算力,總計算力達(dá)6 PFlops(CPU+GPU 雙精度),在中國高校HPC算力排名中位列第一。此外,“思源一號”還具有低碳減排的技術(shù)特色,是國內(nèi)唯一采用了熱回收技術(shù)的超算,采用國際最先進的溫水冷卻技術(shù),回收超算產(chǎn)生的熱量,為李政道研究所的大樓供暖。
高校對算力服務(wù)的需求主要體現(xiàn)在其三大功能教學(xué)、科研、管理上。廣義上的算力包含超算,也包含云計算。高校超算主要還是服務(wù)于科研,而云計算服務(wù)則基本可以覆蓋每一個師生。
上海交通大學(xué)(簡稱“交大”)的校級計算平臺“交我算”由網(wǎng)絡(luò)信息中心負(fù)責(zé)建設(shè)及管理,全面支撐學(xué)校的教學(xué)、科研和管理的計算需求。
其中,計算對教學(xué)的支撐主要體現(xiàn)在兩方面,一是普適的教學(xué),二是特色化的定制教學(xué)。
疫情期間,高校普遍采用線上教學(xué)。交大的云服務(wù)教學(xué)系統(tǒng)由云平臺提供技術(shù)保障,使整個學(xué)校的教學(xué)過程可以統(tǒng)一管理,教學(xué)資源得到優(yōu)化配置,支撐起教學(xué)資源上網(wǎng)、教學(xué)過程上網(wǎng)。疫情期間的“停課不停學(xué)”體現(xiàn)了計算服務(wù)對普適性教學(xué)的支持。
而將計算深度融入教學(xué),是富有交大特色的定制教學(xué)模式。
隨著計算在各學(xué)科中變得越來越重要,如何讓非計算機專業(yè)的學(xué)生掌握所需的計算知識和能力?
一方面,交大組建了專職教輔團隊,與專業(yè)課老師共同改造計算相關(guān)課程,如“計算流體力學(xué)”“計算材料學(xué)” “飛行器設(shè)計”等,將計算能力培養(yǎng)深度融入相關(guān)專業(yè)課教學(xué)中。除了與專業(yè)課老師共同設(shè)計改造課程,計算服務(wù)團隊還走進課堂,為學(xué)生講解學(xué)科領(lǐng)域計算前沿,讓學(xué)生在專業(yè)課學(xué)習(xí)中就能掌握相關(guān)的計算知識。
另一方面,大家容易有一種思維定式,在提供計算服務(wù)上科研遠(yuǎn)遠(yuǎn)優(yōu)先于教學(xué),因此常常將淘汰下來的科研計算設(shè)備用于教學(xué)中。而交大打破了這種定式,在教學(xué)支撐中同樣使用最先進的計算平臺,免費向校內(nèi)師生提供優(yōu)質(zhì)的計算服務(wù)。去年開始,“思源一號”也加入到“交我算”教學(xué)支撐的資源池中。優(yōu)質(zhì)的計算資源為課程升級賦能,讓學(xué)生的使用體驗、教師的教學(xué)成果都顯著提升。
先進的計算設(shè)備不僅大幅提升了學(xué)生的學(xué)習(xí)積極性,對于研究生來說,因為在學(xué)習(xí)課程時已經(jīng)充分掌握了計算實踐的流程和方法,在上完課之后,就能夠更快地投入到科研工作中,實現(xiàn)教學(xué)和科研的“零成本遷移”。
《中國教育網(wǎng)絡(luò)》:您認(rèn)為,高校要做好算力服務(wù)建設(shè),需要具備哪些基礎(chǔ)條件?
林新華:我認(rèn)為,要做好算力服務(wù)建設(shè),有兩點非常重要。
一是算力服務(wù)團隊??赡苡腥擞X得,超算無非就是大一點的電腦或手機。實際上,這完全是一種誤解。問題的難度往往會隨著規(guī)模的擴大而發(fā)生本質(zhì)性變化,而人的作用在其中也越來越重要。超算的管理是非常專業(yè)的,需要專門的研究和管理團隊。超算中心能夠提供的服務(wù)往往受限于團隊的規(guī)模和能力。
當(dāng)前,很多高校在超算的硬件設(shè)備投入上并不差,但超算管理團隊卻只有幾個人,因此只能受限于最基礎(chǔ)的模式,把超算當(dāng)作服務(wù)器來管理,停留在管機器、開賬號的階段上,難以讓超算發(fā)揮應(yīng)有的作用,提供更深層次的算力服務(wù)。而如果能把對硬件設(shè)備的投入中拿出一小部分來建設(shè)團隊,提供更多的增值服務(wù),讓學(xué)科融合得更好,則會讓超算發(fā)揮的效用翻倍。
二是體制機制。高校建設(shè)超算,如果只是買機器、管設(shè)備是遠(yuǎn)遠(yuǎn)不夠的。體制機制這種“軟性”層面的東西往往是高校算力服務(wù)發(fā)展的重要保障。
體制機制問題體現(xiàn)在很多方面。
例如,學(xué)校建設(shè)了校級算力平臺之后,是否還應(yīng)該允許院系建自己的平臺?實際上,院系分散建設(shè)有很多局限性,其計算資源難以共享,利用率低;運維人員往往沒有崗位編制,水平也參差不齊,如圖1所示。在學(xué)校已經(jīng)建設(shè)了校級算力平臺的情況下,往往會造成很多資源浪費。
圖1 院系分散的局限性
在這方面,上海交大于2018年出臺相關(guān)政策,不允許院系自行購買服務(wù)器。如果院系想購買,需要雙一流建設(shè)辦公室、資產(chǎn)處、網(wǎng)絡(luò)信息中心等多個部門共同管理和把關(guān),由此大大提升了校級計算平臺的利用率,避免了低水平的重復(fù)投資導(dǎo)致的計算資源浪費。
再如,當(dāng)老師需要計算服務(wù)時,應(yīng)該如何申請,如何繳費,如何使用,如何開具證明?高校用戶使用計算服務(wù)有著很復(fù)雜的流程,不是單個部門院系能夠完成的,往往需要學(xué)校層面的協(xié)調(diào)。這些都體現(xiàn)了在高校超算建設(shè)中,體制機制的設(shè)計非常重要。
《中國教育網(wǎng)絡(luò)》:對于不同類型、不同規(guī)模的高校來說,算力水平與運營模式都有不少差距。您分析認(rèn)為,當(dāng)前高校算力服務(wù)主要有哪些模式或者類型?這些不同的模式各有哪些優(yōu)點和缺點?對于自建算力平臺和校企合作建設(shè)來說,學(xué)校在選擇時有哪些考慮?
林新華:高校算力服務(wù)的模式或類型可以從不同角度來看。
從校級算力平臺所屬單位的角度來看,一般有三種模式:一種是掛靠在院系/實驗室等;一種是建有獨立的高性能計算中心;還有一種是掛靠在網(wǎng)絡(luò)中心/信息中心。
第一種模式的優(yōu)點很明顯,其所屬單位為院系,院系的老師和學(xué)生可以直接參與其中,有足夠的專業(yè)性支撐。但與此同時,這種模式的缺點也很明顯,首先在服務(wù)上,要考慮除了為本院系服務(wù),如何能讓超算平臺更好地為其他院系服務(wù)?此外在經(jīng)費結(jié)算上,雖然平臺是校級的,但在費用上如何由院系更好地管理?
上海交通大學(xué)
第二種模式,校級算力平臺所屬的單位是獨立的,在服務(wù)和結(jié)算方面會避免不少麻煩。但這種模式也有不少缺點。獨立的單位需要配備專門的行政、財務(wù)、技術(shù)人員;與此同時,其員工的工作量可能是不飽和的,在學(xué)科的專業(yè)性方面也會受限。
第三種模式則介于兩者之間,把校級算力平臺放在網(wǎng)絡(luò)中心。與第一種院系模式相比,可以更加專注于服務(wù),對各院系而言更中立更公正。在對員工業(yè)務(wù)考核時,也以算力服務(wù)的質(zhì)量為準(zhǔn)。與第二種獨立模式相比,網(wǎng)絡(luò)中心已經(jīng)有行政、財務(wù)等人員配置,可以對超算平臺進行更好的統(tǒng)籌;在技術(shù)人員方面,超算平臺需要懂機房、懂網(wǎng)絡(luò)、懂安全的人才,而這些與網(wǎng)絡(luò)中心的人才需求也是相通的。將校級算力平臺放在網(wǎng)絡(luò)中心,能在人員管理方面達(dá)到最優(yōu)。
當(dāng)然,每個高校面對的具體問題和環(huán)境都不盡相同,在選擇適合自己的建設(shè)模式時也會有不同的考量。以上海交大的經(jīng)驗來看,在對比權(quán)衡之下,我認(rèn)為第三種將校級算力平臺放在網(wǎng)絡(luò)中心的模式是最優(yōu)解。
從自建/合作的角度來看,大部分高校會選擇自建算力平臺。高校自建算力平臺不僅包括將超算建設(shè)在學(xué)校內(nèi),也可能因為節(jié)能、環(huán)保和空間的原因?qū)⒊憬ㄔO(shè)在外地;而校企合作多采取租用公有云的方式。學(xué)校在選擇合適的模式時,不僅會考慮技術(shù)因素,更有很多非技術(shù)方面的考量,如對固定資產(chǎn)、數(shù)據(jù)安全等方面的考慮。
《中國教育網(wǎng)絡(luò)》:剛才提到,團隊建設(shè)是高校算力服務(wù)的重要基礎(chǔ)和保障。您認(rèn)為,高校超算中心在人才隊伍建設(shè)方面面臨哪些挑戰(zhàn)?在人才團隊建設(shè)方面,交大有哪些經(jīng)驗可以分享?
林新華:高校算力中心在團隊建設(shè)方面的最大挑戰(zhàn)是人才外流。尤其是人工智能的發(fā)展熱潮進一步拉動了算力人才的需求。相比高校,企業(yè)的薪資待遇等往往更有優(yōu)勢,這使得高校要招聘和留住人才,面臨不少挑戰(zhàn)。
在團隊建設(shè)方面,交大打造了國內(nèi)高校最大的計算服務(wù)團隊——交我算團隊,目前團隊有34人,在系統(tǒng)管理、用戶應(yīng)用、學(xué)科融合、性能優(yōu)化、教學(xué)支撐等各方面都發(fā)揮了重要作用。
“學(xué)科融合”是交我算團隊的一大優(yōu)勢。團隊里有約一半人是計算機相關(guān)專業(yè)(computer science)背景,另一半則是計算科學(xué)(computational science)專業(yè)背景(生物/材料/環(huán)境/航天航空等)。交大通過學(xué)科融合的服務(wù)模式讓科研團隊專注科研創(chuàng)新,把研究中遇到的計算問題交給計算團隊。不同應(yīng)用學(xué)科背景的成員,在計算服務(wù)中充當(dāng)了應(yīng)用學(xué)科與計算機學(xué)科之間的“翻譯官”,有效降低了溝通成本,提升了服務(wù)品質(zhì)。其中,交大醫(yī)學(xué)院及12個附屬醫(yī)院是科研大戶。團隊里擁有生物信息學(xué)背景的成員,為附屬醫(yī)院瑞金、仁濟、九院等,提供了很多專業(yè)的算力服務(wù)。例如,聽力篩查是診斷新生兒聽力出生缺陷的重要手段。九院致力于新生兒聽力篩查技術(shù)的研究及應(yīng)用,而交大“交我算”團隊將研究所需的數(shù)據(jù)按要求處理,充分發(fā)揮學(xué)科融合計算服務(wù)模式的優(yōu)勢,為九院的研究提供了良好的算力服務(wù)支持。
《中國教育網(wǎng)絡(luò)》:在您看來,未來高校算力服務(wù)前景如何?下一步高校算力服務(wù)建設(shè)應(yīng)該從哪方面發(fā)力?
林新華:未來高校算力服務(wù)的前景取決于能否做到“可持續(xù)發(fā)展”。在大規(guī)模的投入建設(shè)浪潮之后,高校面臨著能否出成果和能否持續(xù)投入的壓力。
因此,我認(rèn)為如何讓超算建設(shè)“可持續(xù)發(fā)展”,是未來高校的發(fā)力方向和關(guān)注重點。要未雨綢繆,緊跟國際形勢和國家戰(zhàn)略布局,更多地探索、發(fā)展國產(chǎn)計算技術(shù)。在這方面,擁有技術(shù)實力的頭部高校應(yīng)該做出表率,在自主創(chuàng)新上更多“探路”,營造良好的創(chuàng)新生態(tài),讓創(chuàng)新成為高校算力持續(xù)發(fā)展的動能。