文/李南
隨著科學研究和工程創(chuàng)新的持續(xù)進步,大量研究領(lǐng)域都逐漸開始使用各自學科的計算分析工具對實驗數(shù)據(jù)進行解析,通過對實驗數(shù)據(jù)和計算分析的跨域整合,更全面地描繪研究對象,挖掘研究對象在應(yīng)用理論或基礎(chǔ)理論層面的含義。雖然此類方法在不同領(lǐng)域有不同的名稱,如數(shù)值仿真、理論模擬、數(shù)據(jù)分析、統(tǒng)計分析、建模預(yù)測等,但這些應(yīng)用的共同點是,依賴于不同規(guī)模的算力來完成特定算法下的數(shù)值計算。
近年來,人工智能領(lǐng)域迅猛發(fā)展,AlphaFold、DeepMD等人工智能驅(qū)動的科學研究(AI for Science)推動相關(guān)領(lǐng)域取得幾十年以來的最大突破,ChatGPT和GPT-4等以大型語言模型(LLM)為代表的通用人工智能工具,其準確性和實用性也遠超預(yù)期。未來,這些進展有望在眾多領(lǐng)域促進生產(chǎn)力跨越性提升,成為推動社會發(fā)展和科研創(chuàng)新的顛覆性工具。無論是計算分析還是人工智能領(lǐng)域的研究,都依賴于高質(zhì)量成規(guī)模的算力。而這些需求投射至高等學校,就體現(xiàn)在對高校計算中心或超算中心建設(shè)的要求上。
西湖大學
西湖大學高性能計算中心(簡稱“計算中心”)成立于2019年6月,是實驗室與科研設(shè)施部下轄的6個校級公共服務(wù)平臺之一。 計算中心為西湖大學“高起點、小而精、研究型”的辦學定位提供堅實的高性能計算基礎(chǔ)支持,為全校各研究機構(gòu)提供高質(zhì)量、高可靠性、高定制化的科學計算和數(shù)據(jù)分析解決方案,滿足各學科領(lǐng)域?qū)τ诖笠?guī)模數(shù)據(jù)處理和大規(guī)??茖W計算的需求。2019~2022年,計算中心共支持205篇SCI收錄論文和計算機會議論文發(fā)表,其中11篇發(fā)表在Science、Nature、Cell等高水平期刊上。
目前計算中心共有服務(wù)器機房500平方米和科學計算集群、冷凍電鏡集群、人工智能集群三類高性能集群資源。
服務(wù)器機房采用冷凍水系統(tǒng)冷卻和封閉冷熱通道設(shè)計。這種設(shè)計相比風冷方式,降低了機房PUE(電源使用效率)值(圖1)。
圖1 西湖大學高性能計算服務(wù)器機房
計算中心通過各種類型的計算資源服務(wù)支撐學校各項科學研究,其中計算集群是科研支撐中的核心資源。截至2022年底,冷凍電鏡集群和人工智能集群在全國高等院校中算力規(guī)模排名第一。從全校各集群總算力看,CPU算力為1.5 PFLOP/s(FP64雙精度浮點計算能力),GPU算力為20 PFLOP/s(FP32單精度浮點計算能力),存儲總量達40PB。
計算集群通過高速計算專用網(wǎng)絡(luò)連接匯聚算力和存儲。在使用時可以將數(shù)據(jù)分配至各計算節(jié)點,實現(xiàn)大量算力資源同時調(diào)用,也可以使用MPI(多點接口)等通信方式將多個計算節(jié)點算力整合利用,以解決單一應(yīng)用同時使用大量CPU或GPU的需求。
校內(nèi)集群建設(shè)按照技術(shù)架構(gòu)和功能進行劃分。其中,科學工程計算集群服務(wù)于通用CPU計算和GPU加速計算,支持生物學、化學、數(shù)學、物理學、計算機科學、電子科學、材料科學、環(huán)境科學、基礎(chǔ)醫(yī)學等學科的計算需求;冷凍電鏡集群服務(wù)于結(jié)構(gòu)生物學數(shù)據(jù)解析,應(yīng)對持續(xù)的單日TB量級數(shù)據(jù)產(chǎn)出和快速處理等分析挑戰(zhàn);人工智能計算支持自然語言處理、圖像、音頻、人工智能驅(qū)動的科學研究等各方向模型訓練需求,并支持基于容器的調(diào)度和部署。
集群服務(wù)于各種類型的用戶,既滿足長期使用少量資源的用戶需求,也滿足在特定時間內(nèi)同時調(diào)用上千個CPU核心或者上百張GPU卡的用戶應(yīng)用需求或緊急算力需求。
同時,計算中心還對全校研究團隊自購機器提供集群整合服務(wù)。集群整合服務(wù)即研究團隊自購服務(wù)器可以并入集群,作為集群資源的一部分供研究團隊授權(quán)的用戶使用。這項服務(wù)在計算資源、系統(tǒng)運維、用戶管理三個層面進行整合操作,擴容集群可用計算資源規(guī)模,降低整體系統(tǒng)運維成本,通過統(tǒng)一管理降低用戶管理復(fù)雜度,同時便于研究團隊用戶在計算資源不足時快速擴大計算規(guī)模,并使用集群更多的計算資源。
總之,通過統(tǒng)一集中的算力資源并配合合理調(diào)度和管理政策,高性能計算集群可為校內(nèi)大部分算力需求提供服務(wù)。
在大部分情況下,集群算力服務(wù)對計算平臺用戶而言是自助服務(wù)。不同經(jīng)驗的用戶在集群上的計算效率和使用體驗會產(chǎn)生很大差別。因而在集群算力服務(wù)之外,中心還探索更多定制化支撐研究團隊科研需求的服務(wù),如應(yīng)用優(yōu)化、架構(gòu)支持、項目支持、數(shù)據(jù)管理、云平臺、培訓支持等。這些服務(wù)建基于集群算力,根據(jù)研究項目或團隊的需求合作開展,提升計算效率,解決數(shù)據(jù)安全,擴大研究成果的影響力,增強了高性能計算中心工程師團隊的技術(shù)能力和項目經(jīng)驗。多樣性的科研需求和定制化服務(wù)也推動了計算中心從集群算力服務(wù)逐漸演化到綜合算力服務(wù)。
其中,中心在生物醫(yī)學數(shù)據(jù)分析云平臺建設(shè)的嘗試是綜合算力服務(wù)的一個典型例子。生物信息分析云平臺涵蓋了部署單細胞測序、表觀遺傳學、蛋白預(yù)測等校內(nèi)常用應(yīng)用。
在生物醫(yī)學數(shù)據(jù)分析中,很多成熟的流程已形成最佳實踐,工具和關(guān)鍵參數(shù)都基本確定,對于這些成熟流程可以通過網(wǎng)頁方式提供服務(wù),從而省去用戶自己重新部署流程操作的步驟。同時,對于研究團隊已經(jīng)確立的私有流程,可以通過云平臺共享給研究團隊授權(quán)用戶使用。此外,對于研究團隊需共享給整個科學共同體的數(shù)據(jù)和算法,也需要統(tǒng)一的架構(gòu)提供便利的用戶訪問和底層算力對接。
圍繞這些需求,我們構(gòu)建了一套SaaS(軟件即服務(wù))服務(wù)系統(tǒng),通過輕數(shù)據(jù)分析、流程分析、科研算力服務(wù)三個層級選擇不同工具,對接集群底層算力和存儲,為研究團隊提供更便利的數(shù)據(jù)分析服務(wù)。
據(jù)統(tǒng)計,整個生物醫(yī)學數(shù)據(jù)分析云平臺年度任務(wù)量超過8000個,支持近百名用戶使用。目前,計算中心支持科研團隊數(shù)據(jù)算法公共服務(wù)網(wǎng)站(圖2)4個,支持1篇文章發(fā)表,2篇文章在投;接受來自全球36個機構(gòu)的用戶訪問,共提交近千個計算任務(wù),提升了研究成果的可及性并增強研究項目的影響力。
圖2 數(shù)據(jù)算法公共服務(wù)網(wǎng)站
集群算力服務(wù)對信息化服務(wù)系統(tǒng)也提出了更高的要求。通過建立綜合信息平臺,為用戶提供一站式計算服務(wù)、集群狀態(tài)和服務(wù)數(shù)據(jù)查詢是國內(nèi)高校計算中心和超算中心的通行做法。
西湖大學高性能計算中心的綜合信息平臺可以為系統(tǒng)管理員、用戶、研究團隊負責人提供不同的服務(wù),包括集群狀態(tài)、任務(wù)狀態(tài)、各類算力服務(wù)入口、機時和賬單查詢等功能。信息化服務(wù)平臺為提升用戶服務(wù)質(zhì)量、優(yōu)化對接流程、降低計算中心運營人力成本提供了重要支撐,同時為未來可能的算力規(guī)模擴張?zhí)峁┝诵畔⒒A(chǔ)架構(gòu)。
計算中心建設(shè)對于高校而言是重大資產(chǎn)投入。計算中心的建設(shè)和規(guī)劃需要綜合評估資源需求、投資規(guī)模、場地條件、技術(shù)路線、運營模式、團隊建設(shè)等多方面因素,提前論證規(guī)劃來保證建成后的高水平運行。
在規(guī)劃過程中,需考慮到學校整體學科發(fā)展規(guī)劃以及擬投入的資金規(guī)模,綜合相關(guān)學科對計算資源的需求情況,確定計算資源規(guī)模,如CPU和GPU的數(shù)量、存儲容量和帶寬、計算網(wǎng)絡(luò)技術(shù)和規(guī)模等。根據(jù)計算資源規(guī)模和未來擴容需求,可以確定基礎(chǔ)設(shè)施規(guī)模,如電力配置和機房場地位置和面積等。此外,計算中心對電力資源需求巨大,建設(shè)時需根據(jù)規(guī)模和未來規(guī)劃來評估機房制冷技術(shù)投入以及預(yù)估PUE值,以滿足國家對機房能耗的政策性要求,降低運行周期內(nèi)的總電力成本和低能耗制冷技術(shù)的總投入成本。
如何平衡計算中心運營成本也是計算中心建設(shè)過程中需要考慮的重要內(nèi)容,包括是否有穩(wěn)定的專項經(jīng)費支持運營成本,或者是否需要通過計算資源費用收取來平衡運營成本。在沒有專項經(jīng)費支持運營或?qū)m椊?jīng)費不足以完全支持運營的情況下,付費模式有利于降低計算中心的運營壓力;同時,在付費模式下,計算中心也可以和用戶共同挖掘滿足科研需要的核心計算需求。
不論采用何種運營模式,工程師團隊都是計算中心最重要的資源。計算中心的運行、服務(wù)質(zhì)量和發(fā)展速度都依賴于運維師團隊的技術(shù)能力和整體水平。能力突出的工程師團隊也是計算中心高效平穩(wěn)運行的重要條件,而這就要求在規(guī)劃時,需提前考慮工程師團隊的職能分配、待遇、職業(yè)規(guī)劃等問題。
隨著科研團隊對計算中心的服務(wù)質(zhì)量要求不斷提升,計算中心工程師團隊的職責逐漸從機房服務(wù)器等偏硬件和操作系統(tǒng)方面的維護,擴展至科研應(yīng)用在計算系統(tǒng)上的高效運行維護。因此,工程師團隊需要組合承擔機房和服務(wù)器平穩(wěn)運行的運維工程師,和理解特定科研領(lǐng)域應(yīng)用的應(yīng)用工程師,通過團隊合作提升科研團隊應(yīng)用運行效率和降低資源使用難度。
由于計算中心工程師在互聯(lián)網(wǎng)和其他IT行業(yè)也擁有廣泛的職業(yè)選擇和晉升機會,因而還需要特別關(guān)注工程師團隊在高校體系內(nèi)的待遇和職業(yè)發(fā)展路徑。
此外,在自建工程師團隊的同時,還可以將部分運維業(yè)務(wù)轉(zhuǎn)交給服務(wù)商團隊承擔,在降低人力成本的同時增加業(yè)務(wù)靈活性。