王繼彬,張 虎,陳 靜,郭 瑩,3(1.齊魯工業(yè)大學(xué)〔山東省科學(xué)院〕,山東省計(jì)算中心〔國家超級計(jì)算濟(jì)南中心〕,算力互聯(lián)網(wǎng)與信息安全教育部重點(diǎn)實(shí)驗(yàn)室,山東濟(jì)南 250101;2.山東省計(jì)算機(jī)網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室,山東省基礎(chǔ)科學(xué)研究中心〔計(jì)算機(jī)科學(xué)〕,山東濟(jì)南 250101;3.濟(jì)南超級計(jì)算技術(shù)研究院,山東濟(jì)南 250101)
2021年5月,國家發(fā)改委等四部門聯(lián)合發(fā)布了《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實(shí)施方案》,第一次把“算力網(wǎng)絡(luò)”概念寫進(jìn)了國家文件里,提出了構(gòu)建數(shù)據(jù)中心云計(jì)算大數(shù)據(jù)一體化的新型算力網(wǎng)絡(luò),布局建設(shè)全國一體化算力網(wǎng)絡(luò)國家樞紐節(jié)點(diǎn),實(shí)施“東數(shù)西算”工程。隨著工程的深入推進(jìn),我國數(shù)據(jù)中心網(wǎng)絡(luò)云化趨勢將不斷增強(qiáng),正發(fā)生從云網(wǎng)協(xié)同、云網(wǎng)融合到算網(wǎng)協(xié)同的轉(zhuǎn)變,進(jìn)而實(shí)現(xiàn)算力泛在可達(dá)、算力與網(wǎng)絡(luò)一體化發(fā)展的目標(biāo)。算力網(wǎng)絡(luò)需要網(wǎng)絡(luò)和計(jì)算高度協(xié)同,將計(jì)算單元和計(jì)算能力嵌入網(wǎng)絡(luò),實(shí)現(xiàn)云、網(wǎng)、邊、端的高效協(xié)同。
為了滿足數(shù)字經(jīng)濟(jì)千行百業(yè)對海量算力的迫切需求,加快全國一體化大數(shù)據(jù)中心系統(tǒng)創(chuàng)新體系算力樞紐的建設(shè),A 市超算基于國家和省市算力網(wǎng)絡(luò)布局要求,構(gòu)筑了以教育、科研、企業(yè)、政府為重點(diǎn)服務(wù)對象,基于繼承與創(chuàng)新結(jié)合、性能與能耗平衡、應(yīng)用與設(shè)計(jì)協(xié)同、易用與先進(jìn)并舉的技術(shù)路線,深度融合“超級計(jì)算+大數(shù)據(jù)+人工智能+云計(jì)算”等新一代信息技術(shù),在某省范圍內(nèi)構(gòu)建實(shí)現(xiàn)一體化算力平臺。
平臺整體按照省級一體化大數(shù)據(jù)中心空間布局的要求,依托國家超算中心的骨干網(wǎng)絡(luò)和算力規(guī)模優(yōu)勢,構(gòu)建三核架構(gòu)的省級一體化算力中心核心結(jié)點(diǎn),形成3 個低時(shí)延算力中心核心區(qū),并支持?jǐn)U展至某省16 地(市),可支撐地(市)低延時(shí)邊緣算力中心接入,構(gòu)筑完成多元異構(gòu)、云邊協(xié)同的一體化算力網(wǎng)絡(luò)體系。
算力網(wǎng)絡(luò)是一張以業(yè)務(wù)應(yīng)用需求為核心,深度融合協(xié)同計(jì)算、存儲、網(wǎng)絡(luò)資源的服務(wù)平臺,可以實(shí)現(xiàn)像“水、電”一樣的算力供給服務(wù)。依托超算算力網(wǎng)絡(luò)實(shí)踐,探索并提出了融合“算力生產(chǎn)-算力互聯(lián)-算力配給”為一體的三層算力互聯(lián)網(wǎng)體系結(jié)構(gòu),即超算中心內(nèi)節(jié)點(diǎn)(計(jì)算、存儲)間高速互聯(lián)以構(gòu)建超級計(jì)算機(jī)的算力生產(chǎn)網(wǎng)絡(luò)、超算中心之間高速互聯(lián)以高效資源聚合的算力互聯(lián)網(wǎng)絡(luò)和算力互聯(lián)網(wǎng)絡(luò)與用戶之間高速互聯(lián)以高效輸送算力資源的算力配給網(wǎng)絡(luò),體系結(jié)構(gòu)中每一層可橫向擴(kuò)展,涵蓋算力和網(wǎng)絡(luò)異構(gòu)資源,覆蓋算力資源從產(chǎn)生到傳送再到應(yīng)用的全部生命周期,實(shí)現(xiàn)超算中心內(nèi)節(jié)點(diǎn)(計(jì)算、存儲)間、超算中心之間網(wǎng)絡(luò)的高速互聯(lián)。整體網(wǎng)絡(luò)分級架構(gòu)如圖1所示。
圖1 算力網(wǎng)絡(luò)分級架構(gòu)(以超算互聯(lián)網(wǎng)絡(luò)為例)
依據(jù)算力網(wǎng)絡(luò)中不同結(jié)點(diǎn)承載的功能不同,可以將算力網(wǎng)絡(luò)中的結(jié)點(diǎn)分為算力中心結(jié)點(diǎn)、存力中心結(jié)點(diǎn)和網(wǎng)絡(luò)中心結(jié)點(diǎn)3 類,各結(jié)點(diǎn)間通過低延遲高速互聯(lián)光纖網(wǎng)絡(luò)實(shí)現(xiàn)骨干級直聯(lián),保障計(jì)算、存儲和網(wǎng)絡(luò)服務(wù)的輸出。這里結(jié)點(diǎn)指的是輸出不同算力服務(wù)的集群、數(shù)據(jù)中心。具體每類結(jié)點(diǎn)的承載的能力如下。
a)算力中心結(jié)點(diǎn)。主要提供算力服務(wù),包括高性能計(jì)算、人工智能計(jì)算、云計(jì)算、大數(shù)據(jù)計(jì)算等多種計(jì)算服務(wù)。
b)存力中心結(jié)點(diǎn)。主要提供存儲服務(wù),包括文件存儲、塊存儲、對象存儲、鍵值存儲等多種存儲形式。
c)網(wǎng)絡(luò)中心結(jié)點(diǎn)。包括CDN、網(wǎng)絡(luò)加速、網(wǎng)絡(luò)轉(zhuǎn)發(fā)、網(wǎng)絡(luò)接入、SD-WAN 接入網(wǎng)關(guān)、云連接器、高速通道、VPN網(wǎng)關(guān)、邊緣網(wǎng)絡(luò)加速等網(wǎng)絡(luò)連接能力。
通過上述結(jié)點(diǎn)分類,可以通過部署不同的算力平臺服務(wù)組件實(shí)現(xiàn)對各類結(jié)點(diǎn)輸出服務(wù)的統(tǒng)一納管,并實(shí)現(xiàn)資源的協(xié)同調(diào)度。
算力網(wǎng)絡(luò)平臺的資源納管方式目前比較成熟的設(shè)計(jì)思路是通過分別建設(shè)多個不同的算力資源池和配套的調(diào)度平臺、服務(wù)平臺,然后通過統(tǒng)一的一套云計(jì)算平臺適配接入相應(yīng)平臺的北向接口實(shí)現(xiàn)松耦合形式的資源納管能力,如對接高性能計(jì)算平臺調(diào)度器(Slurm、PBS 等)。該方式存在的問題是無法實(shí)現(xiàn)對接入資源平臺的計(jì)算、存儲和網(wǎng)絡(luò)3 個部分能力的統(tǒng)一調(diào)度,同時(shí)在異構(gòu)資源池場景下,用戶側(cè)的資源創(chuàng)建流程和參數(shù)差異性較大,交互性差。
面向算力網(wǎng)絡(luò)場景下的資源納管平臺架構(gòu)目標(biāo)應(yīng)該是通過擴(kuò)展云計(jì)算平臺調(diào)度器的方式實(shí)現(xiàn)高性能、人工智能和云計(jì)算等多元異構(gòu)算力資源的納管和算力服務(wù)的交付,底層可以通過打通以虛擬網(wǎng)絡(luò)為核心業(yè)務(wù)數(shù)據(jù)傳輸通道和存儲業(yè)務(wù)系統(tǒng)實(shí)現(xiàn)對計(jì)算集群的數(shù)據(jù)流轉(zhuǎn)。
為實(shí)現(xiàn)上述目標(biāo),平臺還應(yīng)解決資源的智能感知和協(xié)同調(diào)度、廣域數(shù)據(jù)統(tǒng)一存儲和智能流轉(zhuǎn)、算網(wǎng)業(yè)務(wù)流程編排及優(yōu)化等技術(shù)問題。具體應(yīng)從以下幾個方面進(jìn)行設(shè)計(jì)。
2.1.1 算網(wǎng)資源智能感知與協(xié)同調(diào)度技術(shù)
如圖2所示,針對超算中心、邊緣數(shù)據(jù)中心的接入與資源自動感知,首先需明確算力網(wǎng)絡(luò)資源池結(jié)點(diǎn)類型和接入技術(shù),即針對擬接入的國家級/區(qū)域級/邊緣級算力集群,選擇結(jié)點(diǎn)類型并確定算力入網(wǎng)資源,如計(jì)算、存儲、網(wǎng)絡(luò)、軟件、數(shù)據(jù)等,對算力入網(wǎng)各類資源進(jìn)行審核、抽象建模及封裝,然后進(jìn)行算力接入、鏈路并網(wǎng),將各類算力數(shù)據(jù)中心資源匯集到算力資源池,通過算力注冊、算力發(fā)布建立算力服務(wù)目錄滿足用戶需求;其次,研發(fā)代理組件和相關(guān)南北向接口,通過網(wǎng)絡(luò)互聯(lián)、安全策略配置、代理實(shí)時(shí)監(jiān)測、訂閱/發(fā)布消息等方式實(shí)現(xiàn)算力資源的自動感知,實(shí)時(shí)監(jiān)測感知各數(shù)據(jù)中心可提供的算力能力,并對算力資源池和算力服務(wù)目錄進(jìn)行更新,同步更新各級算力中心可提供資源服務(wù)能力指標(biāo)。
圖2 算力資源智能感知和協(xié)同調(diào)度
2.1.2 算力網(wǎng)絡(luò)多維資源協(xié)同調(diào)度技術(shù)
算力網(wǎng)絡(luò)完成資源接入后,為了實(shí)現(xiàn)統(tǒng)一的資源調(diào)度和編排,還需考慮具體的調(diào)度算法和技術(shù)(見圖3)。首先應(yīng)分析接入的異構(gòu)算力集群采用的調(diào)度器類型,如Slurm/PBS/Volcano 等;其次,分析各調(diào)度器作業(yè)執(zhí)行模式、調(diào)用參數(shù)、調(diào)用關(guān)聯(lián)過程,提取通用特征和個體特征,構(gòu)建統(tǒng)一算力融合調(diào)度模型,定義統(tǒng)一的作業(yè)調(diào)度、算力管理、算力調(diào)度等通用接口,屏蔽底層調(diào)度器調(diào)度命令和參數(shù)的異構(gòu)性,設(shè)置調(diào)度可選參數(shù)突出調(diào)度器的個性化;再次,需要重點(diǎn)考慮的是算力資源的融合調(diào)度場景,即當(dāng)協(xié)同計(jì)算任務(wù)提交后,通過解析調(diào)度參數(shù)并獲取各算力集群可提供的計(jì)算、存儲和網(wǎng)絡(luò)等資源能力,根據(jù)調(diào)度策略和調(diào)度方法,通過算力能力和網(wǎng)絡(luò)路由尋優(yōu)選擇合適的算力集群進(jìn)行協(xié)同計(jì)算。
圖3 算力網(wǎng)絡(luò)場景下的多維資源協(xié)同調(diào)度技術(shù)
這里全局資源調(diào)度主要有基于優(yōu)先級、基于負(fù)載均衡、基于成本、基于任務(wù)和資源親和性4 種策略,在調(diào)度維度上綜合考慮計(jì)算、存儲、網(wǎng)絡(luò)、軟件算法等各類通用資源指標(biāo)的協(xié)同,同時(shí)有針對性地分析各種調(diào)度方法的影響因素和目標(biāo),實(shí)現(xiàn)多維度資源和目標(biāo)協(xié)同,建立同步、差異情況下的資源協(xié)同調(diào)度邏輯,實(shí)現(xiàn)算力資源的高效調(diào)度。
2.1.3 數(shù)據(jù)統(tǒng)一存儲和智能流轉(zhuǎn)技術(shù)
以超算應(yīng)用場景為例,傳統(tǒng)計(jì)算密集型超算正在向數(shù)據(jù)密集型超算轉(zhuǎn)型,即發(fā)展以數(shù)據(jù)為中心的高性能數(shù)據(jù)分析平臺,通過融入存力中心結(jié)點(diǎn)能力,實(shí)現(xiàn)與多方聯(lián)合對外提供數(shù)據(jù)服務(wù)能力。但是數(shù)據(jù)跨域分散且隔離自治未得到有效匯聚,難以實(shí)現(xiàn)有效管理和共享,無法充分發(fā)揮多個存力中心結(jié)點(diǎn)并發(fā)處理海量數(shù)據(jù)的能力,導(dǎo)致各超算中心數(shù)據(jù)重復(fù)存儲以及較低的數(shù)據(jù)訪問能力,嚴(yán)重影響數(shù)據(jù)處理效率。
如圖4 所示,為了適應(yīng)算力網(wǎng)絡(luò)場景下的數(shù)據(jù)處理網(wǎng)絡(luò)構(gòu)建趨勢,突破數(shù)據(jù)統(tǒng)一存儲與高效流轉(zhuǎn)技術(shù)至關(guān)重要。這里需要考慮以下3個方面的問題。
圖4 算網(wǎng)廣域數(shù)據(jù)統(tǒng)一存儲和智能流轉(zhuǎn)技術(shù)路線
a)針對存儲、數(shù)據(jù)資源廣域分散且隔離自治等問題,需設(shè)計(jì)全局?jǐn)?shù)據(jù)空間描述方法,采用相應(yīng)的數(shù)據(jù)索引技術(shù),實(shí)現(xiàn)異構(gòu)存儲資源統(tǒng)一管理和高效訪問。
b)針對帶寬受限且時(shí)延高的算力網(wǎng)絡(luò)環(huán)境下數(shù)據(jù)高效訪問問題,采用基于數(shù)據(jù)血緣的數(shù)據(jù)流轉(zhuǎn)對象智能選路技術(shù)和加速技術(shù),支持網(wǎng)絡(luò)路由智能選擇、數(shù)據(jù)壓減、數(shù)據(jù)合并與拆分等,支持網(wǎng)內(nèi)海量大文件、小文件等數(shù)據(jù)的高速流轉(zhuǎn)或遷移,以提高算力網(wǎng)絡(luò)不同結(jié)點(diǎn)間數(shù)據(jù)傳輸性能。
c)構(gòu)筑數(shù)據(jù)流轉(zhuǎn)總線,通過對接不同數(shù)據(jù)存儲系統(tǒng),實(shí)現(xiàn)對異構(gòu)存儲系統(tǒng)下異構(gòu)數(shù)據(jù)的統(tǒng)一跨域傳輸支持,實(shí)現(xiàn)基于實(shí)時(shí)線路帶寬、數(shù)據(jù)位置等多因素的路由選取、數(shù)據(jù)壓減、數(shù)據(jù)合并與拆分等,解決數(shù)據(jù)流轉(zhuǎn)的高速智能調(diào)度問題。具體來說,可以在云計(jì)算平臺底座中設(shè)計(jì)存儲流轉(zhuǎn)和數(shù)據(jù)管理模塊,實(shí)現(xiàn)對常見存儲系統(tǒng)如并行文件系統(tǒng)Lustre,文件存儲系統(tǒng)NFS和對象存儲OSS 的統(tǒng)管能力,配套的代理組件可以部署至存力中心結(jié)點(diǎn)。
2.2.1 組網(wǎng)拓?fù)?/p>
為了滿足不同類型業(yè)務(wù)的承載需要,針對“省市”兩級架構(gòu)的超算算力網(wǎng)絡(luò),采用SRv6 網(wǎng)絡(luò)分片技術(shù)(Segment Routing over IPv6),將一套物理光網(wǎng)絡(luò)劃分為多個網(wǎng)絡(luò)業(yè)務(wù)平面,從而構(gòu)建“一網(wǎng)多平面”的網(wǎng)絡(luò)架構(gòu),支持依據(jù)不同業(yè)務(wù)應(yīng)用的SLA 的需求,可以選擇將不同的業(yè)務(wù)承載在不同的網(wǎng)絡(luò)分片上。在組網(wǎng)拓?fù)渖?,物理層將網(wǎng)絡(luò)劃分為多個網(wǎng)絡(luò)分片,設(shè)備內(nèi)部給分片網(wǎng)絡(luò)分配獨(dú)立的隊(duì)列資源,實(shí)現(xiàn)無阻塞的即時(shí)轉(zhuǎn)發(fā),最終達(dá)到端到端的帶寬保證和業(yè)務(wù)硬隔離。切片內(nèi)可根據(jù)業(yè)務(wù)子類分配不同的VPN,進(jìn)一步實(shí)現(xiàn)軟隔離。在運(yùn)維層面,通過SDN 控制器(Software Defined Network)實(shí)現(xiàn)業(yè)務(wù)快速下發(fā)及流量調(diào)優(yōu),以及通過隨流檢測技術(shù)(IFIT)對業(yè)務(wù)進(jìn)行實(shí)時(shí)質(zhì)量監(jiān)控及故障的快速定位定界,其邏輯架構(gòu)如圖5所示。
圖5 省市兩級組網(wǎng)拓?fù)浼夹g(shù)
2.2.2 地址規(guī)劃
超算算力網(wǎng)絡(luò)以IPv6 地址族作為基礎(chǔ)網(wǎng)絡(luò)地址,通過EVPN+SRv6 技術(shù)承載IPv4、IPv6 業(yè)務(wù)及網(wǎng)絡(luò)管理。IPv6 地址為128 bit 的二進(jìn)制位,采用十六進(jìn)制表示方式。超算算力網(wǎng)絡(luò)接入點(diǎn)對IPv6 地址的分配遵循“先申請,后使用”的原則,由算力網(wǎng)絡(luò)管理單位統(tǒng)一分配各接入結(jié)點(diǎn)的IPv6地址前綴(96 bit),并為每個結(jié)點(diǎn)分配足夠容量的地址塊(32 bit)。各級結(jié)點(diǎn)按照IPv6 地址分配原則,規(guī)范合理地使用本級IPv6 地址塊。A市超算構(gòu)筑的算力網(wǎng)絡(luò)IP地址按使用用途分為業(yè)務(wù)地址、終端地址和管理地址三大類,分別用于部署服務(wù)器、終端和網(wǎng)絡(luò)設(shè)備。具體劃分原則如下。
a)業(yè)務(wù)地址。業(yè)務(wù)地址是超算互聯(lián)網(wǎng)中用于對外提供服務(wù)的服務(wù)器、存儲等設(shè)備使用的地址。業(yè)務(wù)地址包括IPv4業(yè)務(wù)地址及IPv6業(yè)務(wù)地址。
b)終端地址。終端地址是不對外提供服務(wù)的終端設(shè)備所用的地址。終端設(shè)備包括臺式電腦、筆記本電腦、移動終端等。終端地址包括IPv4 終端地址及IPv6終端地址。
c)管理地址。管理地址是某省超算互聯(lián)網(wǎng)內(nèi)網(wǎng)絡(luò)設(shè)備、安全設(shè)備使用的Loopback 地址、接口互聯(lián)地址以及網(wǎng)管系統(tǒng)、安管系統(tǒng)、DNS 服務(wù)器等使用的地址。
2.2.3 用戶接入規(guī)劃
超算互聯(lián)網(wǎng)組網(wǎng)完成后,需要解決用戶接入到算力網(wǎng)絡(luò)的最后一公里問題,可提供多種形式的接入,如IP 專線接入、無線接入和互聯(lián)網(wǎng)接入等,這里推薦采用SD-WAN 方式接入。如圖6所示,通過在SRv6技術(shù)構(gòu)筑的業(yè)務(wù)網(wǎng)絡(luò)之上部署SD-WAN 接入網(wǎng)絡(luò),可以方便快捷地實(shí)現(xiàn)終端用戶快速訪問算力資源的目標(biāo)。SD-WAN 網(wǎng)絡(luò)主要包括Edge 和SD-WAN 網(wǎng)關(guān)2 種類型的網(wǎng)絡(luò)設(shè)備。
圖6 用戶接入網(wǎng)絡(luò)規(guī)劃
SD-WAN Edge 主要是指用戶側(cè)的出口CPE(Customer Premises Equipment)設(shè)備,Edge 設(shè)備是SD-WAN網(wǎng)絡(luò)隧道的發(fā)起和終結(jié)點(diǎn),也可以看作是SD-WAN 網(wǎng)絡(luò)的邊界點(diǎn)。Edge 之間的Overlay 隧道可以構(gòu)建在任意的有線或者無線的Underlay WAN 技術(shù)之上,并且通常與某種數(shù)據(jù)加密技術(shù)(如IPSec)結(jié)合使用,以確保用戶數(shù)據(jù)傳輸?shù)陌踩?。這里Edge 側(cè)的CPE 設(shè)備通常具備多種WAN 的接入能力,具備豐富的接口類型,比如傳統(tǒng)寬帶Internet 的DSL、LTE、4G/5G 等,同時(shí)還支持面向應(yīng)用的應(yīng)用識別、鏈路質(zhì)量監(jiān)控和選路、QoS以及廣域優(yōu)化等技術(shù)。
SD-WAN 網(wǎng)關(guān)是連接用戶側(cè)的CPE 終端和其他傳統(tǒng)VPN 站點(diǎn)的中間設(shè)備,需支持SD-WAN Edge 所具備的SD-WAN overlay 隧道方案,同時(shí)需要支持同用戶傳統(tǒng)網(wǎng)絡(luò)互通所需要的傳統(tǒng)VPN(如MPLS VPN)技術(shù)。具體在超算互聯(lián)網(wǎng)場景下,其可以部署在算力中心、存力中心和網(wǎng)絡(luò)中心3類結(jié)點(diǎn)邊界側(cè)。
2.2.4 網(wǎng)絡(luò)效率問題及加速方案
傳統(tǒng)通過互聯(lián)網(wǎng)絡(luò)傳輸視頻等大文件時(shí),即使使用千兆或萬兆專網(wǎng)網(wǎng)絡(luò),其傳輸速率仍然不高,這主要是由TCP 傳輸協(xié)議基于丟包的網(wǎng)絡(luò)擁塞控制算法導(dǎo)致的。當(dāng)前基于丟包的擁塞控制算法已不適應(yīng)高帶寬并且存在一定丟包率的網(wǎng)絡(luò),不能發(fā)揮網(wǎng)絡(luò)尤其是算力網(wǎng)絡(luò)的最大效率。主要體現(xiàn)在如下2個方面。
a)在存在丟包率的鏈路中,TCP 協(xié)議不能充分利用帶寬。在TCP 擁塞控制算法中,TCP 判斷鏈路出現(xiàn)擁塞的依據(jù)是發(fā)現(xiàn)網(wǎng)絡(luò)出現(xiàn)丟包現(xiàn)象,但是傳輸錯誤導(dǎo)致丟包是常見現(xiàn)象,并不是鏈路擁塞導(dǎo)致的丟包。所以在鏈路有一定丟包的情況下,TCP 傳輸速率總是被限制在較低水平,不能充分利用帶寬。
b)基于丟包計(jì)算窗口的算法,TCP 協(xié)議會填滿鏈路上帶寬瓶頸設(shè)備的緩存,從而增加網(wǎng)絡(luò)延遲。TCP算法在增加窗口試探最大帶寬的過程中,鏈路上在傳輸?shù)幢粚Χ耸盏降臄?shù)據(jù)一直在增多,報(bào)文開始占用瓶頸設(shè)備的緩存時(shí),因?yàn)槠款i設(shè)備的發(fā)送帶寬已經(jīng)占滿,所以再提高擁塞窗口其實(shí)并不能再增加實(shí)際發(fā)送速率,只能增加緩存的占用,導(dǎo)致報(bào)文在緩存中堆積得越來越多。最終導(dǎo)致的結(jié)果是緩存占用越多,網(wǎng)絡(luò)延遲越大。
綜上所述,算力網(wǎng)絡(luò)中的基礎(chǔ)網(wǎng)絡(luò)能力建設(shè),除了應(yīng)解決組網(wǎng)、接入等問題外,還承擔(dān)數(shù)據(jù)傳輸和流轉(zhuǎn)的職能,因此,還需考慮網(wǎng)絡(luò)傳輸效率問題,如何基于現(xiàn)有協(xié)議進(jìn)一步優(yōu)化提升數(shù)據(jù)傳輸效率是當(dāng)前算力網(wǎng)絡(luò)演進(jìn)迭代過程中需要面對的問題。通過在數(shù)據(jù)傳輸服務(wù)器端側(cè)網(wǎng)卡做TOE(TCP Offload Engine)卸載,從而達(dá)到TCP 加速的目的,是一種比較可行且成本較低的設(shè)計(jì)思路(見圖7),具體配置步驟如下。
圖7 算力網(wǎng)絡(luò)數(shù)據(jù)傳輸加速設(shè)計(jì)
a)首先完成B 市用戶側(cè)到A 市超算算力池互聯(lián)網(wǎng)絡(luò)接入。具體通過網(wǎng)絡(luò)管理平臺利用SRv6 技術(shù)切分出一條業(yè)務(wù)網(wǎng)絡(luò)。
b)在已分配的業(yè)務(wù)網(wǎng)絡(luò)之上,配置SD-WAN網(wǎng)絡(luò)隧道,并開啟網(wǎng)絡(luò)加速功能。
c)在用戶接入側(cè)和數(shù)據(jù)接收側(cè)服務(wù)器端啟用TOE卸載功能。
d)在SD-WAN edge 上開啟TCP 代理重新建立socket,進(jìn)行TCP單邊加速。
算力網(wǎng)絡(luò)實(shí)施圍繞某省16 地(市)超算互聯(lián)網(wǎng)應(yīng)用展開,構(gòu)建了A 市—B 市—C 市3 個核心結(jié)點(diǎn),結(jié)點(diǎn)間通過100 Gbit/s 光纖環(huán)網(wǎng)專線網(wǎng)絡(luò)直連,周圍13 地(市)就近連接3 個核心結(jié)點(diǎn),網(wǎng)絡(luò)帶寬為10 Gbit/s。在服務(wù)部署方面,所有地(市)結(jié)點(diǎn)分別部署了運(yùn)營商路由器(Provider Edge,PE)、SD-WAN 網(wǎng)關(guān)、資源納管和調(diào)度服務(wù)組件;在資源池部署方面,分別在B 市、D市部署了人工智能集群,在B 市、C 市和A 市部署了高性能計(jì)算集群和云計(jì)算集群,其余地(市)均部署了云計(jì)算集群,這里云計(jì)算集群均采用OpenStack架構(gòu)。
算力網(wǎng)絡(luò)在科學(xué)計(jì)算、數(shù)據(jù)處理、工程仿真等方面應(yīng)用非常廣泛,圍繞某省16 地(市)算力網(wǎng)絡(luò)集群,將面向遙感數(shù)據(jù)產(chǎn)品生產(chǎn)、分析和挖掘方面的應(yīng)用,闡述算力網(wǎng)絡(luò)所具備的應(yīng)用支撐能力。
3.2.1 需求分析
據(jù)國家對地觀測科學(xué)數(shù)據(jù)中心(NODA)統(tǒng)計(jì),每年NODA 匯集10PB以上的對地觀測數(shù)據(jù),若要充分發(fā)揮如此海量數(shù)據(jù)的價(jià)值,則需要大規(guī)模高性能的存儲系統(tǒng)滿足存儲需求,需要PB 級的高性能計(jì)算、智能計(jì)算、云計(jì)算等異構(gòu)算力協(xié)同完成數(shù)據(jù)的處理和挖掘,需要10 Gbit/s帶寬的專用高速網(wǎng)絡(luò)才能滿足數(shù)據(jù)傳輸?shù)男枨?。而且以上統(tǒng)計(jì)數(shù)據(jù)只是針對遙感初級數(shù)據(jù),如果想要對更高級的數(shù)據(jù)產(chǎn)品進(jìn)行生產(chǎn)、分析、挖掘,則需要海量的算力、存儲、網(wǎng)絡(luò)資源。因此,在遙感數(shù)據(jù)產(chǎn)品生產(chǎn)、分析和挖掘的應(yīng)用場景下,需要算力網(wǎng)絡(luò)跨域異構(gòu)資源協(xié)同調(diào)度和使用的能力,更好地支持遙感數(shù)據(jù)產(chǎn)品應(yīng)用。
3.2.2 遙感數(shù)據(jù)生產(chǎn)應(yīng)用實(shí)現(xiàn)
下面以遙感數(shù)據(jù)產(chǎn)品生產(chǎn)過程為例,闡述算力網(wǎng)絡(luò)的典型應(yīng)用場景。該數(shù)據(jù)產(chǎn)品生產(chǎn)過程如下:將基于Landsat8 原始數(shù)據(jù)經(jīng)過地表反射率數(shù)據(jù)產(chǎn)品生產(chǎn)、地形校正TC 產(chǎn)品生產(chǎn)、Fmask 云掩膜產(chǎn)品生產(chǎn)、利用Fmask 云掩膜產(chǎn)品對TC 產(chǎn)品掩膜、數(shù)據(jù)產(chǎn)品拼接及圖片輸出。具體過程涉及的算力資源支撐如下。
a)地表反射率數(shù)據(jù)產(chǎn)品生產(chǎn)計(jì)算量巨大,需要使用高性能計(jì)算集群進(jìn)行統(tǒng)一計(jì)算和數(shù)據(jù)生成。
b)地形校正TC 產(chǎn)品生產(chǎn)和Fmask 云掩膜產(chǎn)品生產(chǎn)可以并行進(jìn)行,且2類數(shù)據(jù)產(chǎn)品的計(jì)算量較小,因此可以使用云計(jì)算平臺中的彈性高性能計(jì)算(EHCP)服務(wù)進(jìn)行支撐,避免過多占用高性能計(jì)算集群的算力,影響地表反射率數(shù)據(jù)產(chǎn)品生產(chǎn)。
c)利用Fmask 云掩膜產(chǎn)品對TC 產(chǎn)品掩膜,該過程計(jì)算量較小,可以使用普通的云主機(jī)資源進(jìn)行支撐。
d)數(shù)據(jù)產(chǎn)品拼接及繪圖涉及到較多的圖形拼接和繪圖,因此需要附帶GPU 資源的云主機(jī)進(jìn)行處理計(jì)算,并輸出JPG格式圖片。
整個遙感數(shù)據(jù)產(chǎn)品生產(chǎn)過程,以及配套資源的支撐情況如圖8 所示。從圖8 可以看出,整個計(jì)算過程也使用了算力網(wǎng)絡(luò)對跨域異構(gòu)存儲系統(tǒng)的統(tǒng)一管理和數(shù)據(jù)智能流轉(zhuǎn)的功能,如在EHPC 集群中將地形校正TC 產(chǎn)品和Fmask云掩膜產(chǎn)品生產(chǎn)完后,會使用數(shù)據(jù)智能流轉(zhuǎn)技術(shù),將結(jié)果數(shù)據(jù)從Lustre 并行文件系統(tǒng)遷移至高性能共享存儲系統(tǒng)中。
圖8 基于算力網(wǎng)絡(luò)環(huán)境的遙感數(shù)據(jù)產(chǎn)品生產(chǎn)流程
綜上,在這個典型應(yīng)用實(shí)例中可以看出,算力網(wǎng)絡(luò)不僅可以提供異構(gòu)算力資源的協(xié)同調(diào)度,支持各類計(jì)算任務(wù)。同時(shí),可以對跨域異構(gòu)的存儲和網(wǎng)絡(luò)資源進(jìn)行統(tǒng)一的管控和調(diào)配,從而實(shí)現(xiàn)了對各類計(jì)算任務(wù)和應(yīng)用的優(yōu)化支撐。
在具體應(yīng)用支撐領(lǐng)域,算力網(wǎng)絡(luò)主要適用于分布式數(shù)據(jù)處理、高通量計(jì)算、弱耦合作業(yè)、工作流等場景,具體如表1 所示。從表1 可以看出,以數(shù)據(jù)為切入視角,算力網(wǎng)絡(luò)可以有效支撐跨域分布式存儲場景下的數(shù)據(jù)處理。以計(jì)算作業(yè)為視角,針對松耦合、工作流模式的計(jì)算任務(wù)場景,算力網(wǎng)絡(luò)支持任務(wù)的并行調(diào)度、分拆和結(jié)果合并,支持以應(yīng)用任務(wù)流為核心的算力集群調(diào)度和以數(shù)據(jù)為核心的智能流轉(zhuǎn)。
表1 算力網(wǎng)絡(luò)應(yīng)用場景
本文主要以算力網(wǎng)絡(luò)中的超算互聯(lián)網(wǎng)建設(shè)為視角,提出了一種算力網(wǎng)絡(luò)分級、分類設(shè)計(jì)思路,并結(jié)合算力基礎(chǔ)設(shè)施架構(gòu)要求,并從資源納管關(guān)鍵技術(shù)和組網(wǎng)架構(gòu)2 個方面給出了實(shí)踐解決方案。結(jié)合A 市超算算力網(wǎng)絡(luò)部署和遙感數(shù)據(jù)生產(chǎn)應(yīng)用支撐實(shí)踐,闡述了應(yīng)用支撐全流程步驟和典型應(yīng)用場景特點(diǎn)。
當(dāng)前算力網(wǎng)絡(luò)建設(shè)還存在較多關(guān)鍵技術(shù)問題,本文所圍繞的超算互聯(lián)網(wǎng)應(yīng)用支撐僅限于部分應(yīng)用業(yè)務(wù)計(jì)算和數(shù)據(jù)流轉(zhuǎn)場景,距離通用型應(yīng)用支撐還存在較大差距,展望未來,算力網(wǎng)絡(luò)演進(jìn)將主要聚焦以應(yīng)用為中心的“SRv6+SD-WAN+SDN”網(wǎng)絡(luò)融合方案和以云計(jì)算框架為基礎(chǔ)的分布式云資源統(tǒng)管和調(diào)度2個方面。