雷波,趙倩穎
中國電信股份有限公司研究院,北京 102209
AlphaGo 與世界頂級圍棋高手李世石進行AI 圍棋對決,AlphaGo 大比分獲勝,成為了第一個擊敗人類職業(yè)圍棋選手、第一個戰(zhàn)勝圍棋世界冠軍的人工智能機器人;人體基因測序由最初的數(shù)年縮短到現(xiàn)在的幾天,更有組織宣布人體全基因測序有望只需1000 美元在1 天時間內(nèi)完成;天氣預(yù)報從最初對未來一天的天氣預(yù)測,發(fā)展到現(xiàn)在可以對未來一周甚至更長時間的預(yù)測;宇宙的觀測距離從220 萬光年發(fā)展到現(xiàn)在的137 億光年。人工智能憑借什么戰(zhàn)勝了人類?人類對未知世界的反應(yīng)為何能越來越迅速、精準(zhǔn)?答案是海量數(shù)據(jù)背后的超級算力。AI 通過算力訓(xùn)練龐大的數(shù)據(jù),并通過神經(jīng)網(wǎng)絡(luò)不斷學(xué)習(xí)成長,最終獲得技能,戰(zhàn)勝人類選手;天氣預(yù)報通過算力分析氣象站、衛(wèi)星等終端收集上來的數(shù)據(jù),對各種天氣系統(tǒng)的位置和強度進行預(yù)測??梢哉f:算力改變世界,算力驅(qū)動未來。
隨著芯片技術(shù)的發(fā)展,算力價格日益下降,已經(jīng)不再是數(shù)年前昂貴的奢侈品。小到個人手機、個人計算機,大到超級計算機、數(shù)據(jù)中心,算力存在于我們生活的各個角落。但另一方面,隨著算力的普及,算力的利用率卻在大幅下降。有數(shù)據(jù)表明各類算力終端的利用率甚至低于15%。大量算力的浪費,無論是對于一個家庭還是一個企業(yè)來說都是一種經(jīng)濟上的損失。在此背景下,亟需在算力提供方與算力消費者之間搭建一個橋梁,讓閑置的算力可以通過網(wǎng)絡(luò)進行交易,即不僅是傳統(tǒng)的云計算平臺,新興的邊緣計算平臺,甚至企業(yè)閑置的服務(wù)器,個人電腦都可以為其它用戶提供算力,從而減少資源的浪費,提高企業(yè)、個人的經(jīng)濟效益。然而,如何將匹配的算力傳遞給用戶成為了難點,其需要對計算資源和網(wǎng)絡(luò)資源進行綜合評估,以期在成本與效益之間找到最優(yōu)化的解決方案。
在集中化的云計算時代,云網(wǎng)一體成為計算網(wǎng)絡(luò)資源聯(lián)合優(yōu)化的重要解決方案,比如利用軟件定義網(wǎng)絡(luò)/網(wǎng)絡(luò)功能虛擬化(Software Defined Network/ Network Function Virtualization,SDN/NFV)技術(shù)將應(yīng)用、云計算、網(wǎng)絡(luò)及用戶聯(lián)通起來,提供一個“云、網(wǎng)、邊、端”的完整、靈活、可擴展的云網(wǎng)一體化服務(wù)。網(wǎng)絡(luò)將按照云的要求提供網(wǎng)絡(luò)資源(網(wǎng)絡(luò)即服務(wù)),而云則根據(jù)應(yīng)用的需要調(diào)用網(wǎng)絡(luò)資源。然而,隨著5G 的規(guī)模建設(shè)與邊緣計算的興起,前期的云網(wǎng)一體方案面臨了新的挑戰(zhàn)。比如隨各類計算節(jié)點的下沉,算力將遍布整個網(wǎng)絡(luò),業(yè)務(wù)對算力的需求也逐漸呈現(xiàn)出多樣化、多變化的特征。因此,如何結(jié)合網(wǎng)絡(luò)對算力資源進行調(diào)度、充分利用,對整個網(wǎng)絡(luò)進行算網(wǎng)一體化的改造,是本文關(guān)注的主要問題[1]。
針對前文所述背景,本文面向計算資源與網(wǎng)絡(luò)資源聯(lián)合優(yōu)化的問題,提出了一種算力網(wǎng)絡(luò)的解決方案,這是在5G、AI 時代的新型資源整合方案,它將屬于不同所有方的計算資源通過網(wǎng)絡(luò)有機整合起來,并按照用戶業(yè)務(wù)的不同需求提供最優(yōu)的資源服務(wù)與網(wǎng)絡(luò)連接,從而實現(xiàn)全網(wǎng)性的資源優(yōu)化調(diào)度部署。
近年來,各領(lǐng)域的專家、學(xué)者都在關(guān)注計算與網(wǎng)絡(luò)的聯(lián)合優(yōu)化問題,也在此方向進行了深入的研究。
Qingxia Chen 等人提出了一種新穎的融合架構(gòu)-軟件定義網(wǎng)絡(luò)、緩存和計算(Software-Defined Networking, Caching, and Computing,SDN-NCC)[2]。它支持動態(tài)編排網(wǎng)絡(luò),緩存和計算資源,以有效滿足不同應(yīng)用程序的需求并提高端到端系統(tǒng)性能。該架構(gòu)中業(yè)務(wù)的需求被解析為計算需求和緩存需求,而對網(wǎng)絡(luò)的考慮,則體現(xiàn)在基于SDN 技術(shù)的網(wǎng)絡(luò)可編程中。
Younghwa Kim 等人為更好解決在實際應(yīng)用中用戶業(yè)務(wù)需求的實現(xiàn)和管控問題,提出了一種基于SDN 編排器的智能數(shù)據(jù)中心互聯(lián)(Data Center Interconnection, DCI)技術(shù)[3],其可以通過傳輸網(wǎng)連接分布式云網(wǎng)絡(luò)。文章詳細(xì)介紹了包括需求、結(jié)構(gòu)、實施和測試床在內(nèi)的整體研發(fā)步驟并討論了該項技術(shù)的下一步優(yōu)化工作。
Ying He 等人提出了一個可以實現(xiàn)網(wǎng)絡(luò),緩存和計算資源的動態(tài)編排,以提高下一代車載網(wǎng)性能的集成框架??蚣苤袑①Y源分配策略表述為一個聯(lián)合優(yōu)化問題,該框架考慮了網(wǎng)絡(luò)、緩存和計算三種資源[4]。
以上關(guān)于計算網(wǎng)絡(luò)聯(lián)合優(yōu)化問題的研究成果[2-4],均是優(yōu)先考慮計算資源,再考慮網(wǎng)絡(luò)資源。在多級算力并存的今天,這樣的方法容易造成網(wǎng)絡(luò)資源的浪費,也會造成優(yōu)質(zhì)計算資源的浪費。
除學(xué)術(shù)界外,各大運營商、廠商也在該領(lǐng)域提出了自己的看法和解決方案。當(dāng)下關(guān)于計算與網(wǎng)絡(luò)的聯(lián)合優(yōu)化問題最著名的方案是云網(wǎng)融合。云網(wǎng)融合通過一個橫跨云管和網(wǎng)管的超級協(xié)同編排系統(tǒng),對云中的各種資源和網(wǎng)絡(luò)資源進行協(xié)同調(diào)度,以實現(xiàn)計算資源和網(wǎng)絡(luò)資源的完美結(jié)合,但是該方案目前正處于一個相對簡單的初級階段,超級協(xié)同編排系統(tǒng)的建設(shè)和運營也相對復(fù)雜[5]。
2019年11月,中國聯(lián)通發(fā)布了《中國聯(lián)通算力網(wǎng)絡(luò)白皮書》[6],同月中國移動發(fā)布了《算力感知網(wǎng)絡(luò)技術(shù)白皮書》[7],兩本白皮書中均介紹了基于分布式網(wǎng)絡(luò)的計算網(wǎng)絡(luò)融合新架構(gòu)—計算優(yōu)先網(wǎng)絡(luò)(Compute First Network,CFN),該架構(gòu)將計算能力和網(wǎng)絡(luò)狀態(tài)信息作為路由信息發(fā)布到網(wǎng)絡(luò),并路由到相應(yīng)的計算節(jié)點,來實現(xiàn)計算和網(wǎng)絡(luò)的聯(lián)合優(yōu)化。該分布式方案具有很好的擴展性,但實現(xiàn)復(fù)雜,需要對現(xiàn)有的網(wǎng)絡(luò)設(shè)備進行升級。
在我們的前期工作中,提出了一個針對計算網(wǎng)絡(luò)融合問題的算力網(wǎng)絡(luò)管理編排系統(tǒng)[8],該編排管理系統(tǒng)利用集中式的思想對計算信息和網(wǎng)絡(luò)信息進行分發(fā)和收集。該方案在實現(xiàn)上相對簡單,但是其可擴展性受系統(tǒng)性能影響,隨著業(yè)務(wù)量的增加會產(chǎn)生瓶頸。
基于各領(lǐng)域的研究經(jīng)驗、成果以及生產(chǎn)實踐經(jīng)歷,作者在文中給出了一種新的算力網(wǎng)絡(luò)的實驗驗證平臺,該平臺利用集中式和分布式聯(lián)合的方案通過網(wǎng)絡(luò)分發(fā)服務(wù)節(jié)點的算力、存儲、算法等資源信息,并可結(jié)合網(wǎng)絡(luò)信息(如帶寬、時延等),針對用戶的不同類型需求,提供最佳的資源分配及網(wǎng)絡(luò)連接方案,從而實現(xiàn)整網(wǎng)資源的最優(yōu)化使用。
算力網(wǎng)絡(luò)是一種通過網(wǎng)絡(luò)分發(fā)服務(wù)節(jié)點的算力信息、存儲信息、算法信息等,結(jié)合網(wǎng)絡(luò)信息(如路徑、時延等),針對用戶需求,提供最佳的資源分配及網(wǎng)絡(luò)連接,并實現(xiàn)整網(wǎng)資源的最優(yōu)化使用的解決方案。
算力網(wǎng)絡(luò)需要從兩個層面來解決計算網(wǎng)絡(luò)資源聯(lián)合優(yōu)化調(diào)度的問題。首先是資源關(guān)聯(lián)問題,根據(jù)用戶的訴求將算力資源、網(wǎng)絡(luò)資源等進行有機的整合,以滿足用戶多樣化的需求;其次是資源交易問題,使用戶能夠根據(jù)自己對業(yè)務(wù)的要求以及能夠承擔(dān)的成本,在交易平臺上購買最適合的算力資源與網(wǎng)絡(luò)資源。針對第一方面,算力網(wǎng)絡(luò)所倡導(dǎo)的解決思路是利用網(wǎng)絡(luò)控制面來分發(fā)資源信息。由于網(wǎng)絡(luò)控制面可分為集中式和分布式兩種方案,因此算力網(wǎng)絡(luò)在資源調(diào)度方面也有兩種方案,如集中式的算力網(wǎng)絡(luò)管理編排系統(tǒng)和分布式的算力路由層方案。針對第二方面,算力網(wǎng)絡(luò)希望能夠建立類似于電力交易平臺的算力交易平臺,在算力提供方與算力消費者之間建立橋梁,為消費者提供一站式的服務(wù),而他們不用進行費時費力的一對一的談判與交易,同時完成算力資源與網(wǎng)絡(luò)資源的購買。
針對第一方面的問題,我們設(shè)計并構(gòu)建了算力網(wǎng)絡(luò)管理編排平臺,如圖 1[8]所示,其可以支持集中式資源調(diào)度或分布式資源調(diào)度方案。集中式方案實現(xiàn)簡單,可以在已有的SDN/NFV 編排控制平臺上擴展實現(xiàn),但集中式方案在擴展性上會出現(xiàn)瓶頸,尤其是在業(yè)務(wù)狀態(tài)頻繁變化時,集中式的管理系統(tǒng)難以對算力資源進行精細(xì)地監(jiān)控和分配;分布式方案實現(xiàn)復(fù)雜,需要對現(xiàn)有的網(wǎng)絡(luò)設(shè)備進行升級,但是其具有很好的擴展性。因此本文將重點結(jié)合集中式和分布式兩種方案的優(yōu)勢提出一種新型混合式方案:既能利用分布式路由協(xié)議分發(fā)資源信息,又能通過基于SDN/NFV 的集中式算力網(wǎng)絡(luò)管理編排平臺集中調(diào)度網(wǎng)絡(luò)資源、計算資源等。
算力網(wǎng)絡(luò)管理編排平臺負(fù)責(zé)對這些資源進行管理和編排,既要實現(xiàn)根據(jù)業(yè)務(wù)需求的動態(tài)算力調(diào)整,又要實現(xiàn)對各個層面資源的有機協(xié)調(diào),主要模塊功能如下:
圖1 算力網(wǎng)絡(luò)管理編排平臺架構(gòu)圖Fig.1 CPN management platform architecture
(1)需求解析模塊。分析用戶業(yè)務(wù)需求,將用戶業(yè)務(wù)需求轉(zhuǎn)化為算力資源需求,根據(jù)算力需求劃分業(yè)務(wù)等級,以確定業(yè)務(wù)的部署位置、所需資源大小等信息。
(2)算法選擇模塊。根據(jù)用戶的業(yè)務(wù)類型和需求解析模塊的結(jié)果,在賦能平臺中為用戶選擇合適的部署算法,確定用戶業(yè)務(wù)部署的規(guī)格。
(3)應(yīng)用部署模塊。根據(jù)算法選擇模塊的結(jié)果,將用戶業(yè)務(wù)部署到指定的算力節(jié)點中。
(4)算力調(diào)度模塊。管理核心云和邊緣云的算力資源,根據(jù)業(yè)務(wù)需求為用戶分配相應(yīng)的計算、存儲、網(wǎng)絡(luò)資源,并根據(jù)策略對業(yè)務(wù)部署位置、業(yè)務(wù)算力進行彈性調(diào)整。
(5)網(wǎng)絡(luò)調(diào)度模塊。管理用戶、邊緣云、核心云的網(wǎng)絡(luò),在用戶業(yè)務(wù)部署或調(diào)整之后,配置用戶到業(yè)務(wù)處理節(jié)點之間的網(wǎng)絡(luò),將用戶流量路由到處理節(jié)點。
在上述功能模塊中,部分功能可以借助現(xiàn)有的技術(shù)進行實現(xiàn),如:算法選擇模塊使用大數(shù)據(jù)分析技術(shù);應(yīng)用部署模塊借助邊緣計算平臺(Multi-access Edge Computing Platform, MEP);算力調(diào)度模塊使用NFV 編排器(NFV Orchestrator, NFVO);網(wǎng)絡(luò)調(diào)度模塊使用SDN 控制器等。需求分析模塊則需要根據(jù)服務(wù)的用戶類型進行設(shè)計,形成標(biāo)準(zhǔn)化的模板,用戶根據(jù)自身業(yè)務(wù)規(guī)模提出不同的需求,算力網(wǎng)絡(luò)管理編排系統(tǒng)將業(yè)務(wù)需求轉(zhuǎn)化為具體的算力資源調(diào)度方案,并為用戶分配合適的基礎(chǔ)資源。
針對第二方面的問題,我們設(shè)計了算力交易平臺。算力交易平臺可以與圖 1 中的算力網(wǎng)絡(luò)管理編排系統(tǒng)進行對接,且與算力消費方、算力提供方之間建立通信,如圖2 所示。
算力網(wǎng)絡(luò)交易平臺負(fù)責(zé)資源信息的整合與報價、執(zhí)行算力網(wǎng)絡(luò)交易流程以及提供資源消費賬單與資源占用賬單。
算力網(wǎng)絡(luò)管理平臺和算力交易平臺共同構(gòu)成了本文的實驗驗證平臺-算力網(wǎng)絡(luò)平臺(CPN 平臺)。
圖2 算力交易平臺Fig.2 Computing power transaction platform
在傳統(tǒng)解決方案中,不同類型資源信息分發(fā)是通過互相獨立且差異很大的體系,比如算力資源信息一般會通過集中式的管控平臺(如云管平臺)來收集,用戶需要依靠這些平臺才能獲取各個算力池的空閑算力信息,而網(wǎng)絡(luò)資源信息則是通過網(wǎng)絡(luò)控制面來分發(fā),用戶可以在接入點獲取全網(wǎng)的路由信息,并按一定的策略來獲得有保障或者盡力而為的傳送通道。顯然由于各類資源信息的獨立性,導(dǎo)致在進行聯(lián)合優(yōu)化時,如何將不同類型的資源關(guān)聯(lián)起來,并保持實時或者準(zhǔn)實時更新,成為一大難題。
因此,算力網(wǎng)絡(luò)采用將算力資源等信息通過網(wǎng)絡(luò)控制面進行轉(zhuǎn)發(fā)的方式,來實現(xiàn)計算資源與網(wǎng)絡(luò)資源的有機結(jié)合,便于用戶調(diào)用最適合的資源,同時也能夠讓運營方從全局的角度來實現(xiàn)資源的優(yōu)化和統(tǒng)一調(diào)度。
由于網(wǎng)絡(luò)控制面可分為分布式和集中式兩種方案,因此算力網(wǎng)絡(luò)在資源調(diào)度方面也有兩種方案,如集中式的算力網(wǎng)絡(luò)管理編排系統(tǒng)和分布式的算力路由層方案。本文通過分布式的方案來實現(xiàn)算力資源的分發(fā)。該方案通過在如邊界網(wǎng)關(guān)協(xié)議(Border Gateway Protocol, BGP)等的IP 路由協(xié)議中增加相應(yīng)的字段,讓算力資源信息可以在BGP 鄰居之間傳遞,并在傳遞算力資源信息的同時,利用Telemetry 等協(xié)議,測量出本節(jié)點到算力節(jié)點之間的時延信息。路由協(xié)議中新增字段如圖3 所示。
圖3 路由協(xié)議中新增字段示例Fig.3 Extended fields in routing protocol
分布式路由分發(fā)示例如圖4 所示。
第一步,算力節(jié)點C1 將自己的空閑的算力資源信息發(fā)送給路由節(jié)點R4,在R4 上記錄了到C1 的信息:{C1,I1,T4},其中I1 是R4 去往C1 的端口,T4 包括兩部分:一是C1 到R4 的傳輸時延,二是R4 的節(jié)點處理時延Δt。
第二步,R4 將C1 節(jié)點的算力信息擴散給路由節(jié)點R5,這樣R5 收到了R4 發(fā)送過來的算力信息后,生成相應(yīng)的算力路由表項:{C1,R4,T5},其中記錄去往C1 需要經(jīng)過R4,其時延是T5,而T5 可以根據(jù)R4 發(fā)送過來的T4,加上T45:R4 到R5 的傳輸時延,以及R5 的節(jié)點處理時延Δt 所得,也可以利用Telemetry 協(xié)議重新進行測量。
同理,網(wǎng)絡(luò)中的各節(jié)點都可以根據(jù)以上流程,得到本節(jié)點到本域內(nèi)所有算力節(jié)點的算力資源信息,以及對應(yīng)的路由表項。
用戶首先在算力交易平臺發(fā)起申請,包括對算力資源大小的需求,以及對時延的要求等。算力交易平臺在收到用戶交易申請后,會先向算力網(wǎng)絡(luò)管理編排系統(tǒng)查詢相關(guān)的算力資源信息和網(wǎng)絡(luò)資源信息。如果有必要,也可以由算力網(wǎng)絡(luò)管理編排平臺發(fā)起端到端的時延測量流程,以獲得更為精準(zhǔn)的時延信息。
第一步:由算力網(wǎng)絡(luò)消費者提出業(yè)務(wù)訴求,比如站點位置、算力資源需求大小、連接服務(wù)要求等。
圖4 分布式路由分發(fā)示例Fig.4 Distributed routing distribution instance
第二步:算力網(wǎng)絡(luò)交易平臺根據(jù)算力網(wǎng)絡(luò)消費者的訴求,生成算力網(wǎng)絡(luò)資源視圖,以算力網(wǎng)絡(luò)消費者為中心,將可能的算力資源池、相關(guān)的網(wǎng)絡(luò)連接資源等整合在一張視圖中,甚至包括相關(guān)資源消費組合的套餐報價。
第三步:算力網(wǎng)絡(luò)消費者根據(jù)算力網(wǎng)絡(luò)資源視圖選擇最適合自己的套餐服務(wù),當(dāng)然也可以自行訂制選擇相應(yīng)的資源,然后在算力交易平臺上簽訂交易合約。
第四步:算力交易平臺根據(jù)交易合約,通過算力網(wǎng)絡(luò)管理編排系統(tǒng)調(diào)度算力資源、建立網(wǎng)絡(luò)連接等,并更新相應(yīng)的空閑資源信息。
第五步:算力交易平臺將持續(xù)跟蹤資源占用情況,直到由交易合約制定的交易結(jié)束時間,算力交易平臺終止服務(wù),釋放算力資源與網(wǎng)絡(luò)資源。
算力交易平臺還可以借助區(qū)塊鏈等新興技術(shù),實現(xiàn)分布式的賬本、匿名交易等新功能。
算力消費者在算力交易平臺完成交易后,算力交易平臺將交易結(jié)果發(fā)送給算力網(wǎng)絡(luò)編排管理系統(tǒng)。由算力網(wǎng)絡(luò)編排管理平臺根據(jù)交易結(jié)果,分別對每個用戶建立網(wǎng)絡(luò)連接,并分配相應(yīng)的算力資源,更新算力資源和網(wǎng)絡(luò)資源信息。
算力,顧名思義就是計算能力。想要根據(jù)用戶對算力的需求為其提供服務(wù),首先需要將算力像電力一樣進行量化,根據(jù)統(tǒng)一的標(biāo)準(zhǔn),評估每一個資源池現(xiàn)有的算力大小,和用戶對算力的需求大小。有了統(tǒng)一的標(biāo)準(zhǔn),才能明確資源現(xiàn)狀和用戶需求,算力才能夠進行交易。而目前,算力按照應(yīng)用場景有不同的衡量單位,用于比特幣的每秒哈希運算次數(shù)(H/S),用于AI 和圖形處理的每秒浮點運算次數(shù)(FLOP/S),智能社會對算力的訴求主要是浮點運算能力,專用AI 芯片如華為昇騰910 采用7nm 工藝,半精度FP16 算力達256TFLOPS,低功耗的12nm 芯片昇騰310 半精度FP16 算力也達到了8 TFLOPS。過去5年, 隨著深度學(xué)習(xí)算法的演進,AI 訓(xùn)練對算力的需求增加了30 萬倍,一些互聯(lián)網(wǎng)廠家已經(jīng)將算力作為服務(wù)提供給用戶,從1 FP 32 TFLOPS 或8 FP 16 TFLOPS 到4 FP 32 TFLOPS 或32 FP16 TFLOPS的AI 推理加速服務(wù),簡單的語音語義識別或單流視頻分析 8 FP16 TFLOPS 即可滿足,復(fù)雜的推薦引擎或者風(fēng)險檢測則需要32 FP16 TFLOPS[6]。
目前算力資源評估與度量還處于積極研究的階段,已經(jīng)在CCSA 等標(biāo)準(zhǔn)組織中設(shè)立相關(guān)研究課題。當(dāng)前的初步設(shè)想是,將算力池視為黑盒,根據(jù)以往收集的同類型算力池以及實驗室測試情況,利用深度學(xué)習(xí)算法,評估和量化該算力池針對主要的AI 算法所能提供的算力資源大小。
在算力網(wǎng)絡(luò)中,網(wǎng)絡(luò)時延和算力大小是為用戶選擇合適資源池的兩個重要指標(biāo)。精準(zhǔn)的網(wǎng)絡(luò)時延測量則是所有工作的前提。目前Telemetry 技術(shù)能夠提供精準(zhǔn)網(wǎng)絡(luò)時延測量。
Telemetry 是一項遠程的從物理設(shè)備或虛擬設(shè)備上高速采集數(shù)據(jù)的技術(shù),設(shè)備通過推模式主動向采集器上輸送設(shè)備數(shù)據(jù)信息,提供更實時、更高速的數(shù)據(jù)采集功能。與傳統(tǒng)的簡單網(wǎng)絡(luò)管理協(xié)議(Simple Network Management Protocol,SNMP)的Trap 和SYSLOG( 系統(tǒng)日志) 采用的推模式相比,Telemetry 推送的數(shù)據(jù)范圍更廣,不但包括告警及事件,還可以采集類似接口流量等的監(jiān)控數(shù)據(jù),Telemetry 對網(wǎng)絡(luò)監(jiān)測控制效率的提升有著至關(guān)重要的作用。
由于Telemetry 能夠提供網(wǎng)絡(luò)的精確測量,常常被用在生產(chǎn)中的自動控制技術(shù)上,用來實現(xiàn)遠程監(jiān)控的自動控制方案。在計算和網(wǎng)絡(luò)聯(lián)合優(yōu)化的場景中,通過Telemetry 技術(shù)可以加強基礎(chǔ)數(shù)據(jù)采集,實現(xiàn)計算和網(wǎng)絡(luò)的智能感知,作為計算網(wǎng)絡(luò)資源可視、智能化的基礎(chǔ)。
目前Telemetry 技術(shù)尚處于標(biāo)準(zhǔn)化階段。
在確定了用戶業(yè)務(wù)的部署位置后,需要在相應(yīng)的算力池中為用戶劃分資源并在用戶和資源節(jié)點之間建立通路,從而為用戶提供滿足需求的服務(wù)?;赟DN/NFV 的統(tǒng)一編排、自動管控的架構(gòu),能夠很好地解決算力網(wǎng)絡(luò)中網(wǎng)絡(luò)調(diào)度的問題。
SDN 是一種新型網(wǎng)絡(luò)架構(gòu),它將控制平面和轉(zhuǎn)發(fā)平面解耦,通過軟件編程的形式集中控制網(wǎng)絡(luò),具有開放性、可編程的特點[9]??稍谟脩魳I(yè)務(wù)部署或調(diào)整之后,配置用戶到業(yè)務(wù)處理節(jié)點之間的網(wǎng)絡(luò),將用戶流量路由到處理節(jié)點。
NFV 利用虛擬化技術(shù),將傳統(tǒng)電信設(shè)備功能,分割成幾個功能區(qū)塊,分別以軟件方式實現(xiàn),不再局限于硬件架構(gòu),實現(xiàn)網(wǎng)絡(luò)功能和硬件設(shè)備解耦。NFV 在2012年開始逐步制訂相關(guān)國際標(biāo)準(zhǔn)規(guī)范,目前已進入了第四階段,開始注重NFV 商用落地的研究[1,10]。可利用NFV 技術(shù)創(chuàng)建虛擬寬帶接入服務(wù)器(virtual Broadband Remote Access Server,vBRAS)、虛擬用戶 終端設(shè)備(virtual Customer Premise Equipment,vCPE)等虛擬網(wǎng)關(guān),使用戶能夠訪問資源節(jié)點。
SDN/NFV 目前在產(chǎn)業(yè)界受到熱烈的追捧,運營商和通信服務(wù)提供商都加大相關(guān)方向的部署力度希望能夠發(fā)揮SDN/NFV 的優(yōu)勢,幫助新服務(wù)快速部署,實現(xiàn)高度的網(wǎng)絡(luò)自動化和動態(tài)重新,降低運營成本。
在前述的算力網(wǎng)絡(luò)體系的基礎(chǔ)上,本小節(jié)將根據(jù)一個典型的網(wǎng)絡(luò)場景來詳細(xì)描述,如何通過CPN平臺進行算力資源、網(wǎng)絡(luò)資源的聯(lián)合優(yōu)化調(diào)度工作。場景示意如圖5 所示。
在本場景中,一共有三類算力資源節(jié)點。
圖5 典型場景示例Fig.5 Typical scenario instance
表 1 算力與網(wǎng)絡(luò)資源信息表Table 1 Computing power and network resource information table
(1)第一類是云計算節(jié)點,如本例中的C1。此類節(jié)點所能提供的算力資源非常的多,對于單一用戶而言,可以認(rèn)為接近是無限量供應(yīng)的,但云計算節(jié)點一般集中部署在電力資源充裕、遠離城區(qū)的位置,因此從網(wǎng)絡(luò)角度來看,云計算節(jié)點到用戶的時延是很難控制與保障的。
(2)第二類是城域計算節(jié)點,如本例中的C2。此類節(jié)點能夠提供一定規(guī)模的算力資源,與用戶也在同一個城域網(wǎng)范疇內(nèi),網(wǎng)絡(luò)連接的質(zhì)量和時延也相對容易保障一些。但時延指標(biāo)仍受到一定的限制,不能提供極低的時延。
(3)第三類是邊緣計算節(jié)點,如本例中的C3。此類節(jié)點靠近用戶設(shè)立,時延可以非常低,且不容易被其他用戶所干擾,網(wǎng)絡(luò)連接的質(zhì)量可以得到有效的保障。但受限于機房條件,能夠提供的算力資源非常有限,最好能分配給高價值用戶使用。
第一步:資源信息分發(fā)與收集
各算力節(jié)點將空閑算力通過路由協(xié)議進行分發(fā),因此R1 可以得到所有計算節(jié)點的算力資源信息、網(wǎng)絡(luò)節(jié)點之間的網(wǎng)絡(luò)拓?fù)湫畔⒁约熬W(wǎng)絡(luò)時延信息等,如表1 所示。
第二步:算力交易
用戶根據(jù)收到的算力網(wǎng)絡(luò)路由表,考慮到其業(yè)務(wù)需求,自主選擇合適的算力節(jié)點,并向CPN 平臺發(fā)出申請,完成算力交易流程。
如用戶希望計算的時延越低越好,而對價格因素不敏感,則可以選擇計算節(jié)點C3。
如用戶考慮到其對時延要求一般,但希望數(shù)據(jù)不出城,即無需負(fù)擔(dān)長途專線費用,則可以選擇計算節(jié)點C2。
如用戶對業(yè)務(wù)擴展性要求很高,希望能夠靈活提供算力大小,同時還希望能夠有較高數(shù)據(jù)安全性,具有獨立的網(wǎng)絡(luò)地址空間,但對時延沒有特別要求。則可以選擇計算節(jié)點C3。
第三步:資源調(diào)度
當(dāng)用戶在CPN 平臺完成交易后,CPN 平臺將根據(jù)用戶的選擇,建立相應(yīng)的網(wǎng)絡(luò)連接,并分配相應(yīng)的算力資源,更新算力資源和網(wǎng)絡(luò)資源信息。
如圖5 紅線所示,若用戶選擇計算節(jié)點C1,則CPN 先在C1 上部署虛擬化的軟件定義廣域網(wǎng)(Software Define Wide Area Network,SD-WAN)網(wǎng)關(guān),如vCPE, 即在R1 與C1 之間建立SD-WAN 專線,然后再分配C1 的算力資源給用戶,并更新算力資源表項。
本文提出了一種計算網(wǎng)絡(luò)資源聯(lián)合優(yōu)化調(diào)度方案-算力網(wǎng)絡(luò)。本文在介紹CPN 平臺的整體架構(gòu)的同時,針對資源關(guān)聯(lián)問題介紹了資源信息的收集分發(fā)流程,針對資源交易問題,介紹了算力的交易流程,提供算力網(wǎng)絡(luò)可長期發(fā)展的生態(tài)環(huán)境。此外,文章在最后還提供了CPN 應(yīng)用的整體示例,展示了CPN平臺如何進行算力資源、網(wǎng)絡(luò)資源的聯(lián)合優(yōu)化調(diào)度工作。算力網(wǎng)絡(luò)可結(jié)合網(wǎng)絡(luò)信息(如帶寬、時延等),針對用戶的不同類型需求,提供最佳的資源分配及網(wǎng)絡(luò)連接,從而實現(xiàn)整網(wǎng)資源的最優(yōu)化使用的解決方案。在下一步的工作中,我們還將對算力網(wǎng)絡(luò)中所涉及的各個功能模塊進行細(xì)化,包括如何對算力資源進行評估與度量,如何進行精準(zhǔn)的網(wǎng)絡(luò)時延測量,和如何對網(wǎng)絡(luò)中的業(yè)務(wù)進行調(diào)度,從而將算力網(wǎng)絡(luò)打造成一個集算力資源選擇,算力資源調(diào)度,算力資源交易為一體的全方位的算力生態(tài)環(huán)境。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。