郭玉華 賈寶軍 侯 樂 程筱彪 徐 雷
中國(guó)聯(lián)通研究院 北京 100176
在萬(wàn)物互聯(lián)時(shí)代,數(shù)據(jù)中心需要處理海量設(shè)備收集上來(lái)的數(shù)據(jù),處理完成以后還需要反饋到終端進(jìn)行執(zhí)行。數(shù)據(jù)中心在處理數(shù)據(jù)過(guò)程中需要消耗大量云端資源,對(duì)于實(shí)時(shí)性要求比較高的場(chǎng)景,比如智能駕駛、障礙物監(jiān)測(cè)等,會(huì)影響數(shù)據(jù)處理效率,產(chǎn)生嚴(yán)重后果。邊緣計(jì)算是萬(wàn)物互聯(lián)的產(chǎn)物,能夠在靠近數(shù)據(jù)源的區(qū)域,就近提供網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)等資源,可以更好地滿足業(yè)務(wù)的實(shí)時(shí)性要求,驅(qū)動(dòng)了數(shù)據(jù)中心的發(fā)展。
未來(lái)數(shù)據(jù)中心的發(fā)展將會(huì)呈現(xiàn)出兩極化發(fā)展趨勢(shì),云數(shù)據(jù)中心將會(huì)集中更多資源,成為超大規(guī)模數(shù)據(jù)中心;邊緣數(shù)據(jù)中心作為用戶和超大規(guī)模中心之間的緩存和數(shù)據(jù)聚合點(diǎn),將會(huì)成為云數(shù)據(jù)中心的補(bǔ)充,與云數(shù)據(jù)中心協(xié)作,共同完成龐大數(shù)據(jù)的處理工作。邊緣數(shù)據(jù)中心的發(fā)展已經(jīng)進(jìn)入白熱化階段。雖然目前僅有10%的企業(yè)采用傳統(tǒng)集中式數(shù)據(jù)中心或云服務(wù)以外的邊緣模式來(lái)創(chuàng)建和處理數(shù)據(jù),但是根據(jù)Gartner預(yù)測(cè),到2022年,這一比例將達(dá)到50%。此外,運(yùn)營(yíng)商也在積極投入到邊緣數(shù)據(jù)中心的規(guī)劃工作中。AT&T在2015年發(fā)起了CORD(Central Office Re-Architected as a Data Center)項(xiàng)目,進(jìn)行傳統(tǒng)機(jī)房改造,將CT設(shè)備替換成通用的IT設(shè)備,同時(shí),中國(guó)聯(lián)通也積極參與了其中的M-CORD項(xiàng)目,強(qiáng)化移動(dòng)邊緣計(jì)算能力。
RSD(Rack Scale Design)架構(gòu)服務(wù)器,是一個(gè)能對(duì)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源進(jìn)行解耦、資源池化及重構(gòu)的邏輯架構(gòu),通過(guò)對(duì)CPU、內(nèi)存、PCIe、存儲(chǔ)等資源進(jìn)行機(jī)柜級(jí)組合調(diào)度,并依托Redfish管理接口,可以讓數(shù)據(jù)中心資源實(shí)現(xiàn)更有效的部署和利用。相較于通過(guò)RSD架構(gòu)服務(wù)器構(gòu)建云數(shù)據(jù)中心,通過(guò)RSD架構(gòu)服務(wù)器構(gòu)建邊緣數(shù)據(jù)中心更具有挑戰(zhàn)性。邊緣數(shù)據(jù)中心更加靠近數(shù)據(jù)源,在定制化服務(wù)能力方面有更高的要求,需要能夠根據(jù)預(yù)期的工作負(fù)載性能和容量要求,提供基礎(chǔ)設(shè)施資源端到端的定制化服務(wù)。利用RSD架構(gòu)服務(wù)器具有的資源池化和硬件解耦能力,能夠滿足邊緣數(shù)據(jù)中心定制化服務(wù)能力要求;因此,邊緣計(jì)算和RSD架構(gòu)服務(wù)器的結(jié)合會(huì)變得很有意義。
邊緣計(jì)算是在靠近數(shù)據(jù)源附近的網(wǎng)絡(luò)邊緣側(cè)執(zhí)行數(shù)據(jù)處理能力的一種方法。邊緣計(jì)算可以降低用戶和超大規(guī)模中心之間的帶寬需求、緩解鏈路負(fù)載壓力,滿足業(yè)務(wù)所需的數(shù)據(jù)處理低時(shí)延要求。邊緣計(jì)算作為一種新興技術(shù),在標(biāo)準(zhǔn)和開源方面得到重大發(fā)展。
在標(biāo)準(zhǔn)方面,許多標(biāo)準(zhǔn)組織正在定義各種邊緣計(jì)算標(biāo)準(zhǔn)。2016年4月,ETSI(歐洲電信標(biāo)準(zhǔn)協(xié)會(huì))發(fā)布了與MEC相關(guān)的標(biāo)準(zhǔn),提出7大業(yè)務(wù)場(chǎng)景,并對(duì)每個(gè)場(chǎng)景進(jìn)行了詳細(xì)描述[1]。2016年11月在首屆邊緣計(jì)算產(chǎn)業(yè)峰會(huì)上,以華為、英特爾、中國(guó)科學(xué)院沈陽(yáng)自動(dòng)化研究所為代表的公司和機(jī)構(gòu)就專門成立了邊緣計(jì)算產(chǎn)業(yè)聯(lián)盟[2]。
在開源方面,許多開源社區(qū)也在成立各種邊緣計(jì)算項(xiàng)目。2018年3月,Linux基金會(huì)宣布成立了Akraino項(xiàng)目,該項(xiàng)目的主要目標(biāo)是集成多個(gè)邊緣計(jì)算相關(guān)的開源項(xiàng)目,提供更高層次的API集合來(lái)統(tǒng)一管理基礎(chǔ)設(shè)施,為客戶提供端到端的邊緣計(jì)算解決方案。2018年5月,OpenStack基金會(huì)宣布成立了StarlingX項(xiàng)目,該項(xiàng)目由Intel主導(dǎo),主要提供邊緣基礎(chǔ)設(shè)施的管理服務(wù)。
RSD架構(gòu)服務(wù)器代表著下一代軟件定義的基礎(chǔ)設(shè)施,可以跨計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)資源進(jìn)行動(dòng)態(tài)配置。該架構(gòu)實(shí)現(xiàn)了硬件的全面解耦,并能通過(guò)硬件資源池化,根據(jù)業(yè)務(wù)需求實(shí)時(shí)定制硬件設(shè)備,進(jìn)而為應(yīng)用提供真正靈活、彈性的基礎(chǔ)設(shè)施資源支持。
RSD核心管理組件包括Redfish API、OpenStack EPA和PODM三部分。
1)Redfish API:基于DMTF的開放Redfish API行業(yè)標(biāo)準(zhǔn)規(guī)范,旨在利用開放、通用的接口來(lái)提高多廠商設(shè)備的連通性和管理效能。它利用JSON格式和OData來(lái)指定一個(gè)RESTful接口,幫助用戶將相關(guān)工具鏈整合到解決方案中。利用Redfish API, RSD能夠有效整合管理多廠商設(shè)備。
2)OpenStack EPA:EPA可以在啟動(dòng)虛擬機(jī)之前完成負(fù)載與平臺(tái)基礎(chǔ)設(shè)施性能的精細(xì)匹配。EPA功能的加入,能夠幫助RSD加強(qiáng)對(duì)底層基礎(chǔ)設(shè)施的感知能力,并平衡工作負(fù)載與平臺(tái)性能,以增強(qiáng)應(yīng)用性能。
3)PODM:PODM(Pod Manager)是一個(gè)提供了圖形化能力的軟件接口,它可幫助用戶更加直觀地了解RSD中存在哪些池化的資源。通過(guò)PODM,用戶能夠?qū)Ψ?wù)器資源進(jìn)行可視化管理,并更為方便地進(jìn)行優(yōu)化和重構(gòu)。
目前,由于大數(shù)據(jù)、大視頻以及人工智能等創(chuàng)新業(yè)務(wù)的發(fā)展,對(duì)硬件資源池的使用提出了更高要求。邊緣數(shù)據(jù)中心在構(gòu)建過(guò)程中,需要以“提升IT基礎(chǔ)設(shè)施的應(yīng)用靈活性”為目標(biāo),積極探索新的技術(shù)和方案。
OpenStack作為業(yè)界公認(rèn)開源云平臺(tái),為全球眾多知名企業(yè)提供云技術(shù)支持,能夠幫助他們支持自身新產(chǎn)品部署、內(nèi)部系統(tǒng)升級(jí)和研發(fā)成本降低。2018年2月,OpenStack基金會(huì)發(fā)布白皮書《云邊緣計(jì)算:超越數(shù)據(jù)中心》,強(qiáng)調(diào)了OpenStack作為邊緣計(jì)算云端平臺(tái)特別具有吸引力,已經(jīng)建立的組件和體系結(jié)構(gòu)有機(jī)會(huì)參與邊緣計(jì)算市場(chǎng)競(jìng)爭(zhēng)[3]。
本文將RSD基礎(chǔ)設(shè)施邏輯架構(gòu)和OpenStack開源云計(jì)算平臺(tái)進(jìn)行結(jié)合,提出了一種“邊緣數(shù)據(jù)中心物理資源RO構(gòu)建方法”,實(shí)現(xiàn)了資源池化構(gòu)想,使基礎(chǔ)設(shè)施能夠快速、靈活地響應(yīng)上層業(yè)務(wù)應(yīng)用的變化,提高了資源利用率。如圖1所示。
RSD架構(gòu)服務(wù)器可以進(jìn)行物理資源重構(gòu),將傳統(tǒng)服務(wù)器解耦合,打破服務(wù)器節(jié)點(diǎn)的概念,將計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等各類資源從緊耦合關(guān)系變成可以被軟件調(diào)度的松耦合關(guān)系,最終將其進(jìn)化為可根據(jù)業(yè)務(wù)負(fù)載匹配的硬件基礎(chǔ)架構(gòu)[4]。
圖1 邊緣數(shù)據(jù)中心架構(gòu)圖
OpenStack云平臺(tái)可以按需進(jìn)行資源管理。在計(jì)算資源池中,OpenStack云平臺(tái)可以根據(jù)預(yù)訂的參數(shù)值的大小過(guò)濾出匹配的資源,如CPU、內(nèi)存、硬盤等。云平臺(tái)還可以將存儲(chǔ)資源、網(wǎng)絡(luò)資源與計(jì)算資源進(jìn)行組合成裸機(jī)服務(wù),提供給上層應(yīng)用使用。為了保證服務(wù)的完整性,云平臺(tái)支持裸機(jī)自動(dòng)化部署操作系統(tǒng),能夠通過(guò)API接口統(tǒng)一管理,還可以按需從資源池申請(qǐng)或回收資源,極大地降低了裸機(jī)管理的成本。目前行業(yè)現(xiàn)有方法主要以提供虛擬機(jī)為主。該方法存在內(nèi)存容量限制。當(dāng)系統(tǒng)需要運(yùn)行大容量?jī)?nèi)容或較高計(jì)算資源支持的應(yīng)用程序,就面臨不能夠提供充足資源支撐系統(tǒng)運(yùn)行的風(fēng)險(xiǎn);系統(tǒng)由專有硬件組成,專有硬件可能所屬不同廠商,就面臨統(tǒng)一運(yùn)維管理的風(fēng)險(xiǎn);當(dāng)系統(tǒng)需要橫向擴(kuò)展,就面臨性能和容量不能快速增長(zhǎng)的風(fēng)險(xiǎn)[5-8]。與行業(yè)現(xiàn)有方法相比較,邊緣數(shù)據(jù)中心物理資源RO構(gòu)建方法,打破了內(nèi)存容量的限制,面對(duì)系統(tǒng)運(yùn)行峰值,可以提供足夠資源支撐運(yùn)行;構(gòu)建池化資源池,實(shí)現(xiàn)軟硬件的解耦;通過(guò)API接口統(tǒng)一管理,可以按需從資源池申請(qǐng)或回收資源。
邊緣數(shù)據(jù)中心物理資源RO構(gòu)建方法,主要適用于對(duì)硬件和可擴(kuò)展性要求比較高、對(duì)硬件資源支撐依賴度高的場(chǎng)景。例如,大數(shù)據(jù)分析類平臺(tái),需要進(jìn)行海量數(shù)據(jù)計(jì)算,對(duì)硬件和可擴(kuò)展性要求比較高。數(shù)據(jù)庫(kù)類應(yīng)用,一般對(duì)硬件資源支撐依賴度比較高。在現(xiàn)有部署方式中,普遍采用專有硬件[9-10]。該類應(yīng)用平時(shí)使用量不大,會(huì)在特定時(shí)間產(chǎn)生使用峰值。這就造成若投入硬件太多時(shí),低計(jì)算量會(huì)有資源浪費(fèi)現(xiàn)象,若投入硬件太少時(shí),峰值情況會(huì)有無(wú)法滿足性能需求現(xiàn)象。
本次POC測(cè)試,研究基于RSD和OpenStack的應(yīng)用和功能實(shí)現(xiàn),掌握RSD技術(shù)與OpenStack技術(shù)的結(jié)合重點(diǎn),探索邊緣數(shù)據(jù)中心構(gòu)建解決方案。測(cè)試范圍主要包括:RSD與OpenStack集成測(cè)試、RSD基本功能測(cè)試、OpenStack計(jì)算節(jié)點(diǎn)與存儲(chǔ)節(jié)點(diǎn)橫向擴(kuò)展測(cè)試。
1)測(cè)試網(wǎng)絡(luò)環(huán)境。如圖2所示,測(cè)試環(huán)境中有1臺(tái)機(jī)架服務(wù)器和2臺(tái)交換機(jī),機(jī)架服務(wù)器中有4個(gè)節(jié)點(diǎn),分別命名為Node1、Node 2、Node 3和Node 4,每個(gè)節(jié)點(diǎn)均有兩個(gè)網(wǎng)卡,網(wǎng)卡0和網(wǎng)卡1分別接到交換機(jī)LB9和LY8上。
圖2 測(cè)試組網(wǎng)拓?fù)鋱D
2)測(cè)試組網(wǎng)方案。本次測(cè)試中,4個(gè)節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)如圖3所示。
圖3 測(cè)試節(jié)點(diǎn)拓?fù)鋱D
1)Node 1安裝了PODM。PODM主要調(diào)用底層的PSME接口,獲取資源池中的各種硬件資源,同時(shí)提供硬件重構(gòu)的能力。
2)Node 3和Node 4安裝了PSME。PSME能把Node 3和Node 4存儲(chǔ)的硬件資源進(jìn)行相關(guān)屬性抽象,并提供API接口來(lái)供PODM調(diào)用。
3)Node 2安裝了OpenStack,其控制面板Horizon安裝了RSD插件,通過(guò)該插件,可以調(diào)用PODM對(duì)Node 3和Node 4的物理資源進(jìn)行管理。
用戶通過(guò)Node 2的RSD插件,調(diào)用Node 1的PODM,可以對(duì)Node 3和Node 4的物理資源進(jìn)行Compose和Decompose。
1)機(jī)柜環(huán)境。測(cè)試環(huán)境使用機(jī)房現(xiàn)有機(jī)柜,共占用機(jī)柜位8U,如表1所示。
表1 機(jī)柜設(shè)備功耗
2)IP網(wǎng)絡(luò)配置。對(duì)4個(gè)節(jié)點(diǎn)進(jìn)行IP網(wǎng)絡(luò)配置,如表2所示。
表2 IP網(wǎng)絡(luò)配置
Node 1兩個(gè)網(wǎng)卡,網(wǎng)卡0配置IP地址為10.3.0.1,網(wǎng)卡1配置IP地址為10.1.98.9。
Node 2兩個(gè)網(wǎng)卡,網(wǎng)卡0配置IP地址為10.3.0.42,網(wǎng)卡1分配兩個(gè)IP地址,分別為10.1.99.10和10.1.99.100,在測(cè)試過(guò)程中,可以證明PODM能夠?qū)崿F(xiàn)多租戶管理能力。
Node 3和Node 4用來(lái)存儲(chǔ)物理資源,不需要配置IP地址。Node 3和Node 4上安裝有PSME插件,能獲取Node 3和Node 4底層硬件資源信息,把資源信息進(jìn)行相關(guān)的屬性抽象,并提供API接口來(lái)供Node 1調(diào)用。
圖2為純氧化鉬XRD標(biāo)準(zhǔn)圖譜及不同固液比制備樣品XRD譜圖。圖2曲線1∶6、1∶10、1∶15衍射峰相同,且與三氧化鉬曲線衍射峰相同,證明1∶6、1∶10、1∶15樣品中金屬鉬的賦存狀態(tài)為三氧化鉬。鉬精礦100 g,氧氣分壓1.20 MPa,溫度200 ℃,攪拌轉(zhuǎn)速500 r/min,保溫保壓時(shí)間為300 min,固液比在1∶6~1∶15,可以將鉬精礦轉(zhuǎn)化為三氧化鉬。
3)RSD網(wǎng)絡(luò)配置包括RSD管理網(wǎng)絡(luò)和數(shù)據(jù)網(wǎng)絡(luò)。
a)管理網(wǎng)路。
PODM Management Network
Non-VLAN
IP Subnet ID : 10.3.0.0/16
DHCP Server on PODM for Management Network
PODM default IP : 10.3.0.1/16
PSME IP: Dynamic IP from PODM DHCP Server
No DHCP Server (Customer need setup DHCP server for Data Network)
Support Multitenant Network
Partition Tenant Network VLAN by RSD VLAN or Compose API
4)節(jié)點(diǎn)功能。Node 1作為部署PODM插件的節(jié)點(diǎn),Node 2作為部署OpenStack云平臺(tái)的節(jié)點(diǎn),Node 3和Node 4作為被測(cè)試節(jié)點(diǎn),如表3所示。
表3 服務(wù)器功能
5)應(yīng)用及測(cè)試軟件,如表4所示。
表4 應(yīng)用及測(cè)試軟件
本次測(cè)試,分為PODM管理測(cè)試、物理資源管理測(cè)試、裸機(jī)測(cè)試、裸機(jī)多品牌支持測(cè)試、監(jiān)控測(cè)試、添加計(jì)算節(jié)點(diǎn)測(cè)試、添加Ceph存儲(chǔ)節(jié)點(diǎn)測(cè)試、移除計(jì)算節(jié)點(diǎn)測(cè)試、移除存儲(chǔ)節(jié)點(diǎn)測(cè)試、管理組件(容器)回滾測(cè)試、管理組件(容器)升級(jí)測(cè)試共11個(gè)大類21項(xiàng)測(cè)試用例。
根據(jù)預(yù)置條件設(shè)置環(huán)境參數(shù)按照測(cè)試步驟完成測(cè)試,查看每一個(gè)測(cè)試用例的實(shí)測(cè)結(jié)果與預(yù)期結(jié)果是否一致。
通過(guò)在測(cè)試環(huán)境下的功能測(cè)試以及云平臺(tái)和數(shù)據(jù)中心中的節(jié)點(diǎn)重構(gòu),裸機(jī)服務(wù)、云平臺(tái)節(jié)點(diǎn)縮容、擴(kuò)容和云平臺(tái)的服務(wù)升級(jí)等業(yè)務(wù)功能均達(dá)到預(yù)期目標(biāo),實(shí)測(cè)結(jié)果與預(yù)期結(jié)果完全一致,成功率為100%。
其中,成功率 = 與預(yù)期結(jié)果一致的測(cè)試用例數(shù)/測(cè)試用例總數(shù)×100%。
本次測(cè)試在現(xiàn)階段已經(jīng)驗(yàn)證了邊緣數(shù)據(jù)中心物理資源RO構(gòu)建方法在靈活動(dòng)態(tài)硬件資源可擴(kuò)展性方面的能力,利用邊緣數(shù)據(jù)中心物理資源RO構(gòu)建方法可以更加高效地實(shí)現(xiàn)硬件資源調(diào)度,使數(shù)據(jù)中心的靈活性得以大幅提升。具體體現(xiàn)為以下兩點(diǎn)。
1)OpenStack云平臺(tái)可以按照給定的CPU、內(nèi)存、硬盤大小參數(shù),從資源池中過(guò)濾出最匹配的計(jì)算資源,并和存儲(chǔ)、網(wǎng)絡(luò)資源組合提供給使用者,而且它提供API接口,允許用戶對(duì)資源進(jìn)行統(tǒng)一管理,還可以允許用戶按需從資源池申請(qǐng)或回收資源,極大降低了管理成本;2)打破服務(wù)器節(jié)點(diǎn)的概念,將計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等各類資源從緊耦合關(guān)系變成可以被軟件化的松耦合關(guān)系,實(shí)現(xiàn)了物理資源重構(gòu),最終將其進(jìn)化為可根據(jù)業(yè)務(wù)負(fù)載匹配的硬件基礎(chǔ)架構(gòu)。
邊緣數(shù)據(jù)中心物理資源RO構(gòu)建方法目前處于探索和驗(yàn)證階段,在落地實(shí)施階段,會(huì)面臨與測(cè)試模型有差異的現(xiàn)象,如資源管理、與現(xiàn)有業(yè)務(wù)系統(tǒng)業(yè)務(wù)邏輯對(duì)接等問(wèn)題。此外,要實(shí)現(xiàn)硬件資源池化,需要整個(gè)產(chǎn)業(yè)鏈在軟、硬件上的全面協(xié)作和充分優(yōu)化,該方法在落地實(shí)施之前,需要集合產(chǎn)業(yè)鏈的力量,打造開放的標(biāo)準(zhǔn)。
基于邊緣數(shù)據(jù)中心物理資源RO構(gòu)建方法構(gòu)建的邊緣數(shù)據(jù)中心將有望在數(shù)據(jù)中心轉(zhuǎn)型中發(fā)揮重要作用,未來(lái)可以進(jìn)一步推進(jìn)硬件資源管理的自動(dòng)化,減少人工干預(yù),加速業(yè)務(wù)部署和創(chuàng)新。