張永彬
(中國電信股份有限公司邢臺分公司,河北 邢臺 054000)
云計算系統(tǒng)利用互聯(lián)網(wǎng)實現(xiàn)信息技術(shù)(Information Technology,IT)資源的彈性擴展和按需服務(wù),數(shù)據(jù)通信技術(shù)在其中起著十分關(guān)鍵的作用。文章主要研究基于數(shù)據(jù)通信的云計算系統(tǒng)的設(shè)計與優(yōu)化方法,并通過仿真實驗評估系統(tǒng)性能,旨在為構(gòu)建高效、安全的云計算系統(tǒng)提供理論支撐和技術(shù)指導(dǎo)。
云計算系統(tǒng)基于分布式計算架構(gòu)構(gòu)建,要求大量服務(wù)器之間進行信息交換與協(xié)調(diào),因此高速穩(wěn)定的網(wǎng)絡(luò)互聯(lián)成為支撐云計算的關(guān)鍵基礎(chǔ)設(shè)施[1]。在云計算體系結(jié)構(gòu)中,數(shù)據(jù)中心網(wǎng)絡(luò)承載著服務(wù)請求與云服務(wù)響應(yīng)之間海量的通信數(shù)據(jù)。存儲區(qū)域網(wǎng)絡(luò)(Storage Area Network,SAN)與服務(wù)器集群間的通信和不同數(shù)據(jù)中心間的廣域網(wǎng)通信對云計算系統(tǒng)性能也有著重要影響。
文章設(shè)計的基于數(shù)據(jù)通信的云計算系統(tǒng)采用3層網(wǎng)絡(luò)架構(gòu),即底層、中間層以及頂層[2]。
底層為服務(wù)器互聯(lián)網(wǎng)絡(luò),連接數(shù)萬臺服務(wù)器,需要提供超高數(shù)據(jù)速率、低時延、高可擴展性??紤]成本和性能因素,選擇基于Fat-Tree 拓撲的2 層數(shù)據(jù)中心網(wǎng)絡(luò),核心交換機采用32×100 GE 端口設(shè)備,匯聚交換機采用48×25 GE 端口設(shè)備,服務(wù)器采用2×25 GE 網(wǎng)絡(luò)接口卡,理論帶寬達100 Tb/s。
中間層為城域網(wǎng),通過高速光纖或微波鏈路實現(xiàn)不同數(shù)據(jù)中心間的連接。網(wǎng)絡(luò)設(shè)備選用帶有大容量交換矩陣的路由器,支持Segment Routing 等彈性組網(wǎng)技術(shù)??紤]網(wǎng)絡(luò)可靠性,建立冗余的城域網(wǎng)環(huán),并配套互聯(lián)網(wǎng)組管理協(xié)議(Internet Group Management Protocol,IGMP)雙活技術(shù)實現(xiàn)快速重路由。
頂層為廣域網(wǎng),主要用于連接用戶與云計算系統(tǒng)。采用軟件定義廣域網(wǎng)(Software-Defined Wide Area Network,SD-WAN)架構(gòu),通過云管理平臺實現(xiàn)統(tǒng)一控制網(wǎng)絡(luò)設(shè)備,進行業(yè)務(wù)識別和策略配置,并與底層網(wǎng)絡(luò)打通控制平面,實現(xiàn)全局路由和負載優(yōu)化[3]。
基于數(shù)據(jù)通信的云計算系統(tǒng)網(wǎng)絡(luò)同時支持多種標準通信協(xié)議,如支持遠程登錄的安全外殼(Secure Shell,SSH)協(xié)議、文件傳輸協(xié)議(File Transfer Protocol,F(xiàn)TP)、簡單郵件傳輸協(xié)議(Simple Mail Transfer Protocol,SMTP)等。同時,自定義高效的協(xié)議連接服務(wù)器集群與存儲系統(tǒng),通過遠程直接內(nèi)存訪問(Remote Direct Memory Access,RDMA)技術(shù)實現(xiàn)低延遲和高帶寬的數(shù)據(jù)交換。
基于數(shù)據(jù)通信的云計算系統(tǒng)的數(shù)據(jù)存儲和處理系統(tǒng)基于分布式文件系統(tǒng)構(gòu)建。文件存儲系統(tǒng)采用Ceph 集群來提供強大的數(shù)據(jù)冗余和高可靠性。Ceph集群部署超過1 000 個存儲節(jié)點,每個節(jié)點配備36 塊10 TB 串行連接的小型計算機系統(tǒng)接口(Serial Attached Small Computer System Interface,SAS)磁盤,組成RAID-6 的數(shù)據(jù)保護,單機最大容量超過300 TB。數(shù)據(jù)切分為眾多小對象后,利用CRUSH 算法隨機分布于不同的存儲節(jié)點,實現(xiàn)高度均衡。同時,系統(tǒng)引入Erasure Code 糾刪碼機制,以兼顧存儲效率。元數(shù)據(jù)管理采用分布式數(shù)據(jù)庫實現(xiàn),防止成為系統(tǒng)瓶頸。
在存儲上搭建云計算框架,可以高效分析海量數(shù)據(jù)。如構(gòu)建基于Hadoop/Spark 的分布式計算集群,根據(jù)MapReduce 理論部署大量計算節(jié)點并行處理數(shù)據(jù)[4]。主控節(jié)點可動態(tài)管理數(shù)萬個計算節(jié)點,Server節(jié)點采用最新服務(wù)器配備高核顯卡內(nèi)存中央處理器(Central Processing Unit,CPU)和超寬內(nèi)存總線,實現(xiàn)每秒處理TB 級數(shù)據(jù)。計算框架與存儲系統(tǒng)交互的數(shù)據(jù)傳輸直接利用RDMA 和數(shù)據(jù)通信傳輸(Data Communication Transport,DCT)協(xié)議完成,以達到最低延遲和最高吞吐量。
云計算系統(tǒng)處理和存儲的數(shù)據(jù)通常與業(yè)務(wù)敏感度和隱私相關(guān),因此云計算系統(tǒng)需要具備極高的安全性和隱私保護能力?;跀?shù)據(jù)通信的云計算系統(tǒng)從數(shù)據(jù)存儲、網(wǎng)絡(luò)傳輸及訪問控制等多個層面實施安全防護措施。在數(shù)據(jù)存儲層面,除Ceph 分布式存儲系統(tǒng)本身的高可靠性和容錯性,還額外引入全盤加密機制,對數(shù)據(jù)塊在寫盤前進行加密。存儲的物理塊全部為密文狀態(tài)。加密算法采用AES-256 算法,密鑰長度為256 bits,理論窮舉攻擊復(fù)雜度超過2200。同時,數(shù)據(jù)采用版本控制和多副本冗余機制,防止誤操作和硬件故障導(dǎo)致數(shù)據(jù)丟失[5]。
在網(wǎng)絡(luò)傳輸層面,系統(tǒng)對所有交換網(wǎng)絡(luò)設(shè)備實施流量識別和隔離,服務(wù)器集群、存儲網(wǎng)絡(luò)、管理網(wǎng)絡(luò)等采用虛擬局域網(wǎng)(Virtual Local Area Network,VLAN)邏輯隔離,防止安全域間非法通信。僅通過指定的安全網(wǎng)與外部域間交換控制流量關(guān),并在網(wǎng)關(guān)上部署入侵防御系統(tǒng)(Intrusion Prevention System,IPS)或入侵檢測系統(tǒng)(Intrusion Detection System,IDS)設(shè)備進行深度包檢測,屏蔽木馬病毒和網(wǎng)絡(luò)攻擊流量。與用戶接入網(wǎng)之間實現(xiàn)軟件定義邊緣安全體系架構(gòu),通過云管控系統(tǒng)下發(fā)優(yōu)化網(wǎng)絡(luò)訪問策略。在訪問控制層面,本系統(tǒng)提供基于角色的訪問控制(Role Based Access Control,RBAC)機制綁定用戶身份和數(shù)據(jù)權(quán)限。身份驗證模塊采用零知識證明協(xié)議,證明訪問者身份合法性而不泄露真實身份。該協(xié)議的安全性公式為
式中:PK(·)表示一個基于指數(shù)函數(shù)的某種加密或編碼方案;x表示待處理的數(shù)據(jù);a表示一個固定的基。授權(quán)系統(tǒng)與存儲系統(tǒng)對接,存儲權(quán)限標簽與加密密鑰同步更新。此外,設(shè)置系統(tǒng)白名單和異常行為檢測,進行實時監(jiān)控和風(fēng)險評估。
為保證云計算系統(tǒng)的高可用性,需要實時監(jiān)控系統(tǒng)運行狀態(tài)和性能指標,盡早發(fā)現(xiàn)潛在故障并快速響應(yīng)與恢復(fù)。本系統(tǒng)構(gòu)建基礎(chǔ)設(shè)施層、虛擬化層、應(yīng)用層3 個層次的監(jiān)控體系。
在基礎(chǔ)設(shè)施層面,服務(wù)器、網(wǎng)絡(luò)及存儲設(shè)備均統(tǒng)一納入監(jiān)控范圍。采集性能指標包括CPU 和內(nèi)存利用率、輸入輸出(Input/Output,I/O)負載、網(wǎng)絡(luò)流量以及接口狀態(tài)等。此外,部署各類探針和日志記錄,跟蹤系統(tǒng)調(diào)用過程,形成運行軌跡?;跁r間序列預(yù)測和關(guān)聯(lián)分析,識別異常特征事件。一旦發(fā)現(xiàn)瓶頸指標異常提高或跌落,就會及時上報和生成故障票。
在虛擬化層面,檢查云平臺和虛擬機運行狀況。通過云管理接口采集虛擬機生命周期和資源占用數(shù)據(jù),檢測虛擬機實例狀態(tài)、主機負載等。虛擬機內(nèi)安裝監(jiān)控代理,獲取應(yīng)用程序和操作系統(tǒng)內(nèi)核信息。同時,結(jié)合下層監(jiān)控數(shù)據(jù),隔離硬件故障和軟件故障。
在應(yīng)用層面,對各類云應(yīng)用和服務(wù)設(shè)置服務(wù)水位線,證明其性能指標符合預(yù)期。關(guān)鍵業(yè)務(wù)還建立冗余機制和容災(zāi)備份,在發(fā)生異常時自動進行故障轉(zhuǎn)移,保證業(yè)務(wù)連續(xù)性。
多層次監(jiān)控數(shù)據(jù)匯總進入集群共享卷(Cluster Shared Volumes,CSF)分布式故障自愈框架,根據(jù)狀態(tài)評估和資源優(yōu)化模型,做出智能決策和故障響應(yīng),盡量實現(xiàn)無人值守自動化運維。該框架運用的模型為
式中:R(t)表示在時間t時的可靠性;λ(x)表示一個與時間x相關(guān)的故障率函數(shù)。
本實驗在計算機集群上模擬構(gòu)建云平臺,主要測量網(wǎng)絡(luò)通信性能指標,包括吞吐量、延遲、丟包率等。每臺服務(wù)器上用于生成網(wǎng)絡(luò)流量的負載機部署4個Docker 容器,代表4 個虛擬機實例。服務(wù)器之間使用Arista 7050X 交換機組成二層交互網(wǎng)絡(luò),可擴展連接數(shù)百臺服務(wù)器,形成數(shù)據(jù)中心規(guī)模環(huán)境。網(wǎng)絡(luò)測試工具選用專業(yè)性能評測平臺Spirent TestCenter。測試協(xié)議包含傳輸控制協(xié)議/網(wǎng)際協(xié)議(Transmission Control Protocol/Internet Protocol,TCP/IP)、用戶數(shù)據(jù)報協(xié)議/網(wǎng)際協(xié)議(User Datagram Protocol/Internet Protocol,UDP/IP)、因特網(wǎng)控制消息協(xié)議(Internet Control Message Protocol,ICMP)等。
實驗包含3 個階段:第一階段,測試底層服務(wù)器互聯(lián)網(wǎng)絡(luò)性能;第二階段,測試加入應(yīng)用負載后的系統(tǒng)性能;第三階段,測試網(wǎng)絡(luò)功能與安全機制的性能影響。每個階段均系統(tǒng)性地配置不同參數(shù),如網(wǎng)絡(luò)帶寬、數(shù)據(jù)包大小、協(xié)議類型及端口數(shù)量等,測量結(jié)果包括總吞吐量、分流量延遲、丟包率等。然后對比不同參數(shù)配置下的測試指標,分析系統(tǒng)瓶頸所在。在功能測試方面,模擬增加數(shù)據(jù)加密傳輸、身份驗證等安全機制,測試其對網(wǎng)絡(luò)性能的影響。同時,配置不同的負載均衡策略,評估其應(yīng)對突發(fā)流量的效果。收集大量性能數(shù)據(jù)后,采用回歸分析確定各機制對吞吐量和延遲的影響程度,為后續(xù)的參數(shù)優(yōu)化提供依據(jù)。
文章設(shè)計的基于數(shù)據(jù)通信的云計算系統(tǒng)進行仿真實驗。基于數(shù)據(jù)通信的云計算系統(tǒng)網(wǎng)絡(luò)性能測試結(jié)果如表1 所示,云計算系統(tǒng)應(yīng)用負載與安全機制性能影響如表2 所示。
表1 云計算系統(tǒng)網(wǎng)絡(luò)性能測試結(jié)果
表2 云計算系統(tǒng)應(yīng)用負載與安全機制性能影響
由表1 可知,在底層網(wǎng)絡(luò)測試階段,系統(tǒng)在不同帶寬、數(shù)據(jù)包大小、協(xié)議類型以及端口數(shù)量配置下均達到接近線速的吞吐量,如在100 Gb/s 帶寬、1 024 Bytes 數(shù)據(jù)包、ICMP 協(xié)議以及500 個端口的測試場景中,系統(tǒng)吞吐量高達98.7 Gb/s,接近理論帶寬上限,平均時延為51.8 μs,丟包率僅為0.03%,網(wǎng)絡(luò)性能表現(xiàn)優(yōu)異。其原因是Fat-Tree 拓撲結(jié)構(gòu)可以提供大量冗余鏈路,并應(yīng)用RDMA 和DCT 等高速傳輸機制。
由表2 可以看出,在引入安全套接字協(xié)議(Secure Sockets Layer,SSL)加密、用戶身份驗證、完整性校驗等安全機制后,系統(tǒng)的吞吐量有所下降,平均時延略有增加,但幅度均在10%以內(nèi)。同時,采用加權(quán)輪詢和一致性哈希等智能負載均衡策略,可以在一定程度上緩解安全開銷,將丟包率控制在0.1%以下。綜合來看,基于數(shù)據(jù)通信的云計算系統(tǒng)在提供高強度安全保障的同時,仍然兼顧高吞吐低時延的通信需求,實現(xiàn)性能與安全的平衡。
文章主要研究基于數(shù)據(jù)通信的云計算系統(tǒng)的設(shè)計與優(yōu)化方法。其中網(wǎng)絡(luò)方面采用高速低延遲的3 層體系結(jié)構(gòu),存儲系統(tǒng)構(gòu)建分布式文件系統(tǒng),安全機制融合加密、訪問控制及風(fēng)險評估模塊。在仿真測試中,對系統(tǒng)的通信帶寬、吞吐延遲、可擴展性及容錯性能進行評測,結(jié)果表明系統(tǒng)指標突破現(xiàn)有水平,滿足大數(shù)據(jù)處理和高并發(fā)服務(wù)的需求。