孫文慶,郁文清
(中移互聯(lián)網(wǎng)有限公司,廣東 廣州 510000)
隨著移動互聯(lián)網(wǎng)的快速發(fā)展,運營商的業(yè)務(wù)數(shù)據(jù)每年以驚人的速度增長,這就意味著服務(wù)器和磁盤的數(shù)據(jù)交互越來越多。隨著信息化的發(fā)展,數(shù)據(jù)的存儲速度要求越來越快,越來越多的虛擬機同時對磁盤有大量數(shù)據(jù)交互需求,集團嚴(yán)控集中式存儲陣列的采購,傳統(tǒng)的SAN存儲遭遇了I/O瓶頸,嚴(yán)重影響到用戶的體驗。這些變化表明,采用計算和存儲分離架構(gòu)的分布式存儲架構(gòu)已經(jīng)不能滿足互聯(lián)網(wǎng)資源池的各種業(yè)務(wù)應(yīng)用要求,資源池的運維正面臨著存儲資源交付速度慢、服務(wù)器計算資源和機架電力資源利用不充分、運維管理效率低等問題。超融合架構(gòu),也就是“一箱即云”的理念被業(yè)界提出來。
席科文[1]提出超融合架構(gòu)可在IT支撐系統(tǒng)建設(shè)中應(yīng)用,在一定程度上提升IT系統(tǒng)性能,提升運營效率以及節(jié)約管理成本。孟欣[2]提出采用超融合架構(gòu)建設(shè)新一代數(shù)據(jù)中心,能夠滿足大量業(yè)務(wù)數(shù)據(jù)的需求和方便進行橫向擴展。解培[3]提出基于超融合架構(gòu)基礎(chǔ)在商業(yè)銀行私有云中的應(yīng)用的設(shè)想,通過對開源軟件的學(xué)習(xí)、改造,形成一套適用于商業(yè)銀行的可行方案。張光華通過超融合架構(gòu)實現(xiàn)了存儲、核心計算以及網(wǎng)絡(luò)功能的集成,實現(xiàn)內(nèi)部資源和外部資源的整合。以上研究過分注重超融合架構(gòu)在業(yè)務(wù)上的應(yīng)用,沒有從技術(shù)層面來闡述超融合分布式存儲架構(gòu)如何提高企業(yè)數(shù)據(jù)中心的性能,提高企業(yè)的運營效率。本文在借鑒相關(guān)研究的基礎(chǔ)上,結(jié)合中移互聯(lián)網(wǎng)業(yè)務(wù)的特點,在超融合分布式存儲架構(gòu)的基礎(chǔ)上,融合IT基礎(chǔ)設(shè)施、虛擬化和軟件定義存儲技術(shù)的優(yōu)勢,實現(xiàn)三大創(chuàng)新:基于策略驅(qū)動的存儲自動化部署和置備能力提升云平臺資源的整體交付效率;基于超融合計算和存儲容量的同步線性增長節(jié)約機架和電力資源、節(jié)省服務(wù)器數(shù)量;基于超融合架構(gòu)故障自愈功能和企業(yè)級數(shù)據(jù)保護機制為互聯(lián)網(wǎng)資源池租戶的SLA要求提供有力的技術(shù)保障。
軟件定義存儲(SDS, Software Defined Storage)是軟件定義企業(yè)的要件,其愿景是通過策略驅(qū)動的自動化來簡化操作,從而以更敏捷的方式來消費存儲資源。軟件定義存儲路線不僅可以在整個企業(yè)范圍內(nèi)簡化存儲服務(wù)的交付,還可以更精細地控制硬件資源,為單個應(yīng)用提供不同的服務(wù)級別,并且可以根據(jù)應(yīng)用的需要隨時進行動態(tài)調(diào)整。軟件定義存儲使用虛擬化和自動化技術(shù)來消除那些與存儲置備相關(guān)的復(fù)雜操作,旨在把那些磁盤需求的控制權(quán)交還給應(yīng)用。
超融合基礎(chǔ)架構(gòu)(HCI, Hyper Converged Infrastructure)是一種可橫向擴展的計算和存儲基礎(chǔ)設(shè)施,由于具備計算、網(wǎng)絡(luò)、存儲和虛擬化等資源和技術(shù)以及備份軟件、快照技術(shù)、重復(fù)數(shù)據(jù)刪除、在線數(shù)據(jù)壓縮勻速等特性,實現(xiàn)具備橫向擴展能力的構(gòu)造塊式基礎(chǔ)架構(gòu),形成統(tǒng)一的資源池。上述資源池的所有關(guān)鍵功能都能以軟件形式在緊密集成的軟件層中的 hypervisor上運行,從而可通過軟件提供先前通過硬件提供的各種服務(wù)。
超融合基礎(chǔ)架構(gòu)使組織機構(gòu)無需外置專用存儲(SAN或NAS),便能夠?qū)⒆约旱臄?shù)據(jù)中心虛擬化。超融合基礎(chǔ)架構(gòu)專門針對虛擬機而設(shè)計,因此它支持傳統(tǒng)網(wǎng)絡(luò)存儲架構(gòu)所支持的全部管理程序功能,包括實時虛擬機遷移和高可用性等功能。此外,因為超融合基礎(chǔ)架構(gòu)為虛擬機感知型,所以它能夠克服配合物理服務(wù)器使用的傳統(tǒng)解決方案的各種局限。例如,在計算側(cè)按單個虛擬機開展管理時,存儲管理單元傳統(tǒng)上為LUN。當(dāng)LUN由許多虛擬機共享時,按單個虛擬機執(zhí)行備份、恢復(fù)、快照等存儲操作就會越來越困難,因此,超融合基礎(chǔ)架構(gòu)的出現(xiàn)是為了解決虛擬機和存儲問題。以下詳細介紹超融合架構(gòu)如何實現(xiàn)計算、存儲以及網(wǎng)絡(luò)的高度融合。
超融合架構(gòu)時代,由于使用標(biāo)準(zhǔn)的x86服務(wù)器,能夠?qū)崿F(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)中心的扁平化,強調(diào)將數(shù)據(jù)中心的計算、存儲和網(wǎng)絡(luò)融合在一起,也就是計算資源、存儲系統(tǒng)和網(wǎng)絡(luò)資源的高度融合。計算部分采用了分布式框架和虛擬化框架實現(xiàn)資源的分布式計算;存儲采用分布式文件系統(tǒng)實現(xiàn)設(shè)備的分布式存儲。在分布式計算和分布式存儲的基礎(chǔ)上,采用何種方式把網(wǎng)絡(luò)資源融入到服務(wù)器內(nèi)部以實現(xiàn)超融合架構(gòu)的真正融合成為值得探討的問題。
本文在借鑒目前網(wǎng)絡(luò)融合技術(shù)研究的基礎(chǔ)上,采用支持RDMA的萬兆網(wǎng)卡對架構(gòu)的內(nèi)部進行互聯(lián),將其直接集成到系統(tǒng)板內(nèi),并且直接和CPU、存儲設(shè)備以及內(nèi)存子系統(tǒng)互動,最終實現(xiàn)一個既可以處理存儲I/O、網(wǎng)絡(luò)I/O,也能夠處理進程間通信(IPC)的同一的互聯(lián)結(jié)構(gòu)。除此之外,采用RDMA(Remote DirectMemory Access,遠程內(nèi)存訪問)實現(xiàn)遠程內(nèi)存訪問,最終實現(xiàn)每一個服務(wù)器上的CPU通過RDMA快速搬動其他服務(wù)器內(nèi)存或者存儲上的數(shù)據(jù)塊。因此,采用上述的方案直接與CPU、存儲設(shè)備以及內(nèi)存進行直接交流會天然優(yōu)于傳統(tǒng)網(wǎng)絡(luò)的交互方式,形成一個以同一框架的所有服務(wù)器內(nèi)存為基礎(chǔ)的、統(tǒng)一的高速緩存的網(wǎng)絡(luò)融合架構(gòu)。該架構(gòu)的特點是:內(nèi)存為最高優(yōu)先級;以PCIE閃存卡作為FlashCache統(tǒng)一的緩存,作為二級緩存;而本地的SSD作為三級緩存。上述的緩存池能夠卸載、重排、優(yōu)化網(wǎng)絡(luò)I/O和存儲I/O,實現(xiàn)超融合架構(gòu)的真正融合。
軟件定義存儲首先需要實現(xiàn)跨所有存儲系統(tǒng)的策略自動化和動態(tài)控制,為了保證上述功能,使用基于存儲策略的管理(SPBM, Storage Policy-Based Management)機制來實現(xiàn)數(shù)據(jù)無縫的自動化和協(xié)作。具體原理是:數(shù)據(jù)平面將物理存儲資源抽象和池化為靈活的虛擬數(shù)據(jù)存儲,數(shù)據(jù)平面也負責(zé)動態(tài)調(diào)整底層存儲池,以確保策略的遵從性和服務(wù)級別協(xié)議(SLA)得以滿足。這些虛擬數(shù)據(jù)存儲可以存在于共享SAN存儲系統(tǒng)之上,通過虛擬卷技術(shù)的形式來置備。那么意味著,SPBM機制實現(xiàn)了存儲資源分配和運維的規(guī)則,并在流程引擎實現(xiàn)統(tǒng)一協(xié)調(diào)和編排以實現(xiàn)標(biāo)準(zhǔn)化的資源操作,從而達到存儲自動化部署和置備能力。資源管理者不需要再為部署應(yīng)用尋找正確的集群,也不需要關(guān)心虛擬機是否被放置到了正確的數(shù)據(jù)存儲集上,使存儲管理域在有序、可控的條件下持續(xù)提供存儲資源服務(wù)。
全閃存架構(gòu)的典型特點就是緩存層和容量層均支持配置閃存,其中緩存層的閃存只做寫緩存。這種存儲架構(gòu)避免了熱點數(shù)據(jù)在緩存層和容量層之間遷移,從而導(dǎo)致遷移動作的軟件和硬件資源開銷都比較大的問題。
全閃存的架構(gòu)優(yōu)勢具體表現(xiàn)為以下三方面:
(1)緩存層與容量層均為閃存,在有持續(xù)讀寫IO壓力的生產(chǎn)環(huán)境,無論應(yīng)用IO落在緩存層還是容量層,都由于閃存的快速反應(yīng)導(dǎo)致IO響應(yīng)時延極低;
(2)熱點數(shù)據(jù)不需要在容量層和緩存層之間搬遷,軟件邏輯大大簡化,進一步釋放了分布式存儲架構(gòu)的性能;
(3)基于軟件的重復(fù)數(shù)據(jù)消除和壓縮功能可優(yōu)化全閃存存儲容量,使數(shù)據(jù)最多縮減至原來的1/7,同時最大限度減少CPU和內(nèi)存開銷,隨著數(shù)據(jù)的增多及虛擬機的增加,優(yōu)勢不斷增強。
超融合分布式存儲架構(gòu)如圖1所示:
圖1 超融合分布式存儲架構(gòu)圖
網(wǎng)絡(luò):每臺物理服務(wù)器4個萬兆口,每兩個做端口匯聚,分為業(yè)務(wù)口和存儲口,分別連接到業(yè)務(wù)交換機和存儲交換機。萬兆端口匯聚的性能增益在20%左右,最高能達到12 Git·s-1的速率。
超融合資源池:一個由高性能的節(jié)點或服務(wù)器組成的橫向擴展型集群,每臺設(shè)備運行一個標(biāo)準(zhǔn)的管理程序;集群還含有處理器、內(nèi)存和本地存儲器,包括SSD和機械硬盤。每個節(jié)點都運行虛擬機,如同標(biāo)準(zhǔn)的虛擬主機一樣。此外,所有節(jié)點的本地存儲器均通過超融合基礎(chǔ)架構(gòu)橫向擴展型融合存儲(SOCS)架構(gòu)進行虛擬化,成為一個統(tǒng)一的存儲庫。實際上,SOCS的作用就像一個先進的數(shù)據(jù)管理功能。它將數(shù)據(jù)存儲于本地系統(tǒng)上,因此數(shù)據(jù)更接近虛擬機,從而降低了成本,提高了性能。超融合基礎(chǔ)架構(gòu)能夠從幾個節(jié)點水平擴展到大量的節(jié)點,因此組織機構(gòu)可根據(jù)自身需要擴展其基礎(chǔ)設(shè)施。
數(shù)據(jù)交換:通過分布式交換機的帶寬分配策略,實現(xiàn)在同樣的物理交換機和鏈路上不同業(yè)務(wù)的網(wǎng)絡(luò)帶寬配額。
通過超融合基礎(chǔ)架構(gòu),高可用性和實時虛擬機遷移等虛擬化功能便可無縫發(fā)揮作用。管理員通過標(biāo)準(zhǔn)程序在超融合基礎(chǔ)架構(gòu)上創(chuàng)建虛擬機,而超融合基礎(chǔ)架構(gòu)SOCS通過虛擬硬盤為虛擬機提供存儲。
為了實現(xiàn)超融合分布式存儲架構(gòu)在互聯(lián)網(wǎng)資源中的應(yīng)用,本文對超融合進行以下三方面的技術(shù)創(chuàng)新:
(1)基于策略驅(qū)動的存儲自動化部署和置備能力提升云平臺資源的整體交付效率
首先,通過虛擬硬件構(gòu)建分布式、彈性基礎(chǔ)架構(gòu)的數(shù)據(jù)平臺將物理存儲資源抽象和池化為靈活的虛擬數(shù)據(jù)存儲,數(shù)據(jù)平面通過動態(tài)調(diào)整底層存儲池,確保策略和服務(wù)級別協(xié)議得到滿足,實現(xiàn)無縫的自動化協(xié)作。
其次,通過使用通用的、基于策略的控制面板提供虛擬機級別的數(shù)據(jù)服務(wù),比如副本、RAID保護、復(fù)制、快照和緩存。這種以實現(xiàn)應(yīng)用為核心的存儲服務(wù)使得每一個虛擬機的存儲需求通過簡單直觀的策略定義并作用于虛擬機的整個生命周期,把磁盤需求的控制權(quán)交還給應(yīng)用。
最后,軟件層與存儲生態(tài)系統(tǒng)的集成和互操作級別是提升云平臺資源整體交付效率的關(guān)鍵驅(qū)動力。存儲的集成通過相關(guān)的API來實現(xiàn),這是服務(wù)提供商和大型企業(yè)的IT組織實現(xiàn)自動化和擴展性的關(guān)鍵。
基于上述的路線,基于策略驅(qū)動的自動化,將外部的硬件虛擬化和面向虛擬機的存儲池抽象、基于10 GE網(wǎng)絡(luò)融合等幾項功能集成在一起,形成超融合分布式存儲模式,該模式使存儲部署和置備過程變得更加流暢和方便,方便用戶更加靈活的按需消費存儲資源,為不同的應(yīng)用提供不同的SLA(Service Level Agreement,服務(wù)等級協(xié)議),大大提升了云平臺資源的整體交付效率。
(2)基于超融合計算和存儲容量的同步線性增長節(jié)約機架和電力資源、節(jié)省服務(wù)器數(shù)量
超融合分布式存儲架構(gòu)無需網(wǎng)絡(luò)存儲、橫向擴展型計算和存儲基礎(chǔ)設(shè)施,因此,采用超融合分布式存儲架構(gòu)之后,當(dāng)企業(yè)需要更多的資源時,企業(yè)只需要通過增加節(jié)點的方式進行集群擴容。每增加一個節(jié)點,相應(yīng)的計算、存儲空間和性能可以得到線性的增長,服務(wù)器節(jié)點可隨虛擬機部署量的增加而逐次購買,并且可以無縫地擴展到集群系統(tǒng)中。基于自動部署的技術(shù)日漸成熟,增加節(jié)點的工作幾乎是全自動的,可有效地減少初次部署成本、運維成本、節(jié)省服務(wù)器數(shù)量。
(3)超融合架構(gòu)故障自愈和企業(yè)級數(shù)據(jù)保護能力為互聯(lián)網(wǎng)資源池租戶的SLA要求提供有力的技術(shù)保障
基于超融合分布式存儲架構(gòu),數(shù)據(jù)副本隨機分散在節(jié)點中,支持多副本自動修復(fù)技術(shù),實現(xiàn)虛擬機、硬盤、節(jié)點等多維度高可用,可應(yīng)對由磁盤故障、存儲控制虛擬機故障、服務(wù)器故障等多種問題導(dǎo)致的系統(tǒng)宕機問題。
(1)測試環(huán)境
超融合分布式存儲架構(gòu)實驗環(huán)境如表1所示。
(2)測試工具
采用專業(yè)化的存儲性能自動化測試工具Vdbench,使用戶可以方便快捷地對各類外部存儲陣列進行標(biāo)準(zhǔn)性能測試。Vdbench包含server服務(wù)器,在每個被測試的虛擬機上部署Vdbench客戶端,通過server統(tǒng)一管理和下發(fā)壓力測試任務(wù),獲取整個測試用例的結(jié)果數(shù)據(jù)。
(3)測試拓撲
表1 超融合分布式存儲架構(gòu)實驗環(huán)境
超融合分布式存儲架構(gòu)拓撲圖如圖2所示。
(4)測試結(jié)果
表2是超融合分布式存儲架構(gòu)的實驗數(shù)據(jù),如果采用傳統(tǒng)的存儲架構(gòu)來實現(xiàn)上述的指標(biāo),首次購置成本將會大幅超過超融合分布式存儲架構(gòu)成本,而且不考慮機架以及后期的運維成本。除此之外,在部分服務(wù)器出現(xiàn)故障的情況下,采用超融合分布式存儲架構(gòu)通過整合兼容VADP(VMware vStorage API for Data Protection)功能的備份和恢復(fù)產(chǎn)品,提供強大的故障切換和故障恢復(fù)能力;而傳統(tǒng)的服務(wù)器框架則需要花費一定的時間才能實現(xiàn)備份和恢復(fù)。因此,無論從成本還是故障自愈,超融合分布式存儲的性能遠高于傳統(tǒng)的存儲架構(gòu)。
綜上所述,在當(dāng)前數(shù)據(jù)量爆炸的時代,通過實現(xiàn)自身資源和外部資源的融合,構(gòu)建超融合數(shù)據(jù)服務(wù)平臺,是企業(yè)未來建設(shè)云資源池的必經(jīng)之路,能夠解決當(dāng)前企業(yè)在發(fā)展過程中遇到的各種關(guān)鍵問題。與傳統(tǒng)計算與存儲相分離的架構(gòu)相比,超融合系統(tǒng)架構(gòu)具有開放性、可擴展性、易維護性,而且性能、成本具有明顯優(yōu)勢,對行業(yè)的發(fā)展起到了積極的作用。因此,需要進一步加大對超融合分布式存儲架構(gòu)產(chǎn)品和技術(shù)的研究探索和應(yīng)用力度。
圖2 超融合分布式存儲架構(gòu)拓撲圖
表2 超融合分布式存儲架構(gòu)測試結(jié)果表