吳新松 裴倫鵬 梅磊 劉曉敏
(1.中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院信息網(wǎng)絡(luò)管理處 北京市 100007 2.上海云軸信息科技有限公司 上海市 200241)
隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的飛速發(fā)展和廣泛應(yīng)用,以數(shù)字化、網(wǎng)絡(luò)化和智能化為代表的數(shù)字時(shí)代已悄然來(lái)臨,我們正跨步邁入數(shù)字社會(huì)。在數(shù)字時(shí)代,如何利用云計(jì)算、大數(shù)據(jù)、人工智能等新一代信息技術(shù)手段支撐推動(dòng)企事業(yè)單位管理創(chuàng)新和業(yè)務(wù)發(fā)展,實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型和高質(zhì)量發(fā)展已成為一個(gè)熱點(diǎn)問(wèn)題和重大挑戰(zhàn)。
云計(jì)算作為產(chǎn)業(yè)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型、智能化升級(jí)的技術(shù)底座備受重視,經(jīng)過(guò)十幾年的發(fā)展,以IaaS、PaaS 和SaaS 為代表的全球云計(jì)算市場(chǎng)規(guī)模已達(dá)萬(wàn)億,已成為數(shù)字時(shí)代企事業(yè)單位信息化建設(shè)的必選項(xiàng)。私有云建設(shè)作為整個(gè)云計(jì)算生態(tài)中提供底層基礎(chǔ)設(shè)施的關(guān)鍵,是實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型和高質(zhì)量發(fā)展首要思考的,也是企事業(yè)單位IT 架構(gòu)里重要一環(huán)。對(duì)于千人規(guī)模的科研事業(yè)單位,如何基于自身的業(yè)務(wù)、技術(shù)和組織需求,選擇正確的云服務(wù)模式,直面上云場(chǎng)景中的真實(shí)痛點(diǎn),形成完整、標(biāo)準(zhǔn)、可復(fù)制的落地解決方案,讓云計(jì)算精準(zhǔn)落地,提高信息基礎(chǔ)設(shè)施的資源利用率和自動(dòng)化運(yùn)維水平是一個(gè)值得研究的課題。下面結(jié)合某科研事業(yè)單位的私有云建設(shè)情況進(jìn)行探討。
某事業(yè)單位在原有的管理模式和傳統(tǒng)的IT 架構(gòu)下,已具備了較為完善的信息化基礎(chǔ)環(huán)境,信息化部門(mén)負(fù)責(zé)基礎(chǔ)網(wǎng)絡(luò)、機(jī)房設(shè)施的建設(shè)、運(yùn)維和管理,業(yè)務(wù)部門(mén)圍繞科研課題任務(wù)涉及的專用系統(tǒng)及配套服務(wù)器、存儲(chǔ)等的建設(shè)、實(shí)施與運(yùn)維,業(yè)務(wù)系統(tǒng)的部署基本采用獨(dú)占模式。
1.1.1 資源綜合利用率低,無(wú)法動(dòng)態(tài)分配,引起重復(fù)建設(shè)和資源浪費(fèi)的問(wèn)題
在這種模式下,業(yè)務(wù)系統(tǒng)與物理服務(wù)器強(qiáng)耦合,即使業(yè)務(wù)系統(tǒng)的資源占用較低也會(huì)獨(dú)占一定的服務(wù)器資源,空閑的資源無(wú)法釋放供其他業(yè)務(wù)系統(tǒng)使用。而對(duì)于資源占用較高的業(yè)務(wù)系統(tǒng)較難實(shí)現(xiàn)資源的動(dòng)態(tài)擴(kuò)展,資源的綜合利用率低。
1.1.2 運(yùn)維成本高,運(yùn)維效率低
業(yè)務(wù)系統(tǒng)的獨(dú)占部署模式會(huì)進(jìn)一步導(dǎo)致運(yùn)維的成本和復(fù)雜度,一是需要配備更多的運(yùn)維人力,但信息化部門(mén)人力資源相對(duì)有限,再分散到各業(yè)務(wù)部門(mén)人員的運(yùn)維能力相對(duì)更為薄弱,這便導(dǎo)致運(yùn)維工作壓力越來(lái)越大。一方面會(huì)占用科研人員的科研時(shí)間和精力,另一方面會(huì)影響運(yùn)維的及時(shí)性和專業(yè)性。
1.1.3 業(yè)務(wù)服務(wù)質(zhì)量無(wú)法保證,應(yīng)用部署及交付慢
單業(yè)務(wù)系統(tǒng)較少考慮到存儲(chǔ)、備份、業(yè)務(wù)連續(xù)性等的統(tǒng)一規(guī)劃,出現(xiàn)故障后需要較長(zhǎng)時(shí)間來(lái)進(jìn)行系統(tǒng)性的恢復(fù)或重建;新應(yīng)用的部署和交付要從基礎(chǔ)的接入、上架、基礎(chǔ)環(huán)境安裝配置開(kāi)始,部署周期長(zhǎng),應(yīng)用交付慢;尤其是對(duì)一些涉及多系統(tǒng)部署的復(fù)雜仿真測(cè)試平臺(tái),測(cè)試環(huán)境的切換和初始化更是費(fèi)時(shí)費(fèi)力。
該單位即將啟動(dòng)信息化改造工程,涉及十幾個(gè)科研辦公管理系統(tǒng)的整合提升改造,并為此準(zhǔn)備了一批服務(wù)器、存儲(chǔ)硬件配套資源,但按照獨(dú)占部署模式已無(wú)法支撐相關(guān)系統(tǒng)的開(kāi)發(fā)測(cè)試及運(yùn)行需求。同時(shí)該單位對(duì)數(shù)據(jù)的安全性有較嚴(yán)格的管控要求,只能部署在私有環(huán)境中。
綜上,非常有必要將信息基礎(chǔ)設(shè)施和資源與業(yè)務(wù)應(yīng)用剝離,集約建設(shè)、統(tǒng)一管理、按需使用,形成公共服務(wù)平臺(tái)支撐各級(jí)各類(lèi)信息化建設(shè)和業(yè)務(wù)創(chuàng)新。
建設(shè)的遠(yuǎn)景目標(biāo)是通過(guò)對(duì)原有IT 基礎(chǔ)設(shè)施開(kāi)展云化改造,循序漸進(jìn)開(kāi)展私有云平臺(tái)建設(shè),逐步實(shí)現(xiàn)信息化基礎(chǔ)設(shè)施資源的統(tǒng)一規(guī)劃、統(tǒng)一建設(shè)、按需調(diào)配、即需即用、有效共享。在有效降低重復(fù)建設(shè)投資、節(jié)能環(huán)保的基礎(chǔ)上,提高基礎(chǔ)設(shè)施資源的利用率,降低運(yùn)維成本提高運(yùn)維效率,統(tǒng)一支撐各級(jí)各類(lèi)系統(tǒng)建設(shè)運(yùn)行,支撐單位管理創(chuàng)新和業(yè)務(wù)高質(zhì)量發(fā)展。
近期建設(shè)任務(wù)聚焦在以存量的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源為基礎(chǔ),初步建設(shè)形成彈性可擴(kuò)展的科研辦公基礎(chǔ)云平臺(tái),滿足單位科研辦公管理系統(tǒng)測(cè)試開(kāi)發(fā)需要。
云化改造從需求分析開(kāi)始,結(jié)合存量服務(wù)器、存儲(chǔ)設(shè)備和網(wǎng)絡(luò)設(shè)備的品牌和型號(hào),進(jìn)行私有云平臺(tái)的技術(shù)選型。選型確定后,進(jìn)行云管平臺(tái)和相關(guān)設(shè)備的采購(gòu)、安裝以及調(diào)試。完成私有云的部署交付后,開(kāi)展業(yè)務(wù)系統(tǒng)的部署調(diào)測(cè),經(jīng)過(guò)驗(yàn)收進(jìn)入運(yùn)維階段。
在保障業(yè)務(wù)系統(tǒng)開(kāi)發(fā)運(yùn)行的基礎(chǔ)上,充分考慮單位的云平臺(tái)的可持續(xù)性發(fā)展和后續(xù)擴(kuò)容建設(shè),把握以下原則:
3.1.1 平臺(tái)輕量化,管理簡(jiǎn)單化原則
云平臺(tái)應(yīng)為輕量級(jí)架構(gòu)設(shè)計(jì),管理節(jié)點(diǎn)要求低,占用資源少,將有限資源應(yīng)用于資源池;應(yīng)安裝部署應(yīng)簡(jiǎn)單快速、UI 交互界面友好、管理和運(yùn)維可視化、操作簡(jiǎn)捷運(yùn)維。
3.1.2 兼容性與利舊能力
應(yīng)具備較好的硬件異構(gòu)和利舊能力,保證現(xiàn)有的各類(lèi)X86 架構(gòu)品牌和配置的服務(wù)器、SAN/NAS 存儲(chǔ)可以被充分利,以滿足開(kāi)發(fā)測(cè)試、核心業(yè)務(wù)等多個(gè)環(huán)境的構(gòu)建;同時(shí)應(yīng)兼容ARM 架構(gòu),具備適配自主可控的服務(wù)器的能力。
3.1.3 高可靠性與高性能
必須確保在云平臺(tái)上運(yùn)行的各類(lèi)科研辦公業(yè)務(wù)的穩(wěn)定性和可訪問(wèn)性,用戶體驗(yàn)至關(guān)重要,需采用科學(xué)、精簡(jiǎn)、高性能的資源管理與服務(wù)提供技術(shù),同時(shí)確保云主機(jī)不停機(jī)、業(yè)務(wù)不停止、網(wǎng)絡(luò)不中斷。
3.1.4 跨云化、開(kāi)放性與自主可控
云平臺(tái)應(yīng)具備一定的開(kāi)放性和擴(kuò)展性。
圖1:基礎(chǔ)云平臺(tái)基礎(chǔ)部署架構(gòu)圖
(1)能夠管理多種公有云、私有云、及多種異構(gòu)云基礎(chǔ)設(shè)施,提供統(tǒng)一的一站式多云管理服務(wù)。
(2)能夠遇到特殊業(yè)務(wù)場(chǎng)景,可根據(jù)需求進(jìn)行二次開(kāi)發(fā)集成。
(3)應(yīng)具有自主知識(shí)產(chǎn)權(quán),云平臺(tái)核心代碼開(kāi)源,符合國(guó)產(chǎn)化要求。
按照滿足現(xiàn)有需求并預(yù)留擴(kuò)展空間的原則,該單位對(duì)主流私有云解決方案廠商(華為、浪潮、VMware、電信云、ZStack 等)方案及產(chǎn)品進(jìn)行了調(diào)研與比對(duì)。
方案大致分為三類(lèi):
(1)硬件廠商方案,存在與廠商自身硬件設(shè)備結(jié)合較緊密,開(kāi)放性不夠友好,廠家之間互相設(shè)置門(mén)檻,對(duì)存量采購(gòu)的設(shè)備納管存在問(wèn)題,異構(gòu)設(shè)備兼容性問(wèn)題較大,后續(xù)擴(kuò)展限制較多;
(2)運(yùn)營(yíng)商由公有云方案瘦身演變而成的方案,架構(gòu)基于公有云縮減功能來(lái)實(shí)現(xiàn),設(shè)計(jì)及管理方式比較復(fù)雜,對(duì)硬件的數(shù)量和要求比較高,起步門(mén)檻較高;
(3)第三方私有云廠商,如今年發(fā)展較快的ZStack 云,屬于輕量級(jí)云平臺(tái),對(duì)硬件要求相對(duì)較低,能適配現(xiàn)有技改服務(wù)器及存儲(chǔ)設(shè)備,能夠納管阿里公有云及VMware 虛擬化,有自主知識(shí)產(chǎn)權(quán),并已完成與華為鯤鵬、中科麒麟等國(guó)產(chǎn)化產(chǎn)品的適配,核心代碼開(kāi)源后續(xù)能夠針對(duì)單位各類(lèi)需求做定制化開(kāi)發(fā),兼容性和擴(kuò)展性相對(duì)較好。綜合考慮后該單位采用阿里私有云產(chǎn)品ZStack 私有云產(chǎn)品。
4.1.1 部署交付
基于存量的服務(wù)器及存儲(chǔ)資源,擬采用混合存儲(chǔ)模式構(gòu)建該單位的內(nèi)、外網(wǎng)兩套基礎(chǔ)云平臺(tái)。每套云平臺(tái)使用十余臺(tái)存量高性能機(jī)架式服務(wù)器構(gòu)建計(jì)算資源池(管理節(jié)點(diǎn)復(fù)用)、2 臺(tái)FC 存儲(chǔ)陣列和3 臺(tái)超融合存儲(chǔ)服務(wù)器構(gòu)建存儲(chǔ)資源池,并提供彈性擴(kuò)容、高可用、數(shù)據(jù)備份、可視化監(jiān)控等管理手段。分別作為該單位內(nèi)外計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)資源整合基座。
基礎(chǔ)云平臺(tái)基礎(chǔ)部署架構(gòu)圖如圖1 所示。
(1)計(jì)算資源池。共有12 臺(tái)機(jī)架式浪潮服務(wù)器,其中兩臺(tái)浪潮服務(wù)器管理節(jié)點(diǎn)和計(jì)算節(jié)點(diǎn)復(fù)用。當(dāng)其中任何一個(gè)管理節(jié)點(diǎn)失聯(lián),秒級(jí)觸發(fā)高可用切換,從而保障ZStack 管理節(jié)點(diǎn)持續(xù)提供服務(wù)。其他服務(wù)器均作為計(jì)算節(jié)點(diǎn)。所有服務(wù)器均接入FCSAN 存儲(chǔ)。使用FCSAN 作為主存儲(chǔ)。
(2)存儲(chǔ)資源池。2 臺(tái)存儲(chǔ)陣列配置FCSAN 集中式存儲(chǔ),配置存儲(chǔ)鏈路多路徑,以支持IO 負(fù)載均衡及鏈路冗余,規(guī)劃了個(gè)14TB LUN,作為主存儲(chǔ)使用,主要提供云主機(jī)的系統(tǒng)云盤(pán)、數(shù)據(jù)云盤(pán)、快照數(shù)據(jù)及備份數(shù)據(jù)等。同時(shí)復(fù)用3 臺(tái)浪潮x86 服務(wù)器,采用超融合方式部署,提供KVM 虛擬化和分布式存儲(chǔ)服務(wù)。
(3)網(wǎng)絡(luò)拓?fù)洹9芾砭W(wǎng)絡(luò)采用雙千兆,用于管理云平臺(tái)相關(guān)的硬件資源。IPMI 與管理網(wǎng)絡(luò)共用,實(shí)現(xiàn)對(duì)服務(wù)器的遠(yuǎn)程管理。業(yè)務(wù)網(wǎng)絡(luò)采用雙萬(wàn)兆,對(duì)外提供應(yīng)用服務(wù)。
4.1.2 系統(tǒng)遷移
逐步將各類(lèi)應(yīng)用系統(tǒng)由物理機(jī)遷移至基礎(chǔ)云平臺(tái),配置高可用、應(yīng)用自啟動(dòng)及數(shù)據(jù)定期備份策略;替換下來(lái)的服務(wù)器視情下架或利舊使用,升級(jí)作為計(jì)算節(jié)點(diǎn)納入云平臺(tái)管理。通過(guò)第三方遷移工具將業(yè)務(wù)系統(tǒng)所在服務(wù)器操作系統(tǒng)整體遷移上云。
遷移路徑:
步驟1:物理機(jī)虛擬化。
步驟2:虛擬機(jī)遷移上云。
步驟3:配置高可用、應(yīng)用自啟動(dòng)及數(shù)據(jù)定期備份策略。
實(shí)施過(guò)程遇到最多的困難是利舊服務(wù)器、存儲(chǔ)設(shè)備上云的硬件兼容性問(wèn)題以及由此帶來(lái)的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)傳輸性能瓶頸,后續(xù)應(yīng)逐步予以規(guī)范化。
系統(tǒng)遷移過(guò)程的難點(diǎn)是操作系統(tǒng)跨平臺(tái)遷移后,因底層虛擬化硬件變化帶來(lái)的驅(qū)動(dòng)重新安裝,引發(fā)的各類(lèi)服務(wù)、磁盤(pán)掛載異常問(wèn)題。
建成并持續(xù)優(yōu)化了2 個(gè)基礎(chǔ)云平臺(tái),能夠提供完整的IAAS 服務(wù),實(shí)現(xiàn)了對(duì)計(jì)算、存儲(chǔ)資源的整合和調(diào)度,在有限資源的基礎(chǔ)上實(shí)現(xiàn)了對(duì)多業(yè)務(wù)系統(tǒng)穩(wěn)定可靠運(yùn)行的有效保障。平均每臺(tái)物理服務(wù)器承載了三個(gè)云主機(jī),平均性能負(fù)載指標(biāo)提升到50%以上,大大提高了資源的使用效率,并能夠提供高可用和動(dòng)態(tài)擴(kuò)容,提高了云主機(jī)的運(yùn)行可靠性。具備了業(yè)務(wù)快速部署和服務(wù)交付能力,交付時(shí)間從以前的一天縮短到10 分鐘以內(nèi),具備了一定的數(shù)據(jù)災(zāi)備和恢復(fù)能力,能夠通過(guò)備份快速恢復(fù)或者重構(gòu)業(yè)務(wù)系統(tǒng)。
該單位在3月份接到了一個(gè)應(yīng)急仿真測(cè)試任務(wù),要求搭建涉及幾十個(gè)大型系統(tǒng)的仿真測(cè)試環(huán)境,開(kāi)展攻防演練和測(cè)試。使用ZSTACK 云平臺(tái),僅用一周時(shí)間,就完成了涉及40 臺(tái)計(jì)算節(jié)點(diǎn)、5臺(tái)超融合存儲(chǔ)、5 臺(tái)FC 陣列在內(nèi)的仿真測(cè)試云平臺(tái)的規(guī)劃、部署實(shí)施及上線運(yùn)行,交付了100 余臺(tái)高性能云主機(jī)。
私有云的建設(shè)是一個(gè)逐步深化整合的過(guò)程,上述基礎(chǔ)云平臺(tái)的規(guī)劃實(shí)施只是其中一個(gè)階段性工作,通過(guò)實(shí)施也及時(shí)發(fā)現(xiàn)了存在的問(wèn)題和不足,為下一步的改進(jìn)提供了參考和依據(jù)。
(1)在硬件層面,計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等物理硬件層設(shè)備應(yīng)按照云平臺(tái)接入要求逐步統(tǒng)一配置和接口,形成云平臺(tái)接入設(shè)備規(guī)范;
(2)在應(yīng)用層面,硬件層面存在的規(guī)范化問(wèn)題,在操作系統(tǒng)、數(shù)據(jù)庫(kù)、中間件、開(kāi)發(fā)平臺(tái)等應(yīng)用層面同樣存在,需要通過(guò)PaaS方式進(jìn)一步整合軟件的基礎(chǔ)環(huán)境。
(3)在管理層面,同單位不同部門(mén)所屬的基礎(chǔ)資源量和對(duì)云計(jì)算的訴求存在差異,需進(jìn)一步探討和建立單位內(nèi)部資源共建共享的機(jī)制和模式。
相比較傳統(tǒng)的信息系統(tǒng)安全而言,云計(jì)算面臨更多的安全挑戰(zhàn),傳統(tǒng)信息系統(tǒng)里的漏洞到了云主機(jī)環(huán)境可能會(huì)被無(wú)限放大,除了云平臺(tái)安全,還需考慮云上系統(tǒng)的安全,要全方位構(gòu)建事前預(yù)防、事中響應(yīng)、事后審計(jì)的動(dòng)態(tài)安全保障體系。
上述單位私有云規(guī)劃、建設(shè)、實(shí)施落地全過(guò)程中存在的需求、問(wèn)題及難點(diǎn)具有相當(dāng)?shù)钠毡樾?,技術(shù)方案也具有一定的通用性和示范意義,可為千人規(guī)模企事業(yè)單位私有云建設(shè)提供參照。