安 彪 王來(lái)鎖
1.2.內(nèi)蒙古廣播電視網(wǎng)絡(luò)集團(tuán)有限公司 內(nèi)蒙古 呼和浩特市 010051
BOSS(業(yè)務(wù)運(yùn)營(yíng)支撐系統(tǒng))是企業(yè)信息化系統(tǒng)的重要組成部分,支撐廣電網(wǎng)絡(luò)業(yè)務(wù)的運(yùn)營(yíng)和用戶的管理,并為所有周邊系統(tǒng)提供基礎(chǔ)數(shù)據(jù)和能力支撐,是企業(yè)運(yùn)營(yíng)管理思想和戰(zhàn)略的集中體現(xiàn)。內(nèi)蒙古廣播電視網(wǎng)絡(luò)集團(tuán)有限公司(以下簡(jiǎn)稱“內(nèi)蒙古廣電網(wǎng)絡(luò)”)原有BOSS 系統(tǒng)已不能很好的支撐各類新業(yè)務(wù),嚴(yán)重影響企業(yè)的轉(zhuǎn)型、發(fā)展。同時(shí),BOSS 系統(tǒng)存在底層架構(gòu)和數(shù)據(jù)模型老化、功能落后、硬件平臺(tái)性能不足、不可擴(kuò)展等問題,無(wú)法滿足新形勢(shì)下全業(yè)務(wù)融合運(yùn)營(yíng)、客戶分級(jí)服務(wù)、網(wǎng)格化管理、大數(shù)據(jù)分析及精準(zhǔn)營(yíng)銷等轉(zhuǎn)型的支撐要求。
目前,BOSS 系統(tǒng)的架構(gòu)技術(shù)和運(yùn)維模式為每新增一個(gè)業(yè)務(wù)系統(tǒng)都需要完成一次軟、硬件部署,對(duì)企業(yè)的整個(gè)運(yùn)營(yíng)來(lái)說(shuō)是一件非常繁瑣和復(fù)雜的事情。另一方面,每個(gè)業(yè)務(wù)系統(tǒng)都單獨(dú)分配服務(wù)器創(chuàng)建平臺(tái),造成嚴(yán)重的硬件資源浪費(fèi),同時(shí)舊設(shè)備無(wú)法匹配軟件升級(jí)的要求,不僅資源利用率低,且運(yùn)營(yíng)成本增加。
目前,內(nèi)蒙古廣電網(wǎng)絡(luò)正在規(guī)劃建設(shè)新BOSS域支撐系統(tǒng)。為了讓新平臺(tái)具備彈性擴(kuò)展、資源按需使用、業(yè)務(wù)敏捷上線的能力,包括以后數(shù)據(jù)業(yè)務(wù)向云化發(fā)展的趨勢(shì)能夠平滑的演進(jìn),決定對(duì)現(xiàn)有技術(shù)平臺(tái)架構(gòu)進(jìn)行創(chuàng)新性改造,更好的支撐未來(lái)業(yè)務(wù)發(fā)展,并簡(jiǎn)化業(yè)務(wù)平臺(tái)的管理運(yùn)維工作。
在新BOSS 域系統(tǒng)建設(shè)上,以提升服務(wù)支撐為目的,充分借鑒電信、廣電行業(yè)成熟和先進(jìn)的業(yè)務(wù)運(yùn)營(yíng)經(jīng)驗(yàn)及IT 技術(shù)發(fā)展趨勢(shì),結(jié)合公司戰(zhàn)略要求,按照高起點(diǎn)、循序漸進(jìn)、適度超前的建設(shè)思路,打造一個(gè)結(jié)構(gòu)完整、功能完善、操作便捷、模型成熟、擴(kuò)展性強(qiáng)、配置程度高要求的新BOSS支撐系統(tǒng),滿足企業(yè)未來(lái)5~10年的業(yè)務(wù)發(fā)展需要。
經(jīng)過(guò)多次論證,BOSS 域系統(tǒng)構(gòu)建基于云技術(shù)的全新技術(shù)架構(gòu)體系平臺(tái),選擇采用超融合技術(shù)作為新BOSS 全業(yè)務(wù)承載及運(yùn)營(yíng)的基礎(chǔ)架構(gòu)設(shè)計(jì),主要原因如下:
(1)具有高部署性。通過(guò)融合技術(shù)能夠快速創(chuàng)建多臺(tái)虛擬機(jī),實(shí)現(xiàn)新業(yè)務(wù)快速上線、快速推廣、快速迭代功能,縮短了新業(yè)務(wù)系統(tǒng)部署上線流程。
(2)具有高利用性。利用虛擬化技術(shù),將超融合平臺(tái)硬件設(shè)備資源利用率發(fā)揮到最大。解決了廣電網(wǎng)絡(luò)在業(yè)務(wù)發(fā)展過(guò)程中,存儲(chǔ)空間等資源不足和業(yè)務(wù)無(wú)法快速靈活部署等難題。
(3)具有高管理與維護(hù)性。超融合技術(shù)架構(gòu)可通過(guò)云管理平臺(tái)實(shí)現(xiàn)集群統(tǒng)一管理和硬件資源的整合與調(diào)用,將所有的資源管理和分配,經(jīng)統(tǒng)一的WEB 界面操作,通過(guò)鼠標(biāo)的拖拽連線即可進(jìn)行拓?fù)浯罱āM瑫r(shí),為管理員提供一鍵故障定位功能,整個(gè)平臺(tái)簡(jiǎn)單易用,后期維護(hù)變得更方便。
(4)具有很高的可擴(kuò)展性。超融合技術(shù)提供高IOPS、易彈性擴(kuò)展的存儲(chǔ)資源,在不影響現(xiàn)有業(yè)務(wù)運(yùn)行下實(shí)現(xiàn)在線硬件擴(kuò)容,對(duì)于未來(lái)業(yè)務(wù)的擴(kuò)容,也只需添加超融合物理機(jī),整個(gè)架構(gòu)可實(shí)現(xiàn)彈性擴(kuò)展。在大幅度提升性能和業(yè)務(wù)吞吐量的基礎(chǔ)上,最大化的節(jié)約建設(shè)和運(yùn)營(yíng)成本。
(5)具有高安全性。超融合架構(gòu)屬于當(dāng)前行業(yè)內(nèi)成熟、先進(jìn)的技術(shù)產(chǎn)品,可提供極高的可靠性和數(shù)據(jù)備份保護(hù)機(jī)制,確保任意硬件出現(xiàn)故障時(shí),能實(shí)現(xiàn)數(shù)據(jù)的快速重建,確保系統(tǒng)安全運(yùn)行,業(yè)務(wù)不中斷,數(shù)據(jù)不丟失。
本次新BOSS 域系統(tǒng)建設(shè),采用20 臺(tái)x86 服務(wù)器(共40C 授權(quán))+超融合HCI 軟件+4 臺(tái)萬(wàn)兆交換機(jī)。
每臺(tái)服務(wù)器配置了2 顆24 核2.3GHz 主頻CPU、256G 內(nèi)存、2 塊 600G SAS 硬盤、1 塊 1.6T NVME SSD。其中,10 臺(tái)服務(wù)器配置10 塊960 GB讀寫混合型SSD 硬盤用于應(yīng)用層業(yè)務(wù)承載,剩余10 臺(tái)配置10 塊1.2T SAS 硬盤用于數(shù)據(jù)庫(kù)業(yè)務(wù)承載。
四臺(tái)萬(wàn)兆交換機(jī)兩兩采用堆疊技術(shù),避免存儲(chǔ)網(wǎng)絡(luò)的單點(diǎn)故障,對(duì)業(yè)務(wù)系統(tǒng)的影響。
業(yè)務(wù)系統(tǒng)主要承載客戶核心BOSS 業(yè)務(wù),包括:運(yùn)行業(yè)務(wù)系統(tǒng)核心組件BBS、EDA 報(bào)表數(shù)據(jù)庫(kù)、關(guān)系型數(shù)據(jù)庫(kù),還包括PORTAL 認(rèn)證系統(tǒng)、OSS、網(wǎng)格應(yīng)用、渠道應(yīng)用、網(wǎng)廳、TV 廳、客服等業(yè)務(wù)系統(tǒng)。
使用超融合架構(gòu)組件ACMP+ASV+ASAN+ANET。超融合架構(gòu)是利用計(jì)算服務(wù)器虛擬化ASV、存儲(chǔ)虛擬化ASAN、網(wǎng)絡(luò)虛擬化ANET 等組件,將計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等虛擬資源融合到一臺(tái)標(biāo)準(zhǔn)x86服務(wù)器中,形成標(biāo)準(zhǔn)架構(gòu)單元。多套單元設(shè)備可以通過(guò)網(wǎng)絡(luò)聚合起來(lái),實(shí)現(xiàn)模塊化的無(wú)縫橫向擴(kuò)展,形成統(tǒng)一的資源池。
ACMP 即云管理平臺(tái),以云主機(jī)的形式部署在集群上,是超融合架構(gòu)中的一個(gè)管理組件,通過(guò)云管理平臺(tái)可管理每個(gè)集群的物理資源,根據(jù)業(yè)務(wù)應(yīng)用的使用情況為每個(gè)虛擬機(jī)進(jìn)行CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)資源進(jìn)行分配,還可實(shí)現(xiàn)監(jiān)測(cè)虛擬機(jī)運(yùn)行狀態(tài)、快速部署虛擬機(jī)業(yè)務(wù)、備份恢復(fù)等功能。
ASV 是超融合架構(gòu)解決方案中的計(jì)算虛擬化組件,也是整個(gè)超融合架構(gòu)中的核心組件,每臺(tái)x86 硬件服務(wù)器經(jīng)過(guò)ASV 組件最終呈現(xiàn)多臺(tái)標(biāo)準(zhǔn)的虛擬機(jī)。
ASAN 是分布式存儲(chǔ)系統(tǒng),利用虛擬化技術(shù)“池化”集群存儲(chǔ)卷內(nèi)通用x86 服務(wù)器中的本地硬盤,實(shí)現(xiàn)服務(wù)器存儲(chǔ)資源的統(tǒng)一整合、管理及調(diào)度,最終向上層提供NFS/iSCSI 存儲(chǔ)接口,供虛擬機(jī)根據(jù)自身的存儲(chǔ)需求自由分配使用資源池中的存儲(chǔ)空間。
ANET 是超融合架構(gòu)解決方案中的網(wǎng)絡(luò)虛擬化組件,通過(guò)Overlay 的方式來(lái)構(gòu)建大二層和實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)之間的隔離,通過(guò)NFV 實(shí)現(xiàn)網(wǎng)絡(luò)中的所需各類網(wǎng)絡(luò)功能資源按需分配和靈活調(diào)度,從而實(shí)現(xiàn)超融合架構(gòu)中的網(wǎng)絡(luò)虛擬化。
采用超融合架構(gòu)數(shù)據(jù)中心建設(shè)可以異構(gòu)和納管現(xiàn)有的Vmware 虛擬化平臺(tái),實(shí)現(xiàn)管理平臺(tái)的統(tǒng)一管理。
總體物理架構(gòu)設(shè)計(jì),如圖1所示。
圖1 總體物理架構(gòu)設(shè)計(jì)
總體網(wǎng)絡(luò)拓?fù)?,如圖2所示。
圖2 總體網(wǎng)絡(luò)拓?fù)?/p>
如圖1所示,通過(guò)20 臺(tái)高端x86 硬件服務(wù)器部署了超融合架構(gòu),以虛擬化技術(shù)為核心,利用ASV、ASAN、ANET 等組件,以自定義的方式實(shí)現(xiàn)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、安全等資源的整合及按需使用,據(jù)各個(gè)業(yè)務(wù)以及安全等級(jí)要求的不同,劃分不同的物理設(shè)備組建集群,承載不同的業(yè)務(wù)。按照企業(yè)目前的業(yè)務(wù)系統(tǒng)的特點(diǎn)及安全等級(jí)不同,本次部署一共創(chuàng)建四個(gè)服務(wù)器集群,見表1。在每個(gè)集群按需創(chuàng)建多個(gè)虛擬機(jī),分別將BOSS 等相關(guān)核心業(yè)務(wù)系統(tǒng)部署在各個(gè)虛擬機(jī)上,目前在云主機(jī)上已完成70余臺(tái)虛擬機(jī)核心業(yè)務(wù)部署。
表1 四個(gè)服務(wù)器集群
3.3.1 可視化配置
配置虛擬主機(jī)(快速部署):在新建和部署虛擬機(jī)時(shí),可以使用克隆技術(shù)或者導(dǎo)入虛擬機(jī)模板,實(shí)現(xiàn)快速部署功能,提升業(yè)務(wù)部署的效率。
配置虛擬主機(jī)間虛擬網(wǎng)絡(luò):通過(guò)鼠標(biāo)的拖拽連線搭建網(wǎng)絡(luò)拓?fù)?,?shí)現(xiàn)“所畫即所得”。
配置主機(jī)CPU、內(nèi)存、磁盤空間:可實(shí)現(xiàn)在線劃分主機(jī)資源給虛擬機(jī),當(dāng)某個(gè)虛擬機(jī)出現(xiàn)CPU、內(nèi)存或磁盤不足時(shí),可在運(yùn)行中完成資源劃分,實(shí)現(xiàn)橫向平滑擴(kuò)展容量和性能。
管理自動(dòng)備份:可以針對(duì)每個(gè)虛擬機(jī)可視化配置備份策略,第一次備份為完整備份,在備份保留時(shí)間周期內(nèi)其他備份為增量備份,在虛擬機(jī)開機(jī)或者關(guān)機(jī)狀態(tài)下均可備份。
3.3.2 可視化監(jiān)控
可實(shí)現(xiàn)虛擬機(jī)監(jiān)控、物理機(jī)監(jiān)控、CPU、內(nèi)存、磁盤空間、虛擬機(jī)性能監(jiān)控、網(wǎng)絡(luò)拓?fù)浔O(jiān)控、異常告警自動(dòng)通知(短信)。如圖3所示。
圖3 可視化監(jiān)控示意
3.4.1 虛擬機(jī)HA
超融合架構(gòu)平臺(tái)通過(guò)多主機(jī)組建為集群,采用分層次設(shè)計(jì),將計(jì)算平臺(tái)(CPU 和內(nèi)存)、存儲(chǔ)平臺(tái)(虛擬存儲(chǔ)或外置存儲(chǔ))以及網(wǎng)絡(luò)平臺(tái)(物理出口、VXLAN 數(shù)據(jù)通信口)三者之間相互解耦。使用集群“故障遷移”功能,通過(guò)配置一定的檢測(cè)條件,當(dāng)探測(cè)到主機(jī)發(fā)生故障且持續(xù)一定時(shí)間時(shí),觸發(fā)虛擬機(jī)HA 功能使其從其他主機(jī)上恢復(fù)運(yùn)行,從而避免單點(diǎn)故障。
3.4.2 DRX 動(dòng)態(tài)資源擴(kuò)展
在虛擬機(jī)運(yùn)行時(shí),如果應(yīng)用訪問請(qǐng)求急增導(dǎo)致虛擬機(jī)CPU 或內(nèi)存資源使用率持續(xù)過(guò)高時(shí),可以手動(dòng)或自動(dòng)為虛擬機(jī)添加CPU 或內(nèi)存資源,保證虛擬機(jī)的持續(xù)穩(wěn)定運(yùn)行。
3.4.3 動(dòng)態(tài)資源調(diào)度
DRS 動(dòng)態(tài)資源調(diào)度,能夠持續(xù)監(jiān)控當(dāng)前集群中各主機(jī)節(jié)點(diǎn)的CPU、內(nèi)存的使用情況和虛擬機(jī)的主機(jī)分布情況,并自動(dòng)生成虛擬機(jī)在線主機(jī)遷移調(diào)整計(jì)劃,動(dòng)態(tài)調(diào)整虛擬機(jī)的運(yùn)行位置,使集群的計(jì)算資源達(dá)到均衡使用的效果。DRS 技術(shù)采用的是“虛擬機(jī)在線主機(jī)遷移”的方式,只調(diào)整虛擬機(jī)的主機(jī)運(yùn)行位置,不會(huì)改變存儲(chǔ)運(yùn)行位置,遷移過(guò)程也不會(huì)對(duì)虛擬機(jī)上的業(yè)務(wù)造成影響。
3.4.4 統(tǒng)一管理設(shè)計(jì)
超融合架構(gòu)的云管平臺(tái)可以同時(shí)兼容Vmware虛擬化平臺(tái),并支持對(duì)主流的x86 硬件資源實(shí)現(xiàn)統(tǒng)一集中管理,通過(guò)云管理平臺(tái)為用戶屏蔽異構(gòu)虛擬化平臺(tái)差異。在多虛擬化平臺(tái)環(huán)境下,能為用戶提供相同的云主機(jī)資源服務(wù),并實(shí)現(xiàn)對(duì)異構(gòu)虛擬化平臺(tái)的統(tǒng)一管理。
3.4.5 監(jiān)控中心設(shè)計(jì)
監(jiān)控中心的設(shè)計(jì),如圖4所示。
為了全方位監(jiān)控業(yè)務(wù)提前預(yù)警,減少業(yè)務(wù)中斷次數(shù)與時(shí)間,并支持大屏展示,讓整個(gè)數(shù)據(jù)業(yè)務(wù)可視化,更好地支撐關(guān)鍵業(yè)務(wù)上云,規(guī)劃在云管理平臺(tái)部署監(jiān)控中心。監(jiān)控中心主要功能為:
(1)主動(dòng)探測(cè)業(yè)務(wù)的運(yùn)行狀況。對(duì)云管平臺(tái)上部署的核心業(yè)務(wù)進(jìn)行主動(dòng)探測(cè),當(dāng)業(yè)務(wù)出現(xiàn)訪問慢或不可用時(shí),通過(guò)短信、郵件等方式進(jìn)行告警。
(2)深入分析應(yīng)用性能。對(duì)Oracle、SQL Server、Web logic 應(yīng)用進(jìn)行可用性、響應(yīng)時(shí)間告警,并提供內(nèi)部數(shù)據(jù)可視化及代碼級(jí)別深入分析,快速定位應(yīng)用性能瓶頸。
(3)全方位監(jiān)控虛擬機(jī):監(jiān)控虛擬機(jī)CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)流量、進(jìn)程狀態(tài)等指標(biāo),指標(biāo)數(shù)據(jù)可保留一年,可以進(jìn)行TOPN 性能分析和趨勢(shì)分析。
圖4 監(jiān)控中心設(shè)計(jì)示意
3.4.6 冗余性設(shè)計(jì)
虛擬存儲(chǔ)作為虛擬機(jī)的存儲(chǔ)位置,使用SSD盤作為緩存盤用以提升存儲(chǔ)的IO 效率。本設(shè)計(jì)方案使用虛擬存儲(chǔ)多副本實(shí)現(xiàn)數(shù)據(jù)的冗余,充分保障業(yè)務(wù)數(shù)據(jù)的可靠性和可用性,可以避免單個(gè)磁盤故障或單臺(tái)主機(jī)故障導(dǎo)致數(shù)據(jù)丟失的風(fēng)險(xiǎn)。為了保障磁盤故障后,ASAN 自動(dòng)使用熱備盤替換故障磁盤。規(guī)劃每虛擬存儲(chǔ)卷中配置兩塊熱備盤,每個(gè)數(shù)據(jù)分塊后存儲(chǔ),以多副本的形式分布在不同的物理主機(jī)節(jié)點(diǎn)上,任意物理主機(jī)節(jié)點(diǎn)完全損壞,都不影響數(shù)據(jù)使用,保證數(shù)據(jù)的可靠性。與傳統(tǒng)的RAID 技術(shù)相比,采用超融合技術(shù)大幅度減少數(shù)據(jù)恢復(fù)時(shí)間,更大程度地確保數(shù)據(jù)恢復(fù)的完整性。
與傳統(tǒng)IT 架構(gòu)相比,超融合方案的最大優(yōu)點(diǎn)在于可以一次部署并多次虛擬,可創(chuàng)建十幾個(gè)甚至數(shù)十個(gè)虛擬機(jī)來(lái)承載各業(yè)務(wù)核心系統(tǒng)的內(nèi)容,從此告別了大量的服務(wù)器、磁盤陣列安裝、上架、調(diào)試和布線工作,極大地提升了部署的效率,保障了整體業(yè)務(wù)的高穩(wěn)定性運(yùn)行。通過(guò)超融合架構(gòu)基本上能實(shí)現(xiàn)三分鐘創(chuàng)建一臺(tái)虛擬機(jī)、二十分鐘搭建一個(gè)平臺(tái)、一小時(shí)投入使用,對(duì)于業(yè)務(wù)的部署非常靈活??筛鶕?jù)業(yè)務(wù)需要完成快速部署、移動(dòng)、擴(kuò)展IT 資源、實(shí)現(xiàn)平臺(tái)的全面敏捷性與可用、可靠行。通過(guò)超融合架構(gòu)、無(wú)需重新配置物理網(wǎng)絡(luò)、外置存儲(chǔ),即可跨集群彈性分配計(jì)算資源。在其建設(shè)階段,根據(jù)實(shí)踐需要快速追加擴(kuò)容,實(shí)現(xiàn)真正的隨需應(yīng)變與資源動(dòng)態(tài)供給,提高資源利用率。此外,超融合架構(gòu)提供高度可擴(kuò)展的虛擬網(wǎng)絡(luò),通過(guò)“所畫即所得”功能簡(jiǎn)化配置,降低運(yùn)營(yíng)成本。
選擇超融合解決方案,主要看中了其對(duì)于企業(yè)業(yè)務(wù)系統(tǒng)的靈活承載,基于對(duì)傳統(tǒng)服務(wù)器資源的池化處理,結(jié)合可視化的管理平臺(tái)界面,實(shí)現(xiàn)了對(duì)不同業(yè)務(wù)和模塊系統(tǒng)的靈活調(diào)度和有效管理。超融合底層依托分布式架構(gòu)、存儲(chǔ)多副本和鏈路聚合等技術(shù)手段,確保了業(yè)務(wù)系統(tǒng)在使用過(guò)程中的安全穩(wěn)定和可靠運(yùn)行,整體運(yùn)營(yíng)管理過(guò)程非常簡(jiǎn)便。
減少了服務(wù)器資源和性能的消耗,有效降低了在傳統(tǒng)業(yè)務(wù)系統(tǒng)構(gòu)建過(guò)程中,面對(duì)不同CP(內(nèi)容運(yùn)營(yíng)商)、不同硬件需求場(chǎng)景下多次部署的成本,極大的解決了對(duì)于傳統(tǒng)服務(wù)器資源的浪費(fèi)和托管在運(yùn)營(yíng)商機(jī)房維護(hù)過(guò)程中復(fù)雜的問題,進(jìn)而打造出一個(gè)具有先進(jìn)性、可擴(kuò)展性、可靠性、可維護(hù)性、高可用性、安全性的創(chuàng)新型云化IT 基礎(chǔ)平臺(tái)架構(gòu)。
采用超融合架構(gòu)部署后,不僅完全承載了企業(yè)新BOSS 域核心業(yè)務(wù)系統(tǒng),而且為未來(lái)新業(yè)務(wù)發(fā)展奠定了基礎(chǔ)保障?,F(xiàn)已完成系統(tǒng)各應(yīng)用、數(shù)據(jù)庫(kù)部署,上線后將極大的提高內(nèi)蒙古廣電網(wǎng)絡(luò)的運(yùn)營(yíng)支撐能力。通過(guò)超融合技術(shù)與BOSS 系統(tǒng)結(jié)合,實(shí)現(xiàn)了業(yè)務(wù)“云、管、端”業(yè)務(wù)布局,構(gòu)建了新的廣電網(wǎng)絡(luò)運(yùn)營(yíng)模式。