孟娜娜,王志心,竇 剛
(國電南京自動(dòng)化股份有限公司,江蘇 南京 211100)
云化綜合監(jiān)控系統(tǒng)部署方案主要是依據(jù)軌道交通行業(yè)標(biāo)準(zhǔn)完成的私有云方案[1]。業(yè)務(wù)上云后,應(yīng)重點(diǎn)考慮可靠性,基于超融合云平臺(tái)架構(gòu)的綜合監(jiān)控系統(tǒng)部署方案設(shè)計(jì)時(shí),需要考慮并解決以下技術(shù)難題:對(duì)于單業(yè)務(wù)或者單節(jié)點(diǎn),能否自動(dòng)檢測(cè)故障并實(shí)現(xiàn)無感切換;對(duì)于多業(yè)務(wù)或者整個(gè)主中心云出現(xiàn)重大故障時(shí),能否在最短時(shí)間恢復(fù)或者啟用備中心云;對(duì)于部署在中心云的車站云服務(wù)器故障后,車站的業(yè)務(wù)是否受到影響,能否自動(dòng)降級(jí)運(yùn)行,如何降級(jí)運(yùn)行。
系統(tǒng)采用超融合云計(jì)算平臺(tái)架構(gòu),在主備中心分別構(gòu)建超融合云平臺(tái),為中央級(jí)實(shí)時(shí)服務(wù)器、站級(jí)服務(wù)器、接口服務(wù)器、應(yīng)用服務(wù)器等提供計(jì)算、存儲(chǔ)資源;主備中心也可以部署在同一個(gè)超融合云內(nèi),車站服務(wù)器可以選擇全云化或者部分云化[2]。如圖1所示為一種典型的部署架構(gòu)。
圖1 綜合監(jiān)控系統(tǒng)云化部署架構(gòu)
云化綜合監(jiān)控系統(tǒng)從邏輯上可以分3層結(jié)構(gòu),如圖2所示。
圖2 綜合監(jiān)控系統(tǒng)“云化”平臺(tái)邏輯架構(gòu)
云IT基礎(chǔ)設(shè)施層:包括虛擬資源、硬件資源。系統(tǒng)內(nèi)的所有資源都由云平臺(tái)統(tǒng)一管理,并對(duì)各類資源進(jìn)行監(jiān)控,同時(shí)提供報(bào)警和分析;在資源池中使用虛擬化技術(shù)分配計(jì)算、歷史存儲(chǔ)等資源。用戶在使用該系統(tǒng)時(shí)對(duì)硬件無感知,能夠在熱遷移時(shí),不影響綜合監(jiān)控系統(tǒng)的使用。
利用云平臺(tái)的虛擬化技術(shù)從資源池中指定計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源,使用戶在使用硬件資源時(shí)對(duì)硬件無感知,在虛擬機(jī)發(fā)生熱遷移時(shí),用戶業(yè)務(wù)能夠無中斷地平滑過渡。
綜合監(jiān)控系統(tǒng)平臺(tái)層:包括平臺(tái)基礎(chǔ)和平臺(tái)支撐服務(wù),主要是利用虛擬資源部署綜合監(jiān)控系統(tǒng)的各類平臺(tái)軟件,并對(duì)應(yīng)用程序提供平臺(tái)支撐。
綜合監(jiān)控系統(tǒng)應(yīng)用層:部署綜合監(jiān)控系統(tǒng)的應(yīng)用軟件,按專業(yè)劃分有PSCADA、BAS、FAS、AFC、PA、PIS、ATS、NMS等。
在綜合監(jiān)控系統(tǒng)中,使用云平臺(tái)將控制中心和車站的服務(wù)器進(jìn)行虛擬化,集中完成綜合監(jiān)控系統(tǒng)的各種業(yè)務(wù)。在實(shí)際的安裝部署過程中,可根據(jù)不同現(xiàn)場(chǎng)的需求,搭建不同的硬件架構(gòu),常見的有以下兩種架構(gòu)。
1.3.1 純虛擬化架構(gòu)
在純虛擬化架構(gòu)方式下,將綜合監(jiān)控系統(tǒng)所有的物理機(jī)進(jìn)行虛擬化,在中心云中整合歷史服務(wù)器、中心實(shí)時(shí)服務(wù)器和車站服務(wù)器,然后在控制中心部署運(yùn)算能力、歷史存儲(chǔ)能力強(qiáng)大的云平臺(tái)資源集群。在該集群中劃分出中心歷史服務(wù)器、中心實(shí)時(shí)服務(wù)器、車站服務(wù)器等,然后安裝云桌面服務(wù),通過云桌面對(duì)綜合監(jiān)控系統(tǒng)進(jìn)行管理,完成綜合監(jiān)控系統(tǒng)的各種業(yè)務(wù)[3]。
此種方式下,中心歷史服務(wù)器和中心實(shí)時(shí)服務(wù)器仍然采用的是一主一備的冗余方式,和傳統(tǒng)物理架構(gòu)下的綜合監(jiān)控系統(tǒng)一致。和傳統(tǒng)的綜合監(jiān)控系統(tǒng)進(jìn)行比較,這種虛擬化架構(gòu)下主備服務(wù)器的冗余可靠性增加,因?yàn)樵趧澐痔摂M機(jī)時(shí),將主備服務(wù)器劃分在不同的物理機(jī)上,依靠云平臺(tái)自身的遷移和重生功能,在主服務(wù)器失效時(shí)會(huì)迅速遷移到其他物理機(jī)上。但是,此種方式將所有的服務(wù)器均部署在中心云上,對(duì)主干網(wǎng)絡(luò)和云平臺(tái)的可靠性提出了更高的要求,一旦云平臺(tái)故障或者主干網(wǎng)絡(luò)發(fā)生異常,綜合監(jiān)控系統(tǒng)將不能正常采集和控制站下的設(shè)備,車站無法做到降級(jí)運(yùn)行,因此不太適合工程場(chǎng)景,適合用于測(cè)試場(chǎng)景。
1.3.2 云中心+車站云服務(wù)器+車站降級(jí)物理服務(wù)器架構(gòu)
這種方式構(gòu)建了一個(gè)中心云,虛擬中心的所有節(jié)點(diǎn),此外將綜合監(jiān)控系統(tǒng)各車站均部署一臺(tái)物理服務(wù)器,另一臺(tái)物理服務(wù)器進(jìn)行虛擬化,集中在中心云管理。當(dāng)主干網(wǎng)絡(luò)或者云平臺(tái)發(fā)生故障時(shí),車站能夠降級(jí)運(yùn)行,保證正常的綜合監(jiān)控系統(tǒng)業(yè)務(wù)不受影響。此外,車站還需要部署一臺(tái)物理工作站,用來對(duì)綜合監(jiān)控系統(tǒng)進(jìn)行操作。
此種方式可實(shí)現(xiàn)降級(jí)運(yùn)行,即使中心云失效,也可通過綜合監(jiān)控系統(tǒng)的應(yīng)用層實(shí)現(xiàn)運(yùn)營模式切換,保障了車站業(yè)務(wù)的可靠性。但是只適合用于只有一個(gè)控制中心的綜合監(jiān)控應(yīng)用現(xiàn)場(chǎng),而且中心云或者網(wǎng)絡(luò)異常會(huì)導(dǎo)致中心的業(yè)務(wù)不可用。
對(duì)比這兩種綜合監(jiān)控系統(tǒng)云平臺(tái)方案,結(jié)合主備中心分層分布式現(xiàn)場(chǎng)的實(shí)際需求,提出了一種適用于主備中心異地部署和車站降級(jí)需求的云化部署方案:主、備雙云中心+車站云服務(wù)器+降級(jí)物理服務(wù)器架構(gòu)[4]。
綜合監(jiān)控系統(tǒng)云平臺(tái)采用主備云的方式實(shí)施,總體結(jié)構(gòu)如下:在中心設(shè)立兩個(gè)云平臺(tái)集群,分別為主云和備云,主備云之間通過主干網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)交互。主云和備云對(duì)部署的地理位置要求不高,將主云部署在主控制中心,備云部署在備控制中心,能夠?qū)崿F(xiàn)遠(yuǎn)程異地部署,使得備云平臺(tái)起到備控制中心機(jī)監(jiān)控的效果。主云的虛擬機(jī)包括中心歷史主服務(wù)器、中心實(shí)時(shí)主服務(wù)器和車站(包括停車場(chǎng)、車輛段)主服務(wù)器;而備云平臺(tái)上的虛擬機(jī)主要是中心、車站(包括停車場(chǎng)、車輛段)的備服務(wù)器。此外,為了滿足綜合監(jiān)控系統(tǒng)可靠性的要求,在主干網(wǎng)絡(luò)發(fā)生問題時(shí),綜合監(jiān)控系統(tǒng)能夠順利降級(jí)運(yùn)行,需要將各車站的一臺(tái)工作站兼用作車站的備用服務(wù)器。其主要責(zé)任是在主干網(wǎng)或云平臺(tái)出現(xiàn)問題時(shí),該工作站能承擔(dān)器車站服務(wù)器的工作,實(shí)現(xiàn)車站服務(wù)器的功能,收集和處理車站數(shù)據(jù),并且在主干網(wǎng)和云平臺(tái)故障恢復(fù)后,能實(shí)現(xiàn)實(shí)時(shí)、歷史數(shù)據(jù)的同步。
此種架構(gòu)方式能夠保證主中心完全失效的情況下,備中心順利接管車站和中心的業(yè)務(wù),部分車站虛擬節(jié)點(diǎn)失效也可以實(shí)現(xiàn)降級(jí)運(yùn)行?,F(xiàn)在的軌道交通綜合監(jiān)控現(xiàn)場(chǎng)都是異地雙中心模式,更加符合工程現(xiàn)場(chǎng)使用,但是也存在一定缺點(diǎn),在車站較多的情況下,備中心虛擬車站備服務(wù)器節(jié)點(diǎn)過多會(huì)造成一定資源浪費(fèi),主備中心之間的業(yè)務(wù)遷移需要同時(shí)遷移節(jié)點(diǎn)過多,對(duì)云平臺(tái)的性能要求較高。
對(duì)比這3種綜合監(jiān)控系統(tǒng)云平臺(tái)方案,不難發(fā)現(xiàn)方案三的可靠性最高,最適用于工程現(xiàn)場(chǎng)的部署;方案二適用于無備云中心的現(xiàn)場(chǎng);而方案一適用于實(shí)驗(yàn)室測(cè)試驗(yàn)證。
本設(shè)計(jì)方案中,主中心構(gòu)建超融合云平臺(tái),為中央級(jí)實(shí)時(shí)服務(wù)器、站級(jí)服務(wù)器、接口服務(wù)器、應(yīng)用服務(wù)器等提供計(jì)算、存儲(chǔ)資源;備中心云平臺(tái),為中央級(jí)實(shí)時(shí)服務(wù)器、接口服務(wù)器、培訓(xùn)運(yùn)維服務(wù)器等提供計(jì)算、存儲(chǔ)資源;車站僅配置一臺(tái)物理實(shí)時(shí)服務(wù)器作為主服務(wù)器,同時(shí)在主中心超融合云平臺(tái)上設(shè)置一臺(tái)虛擬實(shí)時(shí)服務(wù)器作為備服務(wù)器,當(dāng)中心云失效時(shí),由車站物理機(jī)承擔(dān)降級(jí)運(yùn)行任務(wù)。云化綜合監(jiān)控系統(tǒng)平臺(tái)的硬件拓?fù)淙鐖D3所示。
圖3 綜合監(jiān)控系統(tǒng)“云化”平臺(tái)硬件拓?fù)?/p>
本文提出的綜合監(jiān)控系統(tǒng)云化部署方案,能夠結(jié)合主備中心+車站降級(jí)運(yùn)營的需求,在主中心完全失效的情況下,備中心順利接管車站和中心的業(yè)務(wù),部分車站虛擬節(jié)點(diǎn)失效也可以實(shí)現(xiàn)降級(jí)運(yùn)行。該方案能夠減少系統(tǒng)成本,降低硬件的安全隱患,極大程度地提高了系統(tǒng)的可靠性、安全性。