孫亞
【摘要】既有南京地鐵機(jī)場線ZLC系統(tǒng)不具備核心服務(wù)器集群功能,發(fā)生單臺(tái)服務(wù)器故障時(shí),無法進(jìn)行熱備切換,造成系統(tǒng)宕機(jī)。綜合對(duì)比傳統(tǒng)雙機(jī)熱備與新的設(shè)計(jì)思路,從ZLC系統(tǒng)目前既有框架、改造成本等方面考慮,本次設(shè)計(jì)思路結(jié)合老線雙機(jī)熱備和新線負(fù)載平衡系統(tǒng)的設(shè)計(jì)理念,加上ZLC實(shí)現(xiàn)雙機(jī)集群的必要性??紤]到既有ZLC機(jī)房環(huán)境的局限性,從實(shí)際出發(fā),充分利用當(dāng)前設(shè)備,在成本最小化的前提下,從設(shè)備物理連接方式、集群技術(shù)、業(yè)務(wù)邏輯等方面考慮,設(shè)計(jì)出一套完整的并具實(shí)施可行性的雙機(jī)集群模式。
【關(guān)鍵詞】ZLC系統(tǒng);MSCS集群;集群管理;
隨著南京地鐵線網(wǎng)規(guī)模的不斷擴(kuò)大,南京機(jī)場線線路中心已由接入1條機(jī)場線發(fā)展為接入機(jī)場線、寧高、寧溧3條線的區(qū)域線路中心ZLC,需同時(shí)處理三條線路的設(shè)備監(jiān)控、文件處理、參數(shù)下發(fā)等主要功能。一旦ZLC通訊處理業(yè)務(wù)服務(wù)器或文件處理業(yè)務(wù)服務(wù)器發(fā)生宕機(jī),故障期間會(huì)嚴(yán)重影響三條線路的設(shè)備正常監(jiān)控、線路數(shù)據(jù)文件的處理及上傳等核心功能。
1.設(shè)計(jì)思路驅(qū)動(dòng)
通過充分對(duì)比傳統(tǒng)和雙機(jī)集群的優(yōu)缺點(diǎn),最終確定實(shí)施雙機(jī)集群方案。
①傳統(tǒng)方案:就是將服務(wù)器安裝成互為備份的兩臺(tái)服務(wù)器,并且在同一時(shí)間內(nèi)只有一臺(tái)服務(wù)器運(yùn)行。當(dāng)正在運(yùn)行的主服務(wù)器出現(xiàn)故障無法工作時(shí),另一臺(tái)備用服務(wù)器會(huì)立即啟動(dòng)并運(yùn)行,從而保證AFC中央系統(tǒng)的業(yè)務(wù)正常運(yùn)行。針對(duì)現(xiàn)場生產(chǎn)環(huán)境,文件處理服務(wù)器和通訊服務(wù)器需各自增加一臺(tái)。
優(yōu)點(diǎn):技術(shù)改造難度小,對(duì)現(xiàn)場設(shè)備運(yùn)行影響不大。
缺點(diǎn):需額外增加2臺(tái)服務(wù)器,改造成本大,浪費(fèi)現(xiàn)場可用資源。
②雙機(jī)集群方案:充分利用現(xiàn)有機(jī)房環(huán)境和設(shè)備,通過資源整合,將兩臺(tái)服務(wù)器的業(yè)務(wù)部署到其中一臺(tái)上,另一臺(tái)作為備用服務(wù)器,利用現(xiàn)場磁盤陣列部分空間作為共享存儲(chǔ),實(shí)現(xiàn)雙機(jī)集群的功能。
優(yōu)點(diǎn):最大化節(jié)省成本,充分調(diào)用既有設(shè)備資源,系統(tǒng)運(yùn)行更穩(wěn)定可靠。
缺點(diǎn):設(shè)計(jì)思路復(fù)雜,現(xiàn)場部署施工難度大。
2.物理連接設(shè)計(jì)
①傳統(tǒng)方案:通訊服務(wù)器和數(shù)據(jù)處理服務(wù)器分別采用2臺(tái)服務(wù)器作為主備。
②雙機(jī)集群方案:為實(shí)現(xiàn)MSCS集群,需要將兩臺(tái)通訊服務(wù)器和數(shù)據(jù)處理服務(wù)器分別連接到2臺(tái)SAN交換機(jī)和2臺(tái)核心交換機(jī),除此之外,每臺(tái)服務(wù)器還需增加1根網(wǎng)線至核心交換機(jī)用于管理口連接,合計(jì)每臺(tái)通信服務(wù)器需增加3根網(wǎng)線,2對(duì)(1收1發(fā)為1對(duì))光纖。
考慮MessageServer、FileServer都需要與ACC通信,建議保持對(duì)外服務(wù)172.180.20.115和172.180.20.116對(duì)外服務(wù)地址不變,增加172.180.20.111和172.180.20.112作為新設(shè)通信服務(wù)器1/2的本機(jī)地址,增加172.180.20.110作為MSCS集群管理地址。
3.業(yè)務(wù)邏輯處理設(shè)計(jì)
當(dāng)一個(gè)節(jié)點(diǎn)發(fā)生故障,MSCS集群將會(huì)把相應(yīng)的對(duì)外服務(wù)地址及共享磁盤切換至另一節(jié)點(diǎn),另一臺(tái)服務(wù)器通過腳本自動(dòng)啟動(dòng)對(duì)應(yīng)業(yè)務(wù),確保服務(wù)不間斷運(yùn)行。
對(duì)于共享方式,核心業(yè)務(wù)放在共享的存儲(chǔ)設(shè)備上。當(dāng)其中一臺(tái)服務(wù)器兩個(gè)核心業(yè)務(wù)正常運(yùn)行時(shí),直接在磁盤陣列劃分的專用存儲(chǔ)空間上進(jìn)行數(shù)據(jù)讀寫。而當(dāng)服務(wù)器故障后,系統(tǒng)自動(dòng)切換,另一臺(tái)服務(wù)器也同樣讀取該存儲(chǔ)設(shè)備上的數(shù)據(jù),這種方式由于數(shù)據(jù)的一致性由共享存儲(chǔ)設(shè)備來保障,不占用系統(tǒng)資源,而且沒有數(shù)據(jù)傳輸?shù)难舆t。具體業(yè)務(wù)邏輯如下圖:
4.系統(tǒng)軟件設(shè)計(jì)
目前ZLC的通訊處理MessageServer和文件處理FileServer都部署于本地D盤,在新的設(shè)計(jì)方案中,須將相關(guān)軟件部署于各自的共享磁盤(E盤為通訊處理MessageServer共享磁盤,F(xiàn)盤為文件處理FileServer共享磁盤)。目前SC連接ZLC的ftp目錄均指向本地D盤,需要修改所有車站ftp配置,將新的路徑指向各自共享磁盤(E盤為MessageServer共享磁盤,F(xiàn)盤為FileServer共享磁盤)。
另外實(shí)現(xiàn)自動(dòng)切換,需要將MessageServer、FileServer的自啟停腳本加入到集群腳本中。
結(jié)束語
核心服務(wù)器雙機(jī)集群模式通過最小成本實(shí)現(xiàn)了機(jī)場線ZLC區(qū)域中心所轄3條線路的穩(wěn)定運(yùn)營。
在單臺(tái)服務(wù)器故障后實(shí)現(xiàn)核心業(yè)務(wù)正常無縫無差別繼續(xù)運(yùn)行,保證了中央系統(tǒng)對(duì)各車站設(shè)備狀態(tài)的正常監(jiān)控,數(shù)據(jù)正常接收解析,收益客流數(shù)據(jù)正常上報(bào)等,實(shí)現(xiàn)了ZLC核心服務(wù)器發(fā)生故障對(duì)業(yè)務(wù)和現(xiàn)場零影響的效果,顯著提高了AFC專業(yè)現(xiàn)場服務(wù)質(zhì)量。
在以后新線建設(shè)中,各專業(yè)的服務(wù)均可借鑒本次改造的方案,實(shí)現(xiàn)應(yīng)用的集中部署,集群管理,即提高了應(yīng)用的可靠性,也復(fù)用了服務(wù)器資源,為公司節(jié)約新線建設(shè)開支,減少故障量。
參考文獻(xiàn):
[1]姜堅(jiān)華. 雙機(jī)熱備系統(tǒng)的技術(shù)研究和具體實(shí)現(xiàn)[J]. 微型電腦應(yīng)用,2004(03):7-9.
[2]劉韞暉,宋茂強(qiáng).基于消息同步的雙機(jī)熱備份系統(tǒng)[J].北京郵電大學(xué)學(xué)報(bào),1998,21(2)