韓 潔 徐鐘全
(1.南京地鐵運(yùn)營(yíng)有限責(zé)任公司,南京 210000;2.北京全路通信信號(hào)研究設(shè)計(jì)院有限公司,北京 100073)
2003年,南京地鐵一號(hào)線AFC系統(tǒng)投入使用,據(jù)統(tǒng)計(jì)一號(hào)線的服務(wù)器共計(jì)21臺(tái),主要分為中央計(jì)算機(jī)系統(tǒng)服務(wù)器和車站計(jì)算機(jī)系統(tǒng)服務(wù)器。中央服務(wù)器和車站服務(wù)器(簡(jiǎn)稱服務(wù)器)是A FC系統(tǒng)的主要組成部分,主要承擔(dān)的系統(tǒng)功能有各層級(jí)的數(shù)據(jù)收集、各類數(shù)據(jù)處理解析上傳、控制所有車站中段設(shè)備的參數(shù)版本及分發(fā)、管理監(jiān)控所有車站設(shè)備狀況等。
從上述介紹可以看出,A FC服務(wù)器是A FC系統(tǒng)后臺(tái)業(yè)務(wù)的核心,也是A FC系統(tǒng)的關(guān)鍵,運(yùn)維部門每天例行服務(wù)器必要的檢查和維護(hù),以保證各服務(wù)器運(yùn)行的穩(wěn)定。
1.2.1 設(shè)備使用已超過設(shè)計(jì)年限
目前,A FC系統(tǒng)硬件設(shè)備為H P公司DL380 G3設(shè)備,自2003年至2010年已經(jīng)運(yùn)行8年,遠(yuǎn)遠(yuǎn)超過服務(wù)器的設(shè)計(jì)使用年限(5~6年)。據(jù)對(duì)現(xiàn)場(chǎng)的故障統(tǒng)計(jì),服務(wù)器硬件故障在前5年內(nèi)處于穩(wěn)定態(tài)勢(shì),但近一、二年來服務(wù)器硬件故障明顯上升,服務(wù)器的可靠度大幅下降,嚴(yán)重影響現(xiàn)場(chǎng)設(shè)備的運(yùn)營(yíng)安全。
如圖1所示, 2009年服務(wù)器的故障較2008年故障大幅上升。
1.2.2 備件供應(yīng)困難
鑒于服務(wù)器系統(tǒng)發(fā)生故障基本上是由于硬件模塊老化所致,所以現(xiàn)場(chǎng)對(duì)主要模塊的硬件需求量較大,且及時(shí)性要求較強(qiáng)??紤]到A FC業(yè)務(wù)的特點(diǎn),對(duì)于服務(wù)器故障一般要求必須當(dāng)天夜間解決。從走訪市場(chǎng)備件供應(yīng)商來看,DL380 G3機(jī)器在2007年已經(jīng)停產(chǎn),備件早已退出生產(chǎn)線,市面上能購(gòu)買到的備件也是返修循環(huán)件且維修成本很高,即使能夠暫時(shí)替代壞件,也不能從根源上保證服務(wù)器的可靠度;且返修件在時(shí)間和質(zhì)量上難以得到可靠保證,現(xiàn)場(chǎng)服務(wù)器一旦發(fā)生故障,維修工作是舉步維艱。1.2.3 服務(wù)器改造必要性
A FC服務(wù)器的功能非常關(guān)鍵,運(yùn)行狀態(tài)不穩(wěn)定,極易導(dǎo)致運(yùn)營(yíng)期間的系統(tǒng)故障,影響到數(shù)據(jù)處理及收益結(jié)算;設(shè)備老舊,備件缺失,導(dǎo)致維修人員工作難度進(jìn)一步加大。考慮以上諸多因素,2009年底,確定對(duì)一號(hào)線在線服務(wù)器進(jìn)行系統(tǒng)改造,保證新服務(wù)器為市面上的主流配置服務(wù)器。
所謂傳統(tǒng)方式,就是在目標(biāo)服務(wù)器上安裝必要的硬件驅(qū)動(dòng),再安裝操作系統(tǒng),最后依據(jù)各服務(wù)器在運(yùn)行業(yè)務(wù)模塊的作業(yè)指導(dǎo)書進(jìn)行應(yīng)用程序安裝。
所謂虛擬技術(shù),即利用虛擬軟件將舊車站服務(wù)器的操作、應(yīng)用系統(tǒng)。數(shù)據(jù)庫(kù)系統(tǒng)轉(zhuǎn)換成虛擬化文件并存儲(chǔ)在中間服務(wù)器中,再將中間服務(wù)器的虛擬文件還原到新升級(jí)的物理機(jī)。
由于本項(xiàng)目提到的改造服務(wù)器均是正線運(yùn)營(yíng)的服務(wù)器,為了保證運(yùn)營(yíng)的安全性,必須在運(yùn)營(yíng)結(jié)束距次日運(yùn)營(yíng)前完成單臺(tái)升級(jí),所以本次對(duì)升級(jí)的兩種方式著重從安全性、耗時(shí)情況做比較,如表1所示。
表1 兩種方式比較
經(jīng)過對(duì)兩種改造方式的對(duì)比,結(jié)合運(yùn)維部門現(xiàn)場(chǎng)的特殊運(yùn)營(yíng)條件限制,決定采用虛擬技術(shù)來進(jìn)行服務(wù)器改造工作,確定服務(wù)器硬件選型為HPDL380 G7,為此詳細(xì)制定實(shí)驗(yàn)室測(cè)試方案,保證遷移工作萬(wàn)無一失。
虛擬化就是把物理資源轉(zhuǎn)變?yōu)檫壿嬌峡梢怨芾淼馁Y源,以打破物理結(jié)構(gòu)之間的壁壘。未來,所有的資源都可以運(yùn)行在各種各樣的物理平臺(tái)上,資源的管理將按邏輯方式進(jìn)行,完全實(shí)現(xiàn)資源的自動(dòng)化分配,而虛擬化是實(shí)現(xiàn)的理想工具。虛擬化環(huán)境需要多種技術(shù)的協(xié)調(diào)配合:服務(wù)器和操作系統(tǒng)的虛擬化、存儲(chǔ)虛擬、以及系統(tǒng)、資源的管理和軟件提交、與非虛擬化環(huán)境一致的應(yīng)用環(huán)境。
虛擬技術(shù)早在20世紀(jì)70年代開始應(yīng)用。如今,虛擬技術(shù)已被推廣到不同領(lǐng)域中,得到廣泛應(yīng)用。虛擬現(xiàn)實(shí)是用戶可以和一個(gè)由計(jì)算機(jī)產(chǎn)生的三維立體空間中的對(duì)象交互,除觀看外,還可以在空間中隨用戶的意志自由操縱其中的對(duì)象,進(jìn)而產(chǎn)生相當(dāng)?shù)娜谌敫屑皡⑴c感。
由于服務(wù)器遷移不僅涉及硬件,而且也涉及軟件,尤其要保證業(yè)務(wù)的連續(xù)性、數(shù)據(jù)的高可靠性及遷移過程的穩(wěn)定性,采用虛擬化技術(shù)風(fēng)險(xiǎn)較小,通過虛擬化技術(shù)將服務(wù)器操作系統(tǒng)、數(shù)據(jù)庫(kù)系統(tǒng)、應(yīng)用軟件轉(zhuǎn)換成中間主機(jī)的虛擬機(jī)文件,再將中間服務(wù)器的虛擬文件還原到新升級(jí)的物理機(jī)。該項(xiàng)目研究服務(wù)器軟、硬件遷移技術(shù),在較短時(shí)間內(nèi)完成服務(wù)器的無縫遷移,不需要重新安裝軟件,為夜間施工節(jié)約了人力、時(shí)間,項(xiàng)目原理如圖2所示。
南京地鐵一號(hào)線A FC系統(tǒng)服務(wù)器升級(jí)項(xiàng)目實(shí)施升級(jí)項(xiàng)目的驗(yàn)收測(cè)試,既要求A FC升級(jí)服務(wù)器滿足合同規(guī)范,也要驗(yàn)證A FC系統(tǒng)從原有系統(tǒng)平穩(wěn)過渡到改擴(kuò)建系統(tǒng)的每個(gè)階段。由于本次的升級(jí)工作屬于南京地鐵A FC系統(tǒng)首次實(shí)現(xiàn)遷移,且其他地鐵也沒有成功先例,為保證整個(gè)遷移過程順利,且保證老舊系統(tǒng)的無縫對(duì)接,重點(diǎn)做了以下幾點(diǎn)把控。
驗(yàn)證A FC系統(tǒng)在新服務(wù)器的運(yùn)行情況,在測(cè)試過程中解決了藍(lán)屏、AFC應(yīng)用程序不能啟動(dòng)、加密狗不能應(yīng)用等問題。
驗(yàn)證A FC系統(tǒng)的各項(xiàng)功能,在測(cè)試過程中解決了參數(shù)下載、終端設(shè)備管理、數(shù)據(jù)上傳及處理、模式應(yīng)用、應(yīng)用配置等問題。
驗(yàn)證A FC系統(tǒng)數(shù)據(jù)庫(kù)運(yùn)行情況,解決終端設(shè)備數(shù)據(jù)與車站服務(wù)器 、車站服務(wù)器與中央服務(wù)器數(shù)據(jù)差異等問題。
驗(yàn)證A FC系統(tǒng)遷移失敗后快速恢復(fù)、孤島模式下系統(tǒng)運(yùn)行情況。
2011年12月1日至31日,在馬群一號(hào)線實(shí)驗(yàn)室進(jìn)行遷移測(cè)試,驗(yàn)證操作系統(tǒng)、業(yè)務(wù)軟件與新服務(wù)器硬件兼容性。逐步驗(yàn)證A FC監(jiān)控軟件運(yùn)行、數(shù)據(jù)上傳、參數(shù)下載、數(shù)據(jù)庫(kù)運(yùn)行等功能項(xiàng)目,形成升級(jí)詳細(xì)步驟,指導(dǎo)各個(gè)服務(wù)器的升級(jí)工作。
前期通過向承包商詢價(jià),如采購(gòu)硬件后重新安裝操作系統(tǒng)及應(yīng)用軟件需產(chǎn)生費(fèi)用約85萬(wàn)元。而通過本項(xiàng)目虛擬技術(shù)遷移產(chǎn)生的費(fèi)用為40.7萬(wàn)元,為公司節(jié)約成本44.3萬(wàn)元。
本次升級(jí)工作均采用夜間施工,每次施工約3 h左右,服務(wù)器升級(jí)期間,終端設(shè)備在孤島模式下正常運(yùn)行,沒有對(duì)乘客出行造成影響,并保證在開站前有足夠的時(shí)間觀察新服務(wù)器運(yùn)行情況。
服務(wù)器遷移后,運(yùn)維對(duì)服務(wù)器的故障率、服務(wù)器的主要性能做了比較,發(fā)現(xiàn)新服務(wù)器運(yùn)行穩(wěn)定,故障率有大幅下降,性能得到極大提升。
對(duì)遷移后的新服務(wù)器和舊服務(wù)器的故障數(shù)據(jù)做同期對(duì)比,分析發(fā)現(xiàn)故障率大幅度下降,如圖3所示。
如表2所示,除了對(duì)硬件故障數(shù)做比較外,還從業(yè)務(wù)角度重點(diǎn)對(duì)新舊服務(wù)器的服務(wù)響應(yīng)指標(biāo)如客流查詢響應(yīng)時(shí)間、監(jiān)控命令響應(yīng)時(shí)間等進(jìn)行比較,這些指標(biāo)也有不同程度提升。
表2 性能比較