懷玉梅
摘要:鐵路編組站管理信息系統(tǒng)是車(chē)站日常生產(chǎn)指揮、調(diào)度、統(tǒng)計(jì)、信息交換的平臺(tái),是車(chē)站生產(chǎn)的大腦指揮中樞,系統(tǒng)一旦發(fā)生問(wèn)題,很容易造成巨大的經(jīng)濟(jì)損失和嚴(yán)重的不良社會(huì)影響,因此建立完善的信息系統(tǒng)災(zāi)備應(yīng)急系統(tǒng)就更加迫切和重要。
關(guān)鍵詞:鐵路編組站;現(xiàn)車(chē)管理;災(zāi)備應(yīng)急
1 引言
編組站信息管理系統(tǒng)是鐵路編組站日常生產(chǎn)指揮、調(diào)度、統(tǒng)計(jì)、信息交換的平臺(tái),是車(chē)站生產(chǎn)的大腦指揮中樞。目前編組站信息管理系統(tǒng)使用的是國(guó)鐵集團(tuán)統(tǒng)一的V2.9版本。后臺(tái)采用兩臺(tái)HP R740小型機(jī)和兩套HP P4500 G2存儲(chǔ)陣列組成,數(shù)據(jù)庫(kù)使用的是oracle 11g版,前臺(tái)軟件通過(guò)b/s和c/s方式訪(fǎng)問(wèn)數(shù)據(jù)庫(kù)。
綜合鐵路信息系統(tǒng)特點(diǎn),選取備份方案時(shí)應(yīng)以實(shí)際情況為出發(fā)點(diǎn),以目前使用的信息系統(tǒng)為源頭,本著安全可靠、切合實(shí)際、節(jié)約投資的方針。充分考慮備份數(shù)據(jù)的存放、網(wǎng)絡(luò)占用帶寬、源系統(tǒng)故障時(shí)現(xiàn)場(chǎng)用戶(hù)的容忍度、系統(tǒng)回切的復(fù)雜程度、備份系統(tǒng)的日常維護(hù)、可容忍的數(shù)據(jù)丟失程度等等,綜合考慮上述因素,本系統(tǒng)采用以下方式:
硬件方面:采用一臺(tái)聯(lián)想ThinkSystem SR860服務(wù)器作為災(zāi)備服務(wù)器,硬件配置為:金牌Xeon5117*2處理器,2T硬盤(pán)*8塊做raid 5,內(nèi)存配置為32G*4,另外配置一臺(tái)計(jì)算機(jī),做為軟件管理使用,生產(chǎn)工作崗位網(wǎng)絡(luò)架構(gòu)不做改動(dòng)。
軟件方面:安裝windows2016R2操作系統(tǒng),oracle11g數(shù)據(jù)庫(kù)及相關(guān)中間件軟件,而關(guān)于備份系統(tǒng),本系統(tǒng)沒(méi)有采用前述商用軟件,而是針對(duì)本編組站信息管理系統(tǒng)軟件,單獨(dú)開(kāi)發(fā)相關(guān)的軟件,有針對(duì)性的管理。
2系統(tǒng)設(shè)計(jì)
2.1 系統(tǒng)物理架構(gòu)
備份服務(wù)器部署在距阜陽(yáng)北編組站機(jī)房約15公里的阜陽(yáng)站客票機(jī)房,兩機(jī)房間通過(guò)光纖實(shí)現(xiàn)1000Mbps速率互相訪(fǎng)問(wèn)。采用ORACLE數(shù)據(jù)泵方式實(shí)時(shí)將編組站管理信息系統(tǒng)的生產(chǎn)數(shù)據(jù)復(fù)制到災(zāi)備服務(wù)器數(shù)據(jù)庫(kù),實(shí)現(xiàn)災(zāi)備服務(wù)器與小型機(jī)服務(wù)器的數(shù)據(jù)實(shí)時(shí)同步,形成小型機(jī)系統(tǒng)平臺(tái)的災(zāi)備系統(tǒng)。另外配置一臺(tái)相關(guān)的pc,作為軟件管理使用,同時(shí)根據(jù)編組站的實(shí)際情況編寫(xiě)編組站現(xiàn)車(chē)管理災(zāi)備應(yīng)急系統(tǒng)軟件,生產(chǎn)崗位網(wǎng)絡(luò)架構(gòu)不做改動(dòng)。
2.2 系統(tǒng)軟件架構(gòu)
本系統(tǒng)對(duì)源生產(chǎn)系統(tǒng)不添加任何額外的操作、不修改源數(shù)據(jù)庫(kù)的歸檔方式、不在源生產(chǎn)系統(tǒng)機(jī)器上運(yùn)行額外的作業(yè)程序,保證源生產(chǎn)系統(tǒng)的獨(dú)立性。新的災(zāi)備系統(tǒng)數(shù)據(jù)庫(kù)安裝時(shí)采用與源生產(chǎn)系統(tǒng)相同的例程名,這樣在發(fā)生故障切換時(shí),可以直接修改災(zāi)備服務(wù)器的IP地址為源生產(chǎn)用小型機(jī)IP地址,從而達(dá)到生產(chǎn)客戶(hù)端無(wú)需任何改動(dòng)的目的,減少故障切換的時(shí)間。
2.3 系統(tǒng)工作原理
系統(tǒng)主要通過(guò)在數(shù)據(jù)庫(kù)小型機(jī)平臺(tái)上部署后臺(tái)進(jìn)程,實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)庫(kù)運(yùn)行狀態(tài),并將生產(chǎn)數(shù)據(jù)導(dǎo)出、分析、壓縮,然后傳輸?shù)綖?zāi)備服務(wù)器平臺(tái),在災(zāi)備服務(wù)器平臺(tái)上通過(guò)應(yīng)用系統(tǒng)完成數(shù)據(jù)的同步,并管理和監(jiān)控?cái)?shù)據(jù)庫(kù)的更新情況,確保災(zāi)備服務(wù)器數(shù)據(jù)與生產(chǎn)庫(kù)一致。應(yīng)用系統(tǒng)增加監(jiān)控預(yù)警功能,如災(zāi)備服務(wù)器與生產(chǎn)庫(kù)數(shù)據(jù)不一致則報(bào)警。一旦生產(chǎn)庫(kù)發(fā)生故障癱瘓,通過(guò)災(zāi)備服務(wù)器平臺(tái)的應(yīng)用系統(tǒng),可以立刻完成IP地址和數(shù)據(jù)庫(kù)切換,實(shí)現(xiàn)系統(tǒng)無(wú)縫切換,保障車(chē)站生產(chǎn)連續(xù)進(jìn)行。
2.4 主要實(shí)現(xiàn)功能
2.4.1 災(zāi)備初始化
實(shí)現(xiàn)在災(zāi)備系統(tǒng)端創(chuàng)建數(shù)據(jù)庫(kù)用戶(hù),建立相關(guān)的表結(jié)構(gòu),把數(shù)據(jù)從源生產(chǎn)應(yīng)用系統(tǒng)讀取到災(zāi)備系統(tǒng);
2.4.2 動(dòng)態(tài)數(shù)據(jù)復(fù)制
根據(jù)參數(shù)設(shè)置,按時(shí)間間隔讀取源生產(chǎn)系統(tǒng)中動(dòng)態(tài)數(shù)據(jù),如現(xiàn)在車(chē)相關(guān)表、入庫(kù)及出發(fā)確報(bào)相關(guān)表、勾計(jì)劃作業(yè)相關(guān)表等,更新到災(zāi)備系統(tǒng)數(shù)據(jù)庫(kù);
2.4.3 靜態(tài)數(shù)據(jù)復(fù)制
把生產(chǎn)系統(tǒng)中相關(guān)的靜態(tài)數(shù)據(jù)表,如站名字典、股道字典、收貨人字典、車(chē)種字典等,這些表平時(shí)相對(duì)變化小,為防止可能的變化,在系統(tǒng)不繁忙時(shí),程序自動(dòng)利用源生產(chǎn)系統(tǒng)中的數(shù)據(jù)更新災(zāi)備系統(tǒng),以保證字典數(shù)據(jù)的相對(duì)一致,該操作放在夜間生產(chǎn)系統(tǒng)相對(duì)不忙時(shí)由程序自動(dòng)完成;
2.4.4 災(zāi)備系統(tǒng)手工切換
可手工模擬生產(chǎn)系統(tǒng)故障,對(duì)前臺(tái)應(yīng)用的支持由源生產(chǎn)數(shù)據(jù)庫(kù)改為災(zāi)備數(shù)據(jù)庫(kù),模擬災(zāi)備運(yùn)行時(shí)需要手工停止源生產(chǎn)系統(tǒng)主機(jī),將災(zāi)備系統(tǒng)IP地址更改為源生產(chǎn)系統(tǒng)IP地址對(duì)外提供相關(guān)服務(wù);
2.4.5 系統(tǒng)回切
在故障的系統(tǒng)修復(fù)之后,提供數(shù)據(jù)從災(zāi)備端重新切回到生產(chǎn)應(yīng)用端,在源生產(chǎn)機(jī)器的數(shù)據(jù)庫(kù)中,重新建立數(shù)據(jù)用戶(hù),把數(shù)據(jù)從災(zāi)備系統(tǒng)反向?qū)懭肷a(chǎn)數(shù)據(jù)庫(kù);
2.4.6 日常監(jiān)控
提供相應(yīng)的監(jiān)控界面,監(jiān)測(cè)生產(chǎn)系統(tǒng)及災(zāi)備系統(tǒng)的文件系統(tǒng)使用情況、數(shù)據(jù)庫(kù)表空間使用率、主/備用數(shù)據(jù)庫(kù)數(shù)據(jù)是否一致、前端應(yīng)用的連接數(shù)量等等,方便用戶(hù)的管理與監(jiān)控;
2.4.7 數(shù)據(jù)校驗(yàn)
對(duì)于災(zāi)備系統(tǒng)數(shù)據(jù)庫(kù),由于采用的是動(dòng)態(tài)更新,即頻繁更新的只是動(dòng)態(tài)變化的相關(guān)生產(chǎn)表,利用該功能,校驗(yàn)該讀取來(lái)的數(shù)據(jù)的完整性和一致性。
3 系統(tǒng)實(shí)現(xiàn)的主要目標(biāo)
3.1 系統(tǒng)災(zāi)備防御范圍涵蓋軟硬件等災(zāi)難種類(lèi)
系統(tǒng)設(shè)計(jì)需對(duì)主機(jī)系統(tǒng)故障、存儲(chǔ)系統(tǒng)故障、數(shù)據(jù)庫(kù)無(wú)法啟動(dòng)、數(shù)據(jù)庫(kù)表丟失、數(shù)據(jù)庫(kù)文件丟失、系統(tǒng)文件丟失、人為導(dǎo)致的系統(tǒng)錯(cuò)誤、計(jì)劃內(nèi)系統(tǒng)升級(jí)、自然災(zāi)害、設(shè)施故障等均有可靠防范或恢復(fù)機(jī)制。
3.2 容災(zāi)與備份的一體化解決方案
將容災(zāi)與備份合為一體,以數(shù)據(jù)保護(hù)為核心,保證數(shù)據(jù)恢復(fù)能力,有針對(duì)數(shù)據(jù)一致性的保障機(jī)制,確保災(zāi)備系統(tǒng)中的數(shù)據(jù)與生產(chǎn)系統(tǒng)的數(shù)據(jù)庫(kù)數(shù)據(jù)一致。
3.3 快速恢復(fù)能力
恢復(fù)時(shí)間目標(biāo)指標(biāo)(Recovery Time Objective,簡(jiǎn)稱(chēng)RTO),表示從災(zāi)難發(fā)生直到業(yè)務(wù)流程再次運(yùn)行的時(shí)間,一般而言,RTO時(shí)間越短越優(yōu),本系統(tǒng)的RTO設(shè)定為小于15分鐘。
3.4 災(zāi)備系統(tǒng)的易管理和易維護(hù)能力
本系統(tǒng)設(shè)計(jì)思路合理,盡量降低災(zāi)備應(yīng)急運(yùn)維門(mén)檻,以利于用戶(hù)對(duì)突發(fā)災(zāi)難故障做到及時(shí)響應(yīng),降低維護(hù)難度和維護(hù)成本。
3.5 減小對(duì)生產(chǎn)系統(tǒng)的影響
災(zāi)備系統(tǒng)實(shí)施過(guò)程中,不能干擾或影響到目前在用的生產(chǎn)系統(tǒng),實(shí)施的過(guò)程中需仔細(xì)測(cè)算數(shù)據(jù)傳輸所占用的網(wǎng)絡(luò)帶寬,不能因?yàn)閮蓚€(gè)系統(tǒng)之間數(shù)據(jù)傳輸導(dǎo)致網(wǎng)絡(luò)帶寬不足造成數(shù)據(jù)的延遲過(guò)大。
4 結(jié)束語(yǔ)
編組站現(xiàn)車(chē)管理災(zāi)備應(yīng)急系統(tǒng)針對(duì)國(guó)鐵集團(tuán)統(tǒng)一的編組站信息管理系統(tǒng)開(kāi)發(fā),系統(tǒng)投資少,健壯性強(qiáng),在無(wú)其他商業(yè)軟件輔助條件下,僅需一臺(tái)服務(wù)器即可實(shí)現(xiàn)對(duì)不同平臺(tái)上的編組站現(xiàn)車(chē)管理信息系統(tǒng)數(shù)據(jù)庫(kù)的災(zāi)備應(yīng)急處理,對(duì)于使用國(guó)鐵集團(tuán)統(tǒng)一的編組站管理軟件的車(chē)站,可以不加任何修改使用,對(duì)其他的大型編組站有一定的推廣價(jià)值,同時(shí)車(chē)站在上海局集團(tuán)有限公司管內(nèi)率先提及災(zāi)備系統(tǒng)并完整實(shí)現(xiàn),對(duì)其他重要信息系統(tǒng)的建設(shè)及運(yùn)行管理有相關(guān)的示范作用。
參考文獻(xiàn):
[1] 劉憲軍.Oracle 11g數(shù)據(jù)庫(kù)管理員指南[M].北京:機(jī)械工業(yè)出版社,2018:160-265.
[2] 李曉哲,楊凱,姚萬(wàn)里. 基于數(shù)據(jù)庫(kù)復(fù)制技術(shù)的異地災(zāi)備系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].中國(guó)金融電腦,2019,(06):32-36.
中國(guó)鐵路上海局集團(tuán)有限公司阜陽(yáng)北站 安徽 阜陽(yáng) 236000