梁明治 李 宣 南京地下鐵道有限責任公司
COM機系統(tǒng)近年的故障率開始呈現(xiàn)上升趨勢,特別是近期,COM機歸檔問題以及COM機備機掉線問題尤為突出,對我們運營效率和服務(wù)質(zhì)量造成了一定的影響。
由于COM機系統(tǒng)是建立在西門子專有軟件基礎(chǔ)上運行的,涉及計算機軟件的知識產(chǎn)權(quán),所以西門子對于軟件的保護尤為突出,對于維護人員的培訓僅僅局限于操作和簡單的維護,每一次的軟件升級完全通過我們與德國的一個專用網(wǎng)絡(luò)直接控制COM系統(tǒng)升級,操作系統(tǒng)采用SOLARIS系統(tǒng),而軟件語言大多數(shù)采用德語縮寫,使得我們幾乎無法深入了解軟件的內(nèi)部結(jié)構(gòu)。
西門子公司規(guī)模和結(jié)構(gòu)決定了他們對于故障的反應(yīng)時間不會很快,而對于我們這種服務(wù)性質(zhì)的公司來說,保證運營的服務(wù)質(zhì)量和效率就是第一位的,而如果設(shè)備出現(xiàn)問題得不到及時修復(fù)自然也就影響了運營服務(wù),所以能夠在最大程度上降低故障時間,減小故障的影響就是我們需要做的。
在上述背景下,通過我們自身的努力,深入研究其內(nèi)在原理、規(guī)律,部分擺脫對西門子的依賴,對于保證運營效率,縮減運營成本,積蓄技術(shù)力量甚至為將來的替代產(chǎn)品做自主研發(fā),具有深遠的意義。
前些年當COM機出現(xiàn)故障后,我們做的僅僅是把故障的報文發(fā)送給西門子,由他們的專業(yè)人員分析結(jié)果并反饋給我們,由于故障率不高,沒有造成太大影響,在故障反應(yīng)的時間上,也沒有太多要求,但隨著今年故障率的直線上升,這種模式已經(jīng)不能適應(yīng)現(xiàn)在的趨勢,在這種情況下,我們開始對于COM機的報文進行自主的分析,并取得了不小的收獲。
COM機歸檔功能是將前一天的行車運行圖進行存儲,并通過磁帶機保存在磁帶中。
前一天的行車運行圖存儲在COM機文件夾/home/s/daba_FA/backup中,并被命名為臨時文件archive1.dat和archive2.dat。臨時文件 archive1.dat和archive2.dat的內(nèi)容包含了當天行車運行的所有信息,該信息以文字形式進行存儲,可通過運圖編輯器還原成圖形化運圖文件。
經(jīng)過研究我們發(fā)現(xiàn),手動歸檔的過程是在雙COM機重啟之前,通過調(diào)用腳本SaveArc,將歸檔臨時文件archive1.dat和archive2.dat保存到臨時生成的文件夾中,當COM機重啟完成后,通過調(diào)用腳本RestoreArc,將臨時文件夾中的archive1.dat和archive2.dat文件,還原到/home/s/daba_FA/backup文件夾中,當?shù)?:30,系統(tǒng)開始執(zhí)行自動歸檔過程。我們從過程中查找手動歸檔失敗的原因,主要從兩個執(zhí)行腳本SaveArc和RestoreArc著手。因兩個執(zhí)行腳本SaveArc和RestoreArc為加密文件,無法讀取具體內(nèi)容。只能從腳本執(zhí)行過程中進行判斷。經(jīng)過多次試驗,發(fā)現(xiàn),在執(zhí)行腳本SaveArc的過程中,歸檔臨時文件能成功保存在臨時文件夾中,可以判斷出SaveArc腳本不是造成手動歸檔失敗的原因,所以可以判斷出腳本Restore-Arc在手動歸檔的過程中出現(xiàn)了問題。至此可以總結(jié)出手動歸檔失敗的根本原因為腳本RestoreArc的編寫錯誤。
下面2段報文是我們截取的COM機掉線報文的一段說明原因的報文
Feb 2 05:56:45 co2nj tmt:[ID 272515 user.error]coreE_co2nj_tmt.2280
Feb 2 05:56:46 co2njDUMPCORE:[ID 516730 user.info]co2nj tmt-set project specific parameters
Feb 2 05:56:58 co2nj mcs:[ID 535221 user.alert]missing objecttmt 56:58.00
Feb 2 05:56:58 co2nj mcs:[ID 422886 user.warning]emergency message received:Feb 2 05:56:58 co2nj mcs : [ID 535221 user.alert]missing object tmt 56:58.00 56:58.01
Feb 2 05:56:58 co2nj mcs:[ID 739810 user.notice]defect:emergency message received,restartin 10s 56:58.01
這個報文的字面意思在我們自己分析看來,應(yīng)該是屬于TMT的進程出錯,也就是列車追蹤和監(jiān)督功能出現(xiàn)錯誤,屬于導致COM2掉線的原因。
而按照西門子的技術(shù)資料看來,COM2出現(xiàn)進程錯誤導致不具備熱備SB功能,應(yīng)該是可以自行檢測并重新恢復(fù)熱備狀態(tài)的,而最近幾個月的COM2掉線后,并沒有成功的自動恢復(fù)熱備,在報文中我們又找到了如下的報文信息:
Feb 2 05:58:44 co2nj mcs:[ID 637711 user.error]SbSignal(sedi,SoftInit):flag=-9 58:44.00
Feb 2 05:58:44 co2nj mcs:[ID 832503 user.error] SbSignal(sedi,ReleRece):flag=-9 58:44.00
Feb 2 05:58:44 co2nj zwvw:[ID 403579 user.error] 3101 pdpDat-TableLoad:/home/s/daba_FA/btt58.dat-Unable to open the file,Error Number 2
Feb 2 05:58:44 co2nj zwvw:[ID 315195 user.error]3713 In zwvwUpdatePdpBttAreas()::pdpDatTableLoad()Fail,
Feb 2 05:58:44 co2nj zwvw:[ID 848649 user.crit] 4801 In main()::zwvwUpdatePdpBttAreas()Failed,cannot continue'zwvw'
Feb 2 05:58:44 co2nj zwvw:[ID 844366 user.crit] 4703 Regular End of Prog 58:44.02
Feb 2 05:58:47 co2nj trpr:[ID 149008 user.debug] * swPdsSta RTU 14 STW XH BP 16 Alpha BET
Feb 2 05:58:48 co2nj mcs:[ID 213814 user.alert]missing object zwvw 58:48.00
Feb 2 05:58:48 co2nj mcs:[ID 957549 user.warning]emergency message received:Feb 2 05:58:48 co2nj mcs : [ID 213814 user.alert]missing object zwvw 58:48.00 58:48.01
Feb 2 05:58:48 co2nj mcs :[ID 297604 user.notice]restart required because emergency message indicates a defect 58:48.01
Feb 2 05:58:48 co2nj mcs :[ID 637879 user.notice]Spectrum willbe killed now 58:48.01
Feb 2 05:58:48 co2nj mcs :[ID 200928 user.notice]Spectrum willbe changed now:COM Pr 58:48.01
Feb 2 05:58:48 co2nj mcs :[ID 106251 user.notice]terminated.
在COM2出現(xiàn)故障后開始自動熱備的過程中,會重新啟動Spectrum系統(tǒng)3次,每次在COM2狀態(tài)成為SB并即將熱備COM1時,報文就會報告一個錯誤信息,也就是紅字標注的zwvw的一個進程錯誤,根據(jù)我們自己的分析,此進程應(yīng)該是COM2在每次啟動程序時向COM1同步歸檔數(shù)據(jù)的一個進程,而當它出現(xiàn)問題時Specturm系統(tǒng)將無法打開,也就無法熱備COM1,從報文中,我們還發(fā)現(xiàn),在COM2出現(xiàn)TMT進程錯誤導致掉線的時候,并沒有進行聯(lián)鎖測試,而聯(lián)鎖測試都是發(fā)生在COM2第一次嘗試自動恢復(fù)熱備沒有成功后才開始。
于是我們進行了一個試驗,試驗的結(jié)果證明了報文的信息,也就是COM2掉線不會引起聯(lián)鎖測試,而引起聯(lián)鎖測試的原因是,COM2掉線后自動嘗試恢復(fù)熱備狀態(tài)失敗。
根據(jù)以上的報文分析,一方面加強我們自己對于設(shè)備的認知度,不再一味的受制于供應(yīng)商的說法。另一方面,更是能給西門子提供出我們的分析結(jié)果而幫助他們更快的找到故障點來幫我們解決掉故障,降低了故障處理時間,COM機歸檔問題就是在這種情況下得到了很快的解決。
2009年2 月份的一次備用COM機硬盤損壞給我們敲響了警鐘,我們聯(lián)系了西門子,他們給我們的答復(fù)要么我們提供一塊空硬盤給德國方面他們幫我們安裝,這樣最少的處理時間也是半個月,或者最快的方法他們聯(lián)系德國西門子技術(shù)人員過來,但也要1周時間,如果這個期間主用COM機掉線,對我們運營的影響將是非常大的,最終在這次故障的處理過程中,我們?nèi)谈?,看到了西門子技術(shù)人員對COM機硬盤重新安裝的過程,掌握了SOLARIS系統(tǒng)的硬盤備份技術(shù),并對我們所有的OC501和OC101系統(tǒng)的服務(wù)器進行了硬盤備份,確保了這種系統(tǒng)故障的影響范圍縮小到最低,并在我們二號線的西門子培訓中特別加入了這一項硬盤備份技術(shù)的培訓要求。
在故障處理過程中,并沒有受到西門子技術(shù)保護原因的影響,而是通過自己能夠觸及到的地方,來盡可能的分析故障原因與解決方法,而不再是單純的聽取西門子給我們的故障原因分析,并提出我們對于故障處理的分析和見解,從而達到更好更快更高效的解決故障,來提高我們運營的效率和服務(wù)質(zhì)量。
這種故障的自主分析處理也提高了員工的信心,并讓我們更深刻的了解到掌握先進的技術(shù)是完成和保障地鐵暢通運營的重要手段,這也正符合了公司提出的自主化維修的精神,從學習,到提升個人技能,從而為自主化維修的進程提供更好的保障。