錢鋒
摘要:當(dāng)前全民航大范圍使用北京航管科技DMHS系列轉(zhuǎn)報系統(tǒng),DMHS轉(zhuǎn)報系統(tǒng)的核心軟件-DMHS進程擁有各自的LOG日志以記錄轉(zhuǎn)報系統(tǒng)的運行狀態(tài)。在轉(zhuǎn)報系統(tǒng)故障處理與日常運維時,及時查看分析相應(yīng)DMHS進程的LOG日志對故障進行準確定位,判斷系統(tǒng)當(dāng)前的運行狀態(tài),有利于值班人員做出相應(yīng)處理,及時采取應(yīng)急措施,合理實施通報流程,周期性分析轉(zhuǎn)報系統(tǒng)的運行狀態(tài)并進行相應(yīng)維護,對于轉(zhuǎn)報系統(tǒng)故障及系統(tǒng)狀態(tài)的判別具有實際意義,提高轉(zhuǎn)報系統(tǒng)故障處理與日常運維的水平。
關(guān)鍵詞:DMHS進程;LOG日志;故障類型;狀態(tài)判別
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)29-0262-03
Abstract: Large-scale use of the whole civil aviation air traffic control technology DMHS Series Switching System, the DMHS forwarded to the core software-DMHS process has its own log to record the message switching system operating status. Failure to deal with day-to-day operation and maintenance of the DMHS System, view the timely analysis of the corresponding the DMHS process log to accurately locate the fault,determine the system's current run state, on duty to make the appropriate treatment promptly take emergency measures,a reasonable implementation notification process,periodic analysis of the operational status of DMHS System and maintenance of the actual significance for the message switching system failure. Improve the level of the DMHS System failure to deal with day-to-day operation and maintenance.
Key words: DMHS process;LOG logs;Fault types;state identification
DMHS轉(zhuǎn)報系統(tǒng)由北京航管科技有限公司生產(chǎn),在中國民航的多個機場應(yīng)用,由兩臺DMHS轉(zhuǎn)報服務(wù)器構(gòu)成雙機主備轉(zhuǎn)報模式。DMHS轉(zhuǎn)報系統(tǒng)的核心轉(zhuǎn)報軟件為各DMHS進程, DMHS進程各自擁有相應(yīng)的LOG日志文件作為其運行的記錄。而LOG記錄往往作為轉(zhuǎn)報系統(tǒng)技術(shù)支持研究系統(tǒng)故障時的參考依據(jù):在發(fā)生轉(zhuǎn)報系統(tǒng)重大故障與設(shè)備運維時,值班人員往往直接聯(lián)系北京廠家的技術(shù)支持人員,技術(shù)支持人員采用遠程登錄轉(zhuǎn)報系統(tǒng)查看運行狀態(tài),其檢查的主要手段就是查看各種DMHS進程的LOG日志,事后出具的故障報告中也包含DMHS進程LOG日志中的內(nèi)容。
作為在民航設(shè)備運行保障第一線的人員,我們?nèi)狈τ行У霓D(zhuǎn)報系統(tǒng)日常運行情況分析的手段,系統(tǒng)運維工作往往停留在查看硬件指示燈,數(shù)據(jù)備份等項目上,對于系統(tǒng)的工作狀況了解不夠,手段不足。在故障發(fā)生時習(xí)慣使用DMHS管理工具(DMHS_MNG)判斷故障及系統(tǒng)狀態(tài),對實際反映系統(tǒng)狀態(tài)的LOG日志關(guān)心較少,可能導(dǎo)致無法及時判斷系統(tǒng)的當(dāng)前狀態(tài),因而缺乏進一步處理的依據(jù),可能造成故障處理延誤,通報不盡合理等情況。在故障處理與系統(tǒng)狀態(tài)判別的過程中過多依賴廠家的技術(shù)支持。
本文以浦東機場轉(zhuǎn)報備用系統(tǒng)(無智能集中器)為參考模型,通過對轉(zhuǎn)報系統(tǒng)DMHS進程及其LOG日志內(nèi)容的分析,結(jié)合實際案例與個人工作經(jīng)驗,提出查看DMHS進程LOG日志的方法與要點,綜合分析判斷轉(zhuǎn)報系統(tǒng)的工作狀態(tài),以提高對轉(zhuǎn)報系統(tǒng)運行情況的判斷處理能力,減少一線員工對技術(shù)支持的依賴,緩解設(shè)備運行保障的壓力。
1 轉(zhuǎn)報系統(tǒng)DMHS進程LOG日志作用與系統(tǒng)狀態(tài)判別
1.1 轉(zhuǎn)報系統(tǒng)DMHS進程及其LOG日志的分類與作用
以上是浦東機場轉(zhuǎn)報備用系統(tǒng)的DMHS進程及其LOG日志,各LOG日志分別記錄了系統(tǒng)不同模塊的工作情況及異常事件,時間精確到秒。
1.1.1 DMHS_AFS進程的LOG日志舉例
2012-07-04 00:24:53 Main [浦東應(yīng)急] V10.3P_t Debug_Flag=N
2012-07-04 00:24:58 AFS 資料 卡(net0) 本[] 對等[100.100.9.1]重用[N
2012-07-04 00:25:06 Ora_Start 開始
2012-07-04 00:25:06 Ora_Start 數(shù)據(jù)庫已啟動
2012-07-04 00:25:06 Lnr_Start 開始
2012-07-04 00:25:11 Lnr_Start 啟動已完成!
2012-07-04 00:25:16 機器狀態(tài)變化 [未定 —>主機 ] (-1—>1)
該LOG日志記錄了系統(tǒng)雙機的工作狀態(tài)及系統(tǒng)雙機切換時的具體狀態(tài)變換??梢酝ㄟ^查看該LOG日志準確的判斷系統(tǒng)雙服務(wù)器的主備工作狀態(tài),系統(tǒng)的網(wǎng)絡(luò)及數(shù)據(jù)庫的工作狀態(tài),作為判別整個系統(tǒng)工作情況的主要依據(jù)。endprint
1.1.2 DMHS_MON進程的LOG日志舉例
2012-07-08 00:52:11 Main [新浦東] V9.B9 [20091102]
2012-07-08 00:52:15 文件操作Par_ 文件[Dmhs_Par.num]恢復(fù)成功!!
2012-07-08 00:52:16 AIT8140 O_Mem_Ok
2012-07-08 00:52:25 Auto_Wr_Db 自動寫數(shù)據(jù)庫
2012-07-08 00:52:25 Afs_To_DB_Input 從文件[AFS_IN_TELE.120708][應(yīng)提23 有效:23 內(nèi)存重:0]到數(shù)據(jù)庫,記錄數(shù):23!
2012-07-08 00:52:26 Afs_File_To_DB_Output 從文件[AFS_OUT_TELE.120708] [應(yīng)提23 增加:23 修改:0 內(nèi)存重:0 ]到數(shù)據(jù)庫,記錄數(shù):23!
該LOG日志記錄了系統(tǒng)數(shù)據(jù)庫讀寫操作及數(shù)據(jù)庫的工作狀態(tài)。可以通過查看該LOG日志判斷轉(zhuǎn)報系統(tǒng)數(shù)據(jù)庫的運行狀態(tài)及電報數(shù)據(jù)的存儲情況。
1.1.3 DMHS_COM進程的LOG日志舉例:
2012-07-08 00:52:12 Main V9.8O_P0 2011.01.13 IP_MARK[24] UPD_MON[65530] Take_Sec=600
2012-07-08 00:52:17 Get_Vlk_Port_St [100.100.8.234][async1/0] 端口[25] Sh_Pos=-1 ucWork_St=0XE1 cDcd[0—>1]cFlow_Ctrl[0—>1]cRec_St[9—>0]State[0—>3]
該LOG日志記錄了異步單元與主機的聯(lián)接情況,異步單元網(wǎng)口及用戶端口的狀態(tài)??梢酝ㄟ^查看該LOG日志判別轉(zhuǎn)報系統(tǒng)各異步單元的工作狀況,系統(tǒng)網(wǎng)絡(luò)的工作情況及轉(zhuǎn)報用戶端口是否存在異常情況。
1.1.4 DMHS_R25進程的LOG日志舉例:
2012-02-25 10:52:39 Main [浦東應(yīng)急] V9.8O [20120225 105239] [08.6F]
2012-02-25 10:52:40 RX25_Login [100.100.8.8](23) 聯(lián)接成功!
2012-02-25 10:52:44 RX25_Login [100.100.8.8] 網(wǎng)卡[1] 密碼[ait_dmhs] 成功!
2012-02-25 10:52:51 ???8140 [HSX](460200505350) 現(xiàn)已聯(lián)接!
該LOG日志記錄了智能同步單元的 X.25分組干線鏈路聯(lián)接狀態(tài)??梢杂糜谂袆e轉(zhuǎn)報系統(tǒng)的X.25鏈路工作情況及分析X.25鏈路中斷的原因。
1.1.5 DMHS_IP進程的LOG日志舉例:
2012-07-25 08:23:14 備機狀態(tài)變化 網(wǎng)絡(luò)[-1—>1] 串口[-1—>1]
2012-07-25 19:55:00 EJK :25195500轉(zhuǎn)報告警 [KGD]只支持輸出,而接到電報
該LOG日志記錄了網(wǎng)絡(luò)內(nèi)各設(shè)備網(wǎng)絡(luò)端口的狀態(tài)變化??梢杂糜谂袆e轉(zhuǎn)報系統(tǒng)IP終端的工作情況及整個網(wǎng)絡(luò)的運行狀態(tài)。
1.2 通過多個LOG日志綜合判別轉(zhuǎn)報故障情況與系統(tǒng)狀態(tài)
發(fā)現(xiàn)任何故障與運行的不正常情況,需要通過查看相關(guān)的多個DMHS進程的LOG日志進行相互比對,根據(jù)參考文獻[1]中對于進程的描述,綜合判斷系統(tǒng)當(dāng)前的工作狀態(tài),作為下一步處理的依據(jù)。推薦在查看LOG日志的過程中使用UNIX操作系統(tǒng)提供的VI編輯器,查看時方便靈活。
DMHS_進程的LOG日志不是故障判定與系統(tǒng)狀態(tài)辨別的唯一手段,可以通過結(jié)合DMHS_MNG監(jiān)視與管理工具,UNIX操作系統(tǒng)的PS指令(查看進程),查看系統(tǒng)的告警情況等手段綜合使用,目的是使得故障判定與系統(tǒng)狀態(tài)辨別更準確、更及時、更可靠。
2 DMHS進程LOG日志對故障判別作用的案例
在日常工作中,維護人員最常用的是DMHS_MNG監(jiān)視與維護工具,這個管理工具為維護人員提供了整個系統(tǒng)的菜單式管理維護項目,并能通過該管理工具顯示系統(tǒng)的工作狀態(tài)。
某日,轉(zhuǎn)報系統(tǒng)發(fā)生主備服務(wù)器雙機倒換事件,值班人員使用DMHS_MNG監(jiān)視與維護工具觀察系統(tǒng)雙機工作狀態(tài):
國際時10:57轉(zhuǎn)報備用系統(tǒng)服務(wù)器A機發(fā)生自動重啟,此時應(yīng)該由服務(wù)器B機自行接替工作,利用DMHS_MNG工具觀察系統(tǒng)狀態(tài),一直到國際時11:17服務(wù)器B機才成為主機,接替A機工作成功,系統(tǒng)間切換時間為10:57-11:17之間,切換期間系統(tǒng)的2臺服務(wù)器均沒有成為主機。
依據(jù)前述的LOG日志綜合判斷方法分別查看了DMHS_AFS/DMHS_IP/DMHS_R25的LOG日志:
#vi DMHS_AFS.0225
主機(100.100.8.2)DMHS_AFS.0225:
2012-02-25 10:52:22 發(fā)串口測試 Com[6]/Test_Sec[5]/Deal_Sec[12]
2012-02-25 10:52:22 發(fā)UDP測試 Peer[5]/Test_Sec[5]/Deal_Sec[12]
2012-02-25 10:52:22 網(wǎng)絡(luò)測試報告 網(wǎng)絡(luò) 聯(lián)測[10:52:14] (Net=8/Sec=5)
2012-02-25 10:52:24 狀態(tài)報告 Work_St[0] Doc_St[89] 串口通信[10:52:16]可能故障[8/8]endprint
2012-02-25 10:52:32 超時狀態(tài)報告 本機的網(wǎng)絡(luò)正常, 對方無反應(yīng)切換 超累計[2]
2012-02-25 10:52:34 雙機庫指針初始化 Input[R=0/W=4326] Output[R=0/W=522] Send_Ch[R=0/W=6260]Order[R=0/W=6108]
2012-02-25 10:52:34 Ora_Start 開始
2012-02-25 10:52:34 Ora_Start 數(shù)據(jù)庫已啟動
2012-02-25 10:52:34 Lnr_Start 開始
2012-02-25 10:52:39 Lnr_Start 啟動已完成!
2012-02-25 10:52:39 主備切換 備—>主
2012-02-25 10:52:39 機器狀態(tài)變化 [備機 —>主機 ] (0—>1)
#vi DMHS_IP_0225
主機(100.100.8.2)DMHS_IP:
2012-02-25 10:52:39 Main [浦東應(yīng)急] V9.8O
#vi DMHS_R25_0225
主機(100.100.8.2)DMHS_R25:
2012-02-25 10:52:39 Main [浦東應(yīng)急] V9.8O [20120225 105239] [08.6F]
2012-02-25 10:52:40 RX25_Login [100.100.8.8](23) 聯(lián)接成功!
2012-02-25 10:52:44 RX25_Login [100.100.8.8] 網(wǎng)卡[1] 密碼[ait_dmhs] 成功!
2012-02-25 10:52:46 ???_BASE x25 route 460200505350 int s1/0 from-tcp 15223 cud XSHAPVG packet
2012-02-25 10:52:51 ???8140 [HSX](460200505350) 現(xiàn)已聯(lián)接!
通過查看系統(tǒng)DMHS進程的LOG日志可以看到,系統(tǒng)在國際時10:52:22-10:52:51之間主備服務(wù)器實現(xiàn)了自動倒換,服務(wù)器B已經(jīng)自動成為主機并接管工作,數(shù)據(jù)庫啟動成功,X.25干線鏈路聯(lián)接成功,轉(zhuǎn)報系統(tǒng)已正常工作。
這樣就出現(xiàn)了兩種完全不同的故障判斷結(jié)論,如果使用DMHS_MNG管理與監(jiān)視工具觀察系統(tǒng)情況,在長達20分鐘左右的時間中系統(tǒng)處于無法工作的狀態(tài),按照故障類型判別顯然是1類故障,需要進行應(yīng)急處置并實施相應(yīng)的通報流程,造成的影響較大。而查看LOG日志可以發(fā)現(xiàn),系統(tǒng)在30秒左右的時間已經(jīng)實現(xiàn)了自動倒換,備機接管工作成功,系統(tǒng)工作正常,按照故障類型判別是3類故障,無需進行應(yīng)急與通報工作,僅需對故障的設(shè)備進行排故操作即可。
對于在一線值班的人員來說,能夠及時判斷系統(tǒng)狀態(tài)及做出合適的處置是保障工作中最為重要的核心內(nèi)容。因此,在故障發(fā)生時應(yīng)該更注重于對系統(tǒng)LOG日志這樣底層的記錄進行及時查看,作為判斷系統(tǒng)工作狀態(tài)的依據(jù),這是最為可靠和有效的。當(dāng)然,也可以通過DMHS_MNG管理工具,利用PS指令觀察系統(tǒng)進程狀態(tài)等手段相互配合。建議在查看LOG日志時使用VI編輯器進行查看,較為方便與靈活,同時注意觀察不同LOG日志,注意LOG日志內(nèi)容相互之間的關(guān)聯(lián)。
3 結(jié)束語
DMHS進程的LOG日志記錄了詳細的轉(zhuǎn)報進程及設(shè)備的運行情況,時間精確,狀態(tài)說明準確,可作為判斷故障原因及系統(tǒng)當(dāng)前工作狀態(tài)的主要依據(jù)。本文的分析了各LOG日志與轉(zhuǎn)報系統(tǒng)運行狀態(tài)之間的關(guān)系,通過案例分析了LOG日志在故障判定方面的作用。結(jié)合作者個人在工作中的體會,將轉(zhuǎn)報系統(tǒng)的故障現(xiàn)象與相關(guān)的LOG日志進行了關(guān)聯(lián),提供了一種轉(zhuǎn)報系統(tǒng)故障與工作狀態(tài)辨別的思路,目的是準確的判斷系統(tǒng)運行狀態(tài),使得設(shè)備保障能力得到進一步的提高。
參考文獻:
[1] DMHS-H用戶使用手冊-V5.1-SCO[S],2008.endprint