歐陽雪梅
(民航華東空管局氣象中心,上海 200335)
華東地區(qū)自動氣象觀測系統(tǒng)聯(lián)網(wǎng)系統(tǒng),是將華東空管分局站和華東屬地化機(jī)場的自動觀測系統(tǒng)的實時數(shù)據(jù)進(jìn)行收集,并將收集來的自動觀測數(shù)據(jù)及其他圖形產(chǎn)品等氣象數(shù)據(jù)在服務(wù)網(wǎng)站上展示出來,供氣象用戶使用。如果不能及時收到各地的自動觀測數(shù)據(jù),網(wǎng)站上就缺少各地的數(shù)據(jù)資料,會對氣象用戶的數(shù)據(jù)使用帶來不便,對氣象服務(wù)造成一定的影響。所以有效的故障處理方法,可以縮短排除故障的時間,提高排除故障的效率使系統(tǒng)盡快恢復(fù)正常,從而減少對用戶的影響。
華東地區(qū)自動氣象觀測系統(tǒng)聯(lián)網(wǎng)系統(tǒng),由自動氣象觀測數(shù)據(jù)收集、數(shù)據(jù)處理和氣象綜合服務(wù)網(wǎng)站幾個部分組成。其中自動氣象觀測數(shù)據(jù)收集、處理分系統(tǒng)是通過各節(jié)點的串口,定時收集自動氣象觀測數(shù)據(jù),在互聯(lián)網(wǎng)上通過虛擬專用網(wǎng)(VPN)的數(shù)據(jù)通信方式,將采集來的氣象數(shù)據(jù)傳輸至華東空管局氣象中心。這些數(shù)據(jù)經(jīng)過網(wǎng)御防火墻,到達(dá)數(shù)據(jù)接收處理服務(wù)器。數(shù)據(jù)接收服務(wù)器接收各個節(jié)點采集的自動觀測系統(tǒng)的數(shù)據(jù),進(jìn)行預(yù)處理,然后分解并存入數(shù)據(jù)庫。氣象綜合服務(wù)網(wǎng)站子系統(tǒng)用來展示這些數(shù)據(jù)。同時,氣象用戶可以使用VPN 數(shù)據(jù)鏈路經(jīng)互聯(lián)網(wǎng)連接到氣象中心,通過訪問氣象綜合服務(wù)網(wǎng)站的方式,獲取華東地區(qū)自動氣象觀測系統(tǒng)實時資料以及氣象綜合服務(wù)網(wǎng)站提供的其他飛行預(yù)告圖等氣象資料。網(wǎng)絡(luò)結(jié)構(gòu)如圖1。從以上網(wǎng)絡(luò)結(jié)構(gòu),可以看出:氣象中心的網(wǎng)頁服務(wù)器展示的數(shù)據(jù)包括自動觀測數(shù)據(jù)和天氣警報、報文資料、圖形產(chǎn)品等。這些資料分別來自于屬地化機(jī)場和氣象中心的民航氣象數(shù)據(jù)庫系統(tǒng)。其中屬地化機(jī)場的自動觀測數(shù)據(jù)來自于各機(jī)場的自動觀測系統(tǒng)。它的流程是這樣的:自動觀測系統(tǒng)輸出的數(shù)據(jù)經(jīng)過串口設(shè)備以及交換機(jī)、路由器,通過網(wǎng)絡(luò)到達(dá)氣象中心的路由器、防火墻、交換機(jī),然后到達(dá)數(shù)據(jù)處理服務(wù)器。最后將數(shù)據(jù)發(fā)送到本系統(tǒng)的數(shù)據(jù)庫服務(wù)器。自觀數(shù)據(jù)從自觀系統(tǒng)發(fā)出,到達(dá)數(shù)據(jù)處理服務(wù)器的數(shù)據(jù)通信是通過虛擬專用網(wǎng)絡(luò)(VPN)實現(xiàn)的。虛擬專用網(wǎng)絡(luò)VPN 就是利用公用網(wǎng)絡(luò)(Internet)的資源,建立一個私有的點對點的連接,利用加密技術(shù)對經(jīng)過此連接的數(shù)據(jù)進(jìn)行加密,保證這些數(shù)據(jù)僅被指定的發(fā)送者和接收者使用,保證了數(shù)據(jù)的私有性和安全性,并且可以靈活增加新的節(jié)點。自觀聯(lián)網(wǎng)系統(tǒng)的防火墻,使用的是網(wǎng)御防火墻。網(wǎng)御防火墻集成了防火墻、VPN、入侵檢測與防御、防暴力破解、敏感信息防泄漏、高流量清洗、輿情監(jiān)控、防注入攻擊等功能。具有網(wǎng)絡(luò)適應(yīng)性、HA 功能、訪問控制功能等核心功能。采用創(chuàng)新的VSP 通用安全平臺,具有高效的USE 統(tǒng)一安全引擎,防火墻虛擬化等功能。天氣警報、報文、圖像產(chǎn)品以及空管分局站的自觀數(shù)據(jù)等資料是由民航氣象數(shù)據(jù)庫系統(tǒng),經(jīng)過內(nèi)網(wǎng)防火墻發(fā)送到本系統(tǒng)的數(shù)據(jù)庫服務(wù)器入庫。
對于該系統(tǒng)可能的故障點粗略統(tǒng)計如下:
1.1 屬地化機(jī)場的自觀數(shù)據(jù)到達(dá)數(shù)據(jù)庫時可能的故障點。1.1.1 自動觀測系統(tǒng)沒有數(shù)據(jù)輸出;1.1.2 串口設(shè)備故障;1.1.3傳輸前的網(wǎng)絡(luò)設(shè)備故障;1.1.4 傳輸鏈路故障;1.1.5 網(wǎng)御防火墻、交換機(jī)故障;1.1.6 數(shù)據(jù)處理服務(wù)器的故障;1.1.7 數(shù)據(jù)庫入庫故障。
1.2 空管分局站自觀數(shù)據(jù)以及天氣警報、報文、圖像產(chǎn)品等資料到達(dá)數(shù)據(jù)庫,可能的故障點。1.2.1 內(nèi)網(wǎng)鏈路故障;1.2.2 內(nèi)網(wǎng)網(wǎng)絡(luò)設(shè)備故障。
1.3 網(wǎng)站服務(wù)器故障。1.3.1 網(wǎng)頁打不開;1.3.2 網(wǎng)頁無資料(該現(xiàn)象與前兩條故障點有關(guān))。
接到某機(jī)場報修電話,稱華東地區(qū)自動氣象觀測聯(lián)網(wǎng)系統(tǒng)不能上傳AWOS 數(shù)據(jù),同時也看不到其他機(jī)場最新AWOS 數(shù)據(jù)。
根據(jù)故障現(xiàn)象可以分成兩方面考慮:第一是AWOS 數(shù)據(jù)不能上傳到氣象中心。第二是網(wǎng)頁上看不到其他機(jī)場的最新數(shù)據(jù)。根據(jù)上文對故障點的粗略分析,可以看到,上傳不了AWOS數(shù)據(jù)(自觀數(shù)據(jù)),有7 種可能,前3 種發(fā)生在某機(jī)場自身,他們可能在報修前已檢查過自身問題,第4 種情況為網(wǎng)絡(luò)問題,對方能訪問氣息中心的網(wǎng)頁,說明傳輸鏈路應(yīng)該正常,所以著重考慮后面幾條。
3.1 通過網(wǎng)御防火墻的用戶信息,查詢用戶在線狀態(tài)。因是某一機(jī)場報修,首先考慮檢查該節(jié)點的鏈路連接是否正常,因此首先登錄網(wǎng)御防火墻,查詢用戶連接情況。3.1.1 通過管理員用戶登錄網(wǎng)域防火墻。3.1.2 進(jìn)入首頁后,選擇“統(tǒng)一認(rèn)證”里的“用戶信息”,可以通過“登錄時間”和“在線時間”判斷該節(jié)點鏈路連接正常。見圖2。
圖2 用戶連接情況
3.2 重啟網(wǎng)御防火墻。因網(wǎng)御防火墻發(fā)生過卡死,因此懷疑用戶信息里顯示的“登錄時間”和“在線時間”等為僵死信息,因此將網(wǎng)御防火墻重啟。重啟后再次查詢,排除鏈路問題。
3.3 通過登錄服務(wù)網(wǎng)站網(wǎng)頁,查詢所有其他屬地化機(jī)場AWOS 數(shù)據(jù)是否正常在網(wǎng)頁顯示。3.3.1 網(wǎng)址為:http://172.160.2.1(administrator/******)。3.3.2 進(jìn)入首頁后,選擇“自觀數(shù)據(jù)”下的“自觀表格”,發(fā)現(xiàn)空管分局站的自觀數(shù)據(jù)是正常的,說明內(nèi)網(wǎng)鏈路和內(nèi)網(wǎng)網(wǎng)絡(luò)設(shè)備均正常。屬地化機(jī)場的自觀數(shù)據(jù)大部分都是過期數(shù)據(jù),資料時間停留在報修時間點之前,只有少數(shù)屬地化機(jī)場數(shù)據(jù)正常。從網(wǎng)頁顯示上也能看出該故障點可能發(fā)生在網(wǎng)御防火墻、數(shù)據(jù)處理服務(wù)器以及數(shù)據(jù)庫的入庫這幾個方面。因網(wǎng)御防火墻重啟過,著重檢查數(shù)據(jù)接收服務(wù)器。
3.4 查看數(shù)據(jù)接收服務(wù)器是否正常。查詢AWOS 數(shù)據(jù)接收目錄。登錄數(shù)據(jù)接收服務(wù)器,查詢AWOS 數(shù)據(jù)接收目錄/data/swap/awos2/20201027,發(fā)現(xiàn)只收到少部分機(jī)場的AWOS 數(shù)據(jù)。并且在重啟網(wǎng)御防火墻后,仍然不能收到大部分機(jī)場的新數(shù)據(jù),于是懷疑接收處理進(jìn)程有問題。由于不知道接收處理進(jìn)程的名稱和位置,便想到過防火墻上端口占用情況,找到對應(yīng)的進(jìn)程名稱,進(jìn)而找出處理進(jìn)程是否正常運行。
3.5 查找處理進(jìn)程是否正常運行。3.5.1 登錄網(wǎng)御防火墻。選擇“防火墻”下的策略,看到AWOS 數(shù)據(jù)上傳端口有兩個。記下這兩個端口號。見圖3。3.5.2 登錄數(shù)據(jù)接收服務(wù)器,根據(jù)端口占用情況,找出對應(yīng)的進(jìn)程名稱及路徑。執(zhí)行命令Netstat -apn |more 發(fā)現(xiàn)只有一個端口被占用,另一個端口沒有進(jìn)程占用。說明另一進(jìn)程沒在運行。見圖4。
圖3 防火墻端口號查詢
圖4 進(jìn)程占用端口情況
3.6 查找處理進(jìn)程所在路徑及名稱。由于不知道另一進(jìn)程的名稱,于是通過查找正在運行的進(jìn)程的位置,去查找另一個進(jìn)程的路徑及名稱。3.6.1 查找命令:Find /-name 進(jìn)程名。通過find 命令,找到正在運行的進(jìn)程的路徑是在/home 目錄下,于是在該目錄下,找到相應(yīng)目錄下的進(jìn)程,進(jìn)程名為airport。見圖5。3.6.2 使用命令ps-ef | grep 進(jìn)程名,發(fā)現(xiàn)該進(jìn)程沒有運行。
圖5 查找進(jìn)程路徑
3.7 啟動處理進(jìn)程。進(jìn)入進(jìn)程所在目錄,手動啟動該進(jìn)程:3.7.1 cd /home/airport/。3.7.2 nohup ./airport &。
3.8 查看傳輸日志。3.8.1 cd /home/airport/logs。3.8.2 tail -f 20201027.log。從輸出結(jié)果可以看出,已經(jīng)接收到了所有屬地化機(jī)場的AWOS 數(shù)據(jù)。
3.9 再次登錄氣象綜合服務(wù)網(wǎng)頁,查詢到屬地化機(jī)場AWOS 數(shù)據(jù)恢復(fù)正常。
通過以上步驟對故障的排查,確定了故障點在數(shù)據(jù)處理服務(wù)器。通過防火墻的端口占用情況,找到屬地化機(jī)場自觀數(shù)據(jù)的接收處理是由以下兩個不同的進(jìn)程,使用不同的端口進(jìn)行數(shù)據(jù)傳輸?shù)摹?/p>
4.1 Airport 進(jìn)程。通過A 端口傳輸三十多個機(jī)場的AWOS 數(shù)據(jù)。進(jìn)程路徑:/home/airport/airport。
4.2 Startserver 進(jìn)程。通過B 端口傳輸少部分幾個機(jī)場的AWOS 數(shù)據(jù)外,還傳輸所有雷達(dá)資料。進(jìn)程路徑:/home/server/shell/startserver。
由此可以看出,不論是在氣象綜合服務(wù)網(wǎng)頁上查詢不到AWOS 數(shù)據(jù),還是在數(shù)據(jù)接收服務(wù)器上的AWOS 數(shù)據(jù)接收目錄下,查詢不到新的AWOS 數(shù)據(jù),都是由于傳輸處理進(jìn)程(airport 進(jìn)程)down 導(dǎo)致。所以啟動airport 進(jìn)程后,數(shù)據(jù)恢復(fù)。
以上故障的處理方法,可以總結(jié)如下:首先列出所有可能的故障點,根據(jù)系統(tǒng)結(jié)構(gòu),按照不同數(shù)據(jù)的來源以及數(shù)據(jù)缺失情況,先確定大概問題出現(xiàn)在哪里,然后分門別類去查找,找出故障可能出現(xiàn)的階段,再在該階段深入查找故障點。本次故障處理的巧妙之處是,在排除了鏈路故障、防火墻故障后,將故障定位在數(shù)據(jù)接收處理服務(wù)器。雖然知道可能是進(jìn)程down,但又不知道具體的進(jìn)程名稱,于是通過查找進(jìn)程占用端口,反向查找進(jìn)程,并通過已在運行的進(jìn)程的目錄位置,找到?jīng)]有運行的進(jìn)程目錄,從而找到該進(jìn)程,并重新啟動它。