蔡春瑩
摘要:該文介紹在大型網(wǎng)絡(luò)系統(tǒng)中,發(fā)生單點故障后,如何通過手機短信及時通知網(wǎng)絡(luò)管理員,以便快速解決問題。
關(guān)鍵詞:計算機;網(wǎng)絡(luò)故障;短信發(fā)送;網(wǎng)絡(luò)探測
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2009)22-pppp-0c
在大型網(wǎng)絡(luò)系統(tǒng)中,時常有單點或片區(qū)網(wǎng)絡(luò)故障的發(fā)生,每次發(fā)生網(wǎng)絡(luò)故障,都會給終端用戶帶來不便,由終端用戶報告或投訴才能發(fā)現(xiàn)故障并解決,因此,如何快速獲知并及時解決網(wǎng)絡(luò)故障成為不少網(wǎng)管苦惱的問題。筆者通過自身實踐,開發(fā)出了一套網(wǎng)絡(luò)故障探測并及時通知網(wǎng)管員的系統(tǒng),且成本低廉,能夠第一時間發(fā)現(xiàn)網(wǎng)絡(luò)故障并及時解決,在此謹愿將這些探索和經(jīng)驗與讀者共享。
1 目前的網(wǎng)絡(luò)探測方式及缺點
目前市面上有很多網(wǎng)絡(luò)探測方面的軟件系統(tǒng),如 Link Manager等,這些軟件系統(tǒng)主要是探測網(wǎng)絡(luò)交換設(shè)備,如交換機等,把探測結(jié)果在計算機屏幕實時顯示,讓管理員能直觀的發(fā)現(xiàn)故障點。
目前的探測系統(tǒng)缺點主要有兩方面:一是系統(tǒng)必須要有人值守在計算機屏幕前,這就使得很多系統(tǒng)成為擺設(shè);二是探測面窄,有的系統(tǒng)只能探測交換機,有的系統(tǒng)只能探測部分專用設(shè)備,不能把網(wǎng)絡(luò)里的所有設(shè)備一次全部探測。
2 系統(tǒng)功能
1) 系統(tǒng)可以探測網(wǎng)絡(luò)內(nèi)各種設(shè)備,如服務(wù)器、交換機、觸摸屏、考勤機等;
2) 系統(tǒng)可以使用各種方式進行探測,如Ping、Tcp/IP、UDP等;
3) 系統(tǒng)可以設(shè)置每個設(shè)備的探測時段,如服務(wù)器全天探測,觸摸屏僅探測8:00—19:00,考勤機探測8:00—10:00和16:00—20:00;
4) 設(shè)備從正常狀態(tài)到不正常狀態(tài)可以快速生成定制格式的短信,并及時發(fā)送,一般設(shè)備從出現(xiàn)故障到管理員收到提示短信的時間小于2分鐘;
5) 系統(tǒng)誤報率小于3%;
3 系統(tǒng)開發(fā)
1) 名詞解釋
節(jié)點:指一個被探測的實體,如一臺服務(wù)器或一臺交換機均為一個節(jié)點;
調(diào)度:指一個時間安排的過程,如某節(jié)點需要在某時間做某事;
模塊:指一個軟件系統(tǒng)里完成某一功能而又相對獨立的組成部分;
2) 數(shù)據(jù)庫準備
系統(tǒng)的運行需創(chuàng)建一個數(shù)據(jù)庫,常見的有Access、SQL Server等,主要用于存放以下數(shù)據(jù):
節(jié)點配置:存放所有節(jié)點的信息,如名稱、節(jié)點所在地點、節(jié)點IP地址、該節(jié)點使用的探測方式、該節(jié)點所需的調(diào)度模板等;
調(diào)度配置:存放各種調(diào)度情況模板;
管理員配置:存放所有管理員姓名、手機號碼等;
待發(fā)短信:探測系統(tǒng)生成的短信存放到待發(fā)短信表里即可;
已發(fā)短信:短信發(fā)送模塊把待發(fā)短信表里的內(nèi)容進行發(fā)送,并把短信內(nèi)容及發(fā)送結(jié)果一并存入已發(fā)短信表;
系統(tǒng)配置:如單位名稱、系統(tǒng)登陸密碼、短信發(fā)送模板等;
3) 節(jié)點探測模塊
由于單位網(wǎng)絡(luò)龐大,系統(tǒng)里節(jié)點類型多樣,因此節(jié)點探測分為多種方式,以我單位為例,使用了以下探測方式:
Ping:針對考勤機、以太網(wǎng)收費POS機等,也可用于部分網(wǎng)管交換機,這類設(shè)備通常只有一個單片機或工控板,沒有Windows操作系統(tǒng),不支持其它協(xié)議的探測返回,因此只能用此方式。系統(tǒng)向需要探測的終端發(fā)送Ping命令,一般每隔3至10秒執(zhí)行一次,如果連續(xù)4次失敗,即認為該節(jié)點故障;
UDP:針對觸摸屏、服務(wù)器等。系統(tǒng)需要在這類設(shè)備上安裝一個客戶端軟件,客戶端軟件隨系統(tǒng)自動啟動。系統(tǒng)向需要探測的客戶端以UDP方式發(fā)送探測命令,客戶端軟件收到消息后自動返回一個消息,一般每隔5至20秒發(fā)送一次,如果連續(xù)5次無信息返回,即認為該節(jié)點故障;
其它:系統(tǒng)可以括展其它任何方式的探測。
4) 探測客戶端
客戶端軟件用途很多,不同的服務(wù)器需要不同的探測方式,探測所返回的結(jié)果也不盡相同,大致如下:
判斷客戶端是否開機:客戶端軟件運行即可,只要收到服務(wù)端發(fā)來的測試信息即返回一個正常信息;
判斷某進程是否存在:客戶端軟件收到服務(wù)端探測請求后,檢查某進程是否存在,如果存在返回正常信息;也可以是檢查某系統(tǒng)服務(wù)是否正常運行,如IIS服務(wù);
判斷內(nèi)存是否到達極限:客戶端軟件收到服務(wù)端探測請求后,檢查內(nèi)存使用量,如果內(nèi)存使用量在90%以下返回正常信息;也可以是檢查磁盤空間是否足夠;
還有一種方式,即客戶端軟件一直檢查本機情況,如果本機不有正常的情況,當服務(wù)端再發(fā)來探測請求時把本機故障或風險返回服務(wù)器,以便生成提示短信;
5) 節(jié)點調(diào)度模塊
一些節(jié)點是24小時運行,無需調(diào)度,如服務(wù)器、交換機等,但也有一些節(jié)點只在某些時段運行,如觸摸屏、考勤機等,如果節(jié)點本身并不需要運行的時段對該節(jié)點進行探測,即可能誤報。
固定時段調(diào)度:如每天的8:00—18:00;
多個固定時段:如早上7:00—9:00和下午15:00—17:00;
節(jié)假日:如某些節(jié)點只在周一到周五運行,周未不運行;
排除日:如中秋、國慶等不運行;
6) 短信發(fā)送模塊系統(tǒng)探測模塊把探測結(jié)果生成了短信息,并保存在“待發(fā)短信”流水表里,本模塊用一個定時器,間隔5秒探測數(shù)據(jù)庫里是否有待發(fā)短信,如果有待發(fā)短信,即把待發(fā)短信進行發(fā)送,發(fā)送后把已經(jīng)發(fā)送的短信轉(zhuǎn)移到“已發(fā)短信”數(shù)據(jù)表,并加上發(fā)送結(jié)果,以備日后查看。
7) 短信發(fā)送模式
短信發(fā)送模式比較多,這里介紹常見的幾種:
互聯(lián)網(wǎng)發(fā)送:最常見的是通過互聯(lián)網(wǎng)發(fā)送,目前現(xiàn)成的互聯(lián)網(wǎng)短信發(fā)送接口很多,價格比手機點對點發(fā)送還便宜,也無需硬件投入,只需下載一個動態(tài)庫,根據(jù)說明調(diào)用相應(yīng)的函數(shù)即可,開發(fā)非常簡單。
手機發(fā)送:市面上部分手機通過串口或USB與PC連接后,即可在PC上把短消息發(fā)送出去,在互聯(lián)網(wǎng)上即可找到相應(yīng)型號和開發(fā)方式,本文不做多述;
短信貓發(fā)送:市面上出現(xiàn)了一種專門發(fā)送短消息的設(shè)備,只需把手機SIM卡插入該設(shè)備,并連接PC即可,購買該設(shè)備時廠家會提供詳細的軟件集成開發(fā)工具包。
4 網(wǎng)絡(luò)安全
系統(tǒng)探測一般是探測局域網(wǎng)內(nèi)部設(shè)備,有的設(shè)備甚至在專用VLAN里,沒有連接互聯(lián)網(wǎng),如果采用互聯(lián)網(wǎng)發(fā)送短信的方式,則需考慮系統(tǒng)接入互聯(lián)網(wǎng)的安全問題,這里介紹一種簡單可行的辦法。
在探測服務(wù)器上安裝兩張或多張網(wǎng)卡,其中一張網(wǎng)卡連接互聯(lián)網(wǎng),用于發(fā)送短信和探測互聯(lián)網(wǎng)VLAN里的設(shè)備;另一張網(wǎng)卡用于連接局域網(wǎng)內(nèi)專用VLAN;如果有多個專用VLAN,則每張網(wǎng)卡連接一個VLAN。
在探測服務(wù)器上安裝軟件防火墻,關(guān)閉除節(jié)點探測和短信發(fā)送所需端口以外的所有端口,也不允許除本系統(tǒng)以外的所有程序與網(wǎng)絡(luò)連接,包括操作系統(tǒng)服務(wù),關(guān)閉不需要的操作系統(tǒng)服務(wù)。
5 結(jié)論
我校使用該系統(tǒng)已經(jīng)快1年,目前系統(tǒng)穩(wěn)定運行,每當設(shè)備出現(xiàn)故障時,網(wǎng)絡(luò)中心常常比用戶先發(fā)現(xiàn),并及時修復,得到了各部門的高度肯定。今年1至6月比去年同期,設(shè)備故障電話報修率減少了74.3%。
參考文獻:
[1] 李艇.計算機網(wǎng)絡(luò)管理與安全技術(shù)[M].北京:人民郵電出版社,2008.
[2] 趙立群.計算機網(wǎng)絡(luò)管理與安全[M].北京:清華大學出版社,2008.
[3] 于鋒.計算機網(wǎng)絡(luò)與數(shù)據(jù)通信[M].2版.北京:中國水利水電出版社,2006.