◆馬佳華
操作系統(tǒng)、網(wǎng)絡體系與服務器技術(shù)
基于網(wǎng)絡知識資產(chǎn)庫的網(wǎng)絡協(xié)同運維系統(tǒng)研究
◆馬佳華
(92493部隊13分隊 遼寧 125000)
本文通過對本單位現(xiàn)行網(wǎng)絡運維模式的分析,針對當前異構(gòu)網(wǎng)絡間診斷應用系統(tǒng)資源共享和服務協(xié)同的需求,闡述了通過信息化和網(wǎng)絡技術(shù)手段,構(gòu)建網(wǎng)絡協(xié)同運維系統(tǒng),將遠程網(wǎng)絡維護專家與現(xiàn)場運維人員實現(xiàn)互動,在短時間內(nèi)調(diào)動各種故障診斷資源,實現(xiàn)對網(wǎng)絡故障的快速、準確恢復。
知識資產(chǎn)庫;網(wǎng)絡協(xié)同運維;資源共享
面對本單位信息化的迅猛發(fā)展,網(wǎng)絡已成為信息化戰(zhàn)爭不可或缺的重要元素。隨著新設備的不斷增加,網(wǎng)絡結(jié)構(gòu)變得日趨復雜,故障發(fā)生率也變得越來越高。新業(yè)務的不斷增加、新技術(shù)的不斷演進、新應用系統(tǒng)的越來越多都對網(wǎng)絡運維人員的運維知識量、故障定位和恢復效率提出了更高的要求,但網(wǎng)絡運維護人員的能力卻沒有增加甚至被削減,原因在于,知識的隱性化、共享范圍小和傳播能力低下是網(wǎng)絡運維人員維護技能不足的主要原因。傳統(tǒng)的運維模式下設備、人員相對分散,各地單獨管理,專家的經(jīng)驗和知識不能得到有效地傳遞,管理形成“孤島”,運維效率低下。當前,網(wǎng)絡運維難度與運維人員維護技能之間的矛盾日益突出。因此,亟須一套網(wǎng)絡協(xié)同運維系統(tǒng),實現(xiàn)對網(wǎng)絡內(nèi)全系統(tǒng)的監(jiān)測,及時發(fā)現(xiàn)網(wǎng)絡故障并告警,通過本地經(jīng)驗知識庫和遠程經(jīng)驗知識庫的支持以及遠程協(xié)同維護專家的配合,為本地網(wǎng)絡運維人員提供輔助決策,使運維工作簡單化、科學化,快速準確的解除網(wǎng)絡故障,提高時效性,為打贏信息化戰(zhàn)爭提供強有力支撐。
面對本單位網(wǎng)絡發(fā)展的迅速、復雜、龐大等特點,本單位網(wǎng)絡運維人員的運維技能顯得日益捉襟見肘,主要原因在于長期以來運維知識和經(jīng)驗不能夠得到有效的共享和傳遞,知識沒有積累并形成一種共有資產(chǎn),而是在人員更替的過程中不斷流失,從而嚴重影響了網(wǎng)絡運維的效率,初步分析主要有如下幾個特點:
由于本單位的崗位職責分工明確,網(wǎng)絡運維工作被劃分成很多崗位,運維人員對負責本崗位之外其他崗位了解非常有限,缺乏熟悉了解所有崗位情況的技術(shù)人員,當出現(xiàn)負責某崗位的人員不在位的情況時,其他人員不能及時處理相應崗位的網(wǎng)絡故障。
網(wǎng)絡運維知識作為一種非物質(zhì)資產(chǎn)并沒有引起足夠的重視,由于本單位的崗位具有很大的流動性,鐵打的營盤流水的兵,運維人員新老更替較快,而此時網(wǎng)絡運維人員未能及時將自己積累的所有網(wǎng)絡運維經(jīng)驗傳遞給新人,新人的知識和經(jīng)驗積累又需要漫長的過程,出現(xiàn)網(wǎng)絡故障時往往是現(xiàn)學現(xiàn)用,單位的網(wǎng)絡知識資產(chǎn)隨著人員的流動不斷的流失,大大影響了網(wǎng)絡故障恢復的效率和本單位運維人員的工作效率。
各個運維人員都在獨立進行網(wǎng)絡管理運維工作,當網(wǎng)絡出現(xiàn)故障時,都是獨立進行資料查找和故障恢復,效率低下。由于影響網(wǎng)絡運行的因素很多,出現(xiàn)網(wǎng)絡故障時往往需要多個崗位以至于所有崗位人員共同配合查找問題,任何一個環(huán)節(jié)都有可能影響整體恢復效率,但由于沒有一個運維知識和管理共享交流的平臺,運維知識和經(jīng)驗得不到共享,運維管理得不到專家的協(xié)助,不但增加了故障恢復時間,也造成了資源浪費。
綜上所述,本單位運維人員的技能不足是影響網(wǎng)絡運維效率的主要因素,日常的運維訓練和突發(fā)故障的處理是積累人員運維理論知識和實戰(zhàn)經(jīng)驗的主要途徑。面對網(wǎng)絡運維復雜難度越來越大,現(xiàn)行本單位運維人員或沒有一個供人員學習、訓練、運維的平臺,或是有但平臺孤立,知識量匱乏,可用性不大。一個統(tǒng)一的網(wǎng)絡協(xié)同運維系統(tǒng)的建立顯得迫在眉睫,一個由各單位共同支撐起來的強大數(shù)據(jù)庫將為本單位運維人員技能迅速提高提供平臺,使得本單位運維人員根據(jù)自身情況進行不同階段的針對性訓練,快速提高本單位運維人員工作效率。
在當前本單位網(wǎng)絡運維需求的強烈指引下,設計了一套網(wǎng)絡協(xié)同運維系統(tǒng),先將系統(tǒng)的組織結(jié)構(gòu)介紹如下:
如圖1所示,該系統(tǒng)組織結(jié)構(gòu)由物理層、數(shù)據(jù)層、服務層和應用層組成。
物理層由網(wǎng)絡狀態(tài)顯示設備、預警監(jiān)測設備、故障診斷設備、服務器、路由交換設備組成。
數(shù)據(jù)層由預警監(jiān)測數(shù)據(jù)庫、故障診斷數(shù)據(jù)庫、運維知識數(shù)據(jù)庫、經(jīng)驗知識數(shù)據(jù)庫、運維工具數(shù)據(jù)庫組成。
服務層由網(wǎng)絡預警監(jiān)測服務、故障智能診斷服務、網(wǎng)絡輔助決策服務、運維工具服務組成。
應用層由預警監(jiān)測系統(tǒng)、故障診斷系統(tǒng)、輔助決策系統(tǒng)、運維工具系統(tǒng)組成。
圖1 網(wǎng)絡運維系統(tǒng)結(jié)構(gòu)圖
如圖2所示,正常運行時,整個網(wǎng)絡的設備和線路狀態(tài)以模擬仿真的形式顯示在LED狀態(tài)顯示屏上,當網(wǎng)絡故障發(fā)生時,首先預警監(jiān)測設備監(jiān)測到網(wǎng)絡故障方向和線路,按照不同故障級別,網(wǎng)絡設備和線路以不同的顏色閃爍并聲音告警,系統(tǒng)收集故障數(shù)據(jù)提供給故障智能診斷系統(tǒng)并向其他可通遠程系統(tǒng)發(fā)出故障信號。然后,故障智能診斷系統(tǒng)會結(jié)合預警監(jiān)測系統(tǒng)提供的數(shù)據(jù)進行故障智能診斷,更深入的判斷具體故障源,并將故障描述提供給輔助決策系統(tǒng)和終端。輔助決策系統(tǒng)收集故障智能診斷系統(tǒng)提供的數(shù)據(jù)后,調(diào)用本地和遠程經(jīng)驗知識庫并結(jié)合運維知識庫給出相關(guān)的輔助決策并對結(jié)果進行優(yōu)先排序,發(fā)送至終端。
可通遠程系統(tǒng)收到故障信號后,輔助決策系統(tǒng)對本地經(jīng)驗庫進行檢索,對結(jié)果進行優(yōu)先排序后發(fā)送給請求系統(tǒng)。并向請求系統(tǒng)發(fā)送專家在線信號,本地系統(tǒng)接收到數(shù)據(jù)后,結(jié)合本地系統(tǒng)決策對所有決策進行優(yōu)先排序,將輔助決策信息和在線專家列表提供給本地運維人員,運維人員參考系統(tǒng)故障描述和輔助決策信息后使用運維工具系統(tǒng)中的網(wǎng)絡工具對網(wǎng)絡故障進行檢查和修復。
當運維人員感覺對系統(tǒng)故障恢復困難時,可點擊在線專家進行求助,遠程系統(tǒng)收到求助信號時,發(fā)出信息和聲音提示,如果遠程運維人員同意幫助,本地運維人員將與遠程專家建立視頻鏈接或進行多節(jié)點視頻會議,進行遠程協(xié)助盡快恢復網(wǎng)絡故障。
網(wǎng)絡故障恢復后,運維人員將恢復經(jīng)驗進行資料整理,通過系統(tǒng)輸入到本地運維知識庫和經(jīng)驗知識庫,對經(jīng)驗知識進行積累。運維知識庫由所有運維人員日常進行收集和整理,亦可針對主要網(wǎng)絡設備聯(lián)合地方科研、廠家等力量遠程進行不定期維護,分布在各地的運維知識庫將定時同步更新。最終,通過使用該系統(tǒng)實現(xiàn)網(wǎng)絡知識和經(jīng)驗不斷積累豐富,達到全網(wǎng)系的資源共享,為運維人員學習、訓練、運維和提高技能提供強有力的支撐。
圖2 網(wǎng)絡系統(tǒng)運維流程圖
網(wǎng)絡協(xié)同運維系統(tǒng)主要分為網(wǎng)絡預警監(jiān)測、故障智能診斷、輔助決策、運維工具、學習訓練五大功能模塊,各部分功能模塊主要實現(xiàn)以下功能:
網(wǎng)絡預警監(jiān)測:負責網(wǎng)絡的安全和性能監(jiān)測,通過對系統(tǒng)的各項指標閥值的設置,一旦發(fā)現(xiàn)有性能指標超標或者安全危險行為,立即發(fā)出圖示和聲音預警并收集數(shù)據(jù)提供給故障診斷模塊使用。通過查看網(wǎng)絡功能,運維人員可查看整個網(wǎng)絡的拓撲圖,圖上的設備顯示有溫度、流量、狀態(tài)等相關(guān)詳細信息。狀態(tài)分析功能為用戶提供整個網(wǎng)絡的運行狀態(tài)、趨勢、峰值等信息,為運維人員分析整個網(wǎng)絡的運行狀態(tài)提供參考。歷史記錄模塊記錄了歷史的告警、超負荷等信息,供用戶隨時查看。
故障智能診斷:網(wǎng)絡設備狀態(tài)以動態(tài)拓撲圖形式仿真在狀態(tài)顯示屏上,當故障發(fā)生時,系統(tǒng)根據(jù)預警監(jiān)測系統(tǒng)提供的數(shù)據(jù)和運維知識庫進行比對,智能判斷出網(wǎng)絡故障,顯示屏上故障設備閃爍,故障線路以紅色線條顯示,運維人員可通過狀態(tài)顯示屏直觀獲取故障源。
通過故障查看功能,運維人員可查看更具體的詳細故障信息,如端口協(xié)議關(guān)閉、設備死機、服務停止、流量堵塞等。通過拓撲維護功能,運維人員可更新網(wǎng)絡的拓撲圖結(jié)構(gòu)、外觀、類型等信息。
輔助決策:當網(wǎng)絡故障發(fā)生時,系統(tǒng)會收集本地相關(guān)資源并向遠程在線系統(tǒng)發(fā)出故障信號,遠程系統(tǒng)收到信號后收集并傳回相關(guān)決策,遠程運維人員如果在線,可根據(jù)本人經(jīng)驗向故障發(fā)生地主動推送輔助決策。本地系統(tǒng)將本地、遠程和主動推送的輔助決策方案進行整理優(yōu)先排序,運維人員通過查看功能,對輔助決策進行參考,結(jié)合自身經(jīng)驗快速對故障進行恢復。故障發(fā)生期間系統(tǒng)會提供遠程在線專家列表,運維人員如恢復故障困難可通過即時通信功能向遠程專家請求協(xié)助,遠程專家通過網(wǎng)絡音視頻對故障現(xiàn)場提供技術(shù)支援。
運維工具:系統(tǒng)中包含了大量的運維工具,主要包括網(wǎng)絡工具、系統(tǒng)工具、查看工具、連接工具等,網(wǎng)絡故障發(fā)生后,運維人員可以使用這些工具,實現(xiàn)流量分析、端口查看,遠程登錄等操作,進行故障地快速查找、定位、恢復等。通過查看使用教程功能,對運維工具使用方法進行快速學習。工具維護功能使運維人員可對本地工具庫進行更新和豐富,以備運維時能更好對硬件支持并使用。通過工具共享,本地系統(tǒng)可快速及時地檢測到其他遠程系統(tǒng)最新上傳或更新的工具并提示給用戶,為運維人員及時更新運維工具提供有效途徑。
訓練學習:該功能可提供學習、自測和考試三個模塊,學習模塊將知識資產(chǎn)庫中的數(shù)據(jù)進行資料整理,以樹的形式分類后展現(xiàn)給運維人員,運維人員可根據(jù)自身技能情況有針對性選擇資料進行學習。也可通過篩選和搜索等功能快速、準確獲取所需知識進行臨時性學習。當運維人員感覺知識量積累到一定程度時,也可以使用該模塊勾選需要自測的數(shù)據(jù)庫進行自測試卷的生成,對階段性學習進行鞏固。管理者認為運維人員可以進行上崗考試時可通過系統(tǒng)進行試卷生成,進行在線上崗考試。
圖3 網(wǎng)絡系統(tǒng)運維系統(tǒng)功能圖
網(wǎng)絡知識資產(chǎn)庫作為網(wǎng)絡運維單位的資產(chǎn),不僅是供運維人員學習、培訓和提高技能的基礎更是網(wǎng)絡協(xié)同運維系統(tǒng)能夠正常運轉(zhuǎn)的核心。本系統(tǒng)采用了Oracle數(shù)據(jù)庫作為存儲媒介來存儲網(wǎng)絡知識,Oracle Database又名Oracle RDBMS,是由美國ORACLE公司提供的以分布式數(shù)據(jù)庫為核心的數(shù)據(jù)庫管理系統(tǒng),是目前世界上使用最為廣泛的數(shù)據(jù)庫管理系統(tǒng),它具有完整的數(shù)據(jù)管理、分布式處理、容納數(shù)據(jù)量大、實時性高、數(shù)據(jù)可靠性高等特點,能夠輕松實現(xiàn)數(shù)據(jù)倉庫的操作。采用Oracle作為知識存儲媒介,不但保證了數(shù)據(jù)的安全性,更為系統(tǒng)間數(shù)據(jù)的共享、同步等需要打下了堅實的基礎。將網(wǎng)絡知識按照特點分為安全知識、交換知識、傳輸知識、智能網(wǎng)知識等大類,又將智能網(wǎng)知識劃分為網(wǎng)絡評估、資源管理、業(yè)務分析等小類,以此類推,將知識分類存入,共同組成了網(wǎng)絡知識資產(chǎn)庫。
分布式技術(shù)是指數(shù)據(jù)和程序分布在多個服務器上,它有利于任務在整個計算機系統(tǒng)上進分配與優(yōu)化,克服了傳統(tǒng)集中式系統(tǒng)會導致中心主機資源緊張的缺陷,解決了網(wǎng)絡GIS中存在的數(shù)據(jù)異構(gòu)、數(shù)據(jù)共享、運算復雜等問題。分布式服務器技術(shù)在本系統(tǒng)中的應用將有利于數(shù)據(jù)的分布存儲和共享,數(shù)據(jù)一部分存儲在本地,另一部分存儲在遠端,當本地程序需要數(shù)據(jù)時,可同時獲取本地以及遠程數(shù)據(jù),不但節(jié)省了本地空間加快了本地數(shù)據(jù)的讀取,更減少了數(shù)據(jù)冗余和重復。
信息化時代,本單位對網(wǎng)絡的需求越來越多,設備的增加和不斷更新使網(wǎng)絡運維的難度不斷加大,運維人員的能力素質(zhì)成為制約工作效率的重要因素。網(wǎng)絡協(xié)同運維系統(tǒng)能夠有效解決這一問題,將各地的運維人員和資源充分調(diào)動共享起來,形成一個運維專家團隊和龐大的網(wǎng)絡知識庫和專家經(jīng)驗庫,共同的處理網(wǎng)絡故障,不但能夠快速、準確的恢復故障,提高運維效率,無形中對運維人員也進行了一次“故障恢復培訓”,同時也對網(wǎng)絡知識進行了積累,為本單位運維保障、學習訓練和知識傳遞提供了平臺。
同時,我們需要看到,協(xié)同運維系統(tǒng)只是一種輔助技術(shù)手段,再好的設備沒有人駕馭也只是一堆廢鐵,所以只有當運維知識資產(chǎn)得到足夠的重視,通過日常不斷積累和設備廠家等科研單位的協(xié)助,逐漸形成一個龐大的分布式數(shù)據(jù)庫并被廣泛應用時,本單位運維人員的工作效率才能隨著設備的不斷更新而快速上升。
[1]李振銀.網(wǎng)絡管理與維護[M].中國鐵道出版社,2004.
[2]王淑江,劉曉輝.網(wǎng)絡管理自動化[M].電子工業(yè)出版社, 2009.
[3]李先, 譚汝聰.網(wǎng)絡數(shù)據(jù)庫[M].機械工業(yè)出版社, 2010.