鄭永照
摘要:本文介紹了計(jì)算機(jī)網(wǎng)絡(luò)運(yùn)行中維護(hù)人員所應(yīng)掌握的一些基本知識(shí),并對(duì)發(fā)生網(wǎng)絡(luò)故障時(shí)的定位原則,常見故障分類、故障定位和排除的常用方法,以及日常維護(hù)中所應(yīng)維護(hù)的內(nèi)容和對(duì)維護(hù)人員的要求進(jìn)行了討論.
關(guān)鍵詞:故障定位常見故障排除方法維護(hù)
0引言
隨著計(jì)算機(jī)的廣泛應(yīng)用和網(wǎng)絡(luò)的流行,目前單位內(nèi)廣大職工的很多日常工作(包括生產(chǎn)MIS、OAK、電力營銷、視頻監(jiān)控、集群錄音等各種系統(tǒng))已經(jīng)與網(wǎng)絡(luò)密不可分,計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng),就是利用通訊設(shè)備和線路將地理位置不同的、功能獨(dú)立的多個(gè)計(jì)算機(jī)系統(tǒng)互連起來,以功能完善的網(wǎng)絡(luò)軟件(網(wǎng)絡(luò)通信協(xié)議、信息交換方式及網(wǎng)絡(luò)操作系統(tǒng)等)實(shí)現(xiàn)網(wǎng)絡(luò)中資源共享和信息傳遞的系統(tǒng)。它的主要功能表現(xiàn)在兩個(gè)方面:一是實(shí)現(xiàn)資源共享,包括硬件資源和軟件資源的共享;二是在用戶之間交換信息.因此,如何有效地做好本單位計(jì)算機(jī)網(wǎng)絡(luò)的日常維護(hù)工作,確保其安全穩(wěn)定地運(yùn)行,這是網(wǎng)絡(luò)運(yùn)行維護(hù)人員的一項(xiàng)非常重要的工作。本文對(duì)計(jì)算機(jī)網(wǎng)絡(luò)的常見故障處理及維護(hù)進(jìn)行討論。
1故障定位的基本思路
在排除比較復(fù)雜網(wǎng)絡(luò)的故障時(shí),我們常常要從多種角度來測試和分析故障的現(xiàn)象,準(zhǔn)確確定故障點(diǎn),在實(shí)際應(yīng)用中,我們通常采用的分析模型和方法有:
1.1七層的網(wǎng)絡(luò)結(jié)構(gòu)分析模型方法從網(wǎng)絡(luò)的七層結(jié)構(gòu)的定義和功能上逐一進(jìn)行分析和排查,這是傳統(tǒng)的而且最基礎(chǔ)的分析和測試方法.這里有自下而上和自上而下兩種思路,自下而上是:從物理層的鏈路開始檢測直到應(yīng)用,自上而下是:從應(yīng)用協(xié)議中捕捉數(shù)據(jù)包,分析數(shù)據(jù)包統(tǒng)計(jì)和流量統(tǒng)計(jì)信息,以獲得有價(jià)值的資料。
1.2網(wǎng)絡(luò)連接結(jié)構(gòu)的分析方法從網(wǎng)絡(luò)的連接構(gòu)成來看,大致可以分成客戶端、網(wǎng)絡(luò)鏈路、服務(wù)器端三個(gè)模塊。
1.2.1客戶端具備網(wǎng)絡(luò)的七層結(jié)構(gòu),也會(huì)出現(xiàn)從硬件到軟件、從驅(qū)動(dòng)到應(yīng)用程序、從設(shè)置錯(cuò)誤到病毒等的故障問題。所以在分析和測試客戶端的過程中要有大量的背景知識(shí),有時(shí)PC的發(fā)燒經(jīng)驗(yàn)也會(huì)有所幫助,也可以在實(shí)際測試過程中詢問客戶端的用戶,分析他們反映的問題是個(gè)性的還是共性的,這將有助于自己對(duì)客戶端的進(jìn)一步檢測作出決定。
1.2.2來自網(wǎng)絡(luò)鏈路的問題通常需要網(wǎng)管、現(xiàn)場測試儀,甚至需要用協(xié)議分析儀來幫助確定問題的性質(zhì)和原因。對(duì)于這方面的問題分析需要有堅(jiān)實(shí)的網(wǎng)絡(luò)知識(shí)和實(shí)踐經(jīng)驗(yàn),有時(shí)實(shí)踐經(jīng)驗(yàn)會(huì)決定排除故障的時(shí)間。
1.2.3在分析服務(wù)器端的情況時(shí)更需要有網(wǎng)絡(luò)應(yīng)用方面的豐富知識(shí),要了解服務(wù)器的硬件性能及配置情況、系統(tǒng)性能及配置情況、網(wǎng)絡(luò)應(yīng)用及對(duì)服務(wù)器的影響情況。
1.3工具型分析方法有強(qiáng)大的各種測試工具和軟件,它們的自動(dòng)分析能快速地給出網(wǎng)絡(luò)的各種參數(shù)甚至是故障的分析結(jié)果,這對(duì)解決常見網(wǎng)絡(luò)故障非常有效。
1.4綜合及經(jīng)驗(yàn)型分析方法時(shí)間、錯(cuò)誤和成功經(jīng)驗(yàn)的積累.在大多數(shù)的網(wǎng)絡(luò)維護(hù)工作人員的工作中是采用這個(gè)方法的,再依靠網(wǎng)管和測試工具迅速定位網(wǎng)絡(luò)的故障。
2計(jì)算機(jī)常見故障分類
2.1某臺(tái)計(jì)算機(jī)上不了網(wǎng)對(duì)于某臺(tái)計(jì)算機(jī)上不了網(wǎng)的故障,首先要分別確定此計(jì)算機(jī)的網(wǎng)卡安裝是否正確,是否存在硬件故障,網(wǎng)絡(luò)配置是否正確,例如在實(shí)際工作中我們一般采用Ping192.168.131.1來判斷網(wǎng)卡硬件安裝和TCP/IP協(xié)議的正確性。如果能Ping通,即說明這部分沒有問題.如果出現(xiàn)超時(shí)情況,則要檢查計(jì)算機(jī)的網(wǎng)卡是否與機(jī)器上的其它設(shè)備存在中斷沖突的問題,通過查看系統(tǒng)屬性中的設(shè)備管理器,查看是否在網(wǎng)絡(luò)適配器的設(shè)備前面有黃色驚嘆號(hào)或紅色叉號(hào),如有則說明硬件的驅(qū)動(dòng)程序沒有安裝成功,可刪除后重新安裝。另外,要確保TCP/IP協(xié)議安裝的正確性,并且要綁定在你所安裝的網(wǎng)卡上。如果重新安裝后還是Ping不通回送地址,最好換上一塊正常的網(wǎng)卡試一試。由于在局域網(wǎng)中劃分了VLAN,所以連在不同VLAN中的計(jì)算機(jī)都有各自不同的lP地址、子網(wǎng)掩碼和網(wǎng)關(guān),要在機(jī)器的網(wǎng)絡(luò)屬性中設(shè)定的IP地址等數(shù)據(jù)與連接的VCAN相匹配,否則將出現(xiàn)網(wǎng)絡(luò)不通的情況,當(dāng)確保了計(jì)算機(jī)的硬件設(shè)備和網(wǎng)絡(luò)配置正確后,接著就要查看計(jì)算機(jī)與交換機(jī)之間的雙絞線,交換機(jī)的RJ 45端口或交換機(jī)的配置是否有問題。此時(shí)我們要Ping上網(wǎng)計(jì)算機(jī)所在VLAN的網(wǎng)關(guān),不通的話就要分段檢查上面所說的各項(xiàng),最簡單的方法是檢查雙絞線,用線纜測試儀檢測雙絞線是否斷開,雙絞線沒有問題,就要查看交換機(jī)的端口是否壞了。交換機(jī)每一個(gè)端口都有狀態(tài)指示燈,檢測到此,如果端口指示燈不亮,就只能是端口損壞了,可以把跳線接到正常使用的端口上排除其它原因,確定是端口的問題。另外還有交換機(jī)的配置問題,只有極少的幾個(gè)人對(duì)交換機(jī)的配置有修改權(quán)限,所以詢問一下其它網(wǎng)管人員就可以排除了,如果不放心可以對(duì)照查看,交換機(jī)的參數(shù)配置表也是網(wǎng)絡(luò)管理員必備的資料之一,并且隨著網(wǎng)絡(luò)用戶的變化要不斷地修改。
2.2多臺(tái)計(jì)算機(jī)上不了網(wǎng)對(duì)于同時(shí)有多臺(tái)計(jì)算機(jī)上不了網(wǎng)的故障,首先要找到這些計(jì)算機(jī)的共性,如是不是屬于同一VLAN或接在同一交換機(jī)上的,若這些計(jì)算機(jī)屬于同一VLAN,且屬于計(jì)算機(jī)分別連接于不同的樓層交換機(jī),那么檢查一下路由器上是否有acl限制,在路由器上對(duì)該VLAN的配置是否正確,路由協(xié)議(如我局的OSPF協(xié)議)是否配置正確,若這些計(jì)算機(jī)屬于同一交換機(jī),則應(yīng)到機(jī)房檢查該交換機(jī)是否有電源松落情況,或該交換機(jī)CPU負(fù)載率是否很高,與上一級(jí)網(wǎng)絡(luò)設(shè)備的鏈路是否正常,通常某交換機(jī)連接的所有電腦都不能正常與網(wǎng)內(nèi)其它電腦通訊,這是典型的交換機(jī)死機(jī)現(xiàn)象,可以通過重新啟動(dòng)交換機(jī)的方法解決,如果重新啟動(dòng)后故障依舊,則檢查一下那臺(tái)交換機(jī)連接的所有電腦,看逐個(gè)斷開連接的每臺(tái)電腦的情況,慢慢定位到某個(gè)故障電腦,會(huì)發(fā)現(xiàn)多半是某臺(tái)電腦上的網(wǎng)卡故障導(dǎo)致的,故障通常是交換機(jī)的某個(gè)端口變得非常緩慢,最后導(dǎo)致整臺(tái)交換機(jī)或整個(gè)堆疊慢下來,通過控制臺(tái)檢查交換機(jī)的狀態(tài),發(fā)現(xiàn)交換機(jī)的緩沖池增長得非常快,達(dá)到了90%或更多,原因及解決方法為:首先應(yīng)該使用其它電腦更換這個(gè)端口上原來的連接,看是否由這個(gè)端口連接的那臺(tái)電腦的網(wǎng)絡(luò)故障導(dǎo)致的,也可以重新設(shè)置出錯(cuò)的端口并重新啟動(dòng)交換機(jī),個(gè)別時(shí)候,可能是這個(gè)端口損壞了。
2.3鏈路問題當(dāng)鏈路是光纜時(shí),在開通新的網(wǎng)絡(luò)時(shí),應(yīng)記錄光纜的收發(fā)光功率、光纜長度和芯數(shù),一旦出現(xiàn)問題應(yīng)重新用光功率計(jì)、OTDR等再次測試,并與原來數(shù)據(jù)進(jìn)行比較后及時(shí)修復(fù)。若鏈路是網(wǎng)線,如辦公室內(nèi)的,則可通過網(wǎng)絡(luò)一點(diǎn)通等網(wǎng)絡(luò)測試儀確定辦公室至交換機(jī)之間的哪段網(wǎng)線出了問題。
2.4機(jī)柜接地問題機(jī)柜接地不能忽略,曾經(jīng)發(fā)生:市局為一臺(tái)C2MFT G703接口模塊、更換Cisco 6509,市局端更換Cisco 3550的2M的連接端口,更換SDH的2M鏈路均無效的過程,最終在縣局cisc06509采用WlC 1T模塊加外接協(xié)議轉(zhuǎn)換器,網(wǎng)絡(luò)互連恢復(fù)
正常.準(zhǔn)備再次采用WVlC 2MFT G703接口模塊,在拆外接協(xié)議轉(zhuǎn)換器時(shí)被觸了一下電,再仔細(xì)查找機(jī)柜的接地線,沒有找到,對(duì)機(jī)柜接上接地線后,再采用原來設(shè)備,一切恢復(fù)正常,分析結(jié)果:外接協(xié)議轉(zhuǎn)換器輸出信號(hào)的電壓較高,所以抗干擾能力強(qiáng),盡管沒有接地,但因無接地而產(chǎn)生的干擾不對(duì)它產(chǎn)生影響,所以網(wǎng)絡(luò)互連正常。而Cisco的VWIC 2MFT G703接口模塊輸出信號(hào)的電壓較低,和無接地產(chǎn)生的干擾差不多,從而因輸出信號(hào)遭到破壞而導(dǎo)致SDH 2M誤碼告警i路由器的端口不斷up和down。由此可見;機(jī)柜接地看似小問題;如果沒做好:也會(huì)帶來很大的麻煩。
3故障定位及排除的常用方法
3.1告警性能分析法通過網(wǎng)管獲取告警和性能信息進(jìn)行故障定位,恩平供電局使用了BTTA網(wǎng)絡(luò)網(wǎng)管,可以對(duì)全局的網(wǎng)絡(luò)設(shè)備進(jìn)行管理,平時(shí)多觀察各設(shè)備CPU負(fù)載率和各線路的流量當(dāng)有人反映不能連接至網(wǎng)絡(luò)或網(wǎng)速很慢時(shí),可通過網(wǎng)管觀察計(jì)算機(jī)與交換機(jī)的連接情況,是否有時(shí)斷時(shí)通的現(xiàn)象,交換機(jī)CPU負(fù)載率是否很高,線路流量是否很大,通過觀察設(shè)備端口狀態(tài),分析和觀察交換機(jī)哪個(gè)端口所接的計(jì)算機(jī)發(fā)包量不太正常。
3.2替換法替換法就是使用一個(gè)工作正常的物體去替換一個(gè)工作不正常的物體,從而達(dá)到定位故障、排除故障的目的,這里的物件可以是一段線纜、一個(gè)設(shè)備和一塊模塊。
3.3配置數(shù)據(jù)分析法查詢、分析當(dāng)前設(shè)備的配置數(shù)據(jù),通過分析以上的配置數(shù)據(jù)是否正常來定位故障,若配置的數(shù)據(jù)有錯(cuò)誤,需進(jìn)行重新配置。
4計(jì)算機(jī)網(wǎng)絡(luò)的維護(hù)
4.1維護(hù)內(nèi)容計(jì)算機(jī)網(wǎng)絡(luò)的維護(hù)內(nèi)容包括:設(shè)備、鏈路、電源和配線架等附屬設(shè)備的維護(hù)。具體要求如下:①保證設(shè)備工作條件,包括供電條件和環(huán)境條件等。②對(duì)系統(tǒng)故障進(jìn)行判斷和處理,根據(jù)故障現(xiàn)象和告警指示,利用網(wǎng)管及各種測試工具進(jìn)行故障定位,找出故障原因,在最短時(shí)間內(nèi)排除故障。③通常采用集中維護(hù)方式,將維護(hù)人員和必要的維護(hù)儀表集中在一個(gè)主要站。④經(jīng)常檢查交換機(jī)與路由器中的端口狀態(tài),尤其需要關(guān)注端口差錯(cuò)統(tǒng)計(jì)信息,對(duì)于出錯(cuò)包特別多的端口,應(yīng)該檢查其是交換機(jī)或路由器本身的、鏈路的原因,還是接入設(shè)備的原因。交換機(jī)或路由器主要查CPU利用率和MEM利用率,接入設(shè)備若是計(jì)算機(jī),則主要看網(wǎng)卡的設(shè)置是否正確、網(wǎng)卡的驅(qū)動(dòng)程序是否和網(wǎng)卡匹配,查出原因后進(jìn)行整改,檢查完后對(duì)端口統(tǒng)計(jì)信息清零。⑤鏈路若是光纜,則主要檢查現(xiàn)有衰耗和投運(yùn)時(shí)的衰耗差,鏈路是網(wǎng)線則用專用儀器進(jìn)行現(xiàn)場測試,光纖不允許小角度彎折,更不能出現(xiàn)直角。⑥網(wǎng)管監(jiān)控系統(tǒng)和本地維護(hù)終端用的計(jì)算機(jī)是專用設(shè)備,禁止挪用,以免病毒侵害。
4.2對(duì)維護(hù)人員的要求①對(duì)運(yùn)行中的網(wǎng)絡(luò)設(shè)備在進(jìn)行變更設(shè)置的操作時(shí),必須有兩人同時(shí)在場方可進(jìn)行,一人操作,一人監(jiān)護(hù),并做好如何在操作失敗而導(dǎo)致網(wǎng)絡(luò)設(shè)備異常的情況下的處理預(yù)案,履行必要手續(xù)。②處理光接口信號(hào)時(shí),不得將光發(fā)送器的尾纖端面或上面活動(dòng)連接器的端面對(duì)著眼睛,并注意尾纖端面和連接器的清潔。③熟練掌握所維護(hù)的設(shè)備的基本操作。④做好設(shè)備的日常巡視工作。⑤對(duì)外來人員(參觀者或領(lǐng)導(dǎo))應(yīng)講明道理,關(guān)照他請(qǐng)勿動(dòng)手。
5結(jié)束語
在電力系統(tǒng)中,計(jì)算機(jī)網(wǎng)絡(luò)建設(shè)越來越龐大,且組網(wǎng)方式繁多而復(fù)雜,自然就加大了維護(hù)人員的工作量和故障定位、處理的難度,這就要求維護(hù)人員必須不斷提高自身的業(yè)務(wù)水平和處理故障的能力,同時(shí)要針對(duì)實(shí)際情況,把以上的定位原則和處理方法做到靈活應(yīng)用。