孫 青 上海鐵路局上海通信段
SDH(Synchronous Digital Hierarchy,同步數(shù)字體系)是一種將復(fù)接、線路傳輸及交換功能融為一體、并由統(tǒng)一網(wǎng)管系統(tǒng)操作的綜合信息傳送網(wǎng)絡(luò),簡稱傳輸網(wǎng)絡(luò),也是目前鐵路通信中應(yīng)用最廣的傳輸通道承載網(wǎng)絡(luò)。傳輸系統(tǒng)網(wǎng)管主要由網(wǎng)管終端(含服務(wù)器或工作站)、傳輸通道(可以是LAN或WAN)以及網(wǎng)絡(luò)設(shè)備(含GNE以及NE)組成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示:
圖1 傳輸網(wǎng)管系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
如圖1所示,網(wǎng)管終端在上層應(yīng)用TCP/IP協(xié)議實現(xiàn)服務(wù)器和工作站的互通,在下層應(yīng)用嵌入控制通路(Embedded Control Channel ECC)協(xié)議棧實現(xiàn)工作站與網(wǎng)元(NE)節(jié)點的通信,SDH設(shè)備之間的通信使用ECC,其中網(wǎng)關(guān)網(wǎng)元(GNE)與網(wǎng)管服務(wù)器直接相連,也可以通過LAN或WAN相連,非網(wǎng)關(guān)網(wǎng)元與網(wǎng)關(guān)網(wǎng)元通過數(shù)字通信通路(DCC)連接,網(wǎng)管終端和網(wǎng)關(guān)網(wǎng)元之間通過TCP/IP協(xié)議傳遞信息,網(wǎng)關(guān)網(wǎng)元和非網(wǎng)關(guān)網(wǎng)元之間通過ECC通信,從而實現(xiàn)網(wǎng)管和非網(wǎng)關(guān)網(wǎng)元之間的通信。而ECC主要用于SDH網(wǎng)元間的通信,傳送TMN信息,實現(xiàn)網(wǎng)管對非網(wǎng)關(guān)網(wǎng)元的管理.
網(wǎng)元脫管是指傳輸系統(tǒng)網(wǎng)管無法對網(wǎng)絡(luò)中傳輸網(wǎng)元(主機)進行正常的管理。其現(xiàn)象在網(wǎng)管上表現(xiàn)為網(wǎng)元變灰、網(wǎng)元無法登陸。一般情況下,網(wǎng)元脫管不會引起傳輸設(shè)備所承載的業(yè)務(wù)中斷,但是會導(dǎo)致網(wǎng)管無法實時監(jiān)控脫管的網(wǎng)元,脫管網(wǎng)元的運行狀態(tài)和告警信息也無法及時上傳至網(wǎng)管。網(wǎng)元脫管所造成的影響不僅與其在網(wǎng)絡(luò)拓撲結(jié)構(gòu)中的位置有關(guān),而且影響的范圍也不同,會影響單個或多個網(wǎng)元的監(jiān)控,如果處理不及時,有可能會造成更大的通信故障。
網(wǎng)元脫管按影響范圍可以分為單網(wǎng)元脫管和多網(wǎng)元脫管2類,對于不同的故障范圍有著不同的處理思路,需要區(qū)別對待。
單網(wǎng)元脫管只涉及到某一單個網(wǎng)元,因此該類故障的定位及處理方法較為簡單,常見的原因有網(wǎng)元ID設(shè)置錯誤、主控板故障、光接口板故障、網(wǎng)元用戶不正確、所屬網(wǎng)關(guān)設(shè)置不正確等。本文結(jié)合現(xiàn)場故障處理經(jīng)驗總結(jié)歸納了單網(wǎng)元脫管的故障處理流程可供維護人員借鑒,具體處理流程如圖2所示。
圖2 單個網(wǎng)元脫管故障處理流程圖
下面將以金山線“新橋客站房”單網(wǎng)元脫管為例對單網(wǎng)元脫管的故障處理情況進行介紹。金山線傳輸系統(tǒng)網(wǎng)絡(luò)拓撲如圖3所示。
圖3 金山支線傳輸系統(tǒng)拓撲圖
按照圖2所示的處理步驟,處理人員首先檢查確認(rèn)了“新橋客站房”至“新橋信號樓”兩個網(wǎng)元之間的ECC鏈路不通,隨后安排人員在現(xiàn)場查詢客站房設(shè)備,發(fā)現(xiàn)設(shè)備運行正常,無異常告警,端口DCC資源獲取也正常;然后維護人員檢查了本站設(shè)備與臨站設(shè)備對接光口的再生段J0,發(fā)現(xiàn)“新橋客站房”光纖連接鴛鴦導(dǎo)致ECC鏈路不通。至此,故障原因找到了,最后維護人員將“新橋客站房”4槽位和5槽位收側(cè)的光纖調(diào)換了位置,使相應(yīng)單板的再生段J0字節(jié)實際的收發(fā)與現(xiàn)場物理連接一致后確認(rèn)該網(wǎng)元ECC鏈路管理里面可以看到上游站“新橋信號樓”網(wǎng)元,網(wǎng)元狀態(tài)正常,故障處理完畢。
相對于單網(wǎng)元脫管,多網(wǎng)管脫管的故障成因就復(fù)雜很多,故障處理也較為困難,常見的多網(wǎng)元脫管原因有網(wǎng)關(guān)網(wǎng)元故障、管理網(wǎng)元數(shù)量太多、ECC風(fēng)暴、網(wǎng)元互踢以及ECC誤碼等,下面將逐一進行介紹。
3.2.1 網(wǎng)關(guān)網(wǎng)元故障
如果傳輸網(wǎng)絡(luò)中某一個網(wǎng)關(guān)網(wǎng)元下的所有網(wǎng)元都處于脫管狀態(tài),最大的原因就可能是該網(wǎng)關(guān)網(wǎng)元本身發(fā)生了故障,比如該網(wǎng)關(guān)網(wǎng)元主控板故障,網(wǎng)線、網(wǎng)卡故障,IP地址設(shè)置不正確等,在日常故障處理過程中可以按照上述可能出現(xiàn)的情況依次排查即可解決。
3.2.2 管理網(wǎng)元數(shù)量太多
造成傳輸網(wǎng)絡(luò)中大面積網(wǎng)元脫管的另一個可能的原因就是某網(wǎng)關(guān)服務(wù)器下掛的管理網(wǎng)元太多,由于網(wǎng)管終端的管理能力以及ECC處理能力都是有限的,一般建議控制在400網(wǎng)元以下,其中網(wǎng)關(guān)網(wǎng)元要控制在64個以下,如果超過64個網(wǎng)管側(cè)會上報GNE MGR LIMIT OVER告警,表明網(wǎng)關(guān)網(wǎng)元所管理的非網(wǎng)關(guān)網(wǎng)元數(shù)目越限,主要是提醒用戶組網(wǎng)過大避免發(fā)生ECC風(fēng)暴。但是現(xiàn)網(wǎng)一般很難做到64個網(wǎng)元以下,例如,上海局某傳輸系統(tǒng)網(wǎng)管曾管理網(wǎng)元303個,但是網(wǎng)關(guān)網(wǎng)元只有2個,造成在日常的維護中經(jīng)常出現(xiàn)大面積網(wǎng)元瞬間脫管現(xiàn)象,后多設(shè)置了2個網(wǎng)關(guān)網(wǎng)元,并合理分配了每個網(wǎng)關(guān)網(wǎng)元處理的網(wǎng)元區(qū)域,關(guān)斷區(qū)域間的ECC通道,各網(wǎng)關(guān)網(wǎng)元分別使用路由器將網(wǎng)管數(shù)據(jù)匯聚到網(wǎng)管服務(wù)器上,問題就得到了有效的解決。
3.2.3 ECC風(fēng)暴
ECC風(fēng)暴的根本原因是ECC本身不適合大組網(wǎng)導(dǎo)致的。如果網(wǎng)絡(luò)規(guī)模過大,會造成ECC路由計算能力下降,當(dāng)網(wǎng)絡(luò)發(fā)生變化時,路由廣播信息不斷在整個網(wǎng)絡(luò)中廣播,會造成路由不斷重新計算、路由表收斂時間過長最終導(dǎo)致ECC風(fēng)暴。
要解決ECC通信不暢和ECC風(fēng)暴問題,最好的方式便是劃分ECC子網(wǎng)。通過ECC關(guān)斷技術(shù)將各子網(wǎng)之間的ECC路由信息隔離,成為相互獨立的ECC通信網(wǎng),每個子網(wǎng)保持50個網(wǎng)元左右。這樣便可以保證網(wǎng)元之間的ECC通信順暢,避免ECC風(fēng)暴的發(fā)生。
對于ECC風(fēng)暴的判斷:網(wǎng)絡(luò)中出現(xiàn)過導(dǎo)致ECC信息變化的因素,如某站光路中斷、停電等;網(wǎng)管上除了網(wǎng)關(guān)網(wǎng)元是綠色的外,其余絕大部分站點都是灰的,特別是多個網(wǎng)關(guān)網(wǎng)元都一樣的現(xiàn)象更是如此(因為多個網(wǎng)關(guān)網(wǎng)元的主控板不大可能同時故障),類似的現(xiàn)象90%是因為ECC振蕩引起的;數(shù)據(jù)查詢判斷:使用命令ecc-get-route查詢,每次查詢時總的路由條數(shù)應(yīng)該發(fā)生變化;觀察部分典型路由的距離,有的會有應(yīng)該走短徑?jīng)]有走而走了長徑;用命令ecc-get-bdinfo查詢,部分光口的狀態(tài)為rx_f、unstable等。利用上面兩個步驟,基本上能定位出是否是ECC振蕩問題;例如:某網(wǎng)絡(luò)的ECC超過了300個,在一定的時期無法進行ECC分割,在網(wǎng)絡(luò)斷纖等情況下,網(wǎng)絡(luò)路由信息大量刷新,如果不進行人為干涉,一般不會自行恢復(fù),需要掌握一些手段來迅速消除ECC振蕩。常用的解決ECC風(fēng)暴的方法有2個。
方法一:調(diào)整ECC最大距離
傳輸設(shè)備缺省的ECC最大距離是64,這個距離是一個最大范圍,在具體的網(wǎng)絡(luò)中往往不需要這么大,而且這個最大距離會影響到ECC路由的搜索范圍。
在設(shè)置了ECC最大距離后,就能夠在一定程度上縮小網(wǎng)絡(luò)ECC路由刷新的范圍,從而能夠降低ECC風(fēng)暴發(fā)生的可能性;而在ECC風(fēng)暴發(fā)生的時候,把ECC最大距離設(shè)置成為5,在網(wǎng)絡(luò)初步穩(wěn)定后,再逐漸調(diào)整最大距離,讓網(wǎng)絡(luò)逐漸穩(wěn)定。一般來說,網(wǎng)絡(luò)正常工作的時候,長度設(shè)置為21即可,但是需要注意的是,這個方法在長環(huán)斷纖的時候,可能會因為某些ECC最大距離過長導(dǎo)致無法登陸,此時,可以臨時更改一下。
方法二:關(guān)閉骨干節(jié)點周圍的ECC鏈路
這個方法可以迅速消除ECC振蕩,在關(guān)閉的時候,對網(wǎng)絡(luò)的光纖連接要掌握清楚,首先關(guān)閉的是那些接入層的環(huán)路,要把一部分設(shè)備完全從現(xiàn)有的ECC網(wǎng)絡(luò)中完全隔離開來,待ECC不再振蕩后,逐漸放開(注意關(guān)閉遠端光口,而不要關(guān)閉到網(wǎng)管方向的路由,防止網(wǎng)管無法登陸打開已經(jīng)關(guān)閉的 ECC);
3.2.4 網(wǎng)元互踢
不同的網(wǎng)管服務(wù)器使用相同的網(wǎng)元用戶登錄同一個網(wǎng)元導(dǎo)致的網(wǎng)管上出現(xiàn)有規(guī)律的頻繁脫管時就可以認(rèn)為發(fā)生了網(wǎng)元互踢。由于上海局內(nèi)范圍大,多個傳輸系統(tǒng)在兩個或者多個地方各有服務(wù)器,因為更換主控板或者升級主控造成自行創(chuàng)建的網(wǎng)元用戶丟失,而網(wǎng)管卻仍然在使用以前創(chuàng)建的這些網(wǎng)元用戶登錄此網(wǎng)元。此時網(wǎng)元的圖標(biāo)不變成灰色,但是圖標(biāo)左上角會出現(xiàn)“未登錄”的提示,網(wǎng)管頻繁瞬報NENOT-LOGIN告警,異常事件也會頻繁上報“用戶退出網(wǎng)元登錄”事件,以上三種現(xiàn)象可以判斷出該網(wǎng)元與其他終端或者網(wǎng)管所使用的用戶沖突了,解決的辦法,可以切換至其他網(wǎng)元用戶處理。
3.2.5 ECC誤碼
當(dāng)傳輸網(wǎng)絡(luò)中頻繁發(fā)生多網(wǎng)元脫管或者間歇性脫管的現(xiàn)象時,如果已經(jīng)排除了網(wǎng)元互踢或ECC風(fēng)暴的原因,那么就需要重點檢查是否存在ECC誤碼了。ECC誤碼主要有兩個方面:一是線路板側(cè)的ECC誤碼;另外就是主控板上的ECC誤碼。
線路板側(cè)的ECC誤碼是指接收到SDH幀的開銷就有錯誤,這個可通過查詢到的歷史性能數(shù)據(jù)看到;主控板側(cè)ECC誤碼是指主控接收時產(chǎn)生了的ECC誤碼。可通過命令cmget-chanerror執(zhí)行多次,間隔為10 s左右,一般至少執(zhí)行30次后查詢并比對輸出的參數(shù),其中 LG、NO、CR、AB、UN、MRF都表示誤碼字段,如果這些字段在查詢過程中不斷增長,說明有誤碼,一直不增長,說明沒有誤碼。
傳輸網(wǎng)絡(luò)是鐵路通信的基礎(chǔ)承載網(wǎng),而傳輸網(wǎng)管對傳輸網(wǎng)絡(luò)的設(shè)備起著實時監(jiān)控的作用,是傳輸網(wǎng)絡(luò)的中樞神經(jīng)。網(wǎng)元的脫管會造成傳輸網(wǎng)管無法及時獲取脫管網(wǎng)元的運行狀態(tài)及告警信息,對傳輸網(wǎng)絡(luò)承載的業(yè)務(wù)有著較大的影響,對傳輸網(wǎng)絡(luò)的安全也有很大的威脅,本文對造成網(wǎng)元脫管的原因進行了分析并針對每種原因提出了解決思路和方法,有助于及時定位并排除故障,避免影響的擴大。