OLT作為局端設備,主要用于對終端業(yè)務的控制和承載,同時在整個接入網(wǎng)絡中,OLT也作為承上啟下的“業(yè)務橋梁”,承擔著故障處理的“分水嶺”的重要責任。一旦OLT設備發(fā)生異常故障,就會給終端業(yè)務造成十分嚴重的影響。
圖1 大量報錯打印信息
在日常維護工作當中,OLT所引起的故障,大家都已經(jīng)十分熟悉了,而本文則主要給大家分享一種日常不常見的OLT脫管故障及處理方法。
近 日,有 同事發(fā)現(xiàn)某地的烽火GPON機房5516-01 OLT Telnet登錄失敗,也無法ping通,專業(yè)網(wǎng)管顯示設備脫管。
步驟1:現(xiàn)場登錄主控盤上,發(fā)現(xiàn)有大量報錯打印,如圖1所示。
步驟2:這是交換芯片的ParityError報錯,芯片廠商的相關資料如下:
1.概念:ParityError稱為軟失效,軟失效是指由于高能粒子單元對芯片晶元的撞擊,產(chǎn)生大量的電子空穴對,當這些帶電粒子的帶電量與芯片存儲單元的閥值電荷量相當時,將會導致芯片比特翻轉而引起單/多比特錯誤。
2.產(chǎn)生原因:芯片尺寸越來越小,功耗越來越低,晶體管的節(jié)點電壓和工作電壓都隨之降低,使得芯片也越來越容易產(chǎn)生軟失效的問題。
軟失效的原因分為如下兩大類:芯片封裝材料中放射性元素產(chǎn)生的alpha粒子,1%的錯誤是多比特錯誤;宇宙射線的高能中子和低能中子,30%的錯誤是多比特錯誤。
3.失效概率:一般儲存器芯片廠家都會給出芯片的軟失效率(SER)。
單 位 FIT(Fail In Time),即每109個小時芯片發(fā)生軟失效的錯誤數(shù)。根據(jù)芯片儲存容量的不同一般表為FIT/Mb,其中1FIT/Mb=1fail per 109hrs per 106bits=1015fail/bithour。瑞薩提供的SER,封裝材料alpha粒子引起的SER為126FIT/Mb,宇宙射線一起的 SER為 98FIT/Mb。
4.處理機制:
問題現(xiàn)象:某個表項或者寄存器出現(xiàn)比特翻轉,導致業(yè)務中斷。
處理機制:芯片內(nèi)部硬件周期性快速的檢查所有表項,若檢測到某個表項出現(xiàn)PARITY/ECC錯誤,則通知CPU,CPU使用該表項的軟備份配置重新刷新該表項進行恢復。
注意事項:軟件需要備份存儲所有相關表項的配置值,若表項很大,則會耗費CPU大量內(nèi)存。
步驟3:經(jīng)過以上分析,以及結合現(xiàn)場問題的報錯打印信息,確定了該問題是由于主控盤的交換芯片的軟失效導致。
根據(jù)以上排查和分析,確認問題原因是由于主控盤的交換芯片的軟失效導致。
1.通過查詢失效業(yè)務的相關寄存器,如果發(fā)現(xiàn)有EVEN_PARITY=1,則存在軟失效問題,此時只能重啟單盤解決。
2.如果重啟后仍然上報EVEN_PARITY并且不消失,請更換機盤。
OLT軟失效脫管故障的發(fā)生,從無法登錄OLT設備進行查看,到維護人員初步判斷懷疑是鏈路故障、光模塊故障、設備是否掉電。而失效過程中并沒有收到OLT所帶用戶上報故障,趕到現(xiàn)場也沒有發(fā)現(xiàn)設備斷電、端口指示燈正常,有數(shù)據(jù)燈閃爍。
如何快速尋找并正確定位處理至關重要,維護人員現(xiàn)場通過采用串口線連接設備,采集設備日志信息發(fā)送給廠家,分析出產(chǎn)生故障原因,進而采取針對性的排錯舉措。