岳銘凱
(北京全路通信信號研究設(shè)計院有限公司,北京 100073)
鐵路數(shù)據(jù)網(wǎng)故障恢復(fù)與OTN網(wǎng)絡(luò)保護間協(xié)調(diào)策略探討
岳銘凱
(北京全路通信信號研究設(shè)計院有限公司,北京 100073)
在研究數(shù)據(jù)網(wǎng)故障恢復(fù)技術(shù)及OTN網(wǎng)絡(luò)保護方式基礎(chǔ)上,結(jié)合鐵路數(shù)據(jù)網(wǎng)及傳輸OTN網(wǎng)絡(luò)建設(shè)情況,重點分析探討鐵路數(shù)據(jù)網(wǎng)故障恢復(fù)與OTN網(wǎng)絡(luò)保護間協(xié)調(diào)策略。
故障恢復(fù);保護;協(xié)調(diào)策略
OTN技術(shù)是在SDH和WDM技術(shù)基礎(chǔ)上發(fā)展起來的傳輸技術(shù), OTN網(wǎng)絡(luò)保護主要包括電層保護、光層保護方式,數(shù)據(jù)網(wǎng)為實現(xiàn)快速路由收斂采用FRR、BFD等協(xié)議。為保證數(shù)據(jù)網(wǎng)業(yè)務(wù)的可靠性,數(shù)據(jù)網(wǎng)要求其OTN承載網(wǎng)絡(luò)啟用保護功能,在OTN鏈路或節(jié)點失效時,應(yīng)做好鐵路數(shù)據(jù)網(wǎng)故障恢復(fù)與OTN網(wǎng)絡(luò)保護間協(xié)調(diào)策略。
2.1 電層保護
OTN電層線性保護指在ODUk層采用子網(wǎng)連接保護(SNCP),它可用于網(wǎng)狀網(wǎng)、環(huán)網(wǎng)或混合結(jié)構(gòu)的物理拓撲以及分層網(wǎng)絡(luò)中通道層,根據(jù)服務(wù)層故障、客戶層信息或通道的性能信息進行倒換。根據(jù)保護路徑是否可共享,OTN電層線性保護倒換機制可分為ODUk層線性1+1、線性1∶1、線性1∶n和線性m∶n保護倒換結(jié)構(gòu)。
OTN電層環(huán)形網(wǎng)保護指基于ODUk的共享環(huán)網(wǎng)保護, 受保護的子網(wǎng)絡(luò)連接是兩個終結(jié)連接點之間的完整端到端網(wǎng)絡(luò)連接。環(huán)網(wǎng)結(jié)構(gòu)中的工作通路和保護通路可在同一根光纖中,也可在不同的光纖中, 具體方式可由用戶配置指定。ODUk環(huán)網(wǎng)保護僅支持雙向倒換,保護粒度為ODUk。OTN電層環(huán)網(wǎng)保護分為雙纖ODUk共享環(huán)網(wǎng)保護和四纖共享環(huán)網(wǎng)保護。
2.2 光層保護
OTN光層線性保護包括光通路線性保護和光復(fù)用段線性保護。光通路線性保護是指在光波長層面采用的子網(wǎng)連接保護, 是一種專用端到端的保護機制,可用于網(wǎng)狀網(wǎng)、環(huán)網(wǎng)或混合結(jié)構(gòu)的物理拓撲,通過光通路保護單元的雙發(fā)選收或選發(fā)選收功能,利用不同的光纖或同一光纖中不同波長等對業(yè)務(wù)提供保護。光復(fù)用段線性保護是指通過光復(fù)用段保護單元的雙發(fā)選收或選發(fā)選收功能,利用相同或不同光纜中的一對光纖,對合波后的光復(fù)用段信號提供保護,其中,光復(fù)用段保護單元在合分波器與光放大器之間為類型I,光復(fù)用段保護單元在光放大器與光纖之間為類型II。OTN光層線性保護從倒換結(jié)構(gòu)上可以劃分為線性1+1、線性1∶1、線性1∶n保護倒換。
OTN光層環(huán)網(wǎng)保護包括通路環(huán)網(wǎng)保護和光復(fù)用段環(huán)網(wǎng)保護。OTN光通路環(huán)網(wǎng)保護指基于波長的共享環(huán)保護,工作波長和保護波長可在同一根光纖中,也可在不同光纖中, 具體方式可由用戶配置指定。光通路環(huán)網(wǎng)保護支持雙向倒換,保護粒度為波長,在業(yè)務(wù)上下節(jié)點發(fā)生保護倒換動作。OTN光復(fù)用段環(huán)網(wǎng)保護指基于復(fù)用段的共享環(huán)保護,工作路徑和保護路徑的一對光纖可在同一根光纜中,也可在不同光纜中,具體方式可由用戶配置指定。光復(fù)用段環(huán)網(wǎng)保護支持雙向倒換。
3.1 故障恢復(fù)過程
當網(wǎng)絡(luò)發(fā)生鏈路故障時,與故障鏈路相連的網(wǎng)絡(luò)設(shè)備及時探測到故障并更新到備用鏈路重新進行流量轉(zhuǎn)發(fā)過程即為網(wǎng)絡(luò)故障恢復(fù)過程。
網(wǎng)絡(luò)檢測到故障后,并不是立即擴散路由信息并進行路由計算,數(shù)據(jù)網(wǎng)絡(luò)一般會啟用FRR(在MPLS的環(huán)境下,一般會啟用MPLS FRR/MPLS TE FRR)機制,首先倒換到備用路由進行流量轉(zhuǎn)發(fā),然后全網(wǎng)路由重新收斂,在此期間使用備份路由轉(zhuǎn)發(fā)。啟用FRR后,倒換到備用路由時間一般可在50 ms之內(nèi),這樣數(shù)據(jù)網(wǎng)故障恢復(fù)的關(guān)鍵就在于快速故障檢測。
如果通過鏈路層來進行故障檢測,那么鏈路層協(xié)議不同,故障檢測時間也不同。例如鏈路層協(xié)議為POS時,可以在50 ms內(nèi)檢測到鏈路故障;而當兩臺路由器通過以太網(wǎng)相連時,如果一臺路由器接口狀態(tài)為Down,而另一臺路由器接口狀態(tài)仍為Up時,只能通過協(xié)議自身握手機制來檢測鏈路故障。IS-IS通過Hello報文進行鏈路故障檢測,故障檢測時間在1 s以上,無法滿足快速收斂(ms級)要求,而在以太網(wǎng)鏈路上啟用BFD機制,就能完成快速故障檢測。
3.2 BFD協(xié)議
BFD提供一種通用的、標準化的、協(xié)議無關(guān)的快速故障檢測機制,為各上層協(xié)議如路由協(xié)議、MPLS等統(tǒng)一地快速檢測兩臺路由器間雙向轉(zhuǎn)發(fā)路徑的故障。
BFD在兩臺路由器上建立會話,用來監(jiān)測兩臺路由器間的雙向轉(zhuǎn)發(fā)路徑,為上層協(xié)議服務(wù)。BFD本身并沒有發(fā)現(xiàn)機制,而是靠被服務(wù)的上層協(xié)議通知其該與誰建立會話,會話建立后如果在檢測時間內(nèi)沒有收到對端的BFD控制報文則認為發(fā)生故障,并通知被服務(wù)的上層協(xié)議,上層協(xié)議進行相應(yīng)的處理。
由于BFD報文的標準與協(xié)議無關(guān),可以通過硬件芯片處理BFD探測報文的收發(fā),提高報文的收發(fā)速度以及探測速度,實現(xiàn)50 ms以內(nèi)的快速故障探測。
BFD控制報文包括強制部分和可選認證部分。強制部分格式如圖1所示。
圖1 BFD控制報文強制部分
可選認證部分格式如圖2所示。
圖2 BFD控制報文可選認證部分
控制報文各字段的含義如下:
*Vers:BFD協(xié)議版本號,目前為1;
*Diag:診斷字,標明本地BFD系統(tǒng)最后一次會話Down的原因;
*Sta:BFD本地狀態(tài);
*P:如果標記該標志,表示參數(shù)發(fā)生改變或發(fā)送系統(tǒng)進行連接時,請求對方立即進行確認和響應(yīng)。否則,不請求對方進行確認和響應(yīng);
*F:響應(yīng)P標志置位的回應(yīng)報文中必須將F標志置位;
*C:轉(zhuǎn)發(fā)/控制分離標志,一旦置位,控制平面的變化不影響B(tài)FD檢測,如:控制平面為ISIS,當IS-IS重啟/GR時,BFD可以繼續(xù)監(jiān)測鏈路狀態(tài);
*A:認證標識,置位代表會話需要進行驗證;
*D:查詢請求,置位代表發(fā)送方期望采用查詢模式對鏈路進行監(jiān)測;
*R:預(yù)留位;
*Detect Mult:檢測超時倍數(shù),用于檢測方計算檢測超時時間;
*Length:報文長度;
*My Discreaminator:BFD會話連接本地標識符;
*Your Discreaminator:BFD會話連接遠端標識符;
*Desired Min Tx Interval:本地支持的最小BFD報文發(fā)送間隔;
*Required Min RX Interval:本地支持的最小BFD接收間隔;
*Required Min Echo RX Interval:本地支持的最小Echo報文接收間隔(如果本地不支持Echo功能,則設(shè)置0);
*Auth Type:認證類型,目前協(xié)議提供有Simple Password,Keyed MD5,Meticulous Keyed MD5,Keyed SHA1和Meticulous Keyed SHA1;
*Auth Length:認證數(shù)據(jù)長度;
*Authentication Data:認證數(shù)據(jù)區(qū)。
4.1 OTN網(wǎng)絡(luò)架構(gòu)
目前鐵路光傳送網(wǎng)網(wǎng)絡(luò)結(jié)構(gòu)分為骨干層、匯聚層(局內(nèi)干線)和接入層。骨干層傳輸網(wǎng)主要完成各路局至鐵路總公司、路局之間業(yè)務(wù)的傳送及調(diào)度,并為鐵路局組網(wǎng)提供迂回保護通道。匯聚層(局內(nèi)干線)傳輸網(wǎng)主要完成局內(nèi)骨干節(jié)點之間業(yè)務(wù)傳送,實現(xiàn)業(yè)務(wù)從接入層到路局內(nèi)骨干節(jié)點匯聚。接入層傳輸網(wǎng)則提供豐富的業(yè)務(wù)接口,實現(xiàn)多種業(yè)務(wù)的接入,為路局內(nèi)各種接入業(yè)務(wù)提供通道。
4.2 OTN網(wǎng)絡(luò)保護方式
鐵路骨干層OTN網(wǎng)絡(luò)在電層面,承載IP數(shù)據(jù)業(yè)務(wù)的子波啟用ODUk SNCP的保護方式,承載SDH業(yè)務(wù)的子波啟用SDH自有的環(huán)網(wǎng)保護。在光層面,敷設(shè)2條光纜的鐵路線,啟用OLP 1+1保護方式(光復(fù)用段線性保護類型II)。對于2條光纜敷設(shè)時間間隔較長、光纜指標相差較大區(qū)段,則采用OMSP保護(光復(fù)用段線性保護類型I)。匯聚層(局內(nèi)干線)OTN網(wǎng)絡(luò)在電層面,承載SDH業(yè)務(wù)的子波啟用SDH自有的環(huán)網(wǎng)保護。承載IP數(shù)據(jù)業(yè)務(wù)的子波,則根據(jù)各路局的實際情況,啟用或不啟用ODUk SNCP保護方式。在光層面,由于路局光纜條件不一,除客運專線外,大多數(shù)鐵路兩側(cè)的光纜敷設(shè)時間不一致,因此各路局根據(jù)光纜情況決定是否啟用OLP保護方式。
5.1 數(shù)據(jù)網(wǎng)網(wǎng)絡(luò)構(gòu)架
鐵路數(shù)據(jù)網(wǎng)分為骨干網(wǎng)絡(luò)和各鐵路局區(qū)域網(wǎng)絡(luò)2級結(jié)構(gòu)。鐵路總公司作為骨干網(wǎng)匯接節(jié)點,北京、西安、武漢、上海、成都作為骨干網(wǎng)轉(zhuǎn)發(fā)節(jié)點、各路局設(shè)置骨干網(wǎng)接入節(jié)點。北京、西安、武漢骨干網(wǎng)轉(zhuǎn)發(fā)節(jié)點間組成半網(wǎng)狀連接,相鄰轉(zhuǎn)發(fā)節(jié)點互聯(lián),各轉(zhuǎn)發(fā)節(jié)點與鐵路總公司節(jié)點直接互聯(lián),骨干網(wǎng)接入節(jié)點同時與兩個大區(qū)轉(zhuǎn)發(fā)節(jié)點互聯(lián)。骨干網(wǎng)節(jié)點間采用10 GE接口互聯(lián)。骨干數(shù)據(jù)網(wǎng)由鐵路骨干層OTN網(wǎng)絡(luò)承載。
鐵路局區(qū)域網(wǎng)絡(luò)由核心節(jié)點(鐵路局所在地)、匯聚節(jié)點和接入節(jié)點組成。對于匯聚節(jié)點到核心節(jié)點間、接入節(jié)點到匯聚節(jié)點間的連接,在城域范圍內(nèi)或有需求的節(jié)點,采用環(huán)形或星形方式接入上層節(jié)點,在鐵路沿線范圍,采用鏈型雙歸方式接入上層節(jié)點。目前,隨著鐵路局局內(nèi)OTN網(wǎng)絡(luò)的建設(shè),數(shù)據(jù)網(wǎng)匯聚節(jié)點到核心節(jié)點間、接入節(jié)點到匯聚節(jié)點間的連接鏈路,主要由局干OTN網(wǎng)絡(luò)或MSTP傳輸系統(tǒng)(GE接口)提供,同城鏈路及接入節(jié)點間的鏈路直接承載在光纖上。
5.2 數(shù)據(jù)網(wǎng)故障恢復(fù)
隨著鐵路OTN網(wǎng)絡(luò)的建設(shè),鐵路數(shù)據(jù)網(wǎng)主要由OTN網(wǎng)絡(luò)和光纖承載。鐵路骨干數(shù)據(jù)網(wǎng),對于OTN承載數(shù)據(jù)網(wǎng)的10 G鏈路,數(shù)據(jù)網(wǎng)路由器10 GE接口的成本為10 G POS接口成本的40%~50%,而目前的OTN設(shè)備的10 G和10 GE接口成本差別不大,因此一般采用10 GE接口類型。鐵路局區(qū)域網(wǎng)絡(luò),主要以GE鏈路為主。
為保證數(shù)據(jù)網(wǎng)對業(yè)務(wù)承載的可靠性,針對網(wǎng)絡(luò)故障恢復(fù),在其關(guān)鍵過程啟用了BFD完成快速鏈路故障探測;并先期在骨干網(wǎng)絡(luò)轉(zhuǎn)發(fā)節(jié)點間進行了MPLS-TE FRR部署,在積累運維經(jīng)驗后進一步結(jié)合多種技術(shù),優(yōu)化數(shù)據(jù)網(wǎng)對業(yè)務(wù)的承載。
OTN承載數(shù)據(jù)網(wǎng)絡(luò),主要鏈路類型為10 GE、GE,這樣,數(shù)據(jù)網(wǎng)啟用了BFD協(xié)議實現(xiàn)快速感知鏈路故障。當鏈路故障時,采用首先啟用OTN保護機制,再啟用數(shù)據(jù)網(wǎng)故障恢復(fù)機制的原則。
不啟用BFD時,當OTN鏈路出現(xiàn)故障,OTN設(shè)備在50 ms內(nèi)完成倒換,對IP業(yè)務(wù)沒有影響;當OTN鏈路出現(xiàn)故障,而OTN保護無法處理時,數(shù)據(jù)網(wǎng)會自己完成故障恢復(fù),但恢復(fù)時間較長,一般大于1 s。
啟用BFD時,當OTN鏈路出現(xiàn)故障,OTN進行保護倒換,但因數(shù)據(jù)網(wǎng)的故障恢復(fù)時間變短,有時會出現(xiàn)OTN和數(shù)據(jù)網(wǎng)同時進行鏈路倒換情況。這樣就需要OTN網(wǎng)絡(luò)保護機制、數(shù)據(jù)網(wǎng)故障恢復(fù)機制協(xié)調(diào)配合來共同保證數(shù)據(jù)網(wǎng)業(yè)務(wù)的可靠性。
6.1 鐵路數(shù)據(jù)網(wǎng)故障恢復(fù)與OTN單層網(wǎng)絡(luò)保護間協(xié)調(diào)策略
在OTN網(wǎng)絡(luò)對于數(shù)據(jù)業(yè)務(wù)采用ODUk SNCP 或OLP或OMSP單層網(wǎng)絡(luò)保護機制時,OTN系統(tǒng)完成對故障的保護倒換總體時間包括檢測時間(目前鐵路OTN網(wǎng)絡(luò)均采用1+1單向倒換的保護,檢測時間在10 ms以內(nèi))+保護倒換時間(50 ms)+鏈路傳輸時間(5 us/km)+設(shè)備傳輸延遲時間(us級,可忽略)。根據(jù)鐵路數(shù)據(jù)網(wǎng)構(gòu)架,最長鏈路(西安—烏魯木齊)按3 000 km考慮,鏈路傳輸時間為15 ms, 則OTN系統(tǒng)完成對故障的保護倒換總體時間小于75 ms。
BFD報文的各種參數(shù)在會話建立后都可動態(tài)改變,不影響會話當前狀態(tài),其中可以動態(tài)改變的參數(shù)有:DMTI、RMRI、使能去使能ECHO功能、使能去使能查詢功能、使能去使能認證等。在異步模式下,由于檢測位置是在對端,所以對端計算檢測時間時需要用到本端的檢測倍數(shù),公式如下:檢測時間=接收的遠端DM×max(bfd.RMRI,接收到的DMTI)。
為了先啟用OTN保護機制,通過設(shè)置路由器的BFD時間,適當增加故障檢測時間,可以保證OTN首先進行倒換并且不觸發(fā)IP層的倒換機制,因此,對于BFD,可設(shè)置max(bfd.RMRI,接收到的DMTI)為40 ms,DM為3,則檢測時間為120 ms,完成OTN保護與數(shù)據(jù)網(wǎng)故障恢復(fù)的協(xié)同工作。
6.2 數(shù)據(jù)網(wǎng)故障恢復(fù)與OTN多層網(wǎng)絡(luò)保護間協(xié)調(diào)策略
在OTN網(wǎng)絡(luò)對于數(shù)據(jù)業(yè)務(wù)將電層ODUk SNCP與光層OLP或OMSP網(wǎng)絡(luò)保護機制同時啟用時,OTN系統(tǒng)一般先啟用光層OLP或OMSP保護,對于ODUk SNCP做拖延時間設(shè)置,一般設(shè)置30 ms~40 ms,這樣,根據(jù)鐵路數(shù)據(jù)網(wǎng)構(gòu)架,最長鏈路(西安—烏魯木齊)按3 000 km考慮, 則OTN系統(tǒng)對故障的保護倒換總體時間小于115 ms。
BFD報文的各種參數(shù)在會話建立以后都可動態(tài)改變,不影響會話當前狀態(tài),其中可以動態(tài)改變的參數(shù)有:DMTI、RMRI、使能去使能ECHO功能、使能去使能查詢功能、使能去使能認證等。在異步模式下,由于檢測的位置是在對端,所以對端計算檢測時間時需要用到本端的檢測倍數(shù),公式如下:檢測時間=接收的遠端DM×max(bfd.RMRI,接收到的DMTI)。為了先啟用OTN的保護機制,通過設(shè)置路由器的BFD時間,適當增加故障檢測時間,可以保證OTN首先進行倒換并且不觸發(fā)IP層的倒換機制,因此,對于BFD,可設(shè)置max(bfd. RMRI,接收到的DMTI)為60 ms,DM為3,則檢測時間為180 ms,完成OTN保護與數(shù)據(jù)網(wǎng)故障恢復(fù)的協(xié)同工作。
當數(shù)據(jù)網(wǎng)由OTN網(wǎng)絡(luò)承載時,由于OTN網(wǎng)絡(luò)保護倒換時間較短,當鏈路出現(xiàn)故障,一般采用首先啟用OTN保護機制原則。在具體工程應(yīng)用中,要綜合考慮OTN各種保護方式及多層保護同時啟用的情況,采用有效策略做好與數(shù)據(jù)網(wǎng)故障恢復(fù)機制的協(xié)調(diào),以保證數(shù)據(jù)網(wǎng)業(yè)務(wù)的可靠性。
[1]李允博.光傳送網(wǎng)(OTN)技術(shù)的原理與測試[M].北京:人民郵電出版社,2013.
[2]中華人民共和國工業(yè)和信息化部.YD/T 1990-2009 光傳送網(wǎng)(OTN)網(wǎng)絡(luò)總體技術(shù)要求[S].北京:人民郵電出版社,2009.
[3] RFC 5881 Bidirectional Forwarding Detection (BFD) for IPv4 and IPv6 (Single Hop)[S].
Based on the research on the fault recovery technology of railway data network and OTN network protection methods, the paper analyzes and discusses the coordination strategy between fault recovery of railway data network and OTN network protection methods considering the current construction situation of railway data network and OTN network.
fault recovery; protection; coordination strategy
10.3969/j.issn.1673-4440.2015.03.008
2015-04-01)
中國鐵路總公司科技研究開發(fā)重大課題項目(BK-2013X003-A1-1)