引言: 本文對網(wǎng)絡可用性及相關保障技術進行了分析,對單位專網(wǎng)拓撲、應用業(yè)務特點進行了梳理,最后結合實際規(guī)劃了專網(wǎng)高可用性網(wǎng)絡三層接入組網(wǎng)模型,并提出了具體設計思路。
可用度指可維修產(chǎn)品在規(guī)定的條件與時間內(nèi),維持其規(guī)定功能的能力,它綜合反映可靠性和維修性。HA(High Availablity,高可用性)日益成為網(wǎng)絡建設重要指標,對其參考衡量主要涉及可靠性和可維修性兩個方面。網(wǎng)絡可用性指標用A(Availability,可用度 )來表示,可靠性用MTBF(Mean Time Between Failure,平均無故障時間)來表示,可維修性用MTTR(Mean Time To Repair,平均修復時間)來表示??捎霉紸=MTBF/(MTBF+MTTR)來表示,其中MTBF值越大,即可靠性越高,可用度越高。
為保證網(wǎng)絡高可用性,我們需要提高網(wǎng)絡可靠性,重點對網(wǎng)絡的四個部分進行評估和改進,分別是:網(wǎng)絡設計、底層設施、操作和維護、支持服務。其中網(wǎng)絡設計和底層設施我們在建設時首要重點考慮的部分。網(wǎng)絡設計最重要的體現(xiàn)就是網(wǎng)絡拓撲,其原則是核心、匯聚層進行最高的可用性保證;整體設計應保證關鍵硬件不應該出現(xiàn)單點故障;另外一個重點就是應當給出對重要區(qū)域的設備的帶外管理通路,通過單獨的管理網(wǎng)絡來對重要的設備進行訪問——當主要通路中斷時,能夠?qū)υO備進行診斷和進行故障修復工作,可以顯著地提高故障恢復工作的效率。
基于網(wǎng)絡設計和底層設施的高可用性保障技術主要有以下9個方面:
對節(jié)點設備進行硬件冗余,主要形式一般有雙機冗余、主控冗余、交換網(wǎng)冗余、單板熱插拔和電源風扇冗余等,硬件冗余可以在單個部件可靠性一定的情況下提高整個設備、節(jié)點可用性。
鏈路捆綁就是把多個屬性相同的物理鏈路捆綁在一起,邏輯當成一條鏈路。鏈路捆綁主要優(yōu)勢在于:提供更高的鏈路帶寬;流量在各個鏈路間可實現(xiàn)負載分擔;鏈路間互為備份,這些都大大提高系統(tǒng)可用性。另外,利用跨單板、跨設備鏈路捆綁,事實提供了一定程度的單板、設備間備份功能,也較大程度提高了網(wǎng)絡可用性。
為了對設備的軟件系統(tǒng)中的某些錯誤進行修正,需要對設備軟件進行升級、更改。熱補丁技術可以在不影響系統(tǒng)、業(yè)務正常運行的情況下完成對設備軟件錯誤的修正,也就是對設備軟件的動態(tài)升級。
IRF(Intelligent Resilient Framework,智能彈性架構)是將多臺三層交換機互聯(lián)在一起形成一個邏輯交換實體的技術實現(xiàn)。其實它是一種增強的堆疊技術,除做到擴展端口、統(tǒng)一管理之外,在高可靠性、冗余備份方面比傳統(tǒng)堆疊有了很大提高,容許全局范圍內(nèi)的跨設備鏈路聚合,提供全面鏈路級保護。同時IRF技術也實現(xiàn)了跨設備的三層路由冗余,支持多種單播路由協(xié)議、組播路由協(xié)議的分布式處理,真正實現(xiàn)了多種路由協(xié)議的熱備份技術。此外IRF技術也實現(xiàn)了二層協(xié)議在邏輯設備內(nèi)分布式運行,提高了堆疊內(nèi)各交換機的利用率和可靠性,減少了設備間的協(xié)議依賴關系。
環(huán)網(wǎng)就是把設備進行環(huán)形鏈接,因而提供了一定的鏈路冗余,具有很強的單點故障自愈能力。環(huán)網(wǎng)技術分單環(huán)和雙環(huán)兩種結構,較新的環(huán)網(wǎng)技術有:RPR(Resilent Packet Ring,彈性分組環(huán))和RRPP(Rapid Ring Protection Protocol,快速環(huán)保護協(xié)議)。RPR沿襲了光傳輸SDH環(huán)型結構,屬于互逆雙環(huán)結構,它繼承了SDH的快速自愈能力,可以實現(xiàn)50ms的故障切換。RRPP組網(wǎng)采用單環(huán)結構,是一種專門應用于以太網(wǎng)環(huán)的鏈路層協(xié)議,它在以太網(wǎng)環(huán)中能夠防止數(shù)據(jù)環(huán)路引起的廣播風暴,以太網(wǎng)環(huán)上鏈路或設備故障時,能迅速切換到備份鏈路,保證業(yè)務快速恢復。與生成樹協(xié)議相比,RRPP協(xié)議具有算法簡單、拓撲收斂速度快、收斂時間與環(huán)網(wǎng)上節(jié)點數(shù)無關等優(yōu)勢。
STP(Spanning Tree Protocol,生成樹協(xié)議)及Smart Link技術都是解決由于鏈路冗余而產(chǎn)生的二層環(huán)路問題的協(xié)議。其中STP可用于各種拓撲,缺點是收斂時間較慢,通常30秒,難以適應重要數(shù)據(jù)傳輸保障,RSTP(快速生成樹協(xié)議)相對于STP,大大加快了收斂時間,達到百毫秒級收斂速度。MSTP(多實例生成樹協(xié)議)的出現(xiàn)解決了冗余鏈路利用率低的問題。Smart Link則可以認為是特定組網(wǎng)情況下STP的替代技術。
為了解決局域網(wǎng)內(nèi)主機靜態(tài)配置缺省網(wǎng)關而出現(xiàn)單點故障問題,可以采用網(wǎng)關冗余技術。通過多個物理網(wǎng)關虛擬出一個或多個虛擬網(wǎng)關,作為局域網(wǎng)主機的缺省網(wǎng)關,虛擬網(wǎng)關的轉(zhuǎn)發(fā)任務由選舉出來的某個物理網(wǎng)關承擔,如發(fā)生故障,則選舉出另外物理網(wǎng)關承擔虛擬網(wǎng)關的轉(zhuǎn)發(fā)任務。通過把局域網(wǎng)內(nèi)主機的缺省網(wǎng)關配置成不同的虛擬網(wǎng)關,網(wǎng)關冗余技術還可實現(xiàn)流量的負載分擔。目前的虛擬網(wǎng)關技術主要有VRRP(Virtual Router Redundancy Protocol,虛擬路由冗余協(xié)議)、HSRP(Hot Standby Router Protocol,熱備份路由協(xié)議)和GLBP(Gateway Load Balancing Protocol,網(wǎng)關負載均衡協(xié)議),其中HSRP和GLBP是CISCO的私有技術。
通過冗余路由來提高網(wǎng)絡可用性是重要技術手段,當其中一條路徑發(fā)生故障時,流量可以切換到其他冗余路徑。冗余路由可以分為兩種情況,一種是等價路由,一種是非等價路由。ECMP(Equal Cost Multi Path,等價路由,等價多路徑),是各條路徑在互為備份的同時實現(xiàn)了負載分擔。非等價路徑情況下,只有最優(yōu)路徑被啟用作報文轉(zhuǎn)發(fā),次優(yōu)路徑只有當最優(yōu)路徑失效時才會被啟用。ECMP具有很好的收斂速度,使用ECMP來保障高可用性是重要及必要的選擇。
圖1 專網(wǎng)基本拓撲示意圖
為提高收斂速度,基于鏈路狀態(tài)類型的內(nèi)部網(wǎng)關路由協(xié)議,如OSPF、ISIS等可采用以下方法,提高收斂速度:①提高鄰居故障檢測速度:快速Hello可以有效加快故障檢測速度,允許把Hello間隔設到最小50ms,來提高鄰居丟失檢查速度;②提高協(xié)議會話建立速度:在沒有冗余路徑的情況下,快速hello的另一個作用是可以提高OSPF和IS-IS鄰居關系的建立;③提高鏈路狀態(tài)數(shù)據(jù)庫的同步速度:提高鏈路狀態(tài)的同步速度,需要對鏈路變化快速反應,迅速生成新LSA并泛洪;④提高SPF計算效率:提高SPF計算效率,目前普遍采用iSPF(incremental SPF,增量最短路徑優(yōu)先);⑤減少LSDB同步到SPF計算開始之間的時間間隔,可以通過適當調(diào)整SPF timer來實現(xiàn)。
快速檢測相鄰設備之間鏈路通信故障的速度很大程度上決定了網(wǎng)絡的收斂速 度。DLDP(Device Link Detection Protocol,鏈路檢測協(xié)議)協(xié)議的作用就檢測單向鏈路的存在狀態(tài),它工作于二層,與物理層協(xié)同以監(jiān)控鏈路狀態(tài)。另個鏈路檢測協(xié)議是BFD (Bidirectional Forwarding Detection,雙向轉(zhuǎn)發(fā)檢測協(xié)議)也是一個為上層控制協(xié)議提供通用的低開銷快速故障檢測的協(xié)議,上層控制協(xié)議利用BFD提供的服務來決定自己采取相應的重新路由等操作。
單位專用網(wǎng)絡基本拓撲基本呈星型,部分干線建有SDH環(huán)。典型呈以一、二級控制中心及外測通站的三層組成拓撲結構,如圖1所示。
單位專網(wǎng)主要功能是為實現(xiàn)測量站信息數(shù)據(jù)實時、可靠傳輸與中心站傳輸,業(yè)務應用主要采用組播形式進行傳送。
主要業(yè)務應用有:實時語音類(指揮、調(diào)度、勤務電話等)、實時圖像類(測量實況等)、實時數(shù)據(jù)類(測量、控制等)、事后數(shù)據(jù)類(測量等)。
其業(yè)務應用數(shù)據(jù)流特性如下:實時突發(fā)小數(shù)據(jù)流(語音);實時突發(fā)大數(shù)據(jù)流(控制數(shù)據(jù));穩(wěn)定小數(shù)據(jù)流(指揮顯示、時間統(tǒng)一);實時穩(wěn)定大數(shù)據(jù)流(圖像、測量數(shù)據(jù))。
數(shù)據(jù)流向為:多個外測通站向二級中心傳輸交互(圖像、測量、控制數(shù)據(jù)等);二級中心向一級中心、外測控站傳輸(語音、指揮顯示、時間統(tǒng)一等)。
隨著網(wǎng)絡規(guī)模逐年擴大,設備逐年增加,各接入設備IP化建設改造不斷深入,網(wǎng)絡業(yè)務應用在向更多、更大的實時穩(wěn)定大數(shù)據(jù)流(測量數(shù)據(jù))保障需求發(fā)展,給專網(wǎng)網(wǎng)絡性能、組播業(yè)務高可用性保障組織帶來巨大壓力。
圖2 高可用性網(wǎng)絡三層接入組網(wǎng)模型
網(wǎng)絡高可用性不但涉及到網(wǎng)絡架構、設備選型、協(xié)議選擇、業(yè)務規(guī)劃、網(wǎng)絡安全防護等技術問題,還受用戶現(xiàn)有網(wǎng)絡狀況、網(wǎng)絡投資預算、用戶管理水平等影響,所以在規(guī)劃和設計高可用性網(wǎng)絡的時候需要根據(jù)使用實際、網(wǎng)絡現(xiàn)狀,綜合考慮。
依據(jù)基本網(wǎng)絡拓撲,建議進行典型的三層結構組網(wǎng)模型和簡化了的二層扁平結構組網(wǎng),嚴格定義各層功能模型;綜合使用各種故障檢測技術,實現(xiàn)網(wǎng)絡故障的快速檢測、上報;采用冗余設計,提供關鍵節(jié)點的冗余和鏈路冗余,并通過預留資源實現(xiàn)快速收斂;綜合考慮各種高可用性技術的應用部署,優(yōu)化最佳收斂效果。高可用三層接入組網(wǎng)模型,如圖2示意。
接入層是邊緣設備、終端站和IP電話接入網(wǎng)絡的第一層。接入層交換機雙歸屬到兩個單獨的匯聚層交換機以實現(xiàn)冗余。若使用L3連接,則不會出現(xiàn)環(huán)路,所有上行鏈路都將有效轉(zhuǎn)發(fā)流量,并完成負載分擔。
健壯的接入層提供以下主要特性:
(1)使用冗余交換管理引擎和冗余電源獲得的系統(tǒng)級冗余,為關鍵用戶群提供高可用性
(2)使用冗余系統(tǒng)(GLBP、HSRP或VRRP的匯聚層交換機)的雙歸屬連接獲得的缺省網(wǎng)關冗余,支持在匯聚層的主備交換機間快速實現(xiàn)故障切換
(3)實施QoS為關鍵任務網(wǎng)絡流量分發(fā)優(yōu)先級,從而盡量靠近網(wǎng)絡入口對流量進行分類和排隊
(4)鏈路匯聚高可用特性,提供更高的帶寬利用率,同時降低復雜性,匯聚的鏈路之間在故障發(fā)生時,正常鏈路可承擔起所有網(wǎng)絡流量
(5)安全服務,通過配置802.1x,端口安全性、DHCP偵聽、動態(tài)ARP檢查及IP源保護等工具來增加安全性,從而更有效地防止非法網(wǎng)絡訪問
在接入交換機上終結VLAN,從而針對最確定的高可用性網(wǎng)絡拓撲避免STP/RSTP的復雜計算和長時間收斂。如果避免了STP/RSTP,網(wǎng)絡的收斂是可預測、可限制的,并能夠進行可靠調(diào)試。在接入層就配置三層路由協(xié)議,可以把VLAN限制在接入端口上,從而限制了二層廣播域。與二層協(xié)議相比,接入層設備配置三層路由協(xié)議將具有更好的收斂性能,而且能夠充分使用連接鏈路進行負載分擔,提高鏈路利用效率。但接入層使用三層鏈路會增加路由設計的復雜性,而且每個三層接口都需要分配IP地址,增加了對IP地址的消耗。
匯聚來自接入層的節(jié)點,保護核心不受高密度對等關系的影響。另一個功能是創(chuàng)建故障邊界,在接入層發(fā)生故障時提供邏輯隔離點。負載平衡、服務質(zhì)量(QoS)和易于設置等都是匯聚層的主要考慮因素。
使用相同冗余節(jié)點備份連接,實現(xiàn)最快速的收斂并避免黑洞產(chǎn)生。作為模塊化設計的分區(qū)匯聚核心,模塊內(nèi)實現(xiàn)跨越多個接入層交換機的L2 VLAN和三層路由匯總,有利于達到最佳的OSPF收斂。當有VLAN跨越多個接入層交換機時,匯聚層設備間通過二層TRUNK鏈路連接,提供二層通路;當接入層設備沒有VLAN跨越或采用三層接入組網(wǎng)時,匯聚層設備間使用三層鏈路進行路由匯總,加快下層網(wǎng)絡故障時路由收斂速度。匯聚層作三層接入網(wǎng)關時,還可以通過VRRP/GLBP等協(xié)議實現(xiàn)網(wǎng)關的冗余備份和流量的負載分擔。
核心層設備作為網(wǎng)絡的骨干,需要能提供快速的數(shù)據(jù)交換和極高的永續(xù)性,從備份和負載分擔角度可選用雙核心或多核心;從單臺設備考慮,選用交換性能和可靠性極高的高端路由交換設備,支持雙主控、電源冗余、風扇冗余、分布式轉(zhuǎn)發(fā)等特性。并降低核心設備配置的復雜度,減少出現(xiàn)運行錯誤的幾率。
盡量在核心使用冗余的點到點互聯(lián),這樣可產(chǎn)生最快速、最確定的收斂結果。將核心設計為只使用硬件加速業(yè)務的三層交換環(huán)境要優(yōu)于二層的設計,因為在鏈路或節(jié)點故障時能提供更快的收斂速度、通過減少路由鄰接關系和網(wǎng)絡拓撲提高了可擴展性、通過等價多路徑提高帶寬利用率。
建設高可用性網(wǎng)絡,需要從網(wǎng)絡結構、安全、管理、優(yōu)化等方面全盤綜合考慮。
在網(wǎng)絡規(guī)劃階段,需要細致分析用戶需求和業(yè)務模式,明確對網(wǎng)絡可用性影響最大的關鍵節(jié)點和鏈路。設計階段,需要合理規(guī)劃網(wǎng)絡結構,對關鍵節(jié)點和鏈路作充分的冗余設計,采用高可用性技術,并對網(wǎng)絡安全給予足夠的關注。在部署階段則需要關注設備軟硬件質(zhì)量和鏈路質(zhì)量。在維護階段,還需要利用合適的網(wǎng)絡管理工具持續(xù)對網(wǎng)絡業(yè)務流量進行分析,不斷優(yōu)化網(wǎng)絡,提升網(wǎng)絡可用性水平;另外在進行軟硬件版本的升級和新業(yè)務部署時,需要事先詳細規(guī)劃,并制訂應急措施。