李威偉,許 鵬,馬季春,張桂玉,姬文釗
(中訊郵電咨詢設(shè)計院有限公司,北京 100048)
軟件定義網(wǎng)絡(luò)(Software-defined Network,SDN)的快速發(fā)展,為電信網(wǎng)絡(luò)的服務(wù)能力開放提供了強大支撐。 根據(jù)定義,SDN 架構(gòu)自上而下分為3 個層面,分別是應(yīng)用層、控制層和基礎(chǔ)設(shè)備層。 其中控制層面主要負責(zé)設(shè)備網(wǎng)元的集中控制,實現(xiàn)路徑計算、配置下發(fā)等主要功能。
SDN 控制器采用集中算路的模式,通過基于程序算法或基于流量工程(Segment Routing Traffic-eng,SRTE)策略的路徑計算,實現(xiàn)端到端業(yè)務(wù)的實時發(fā)放,這對路徑計算的實時性和精確性提出了較高的要求[1]。
1.2.1 算路精確性問題
傳統(tǒng)路由器廣泛使用的算法是靜態(tài)路由算法和動態(tài)路由算法,其中靜態(tài)路由算法是指通過預(yù)先設(shè)置好的網(wǎng)絡(luò)信息,計算出數(shù)據(jù)包的路由走向的算法。 動態(tài)路由算法則是通過路由器之間交換的特定路由信息自動建立路由表,并根據(jù)鏈路和節(jié)點的變化進行自動調(diào)整,使路由發(fā)生動態(tài)變化的算法。
如網(wǎng)絡(luò)流負載需求500 Mbps 的帶寬,傳統(tǒng)基于最短路徑的路由算法是將所有流量導(dǎo)入瓶頸鏈路中,所選擇的路徑可用帶寬(100 Mbps)遠小于服務(wù)需求帶寬,這不僅會大幅降低用戶體驗,同時還可能帶來嚴重的網(wǎng)絡(luò)擁塞問題并造成網(wǎng)絡(luò)資源的巨大浪費[2]。
1.2.2 算路高效性問題
傳統(tǒng)路由器的算路,往往通過學(xué)習(xí)和轉(zhuǎn)發(fā)路由表的形式進行。 當網(wǎng)絡(luò)中的路由器節(jié)點增多,網(wǎng)絡(luò)連接變得復(fù)雜時,路由的轉(zhuǎn)發(fā)和廣播數(shù)據(jù)量將會激增,各路由器內(nèi)部學(xué)習(xí)到的路由數(shù)量也會成倍增加。 路由器在識別和驗證路由有效性的操作中會消耗大量的資源和時間,導(dǎo)致算路效率大幅下降。
1.2.3 算路智能性問題
當前網(wǎng)絡(luò)SDN 控制器算路模塊中支持的算路策略有最小跳數(shù)、最低時延等,均是使用估計算法結(jié)合既定的網(wǎng)絡(luò)性能參數(shù)進行路徑計算的算法模型。 其中的算路系統(tǒng)僅作為響應(yīng)器,做簡單的“輸入+輸出”響應(yīng),在面對不同的業(yè)務(wù)場景和不同時刻的網(wǎng)絡(luò)鏡像時,無法做到智能匹配,影響用戶體驗。
鑒于上述網(wǎng)絡(luò)算路存在的問題,結(jié)合智能化網(wǎng)絡(luò)算路的需求,對新一代業(yè)務(wù)路徑計算提出了以下要求。
(1)擺脫網(wǎng)絡(luò)環(huán)境的復(fù)雜性,充分感知網(wǎng)絡(luò)的動態(tài)性和隨機性,快速跟隨網(wǎng)絡(luò)變化輸出路徑結(jié)果,使得算路數(shù)據(jù)的實時性和準確性得到精確保障;
(2)適用于多域多層級復(fù)雜網(wǎng)絡(luò)或海量網(wǎng)元情況,確保算路效率得到保障;
(3)實現(xiàn)業(yè)務(wù)特性和網(wǎng)絡(luò)實時形況的結(jié)合,自動預(yù)測最優(yōu)路徑和多路徑展示,有較高的智能化算路程度[3]。
針對SDN 網(wǎng)絡(luò)下新興業(yè)務(wù)的算路要求,本文以業(yè)務(wù)路徑計算中的最短時延策略算路為例,結(jié)合新興業(yè)務(wù)場景中低時延業(yè)務(wù)應(yīng)用場景,引入人工智能訓(xùn)練平臺,對業(yè)務(wù)路徑計算方案進行研究和優(yōu)化,并提出了一套基于監(jiān)督機器學(xué)習(xí)的時延修正方案。
2.1.1 人工智能業(yè)務(wù)算路平臺的構(gòu)建
為了滿足人工智能與業(yè)務(wù)算路結(jié)合的場景,構(gòu)建將人工智能技術(shù)融入業(yè)務(wù)算路場景中的平臺系統(tǒng)。
該系統(tǒng)接收業(yè)務(wù)場景相關(guān)的算路請求,并從算路請求中拆分出業(yè)務(wù)場景的特征敏感指標,將其傳遞給AI 平臺。 AI 平臺通過訓(xùn)練、評估、優(yōu)化后得出預(yù)測模型,對目標網(wǎng)絡(luò)進行相應(yīng)指標預(yù)測和修正,最終將數(shù)據(jù)提供給上層的業(yè)務(wù)算路模塊。
2.1.2 人工智能技術(shù)推理
傳統(tǒng)的時延修正方式僅僅只考慮了設(shè)備時鐘這個單影響因子,忽略了流量擁塞、鏈路故障、丟包等其他影響因子。
將傳輸時延和測量時延之間的所有影響因子通過建立模型進行數(shù)據(jù)訓(xùn)練,可以得到較為準確的時延數(shù)據(jù),減少算路中的時延誤差,從而達到時延網(wǎng)絡(luò)算路要求的時延精準度。
針對上述場景,與現(xiàn)今較為流行的人工智能算法模型進行了研究和比對,從中選取邏輯回歸、樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)、基于決策樹的集成模型四類算法模型。通過將部分時延數(shù)據(jù)輸入到各模型中,經(jīng)過訓(xùn)練后得出最終的預(yù)測結(jié)果,再將得到的預(yù)測結(jié)果與真實結(jié)果進行概率性比對,擬合出概率曲線。
在算法模型中,邏輯回歸模型和線性回歸模型類似,都對多因素的影響描述不夠準確,導(dǎo)致在特定場景下的偏移量較大。
神經(jīng)網(wǎng)絡(luò)模型經(jīng)過多次訓(xùn)練,得出的預(yù)測模型和預(yù)測結(jié)果具有很大的波動性,無法很好地表達輸入與輸出之間的邏輯關(guān)系。
基于決策樹的集成模型,由于其優(yōu)勢在于小規(guī)模數(shù)據(jù)的訓(xùn)練場景,多次訓(xùn)練后得到較為穩(wěn)定的預(yù)測模型,和真實結(jié)果的匹配度達到90%以上。 最終確定以決策樹集成模型作為低時延網(wǎng)絡(luò)修正的AI 訓(xùn)練模型。
低時延業(yè)務(wù)場景下,時延準確率極大程度影響最終業(yè)務(wù)路徑的有效性。 傳統(tǒng)方法測量出的鏈路時延,會受到時鐘同步、協(xié)議包格式、鏈路擁塞性等因素的影響,結(jié)果的準確性會產(chǎn)生波動。 針對這些突變特性,分類角色和推薦擬合的推理方式較為適合修正時延。
在仿真網(wǎng)絡(luò)下,各鏈路的測量時延、丟包率、流量、帶寬、告警等數(shù)據(jù)可以作為訓(xùn)練模型的輸入,使用XGBoost 模型進行訓(xùn)練,并將傳輸時延值作為模型監(jiān)督的結(jié)果數(shù)據(jù)。
依托上述時延修正模型,結(jié)合傳統(tǒng)的網(wǎng)絡(luò)時延保障技術(shù)方案,概述了基于時延的業(yè)務(wù)路徑計算應(yīng)用。
2.3.1 從網(wǎng)管系統(tǒng)中獲取時延數(shù)據(jù)
網(wǎng)絡(luò)管理系統(tǒng)可對網(wǎng)絡(luò)中的虛擬設(shè)備和物理設(shè)備進行管理。 傳統(tǒng)網(wǎng)管主要通過脈沖測試法和M 序列測試法進行時延測試,最終得到鏈路的時延值。
2.3.2 對時延數(shù)據(jù)做線性擬合
上述時延測量方法,存在相應(yīng)誤差:在實際測量中,誤差的存在原因是兩個設(shè)備時鐘的運行速率不一致,外加鏈路測量時鏈路的擁塞程度所導(dǎo)致。
2.3.3 依托訓(xùn)練平臺進行時延數(shù)據(jù)的訓(xùn)練和預(yù)測
利用上文搭建的人工智能訓(xùn)練平臺,將網(wǎng)管中定時撥測的時延數(shù)據(jù)整合成集,輸入 XGBoost 模型。XGBoost 算法通過傳入的時延撥測數(shù)據(jù)集合和網(wǎng)絡(luò)性能、狀態(tài)、故障數(shù)據(jù)集合,提取出其中的標簽和特征,再運用模型中的分類決策樹,將時延修正場景分為正常場景和異常場景。
經(jīng)過分類的測量時延數(shù)據(jù),結(jié)合準確的傳輸時延值,在目標函數(shù)和損失函數(shù)的不斷擬合和優(yōu)化修正下,網(wǎng)管時延逐步向傳輸時延進行偏移,最終形成數(shù)顆時延修正樹。
在大量輸入和結(jié)果數(shù)據(jù)的訓(xùn)練下,時延修正樹的數(shù)量會不斷增加,最終到達和訓(xùn)練數(shù)據(jù)近似的量級。此時訓(xùn)練模型將生成的決策樹,進行同向比較和因子優(yōu)化,最終合成為一顆復(fù)雜的多分枝決策樹模型。
經(jīng)過大量仿真網(wǎng)絡(luò)數(shù)據(jù)的訓(xùn)練和模型的修正優(yōu)化,最終形成一個較為穩(wěn)定的時延修正模型。 使用該模型進行時延修正后的數(shù)據(jù)結(jié)果如果和真實的傳輸時延相比誤差度小于1%,就證明該模型達到了時延修正的誤差精度要求。
2.3.4 業(yè)務(wù)路徑計算
采用最短時延策略,利用AI 平臺修正后的時延值對仿真網(wǎng)絡(luò)進行業(yè)務(wù)路徑計算得到優(yōu)化后的業(yè)務(wù)路徑和采用基于網(wǎng)管時延的傳統(tǒng)算路相比,業(yè)務(wù)路徑得到優(yōu)化。 通過專業(yè)時延測量儀器對結(jié)果路徑進行時延測量,得到的業(yè)務(wù)路徑和時延值與AI 算路結(jié)果得到的預(yù)估值誤差在5%以內(nèi),與AI 修復(fù)之前30%的誤差相比有了較大的提升,從而滿足了基于時延下的業(yè)務(wù)路徑計算準確性的要求。
通過對傳統(tǒng)業(yè)務(wù)路徑計算概況的介紹和局限性分析,結(jié)合近年來人工智能算法的發(fā)展,文章提出了一種基于AI 機器學(xué)習(xí)的時延修正方案,為基于時延的業(yè)務(wù)場景路徑計算提供了有效幫助,從而能夠更好地滿足最終用戶的體驗訴求和差異化需求,支持網(wǎng)絡(luò)業(yè)務(wù)高效發(fā)展。