李奕江,葉會標,謝仁華,樓佳麗,莊丹娜,李傳煌
基于圖神經(jīng)網(wǎng)絡的網(wǎng)絡性能智能預測
李奕江1,葉會標2,謝仁華1,樓佳麗1,莊丹娜1,李傳煌1
(1.浙江工商大學信息與電子工程學院(薩塞克斯人工智能學院),浙江 杭州 310018;2.中國電信股份有限公司浙江分公司,浙江 杭州 310020)
傳統(tǒng)網(wǎng)絡性能預測技術存在網(wǎng)絡狀態(tài)獲取不夠全面及網(wǎng)絡性能評估準確性欠佳等問題,利用圖神經(jīng)網(wǎng)絡學習推理網(wǎng)絡關系數(shù)據(jù)的特點,結合捕獲的網(wǎng)絡全局信息,提出了一種基于圖神經(jīng)網(wǎng)絡的網(wǎng)絡性能智能預測方法。通過網(wǎng)絡系統(tǒng)抽象及網(wǎng)絡性能建模,將復雜的網(wǎng)絡信息轉化為形式化的圖數(shù)據(jù)進行描述,利用圖空域卷積處理圖網(wǎng)絡節(jié)點的消息傳遞過程,實現(xiàn)網(wǎng)絡信息之間的關系推理,研究了實現(xiàn)網(wǎng)絡性能預測的圖神經(jīng)網(wǎng)絡模型,提出了一種能處理流量矩陣、網(wǎng)絡拓撲、路由策略、節(jié)點配置的圖神經(jīng)網(wǎng)絡體系結構,最后通過實驗論證了模型能更好地實現(xiàn)包括時延、抖動和丟包率的網(wǎng)絡性能的準確預測。
圖神經(jīng)網(wǎng)絡;網(wǎng)絡性能預測;網(wǎng)絡建模;網(wǎng)絡分析
由于網(wǎng)絡技術和計算機通信技術的迅猛發(fā)展,網(wǎng)絡規(guī)模及其流量呈指數(shù)型增長,隨之產(chǎn)生了各項復雜的網(wǎng)絡業(yè)務,用戶的需求存在增長趨勢[1]。與此同時,許多具有實時性特點的新興多媒體業(yè)務有著嚴格的時延、抖動、丟包率、吞吐量等服務質量(quality of service,QoS)參數(shù)要求。種種跡象表明,網(wǎng)絡規(guī)模的日益龐大和結構的逐漸復雜,導致如今影響網(wǎng)絡正常運行的因素不斷增加,對網(wǎng)絡性能進行實時智能預測的需求也越來越大。
現(xiàn)有的建模技術并不能實現(xiàn)對相關性能指標的準確估計,存在計算量龐大、模型構建理想化、網(wǎng)絡信息考慮不全面等缺陷。對于網(wǎng)絡性能分析方面的研究,國內(nèi)外都做了大量的工作,基本分為測量法、解析法、仿真法。單純利用軟件、硬件工具來監(jiān)測相關特性度量進行數(shù)據(jù)的簡單運算[2-6]無法滿足新型網(wǎng)絡對測量分析的嚴格要求;利用數(shù)學理論方法描述性能特征和系統(tǒng)參數(shù)之間的關系,得到性能估計的參數(shù)解(如排隊論、網(wǎng)絡演算等)[7-11]建立的是理想模型,與實際復雜的網(wǎng)絡有差異;抽象建立網(wǎng)絡系統(tǒng)模型,結合數(shù)學描述和網(wǎng)絡建模相關技術進行性能預測[12-15]是現(xiàn)在的趨勢,但現(xiàn)有的智能仿真模型在更廣泛應用的非歐幾里得領域(如擁有復雜、不規(guī)律的連接信息的現(xiàn)實網(wǎng)絡中)性能一般。圖神經(jīng)網(wǎng)絡(graph neural network,GNN)[16-17]憑借其強大的對于復雜圖數(shù)據(jù)處理能力而廣受歡迎,過去在圖神經(jīng)網(wǎng)絡研究領域涌現(xiàn)了可用于解決實際場景中預測和分類問題的各種模型[18-23],在實際網(wǎng)絡中,可以將網(wǎng)絡映射成節(jié)點與邊的關系,利用GNN從非結構化數(shù)據(jù)中生成圖,其輸出不隨節(jié)點的輸入順序為轉移,邊表示兩個節(jié)點之間的依賴關系,并可以依賴周圍的狀態(tài)來更新節(jié)點的狀態(tài),這對網(wǎng)絡的性能預測研究非常有實際意義。當前的GNN模型仍然存在著深層網(wǎng)絡性能劇降、代表性節(jié)點難選取和可擴展性不夠等問題,尤其在實際網(wǎng)絡建模方面,仍缺少完整地考慮實際網(wǎng)絡狀態(tài)和運行的GNN模型。本文受消息傳遞神經(jīng)網(wǎng)絡(message passing neural network,MPNN)機制[24]和RouteNet模型[25]啟發(fā),分析已有的GNN模型并進行改進,構建綜合考慮實際網(wǎng)絡的GNN模型。
針對圖神經(jīng)網(wǎng)絡在處理有依賴關系數(shù)據(jù)的優(yōu)秀能力,結合軟件定義網(wǎng)絡(software defined network,SDN)可編程控制全局信息和已有的網(wǎng)絡性能評估方法,本文提出一種基于圖神經(jīng)網(wǎng)絡的網(wǎng)絡性能智能預測方法。該方法利用深度學習中的圖神經(jīng)網(wǎng)絡作為一種計算機網(wǎng)絡建模技術構建估計網(wǎng)絡性能的模型,輸入網(wǎng)絡基礎抽象和網(wǎng)絡流量特征,預測時延、丟包率等網(wǎng)絡性能,通過得到的性能預測結果智能地調(diào)整網(wǎng)絡行為,保持網(wǎng)絡可靠的運行性能,為網(wǎng)絡用戶提供更優(yōu)質的服務。
本文所提出的網(wǎng)絡性能智能預測架構,結合SDN,通過控制器獲取網(wǎng)絡全局信息;在得到網(wǎng)絡實時狀態(tài)信息的情況下,通過網(wǎng)絡建模實現(xiàn)網(wǎng)絡性能的有效預測。其中,建模得到的網(wǎng)絡模型是使用收集的或者網(wǎng)絡模擬的數(shù)據(jù)專門訓練的圖神經(jīng)網(wǎng)絡來構建的,能夠捕獲網(wǎng)絡要素的基本關系,例如,它可以對將流量負載、路由策略與網(wǎng)絡性能聯(lián)系起來的函數(shù)進行建模。
采用圖網(wǎng)絡的思路:首先構建一個“圖”數(shù)據(jù),通過理解圖節(jié)點的基本關系含義,再進行具體的網(wǎng)絡數(shù)據(jù)的學習?;诖耍梢詰{借已知的節(jié)點之間的消息傳遞性,推理下一個圖結構中關系,為此將網(wǎng)絡性能預測分為兩個問題看待:網(wǎng)絡系統(tǒng)抽象和網(wǎng)絡性能建模。
實際物理網(wǎng)絡可描述為網(wǎng)絡的既定配置,包括網(wǎng)絡拓撲、大小、網(wǎng)絡節(jié)點配置、路由策略等,將這些基礎網(wǎng)絡結構及配置處理成一般圖形的神經(jīng)網(wǎng)絡體系結構的輸入,針對圖結構進行訓練和推理從而設計新的圖神經(jīng)網(wǎng)絡模型,網(wǎng)絡基礎結構抽象化描述如圖1所示。
圖1 網(wǎng)絡基礎結構抽象化描述
加之由隨機分布(包括到達間和包長度過程)描述的流量,在不考慮物理誤差等隨機條件的情況下,將這些隨機過程組合在網(wǎng)絡中,網(wǎng)絡系統(tǒng)抽象化描述如圖2所示。
由上述網(wǎng)絡系統(tǒng)抽象,擬定輸入流量矩陣、網(wǎng)絡拓撲、路由策略、節(jié)點配置,圖神經(jīng)網(wǎng)絡模型能通過將拓撲中的節(jié)點、鏈路與由路由方案產(chǎn)生的源—目的路徑以及通過它們的流量進行建模來實現(xiàn)理解拓撲結構、路由和輸入流量之間的復雜關系,對所有節(jié)點的端到端平均時延等其他性能進行估計,網(wǎng)絡性能建模描述如圖3所示。
結合上述兩項描述,本文依賴于圖神經(jīng)網(wǎng)絡模型的推理能力來有效地操作和推廣以圖表示的
環(huán)境,希望能夠在整個網(wǎng)絡拓撲中傳播任何路由方案,并抽象出當前網(wǎng)絡狀態(tài)的有意義的信息。在該種情況下,網(wǎng)絡建模能夠接收到不同路由方案、節(jié)點配置、拓撲變化和流量矩陣變化,并精確地預測網(wǎng)絡的性能。將實時收集到的流量信息、網(wǎng)絡狀態(tài)、管理狀態(tài)作為不同的網(wǎng)絡配置,通過圖神經(jīng)網(wǎng)絡可以進行相互之間的聯(lián)系,從而根據(jù)當前的網(wǎng)絡狀態(tài)生成性能指標,基于圖神經(jīng)網(wǎng)絡的網(wǎng)絡性能智能預測架構如圖4所示。
圖4 基于圖神經(jīng)網(wǎng)絡的網(wǎng)絡性能智能預測架構
對于給定網(wǎng)絡,依據(jù)圖網(wǎng)絡定義,定義描述拓撲連接關系為:
若將節(jié)點、鏈路和路徑分別依據(jù)路由配置進行關系連接,則對于節(jié)點和路徑之間的關系來說,針對固定網(wǎng)絡拓撲和已知的路由配置,某一節(jié)點狀態(tài)與所有包含該節(jié)點的路徑狀態(tài)有關,因此可將節(jié)點集合和路徑集合重新定義為:
同理可得鏈路與路徑關系的各自集合表示:
本文中目標構建的圖神經(jīng)網(wǎng)絡模型基于一種表示空域卷積的形式化框架——MPNN,這是一種由圖網(wǎng)絡(graph network,GN)、門控循環(huán)單元(gate recurrent unit,GRU)、圖自編碼器(graph auto-encoder,GAE)、多層感知機(multi-layer perceptron,MLP)所構成的級聯(lián)神經(jīng)網(wǎng)絡模型。依據(jù)前面對網(wǎng)絡特性的分析,本文將輸入路徑、鏈路、節(jié)點特征,輸出路徑級別的隱藏狀態(tài)信息,評估路徑級別的性能指標,設計的圖神經(jīng)網(wǎng)絡模型具體架構如圖5所示。
首先收集NSFNet拓撲的網(wǎng)絡狀態(tài)視圖和資源視圖的數(shù)據(jù)集,其中,數(shù)據(jù)集包括相關性能信息、流量信息、路由信息和拓撲信息。模型依據(jù)DataNetAPI從數(shù)據(jù)集中提取所需的特征信息,進行格式轉化和數(shù)據(jù)預處理——將數(shù)據(jù)統(tǒng)一映射到[0,1]完成歸一化。再使用TensorFlow框架中常用的二進制序列數(shù)據(jù)文件存儲格式TFRecords來實現(xiàn)數(shù)據(jù)存儲及讀取。最后將其劃分為訓練集和測試集,訓練集用于調(diào)整網(wǎng)絡的參數(shù)權重和偏差,測試集用于測試訓練后的網(wǎng)絡模型來反映網(wǎng)絡性能。給定圖網(wǎng)絡G,根據(jù)路由策略RM,將節(jié)點、鏈路和路徑特征(x, x, x)作為輸入,得到節(jié)點、鏈路和路徑的初始狀態(tài)集合(h0, h0, h0)。
具體地,本文所設定的節(jié)點特征x為節(jié)點配置信息,鏈路特征x為鏈路帶寬,路徑特征x為路徑級別輸入流量,其中節(jié)點配置信息見表1。
表1 節(jié)點配置信息
對節(jié)點進行空域卷積,將連接節(jié)點的所有隱藏狀態(tài)信息求和,以更新當前節(jié)點的隱藏狀態(tài),如式(7)所示。
根據(jù)節(jié)點、鏈路和路徑的相互關系,進行狀態(tài)的更新:
其中,|p|表示路徑p的標識符,和為隱藏狀態(tài)的更新函數(shù)。節(jié)點、鏈路、路徑的狀態(tài)空域卷積過程如圖6所示。
圖6 節(jié)點、鏈路、路徑的狀態(tài)空域卷積過程
根據(jù)MPNN,可以將空域卷積分為兩個步驟:消息傳遞和狀態(tài)更新,即對于第條路徑來說,若要更新路徑的隱藏信息,對與該條路徑相關聯(lián)的節(jié)點和鏈路的狀態(tài)信息進行消息交錯傳遞;再結合路徑當前狀態(tài)進行狀態(tài)更新。
其中,M為消息函數(shù),U為更新函數(shù),為空域卷積的運行步數(shù)。
循環(huán)該隱藏狀態(tài)消息傳遞和狀態(tài)更新過程,使得每個目標實體的隱藏狀態(tài)都波動很小,圖的信息流動總體趨于平穩(wěn),節(jié)點、鏈路、路徑的消息傳遞過程如圖7所示。
圖7 節(jié)點、鏈路、路徑的消息傳遞過程
這一消息傳遞過程由GRU完成。將當前輸入特征x和節(jié)點傳遞下來的包含之前相關信息的隱藏狀態(tài)h?1作為GRU的輸入,通過式(11)~式(14)的計算過程,得到隱藏節(jié)點的輸出y和傳遞給下一個隱藏狀態(tài)h。
完成上述過程之后,在神經(jīng)網(wǎng)絡進行擬合前加入GAE,以學習狀態(tài)特征和輸出特征的高效表示,提取更有用的信息,提高相關度。GAE對輸入的狀態(tài)數(shù)據(jù)進行去噪以及為了可視化進行降維,可以在預測結果生成的前提下降低模型復雜度。
經(jīng)過一系列的消息傳遞過程以及信息提取過程之后,對狀態(tài)進行聚合并讀出預測值,主要使用讀出函數(shù)計算整張圖的特征向量,輸出路徑級特征的預測值。本文所構建的圖神經(jīng)網(wǎng)絡由MLP來進行圖讀取,并在該圖神經(jīng)網(wǎng)絡中引入ReLU激活函數(shù),使其更加逼近非線性函數(shù)。
為了解決在模型在訓練和預測的時候輸入的數(shù)據(jù)分布的不同,采用計劃采樣機制[26]。該機制在模型訓練的前期,以較大的概率輸入目標序列的真實標簽以改善因為模型訓練初期預測不準確而難以收斂的現(xiàn)象,隨著訓練過程的進行,概率慢慢衰減。設已訓練到了個mini-batch,則定義概率為反向sigmoid衰減,以此增加模型容錯能力。
由于在訓練過程生成y時,輸入的y?1為訓練集標注序列的真值,而在預測的時候,輸入的y'?1為在?1步時生成的可能是預測正確也可能是預測錯誤的標簽,若為錯誤標簽,則會導致錯誤爆炸。計劃采樣機制在訓練過程中,下一步的輸入不完全使用真實的序列標簽,以概率選擇真實標簽,以概率1?選擇模型的自身輸出,在訓練的過程中,大小如學習率一樣可變,計劃采樣機制如圖8所示。
圖8 計劃采樣機制
本文設定GNN參數(shù)的配置為一個包含GNN基本參數(shù)(如隱藏層層數(shù)、學習率等的配置文件)。在明確輸入的數(shù)據(jù)集以及配置文件后,首先會對圖神經(jīng)網(wǎng)絡進行訓練學習:在前向傳播中,調(diào)用全局更新函數(shù)(前饋神經(jīng)網(wǎng)絡)T次,令h收斂,即節(jié)點的隱藏狀態(tài)近似不動點解,通過局部輸出函數(shù)得到有監(jiān)督信號節(jié)點的輸出和計算出模型的損失,進而迭代式計算T次梯度,得到與對最初隱藏狀態(tài)h0的梯度,更新模型參數(shù)。在該過程中,需設置學習步數(shù)表示學習數(shù)量,指定前饋和反饋過程次數(shù)和終止條件,以此調(diào)整網(wǎng)絡的權重和偏差達到穩(wěn)定的狀態(tài),用于模型的擬合。最終,經(jīng)過訓練的圖神經(jīng)網(wǎng)絡會用于測試集測試,評估最終模型的預測能力。
具體的基于圖神經(jīng)網(wǎng)絡的網(wǎng)絡性能智能預測算法如算法1所示。
算法1 基于圖神經(jīng)網(wǎng)絡的網(wǎng)絡性能智能預測算法
本實驗的硬件條件是搭載有核心型號為GP102的NVIDIA TITAN XP顯卡的GPU服務器,軟件環(huán)境是64位Ubuntu16.04操作系統(tǒng),運算平臺為CUDA10.1,使用TensorFlow作為深度學習框架,編程語言是Python。
本文通過L2損失——均方誤差(mean square error,MSE)作為損失誤差函數(shù),通過均方根誤差(root mean square error,RMSE)和皮爾森(Pearson)系數(shù)評估模型的表現(xiàn),通過L1損失——平均絕對誤差(mean absolute error,MAE)對比評估本文提出的模型與Rusek等[25]提出的RouteNet模型的表現(xiàn),通過RMSE指標來對比評估本文提出的模型與Huang等[27]提出的DRL-TC模型的表現(xiàn),通過計算絕對平均距離(mean absolute distance,MAD)來表示預測結果的好壞。
首先收集NSFNet拓撲下的網(wǎng)絡狀態(tài)視圖和資源視圖的數(shù)據(jù)集,其中,數(shù)據(jù)集包括相關性能信息、流量信息、路由信息和拓撲信息。本文的數(shù)據(jù)集為開源數(shù)據(jù)集,由Rusek等[28]在知識定義網(wǎng)絡(knowledge defined network,KDN)[28]經(jīng)OMNet++仿真軟件建模NSFNet拓撲所得。
此外本文選用2021 ITU Artificial Intelligence / Machine Learning in 5G Challenge官方所提供的數(shù)據(jù)集來進行模型泛化性測試,該開源數(shù)據(jù)集通過OMNet++建模生成。與NSFNet數(shù)據(jù)集所包含的信息相同,該數(shù)據(jù)集也包含了相關的性能信息、流量信息、路由信息和拓撲信息等。
本文通過DataNetAPI對兩個數(shù)據(jù)集分別進行所需要信息的提取,并進行數(shù)據(jù)預處理——歸一化,讓不同維度的特征在數(shù)值上有一定可比性,將數(shù)據(jù)統(tǒng)一映射到[0,1]上,以利于模型在訓練過程中收斂。本文采用的min-max標準化:變量代表模型使用的預測變量,變量代表目標值。則對序列{1,2,…, x}進行變換:
本文采取NSFNet網(wǎng)絡數(shù)據(jù)集樣本26萬個,對測試集,以大約7:3的比例使用選取訓練集中不包含的剩余樣本112 000個。則本文使用的數(shù)據(jù)集樣本見表2。
表2 系統(tǒng)訓練集與測試集樣本參數(shù)
其中,數(shù)據(jù)集包含了不同的路由方案和各種流量強度的流量矩陣,在利用樣本數(shù)據(jù)對模型進行訓練的過程中,每次訓練從數(shù)據(jù)集中隨機選擇80%的數(shù)據(jù)集作為圖神經(jīng)網(wǎng)絡模型深度學習的訓練數(shù)據(jù)集,在訓練結束后,選取數(shù)據(jù)集中的另外20%數(shù)據(jù)集作為模型驗證集進行測試,在訓練期間,為防止過擬合,添加L2正則化損失最小化,通過Tensorboard觀察模型收斂狀況,達到收斂狀態(tài)后,保存最終模型。
設置自適應時刻估計(adaptive moment estimation,Adam)算法,初始學習率為0.001,批次大小為32、迭代次數(shù)為80 000、激活函數(shù)為ReLU,需要再實驗進一步確認神經(jīng)元數(shù)和層數(shù)。為此,本文設計4種圖神經(jīng)網(wǎng)絡模型見表3。
表3 4種不同的圖神經(jīng)網(wǎng)絡模型結構
其中,變化的是在消息傳遞過程中依賴的GRU神經(jīng)元數(shù)以及在讀出階段使用的MLP全連接層數(shù)和各層的神經(jīng)元數(shù)。對比設計的4種GNN模型,改變GRU和MLP的神經(jīng)元數(shù)和MLP全連接層數(shù),對不同的GNN模型進行模型訓練,GNN模型的L2損失對比如圖9所示。
由圖9可知,模型損失值收斂的速度幾近趨同,GNN0和GNN2相較于GNN1和GNN3波動較大,預測效果相對較弱且不穩(wěn)定。為了進一步篩選表現(xiàn)最優(yōu)的模型,分別對時延、抖動和丟包率3種網(wǎng)絡性能進行模型訓練,并將RMSE和Pearson系數(shù)作為評價參數(shù)。其中,RMSE越接近0,Pearson系數(shù)越接近1,模型表現(xiàn)越好。更明確地,本文分別對時延、抖動和丟包率3種網(wǎng)絡性能進行模型訓練,同樣將RMSE和Pearson系數(shù)作為評價參數(shù)。以時延為例,得到了如圖10、圖11所示RMSE和Pearson系數(shù)對比。
圖9 GNN模型的L2損失對比
圖10 GNN模型的RMSE對比
圖11 GNN模型的Pearson系數(shù)對比
圖10和圖11可看出,GNN1相較于其他3種GNN模型的RMSE平均值離0更近,同時,其Pearson系數(shù)平均值也離1更近。訓練步數(shù)一樣,GNN1模型的誤差波動范圍是最小的,因此,可以說明其預測的效果相較于其他模型來說較好且穩(wěn)定,而隨著訓練步數(shù)增加,GNN1的收斂值也是最小的。
4種不同的圖神經(jīng)網(wǎng)絡模型收斂后的各性能評估結果見表4。
從表4可以更清晰地看出:在硬件條件和數(shù)據(jù)集都相同的情況下,4種圖神經(jīng)網(wǎng)絡模型都有比較優(yōu)秀的收斂效果,其中GNN1在時延、抖動和丟包率的RMSE系數(shù)比其他3種圖神經(jīng)網(wǎng)絡都要更接近0,Pearson系數(shù)更接近1。
表4 四種不同的圖神經(jīng)網(wǎng)絡模型性能評估結果比較
綜上所述,本文選取GNN1作為最終新構建的GNN模型,其GRU層數(shù)為2,神經(jīng)元數(shù)為32以及MLP全連接層數(shù)為2,各層的神經(jīng)元數(shù)為256。為了驗證本文構建的GNN模型相較于RouteNet來說,由于擴展了體系結構和模型改進而評估更準確,為此進行實驗對比,本文選取MAE作為度量模型的預測能力的評價參數(shù),如圖12所示。
圖12 新構建的GNN模型與RouteNet模型的MAE對比
如圖12所示,隨著訓練步數(shù)的增加,新構建的GNN模型與RouteNet相較而言,MAE函數(shù)曲線波動更小,且距0更近,因此預測效果更為優(yōu)秀穩(wěn)定。尤其是步數(shù)越多,差距越明顯。經(jīng)計算,在0~100 000步數(shù)范圍中,新構建的GNN模型的MAE系數(shù)平均值大約為0.028 2,而RouteNet的MAE系數(shù)平均值大約為0.034 9,相比之下新構建的GNN模型降低了近19.20%的MAE指標。這都得益于模型的改進對于有用信息的提取更為精準,使得訓練時候的預測能力得到明顯的提升。
為進一步驗證本文新構建的GNN模型在網(wǎng)絡性能預測能力上具有明顯的優(yōu)越性,再選取RMSE作為度量模型預測能力的評價參數(shù),與DRL-TC模型進行實驗對比。本研究將800個不同的隨機網(wǎng)絡流量矩陣按每組100個均分為8組,進行所述新構建GNN模型與DRL-TC模型的預測能力評估,對每組流量矩陣分別測試并計算得到相應的RMSE指標,如圖13所示。
圖13 新構建的GNN模型與DRL-TC模型的RMSE對比
如圖13所示,綜合各個網(wǎng)絡流量矩陣分組,從整體上看新構建的GNN模型與DRL-TC模型相比RMSE指標的函數(shù)曲線波動更小,且距0更近,可以得出其預測效果更為優(yōu)秀穩(wěn)定。經(jīng)計算,在所選取的8組共800個隨機流量矩陣中,新構建的GNN模型的RMSE系數(shù)平均值大約為0.063 2,而DRL-TC的RMSE系數(shù)平均值大約為0.082 5,相比之下新構建的GNN模型降低了近23.39%的RMSE指標,從而證明了本文新構建的GNN模型具有更為優(yōu)秀的網(wǎng)絡性能預測能力。
更進一步地,為了體現(xiàn)體系結構的擴展對性能評估的影響,先用MAD刻畫新構建的GNN模型的預測結果,選取時延模型進行真實值與預測值的差值。使用Python中的seaborn.regplot線性回歸模型擬合函數(shù),將足量“真實值-預測值”數(shù)據(jù)對作為輸入,進行擬合計算得到所需的回歸線;從而能夠以橫縱坐標分別表示真實值和預測值的離散點是否聚集在回歸線上判斷訓練后的模型是否有良好的預測性能。
新構建的GNN模型在時延預測上的結果如圖14所示。
圖14 新構建的GNN模型在時延預測上的結果
由圖14可知,經(jīng)GNN模型預測的結果散點基本都聚集在回歸線上,經(jīng)計算其絕對平均距離MAD為0.026 7,預測值與真實值基本重合,由此證實了新構建的模型在網(wǎng)絡性能評估中的時延指標有突出表現(xiàn)。為了總體評估該模型在時延、抖動和丟包率中的預測性能以及與RouteNet作體系結構上的對比,本文采用累積分布函數(shù)(cumulative distribution function ,CDF)對預測結果進行分析。
新構建的GNN模型與RouteNet模型網(wǎng)絡性能預測的CDF對比如圖15所示,對于CDF圖像來說,以平均相對誤差(mean relative error ,MRE)作為橫坐標,以預測的離散結果與實際的離散值的相對誤差小于或等于的值的累積分布作為縱坐標,即:
圖15 新構建的GNN模型與RouteNet模型網(wǎng)絡性能預測的CDF對比
由于CDF為離散變量的和,因此呈現(xiàn)的是梯形結構,最終會達到1,CDF梯形線越集中到中心點位置,則預測效果越優(yōu)秀。首先對于新構建GNN模型來說,由于本次采用的是經(jīng)時延數(shù)據(jù)訓練的模型,因此可以看出實線部分中,時延的預測效果要略好于抖動和丟包率,在其他網(wǎng)絡性能評估指標中同樣具有良好的預測效果。由于模型的體系結構經(jīng)過調(diào)整和改進,綜合考慮到了節(jié)點信息,在新構建的包含節(jié)點配置的數(shù)據(jù)集下,相對于虛線來說,實線要明顯更靠近中心線,說明新構建的GNN模型的預測值與真實值的相對誤差分布更接近于0,該模型在預測評估網(wǎng)絡性能這一方面要比RouteNet更加精準。
進一步地,為測試本文提出的GNN模型的跨數(shù)據(jù)集泛化效果,選用 2021年ITU Artificial Intelligence/Machine Learning in 5G Challenge所提供的數(shù)據(jù)集來進行實驗。為了能夠對模型的跨數(shù)據(jù)集泛化效果進行合理評估,此處所采取的實驗方案與基于NSFNet數(shù)據(jù)集進行測試時保持一致,同樣采用CDF指標來對預測結果進行分析。
基于新數(shù)據(jù)集進行網(wǎng)絡性能預測的CDF對比如圖16所示,從圖16上可以看出,基于該數(shù)據(jù)集的測試結果與基于NSFNet數(shù)據(jù)集的測試結果呈現(xiàn)相同的梯形結構。并且在時延、抖動和丟包率3項性能指標上,相對于代表RouteNet的虛線來說,代表新構建的GNN模型的實線同樣要更靠近中心線,這證明了其在新數(shù)據(jù)集上進行網(wǎng)絡性能預測評估時,同樣有著更加精準的效果。由此可以得出,本文所構建的GNN模型具有較好的跨數(shù)據(jù)集泛化效果。
圖16 基于新數(shù)據(jù)集進行網(wǎng)絡性能預測的CDF對比
為測試本文所提出的基于圖神經(jīng)網(wǎng)絡的網(wǎng)絡性能智能預測模型在真實環(huán)境中的性能效果,將其應用于SDN路由優(yōu)化中。模型基于SDN獲取的網(wǎng)絡實時狀態(tài)信息,預測得到網(wǎng)絡性能參數(shù),能夠實時調(diào)整網(wǎng)絡行為,完成路由策略的優(yōu)化。
所述應用網(wǎng)絡性能智能預測模型的SDN路由優(yōu)化方案,主要分為兩個步驟:第一步是從SDN數(shù)據(jù)平面獲取真實輸入數(shù)據(jù),應用網(wǎng)絡模型預測特定配置的網(wǎng)絡性能;第二步是在SDN控制平面接收到網(wǎng)絡狀態(tài)的實時更新后,結合預測網(wǎng)絡性能信息與當前網(wǎng)絡狀態(tài)信息找到最優(yōu)路由。該SDN路由優(yōu)化方案具體如圖17所示。
圖17 基于網(wǎng)絡性能智能預測模型的SDN路由優(yōu)化方案
同時,本文將該路由優(yōu)化的整體方案作為待評估策略,選取深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法進行策略性能的測試評估。DDPG是一個強大的針對連續(xù)行為的策略學習算法,基于該算法以及行為?評判(actor- critic,AC)框架的策略評估架構如圖18所示。
圖18 基于AC框架的DDPG算法策略評估架構
此外,本實驗使用基于Dijkstra算法的ShortestPath路由優(yōu)化方案、基于RouteNet模型的路由優(yōu)化方案等兩種策略作為對照,與基于本研究所提出的網(wǎng)絡性能智能預測模型的SDN路由優(yōu)化方案進行性能對比。
本研究評估了在6種不同的流量強度(traffic intensity,TI)場景下,不同的路由優(yōu)化策略所實現(xiàn)的性能,并對每種TI各評估100個不同的網(wǎng)絡流量矩陣。基于上述基礎,對3種不同的路由優(yōu)化策略,分別測試并計算得到600組數(shù)據(jù),再通過性能指標平均值的比對,得出最佳的方案。
本實驗中所關注的性能指標為時延、抖動-時延比和丟包率。時延與丟包率越低,則意味著經(jīng)過對應路由優(yōu)化策略優(yōu)化之后的網(wǎng)絡性能越佳;而抖動由時延產(chǎn)生,可表征前后兩個時延值的差異,時延-抖動比越低,可以說明經(jīng)對應路由優(yōu)化策略優(yōu)化后的網(wǎng)絡狀態(tài)越穩(wěn)定。實際上,當經(jīng)優(yōu)化后網(wǎng)絡性能指標越佳,網(wǎng)絡狀態(tài)越穩(wěn)定,在整體架構中其他部分完全一致的前提下,可以證明優(yōu)化策略中所使用的網(wǎng)絡性能預測模型具有更佳效果。
上述3種優(yōu)化策略在流量強度為11~16所得到的時延、抖動-時延比和丟包率對比情況如圖19、圖20和圖21所示,各性能指標都用箱線圖表示,其中,軸表示不同的流量強度,軸分別表示時延、抖動-時延比和丟包率。
圖19 不同優(yōu)化策略在不同流量強度下的時延對比
從圖19中可以看到,3種策略中,應用了本文研究所提出的網(wǎng)絡性能智能預測模型的路由優(yōu)化策略對應的時延最低,且隨著流量強度的上升,與其余兩種路由優(yōu)化策略的差距愈加明顯。
從圖20中可以看到,3種策略中,應用了本文研究所提出的網(wǎng)絡性能智能預測模型的路由優(yōu)化策略對應的抖動-時延比最低,且隨著流量強度的上升,與其余兩種路由優(yōu)化策略的差距同樣呈現(xiàn)愈加明顯的趨勢。
從圖21中可以看到,3種策略中,應用了本文研究所提出的網(wǎng)絡性能智能預測模型的路由優(yōu)化策略對應的丟包率是最低的。
圖20 不同優(yōu)化策略在不同流量強度下的抖動/時延對比
圖21 不同優(yōu)化策略在不同流量強度下的丟包率對比
結合以上實驗結果,可以得到的結論是,在3種路由優(yōu)化策略中,應用了本文研究所提出的網(wǎng)絡性能智能預測模型的路由優(yōu)化策略性能最佳,即證明了該模型的網(wǎng)絡性能預測具有最佳效果。
該對比實驗所使用的數(shù)據(jù)是通過SDN數(shù)據(jù)平面獲取真實輸入數(shù)據(jù),即在真實環(huán)境下使用真實數(shù)據(jù)完成了模型預測性能指標的測試,驗證了本文所提出的基于圖神經(jīng)網(wǎng)絡的網(wǎng)絡性能智能預測模型具有極佳的預測效果,要明顯優(yōu)于一般傳統(tǒng)模型以及RouteNet模型等。
網(wǎng)絡新興業(yè)務的急劇增多帶來了對QoS的更嚴格要求,復雜的網(wǎng)絡信息使得網(wǎng)絡性能的分析面臨著重大挑戰(zhàn),已提出的網(wǎng)絡性能分析技術面對實際復雜多變的網(wǎng)絡有著計算困難、與實際差異巨大、考慮不全面等問題,為此如何綜合考慮影響網(wǎng)絡性能的各類因素,從而對復雜網(wǎng)絡進行可靠的性能分析這一難題亟待解決。
本文在結合網(wǎng)絡性能分析方法和圖神經(jīng)網(wǎng)絡模型的基礎上,將性能分析定為智能預測,提出了一種基于圖神經(jīng)網(wǎng)絡的網(wǎng)絡性能智能預測總體方案,并將該方案分為網(wǎng)絡系統(tǒng)抽象和網(wǎng)絡性能建模這兩個問題分析并結合SDN控制組件的集中管制下可獲取的網(wǎng)絡信息和圖網(wǎng)絡的定義,將網(wǎng)絡進行系統(tǒng)抽象并進行圖數(shù)據(jù)描述,對原始網(wǎng)絡數(shù)據(jù)進行了提取和處理,以節(jié)點、鏈路和路徑的相互消息傳遞過程為主要設計理念,基于圖神經(jīng)網(wǎng)絡空域卷積的框架,擴展了原圖神經(jīng)網(wǎng)絡的體系結構并構建了多種不同結構的圖神經(jīng)網(wǎng)絡模型。選取表現(xiàn)最佳的圖神經(jīng)網(wǎng)絡模型并在仿真以及真實場景中進行了時延、抖動和丟包率等多種網(wǎng)絡性能指標的實驗評估,證明了該模型網(wǎng)絡性能智能預測的有效性和優(yōu)勢。
在本文研究基礎上,下一階段將在模型中加入更多具有代表性的網(wǎng)絡特征和性能特征,就實現(xiàn)多樣化網(wǎng)絡性能智能預測模型的應用場景方向開展進一步的研究工作。
[1] 2020年中國互聯(lián)網(wǎng)發(fā)展趨勢報告[EB]. 2020.
Report on China's Internet Development Trend in 2020[EB]. 2020.
[2] LIU L K, ZHANG H L, SHI J T, et al. I2P anonymous communication network measurement and analysis[C]// Smart Computing and Communication, 4th International Conference. Switzerland: Springer Cham, 2019:105-115.
[3] CHEN Y, HU J Y, ZHAO H, et al. Measurement and analysis of the swarm social network with tens of millions of nodes[J]. IEEE Access, 2018: 1.
[4] 戴冕, 程光, 周余陽. 軟件定義網(wǎng)絡的測量方法研究[J]. 軟件學報, 2019(6):1853-1874.
DAI M, CHENG G, ZHOU Y Y. Survey on measurement method in software-defined networking[J]. Journal of Software, 2019(6):1853-1874.
[5] JIA S Y, LUCKIE M, HUFFAKER B, et al. Tracking the deployment of IPv6: topology, routing and performance[J]. Computer Networks, 2019 (165): 106947.
[6] 馬衛(wèi)國, 郎為民, 張寅, 等. 虛擬化網(wǎng)絡功能測量問題研究[J]. 電信快報, 2020 (3): 1-5.
MA W G, LANG W M, ZHANG Y, et al. Research on function measurement of virtual network[J]. Telecommunications Information, 2020(3): 1-5.
[7] 辛建芳, 朱琦, 梁廣俊, 等. 基于排隊論的D2D蜂窩異構網(wǎng)絡的性能分析[J]. 信號處理, 2018, 34(4): 391-399.
XIN J F, ZHU Q, LIANG G J, et al. Performance analysis based on queuing theory for D2D underlaying cellular networks[J]. Journal of Signal Processing, 2018, 34(4): 391-399.
[8] 熊兵, 左明科, 黎維, 等. 面向軟件定義核心網(wǎng)的OpenFlow分組轉發(fā)優(yōu)先制排隊模型研究[J]. 電子學報, 2019, 47(10): 2040-2049.
XIONG B, ZUO M K, LI W, et al. A prioritized queueing model of OpenFlow packet forwarding in software-defined core networks[J]. Acta Electronica Sinica, 2019, 47(10): 2040-2049.
[9] 李慶華, 陳志剛, 張連明, 等. 基于網(wǎng)絡演算的無線自組網(wǎng)QoS性能確定上界研究[J]. 通信學報, 2008(29): 32-39.
LI Q H, CHEN Z G, ZHANG L M, et al. Deterministic upper bounds on QoS performance about wireless ad hoc network based on network calculus[J]. Journal on Communications, 2008(29): 32-39.
[10] 任雙印. 基于網(wǎng)絡演算的軟件定義網(wǎng)絡服務質量研究[D]. 長沙:國防科技大學, 2018.
REN S Y. A software defined network QoS research based on network calculus[D]. Chang sha: National University of Defense Technology, 2018.
[11] GEYER F, BONDORF S. DeepTMA: predicting effective contention models for network calculus using graph neural networks[C]//IEEE INFOCOM 2019-IEEE Conference on Computer Communications. Piscataway: IEEE Press, 2019.
[12] XIAO S H, HE D D, GONG Z B. Deep-Q: traffic-driven QoS inference using deep generative network[C]//The 2018 Workshop on Network Meets AI & ML. New York: ACM Press, 2018: 67-73.
[13] GEYER F. DeepComNet: Performance evaluation of network topologies using graph-based deep learning[C]//Proceedings of the 11th EAI International Conference on Performance Evaluation Methodologies and Tools. New York: ACM Press, 2017.
[14] NAKASHIMA M, SIM A, KIM J. Evaluation of deep learning models for network performance prediction for scientific facilities[C]//HPDC'20: The 29th International Symposium on High-Performance Parallel and Distributed Computing. New York: ACM Press, 2020.
[15] SHI ZP, LI J, WU CT. DeepDDoS: online DDoS attack detection[C]//2019 IEEE Global Communications Conference (GLOBECOM). Piscataway: IEEE Press, 2020.
[16] GORI M, MONFARDINI G, SCARSELLI F. A new model for learning in graph domains[C]//IEEE International Joint Conference on Neural Networks. Piscataway: IEEE Press, 2005.
[17] SCARSELLI F, GORI M, TSOI A C, et al. The graph neural network model[J]. IEEE Transactions on Neural Networks, 2009, 20(1):61-80.
[18] XIAN XF, FANG LG, SUN SM. ReGNN: A repeat aware graph neural network for session-based recommendations[J]. IEEE Access, 2020, 8:98518-98525.
[19] RAGESH R, SELLAMANICKAM S, LINGAM V, et al. A graph convolutional network composition framework for semi-supervised classification[EB]. 2020.
[20] WANG ZY, GOMBOLAY M. Learning scheduling policies for multi-robot coordination with graph attention networks[J]. IEEE Robotics and Automation Letters, 2020.5(3): 4509-4516
[21] FAN S, HUANG B, Labeled graph generative adversarial networks[EB]. 2019.
[22] GUO SN, LIN YF, FENG N, et al. Attention based spatial-temporal graph convolutional networks for traffic flow forecasting[C]//Proceedings of the AAAI Conference on Artificial Intelligence, Piscataway: IEEE Press, 2019(33): 922-929.
[23] PENG H, WANG HF, DU BW, et al. Spatial temporal incidence dynamic graph neural networks for traffic flow forecasting[J]. Information Sciences, 2020(521): 277-290.
[24] GILMER J, SCHOENHOLZ S S, RILEY P F, et al. Neural message passing for quantum chemistry[C]//Proceedings of the 34th International Conference on Machine Learning. Cambridge: JMLR, 2017(70): 1263-1272.
[25] RUSEK K, JOSé SUáREZ-VARELA, MESTRES A, et al. Unveiling the potential of graph neural networks for network modeling and optimization in SDN[C]//Proceedings of the 2019 ACM Symposium on SDN Research. New York: ACM Press, 2019: 140-151.
[26] BENGIO S, VINYALS O, JAITLY N, et al. Scheduled sampling for sequence prediction with recurrent neural networks[C]// Advances in Neural Information Processing Systems. New York: Curran Associates, Inc., 2015: 1171-1179.
[27] HUANG XH, ZENG M, XIE K. Intelligent traffic control for QoS optimization in hybrid SDNs[J]. Computer Networks, 2021, 189(2): 107877.
[28] CLARK D D, PARTRIDGE C, RAMMING J C, et al. A knowledge plane for the internet[C]//Conference on Applications. New York: ACM Press, 2003: 3-10.
Intelligent prediction method of network performance based on graph neural network
LI Yijiang1, YE Huibiao2, XIE Renhua1, LOU Jiali1, ZHUANG Danna1, LI Chuanhuang1
1. School of Information and Electronic Engineering (Sussex Artificial Intelligence Institute), Zhejiang Gongshang University, Hangzhou 310018, China 2. Zhejiang Branch of China Telecom Co., Ltd., Hangzhou 310020, China
There are some problems in the traditional network performance prediction technology, such as incomplete network state acquisition and poor accuracy of network performance evaluation. Combined with the characteristics of graph neural network learning and reasoning network relational data and the captured global information of the network, on the basis of the current network performance prediction methods, an intelligent prediction method of network performance based on graph neural network was proposed. Aiming at the complex network information, through the research of network system abstraction and network performance modeling, the network information can be transformed into the graph space convolution was used to process the message passing process of graph network nodes to realize the relationship reasoning between network information. The graph neural network model for network performance prediction was studied, and a graph neural network architecture which could deal with traffic matrix, network topology, routing strategy and node configuration was proposed. Finally, the experiments show that the model can better achieve accurate prediction of the network performance including delay, jitter and packet loss rate.
graph neural network, network performance prediction, network modeling, network analysis
TP393
A
10.11959/j.issn.1000?0801.2022062
2021?09?23;
2022?02?05
李傳煌,chuanhuang_li@zjgsu.edu.cn
國家自然科學基金資助項目(No.61871468);國家自然科學基金國際合作與交流項目(No.62111540270);浙江省新型網(wǎng)絡標準與應用技術重點實驗室資助項目(No.2013E10012);浙江省重點研發(fā)計劃基金資助項目(No.2020C01079)
s: The National Natural Science Foundation of China (No.61871468), Projects of International Cooperation and Exchanges NSFC (No. 62111540270), Zhejiang Key Laboratory of Network Standards and Applied Technology (No.2013E10012), Zhejiang Key Research and Development Program (No.2020C01079)
李奕江(1997? ),男,浙江工商大學信息與電子工程學院(薩塞克斯人工智能學院)碩士生,主要研究方向為新一代網(wǎng)絡技術、人工智能應用。
葉會標(1973? ),男,中國電信股份有限公司浙江分公司云網(wǎng)監(jiān)控維護中心核心網(wǎng)室主任,主要研究方向為中國電信4G、5G核心網(wǎng)、VoLTE網(wǎng)絡的運營管理等。
謝仁華(1997? ),男,浙江工商大學信息與電子工程學院(薩塞克斯人工智能學院)碩士生,主要研究方向為新一代網(wǎng)絡技術、人工智能應用。
樓佳麗(1998? ),女,浙江工商大學信息與電子工程學院(薩塞克斯人工智能學院)碩士生,主要研究方向為新一代網(wǎng)絡技術、人工智能應用。
莊丹娜(1995? ),女,浙江工商大學信息與電子工程學院(薩塞克斯人工智能學院)碩士生,主要研究方向為新一代網(wǎng)絡技術、人工智能應用。
李傳煌(1980? ),男,博士,浙江工商大學信息與電子工程學院(薩塞克斯人工智能學院)教授、碩士生導師,主要研究方向為軟件定義網(wǎng)絡、開放可編程網(wǎng)絡、邊緣計算、人工智能應用。