劉穎 羅濤 楊燦
【摘 ?要】
針對(duì)復(fù)雜多維環(huán)境下彈性網(wǎng)絡(luò)資源受到氣象、地形、電磁、時(shí)空等環(huán)境影響的問(wèn)題,提出了一種網(wǎng)絡(luò)資源與環(huán)境耦合關(guān)系預(yù)測(cè)技術(shù),主要目的是實(shí)現(xiàn)網(wǎng)絡(luò)資源與環(huán)境耦合關(guān)系預(yù)測(cè),提升網(wǎng)絡(luò)資源的利用率。通過(guò)實(shí)測(cè)驗(yàn)證了技術(shù)的可行性,滿(mǎn)足實(shí)際網(wǎng)絡(luò)通信過(guò)程中對(duì)網(wǎng)絡(luò)資源與環(huán)境耦合關(guān)系的預(yù)測(cè)。
【關(guān)鍵詞】彈性網(wǎng)絡(luò);網(wǎng)絡(luò)資源;環(huán)境耦合
0 ? 引言
在實(shí)際網(wǎng)絡(luò)通信[1]過(guò)程中,由于設(shè)備故障、環(huán)境突變等問(wèn)題,導(dǎo)致環(huán)境感知設(shè)備采集到不完整或不準(zhǔn)確的數(shù)據(jù),進(jìn)而引發(fā)網(wǎng)絡(luò)資源[2]狀態(tài)的表征結(jié)果異常。網(wǎng)絡(luò)資源狀態(tài)的表征是否準(zhǔn)確,對(duì)網(wǎng)絡(luò)資源的利用率有很大的影響。
本文針對(duì)復(fù)雜多維環(huán)境下彈性網(wǎng)絡(luò)資源受到氣象、地形、電磁、時(shí)空等環(huán)境影響的問(wèn)題,提出了一種網(wǎng)絡(luò)資源與環(huán)境耦合關(guān)系預(yù)測(cè)技術(shù),滿(mǎn)足在實(shí)際網(wǎng)絡(luò)通信過(guò)程中,對(duì)網(wǎng)絡(luò)資源與環(huán)境耦合關(guān)系預(yù)測(cè),提升網(wǎng)絡(luò)資源的利用率。
在實(shí)際網(wǎng)絡(luò)通信過(guò)程中,環(huán)境感知設(shè)備采集到大量不完整或不準(zhǔn)確的數(shù)據(jù),迫切需要解決通信信息的清洗與提煉、海量信息智能分析處理等關(guān)鍵問(wèn)題。下面分別從數(shù)據(jù)預(yù)處理[3]、預(yù)測(cè)方法[4]綜述現(xiàn)階段研究現(xiàn)狀。
由于設(shè)備故障、環(huán)境突變等問(wèn)題,導(dǎo)致環(huán)境感知設(shè)備采集到不完整或不準(zhǔn)確的數(shù)據(jù),所以,需要對(duì)缺失值進(jìn)行填充[5]。在數(shù)據(jù)清洗過(guò)程中,經(jīng)常遇到空值問(wèn)題。一般可分為兩種空值問(wèn)題類(lèi)型:(1)數(shù)值的不完整;(2)數(shù)值為空(即空值)。數(shù)值不完整包括數(shù)據(jù)部分或所屬字段沒(méi)有值;空值的定義是實(shí)際不存在而空的值。處理方法有:(1)根據(jù)某種規(guī)則推導(dǎo)出某些缺失值;(2)用最小值、中值、最大值、平均值替換缺失值;(3)手動(dòng)輸入一個(gè)可接受范圍內(nèi)的值等。
目前有很多機(jī)器學(xué)習(xí)算法被用于預(yù)測(cè)的研究,常見(jiàn)的有K近鄰(KNN, K Nearest Neighbors)[6]、決策樹(shù)(DT, Decision Tree)[7]、支持向量機(jī)(SVM, Support Vector Machines)[8]等算法。
(1)K-近鄰算法
K-近鄰是測(cè)量特征之間的間距進(jìn)行分類(lèi)。已知訓(xùn)練集,對(duì)于新的輸入數(shù)據(jù),在訓(xùn)練集中找到與該數(shù)據(jù)最接近的K個(gè)數(shù)據(jù),這K個(gè)數(shù)據(jù)的多數(shù)數(shù)據(jù)屬于某一個(gè)類(lèi),就把該輸入數(shù)據(jù)歸類(lèi)到這個(gè)子類(lèi)中。如圖1所示:
(2)決策樹(shù)
決策樹(shù)算法是一種歸納式的學(xué)習(xí)算法,目的在于從數(shù)據(jù)源中推理和歸納出樹(shù)形結(jié)構(gòu)的決策樹(shù)表現(xiàn)形式。決策樹(shù)的思想是“分而治之”,該算法從一個(gè)結(jié)點(diǎn)開(kāi)始,根據(jù)一定的分支標(biāo)準(zhǔn)劃分樣本,一直加入新節(jié)點(diǎn)分割上一次分裂剩下的樣本,直至所有樣本被準(zhǔn)確歸類(lèi)為止。決策樹(shù)會(huì)訓(xùn)練模型根據(jù)特征一級(jí)級(jí)地分裂。而分裂的閾值會(huì)根據(jù)訓(xùn)練的數(shù)據(jù)學(xué)習(xí)得,最終實(shí)現(xiàn)預(yù)測(cè)。
(3)支持向量機(jī)
支持向量機(jī)是二分類(lèi)模型,基本模型是在特征空間上的間距最大的線性分類(lèi)器,間距最大使它有別于感知機(jī),能較好解決非線性、小樣本以及高維模式識(shí)別任務(wù)。
1 ? 總體方案
本方案架構(gòu)示意如圖2所示。首先,通過(guò)基于多維模糊映射、服務(wù)擴(kuò)充的方法對(duì)原始的不完整參數(shù)集進(jìn)行預(yù)處理;其次,通過(guò)基于多維環(huán)境參數(shù)的特征表征方法,對(duì)數(shù)據(jù)進(jìn)行特征構(gòu)造,以獲得具有更強(qiáng)表征能力的數(shù)據(jù);然后,融合前向選擇、后向選擇、模擬退火[9]的方法對(duì)特征進(jìn)行降維,降低各維度的變量空間及多維表征模型訓(xùn)練的復(fù)雜度;最后,采用基于決策樹(shù)的模型訓(xùn)練方法,對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)預(yù)測(cè),實(shí)現(xiàn)網(wǎng)絡(luò)資源在復(fù)雜環(huán)境約束下的精確描述。
1.1 ?預(yù)處理階段
針對(duì)當(dāng)前實(shí)際網(wǎng)絡(luò)通信過(guò)程中,由于設(shè)備故障、環(huán)境突變等問(wèn)題,導(dǎo)致環(huán)境感知設(shè)備采集到不完整或不準(zhǔn)確的數(shù)據(jù),本文提出基于多維模糊映射、服務(wù)擴(kuò)充的缺失值處理的補(bǔ)全方法,能快速準(zhǔn)確地補(bǔ)全缺失值,達(dá)到提高模型效率的目的。該方法通過(guò)多維模糊推理,利用歷史數(shù)據(jù)對(duì)缺失的環(huán)境參數(shù)進(jìn)行預(yù)測(cè),完成不完整參數(shù)集向完整參數(shù)集的映射過(guò)程。算法流程如圖3所示:
對(duì)于一些特定的字段,通過(guò)第三方服務(wù)進(jìn)行填充。例如根據(jù)時(shí)間、地點(diǎn)查找氣象表填充天氣。通過(guò)經(jīng)緯度定位填充地形。對(duì)于這些特殊字段,服務(wù)擴(kuò)充的方式能夠更加精準(zhǔn)地填充缺失值。通過(guò)氣象服務(wù)填充天氣示意圖、通過(guò)地形檢索服務(wù)填充地形示意圖,如圖4所示:
1.2 ?特征構(gòu)造階段
為了增強(qiáng)對(duì)環(huán)境資源的表征能力,本文提出了基于多維環(huán)境參數(shù)的特征構(gòu)造方法,從而更準(zhǔn)確地學(xué)習(xí)網(wǎng)絡(luò)資源與多維環(huán)境的表征關(guān)系。通過(guò)對(duì)不同的特征進(jìn)行交叉組合,使得特征之間可以相互聯(lián)系相互作用,從而表達(dá)出單一特征所不具有的非線性性。交叉構(gòu)造特征采用加、減、乘、除、平方、均值、方差等方式進(jìn)行特征組合。即對(duì)于數(shù)值型特征,讓兩兩特征在數(shù)值上進(jìn)行加法、減法、乘法、除法等運(yùn)算以及均值、方差等操作。特征構(gòu)造方法如圖5所示:
1.3 ?特征約簡(jiǎn)階段
為了篩選特征構(gòu)造方法產(chǎn)生的冗余特征,本文提出了基于前向搜索、后向搜索、模擬退火算法融合的特征約簡(jiǎn)方法。融合前向搜索、后向搜索方法的各自的優(yōu)點(diǎn)。此外,引入模擬退火機(jī)制,該機(jī)制有效克服序列搜索算法容易陷入局部最優(yōu)值的缺點(diǎn)。通過(guò)融合三種方法,本文增加了特征選擇和特征約簡(jiǎn)的有效性,從而保留優(yōu)良的特征。特征約簡(jiǎn)流程如圖6所示:
1.4 ?模型訓(xùn)練階段
為了增強(qiáng)模型的學(xué)習(xí)能力和泛化能力,本文采用集成學(xué)習(xí)的方式進(jìn)行訓(xùn)練,提出了基于決策樹(shù)的集成分類(lèi)模型構(gòu)建及訓(xùn)練方法。由于多維環(huán)境對(duì)網(wǎng)絡(luò)資源的影響呈現(xiàn)非線性的關(guān)系,常規(guī)的擬合方法對(duì)多維非線性函數(shù)的預(yù)測(cè)結(jié)果精度較低。針對(duì)這一問(wèn)題,本文采用了決策樹(shù)的方法用來(lái)學(xué)習(xí)多維非線性函數(shù)的映射,將資源狀態(tài)表征為多維環(huán)境因素的多元函數(shù)。決策樹(shù)認(rèn)為,物以類(lèi)聚、人以群分,在特征空間里相近的樣本,那就是一類(lèi)。如果為每個(gè)“類(lèi)”分配的空間范圍比較小,那么,同一個(gè)類(lèi)內(nèi)的樣本差異會(huì)非常小,以至于看起來(lái)一樣。換句話說(shuō),如果我們可以將特征空間切分為較小的碎塊,然后為每一個(gè)碎塊內(nèi)的樣本配置一個(gè)統(tǒng)一的因變量取值,就有機(jī)會(huì)做出誤差較小的預(yù)測(cè)。在本文任務(wù)中,每棵決策樹(shù)根據(jù)我們提供的發(fā)射凈空角、發(fā)生概率、干擾、海拔等特征,將特征空間切分很多小碎塊,并為這些碎塊提供因變量的取值。通過(guò)減小這個(gè)預(yù)測(cè)的取值和真實(shí)的取值的誤差來(lái)引導(dǎo)優(yōu)化。
2 ? 實(shí)驗(yàn)
2.1 ?數(shù)據(jù)集
在實(shí)際網(wǎng)絡(luò)通信過(guò)程中,記錄了73 478條數(shù)據(jù),數(shù)據(jù)中特征包括發(fā)射點(diǎn)、接收點(diǎn)、發(fā)射點(diǎn)海拔、接收點(diǎn)海拔、發(fā)射凈空角(度)、接收凈空角(度)等,標(biāo)簽為吞吐率[10]、丟包率、時(shí)延[11]。根據(jù)特征分別預(yù)測(cè)標(biāo)簽。
數(shù)據(jù)集經(jīng)過(guò)特征構(gòu)造后,通過(guò)隨機(jī)采樣的方式將其劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。使用訓(xùn)練集來(lái)訓(xùn)練模型,通過(guò)模型在驗(yàn)證集上的效果好壞來(lái)選擇模型,然后在測(cè)試集上對(duì)模型方法進(jìn)行評(píng)估[12]。數(shù)據(jù)集組成如圖7所示:
2.2 ?評(píng)價(jià)指標(biāo)
均方誤差是最常用的回歸損失函數(shù),它通過(guò)衡量“平均誤差”的方式來(lái)評(píng)價(jià)數(shù)據(jù)的變化程度,其值越小,說(shuō)明預(yù)測(cè)模型描述實(shí)驗(yàn)數(shù)據(jù)具有更好的精確度。本文的任務(wù)中預(yù)測(cè)吞吐率、丟包率、延時(shí)都是回歸任務(wù),所以選取該指標(biāo)作為本文實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)。
2.3 ?實(shí)驗(yàn)流程
實(shí)驗(yàn)流程見(jiàn)圖8所示。實(shí)驗(yàn)步驟如下:
步驟1:載入73 478條數(shù)據(jù);
步驟2:隨機(jī)抽取其中的7 259條記錄作為測(cè)試集,剩下的66 219條記錄作為訓(xùn)練集,再在訓(xùn)練集中抽取7 000條記錄作為驗(yàn)證集;
步驟3:選取原始特征;
步驟4:通過(guò)對(duì)多維環(huán)境參數(shù)進(jìn)行特征構(gòu)造;
步驟5:采用前向搜索、后向搜索、模擬退火算法融合的特征約簡(jiǎn)方法特征約簡(jiǎn);
步驟6:構(gòu)建基于決策樹(shù)的模型;
步驟7:使用驗(yàn)證集選擇最優(yōu)模型;
步驟8:測(cè)試集數(shù)據(jù)輸入模型中進(jìn)行預(yù)測(cè)。
2.4 ?性能測(cè)試
模型訓(xùn)練及預(yù)測(cè)消耗的時(shí)間如表1所示:
通過(guò)性能測(cè)試結(jié)果顯示,預(yù)測(cè)時(shí)間小于0.02 s,預(yù)測(cè)效率高,可實(shí)現(xiàn)批量預(yù)測(cè)。
2.5 ?測(cè)試結(jié)果
各模型預(yù)測(cè)的MSE值如表2所示:
均方誤差是測(cè)試集的7 259條記錄中預(yù)測(cè)結(jié)果和真實(shí)值的均方誤差。其值越接近0,則預(yù)測(cè)值與真實(shí)值的偏差越小。“丟包率(%)”字段的MSE幾乎為0,預(yù)測(cè)結(jié)果幾乎達(dá)到了100%的準(zhǔn)確率。為了更直接的展示預(yù)測(cè)效果,預(yù)測(cè)結(jié)果與真實(shí)值的擬合圖如圖9、10、11所示。
綠線代表預(yù)測(cè)值,紅線代表真實(shí)值。對(duì)于“丟包率”,可以觀察到預(yù)測(cè)結(jié)果與真實(shí)結(jié)果幾乎完全擬合。
3 ? 結(jié)束語(yǔ)
本文針對(duì)復(fù)雜多維環(huán)境下彈性網(wǎng)絡(luò)資源受到氣象、地形、電磁、時(shí)空等環(huán)境影響,提供了一種網(wǎng)絡(luò)資源與環(huán)境耦合關(guān)系預(yù)測(cè)技術(shù),實(shí)現(xiàn)網(wǎng)絡(luò)資源在復(fù)雜環(huán)境約束下的精確描述,提升網(wǎng)絡(luò)資源的利用率。同時(shí)MSE測(cè)試結(jié)果較低,預(yù)測(cè)結(jié)果準(zhǔn)確率高,并且在性能測(cè)試中,預(yù)測(cè)時(shí)間短,能高效地預(yù)測(cè)。驗(yàn)證了一種網(wǎng)絡(luò)資源與環(huán)境耦合關(guān)系預(yù)測(cè)技術(shù)的可行性,對(duì)實(shí)際應(yīng)用具有較強(qiáng)的指導(dǎo)作用。
參考文獻(xiàn):
[1] ? ?田孝華. 現(xiàn)代軍事通信與通信新技術(shù)[J]. 無(wú)線通信技術(shù), 1996(3): 54-57.
[2] ? ?于驪,史子博,舒炎泰,等. 調(diào)度和擁塞控制相結(jié)合的無(wú)線網(wǎng)絡(luò)資源分配模型[J]. 計(jì)算機(jī)應(yīng)用, 2009,29(2): 487-490.
[3] ? ?陳莉,焦李成. 基于混合優(yōu)化算法的數(shù)據(jù)預(yù)處理算法Ⅱ[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2007,24(3): 22-24.
[4] ? ? 李旭然,丁曉紅. 機(jī)器學(xué)習(xí)的五大類(lèi)別及其主要算法綜述[J]. 軟件導(dǎo)刊, 2019,18(7): 4-9.
[5] ? Jonathan T O, Gerald A M, Sandrine B. Special online collection: dealing with data[J]. Science, 2011,331(6018): 639-806.
[6] ? ?Cover T M. Rates of convergence for nearest neighbor procedures[C]//Proceedings of the Hawaii International Conference on Systems Sciences. 1968: 413-415.
[7] ? ?Quinlan J R. Induction of decision trees[J]. Machine learning, 1986(1): 81-106.
[8] ? ? 丁世飛,齊丙娟,譚紅艷. 支持向量機(jī)理論與算法研究綜述[J]. 電子科技大學(xué)學(xué)報(bào), 2011,40(1): 2-10.
[9] ? ?潘蔚. 模擬退火算法和應(yīng)用[J]. 經(jīng)濟(jì)技術(shù)協(xié)作信息, 2008(32): 75.
[10] ? 劉凱,章欣. 多跳移動(dòng)分組無(wú)線網(wǎng)絡(luò)的吞吐率分析[J]. 西安電子科技大學(xué)學(xué)報(bào), 2000,27(1): 70-75.
[11] ? 黎文偉,張大方,謝高崗,等. 基于通用PC架構(gòu)的高精度網(wǎng)絡(luò)時(shí)延測(cè)量方法[J]. 軟件學(xué)報(bào), 2006,17(2): 275-284.
[12] ? 范永東. 模型選擇中的交叉驗(yàn)證方法綜述[D]. 太原: 山西大學(xué), 2013.