鞠瞻君,劉亞娟
(吉林大學(xué),吉林 長春 130012)
伴隨移動網(wǎng)絡(luò)的快速發(fā)展,不僅極大便利了人們的日常生活,也對提高了各種網(wǎng)絡(luò)軟件運行的整體質(zhì)量,通信數(shù)據(jù)呈現(xiàn)大幅增長的趨勢。但使用人數(shù)過多、數(shù)據(jù)信息量過于龐大,導(dǎo)致運行速度變得緩慢或者出現(xiàn)卡頓等現(xiàn)象。為了可以應(yīng)對新興移動數(shù)據(jù)流量的大幅增長,各界已經(jīng)對5G蜂窩網(wǎng)絡(luò)展開深入研究。
王士同等人[1]提出一種多核學(xué)習(xí)降維方法,將網(wǎng)絡(luò)中大量數(shù)據(jù)通過映射函數(shù)反射到高維空間中,在這個過程中可能會促使數(shù)據(jù)流結(jié)構(gòu)出現(xiàn)異變的現(xiàn)象,為了能夠保持原數(shù)據(jù)的流形結(jié)構(gòu),從原數(shù)據(jù)中獲取重要數(shù)據(jù)信息與映射空間信息,把兩者相結(jié)合,使其在高維投影空間中能夠較好地保存原數(shù)據(jù)的流形結(jié)構(gòu),很大程度的降低因數(shù)據(jù)在映射空間中產(chǎn)生異變而對降維結(jié)果造成的影響。原信息與特征信息組成的方法描述為核之間的耦合,再進行優(yōu)化處理獲得其核權(quán)重系數(shù),可操作性較好,但該方法在時間消耗較長。
毛曉菊等人[2]提出一種集群分類映射關(guān)聯(lián)降維聚類方法。根據(jù)模糊變換、模糊關(guān)聯(lián)聚類、集群分類映射、閾值查找和應(yīng)用等技術(shù),建立低維特征的多標(biāo)簽?zāi):P(guān)聯(lián)模型,再利用模糊相關(guān)評價將高維文本轉(zhuǎn)化為低維的模糊關(guān)聯(lián)向量,避免維數(shù)災(zāi)難問題。所提算法不要求分類區(qū)域呈現(xiàn)凸性特征,適用性更加廣泛。該算法的計算復(fù)雜度較低和分類精度較好,但是沒有考慮到數(shù)據(jù)在特征空間中的局部性質(zhì),無法保持樣本在新特征空間中存在原有的分布結(jié)構(gòu)。
基于此,提出5G蜂窩網(wǎng)絡(luò)高維數(shù)據(jù)異構(gòu)特征映射降維方法,通過隨機矩陣,保留了原有的數(shù)據(jù)特征并排除了冗余度,再根據(jù)半監(jiān)督正則化方法,進一步優(yōu)化高維數(shù)據(jù)異構(gòu)特征映射降維。
5G蜂窩網(wǎng)絡(luò)[3],可以很大程度的加強網(wǎng)絡(luò)數(shù)據(jù)管理能力、信息轉(zhuǎn)發(fā)能力以及整體網(wǎng)絡(luò)系統(tǒng)容量。同時能夠?qū)Ω呔S數(shù)據(jù)異構(gòu)進行管理,達到所預(yù)期的效果,促使5G蜂窩網(wǎng)絡(luò)被普遍使用,變得更加廣泛化、智能化。
未來移動網(wǎng)絡(luò)數(shù)據(jù)流量會大幅增加,用戶對網(wǎng)絡(luò)流量時速的要求也越來越高,4G網(wǎng)絡(luò)已經(jīng)不能夠滿足人們的使用需求,提出了5G蜂窩網(wǎng)絡(luò),它能夠?qū)崿F(xiàn)對用戶行為和業(yè)務(wù)內(nèi)容的智能感知和優(yōu)化[4],能夠進一步掌握網(wǎng)絡(luò)頁面的分離情況,確保網(wǎng)絡(luò)軟件的升級、優(yōu)化等性能,從而加快網(wǎng)絡(luò)軟件更新速度,能夠高效率的減少在運行過程中所消耗的大量成本,還具有開放性、可編程性、靈活性以及可擴展性,并有較好的發(fā)展前景和廣泛的可適用性。
為了能夠更好地使用緩存技術(shù),需要對5G蜂窩網(wǎng)絡(luò)中的數(shù)據(jù)實施研究分析,促使其變得更加智能化。5G蜂窩網(wǎng)絡(luò)高維數(shù)據(jù)在異構(gòu)數(shù)據(jù)[5]領(lǐng)域中具有通用性、易用性以及可擴展性。能夠靈活地根據(jù)數(shù)據(jù)流量的需求在熱點區(qū)域擴容數(shù)據(jù)面?zhèn)鬏斮Y源,依據(jù)服務(wù)數(shù)據(jù)對象技術(shù),能夠在網(wǎng)絡(luò)中對異構(gòu)數(shù)據(jù)源進行統(tǒng)一數(shù)據(jù)訪問模式,還便于進行二次開發(fā)以及新型數(shù)據(jù)源的引入。5G蜂窩網(wǎng)絡(luò)在數(shù)據(jù)處理能力方面更加高效,緩存技術(shù)能夠按照用戶需求和業(yè)務(wù)特征等因素進行處理,能夠很大程度的減少網(wǎng)絡(luò)傳輸時所帶來數(shù)據(jù)流量浪費。
統(tǒng)一描述訪問和數(shù)據(jù)轉(zhuǎn)換作為異構(gòu)數(shù)據(jù)的主要功能。在這其中統(tǒng)一性的數(shù)據(jù)訪問,也包括了針對數(shù)據(jù)進行詳細(xì)描述模塊,該模塊是在對原始數(shù)據(jù)抽取后的基礎(chǔ)上,對其進行抽取描述和訪問區(qū)的構(gòu)建[6]。數(shù)據(jù)轉(zhuǎn)換是根據(jù)其相對應(yīng)的規(guī)則以及需要進行轉(zhuǎn)換的數(shù)據(jù)集合組來構(gòu)建的,其中數(shù)據(jù)源的模塊分別是根據(jù)對該數(shù)據(jù)獲取的信息以及對數(shù)據(jù)分析后的結(jié)果構(gòu)成。高維數(shù)據(jù)異構(gòu)框架如圖1所示。
圖1 高維數(shù)據(jù)異構(gòu)框架
現(xiàn)階段,無線智能設(shè)備的不斷普及,蜂窩網(wǎng)絡(luò)流量也隨之加快增長,為了滿足5G蜂窩網(wǎng)絡(luò)覆蓋需求,使大規(guī)模無線網(wǎng)絡(luò)普遍覆蓋,需要對多種高維數(shù)據(jù)結(jié)合、異構(gòu)[7]進行特征映射降維處理,從而使網(wǎng)絡(luò)流量運行更加快速,容量更龐大。
當(dāng)隨機矩陣的行數(shù)與列數(shù)的數(shù)值接近最大值時[8],行列的比值保持不變狀態(tài)。當(dāng)矩陣維數(shù)接近于最大值能夠滿足隨機矩陣的收斂性,可以較精確的識別高維數(shù)據(jù)。M所描述的是隨機矩陣,其表達式為
M=EET/L
(1)
在式(1)中,E作為N×L的隨機矩陣,其均值為0,方差是1,使Q=N/L,當(dāng)Q作為固定值時,L→∞,那么隨機矩陣M特征值的概率密度P(λ)其表達式為
(2)
(3)
(4)
式中,λmax與λmin分別作為隨機矩陣M的最大特征值和最小特征值。然后,根據(jù)相關(guān)矩陣C和隨機矩陣M的性質(zhì),將相關(guān)矩陣C分成符合隨機矩陣區(qū)域與差異區(qū)域,再對相關(guān)矩陣進行改進處理,排除相關(guān)矩陣內(nèi)存在的噪聲。
在一定程度上來講,高維數(shù)據(jù)是一組由眾多數(shù)據(jù)集組成的復(fù)雜且數(shù)量多的數(shù)據(jù)集,該數(shù)據(jù)根據(jù)不同的數(shù)據(jù)形式,將會以不同的形式出現(xiàn),這之間雖是同為高維數(shù)據(jù)但由于形式不同所呈現(xiàn)出的數(shù)據(jù)格式便有所不同,與此同時易購數(shù)據(jù)在運行傳輸?shù)倪^程中,同樣也具有多種變形和特征。數(shù)據(jù)量也會隨之增加,從而出現(xiàn)新的數(shù)據(jù)結(jié)構(gòu)格式。
特征選擇作為一項高維數(shù)據(jù)預(yù)處理方式,能夠很大程度的降低特征維數(shù)[9],在不改變原本特征空間性質(zhì)的基礎(chǔ)上,在原空間內(nèi)選取一部分重要的特征,重新構(gòu)成一個新的空間。特征項選擇的優(yōu)劣程度會嚴(yán)重影響數(shù)據(jù)聚類的準(zhǔn)確率。
在進行高維數(shù)據(jù)異構(gòu)特征選擇時,運用互信息作為度量標(biāo)準(zhǔn)。設(shè)置N×L數(shù)據(jù)矩陣D,F(xiàn)={f1,f2,…,ft}作為特征的整體集合,S={s1,s2,…,sk}作為類別集合,然后建立互信息矩陣M,其表達式為
(5)
在k的值比較小時,無法符合隨機矩陣的條件,故對互信息矩陣M實施增廣處理,復(fù)制m此,為M=[M,m(M)],為了能夠恢復(fù)初值的行列比,將m=(L-1)2/(N*k)-1,所得式為
(6)
為了保持?jǐn)?shù)據(jù)的合理性,對互信息矩陣M按照式(7)和式(8)形式進行規(guī)范化、中心化以及標(biāo)準(zhǔn)化處理,獲得矩陣Md。再按照式(9)運算獲得t×t的特征相關(guān)性矩陣C,將其根據(jù)式(10)進行奇異值分解,其公式如下
ij=Iij-(maxIi-minIi)/2
(7)
(8)
(9)
C=UΛV
(10)
Cnew=UΛnewV
(11)
在高維數(shù)據(jù)異構(gòu)中含有大量的特征,其中還存在許多相關(guān)度較低的冗余特征,相關(guān)度較高得特征之間還存在大量的噪聲數(shù)據(jù),因此需選擇合適的特征,再對特征進行降維處理。
在高維數(shù)據(jù)進行異構(gòu)時[10],要求數(shù)據(jù)具有完整性、一致性、準(zhǔn)確性以及及時性。運用半監(jiān)督正則化方法,對高維數(shù)據(jù)異構(gòu)特征映射降維。為了防止函數(shù)目標(biāo)的過度擬合,采用正則化回歸模型,其表達式為
(12)
(13)
(14)
故,在式(12)還能夠表式為
(15)
式中,γK描述的是目標(biāo)空間函數(shù)的系數(shù),默認(rèn)數(shù)值為0.005/l,γI描述的是在幾何函數(shù)中的系數(shù),默認(rèn)數(shù)值為0.05N2/l。
最小化處理的顯示映射[12]表達式即
(16)
對式(15)差采用矩陣計算,獲得目標(biāo)函數(shù),其表達式為
(17)
通過半監(jiān)督正則化方法處理矢量特征,獲得顯示映射和數(shù)據(jù)最低維度。
在進行仿真時,本文運用Windows7操作系統(tǒng)對所提算法降維效果進行檢測,語言編制系統(tǒng)為Mstlab7,內(nèi)存為8GB,根據(jù)Cloudsim平臺構(gòu)建5G蜂窩網(wǎng)絡(luò)環(huán)境下高維數(shù)據(jù)異構(gòu)特征映射降維仿真平臺。采樣大型數(shù)據(jù)庫,首先對高維數(shù)據(jù)做PCA降維處理,并保存其97%的主要內(nèi)容。選擇具有高維數(shù)據(jù)和異構(gòu)數(shù)據(jù)的數(shù)據(jù)集合,之中有39個異常數(shù)據(jù)記錄,持續(xù)數(shù)值為5*10條TCP,在每條記錄中都包含12個高維數(shù)值屬性。其中設(shè)定的具體參數(shù)如表1所示。
表1 實驗設(shè)置參數(shù)
充分結(jié)合分類器,則5G蜂窩網(wǎng)絡(luò)高維數(shù)據(jù)異構(gòu)特征映射降維框圖如圖2所示。
圖2 異構(gòu)特征映射降維框圖
分別觀察文獻[1]算法、文獻[2]算法以及本文算法的識別率,從而進行對比分析。目標(biāo)維數(shù)d按順序取值為1~30維,鄰域KD的取值為7。在3種算法不同維數(shù)下的識別率如表2所示。
表2 平均維數(shù)識別率
從表2的對比中可以看出,本文算法在對高維數(shù)據(jù)異構(gòu)特征映射降維時,識別率最高,能夠處理大量樣本,平均識別率比文獻[1]和文獻[2]高出1.54%和0.56%。本文算法能夠在低維空間下更清晰的顯示映射,具有較高識別率。
為了進一步驗證不同方法降維的效果,進行對比實驗,實驗結(jié)果如圖3所示。
圖3 降維效果的對比圖
如圖所示,文獻[1]方法的降維效果較為模糊,只能識別出幾個特征點,文獻[2]方法的降維效果較為清晰,能夠識別出具體區(qū)域,而所提方法降維效果最為清晰,能夠識別出具體的農(nóng)田、村落,識別效果較為理想。
在此基礎(chǔ)上,對三種方法的降維過程在網(wǎng)絡(luò)運行時所消耗的時間,對比結(jié)果如4所示。
圖4 運行消耗時間
從圖中能夠看出,樣本數(shù)量在不斷增多時,本文算法運行時間一直保持平穩(wěn)的狀態(tài),耗時較短,時間復(fù)雜度與其它2種算法相比較較小,具有顯著的優(yōu)越性和準(zhǔn)確性。
在高維數(shù)據(jù)中含有大量顯著特征的數(shù)據(jù)集,這些數(shù)據(jù)集大幅降低了蜂窩網(wǎng)絡(luò)的性能。因此,降維對于5G蜂窩網(wǎng)絡(luò)就顯得尤為重要。
1)所提算法對高維數(shù)據(jù)異構(gòu)特征映射降維時,構(gòu)建隨機矩陣進行特征選擇,運用半監(jiān)督正則化方法處理矢量特征,獲得顯式映射進一步進行降維處理,縮短了運行時間,提供了降維效率。
2)在平均識別率方面,所提算法比文獻[1]和文獻[2]高出1.54%和0.56%;在實驗個數(shù)為600個時,所提算法用時比文獻[1]方法、文獻[2]方法少60s和40s,具有明顯優(yōu)勢。
3)由于時間有限,此次實驗在時間消耗方面還有提升的空間,這也是我未來的研究方向。