李 菲,梁振宇
(1.中國人民武裝警察部隊遼寧省總隊,遼寧 沈陽 110000;2.沈陽大學建筑工程學院,遼寧 沈陽 110000)
電子通信網(wǎng)絡具有多線程性,用戶在不斷地交換、傳輸數(shù)據(jù)流的過程中,會產(chǎn)生大量的冗余流量或數(shù)據(jù)碎片,這些冗余的數(shù)據(jù)流會不斷增加存儲負擔,降低網(wǎng)絡速度。因此,消除電子通信中數(shù)據(jù)流的冗余是十分必要的,目前,它在信息技術領域受到了廣泛的關注,是現(xiàn)階段的研究熱點之一。
文獻[1]為減少測試變異數(shù),縮短測試運行時間,研究了變異測試優(yōu)化技術,提出了基于數(shù)據(jù)流分析的冗余變異概念和冗余變異識別方法。通過11 C程序?qū)υ摲椒ǖ目尚行院陀行赃M行了分析,但由于過于注重數(shù)據(jù)之間的相關性,容易忽略網(wǎng)絡環(huán)境的約束,影響冗余數(shù)據(jù)關聯(lián)規(guī)則的準確性,增加冗余數(shù)據(jù)的誤判率,降低了消除效率。文獻[2]冗余消除方法是將數(shù)據(jù)分割成數(shù)據(jù)塊。該方法需要建立一個基于冗余數(shù)據(jù)特征的關系空間,將切割后的數(shù)據(jù)片段輸入到該空間中,然后利用特征關系屬性找到與冗余特征相關的數(shù)據(jù)塊,最后逐個剔除,完成對冗余數(shù)據(jù)的清理。但是,由于需要對所有的數(shù)據(jù)逐一進行剪切,任務龐大,目標范圍過大。對于數(shù)據(jù)量大的網(wǎng)絡環(huán)境,會出現(xiàn)冗余干擾等現(xiàn)象,降低了消除效率。
本文基于上述問題,提出一種多線程電子通信網(wǎng)絡數(shù)據(jù)流冗余量消除方法。
網(wǎng)絡信息環(huán)境下數(shù)據(jù)特征具有相似性,在剔除冗余數(shù)據(jù)時,特征相似的數(shù)據(jù)往往會導致多重分類處理的現(xiàn)象,容易產(chǎn)生錯誤,影響剔除的準確性。此時,有必要對具有相似特征的數(shù)據(jù)進行查找和分類,有助于提高后續(xù)冗余數(shù)據(jù)流消除的速度,減少相似性對消除過程的干擾,提高整體效率。
分類前需要提取數(shù)據(jù)的特征,并采用假設和主動抽樣的方法提取數(shù)據(jù)的特征,并以計算出的特征值作為判斷依據(jù)來確定相似數(shù)據(jù)。
首先,假設對初始數(shù)據(jù)進行采樣的所有樣本合集數(shù)目為N,則樣本合集的最大類別表示為Nmax;最小類別表示為Nmin,基于此可引出,當包含初始數(shù)據(jù)的最大類別的樣本合集數(shù)量多于最小類別的樣本數(shù)量時,可表示為Nmax?Nmin,設ρl為每類數(shù)據(jù)樣本集合中的分類密度特征[5],計算公式為
ρl=Ml/K(l=1,2,…,Nmin)
(1)
其中,K表示活躍在數(shù)據(jù)特征空間中,且最符合歐式距離關系的鄰近數(shù)據(jù)值[6-7],Ml表示包含此鄰近數(shù)據(jù)值K的最大類別的特征樣本合集,以此可以準確判斷出ρl∈[0,1],與其相關的分類密度ρl可表示為
(2)
假設,第p個數(shù)據(jù)特征的樣本集合在第j次提取表現(xiàn)時的特征目標數(shù)值為dpj,輸出數(shù)值為ypj(τ),根據(jù)此關系,推導出符合約束條件的數(shù)據(jù)特征表達式為
(3)
其中,τ表示數(shù)據(jù)進行多次迭代的次數(shù)[8],n表示最終輸出的特征數(shù)據(jù)數(shù)量,m表示最后一個樣本訓練合集包含數(shù)據(jù)的數(shù)量,根據(jù)數(shù)據(jù)迭代的所有次數(shù)將其表示為
w(τ+1)=w(τ)+ηΔw(τ)+α(w(τ)-w(τ-1))
(4)
其中,η表示數(shù)據(jù)迭代的效率,α表示基于相似特征的動態(tài)變量因子[9],根據(jù)式(4)進行數(shù)據(jù)提取時的特征收縮量表示為[10]
(5)
式中,φpj(τ)表示輸入初始數(shù)據(jù)的總數(shù)目,o(τ)表示輸出相似特征數(shù)據(jù)的總數(shù)目,以此為基礎,完成基于網(wǎng)絡大環(huán)境下的相似性數(shù)據(jù)特征提取。
設含有正常數(shù)據(jù)的訓練樣本集合表示為Nh,線性激勵函數(shù)表達關系為g(x),包含相似特征數(shù)據(jù)的樣本表示為(xq,tq),且符合以下約束條件
xq=[xq1,xq2,xq3,…,xqn]T∈Rn
(6)
tq=[tq1,tq2,tq3,…,tqm]T∈Rm
(7)
根據(jù)上述兩種公式關系,可建立最終的相似性特征數(shù)據(jù)的提取公式如下
(8)
其中,f表示相似數(shù)據(jù)的數(shù)量。
基于相似特征數(shù)據(jù)的有效提取,采取數(shù)據(jù)動態(tài)特性的頻譜分析法對其進行有效分類。
冗余數(shù)據(jù)的特征會呈現(xiàn)一種離散狀態(tài)[11],根據(jù)此特性建立相關分析公式,設數(shù)據(jù)采集空間關于時間的關系為z=z0,其冗余數(shù)據(jù)特征在空間內(nèi)的離散狀態(tài)表示為
S+(zm)=W+(zm,z0)S+(z0)
(9)
其中,W+(zm,z0)表示空間內(nèi)時間點z0到zm的特征分類的數(shù)據(jù)算子,S+(z0)表示冗余數(shù)據(jù)的分類合集,在進行有效分類時,可以通過減去前M階級再進行逐一分類,M階級前的分類處理結(jié)果為
p(z0)S+(z0)
(10)
其中,p(z0)表示初始數(shù)據(jù),t(z0)表示冗余數(shù)據(jù)的關鍵特征。
假設,f0表示原始數(shù)據(jù)的離散動態(tài)頻率,冗余數(shù)據(jù)的分類處理結(jié)果為
(11)
基于上述過程,利用頻譜關系[12]的線性分析法可以得到最終的適應函數(shù),能實現(xiàn)對大量冗余數(shù)據(jù)的分類,其表示為
F=XmaxA+(1-Xmax)B
(12)
其中,A表示分類精準度,B表示消除的比例,對此實現(xiàn)加權操作,得出最終分類處理結(jié)果
(13)
基于上述步驟可完成最終的冗余數(shù)據(jù)分類方法,為后續(xù)消除處理打下良好基礎。
根據(jù)上述過程中相似特征數(shù)據(jù)的計算和分類,可以根據(jù)相似特征閾值快速確定數(shù)據(jù)的離散狀態(tài),在一定程度上保證了后續(xù)冗余數(shù)據(jù)流搜索和消除的效率。
利用網(wǎng)絡環(huán)境中冗余數(shù)據(jù)的動態(tài)變化特性和更新狀態(tài),進行實時跟蹤記錄,標記網(wǎng)絡中字節(jié)頻率變化最大的數(shù)據(jù)流,實時觀察其變化情況,并且所有數(shù)據(jù)流狀態(tài)表現(xiàn)最相似的數(shù)據(jù)都可以判斷為冗余數(shù)據(jù),從而完成多線程電子通信,查找網(wǎng)絡中所有冗余數(shù)據(jù)流的具體操作步驟如下。
1)首先,假設在多線程電子通信網(wǎng)絡中有256種不同類別的冗余數(shù)據(jù)流,且在實時狀態(tài)下出現(xiàn)的頻率為[p0,p1,p2,…,p255],而在這之中,所有數(shù)據(jù)流的字節(jié)值在初始時表現(xiàn)的不同狀態(tài)的概率為[f0,f1,f2,…,f255],挑選在其中表現(xiàn)狀態(tài)不同的字節(jié)值表示為x0,x1,x2,…,x255,并將其進行串聯(lián)合并就可得到
(14)
此公式代表,挑選出的所有經(jīng)過標記后的冗余數(shù)據(jù)的出現(xiàn)概率都要小于且等于此數(shù)值1/p。
(15)
其中,fi表示動態(tài)查找的最大限度值,且利用greedy算法,對此公式進行求解即可得到離散狀態(tài)下的實時冗余數(shù)據(jù)位置。該算法的計算特征是不考慮整體的數(shù)據(jù)情況,只以其中某一個測量點為選擇重點,進行計算,在一定程度上可減少耗用時間,增強查找效率。
利用加權算法對冗余數(shù)據(jù)進行有效消除,步驟如下所示:
首先,建立冗余數(shù)據(jù)消除空間,然后將上述過程中發(fā)現(xiàn)的冗余數(shù)據(jù)放入空間,實時跟蹤記錄冗余字節(jié)值的數(shù)量和頻率,并對冗余頻率不同的數(shù)據(jù)片段進行加權和集成,以去除重復數(shù)據(jù)片段。具體步驟如下:
假設,在對冗余數(shù)據(jù)進行統(tǒng)計計算時,將標記的首個字節(jié)為A的冗余數(shù)據(jù)片段的左右距離表示為L,其中,挑選左右距離為L的有效數(shù)據(jù)片段,表示為LS。這時如果選中前一位數(shù)據(jù),后一位就會被覆蓋,此時就需要進行消除處理,步驟如圖1所示。
圖1 重復覆蓋數(shù)據(jù)處理流程
在實際的網(wǎng)絡冗余數(shù)據(jù)消除過程中,其數(shù)據(jù)流在離散狀態(tài)下的貢獻頻率為
(16)
式中,cA表示重復冗余數(shù)據(jù)的修正頻率。
處理重復數(shù)據(jù)后,通過隨機映射的方式將冗余數(shù)據(jù)包與正常數(shù)據(jù)包進行交換,設BF為隨機映射函數(shù),長度為m,其網(wǎng)絡代碼的二進制數(shù)目為q,e表示隨機映射合集。當將其輸入至冗余數(shù)據(jù)空間時,可以通過映射檢測得出其中的比特元素編碼,該編碼可以對冗余數(shù)據(jù)實現(xiàn)有效替換,它們的替換關系表示為
p≈(1-e-qn/m)q
(17)
其中,n表示替換元素。為了有效保證冗余數(shù)據(jù)替換消除的時效性,需要選取距離長度為m=2.5MB的二進制數(shù)據(jù)編碼,可以在最大程度上實現(xiàn)冗余數(shù)據(jù)的消除。
在多線程電子通信網(wǎng)絡中對冗余量的整體消除流程下所示。
圖2 冗余數(shù)據(jù)的消除流程
為了確認多線程電子通信網(wǎng)絡中冗余消除過程的有效性,采用數(shù)據(jù)配置為Intel XeonE3-1230V2的終端服務器,4核配置的CPU處理器,8G內(nèi)存,128G固態(tài)硬盤等作為實驗工具。采取某地區(qū)的三種電子通信網(wǎng)絡,將其引入大小為70.2GB的流量包,進行冗余數(shù)據(jù)的特征和查找以及最后的消除,確保實驗環(huán)境的可實施性。
將文獻[1]和文獻[2]方法與本文進行對比分析,保證實驗結(jié)果的真實性及合理性,其網(wǎng)絡環(huán)境及流量參數(shù)如表1所示。
表1 實驗環(huán)境及流量參數(shù)
挑選表1中的1號和5號大范圍跟蹤數(shù)據(jù)作為實驗背景,其目標范圍較大,可以保證實驗的直觀性。通過三種方法分別對兩種跟蹤數(shù)據(jù)下的所有冗余數(shù)據(jù)進行消除,得出實驗的字節(jié)數(shù)據(jù)節(jié)省空間對比結(jié)果如圖3所示。
圖3 跟蹤數(shù)據(jù)1號的字節(jié)數(shù)據(jù)節(jié)省空間
從圖3和圖4的對比分析結(jié)果可以看出,無論在哪種流量環(huán)境下,基于本文的冗余數(shù)據(jù)消除方法的字節(jié)節(jié)省率都要高于其它兩種算法30GB以上。其它兩種方法中,字節(jié)節(jié)省率曲線呈現(xiàn)出波動大、狀態(tài)不穩(wěn)定的下降趨勢。這主要是因為它過于依賴冗余數(shù)據(jù)的特征屬性,而忽略了原始數(shù)據(jù)造成的冗余干擾。數(shù)據(jù)之間的相似性會導致多次分類處理無果的現(xiàn)象,導致離散狀態(tài)的冗余數(shù)據(jù)頻繁出現(xiàn),無法消除或殘存,數(shù)據(jù)完整性較差,從而降低了準確率和效率。但是因為本文方法在搜索和消除冗余數(shù)據(jù)之前,該方法首先計算并分類原始數(shù)據(jù)相關特征的相似度,可以有效地對特征相似數(shù)據(jù)進行區(qū)分,而不存在冗余干擾,從而減少后續(xù)消元過程中的判斷誤差,提高整體準確度,保證消元過程的有效實施。
圖4 跟蹤數(shù)據(jù)5號的字節(jié)數(shù)據(jù)節(jié)省空間
以表1中的4號跟蹤數(shù)據(jù)作為實驗背景。通過三種方法分別對兩種跟蹤數(shù)據(jù)下的所有冗余數(shù)據(jù)進行消除,得出消除過程的整體加速比指標的對比結(jié)果如圖5所示。
圖5 跟蹤數(shù)據(jù)4號的加速比對比
加速比表示基于同一項目任務的任意兩種處理系統(tǒng)的數(shù)據(jù)運行耗用與時間消耗的比值,其表達公式如下所示
(18)
式中,p表示CPU耗用數(shù)量;T1表示整體耗用時間;Tp表示任務處理時整體耗用的時間。
從圖5的對比分析結(jié)果可以看出,使用本文方法的加速比曲線整體走勢平緩,穩(wěn)定性較強,
表明消除過程耗用時間較少,速度較快,可以降低網(wǎng)絡的延遲性,改善數(shù)據(jù)儲存問題。
1)對原始數(shù)據(jù)進行特征相似度搜索和分類的預處理,可以有效地改善原始數(shù)據(jù)造成的冗余干擾和處理的惡性循環(huán),加速比最高可達8,大幅提高后續(xù)的消除效率和處理難度。
2)采用數(shù)據(jù)替換的方法可以有效地消除冗余數(shù)據(jù)流量,同時又不破壞數(shù)據(jù)的原有特性,保證數(shù)據(jù)的完整性,高于其它兩種算法30GB以上,可以節(jié)省大量的網(wǎng)絡空間,優(yōu)化多線程電子通信網(wǎng)絡。