趙晉明
(山西省太原市文通電子有限公司,山西 太原030002)
一種基于投影尋蹤的電信網(wǎng)絡數(shù)據(jù)處理方法
趙晉明
(山西省太原市文通電子有限公司,山西 太原030002)
在大數(shù)據(jù)時代,運營商采集和處理的數(shù)據(jù)出現(xiàn)了爆炸式增長。與此同時,采集數(shù)據(jù)維度增長使得從數(shù)據(jù)中提取信息的難度大大提高,導致了運營商新增的計算能力并沒有帶來與之匹配的信息處理能力提升。造成這一現(xiàn)象的主要原因在于并非所有維度上都有運營商關心的信息,過高的維度反而帶來額外的噪音。因此,根據(jù)數(shù)據(jù)特性選擇適當?shù)木S度十分必要?;谏鲜隹紤],提出了一種基于投影尋蹤的數(shù)據(jù)處理方法,并通過基于實際網(wǎng)絡數(shù)據(jù)的對比驗證了本文所述方案的有效性。
網(wǎng)絡管理;降維;投影尋蹤
通信網(wǎng)絡中存在著大量的復雜事物及現(xiàn)象,網(wǎng)絡管理人員一直希望通過網(wǎng)絡參數(shù)的提取來揭示隱藏在這些紛繁復雜的表象下的現(xiàn)象和客觀規(guī)律。長久以來,網(wǎng)絡管理者不斷研制新的網(wǎng)絡管理工具,發(fā)展新的性能測試技術(shù)。對于當前的網(wǎng)絡狀況,可以用來描述小區(qū)語音話務量、小區(qū)語音質(zhì)量、小區(qū)數(shù)據(jù)等效話務量、小區(qū)數(shù)據(jù)質(zhì)量、掉線率、語音信道擁塞率、無線接入性、無線利用率等幾十個指標。因此,對于每時每刻的網(wǎng)絡狀況,可以用多變量組成的數(shù)據(jù)細致地表示。這些數(shù)據(jù),抽象出來就是高維數(shù)據(jù)。這些數(shù)據(jù)提供了網(wǎng)絡中極其詳細的信息。但是,數(shù)據(jù)維數(shù)的大幅度提高也給隨后的數(shù)據(jù)處理和分析工作帶來了巨大的困難。
網(wǎng)絡管理系統(tǒng)作為一個數(shù)據(jù)處理系統(tǒng),通常需要在輸入數(shù)據(jù)的信息量較高的情況下才能有效工作。而當輸入向量維數(shù)過高時,如何尋找有效信息將變得更加困難,導致“維度災難”[1,2]——系統(tǒng)計算量增加而效能無法提升。因此,必須采取一定的措施使系統(tǒng)能夠有效地從數(shù)據(jù)中獲得信息,發(fā)揮出計算能力的最大效能,這就是“降維”。
降維的核心思想就是要將輸入數(shù)據(jù)的維數(shù)降低到一個合理的范圍內(nèi),并盡可能多地保留數(shù)據(jù)中的原始信息。對于網(wǎng)絡管理系統(tǒng)這樣需要處理海量數(shù)據(jù)的系統(tǒng),這種做法不僅是有用的甚至可能是必須的,圖1描述了高維數(shù)據(jù)降維的過程。
圖1 高維數(shù)據(jù)降維的過程
在大量的工程實踐中,很多表面上看是高維、復雜的問題,實際可以通過很少的變量(特征向量)來描述,例如人臉識別、語音識別、基因測序等問題。然而,除了個別領域,目前國內(nèi)外對降維的研究更多集中在理論探索,在工程中的具體實踐還相對較少。英國謝菲爾德大學的Carreira[3]在對各種降維方法綜合分析研究的基礎上,提出了一種抽象的模型;美國斯坦福大學的Donoh等人[4]對于高維數(shù)據(jù)空間進行了比較深入的研究,獲得了很有指導意義的結(jié)果。國內(nèi)相關領域的研究還比較少。電信網(wǎng)管系統(tǒng)具有海量的數(shù)據(jù),對這些數(shù)據(jù)的有效處理和準確分析具有十分重要的實際意義。本文從電信網(wǎng)管系統(tǒng)的具體需求出發(fā),結(jié)合國內(nèi)外相關研究成果的思想,提出了一種基于降維思想的數(shù)據(jù)處理方法,提升了數(shù)據(jù)處理過程的準確性和處理效率。
高維空間體現(xiàn)出許多在低維無法想象的特殊性質(zhì),最顯著的就是高維空間中的數(shù)據(jù)分布是“稀疏”的。具體而言,對于任意d維空間Rd,其中半徑為r的球體的空間體積Vd(r)可以表示為:
這樣的超球體存在一種低維下十分罕見的特性,即其“體積”的大部分存在于表面上,其“表面”與“整體”的體積比例可以寫成:
于是:
在這種情況下,對于由網(wǎng)絡參數(shù)構(gòu)建的高維空間,傳統(tǒng)的多元統(tǒng)計方法無法得到準確的結(jié)果,因此對采集到的數(shù)據(jù)進行適當?shù)慕稻S就十分必要。具體而言,降維的數(shù)學解釋就是將高維數(shù)據(jù)投影到一個維數(shù)比原數(shù)據(jù)空間小得多的流形上。而降維操作的目標就是獲得這一流形的低維坐標表示。
圖2 降維過程的數(shù)學含義
在通信網(wǎng)絡中,由于各種因素的影響,如采樣噪聲、參數(shù)設計不合理、人為干擾因素等,使得網(wǎng)絡采集數(shù)據(jù)中的信息被大量噪音所掩蓋。通常,很多參數(shù)所攜帶的信息遠小于其引入的噪音,因此,把它們“過濾”掉可以幫助網(wǎng)絡管理人員更好地提取信息。從實用的角度來看,對于通信網(wǎng)絡參數(shù)的降維就是在保留網(wǎng)絡結(jié)構(gòu)信息的條件下盡可能減少所用參數(shù)的數(shù)量、降低數(shù)據(jù)中的噪音,使網(wǎng)絡管理系統(tǒng)可以最大程度地實現(xiàn)對網(wǎng)絡狀態(tài)的客觀評估。
在降維的各種方法中,投影尋蹤 (projection pursuit,PP)是用來分析和處理高維數(shù)據(jù),尤其是來自非正態(tài)總體的高維數(shù)據(jù)的一種有效方法。20世紀70年代初,Kruskal開創(chuàng)性地通過把數(shù)據(jù)投影到低維空間,以極大化某個指示參數(shù)的方式迭代出最佳投影結(jié)構(gòu)的方法。投影追蹤通過將原數(shù)據(jù)“投影”到某幾個信息量最大的線性組合上,使得信息被保留的同時減少了數(shù)據(jù)的維度和數(shù)據(jù)中的噪音。目前,投影追蹤的方法已經(jīng)在多個領域進行了有效的推廣,取得了較好的效果。
1.3 常規(guī)復習和基于項目學習理論的復習之間的差異 兩者對比,在常規(guī)復習中教師是中心,學生只是被動接受知識者,結(jié)果是知識的簡單重復,學生的機械操練,尤其是在“二考”復習時會使學生新鮮感喪失、倦怠感陡增、學習效率下降,“二考”復習變成食之無味棄之可惜的“雞肋”?;陧椖繉W習理論的復習以學生為出發(fā)點和落腳點,強調(diào)自主探究、合作學習,以發(fā)展學生學科核心素養(yǎng)為目的,著眼于學生對于知識的內(nèi)化和學生解決實際問題能力的提升,真正體現(xiàn)了課程改革的理念。這種復習方式克服了以往理綜復習和“一考”復習中教師對學生、對知識的絕對控制帶來的弊端,學生收獲的不僅僅是選考成績的進步,更是學生學科核心素養(yǎng)的提升。
在電信網(wǎng)管系統(tǒng)中,可以采集到多種維度的數(shù)據(jù)。這些不同維度數(shù)據(jù)的線性組合通常是接近高斯分布的[5]。從信息的角度來看,高斯分布幾乎全部是噪音。在這種情況下,為了減少噪音,一方面需要減少輸入?yún)?shù)的維度,另一方面需要通過線性變換,將原數(shù)據(jù)映射到信息含量更高的維度上。上述兩方面可以通過采用投影跟蹤來實現(xiàn)——通過選擇信息量最高的少數(shù)幾個投影方向進行坐標變換。
投影追蹤就是實現(xiàn)上述目標的一種數(shù)學方法,即通過在原始數(shù)據(jù)的不同投影空間上尋找信息量最大的少數(shù)幾個投影方向來降低數(shù)據(jù)的維度。具體來說,假設網(wǎng)絡管理系統(tǒng)采集到的d維參數(shù)集為X,則降維的目標可以表述為找到最佳映射F→R,假設所采用的映射方法是線性的,則該映射可以寫為:F=AX,其中A為轉(zhuǎn)換矩陣。這樣,降維的目標就是尋找最優(yōu)轉(zhuǎn)化矩陣A,使得X在新坐標下表現(xiàn)出更優(yōu)的線性結(jié)構(gòu)。
尋找最優(yōu)轉(zhuǎn)化矩陣的評價標準為Q(AX),為了簡化運算電信網(wǎng)管系統(tǒng)的計算和管理負擔,可以采用方差作為評價指標,即Q(aTX)=Var(aTX)。這樣,對于參數(shù)集X={x1,x2,…, xn},其方差可以寫作:
這樣,找到最優(yōu)的aTX,得到的就是樣本a散布最大的方向。多元正態(tài)分布線性投影依然是正態(tài)分布,因此如果在某個投影方向上找到與正態(tài)分布差別較大的數(shù)據(jù)集,那它就一定含有更多信息,因此在這個方向上進行數(shù)據(jù)進行分析可以更快、更精確地挖掘出其中所蘊含的信息[6]。因此,這樣一種指標也成為信息散度。更精確的說,對于數(shù)據(jù)集f和g,其所對應的數(shù)據(jù)散度為:
投影追蹤就是基于信息的這一性質(zhì),即不斷尋找能反映原高維數(shù)據(jù)信息的投影向量,通過對投影向量的分析來獲得原高維數(shù)據(jù)中的有用信息。更具體地說,對于電信網(wǎng)絡中的高維數(shù)據(jù),可以采用如下步驟進行降維處理。
步驟1 首先選定正態(tài)分布作為向低維映射的標準。
步驟2 將原始數(shù)據(jù)在正態(tài)分布上進行投影,找到最遠離正態(tài)分布的投影方向,這一投影方向上包含了最大的有用信息。
步驟3 將上述投影過程中,與原正態(tài)分布相似度較大的方向上的數(shù)據(jù)刪除,得到新的數(shù)據(jù)集。
步驟4 對新數(shù)據(jù)集重復步驟2、步驟3,直到所有的投影方向上得到的映射都遠離正態(tài)分布,即將原數(shù)據(jù)集中的全部有用信息提取完畢。
在實踐中,這一方法可以快速找到最能反映網(wǎng)絡狀態(tài)的參數(shù),提升網(wǎng)絡管理人員對網(wǎng)絡狀態(tài)的理解。另外,投影尋蹤的方法可以將高維數(shù)據(jù)投影到一維子空間,使得可以方便地找到影響網(wǎng)絡某一性能的最主要因素。這一特性對于網(wǎng)絡管理工作提供了極大的便利,在下文中將通過基于實際數(shù)據(jù)的案例對這一過程進行詳細說明。
為了驗證本文所提出的電信網(wǎng)管系統(tǒng)中數(shù)據(jù)處理的方法,本文以運營商的實際數(shù)據(jù)為例,對比不同方案的數(shù)據(jù)分析過程得到的效果。原始數(shù)據(jù)為某省會城市10 000個小區(qū)的各項采集參數(shù)。將原始數(shù)據(jù)集進行可視化,得到的結(jié)果如圖3所示??梢钥吹剑捎谠紨?shù)據(jù)中的相關性十分復雜,無法直接獲得有關網(wǎng)絡狀態(tài)的直觀信息。因此,需要對原始高維數(shù)據(jù)進行處理,以獲得有關網(wǎng)絡性能更加直觀的關系。
例如,為了獲得小區(qū)掉線數(shù)量的影響指標,可以按照本文所述方法對原始數(shù)據(jù)進行降維。根據(jù)上文所述過程,基于投影追蹤的方式分析得到影響小區(qū)掉線的主要指標及影響因素(投影長度),得到結(jié)果分別為:小區(qū)數(shù)據(jù)流量(1.342)、小區(qū)載頻數(shù)量(0.312)、小區(qū)CPU利用率(0.248)、小區(qū)語音總量(0.219)??梢钥吹?,小區(qū)的數(shù)據(jù)流量是影響小區(qū)掉線率最重要的指標,其影響顯著遠超其他指標的影響。
圖3 電信網(wǎng)管系統(tǒng)采集到的原始高維數(shù)據(jù)集
為了驗證這一結(jié)果的有效性,對兩組樣本進行分析,其結(jié)果如圖4、圖5所示。其中第一組樣本是相鄰兩個月掉線次數(shù)變化與網(wǎng)絡流量變化之間的關系;第二組樣本為相鄰兩個月掉線次數(shù)變化與通話時長變化的關系??梢钥吹剑瑢τ谒x取樣本,掉線與數(shù)據(jù)流量之間存在明顯關系而與語音通話時長關系并不明顯,可見,掉線成因的先驗判斷可能會給網(wǎng)絡狀態(tài)的評估帶來很大的不確定性。
圖4 無線小區(qū)掉線次數(shù)變化與數(shù)據(jù)流量變化的數(shù)據(jù)映射投影
圖5 無線小區(qū)掉線次數(shù)變化與語音業(yè)務時長變化的數(shù)據(jù)映射投影
與此同時,為了驗證本文所提方法的實際性能,本文基于上述樣本對比本文所提出算法與傳統(tǒng)處理高維的聯(lián)機分析處理(on-line analytical processing,OLAP)方法。其中樣本為市中心高負載小區(qū),且存在由于CPU負載過高引起過高掉話次數(shù)的現(xiàn)象。本文將所選小區(qū)分為10組,各自通過上述高維數(shù)據(jù)比較對掉線發(fā)生成因判斷的準確性,結(jié)果如圖6所示。
圖6 本文所提方法與OLAP方法的性能比較
從結(jié)果可以看到,本文所提出的數(shù)據(jù)處理方法有效地提高了數(shù)據(jù)分析的準確性。對于某一業(yè)務而言,其質(zhì)量并不完全取決于網(wǎng)絡參數(shù),但是,通過不斷地對數(shù)據(jù)進行分析,可以在很大程度上及時發(fā)現(xiàn)網(wǎng)絡運行中存在的問題。因此,這樣的準確率已經(jīng)基本可以滿足運營商對于網(wǎng)絡管理的要求,同時也說明本文所提出的分析方法具有一定的適用價值。
對數(shù)據(jù)的處理能力未來將成為運營商增強競爭力、提高網(wǎng)絡管理效率的重要手段。因此,對數(shù)據(jù)的高效分析是運營商的重要資產(chǎn)。本文從提升運營商的數(shù)據(jù)處理能力的實際需求出發(fā),提出了基于投影尋蹤實現(xiàn)降低數(shù)據(jù)維度的有效方法。最后,通過基于實際數(shù)據(jù)對比驗證證明了本文所提出方法的有效性。本文研究成果對未來運營商的數(shù)據(jù)使用和分析的相關研究有著較大的借鑒意義。
[1]BELLMAN T E.Adaptive control processes[M].Princeton: Princeton University Press,1961.
[2]MAATEN L J P V D,POSTMA E O,HERIK H J V D. Dimensionality reduction:a comparative review [J].Journal of Machine Learning Research,2007,10(1).
[3]CARREIRA-PERPINAN M A.Continuous latentvariablemodels for dimensionalityreduction and sequentialdatareconstruction[EB/OL]. (2001-01-29)[2016-11-02].http://xueshu.baidu.com/s?wd= Continuous+Latent+Variable+Models+for+Dimensionality+ Reduction+and+Sequential+Data+Reconstruction&tn =SE_ baiduxueshu_c1gjeupa&cl=3&ie=utf-8&bs=Dimensionality + reduction%3A+a+comparative+review&f=8&rsv_bp=1&rsv_sug2 =1&sc_f_para=sc_tasktype%3D%7BfirstSimpleSearch%7D& rsv_n=2.
[4]DONOHO D L.High dimensional data analysis:the curses and blessings of dimensionality[EB/OL].(2000-01-29)[2016-11-02]. http://xueshu.baidu.com/s?wd=High+dimensional+data+analysis %3A+the+curses+and+blessings+of+dimensionality&tn= SE_baiduxueshu_c1gjeupa&cl=3&ie=utf-8&bs=Continuous+ Latent+Variable+Models+for+Dimensionality+Reduction+and+ Sequential+Data+Reconstruction&f=8&rsv_bp=1&rsv_sug2= 1&sc_f_para=sc_tasktype%3D%7BfirstSimpleSearch%7D&rsv_ n=2.
[5]DIACONIS P,FEREDMNA D.Asymptoticsofgraphical projection pursuit[J].Annals of Statistics,1984,12(3):793-815.
[6]張維明.數(shù)據(jù)倉庫原理與應用 [M].北京:電子工業(yè)出版社, 2002. ZHANG W M.The principle and application ofdata warehouse[M].Beijing:Publishing House of Electronics Industry,2002.
Data processing method for telecom data based on projection pursuit
ZHAO Jinming
Wentong Company Limited,Taiyuan 030002,China
In the big data era,the data which operator can collect and process is quickly growing.At the same time, due to the high dimension of the data,it is very difficult to extract and process information from them.This makes the waste of the computing capability of operators,even may lead to the decrease of performance due to the growth of the data dimension.The main reason of this phenomenon is that not all dimensions are interested with the information.Therefore,it is necessary to select the appropriate dimensions according to the data characteristics. Based on this,a data processing method based on projection pursuit was proposed.The result demonstrates the effectiveness of the scheme.
network management,dimension reduction,projection pursuit
TN915
A
10.11959/j.issn.1000-0801.2016322
2016-11-02;
2016-12-14
趙晉明(1973-),男,山西省太原市文通電子有限公司研發(fā)主管,主要研究方向為網(wǎng)絡管理系統(tǒng)的架構(gòu)和關鍵算法,具有豐富的理論和工程經(jīng)驗,為中國移動通信集團公司等運營商解決了大量運維難題,并實現(xiàn)多項關鍵技術(shù)突破。