李金武
(鄭州科技學院信息工程學院,河南 鄭州 450064)
多元數(shù)據(jù)由多維不同類型的數(shù)據(jù)組成,數(shù)據(jù)形式多種多樣,且具有多種不同特點.多元數(shù)據(jù)存在多個影響因素,不同影響因素融合為多元[1-2].近年來,隨著大數(shù)據(jù)和網(wǎng)絡信息技術的飛速發(fā)展,各種各樣的數(shù)據(jù)呈指數(shù)形式增長,同時,數(shù)據(jù)在社會經(jīng)濟發(fā)展中的作用也越來越突出.如何在海量數(shù)據(jù)中提取重要信息,將多元數(shù)據(jù)進行有效融合,對多元數(shù)據(jù)進行綜合評價,提高人們決策有效性,已成為人工智能、知識發(fā)現(xiàn)、自動控制、圖像處理等領域研究的熱點問題[3].現(xiàn)有的數(shù)據(jù)融合算法主要有D-S 證據(jù)理論、貝葉斯理論、模糊理論和神經(jīng)網(wǎng)絡等[4-8],每種算法都有其自身優(yōu)缺點.
目前針對信息的不確定性,常采用多元數(shù)據(jù)融合方法進行處理,首先建立數(shù)據(jù)評價指標體系,并對各個指標進行賦權,最后對各指標數(shù)據(jù)進行融合評價.但是,指標權重的確定主觀性較強,定性和定量指標的統(tǒng)一問題少有解決.徐衛(wèi)亞等[4]將D-S 證據(jù)理論與云模型相結(jié)合,引入權重系數(shù)對D-S 證據(jù)理論進行改進,將多元數(shù)據(jù)進行融合,實現(xiàn)對滑坡安全性的綜合評價.陳雍君等[5]在模糊評價基礎上,引入貝葉斯理論,構(gòu)建城市地下綜合管廊運維風險指標體系,對其進行綜合評價,并推理各風險指標之間因果概率關系.張武毅等[6]將灰色關聯(lián)度和模糊層次分析法相結(jié)合,構(gòu)建智慧工程實驗室評價指標體系,對智慧工程實驗室進行綜合評價.米慶等[7]整合單一神經(jīng)網(wǎng)絡優(yōu)勢,采用混合神經(jīng)網(wǎng)絡,從不同維度構(gòu)建源代碼可讀性信息評價指標,對代碼可讀性進行量化評估.張明旺等[8]將云模型不確定性理論引入水庫泥沙淤積影響的評價中,通過主客觀組合賦權法確定影響因素指標權重,給出定性評價結(jié)論.
傳統(tǒng)的多元數(shù)據(jù)融合方法,在精確數(shù)據(jù)與區(qū)間數(shù)據(jù)的統(tǒng)一表示上,在定性與定量指標的統(tǒng)一表示上,還存在缺陷.同時,在進行數(shù)據(jù)融合處理和綜合評價時,不能很好反映數(shù)據(jù)信息的不確定性,沒有給出有效的定性與定量相結(jié)合的綜合評價結(jié)論.本文針對多元數(shù)據(jù)的統(tǒng)一表示問題,引入云模型理論,將不同屬性指標統(tǒng)一用云模型表示,使用云模型對屬性指標進行賦權,完成多元數(shù)據(jù)定性與定量評價,驗證評價方法的合理性.
設U 是用精確數(shù)值表示的定量論域,C 是該定量論域上的一個定性概念, 對于x∈U,x 是C 上的一次隨機實現(xiàn),x 關于C 的確定度μ(x)∈[0,1]是具有穩(wěn)定傾向的隨機數(shù),則x 在U 上的分布稱為云,x 稱為云滴.
云模型[9]使用3 個參數(shù)來描述其定性概念,即期望Ex,熵En 和超熵He.3 個參數(shù)稱為云模型的數(shù)字特征,記為C(Ex,En,He).其中期望Ex 是論域的正中心,反映了論域空間最能夠代表定性概念的點,熵En是定性概念的不確定性度量,反映了概念隨機性和模糊性之間的關聯(lián)度,超熵Ee 是熵的不確定性度量,反映了云滴的厚度.
由于正態(tài)分布的普適性,云模型云滴的分布符合正態(tài)分布.對于云滴x,若滿足x~(Ex,En′),且En′~(En,He),即x 和En′均服從正態(tài)分布,則曲線y(x)=exp[-(x-Ex)2/2En2],稱為云模型期望曲線[9],該期望曲線貫穿整個云滴,直觀反映了云模型幾何特征,如圖1 所示.在云模型中,不同云滴對概念貢獻度不同,對概念有貢獻的云滴大多落在[Ex-3En,Ex+3En]區(qū)間內(nèi),稱為“3En”規(guī)則.
圖1 云模型示意圖Fig.1 Diagram of cloud model
相似度度量,即利用數(shù)學理論綜合評定兩事物之間相似性,常應用于數(shù)據(jù)挖掘,圖像處理和評估決策等領域.云模型相似度,即計算待測評對象云和評價等級云之間的相似度,尋求相似度最大的某個等級云,作為定性評價結(jié)論.云模型相似度度量方法主要有:云滴距離法(SCM),向量夾角余弦法(LICM),期望曲線法(ECM),最大邊界曲線法(MCM)等.張勇等[10]提出了云滴距離法,通過計算兩云模型云滴之間距離來衡量其相似度,該方法計算量較大,且相似度閾值難以確定.張光衛(wèi)等[11]提出了向量夾角余弦法,以云模型數(shù)字特征構(gòu)造兩個特征向量,計算特征向量夾角余弦值,將其作為云模型相似度,該方法存在一定局限性,在特殊情況下,給出的相似度與實際不符.李海林等[12]提出了一種期望曲線法,將兩云模型期望曲線與軸所圍面積交集作為計算依據(jù),給出云模型相似度,該方法計算復雜度較高,且沒有考慮超熵對相似度的影響.同時,在文獻[12]還提出了一種最大邊界曲線法,考慮云模型厚度,以兩邊界曲線重疊面積為依據(jù),計算云模型相似度.
多元數(shù)據(jù)云模型評價方法,基于多元屬性指標,綜合考慮實數(shù)型,區(qū)間型和模糊型屬性數(shù)據(jù)特性[13],對不同屬性數(shù)據(jù)進行歸一化處理,并使用云模型統(tǒng)一表示.考慮人們主觀因素對權重的影響,依據(jù)層次分析法,確定各屬性云模型權重,即各屬性權重同樣使用云模型表示.然后利用云模型計算規(guī)則生成待評測綜合云,并建立五等級隸屬云標尺,采用基于隸屬度的云模型相似度評價方法進行定性評價,并依據(jù)云模型定性與定量的不確定性轉(zhuǎn)換關系,給出定量評價結(jié)論,最終完成多屬性數(shù)據(jù)定性與定量相結(jié)合的綜合評價.評價模型如圖2 所示.
圖2 多元數(shù)據(jù)綜合評價模型Fig.2 Multivariate data comprehensive evaluation model
2.2.1 數(shù)據(jù)歸一化處理 本文將多元數(shù)據(jù)劃分為實數(shù)型,區(qū)間型和模糊型3 種類型,并將各類型數(shù)據(jù)區(qū)分為正屬性和負屬性.正屬性即期望其數(shù)值越大,負屬性即期望其數(shù)值越小.例如,計算機網(wǎng)絡性能指標,網(wǎng)絡帶寬屬于正屬性,網(wǎng)絡時延和網(wǎng)絡丟包率等屬于負屬性.pi表示實數(shù)型屬性數(shù)據(jù),[pLi,pRi]表示區(qū)間型屬性數(shù)據(jù),“優(yōu),良,中,差,特差”5 個等級表示模糊型屬性數(shù)據(jù).
對于實數(shù)型屬性數(shù)據(jù),對其進行歸一化處理如下
對于區(qū)間型屬性數(shù)據(jù),對其進行歸一化處理如下
式中,maxpi和minpi為實數(shù)型數(shù)據(jù)理論最大值和最小值,maxpLi和minpLi為區(qū)間型數(shù)據(jù)左端理論最大值和最小值,maxpRi和minpRi為區(qū)間型數(shù)據(jù)右端理論最大值和最小值.
對于模糊型屬性數(shù)據(jù),其歸一化處理與云化處理同步實現(xiàn).
2.2.2 數(shù)據(jù)云化處理 數(shù)據(jù)云化處理是將各屬性數(shù)據(jù)統(tǒng)一用云模型Ci(Ex,En,He)表示,方便對其進行不確定性評價.對于實數(shù)型屬性數(shù)據(jù),利用逆向云算法計算云模型參數(shù),n 個抽樣樣本pi(i=1,2,3,…,n),計算則Ex=p,En=(π/2)1/2×B,He=|S2-En2|1/2.對于區(qū)間型屬性數(shù)據(jù),利用指標近似法計算云模型參數(shù),區(qū)間則根據(jù)評價數(shù)據(jù)隨機性和模型性確定.對于模糊型屬性數(shù)據(jù),使用“優(yōu),良,中,差,特差”5 個模糊評價值,根據(jù)專家經(jīng)驗和基于黃金分割率模型驅(qū)動法[14],給出云模型如表1 所示,“優(yōu)”采用半升云描述,“特差”采用半降云描述,其他模糊評價值采用完整云描述.
表1 模糊評價值云模型Tab.1 Cloud model of fuzzy evaluation
2.2.3 屬性權重確定 屬性權重采用層次分析法進行確定,傳統(tǒng)層次分析法AHP,是一種系統(tǒng)性的模糊綜合評價方法,通過判斷低層指標相較于高層指標的重要程度,使用1~9 的數(shù)值標度構(gòu)造兩兩比較判斷矩陣,進而確定指標權重,該方法容易受到人為主觀因素的影響,導致權重確定不夠合理[15].本文對傳統(tǒng)層次分析法進行改進,使用云模型權重,即對屬性權重使用云模型進行標度,考慮隨機性和模型性及其之間關聯(lián)性,主要改進方法在于兩兩比較判斷矩陣的構(gòu)造,屬性權重云模型期望依然使用1~9 的標度方法,熵和超熵的標度方法重新進行定義,改進后層次分析法云模型標度如表2 所示.利用表2 的標度方法構(gòu)造兩兩比較判斷矩陣,進行一致性校驗,確定屬性云模型權重wi(Ex,en,He).
表2 云模型標度含義Tab.2 The scale with cloud model
2.2.4 生成待評價對象云 對多元屬性數(shù)據(jù)云進行一維線性加權計算,利用公式(1)生成待評價對象云.
由于采用云模型權重,待評價對象云三個數(shù)字特征均采用加權平均計算求得.按照以下規(guī)則進行云模型乘法和加法運算,對于權重云W1(Exw1,Enw1,Hew1)和屬性云C1(Ex1,En1,He1)乘法運算運用公式(2),對于Cz1(Exz1,Enz1,Hez1)和Cz2(Exz2,Enz2,Hez2)兩個云的加法運算運用公式(3)
2.2.5 構(gòu)建隸屬云標尺 多元屬性數(shù)據(jù)評價云標尺分為“優(yōu),良,中,差,特差”5 個等級,云標尺各等級依舊采用表1 中云模型表示方法,其云標尺如圖3 所示.
圖3 多元數(shù)據(jù)評價云標尺Fig.3 Cloud scale of multivariate data evaluation
2.2.6 定性評價 多元數(shù)據(jù)定性評價,需要計算待評價對象云與各等級云相似度,并進行比較,找出與待評價對象云相似度最大的等級云作為定性評價結(jié)論.文獻[12]直接基于云模型相交面積計算其相似度,僅考慮低層次云模型的不確定性,且算法復雜度較高.本文將相交面積躍升至更高層次,基于基礎云和綜合云的相交面積計算相似度,綜合云利用基礎云截斷熵計算得出,文獻[16]給出了詳細計算方法,本文不再贅述.假設云C1和云為C2待計算相似度基礎云,云Cz為基礎云對應的綜合云,基礎云與綜合云相交面積越大,說明基礎云對綜合云的貢獻度越高,云C1和C2云越接近.以此定義云C1和云C2的相似度為
式(4)中:S1為云C1和云Cz的相交面積,S2為云C2和云Cz的相交面積,Sz為云Cz的面積,S1、S2和Sz
均采用云期望曲線積分計算給出,方法見文獻[16],不再贅述.
本文將云模型相似度計算躍升至更高層次,更加注重評價過程的不確定性,體現(xiàn)了云模型亦此亦彼的特性,評價結(jié)論合理穩(wěn)定.依據(jù)公式(4)分別計算待評價對象云與五等級云相似度,Di(i=1,2,…,5)通過比較,將與待評價對象云相似度最大的等級云作為定性評價結(jié)論.
2.2.7 定量評價 定性評價反映了多元數(shù)據(jù)整體特征,而定量評價可以用精確數(shù)值表示多元數(shù)據(jù)評價結(jié)果,有利于比對分析.云模型本身可以實現(xiàn)定性與定量的不確定性轉(zhuǎn)化,本文考慮云模型相似度,提出一種由定性評價到定量評價轉(zhuǎn)換的方法,給出定量評價值,從而實現(xiàn)多元數(shù)據(jù)定量評價.在定性評價中,找出與待評價對象云相似度較大的兩個等級云C1和C2(此處假設Ex1<Ex2),相似度分別為D1和D2.令則多元數(shù)據(jù)定量評價值定義為
以上方式依據(jù)云模型相似度,并考慮“3En”規(guī)則和超熵的影響,待評價對象云與等級云相似度越大,定量評價值越接近該等級云期望值,傳統(tǒng)方法直接將待評價對象云期望Ex 作為定量評價值,本文采用間接方式,保留了多元數(shù)據(jù)評價中的不確定性,將計算方式轉(zhuǎn)換至與評價對象云相似度較大的兩個等級云上,并采用均值計算,減小計算誤差.
通過分析某校園網(wǎng)絡安全態(tài)勢,驗證本文多元數(shù)據(jù)融合評價方法的有效性.從網(wǎng)絡運行狀態(tài)、脆弱性、風險指數(shù)三方面分析,影響該校園網(wǎng)絡安全態(tài)勢的屬性因素有峰值流量、帶寬利用率、CPU 利用率等12 個屬性指標,包含實數(shù)型、區(qū)間型和模糊型三種,同時又區(qū)分正屬性指標和負屬性指標.各屬性指標數(shù)據(jù)的處理及云模型表示如表3 所示.對于實數(shù)型數(shù)據(jù)取多次測量的平均值;在數(shù)據(jù)歸一化處理時,對于正屬性數(shù)據(jù),maxpi=1,[maxpLi,maxpRi]=[0.95];對于負屬性數(shù)據(jù),minpi=0.1,[minpLi,minpRi]=[0.05,0.30];對于區(qū)間型數(shù)據(jù),數(shù)據(jù)云模型表示時,He 取0.01.
表3 屬性指標數(shù)據(jù)及云模型表示Tab.3 Attribute data and cloud model representation
利用改進層次分析法得出表3 中各屬性指標的云模型權重wi=[C(0.1370,0.1641,0.1641),C(0.1381,0.1722,0.1722),C(0.0139,0.0303,0.0303),C(0.0429,0.0580,0.0580),C(0.0219,0.0394,0.0394),C(0.0737,0.0394,0.0394),C(0.0840,0.0576,0.0576),C(0.0226,0.0649,0.0649),C(0.0819,0.0510,0.0510),C(0.0515,0.0877,0.0877),C(0.1490,0.1177,0.1177),C(0.1836,0.1177,0.1177)].利用公式1~3,計算待評價對象云C(0.6020,0.0892,0.0120), 通過正向云發(fā)生器算法生成待評價對象云和隸屬云標尺,如圖4 所示.
圖4 基于云模型網(wǎng)絡安全態(tài)勢Fig.4 Network security situation based on cloud model
利用相似度計算公式(4),計算待評價對象云C(0.6020,0.0892,0.0120)與各等級云“優(yōu),良,中,差,特差”相似度分別為(0.2791,0.4003,0.6037,0.6613,0.3990).由相似度分析,待評價對象云與等級云“良”的相似度最大,相似度值為0.6613,該網(wǎng)絡安全態(tài)勢定性評價結(jié)論為“良”.與待評價對象云相似度較大的兩個等級云為“良”和“中”,相似度分別為0.6613 和0.6037,“良”的云模型表示C(0.7000,0.0809,0.0162),“中”的云模型表示C(0.5000,0.0500,0.0100),計算T1=0.7838,T2=0.5606,依據(jù)定量評價計算公式(5),均值計算該網(wǎng)絡安全態(tài)勢定量評價值為0.6722,相較直接采用定性評價結(jié)論“良”的期望值0.7000 作為定量評價結(jié)論,本文的方法更加合理,考慮了評價的不確定性.
針對多元數(shù)據(jù)的融合評價問題,本文將實數(shù)型、區(qū)間型和模糊型數(shù)據(jù)統(tǒng)一用云模型表示,提出了基于云模型的多元數(shù)據(jù)評價方法.通過云模型研究各屬性指標權重,改進主客觀賦權法,構(gòu)建各屬性指標云模型權重.利用云模相似度理論對多元數(shù)據(jù)進行定性定量評價,并實現(xiàn)定性定量評價的不確定性轉(zhuǎn)換.通過實例驗證分析,該評價方法合理有效,優(yōu)化了多元數(shù)據(jù)的融合問題.另外,如何將云模型權重與主客觀賦權法相結(jié)合,如何優(yōu)化不同屬性指標的量化標準,還需做進一步研究.