王宏杰,徐勝超
(廣州華商學(xué)院數(shù)據(jù)科學(xué)學(xué)院,廣東 廣州 511300)
在云平臺(tái)高速發(fā)展下,對(duì)于大規(guī)模的數(shù)據(jù)傳輸和聚類需求也在不斷增加。在這樣的背景下,產(chǎn)生了以下2 個(gè)問題:1)傳統(tǒng)的聚類算法已經(jīng)無法滿足當(dāng)今的數(shù)據(jù)復(fù)雜度需求,對(duì)聚類算法的優(yōu)化改進(jìn)或者提出全新的算法迫在眉睫;2)在云平臺(tái)傳輸數(shù)據(jù)的過程中會(huì)出現(xiàn)異常數(shù)據(jù),因?yàn)橄嚓P(guān)數(shù)據(jù)差異化小,如何有效聚類異常傳輸數(shù)據(jù)也是一個(gè)難點(diǎn)問題。
國內(nèi)相關(guān)專家針對(duì)云平臺(tái)異常傳輸數(shù)據(jù)聚類方面的內(nèi)容展開了大量研究[1-2],文獻(xiàn)[3]提出了一種新的聚類算法,用于解決不確定數(shù)據(jù)流上的聚類問題,通過子窗口采樣機(jī)制采集全部不確定流數(shù)據(jù),統(tǒng)計(jì)網(wǎng)格內(nèi)全部信息,為了獲得高質(zhì)量的聚類結(jié)果,它只存儲(chǔ)新到達(dá)的數(shù)據(jù),即“消除”過期數(shù)據(jù);引入動(dòng)態(tài)異常網(wǎng)格機(jī)制過濾離群點(diǎn),完成數(shù)據(jù)流聚類。與同類算法相比,該算法具有更好的聚類效果和更快的聚類速度,并且具有更強(qiáng)的可擴(kuò)展性,但是此方法對(duì)傳輸數(shù)據(jù)的聚類準(zhǔn)確性較差。文獻(xiàn)[4]提出了一種基于信息熵的加權(quán)塊稀疏子空間聚類算法。引入信息熵權(quán)重與塊對(duì)角約束,通過以上約束獲取加權(quán)塊稀疏子空間聚類參數(shù),采用信息熵求得稀疏子空間中的最優(yōu)近似解,此方法能夠有效提升劃分精度,但是此方法對(duì)傳輸數(shù)據(jù)的聚類劃分耗時(shí)較長。文獻(xiàn)[5]提出了一種K均值和馬田系統(tǒng)相結(jié)合的聚類方法。優(yōu)先通過K 均值聚類方法對(duì)全部數(shù)據(jù)聚類處理,得到K個(gè)初始類;檢測全部初始類中的數(shù)據(jù),刪除異常數(shù)據(jù),構(gòu)建穩(wěn)健馬氏空間,經(jīng)過計(jì)算得到各個(gè)數(shù)據(jù)在馬氏空間對(duì)應(yīng)的馬氏距離,同時(shí)將其劃分到距離最近的類中,最終實(shí)現(xiàn)聚類分析。此方法能夠提升數(shù)據(jù)聚類分精度,但是使用范圍具有一定局限性。
希爾伯特相似度相較于傳統(tǒng)數(shù)據(jù)聚類方法,適用于高維面板數(shù)據(jù),可利用傅里葉變換可視化樣本間的差異。根據(jù)當(dāng)前的數(shù)據(jù)聚類的優(yōu)點(diǎn)與不足,本文提出一種基于希爾伯特相似度的云平臺(tái)異常傳輸數(shù)據(jù)聚類方法。通過小波基分析云平臺(tái)異常傳輸數(shù)據(jù)的敏感性,并進(jìn)行對(duì)異常傳輸數(shù)據(jù)小波分解處理,實(shí)現(xiàn)云平臺(tái)異常傳輸數(shù)據(jù)濾波。將數(shù)據(jù)映射到希爾伯特空間內(nèi),同時(shí)構(gòu)建希爾伯特指數(shù),獲取指數(shù)的離散概率分布。計(jì)算數(shù)據(jù)的相似度取值,劃分云平臺(tái)異常傳輸數(shù)據(jù),完成云平臺(tái)異常傳輸數(shù)據(jù)聚類,有效提升了云平臺(tái)異常傳輸數(shù)據(jù)的聚類效果。最后通過真實(shí)的實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了該方法的可行性和高效性。
希爾伯特曲線是一個(gè)連續(xù)的分形空間填充曲線,在數(shù)據(jù)管理領(lǐng)域取得了十分廣泛的應(yīng)用。為了完成云平臺(tái)異常傳輸數(shù)據(jù)聚類處理,首先需要獲取云平臺(tái)異常傳輸數(shù)據(jù),將云平臺(tái)異常傳輸數(shù)據(jù)映射到希爾伯特空間內(nèi),進(jìn)而獲取云平臺(tái)異常傳輸數(shù)據(jù)集S,如公式(1):
通過公式(1)給出各個(gè)數(shù)據(jù)對(duì)象對(duì)應(yīng)的希爾伯特指數(shù)計(jì)算式為:
其中,Ja,b代表希爾伯特指數(shù);κ1和κ2代表不同子集;Gm,n代表數(shù)據(jù)集合的概率分布情況代表有限數(shù)據(jù)集的總數(shù)。
計(jì)算各個(gè)希爾伯特指數(shù)的離散概率?()x,y,z的計(jì)算式為:
其中,x,y,z對(duì)應(yīng)了希爾伯特空間內(nèi)的3 個(gè)坐標(biāo)軸位置數(shù)據(jù),下文中x,y,z均代表此含義,故不在贅述。d(m,n)代表輸入空間的巴氏距離;m,n分別表示數(shù)據(jù)節(jié)點(diǎn)位置。l(x)代表索引變量。就此,實(shí)現(xiàn)了云平臺(tái)異常傳輸數(shù)據(jù)采集。
為了更好完成云平臺(tái)異常傳輸數(shù)據(jù)聚類處理[6-7],本文優(yōu)先引入小波變換對(duì)云平臺(tái)異常傳輸數(shù)據(jù)濾波處理[8-9]。小波變換是一種性能優(yōu)越的去噪算法,在數(shù)據(jù)和圖像領(lǐng)域均有應(yīng)用,是通過伸縮和平移等相關(guān)操作實(shí)現(xiàn)云平臺(tái)異常傳輸數(shù)據(jù)的多尺度細(xì)化處理,進(jìn)而獲取高低頻部分,進(jìn)一步對(duì)高低頻部分細(xì)化處理,即可獲取對(duì)應(yīng)數(shù)據(jù)的細(xì)節(jié)信息。小波分析理論在信號(hào)以及語音分析等領(lǐng)域均取得了十分廣泛的應(yīng)用。
設(shè)定代表平方可積函數(shù),則傅里葉變換β(x,y)需要滿足公式(4)中的約束條件ψ:
其中,δ代表尺度因子;α代表平移因子。
為了全面簡化計(jì)算機(jī)的計(jì)算流程,需要離散化處理全部連續(xù)小波。離散化處理主要是針對(duì)上述2 種不同的因子。將二進(jìn)制動(dòng)態(tài)網(wǎng)絡(luò)應(yīng)用于小波變換過程中[10-11],即可得到二進(jìn)制小波變換R(i,j),對(duì)應(yīng)的表達(dá)式為:
其中,τij(u,v)代表滑動(dòng)因子系數(shù)。
現(xiàn)階段,部分關(guān)于數(shù)據(jù)的去噪方法具有一定的局限性[12-13],主要是針對(duì)部分噪聲。但是采用小波變換展開去噪方法處理不僅可以獲取滿意的去噪效果,同時(shí)運(yùn)行速度也優(yōu)于其它方法。優(yōu)先對(duì)含有噪聲的云平臺(tái)異常傳輸數(shù)據(jù)展開小波變換操作,獲取小波系數(shù),對(duì)小波系數(shù)進(jìn)一步處理,即可獲取最新的小波系數(shù),將小波系數(shù)重構(gòu)就可以獲取去噪后的數(shù)據(jù)。其中,云平臺(tái)異常傳輸數(shù)據(jù)噪聲檢測模型ρ(i)可以表示為公式(7)的形式:
其中,t(i)代表含有噪聲的云平臺(tái)異常傳輸數(shù)據(jù);?(i)代表真實(shí)云平臺(tái)異常傳輸數(shù)據(jù)。選擇一個(gè)合適的小波基,通過小波基對(duì)云平臺(tái)異常傳輸數(shù)據(jù)分解處理,分解過程如圖1所示。
圖1 云平臺(tái)異常傳輸數(shù)據(jù)分解示意圖
完成云平臺(tái)異常傳輸數(shù)據(jù)分解處理后,選擇合適的小波基確定分解層次,同時(shí)對(duì)數(shù)據(jù)展開多層次分解處理H(η),對(duì)應(yīng)的計(jì)算公式為:
其中,η表示具體的層級(jí),在確定閾值后,通過選定的閾值對(duì)全部高頻系數(shù)展開軟閾值量化處理?x,y,對(duì)應(yīng)的計(jì)算公式為:
接著計(jì)算全部小波基分析云平臺(tái)異常傳輸數(shù)據(jù)的敏感性,將其排序處理,選擇敏感性最低的小波基云平臺(tái)異常傳輸數(shù)據(jù)展開小波分解處理,進(jìn)而重構(gòu)高低頻部分,最終實(shí)現(xiàn)云平臺(tái)異常傳輸數(shù)據(jù)濾波處理[14-15]。
根據(jù)1.2 節(jié)得到無濾波的平臺(tái)異常傳輸數(shù)據(jù)處理。在云平臺(tái)異常傳輸數(shù)據(jù)聚類中[16-17],希爾伯特相似度也是一項(xiàng)重要的指標(biāo),相似度計(jì)算結(jié)果的好壞會(huì)影響最終的聚類結(jié)果。由于數(shù)據(jù)屬性不同,需要根據(jù)數(shù)據(jù)屬性展開相似度計(jì)算,主要為:
1)如果確認(rèn)數(shù)據(jù)為數(shù)值型數(shù)據(jù),在數(shù)據(jù)對(duì)象屬性值完全相同的情況下實(shí)施相似度計(jì)算,進(jìn)而獲取全部目標(biāo)數(shù)據(jù)的空間距離相似度。
2)如果數(shù)據(jù)對(duì)象為二元型數(shù)據(jù),數(shù)據(jù)對(duì)象1 和數(shù)據(jù)對(duì)象2 屬性完全一致的情況下,兩者的相似度取值為1;如果兩者的屬性值不同,則相似度取值為0。
3)如果數(shù)據(jù)為分類型數(shù)據(jù),可以將其看做是二元型數(shù)據(jù)的拓展,可以同時(shí)包含多個(gè)不同的狀態(tài)值,需要根據(jù)數(shù)據(jù)對(duì)象的維度取值確定最終的相似度計(jì)算結(jié)果[18-19]。
通過公式(7)中的數(shù)據(jù)集合,在數(shù)據(jù)集合中選取2 個(gè)數(shù)據(jù)對(duì)象,通過公式(10)計(jì)算兩者的歐氏距離
其中,(xz,yz)表示希爾伯特空間內(nèi)x、y軸映射在Z軸上的投影,在相同屬性內(nèi),隨機(jī)2 個(gè)數(shù)據(jù)屬性值之間的耦合計(jì)算公式Z(e)為:
其中,?mn代表屬性集合總數(shù);sl代表數(shù)據(jù)中心點(diǎn)迭代總次數(shù)。
在設(shè)定條件下,全部數(shù)據(jù)對(duì)象的鄰域半徑可以表示為公式(12)的形式:
其中,rxyz代表鄰域半徑;aver 代表鄰域調(diào)節(jié)系數(shù);met代表屬性值在設(shè)定區(qū)域內(nèi)出現(xiàn)的次數(shù)。
在希爾伯特空間內(nèi),從云平臺(tái)異常傳輸數(shù)據(jù)的第一列屬性開始,需要展開相似度計(jì)算,選取該屬性作為第一個(gè)數(shù)據(jù)集。根據(jù)聚類算法的操作原則,將得到的新數(shù)據(jù)集劃分為多個(gè)簇。
完成上述操作后,設(shè)定各個(gè)簇中全部數(shù)據(jù)對(duì)象的屬性值采用相同的數(shù)字替換,但是同一列中不同簇需要采用不同的數(shù)字表示。同時(shí)將數(shù)字替換后的列存儲(chǔ)到數(shù)據(jù)矩陣Data(i,j)中,對(duì)應(yīng)的表達(dá)式為:
其中,i、j分別表示為屬性類型。完成上述操作后,需要在希爾伯特空間內(nèi)計(jì)算各個(gè)數(shù)據(jù)相似度[20-21]。在計(jì)算過程中,不僅涉及數(shù)據(jù)維數(shù)的重要程度,同時(shí)還顯現(xiàn)了數(shù)據(jù)維數(shù)的重要性,根據(jù)維數(shù)的設(shè)定達(dá)到某些目的。假設(shè)賦予第i種屬性的權(quán)值為σ(i),則第i種屬性與第j種屬性的相似性度量函數(shù)σ(i,j)如公式(14):
其中,θ(xi)代表時(shí)間復(fù)雜度。根據(jù)矩陣更新原則,引入最小值原理,計(jì)算對(duì)象合并處理之后和其他對(duì)象的相似度Similarity(i,j),選取兩者中取值最小的相似度數(shù)值作為合并后的相似性數(shù)值[22-23],經(jīng)過上述分析,根據(jù)全部數(shù)據(jù)對(duì)象的相似度計(jì)算結(jié)果,將相似度取值接近的數(shù)據(jù)劃分到同一個(gè)數(shù)據(jù)集內(nèi),進(jìn)而確定云平臺(tái)異常傳輸數(shù)據(jù),最終完成云平臺(tái)異常傳輸數(shù)據(jù)聚類。
為了驗(yàn)證本文基于希爾伯特相似度的云平臺(tái)異常傳輸數(shù)據(jù)聚類方法的有效性,實(shí)驗(yàn)在Matlab平臺(tái)展開。實(shí)驗(yàn)數(shù)據(jù)來自Wine數(shù)據(jù)集和Iris數(shù)據(jù)集。測試環(huán)境基于公司私有云,表1為系統(tǒng)測試環(huán)境硬件配置,集群使用了2 臺(tái)服務(wù)器,服務(wù)器的硬件配置為每臺(tái)8 核CPU、12 GB 內(nèi)存、25 GB固態(tài)硬盤。測試環(huán)境中一共部署10 個(gè)Redis 集群,采用Docker 方式部署在Kubernetes集群中,宿主機(jī)總內(nèi)存為250 GB。每個(gè)Redis集群由4個(gè)分片組成,總內(nèi)存為40 GB,每個(gè)分片內(nèi)包含1個(gè)主節(jié)點(diǎn),1個(gè)從節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)內(nèi)存都是10 GB。
表1 硬件和環(huán)境配置
選取多個(gè)數(shù)據(jù)樣本作為測試對(duì)象,對(duì)各個(gè)方法的性能展開聚類分析,詳細(xì)的實(shí)驗(yàn)測試結(jié)果如圖2所示。
圖2 云平臺(tái)異常傳輸數(shù)據(jù)聚類結(jié)果
分析圖2 中的實(shí)驗(yàn)數(shù)據(jù)可知,采用本文方法可以對(duì)全部數(shù)據(jù)樣本進(jìn)行聚類處理,同時(shí)可以獲取比較好的聚類結(jié)果,準(zhǔn)確區(qū)分云平臺(tái)傳輸數(shù)據(jù)中的異常部分。而采用文獻(xiàn)[3]方法和文獻(xiàn)[4]方法聚類過程中,會(huì)存在聚類錯(cuò)誤或者無法聚類的效果。經(jīng)過對(duì)比可知,本文方法可以更好地完成云平臺(tái)異常傳輸數(shù)據(jù)聚類。這是因?yàn)楸疚姆椒ㄍㄟ^計(jì)算希爾伯特空間內(nèi)的相似度取值,劃分到同一個(gè)數(shù)據(jù)集內(nèi),可準(zhǔn)確劃分云平臺(tái)異常傳輸數(shù)據(jù),提升了數(shù)據(jù)聚類效果。
本文選取多個(gè)數(shù)據(jù)樣本作為測試對(duì)象,對(duì)各個(gè)方法的性能展開聚類分析,詳細(xì)的正確聚類數(shù)據(jù)數(shù)量如表2所示。
表2 不同方法的聚類結(jié)果對(duì)比
由表2 可知,當(dāng)云平臺(tái)傳輸總數(shù)據(jù)為50 組時(shí),本文方法的正確聚類數(shù)據(jù)數(shù)量為50 組,文獻(xiàn)[3]方法的正確聚類數(shù)據(jù)數(shù)量為47 組,文獻(xiàn)[4]方法的正確聚類數(shù)據(jù)數(shù)量為43 組;當(dāng)云平臺(tái)傳輸總數(shù)據(jù)為100 組時(shí),本文方法的正確聚類數(shù)據(jù)數(shù)量為97 組,文獻(xiàn)[3]方法的正確聚類數(shù)據(jù)數(shù)量為95 組,文獻(xiàn)[4]方法的正確聚類數(shù)據(jù)數(shù)量為90 組;在數(shù)據(jù)不斷增加的狀態(tài)下,各個(gè)方法的云平臺(tái)異常傳輸數(shù)據(jù)聚類精度會(huì)受到不同程度的影響。但是,本文方法可以以較高的精度完成云平臺(tái)異常傳輸數(shù)據(jù)聚類,本文方法將采集到的數(shù)據(jù)映射到希爾伯特空間內(nèi),通過構(gòu)建希爾伯特指數(shù),獲取指數(shù)的離散概率分布,進(jìn)一步提升了本文方法的聚類精度。
在本文實(shí)驗(yàn)過程中,選擇2 個(gè)不同的數(shù)據(jù)集展開測試,選取運(yùn)行時(shí)間作為測試指標(biāo),運(yùn)行時(shí)間越短,則說明云平臺(tái)異常傳輸數(shù)據(jù)聚類速度就越快。
1)Wine數(shù)據(jù)集。
在Wine數(shù)據(jù)集中,異常傳輸數(shù)據(jù)聚類耗時(shí)見圖3。
圖3 Wine數(shù)據(jù)集中異常傳輸數(shù)據(jù)聚類耗時(shí)
分析圖3中的實(shí)驗(yàn)數(shù)據(jù)可知,當(dāng)運(yùn)行次數(shù)為10次時(shí),文獻(xiàn)[3]方法的異常傳輸數(shù)據(jù)聚類耗時(shí)為192 s,文獻(xiàn)[4]方法的異常傳輸數(shù)據(jù)聚類耗時(shí)為213 s,本文方法的異常傳輸數(shù)據(jù)聚類耗時(shí)僅為175 s;當(dāng)運(yùn)行次數(shù)為30 次時(shí),文獻(xiàn)[3]方法的異常傳輸數(shù)據(jù)聚類耗時(shí)為198 s,文獻(xiàn)[4]方法的異常傳輸數(shù)據(jù)聚類耗時(shí)為200 s,本文方法的異常傳輸數(shù)據(jù)聚類耗時(shí)僅為146 s;本文方法在Wine 數(shù)據(jù)集下始終具有更低的聚類耗時(shí),這是因?yàn)楸疚睦眯〔ɑ治鲈破脚_(tái)異常傳輸數(shù)據(jù)的敏感性,對(duì)異常傳輸數(shù)據(jù)小波分解處理,計(jì)算了希爾伯特空間內(nèi)的相似度取值,準(zhǔn)確劃分了云平臺(tái)異常傳輸數(shù)據(jù),提升了異常傳輸數(shù)據(jù)聚類速度。
2)Iris數(shù)據(jù)集。
在Iris數(shù)據(jù)集中,異常傳輸數(shù)據(jù)聚類耗時(shí)見圖4。
圖4 Iris數(shù)據(jù)集中異常傳輸數(shù)據(jù)聚類耗時(shí)
分析圖4 中的實(shí)驗(yàn)數(shù)據(jù)可知,由于測試的數(shù)據(jù)集不同,進(jìn)而獲取的執(zhí)行時(shí)間結(jié)果也不同。由于Wine 數(shù)據(jù)集的規(guī)模比較小,得到的云平臺(tái)異常傳輸數(shù)據(jù)聚類運(yùn)行時(shí)間相對(duì)偏低一些;而Iris 數(shù)據(jù)集的規(guī)模比較大,進(jìn)而執(zhí)行時(shí)間相對(duì)偏高。對(duì)比3 種不同方法可知,本文方法在各個(gè)數(shù)據(jù)集上的云平臺(tái)異常傳輸數(shù)據(jù)聚類運(yùn)行時(shí)間均低于另外2 種方法。由此可見,本文方法可以有效提升云平臺(tái)異常傳輸數(shù)據(jù)聚類運(yùn)行效率,全面驗(yàn)證了本文方法的優(yōu)越性。
本文提出了一種基于希爾伯特相似度的云平臺(tái)異常傳輸數(shù)據(jù)聚類方法,并采集云平臺(tái)異常傳輸數(shù)據(jù),將采集到的數(shù)據(jù)映射到希爾伯特空間內(nèi),同時(shí)構(gòu)建希爾伯特指數(shù),利用小波基分析云平臺(tái)異常傳輸數(shù)據(jù)的敏感性,選取敏感度比較低的小波基對(duì)異常傳輸數(shù)據(jù)小波分解處理,計(jì)算全部數(shù)據(jù)在希爾伯特空間內(nèi)的相似度取值,將相似度取值接近的數(shù)據(jù)劃分到同一個(gè)數(shù)據(jù)集內(nèi),準(zhǔn)確劃分云平臺(tái)異常傳輸數(shù)據(jù),進(jìn)而達(dá)到云平臺(tái)異常傳輸數(shù)據(jù)聚類的目的。
由于數(shù)據(jù)爆炸式增加,雖然本文方法取得了比較滿意的研究成果,但是仍然存在不足,后續(xù)將引入各種優(yōu)化算法,對(duì)其展開深入優(yōu)化,使其綜合性能得到有效提升[24-27]。