賀萌
(常州信息職業(yè)技術(shù)學(xué)院 江蘇省常州市 213164)
當(dāng)前互聯(lián)網(wǎng)已經(jīng)逐漸滲透到了人們的日常生活和工作當(dāng)中,在醫(yī)療、社交、購(gòu)物等各個(gè)領(lǐng)域當(dāng)中均有涉及,同時(shí)也進(jìn)一步提高了對(duì)大規(guī)模時(shí)間序列數(shù)據(jù)的獲取難度。隨著網(wǎng)絡(luò)當(dāng)中時(shí)序數(shù)據(jù)的不斷產(chǎn)生,通過(guò)對(duì)其進(jìn)行合理的數(shù)據(jù)挖掘能夠找出用戶(hù)所感興趣的知識(shí)、模式以及規(guī)律等重要信息,進(jìn)一步為人們的生活提供便利條件。但由于時(shí)序數(shù)據(jù)與以往傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)相比,仍然存在著較大的不同,使得當(dāng)前大部分針對(duì)經(jīng)典數(shù)據(jù)類(lèi)型的挖掘算法和方式無(wú)法直接應(yīng)用到網(wǎng)絡(luò)中時(shí)序數(shù)據(jù)的挖掘中,尤其是對(duì)于多節(jié)點(diǎn)網(wǎng)絡(luò)而言,其特殊的網(wǎng)絡(luò)環(huán)境更是進(jìn)一步增加了時(shí)序數(shù)據(jù)挖掘的難度[1]。針對(duì)時(shí)序數(shù)據(jù)的聚類(lèi)分析是時(shí)序數(shù)據(jù)挖掘當(dāng)中的一項(xiàng)重要內(nèi)容,可將聚類(lèi)看作是一種對(duì)時(shí)序數(shù)據(jù)分類(lèi)和處理的手段。在多節(jié)點(diǎn)網(wǎng)絡(luò)環(huán)境當(dāng)中,時(shí)序數(shù)據(jù)普遍存在自相關(guān)性大、相似度高的特點(diǎn),因此挖掘難度相對(duì)更大。針對(duì)這一問(wèn)題,相關(guān)領(lǐng)域的研究人員進(jìn)行了不斷深入研究,并提出了多種針對(duì)這類(lèi)型數(shù)據(jù)的挖掘方法,但目前在各個(gè)挖掘方法實(shí)際應(yīng)用中均存在對(duì)數(shù)據(jù)的相似性度量自適應(yīng)性差的問(wèn)題[2]。基于此,本文開(kāi)展了多節(jié)點(diǎn)網(wǎng)絡(luò)時(shí)序數(shù)據(jù)聚類(lèi)挖掘方法研究。
由于時(shí)序數(shù)據(jù)存在多種特有的屬性,因此造成現(xiàn)有經(jīng)典聚類(lèi)算法無(wú)法直接在該數(shù)據(jù)當(dāng)中應(yīng)用的問(wèn)題。針對(duì)這一問(wèn)題,需要根據(jù)其特點(diǎn)為其重新構(gòu)建相應(yīng)的存儲(chǔ)結(jié)構(gòu)模型[3]。在對(duì)多節(jié)點(diǎn)網(wǎng)絡(luò)環(huán)境當(dāng)中的時(shí)序數(shù)據(jù)進(jìn)行聚類(lèi)挖掘時(shí),首先應(yīng)當(dāng)對(duì)其存儲(chǔ)結(jié)構(gòu)的模型進(jìn)行構(gòu)建,通過(guò)模型對(duì)時(shí)序數(shù)據(jù)的模糊隸屬度進(jìn)行表達(dá),以此方便后續(xù)各項(xiàng)操作的順利開(kāi)展。采用空間結(jié)構(gòu)優(yōu)化重組的方式完成模型構(gòu)建,假設(shè)多節(jié)點(diǎn)網(wǎng)絡(luò)當(dāng)中存在的時(shí)序數(shù)據(jù)分布標(biāo)量時(shí)間序列為x,則x的集合為:x=x1,x2,…,xn。在進(jìn)行挖掘的過(guò)程中首先需要給定一個(gè)時(shí)序數(shù)據(jù)的統(tǒng)計(jì)屬性和分類(lèi)屬性,以此獲取到相應(yīng)模糊關(guān)聯(lián)規(guī)則分布序列。在聚類(lèi)中心當(dāng)中,通過(guò)稀疏矩陣的方式可實(shí)現(xiàn)對(duì)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的表達(dá),因此,將該稀疏矩陣作為數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)模型。由于在多節(jié)點(diǎn)網(wǎng)絡(luò)環(huán)境當(dāng)中,存在大量分布相對(duì)散亂的稀疏節(jié)點(diǎn),因此為了模型構(gòu)建的完整性,將各個(gè)稀疏節(jié)點(diǎn)引入到上述矩陣當(dāng)中,得到如公式(1)所示的時(shí)序數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)模型
公式(1)中,n表示為多節(jié)點(diǎn)網(wǎng)絡(luò)節(jié)點(diǎn);P表示為分布相對(duì)散亂的稀疏節(jié)點(diǎn)測(cè)能值;xn表示為多節(jié)點(diǎn)網(wǎng)絡(luò)節(jié)點(diǎn)能量開(kāi)銷(xiāo)。完成上述對(duì)結(jié)構(gòu)模型的構(gòu)建后,再結(jié)合混合屬性聚類(lèi)方法將規(guī)模已知的數(shù)據(jù)集劃分為多個(gè)聚類(lèi)簇。同時(shí),在實(shí)際操作過(guò)程中,為了能夠捕獲時(shí)序數(shù)據(jù)的特殊性質(zhì),在構(gòu)建完數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)模型后,采用循環(huán)神經(jīng)網(wǎng)絡(luò)的方式,根據(jù)時(shí)間發(fā)生的先后順序,對(duì)該模型進(jìn)行訓(xùn)練[4]。由于時(shí)序數(shù)據(jù)屬于二維數(shù)據(jù),因此為了保證訓(xùn)練的效率,選擇利用長(zhǎng)短記憶網(wǎng)絡(luò)的方式對(duì)其進(jìn)行降維表達(dá),并結(jié)合序列學(xué)習(xí)方法,利用當(dāng)前時(shí)刻下的數(shù)據(jù)對(duì)下一時(shí)刻數(shù)據(jù)進(jìn)行預(yù)測(cè)的方式,完成對(duì)整個(gè)模型的訓(xùn)練,并得到相應(yīng)的分布式重構(gòu)訓(xùn)練結(jié)果,為后續(xù)相似度度量提供依據(jù)。
為了確保后續(xù)在對(duì)時(shí)序數(shù)據(jù)進(jìn)行多分辨融合聚類(lèi)時(shí),能夠?qū)⑾嗤垲?lèi)簇當(dāng)中的時(shí)序數(shù)據(jù)全部歸類(lèi),聚類(lèi)前還需要對(duì)挖掘到的數(shù)據(jù)分塊進(jìn)行相似性度量[5]。針對(duì)多節(jié)點(diǎn)網(wǎng)絡(luò)的運(yùn)行特點(diǎn),采用空間網(wǎng)格聚類(lèi)的方式完成,并針對(duì)聚類(lèi)得到的結(jié)果進(jìn)行結(jié)構(gòu)重組,重組后的輸出結(jié)果可用如下公式表示:
公式(2)中,q表示為分塊相似性度量結(jié)果;f表示為聚類(lèi)挖掘分塊相似性門(mén)限概率;k表示為相似隸屬度。在按照公式(2)計(jì)算時(shí),根據(jù)參數(shù)的協(xié)商策略,針對(duì)時(shí)序數(shù)據(jù)進(jìn)行聚類(lèi)處理。在虛擬數(shù)據(jù)庫(kù)當(dāng)中,針對(duì)各個(gè)時(shí)序數(shù)據(jù)的二元結(jié)構(gòu)調(diào)整進(jìn)行重組。在重組的過(guò)程中,綜合時(shí)序數(shù)據(jù)的特點(diǎn),采用二維結(jié)構(gòu)的方式組合,并得到量化特征分布結(jié)果,實(shí)現(xiàn)對(duì)時(shí)序數(shù)據(jù)聚類(lèi)挖掘分塊相似性的量化。
在完成上述操作后,利用協(xié)同濾波方法對(duì)多節(jié)點(diǎn)網(wǎng)絡(luò)環(huán)境當(dāng)中的時(shí)序數(shù)據(jù)集進(jìn)行提純處理,將其中含有的干擾成分過(guò)濾,假設(shè)在該環(huán)境當(dāng)中通過(guò)統(tǒng)計(jì)時(shí)序數(shù)據(jù)的到期時(shí)間窗口的函數(shù)如公式(3)所示:
公式(3)中,d表示為融合聚類(lèi)中存在的干擾噪聲;m表示模糊化程度的指數(shù)權(quán)重。通過(guò)上述公式可以看出,當(dāng)d的取值為0時(shí),則此時(shí)時(shí)間窗口函數(shù)的取值最小,此時(shí)通過(guò)協(xié)同濾波的方式能夠?qū)崿F(xiàn)對(duì)時(shí)序數(shù)據(jù)相似性特征和模糊度特征的提取。再利用干擾成分過(guò)濾的方式,將完成聚類(lèi)挖掘后數(shù)據(jù)集合當(dāng)中無(wú)關(guān)信息進(jìn)行剔除,并針對(duì)多個(gè)聚類(lèi)中心點(diǎn)之間的數(shù)據(jù)進(jìn)行特征提取,結(jié)合能量剩余和簇首位檢測(cè)的方式實(shí)現(xiàn)對(duì)時(shí)序數(shù)據(jù)的協(xié)同濾波。針對(duì)完成過(guò)濾后的數(shù)據(jù),將其節(jié)點(diǎn)劃分到各個(gè)聚類(lèi)簇當(dāng)中,實(shí)現(xiàn)模糊聚類(lèi),同時(shí)此時(shí)通過(guò)聚類(lèi)輸出的結(jié)果即為多分辨融合聚類(lèi)結(jié)果。
結(jié)合上述論述內(nèi)容,從理論方面對(duì)挖掘方法進(jìn)行了設(shè)計(jì)研究,為了進(jìn)一步驗(yàn)證該方法在實(shí)際多節(jié)點(diǎn)網(wǎng)絡(luò)環(huán)境當(dāng)中的應(yīng)用效果,選擇將該方法代入到某多節(jié)點(diǎn)網(wǎng)絡(luò)環(huán)境當(dāng)中。在該多節(jié)點(diǎn)網(wǎng)絡(luò)當(dāng)中引入Visual Studio統(tǒng)計(jì)軟件,并對(duì)實(shí)驗(yàn)開(kāi)始時(shí)該網(wǎng)絡(luò)環(huán)境當(dāng)中的時(shí)序數(shù)據(jù)進(jìn)行采樣,設(shè)置數(shù)據(jù)采樣長(zhǎng)度為1100,按照本文上述挖掘思路,對(duì)數(shù)據(jù)進(jìn)行聚類(lèi),并將其迭代次數(shù)設(shè)置為250次,將鄰居數(shù)據(jù)集設(shè)置為220,將數(shù)據(jù)的聚類(lèi)中心設(shè)置為(2.5,4.8)。已知在該多節(jié)點(diǎn)網(wǎng)絡(luò)環(huán)境當(dāng)中,用戶(hù)與用戶(hù)之間的相似性系數(shù)高達(dá)0.91,考慮到不同網(wǎng)絡(luò)用戶(hù)之間的共同評(píng)分,對(duì)其進(jìn)行相似性度量,并將實(shí)驗(yàn)過(guò)程中時(shí)間采樣的長(zhǎng)度設(shè)定為20s,將節(jié)點(diǎn)數(shù)設(shè)置為150。結(jié)合上述各項(xiàng)參量的設(shè)定條件,對(duì)該多節(jié)點(diǎn)網(wǎng)絡(luò)環(huán)境當(dāng)中的時(shí)序數(shù)據(jù)進(jìn)行挖掘,并得到如圖1所示的原始時(shí)序數(shù)據(jù)分布圖。
圖1:原始時(shí)序數(shù)據(jù)分布圖
圖1中數(shù)據(jù)A~D表示為四種不同類(lèi)型的原始時(shí)序數(shù)據(jù),X表示為數(shù)據(jù)橫軸分布坐標(biāo),Y表示為數(shù)據(jù)縱軸分布坐標(biāo)。從圖1可以看出,四種數(shù)據(jù)類(lèi)型的分布主要集中在數(shù)據(jù)A:(0,0)、數(shù)據(jù)B:(1,1)、數(shù)據(jù)C:(2,2)和數(shù)據(jù)D(3,3),四個(gè)節(jié)點(diǎn)上,但同時(shí)各個(gè)數(shù)據(jù)在其相鄰的位置上也存在少量的分布,分界區(qū)域不明顯,并且兩個(gè)相鄰數(shù)據(jù)的分解上均存在兩種或三種不同的數(shù)據(jù)類(lèi)型。針對(duì)上述四種數(shù)據(jù)類(lèi)型的分布,利用現(xiàn)有數(shù)據(jù)聚類(lèi)挖掘方法無(wú)法實(shí)現(xiàn),因此利用本文提出的挖掘方法對(duì)其進(jìn)行聚類(lèi)。在按照本文上述設(shè)計(jì)思路完成對(duì)該實(shí)驗(yàn)數(shù)據(jù)的挖掘后,針對(duì)最終得出的挖掘結(jié)果進(jìn)行數(shù)據(jù)關(guān)聯(lián)匹配度計(jì)算,其公式為:
公式(4)中,δ表示為聚類(lèi)挖掘數(shù)據(jù)結(jié)果的關(guān)聯(lián)匹配度;W表示為所有參與被正確聚類(lèi)分配的時(shí)序數(shù)據(jù)總和;n表示為原始時(shí)序數(shù)據(jù)類(lèi)型;x表示為多節(jié)點(diǎn)網(wǎng)絡(luò)當(dāng)中的總節(jié)點(diǎn)數(shù)。根據(jù)上述公式(4)計(jì)算得出四種不同原始時(shí)序數(shù)據(jù)在本文聚類(lèi)挖掘方法處理后的數(shù)據(jù)關(guān)聯(lián)匹配度,并將結(jié)果記錄如表1所示。
表1:聚類(lèi)挖掘后時(shí)序數(shù)據(jù)關(guān)聯(lián)匹配度
表1中除數(shù)據(jù)C類(lèi)型在樣本為50Gbit時(shí)出現(xiàn)了時(shí)序數(shù)據(jù)關(guān)聯(lián)匹配度小于0.9的情況產(chǎn)生,其余幾種條件下,聚類(lèi)挖掘后時(shí)序數(shù)據(jù)關(guān)聯(lián)匹配度均達(dá)到了9以上。同時(shí),針對(duì)關(guān)聯(lián)匹配度小于0.9的情況進(jìn)行分析得出,其主要是由于在挖掘過(guò)程中受到數(shù)據(jù)本身存在殘缺問(wèn)題的影響,與本文挖掘方法本身性能無(wú)關(guān)。同時(shí)在實(shí)驗(yàn)過(guò)程中,通過(guò)本文提出的聚類(lèi)挖掘方法引入了循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在實(shí)現(xiàn)提高時(shí)序數(shù)據(jù)信息價(jià)值的同時(shí),降低了數(shù)據(jù)維度,保證了挖掘方法的運(yùn)行效率。因此,結(jié)合上述實(shí)驗(yàn)及結(jié)果可以進(jìn)一步得出,本文提出的聚類(lèi)挖掘方法在實(shí)際應(yīng)用中,能夠?qū)崿F(xiàn)對(duì)海量時(shí)序數(shù)據(jù)的高精度挖掘,提高了多節(jié)點(diǎn)網(wǎng)絡(luò)中對(duì)數(shù)據(jù)的檢測(cè)識(shí)別能力,并進(jìn)一步促進(jìn)了數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的優(yōu)化。
綜合本文上述論述得出,在對(duì)多節(jié)點(diǎn)網(wǎng)絡(luò)當(dāng)中的時(shí)序數(shù)據(jù)進(jìn)行聚類(lèi)挖掘時(shí),可通過(guò)本文上述論述思路實(shí)現(xiàn),并且得到更加符合多節(jié)點(diǎn)網(wǎng)絡(luò)運(yùn)行環(huán)境的挖掘結(jié)果。但由于研究能力有限,在進(jìn)行應(yīng)用實(shí)驗(yàn)時(shí)發(fā)現(xiàn),本文提出的全新的聚類(lèi)挖掘方法在運(yùn)行過(guò)程中容易造成網(wǎng)絡(luò)卡頓的問(wèn)題,使得網(wǎng)絡(luò)運(yùn)行的流暢性受到影響,造成不利后果產(chǎn)生。因此,針對(duì)這一問(wèn)題,在今后的研究當(dāng)中,還將針對(duì)多節(jié)點(diǎn)網(wǎng)絡(luò)的流暢運(yùn)行問(wèn)題,對(duì)聚類(lèi)挖掘方法進(jìn)行不斷地優(yōu)化和創(chuàng)新,從而進(jìn)一步提高該方法的適用性。