紀(jì) 沖,劉 巖
(內(nèi)蒙古農(nóng)業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院,內(nèi)蒙古 呼和浩特 010018)
大數(shù)據(jù)挖掘是將數(shù)據(jù)作為組成知識(shí)的主體,從大量隨機(jī)的數(shù)據(jù)里,挖掘出潛藏在數(shù)據(jù)庫內(nèi)人們不知道的有用知識(shí)[1]?;ヂ?lián)網(wǎng)技術(shù)的高速發(fā)展、網(wǎng)絡(luò)資源使用率的不斷提升使得各行各業(yè)對大數(shù)據(jù)挖掘的重視程度也越來越大,特別是在一些特殊網(wǎng)絡(luò)環(huán)境下,由于大數(shù)據(jù)各類特征參數(shù)較多,則數(shù)據(jù)挖掘前需要對各類數(shù)據(jù)進(jìn)行集成處理[2-3]。
數(shù)據(jù)挖掘是一種比較廣義的交叉學(xué)科,數(shù)據(jù)集成最為常見的方法是模式集成方法,這種方法是一種非常經(jīng)典的集成算法,中間件算法是模式集成算法里比較經(jīng)典的,該算法會(huì)將所有獨(dú)立的數(shù)據(jù)源,根據(jù)Wrapper進(jìn)行轉(zhuǎn)換同時(shí)封裝,這些數(shù)據(jù)的存儲(chǔ)位置不會(huì)出現(xiàn)變動(dòng),利用Mediator對所有封裝之后的數(shù)據(jù)源進(jìn)行視圖統(tǒng)一,Mediator會(huì)把瀏覽的歷史請求變換成局部數(shù)據(jù)源模式的搜索,利用Wrapper進(jìn)行結(jié)果提取,同時(shí)使用Mediator對數(shù)據(jù)集成,之后撤回至其它中間件或用戶中。Mediator主要提供全局優(yōu)化查詢處理,不會(huì)提供實(shí)際的數(shù)據(jù)儲(chǔ)存[4]。由此可見傳統(tǒng)的數(shù)據(jù)集成挖掘方法,都存在較為一致的缺陷,即數(shù)據(jù)集成與數(shù)據(jù)挖掘之間存在檢測或分類的誤差,這種誤差嚴(yán)重的會(huì)致使在結(jié)束挖掘之后,出現(xiàn)亂碼,數(shù)據(jù)顯示不全的問題。
針對上述問題,提出基于半監(jiān)督深度學(xué)習(xí)法的網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘。該方法會(huì)通過半監(jiān)督深度學(xué)習(xí)算法來檢測并分類大數(shù)據(jù)種類和特性,為后續(xù)挖掘提供較好的網(wǎng)絡(luò)環(huán)境,通過網(wǎng)格服務(wù)對大數(shù)據(jù)集成,使各不相同的數(shù)據(jù)能夠處于同一坐標(biāo)處,使用關(guān)聯(lián)度挖掘算法對數(shù)據(jù)高精度集成挖掘。
在網(wǎng)絡(luò)環(huán)境下,為減少數(shù)據(jù)庫的運(yùn)行內(nèi)存,提升挖掘方法的穩(wěn)定性,利用大數(shù)據(jù)集成挖掘方法組建應(yīng)對不同網(wǎng)絡(luò)環(huán)境下大數(shù)據(jù)的矩陣轉(zhuǎn)換[5-6]。
擬定Dj代表網(wǎng)絡(luò)環(huán)境下數(shù)據(jù)庫內(nèi)大數(shù)據(jù)中第j行的單排矩陣,dji代表第i列、第j行的大數(shù)據(jù),同時(shí)i=1,2,3,…,m。假如矩陣內(nèi)所有行中一共包含m種大數(shù)據(jù),那么Dj為
Dj=(dj1,dj2,dj3,…,djm)
(1)
假如大數(shù)據(jù)總量中存在n種,通過T來描述矩陣的轉(zhuǎn)置轉(zhuǎn)換[7-8],那么網(wǎng)絡(luò)環(huán)境下,數(shù)據(jù)庫內(nèi)大數(shù)據(jù)的總矩陣D為
D=(D1,D2,D3,…,Dn)T
(2)
對總矩陣D里集合X的大數(shù)據(jù)x進(jìn)行挖掘,擬定其單屬性的關(guān)聯(lián)度是sim(X,Y),其中,Y代表和X對應(yīng)的集合,通過y來描述Y內(nèi)的大數(shù)據(jù),挖掘出的樣本通過s來進(jìn)行描述,那么s就需要符合如下條件的所有需求
(3)
其中,F(xiàn)req代表?xiàng)l件出現(xiàn)的次數(shù),θ表示所允許的最大誤差挖掘,δ代表該誤差出現(xiàn)的概率。
典型的機(jī)器深度學(xué)習(xí)通常會(huì)分成無監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)。有監(jiān)督學(xué)習(xí)是利用訓(xùn)練標(biāo)記的樣本,對沒有標(biāo)記的樣本預(yù)測,而無監(jiān)督學(xué)習(xí)是根據(jù)訓(xùn)練無標(biāo)記樣本,查找無標(biāo)記樣本之間存在的內(nèi)部特征來進(jìn)行預(yù)測。半監(jiān)督深度學(xué)習(xí)是對上述兩種深度學(xué)習(xí)之間的機(jī)器深度學(xué)習(xí)進(jìn)行融合,能夠同時(shí)對標(biāo)記樣本和無標(biāo)記樣本進(jìn)行訓(xùn)練[9]。
在實(shí)際使用中,有標(biāo)記的樣本總量較為稀少,因其需要通過手動(dòng)來進(jìn)行標(biāo)記所以耗費(fèi)較大,因此少量存在標(biāo)記的樣本尤其珍貴,而樣本里未標(biāo)記的樣本總量有很多。本文的數(shù)據(jù)挖掘首先會(huì)通過構(gòu)建數(shù)據(jù)檢測模型來識(shí)別網(wǎng)絡(luò)中大數(shù)據(jù)屬性,但由于正常樣本多于有標(biāo)記樣本總量,因此首先把未標(biāo)記樣本都設(shè)定為正常樣本,根據(jù)無監(jiān)督學(xué)習(xí)[10]訓(xùn)練單分類數(shù)據(jù)檢測模型,之后按照有標(biāo)記的樣本,校正單分類數(shù)據(jù)檢測模型,從而達(dá)到增量學(xué)習(xí)的目的。
本文充分利用現(xiàn)存的少量有標(biāo)記樣本與大量無標(biāo)記的樣本數(shù)據(jù),采用半監(jiān)督學(xué)習(xí),利用先驗(yàn)單分類檢測數(shù)據(jù)模型信息和新的標(biāo)記樣本更新模型對樣本數(shù)據(jù)進(jìn)行處理,一方面能夠使訓(xùn)練之后的樣本繼承先前學(xué)習(xí)到的知識(shí),還可以讓整體學(xué)習(xí)存在可積累性,另外一方面也可以實(shí)現(xiàn)在線學(xué)習(xí),不斷的讓數(shù)據(jù)檢測模型獲得更新。典型的數(shù)據(jù)檢測模型是[11]無監(jiān)督深度學(xué)習(xí),其將數(shù)據(jù)對象擬定成一種整體,組建一種封閉且緊湊的超球體,使需要描述的數(shù)據(jù)對象盡可能或全部地處于這種球體里。
(4)
式中,R代表待求解的球的最小半徑,C為懲罰系數(shù),ζi為懲罰項(xiàng),a為超球體的中心。
在訓(xùn)練結(jié)束之后,需要對新的數(shù)據(jù)點(diǎn)Z評定是否屬于這個(gè)類,就是
(z-a)T(z-a)≤R2
(5)
至此利用單分類數(shù)據(jù)檢測模型訓(xùn)練了未標(biāo)記樣本,針對數(shù)據(jù)樣本可以使用該模型進(jìn)行評定。但是未標(biāo)記樣本里存在少量的[12]冗余數(shù)據(jù)樣本,直接根據(jù)單分類數(shù)據(jù)檢測模型有可能會(huì)產(chǎn)生一些微小的誤差,因此本文結(jié)合了少量的標(biāo)記樣本組成了半監(jiān)督深度學(xué)習(xí)數(shù)據(jù)檢測模型。
1)對含有標(biāo)記的樣本分詞處理,根據(jù)數(shù)據(jù)檢測模型對樣本標(biāo)記之間存在的關(guān)聯(lián)性與特征詞進(jìn)行分析,條件前K種關(guān)鍵特征詞當(dāng)作篩選特征詞;
2)針對未標(biāo)記樣本,利用(1)得到篩選特征詞對應(yīng)的未標(biāo)記樣本特征;
3)針對(2)獲得的未標(biāo)記樣本特征,根據(jù)深度學(xué)習(xí)的網(wǎng)絡(luò)訓(xùn)練取得未標(biāo)記樣本的文本向量。
4)利用文本向量,利用半監(jiān)督深度學(xué)習(xí)方法對單分類SVDD模型進(jìn)行訓(xùn)練,將超球體的半徑縮短到最小化;
5)對于新的標(biāo)記樣本,利用在線學(xué)習(xí)的方式訓(xùn)練向量學(xué)習(xí)SVDD模型,同時(shí)對單分類模型進(jìn)行校正,提高模型的識(shí)別效果。通過該模型來檢測大數(shù)據(jù)內(nèi)的信息資源。
為提升所提挖掘算法的精準(zhǔn)性與實(shí)用性,需要實(shí)現(xiàn)約束大數(shù)據(jù)特征關(guān)聯(lián)度,約束的內(nèi)容需要根據(jù)網(wǎng)絡(luò)數(shù)據(jù)庫確認(rèn)挖掘條件,約束內(nèi)容需要包含確保挖掘工作計(jì)算量小、挖掘質(zhì)量高的作用。
通過confidence(X?Y)來描述特征集合X內(nèi)涵蓋特征集合Y的概率,confidence(Y?X)和上述相反,大數(shù)據(jù)特征關(guān)聯(lián)度sim(X,Y)的挖掘結(jié)果為
(6)
由于confidence(X?Y)與confidence(Y?X)的取值范圍是[0,1],所以,大數(shù)據(jù)特征關(guān)聯(lián)度sim(X,Y)的取值范圍也應(yīng)該是[0,1]。在sim(X,Y)=0時(shí),即網(wǎng)絡(luò)大數(shù)據(jù)間的特征是互相獨(dú)立的,此時(shí)不需要進(jìn)行大數(shù)據(jù)集成挖掘聚類。
網(wǎng)絡(luò)數(shù)據(jù)位置的關(guān)聯(lián)度挖掘結(jié)果,能夠利用計(jì)算大數(shù)據(jù)傳輸信道的質(zhì)心得到,把大數(shù)據(jù)集合X與Y傳輸信道的質(zhì)心擬定成c1與c2,兩種質(zhì)心之間的距離是|c1c2|,下面通過圖1來對大數(shù)據(jù)位置關(guān)聯(lián)度的挖掘原理進(jìn)行描述。
圖1 大數(shù)據(jù)位置關(guān)聯(lián)度挖掘原理
(7)
網(wǎng)絡(luò)大數(shù)據(jù)方向關(guān)聯(lián)度即指大數(shù)據(jù)集合X與Y傳輸方向之間的角度(s1,s2),其余弦值能夠通過公式描述成
(8)
通過上式能夠看出,大數(shù)據(jù)集合X與Y傳輸方向之間存在的角度(s1,s2),如果角度cos(s1,s2)越大,(s1,s2)值就會(huì)越小。在(s1,s2)超過180度之后,cos(s1,s2)值就會(huì)變成負(fù)數(shù)。為了免除大數(shù)據(jù)位置關(guān)聯(lián)度挖掘結(jié)果,對大數(shù)據(jù)方向關(guān)聯(lián)度挖掘結(jié)果造成的干擾,所提網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘方法利用[1-cos(s1,s2)]的正弦值來描述方法,取代傳統(tǒng)[1-cos2(s1,s2)]的正弦值描述方法,使大數(shù)據(jù)方向關(guān)聯(lián)度被精確的挖掘出來。
基于上述方法,把大數(shù)據(jù)方向關(guān)聯(lián)度的挖掘結(jié)果擬定成sim(dist),對大數(shù)據(jù)結(jié)合X與Y傳輸方向的平均值avg(|s1|,|s2|),進(jìn)行加成計(jì)算,就會(huì)出現(xiàn):
sim(dist)=avg(|s1|,|s2|)[1-cos(s1,s2)]
(9)
把上述式(6)、(7)與(8)根據(jù)式(4)給出的挖掘樣本s條件進(jìn)行聚類,確保最后的網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘結(jié)果。通過F來表述挖掘樣本s的挖掘效率,那么,F(xiàn)s就能夠表示成大數(shù)據(jù)挖掘聚類,即本文方法的集成挖掘結(jié)果為
(10)
式中,F(xiàn)j為大數(shù)據(jù)的特征、位置與方向同時(shí)出現(xiàn)的概率,F(xiàn)max為大數(shù)據(jù)特征、位置與方向關(guān)聯(lián)度內(nèi)的最大值,N為未進(jìn)行挖掘工作前的大數(shù)據(jù)樣本總量,Ns為挖掘出的數(shù)據(jù)特征、位置與方向的總量。
根據(jù)以上步驟,利用有監(jiān)督與無監(jiān)督深度學(xué)習(xí)間的機(jī)器學(xué)習(xí),組成半監(jiān)督深度學(xué)習(xí)訓(xùn)練標(biāo)記樣本,利用支持向量數(shù)據(jù)組建超球體。利用超球體結(jié)合標(biāo)記樣本,組建半監(jiān)督深度學(xué)習(xí)數(shù)據(jù)檢測模型,采用深度學(xué)習(xí)檢測大數(shù)據(jù),以此為基礎(chǔ)篩選樣本特征詞,利用半監(jiān)督深度學(xué)習(xí)方法訓(xùn)練單分類SVDD模型,實(shí)現(xiàn)檢測大數(shù)據(jù)內(nèi)的信息資源,獲取網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘結(jié)果。
為驗(yàn)證所提方法的應(yīng)用有效性,設(shè)計(jì)一次仿真。仿真環(huán)境為Intel Celeron Tulatin1GHz CPU和384MB SD內(nèi)存的硬件環(huán)境和MATLAB6.1的軟件環(huán)境。
為進(jìn)一步驗(yàn)證所提方法的實(shí)用性,將文獻(xiàn)[1]提出的基于事務(wù)映射區(qū)間求交的網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘方法、文獻(xiàn)[2]提出的基于數(shù)值信息抽取的網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘方法以及文獻(xiàn)[3]提出的基于差分隱私的網(wǎng)絡(luò)大數(shù)據(jù)集成挖掘方法作為本次實(shí)驗(yàn)的對照組,不同方法的集成精度對比見表1。
表1 不同數(shù)據(jù)集中三種方法的大數(shù)據(jù)集成精度對比
從表1所統(tǒng)計(jì)出的數(shù)據(jù)可知,本文方法與文獻(xiàn)方法相比集成挖掘結(jié)果精度更高,且所提方法在大數(shù)據(jù)集成挖掘過程中應(yīng)用的穩(wěn)定性較高。
為進(jìn)一步驗(yàn)證所提方法的性能優(yōu)勢,設(shè)計(jì)本節(jié)實(shí)驗(yàn)。以大數(shù)據(jù)集成挖掘耗時(shí)為指標(biāo),不同方法的大數(shù)據(jù)的集成挖掘耗時(shí)對比測試結(jié)果如圖2。
圖2 不同方法的耗時(shí)對比測試
從圖2實(shí)驗(yàn)結(jié)果中可以看出,三種傳統(tǒng)方法隨著待挖掘大數(shù)據(jù)量的增多,其耗時(shí)不斷增加,當(dāng)大數(shù)據(jù)量達(dá)到60TB時(shí),其耗時(shí)最高為6.5ms。相比之下,所提方法的耗時(shí)明顯低于三種傳統(tǒng)方法,在大數(shù)據(jù)量為10TB時(shí),耗時(shí)為2.3ms。當(dāng)大數(shù)據(jù)不斷增多時(shí),該方法的集成挖掘時(shí)間明顯降低,且耗時(shí)水平較為穩(wěn)定。大數(shù)據(jù)達(dá)到最大值60TB時(shí),其耗時(shí)仍然在2ms上下。本次實(shí)驗(yàn)數(shù)據(jù)表明所提方法具有較為理想的應(yīng)用性能,符合目前該領(lǐng)域的實(shí)際應(yīng)用要求。
為集成挖掘不同格式、來源、特點(diǎn)性質(zhì)的大數(shù)據(jù),本文提出一種基于半監(jiān)督深度學(xué)習(xí)法的網(wǎng)絡(luò)大數(shù)據(jù)的集成挖掘方法。通過半監(jiān)督深度學(xué)習(xí)算法對大數(shù)據(jù)實(shí)現(xiàn)集成挖掘。通過仿真驗(yàn)證了所提方法具有較高的大數(shù)據(jù)集成挖掘精度與效率。但隨著網(wǎng)絡(luò)數(shù)據(jù)規(guī)模不斷擴(kuò)大、計(jì)算量高速增加,易出現(xiàn)數(shù)據(jù)查詢工作超負(fù)荷運(yùn)轉(zhuǎn)問題,因此在現(xiàn)有方法的基礎(chǔ)上,對負(fù)載優(yōu)化模型為日后進(jìn)一步需要研究的課題。