周 莉,閆 攀
(重慶郵電大學(xué)移通學(xué)院,重慶 401520)
現(xiàn)代社會中,互聯(lián)網(wǎng)的應(yīng)用越來越廣泛,青少年的日常和學(xué)習(xí)生活離不開網(wǎng)絡(luò)提供的數(shù)字教育資源[1],但網(wǎng)絡(luò)中會混雜一些色情、暴力的不良數(shù)據(jù)荼毒青少年,對青少年的身心健康造成極大的危害[2-3]。因此,辨識網(wǎng)絡(luò)中的不良數(shù)據(jù)是保護網(wǎng)絡(luò)學(xué)習(xí)者、凈化學(xué)習(xí)內(nèi)容乃至維護社會和諧的重要措施[4-5]。
李永攀[6]等人提出基于多視角低秩分析的電力狀態(tài)不良數(shù)據(jù)檢測方法,采集觀測數(shù)據(jù)估計電力系統(tǒng)的運行狀態(tài),通過低秩模型挖掘觀測源數(shù)據(jù)之間的共享本真數(shù)據(jù),采用稀疏模型針對不良數(shù)據(jù)進行建模。利用基于交叉迭代的優(yōu)化算法實現(xiàn)對不良數(shù)據(jù)的檢測與辨識。實驗結(jié)果表明,該方法沒有在辨識網(wǎng)絡(luò)多層不良數(shù)據(jù)的過程中提取不良數(shù)據(jù)特征點,在辨識網(wǎng)絡(luò)多層不良數(shù)據(jù)時可能忽略一些不良數(shù)據(jù),導(dǎo)致對網(wǎng)絡(luò)多層不良數(shù)據(jù)辨識的準確率低。汪少敏[7]等人提出利用深度學(xué)習(xí)融合模型對網(wǎng)絡(luò)多層不良數(shù)據(jù)辨識的方法,該方法利用基于深度學(xué)習(xí)的融合識別模型,將數(shù)據(jù)集中不良數(shù)據(jù)與優(yōu)質(zhì)數(shù)據(jù)分開,通過模型融合算法確認不良數(shù)據(jù),實現(xiàn)對網(wǎng)絡(luò)多層不良數(shù)據(jù)的辨識。實驗結(jié)果表明,該方法沒有利用LFM信號充當網(wǎng)絡(luò)多層不良數(shù)據(jù)的訓(xùn)練集對不良數(shù)據(jù)進行特征提取,導(dǎo)致不良數(shù)據(jù)召回率低。李志欣[8]等人針對微博中的垃圾評論提出基于Co-Training的網(wǎng)絡(luò)多層不良數(shù)據(jù)辨識方法,該方法構(gòu)建AdaBoost分類器和支持向量機分類器,通過Co-Training算法進行協(xié)同訓(xùn)練,判斷其是否為不良數(shù)據(jù),實現(xiàn)網(wǎng)絡(luò)多層不良數(shù)據(jù)的辨識。實驗結(jié)果表明,該方法沒有利用信號處理辦法提取不良數(shù)據(jù)特征點,存在F1比值下降的問題。
為了解決上述方法中存在的問題,提出無線協(xié)作中繼網(wǎng)絡(luò)多層不良數(shù)據(jù)辨識方法。
利用決策樹模型構(gòu)建無線協(xié)作環(huán)境下網(wǎng)絡(luò)多層不良數(shù)據(jù)存儲和傳輸模型[9],在模型中采用根節(jié)點、內(nèi)部節(jié)點和葉節(jié)點三種節(jié)點模式進行組建。并通過ID3決策樹算法對傳統(tǒng)不良數(shù)據(jù)存儲和傳輸模型進行改進,改進后的模型優(yōu)勢為:
1)可以將連續(xù)網(wǎng)絡(luò)多層不良數(shù)據(jù)集的屬性進行離散化處理。
2)可以同時進行不良數(shù)據(jù)的聚類和決策樹剪枝,以便構(gòu)建決策樹的同時剪枝決策樹。
3)利用Hilbert變換對網(wǎng)絡(luò)多層不良數(shù)據(jù)信息通道進行均衡處理。
利用Hilbert變換后的系統(tǒng)輸出如下
(1)
式中,y(t)代表無線協(xié)作系統(tǒng)輸出;P代表多層網(wǎng)絡(luò)不良數(shù)據(jù)傳輸信息通道的離散數(shù)據(jù)解析值;τ代表網(wǎng)絡(luò)信息傳輸?shù)难訒r;x(t)代表原始信號。
根據(jù)網(wǎng)絡(luò)多層不良數(shù)據(jù)存儲和傳輸模型,分析網(wǎng)絡(luò)多層不良數(shù)據(jù)在無線協(xié)作環(huán)境下的存儲和傳輸特點,建立網(wǎng)絡(luò)多層不良數(shù)據(jù)特征提取模型,提取網(wǎng)絡(luò)多層不良數(shù)據(jù)的特征。
信號處理方法是識別網(wǎng)絡(luò)多層不良數(shù)據(jù)的最佳辦法,因此,在辨識網(wǎng)絡(luò)多層不良數(shù)據(jù)前需建立信號模型[10]。使用網(wǎng)絡(luò)終端下載數(shù)據(jù)信息,將上傳數(shù)據(jù)信息時產(chǎn)生的時間序列分為線性時間序列和非線性時間序列,這些時間序列振蕩數(shù)據(jù)的特征點是具有高斯寬帶信號。通過分析非線性時間序列并處理寬帶信號來構(gòu)建無線協(xié)作環(huán)境下網(wǎng)絡(luò)多層不良數(shù)據(jù)信號幅度-頻率(角頻率)曲線模型,模型如下
(2)
無線協(xié)作環(huán)境下網(wǎng)絡(luò)多層不良數(shù)據(jù)的決策樹局部交叉信息鏈公式如下
f(t)=f0+kt
(3)
則無線協(xié)作環(huán)境下網(wǎng)絡(luò)多層不良數(shù)據(jù)的信號解析模型代表式如下
z(t)=iy(t)+x(t)=a(t)eiθ(t)
(4)
式中,z(t)代表不良數(shù)據(jù)的帶寬;y(t)代表不良數(shù)據(jù)固定的模態(tài)函數(shù);x(t)代表不良數(shù)據(jù)頻帶內(nèi)的頻譜。
不良數(shù)據(jù)的瞬時頻率和時間之間是線性關(guān)系,第kk個不良數(shù)據(jù)的狀態(tài)函數(shù)用無線協(xié)作環(huán)境下網(wǎng)絡(luò)多層不良數(shù)據(jù)存儲和傳輸模型來描述,獲取無線協(xié)作環(huán)境下網(wǎng)絡(luò)多層不良數(shù)據(jù)特征提取模型,如圖1所示。
圖1 網(wǎng)絡(luò)多層不良數(shù)據(jù)特征提取模型
圖1中,網(wǎng)絡(luò)多層不良數(shù)據(jù)特征空間中產(chǎn)生校驗位,則第k個網(wǎng)絡(luò)多層不良數(shù)據(jù)在校驗位的拓撲結(jié)構(gòu)如下
(5)
式中,c代表不良數(shù)據(jù)特征的概率密度;s(v1)代表尺度信息;A代表幅值。
由于網(wǎng)絡(luò)多層不良數(shù)據(jù)訓(xùn)練集的標識具有確定性,導(dǎo)致不能全面提取網(wǎng)絡(luò)多層不良數(shù)據(jù)特征,因此,選用LFM信號充當不良數(shù)據(jù)的訓(xùn)練集,全面實現(xiàn)對網(wǎng)絡(luò)多層不良數(shù)據(jù)特征的提取。
COPS算法的實現(xiàn)流程為:第一階段是在凝聚型層次聚類思想的基礎(chǔ)上,從下往上劃分出不同層次的數(shù)據(jù),第二階段是在數(shù)據(jù)劃分的同時利用有效性指數(shù)Q(Ck)組成對應(yīng)的聚類質(zhì)量曲線,Q(Ck)曲線的極小點正是最佳聚類結(jié)果。COPS算法的優(yōu)點是可以一次性劃分全部數(shù)據(jù),不需要反復(fù)聚類數(shù)據(jù),而且最佳聚類數(shù)量也可以自動劃分,因此,其適用于數(shù)量大且復(fù)雜的數(shù)據(jù)集聚類。
若X={x1,x2,…,xn}表示已經(jīng)分類的網(wǎng)絡(luò)多層不良數(shù)據(jù)集合,Xj=(xj1,xj2,…,xjs),(j=1,2,…n)表示在X中提取的特征值。通常情況下在數(shù)量大且復(fù)雜的網(wǎng)絡(luò)多層不良數(shù)據(jù)集中,需要對網(wǎng)絡(luò)多層不良數(shù)據(jù)集進行kmax-kmin+1次聚類才可使用劃分數(shù)據(jù)集的聚類方法計算不同聚類個數(shù)下的網(wǎng)絡(luò)多層不良數(shù)據(jù)集的聚類質(zhì)量,這種傳統(tǒng)方法會嚴重影響計算效率。若利用COPS算法,可在凝聚型層次聚類思想的基礎(chǔ)上,對網(wǎng)絡(luò)多層不良數(shù)據(jù)以從下往上劃分的方式聚類。將每個網(wǎng)絡(luò)多層不良數(shù)據(jù)點視為一個簇,在相似準則的基礎(chǔ)上將不相同的網(wǎng)絡(luò)多層不良數(shù)據(jù)點的簇合并在一起,直到所有不相同的簇歸一后結(jié)束,即所有網(wǎng)絡(luò)多層不良數(shù)據(jù)歸為一類。在合并的同時采用有效性指標Q(Ck)計算出聚類質(zhì)量,獲取最佳的劃分C*。
不良數(shù)據(jù)點間相似度定義為:
在密度聚類算法中點的鄰域半徑定義的基礎(chǔ)上設(shè)定閾值tm≥0(1≤m≤s),在算法中任取兩點xi和xj,且這兩點滿足tm≥|xim-xjm|,即經(jīng)過tm的xi和xj在第m維相似。假設(shè)xi與xj在所有維度上都相似,已知閾值T={t1,t2,…,ts},則稱經(jīng)過T的xi與xj相似,將相似的不良數(shù)據(jù)點構(gòu)成一類。
從T=0開始聚類,這時每個不良數(shù)據(jù)點都是單獨的簇,每個不良數(shù)據(jù)點都不相似,為使不相似的不良數(shù)據(jù)點變得相似,每計算一步給每個簇增加一個量Δ(Δ={Δ1,Δ2,…Δs}),最終合并全部不相同的簇,使所有不相同的不良數(shù)據(jù)點歸成一個簇。
下列為確定參數(shù)Δ的方法,其方法可以得出不良數(shù)據(jù)之間維度屬性值的分布差異。
1)將原始不良數(shù)據(jù)歸一化處理
(6)
式中,x′im代表不良數(shù)據(jù)點xi在第m維特征的歸一化值。
2)運算出歸一化處理后的不良數(shù)據(jù)的標準偏差σm。
(7)
(8)
式中,σm代表歸一化處理后的不良數(shù)據(jù)在第m維的標準偏差;μm代表歸一化處理后的不良數(shù)據(jù)在第m維的均值。σm可用來反映第m維不良數(shù)據(jù)的稀疏度,σm值越小,m維特征值越緊密,與之相關(guān)類型的數(shù)據(jù)點越少,同理反之。
3)增量Δm求解公式為:
(9)
式中,ε代表控制算法精度,ε大于0。ε的大小與COPS算法的搜索步數(shù)有關(guān),ε越大,搜索步數(shù)越少,ε越大,步數(shù)越多,結(jié)果就越接近于最優(yōu)值,但同時消耗的時間會更多。
由于上述方法的時間消耗過長,導(dǎo)致算法的計算效率下降,因此,對查找相似點算法進行改善:先從大到小排列每個不良數(shù)據(jù)點在每個維度的特征值,可知第m維特征值的序列為Am(m=1,2,…,s)。在COPS算法中搜索經(jīng)過tm的xi在第m維相似點時,只需在tm≥|xim-xjm|區(qū)間內(nèi)按順序掃描Am即可搜索出相似點。若閾值tm增量Δm時,用于搜索的區(qū)間也隨之增量,即區(qū)間為tm+Δm≥|xim-xjm|≥tm,此時,只需將區(qū)間增量,不需重新掃描所有不良數(shù)據(jù)。
在最優(yōu)聚類結(jié)果中,其類間是分離的,而子類內(nèi)部是緊湊的,因此,在最優(yōu)聚類結(jié)果中存在一個平衡類內(nèi)緊湊和類間分離的點。評價聚類結(jié)果的指標需要考慮到類內(nèi)緊湊度和類間分離度,用Q(CK)表示基于不良數(shù)據(jù)集的幾何結(jié)構(gòu),其符合評價要求,可作為評價聚類質(zhì)量的標準,即Q(CK)中包含所要求的聚類最優(yōu)解。
假設(shè)將不良數(shù)據(jù)集X劃分成k類,此時Ck={C1,C2,…,Ck}正是與不良數(shù)據(jù)集對應(yīng)的聚類劃分結(jié)果,設(shè)Ci中不良數(shù)據(jù)點的個數(shù)為|Ci|,利用Scat(Ck)表示類內(nèi)緊湊度,Scat(Ck)的值越小,代表類內(nèi)越緊湊,同理反之。Sep(Ck)代表類間分離度,Sep(Ck)的值越大,代表類間分離度越強,同理反之,則Scat(Ck)與Sep(Ck)的表達式為
(10)
(11)
(12)
式中,β與α分別代表平衡類間分離度和類內(nèi)緊湊度間的組合參數(shù)。由此可知Sep(Ck)為單調(diào)減函數(shù),Scat(Ck)為單調(diào)增函數(shù),所以聚類質(zhì)量指標Q(CK)在區(qū)間n>k>1中取極小值時就是所要求的聚類最優(yōu)解,從而實現(xiàn)對網(wǎng)絡(luò)多層不良數(shù)據(jù)的辨識。
為了驗證所提方法的整體有效性,在Weka平臺中對所提方法進行測試。選取TAN、economy、social以及star文檔數(shù)據(jù)集作為實驗數(shù)據(jù),分別采用無線協(xié)作中繼網(wǎng)絡(luò)多層不良數(shù)據(jù)辨識方法(方法一)、利用深度學(xué)習(xí)融合模型對網(wǎng)絡(luò)多層不良數(shù)據(jù)辨識的方法(方法二)和基于Co-Training的網(wǎng)絡(luò)多層不良數(shù)據(jù)辨識方法(方法三)進行測試。
將不良數(shù)據(jù)的分類準確率作為測試指標,準確率越高,說明對不良數(shù)據(jù)的特征點種類提取得越多,辨識的不良數(shù)據(jù)也越多,分類準確率(Accuracy)為正確分類不良數(shù)據(jù)文檔數(shù)與不良數(shù)據(jù)文檔總數(shù)的比值。圖2為不同方法對不良數(shù)據(jù)分類的準確率對比結(jié)果。
圖2 不良數(shù)據(jù)文檔分類準確率
圖2中選取了參數(shù)及內(nèi)容均不相同的文檔,可看出三種方法中方法一對不良數(shù)據(jù)的分類最準確,這是由于方法一在辨識網(wǎng)絡(luò)多層不良數(shù)據(jù)時在決策樹模型的基礎(chǔ)上確定了網(wǎng)絡(luò)多層不良數(shù)據(jù)特征提取模型,提取出網(wǎng)絡(luò)多層不良數(shù)據(jù)的特征點,將不良數(shù)據(jù)根據(jù)特征點進行準確的分類,提升了網(wǎng)絡(luò)多層不良數(shù)據(jù)分類的準確率,即提高了不良數(shù)據(jù)辨識的準確率。
比較三種方法對不良數(shù)據(jù)辨識的召回率,召回率(Recall rate)為不良數(shù)據(jù)正確分類的文檔數(shù)與待分類不良數(shù)據(jù)的文檔數(shù)的比值,在同樣環(huán)境下,召回率越高說明正確分類的不良數(shù)據(jù)文檔越多,對不良數(shù)據(jù)的辨識效果越好。圖3為不同方法的召回率對比結(jié)果。
圖3 不同方法召回率對比
在對三種方法的召回率進行比較后可以看出,選取的數(shù)據(jù)集無論如何復(fù)雜,方法一對不良數(shù)據(jù)召回率都是最高的,因為方法一利用LFM信號充當不良數(shù)據(jù)的訓(xùn)練集,而不是利用具有確定性的網(wǎng)絡(luò)多層不良數(shù)據(jù)充當訓(xùn)練集,因此提取出網(wǎng)絡(luò)多層不良數(shù)據(jù)的特征點更加廣泛,即對不良數(shù)據(jù)辨識地更全面,驗證了方法一的有效性。
將F1比值作為測試指標,采用方法一、方法二和方法三進行測試,比值越大,表明方法對不良數(shù)據(jù)的辨識越詳細,相反,比值越小不良數(shù)據(jù)的辨識越簡略,F(xiàn)1比值為
(13)
圖4為不同方法的F1值對比結(jié)果。
圖4 不同方法的F1比值
由圖4可知,方法一在測試過程中獲得的F1比值均高于方法二和方法三獲得的F1比值,因為方法一通過信號處理辦法提取網(wǎng)絡(luò)多層不良數(shù)據(jù)特征點,從多個方面對不良數(shù)據(jù)進行辨識,避免了忽略一些不良數(shù)據(jù)的情況,提高了網(wǎng)絡(luò)多層不良數(shù)據(jù)的辨識能力,進而提高了F1比值。
目前,網(wǎng)絡(luò)多層不良數(shù)據(jù)的辨識方法存在準確率低,召回率低和F1比值低的問題,因此,提出無線協(xié)作中繼網(wǎng)絡(luò)多層不良數(shù)據(jù)辨識方法。在無線協(xié)作環(huán)境下,基于信號模型建立網(wǎng)絡(luò)多層不良數(shù)據(jù)的特征提取模型對網(wǎng)絡(luò)多層不良數(shù)據(jù)進行特征提取,采用COPS算法對不良數(shù)據(jù)特征點聚類,聚類后利用聚類最優(yōu)結(jié)果評價指標,獲得聚類最優(yōu)解實現(xiàn)網(wǎng)絡(luò)多層不良數(shù)據(jù)辨識,提高了不良數(shù)據(jù)辨識的準確率、召回率及F1比值。在今后的研究,結(jié)合不良圖片信息進行不良數(shù)據(jù)特征提取會更加準確地辨識無線協(xié)作中繼網(wǎng)絡(luò)多層不良數(shù)據(jù)。