趙 明,宋 馳,王成化,王華偉,郭凱明
(1.國網(wǎng)安徽省電力有限公司滁州供電公司,安徽 滁州 239000)(2.中能博望(北京)科技有限公司,北京 102488)
隨著電力公司對(duì)電力物聯(lián)網(wǎng)建設(shè)的全面推動(dòng),數(shù)據(jù)中臺(tái)建設(shè)的有序進(jìn)行,各類數(shù)據(jù)的“融匯貫通”,跨業(yè)務(wù)、跨系統(tǒng)的數(shù)據(jù)“廣泛共享”已基本形成,數(shù)據(jù)作為資產(chǎn)將逐步面向全公司、全社會(huì)開放應(yīng)用[1]。在數(shù)據(jù)共享過程中,如何保障數(shù)據(jù)安全、提供高效的數(shù)據(jù)算法模型就顯得尤為重要。目前,各行業(yè)紛紛開展了數(shù)據(jù)安全和隱私保護(hù)的深入研究,國內(nèi)外針對(duì)電力數(shù)據(jù)的安全也進(jìn)行了加密、脫敏、防泄漏等方面的研究[2-3],但是對(duì)于數(shù)據(jù)安全分級(jí)的技術(shù)研究尚未深入,運(yùn)用自然語言處理技術(shù)開展電力數(shù)據(jù)安全分類分級(jí)研究還比較欠缺。電力數(shù)據(jù)量龐大,人工形式逐字段進(jìn)行數(shù)據(jù)安全定級(jí)效率太低,且誤差較大,借助數(shù)據(jù)安全分級(jí)工具可實(shí)現(xiàn)自動(dòng)化或半自動(dòng)化的安全等級(jí)劃分,極大地減少人工工作量,同時(shí)可避免人為操作的主觀性和不穩(wěn)定性。
基于此,本文提出了基于詞頻參數(shù)的改進(jìn)特征項(xiàng)降維方法,降低文本的噪聲,并結(jié)合優(yōu)化支持向量機(jī)模型,提高分類算法的準(zhǔn)確率,建立了數(shù)據(jù)安全分級(jí)術(shù)語庫,開發(fā)了數(shù)據(jù)安全定級(jí)工具,實(shí)現(xiàn)電力數(shù)據(jù)的自動(dòng)化和智能化安全定級(jí),并通過實(shí)驗(yàn)論證了本文算法具有較高的準(zhǔn)確率,且分布均勻性明顯增加,可以有效解決數(shù)據(jù)分析及安全分級(jí)存在的性能和效率問題,指導(dǎo)數(shù)據(jù)共享,促進(jìn)數(shù)據(jù)管理水平持續(xù)提升。
首先采用智能傳感器獲取電網(wǎng)的數(shù)據(jù),為后續(xù)安全分級(jí)提供數(shù)據(jù)支撐。使用物聯(lián)網(wǎng)技術(shù)將具備智能判斷與自適能力的能源統(tǒng)一入網(wǎng)絡(luò),采用智能電表作為物聯(lián)網(wǎng)三層架構(gòu)中的核心感知層獲取電力負(fù)荷參數(shù),測(cè)量傳感器、電流互感器及電壓、電流采集芯片采集電網(wǎng)和用戶信息以及各類電力參數(shù)信息,對(duì)電網(wǎng)信息的實(shí)時(shí)采集可達(dá)到秒級(jí),采集的數(shù)據(jù)通過網(wǎng)絡(luò)層的無線傳輸網(wǎng)絡(luò)、專用網(wǎng)、互聯(lián)網(wǎng)進(jìn)行傳輸,提供給表現(xiàn)層進(jìn)行數(shù)據(jù)的分類分級(jí)和可視化展示。物聯(lián)網(wǎng)電力數(shù)據(jù)采集系統(tǒng)架構(gòu)如圖1所示。
智能電表主要采用數(shù)據(jù)采集傳感器感知外部電力參數(shù)并實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)上傳,本文選擇DTZ341、DSZ331三相智能電能表,該電表內(nèi)置傳感器采集芯片,能夠?qū)崟r(shí)采集電能量,包括正(反)向有(無)功的總電量、各時(shí)段電量、需量及發(fā)生時(shí)間、負(fù)荷曲線(根據(jù)電表中實(shí)際設(shè)置情況)、電表凍結(jié)值(凍結(jié)類型根據(jù)電表設(shè)置)、瞬時(shí)量(包括電壓、電流、功率、功率因數(shù)、頻率等)、失壓斷相記錄、相序錯(cuò)誤記錄、電壓合格率、電表運(yùn)行狀態(tài)等。無線通信模塊采用聯(lián)通公司生產(chǎn)的通信模塊,負(fù)責(zé)將采集的電力業(yè)務(wù)數(shù)據(jù)實(shí)時(shí)上傳到數(shù)據(jù)存儲(chǔ)服務(wù)器,進(jìn)行后續(xù)的電力業(yè)務(wù)數(shù)據(jù)的分類分級(jí)、可視化展示等數(shù)據(jù)分析處理工作。
圖1 物聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng)架構(gòu)圖
進(jìn)行文本分類需要訓(xùn)練海量的文本數(shù)據(jù),訓(xùn)練時(shí)使用向量空間模型對(duì)文本進(jìn)行分詞、分類、分級(jí),海量數(shù)據(jù)的特征項(xiàng)和特征維也是海量的,部分無價(jià)值特征項(xiàng)會(huì)降低算法的執(zhí)行效率,影響命中率,消耗空間、降低性能[4-5],因此必須采用特征降維空間算法消除噪聲。本文結(jié)合經(jīng)典的互信息和卡方統(tǒng)計(jì)量降維法創(chuàng)新地提出了混合式降維算法。
1)互信息(mutual information,MI)特征選擇算法。
互信息特征選擇算法[6]描述了特征項(xiàng)fi與文本類別lj之間的關(guān)聯(lián)程度,通過關(guān)聯(lián)程度識(shí)別無價(jià)值的特征項(xiàng),具體的算法公式如下:
(1)
式中:MI(fi,lj)為文本類別lj的全部文本中出現(xiàn)的特征項(xiàng)fi的互信息值,是二者依賴關(guān)系的量化值;P(fi∩lj)為在文本類別lj的全部文本中出現(xiàn)特征項(xiàng)fi的頻率;P(fi)為在訓(xùn)練樣本中包含文本特征項(xiàng)fi的概率;P(lj)為訓(xùn)練樣本中含有類別項(xiàng)lj的頻率。根據(jù)公式的設(shè)置,特征項(xiàng)fi與文本類別lj的關(guān)聯(lián)關(guān)系與P(fi∩lj)呈正比,關(guān)聯(lián)度較高時(shí)P(fi∩lj)的值較大,關(guān)聯(lián)度較低時(shí)P(fi∩lj)的值較小,如果二者不存在關(guān)聯(lián),則P(fi∩lj)的值為0。
大量的研究結(jié)果表明,應(yīng)用互信息進(jìn)行特征項(xiàng)降維時(shí),存在的典型問題是該算法未結(jié)合特征項(xiàng)在文本集中出現(xiàn)的頻率,對(duì)于低頻特征項(xiàng)維度的影響較大,容易出現(xiàn)低頻噪聲而降低分類算法的準(zhǔn)確度。
采用開方檢驗(yàn)算法(chi-square test,CHI)[7]進(jìn)行特征項(xiàng)降維的前提是分級(jí)特征項(xiàng)fi對(duì)于文本類別lj來說,二者存在一階自由度的卡方對(duì)應(yīng)關(guān)系,卡方值越高,說明特征項(xiàng)與類別之間的關(guān)聯(lián)度越高,反之,二者關(guān)聯(lián)度越低,特征項(xiàng)fi應(yīng)該被降維。具體計(jì)算公式如下:
CHI(fi,lj)=[N(numa-numb·numc)2]/ [(numa+numc)·(numb+numd)·(numa+numb)·(numc+numd)]
(2)
式中:CHI(fi,lj)為類別lj與特征項(xiàng)fi的開方統(tǒng)計(jì)相關(guān)度;numa為類別lj中包含特征項(xiàng)fi的文本總量;numb為類別lj以外的其他類別中包含特征項(xiàng)fi的文本總量;numc為樣本類別lj中從未出現(xiàn)特征項(xiàng)fi的文本總量;numd為類別lj以外的類別中不包含特征項(xiàng)fi的全部類別的文本總量;N為全部文本數(shù)量。
由于卡方統(tǒng)計(jì)量特征項(xiàng)降維方法與互信息特征項(xiàng)降維方法存在的共同問題是算法未引入詞頻參數(shù),文本中低頻詞的權(quán)重較高,導(dǎo)致整體分類準(zhǔn)確率降低,因此本文對(duì)卡方檢驗(yàn)和互信息算法進(jìn)行優(yōu)化,提出了基于詞頻參數(shù)的改進(jìn)特征項(xiàng)降維方法(CHI-MI-P)來提高分類算法的準(zhǔn)確率,以提高后續(xù)分類算法的執(zhí)行效率。針對(duì)互信息引入詞頻計(jì)算參數(shù)和詞頻權(quán)重參數(shù),如式(3)所示:
(3)
(4)
式中:?(f)為詞頻參數(shù);f(f,l)為類別l中存在特征項(xiàng)f的數(shù)量;R=p(f,l),為調(diào)節(jié)參數(shù)。式(4)中分母是全部文檔的全部類別中出現(xiàn)特征項(xiàng)f的次數(shù)總和。詞頻參數(shù)的引入使得特征項(xiàng)在某一類別出現(xiàn)的頻率作為該特征詞與類別關(guān)聯(lián)關(guān)系的體現(xiàn),通過設(shè)置合理的參數(shù),增加高頻特征項(xiàng)的權(quán)重,降低低頻特征項(xiàng)的權(quán)重,可減少低頻特征項(xiàng)對(duì)訓(xùn)練集的影響。
針對(duì)CHI算法進(jìn)行大量的實(shí)驗(yàn)論證,實(shí)驗(yàn)過程中發(fā)現(xiàn),由于特征項(xiàng)的分類能力與詞頻、所在類別之間關(guān)系緊密,且特征項(xiàng)分類能力較高的分詞會(huì)集中出現(xiàn)在某幾個(gè)類別中,說明各個(gè)不同的類別下特征項(xiàng)的方差與詞頻成正比?;诖耍谝朐~頻參數(shù)的基礎(chǔ)上,本文又加入了方差參數(shù)來調(diào)節(jié)算法的分類準(zhǔn)確性,降低分類誤差。具體公式如下:
(5)
式中:使用函數(shù)r標(biāo)識(shí)類別i中特征項(xiàng)f出現(xiàn)的頻率;fi(l)為特征i在類別l中出現(xiàn)的頻率;m為全部特征項(xiàng)數(shù)量值。應(yīng)用概率論方差計(jì)算公式,計(jì)算特征項(xiàng)在不同類別中的方差,從而量化特征項(xiàng)在各個(gè)類別的分布頻率對(duì)最終分類結(jié)果的影響。結(jié)合方差因子與詞頻參數(shù)后的改進(jìn)互信息算法如下:
(6)
對(duì)優(yōu)化改進(jìn)后的MI算法與CHI算法進(jìn)行整合,將MI算法清晰準(zhǔn)確、改進(jìn)后算法對(duì)低頻詞的有效過濾、能區(qū)分不同特征項(xiàng)在重點(diǎn)類別的分布情況等優(yōu)勢(shì),與開方統(tǒng)計(jì)算法在特征項(xiàng)的關(guān)聯(lián)性識(shí)別的高準(zhǔn)確性的優(yōu)勢(shì)相結(jié)合,提出改進(jìn)的MI-CHI-P特征降維算法,如式(6)所示:
O-MI-CHI(f,l)=MI2(f,l)×CHI(f,l)
(7)
優(yōu)化的特征降維算法既避免了低頻次項(xiàng)的高權(quán)重對(duì)分類結(jié)果的影響,又可以識(shí)別到均勻分布在類別文檔中的高頻特殊項(xiàng),進(jìn)一步摒棄噪聲,降低特征向量集的維度。
在本文設(shè)計(jì)的電網(wǎng)安全分類模型中使用了支持向量機(jī)(support vector machine,SVM)進(jìn)行文本分類,SVM的核心在于核函數(shù)[5],本文采用全局與局部相結(jié)合的核函數(shù)算法O-SVM(optimization SVM,支持向量機(jī)分類模型),綜合了全局核函數(shù)泛化能力強(qiáng)與局部核函數(shù)分類能力強(qiáng)的優(yōu)勢(shì)。結(jié)合核函數(shù)的算法推理過程如下:
1)輸入前提:f1,f2,…,fn均為核函數(shù)。
2)調(diào)整公式f1到fn的和仍然為核函數(shù)。
3)設(shè)置參數(shù)值a,b,af1+bf2的結(jié)果也是核函數(shù)。
(8)
在此基礎(chǔ)上,基于經(jīng)典的全局和局部核函數(shù)以及上述正定函數(shù)的推理結(jié)論,提出本文的綜合核函數(shù)算法,如式(9)所示:
(9)
式中:keep為高斯核函數(shù);δ為高斯函數(shù)的寬度;x,y分別為核函數(shù)曲線幅度和位移;c為滿足c(ak1+bk2)c=cak1c+cbk2c的正定參數(shù)。式(9)可以兼顧全局樣本的整體特征,也能識(shí)別到訓(xùn)練樣本的個(gè)性化特點(diǎn)。
SVM文本分類算法中常用一對(duì)一的規(guī)則,其核心原理為化整為零的二分法,將原本m個(gè)分類進(jìn)行分解處理,分解后的問題有m(m-1)/2個(gè)分類。對(duì)于數(shù)據(jù)樣本集合中不對(duì)稱的文本集,此類文本集下的各個(gè)文本類別對(duì)應(yīng)的文檔數(shù)量各不相同,使用二分法能為所有的文本樣本進(jìn)行分類歸集,不存在無法分類的問題。但是,該方法的重大缺陷在于分類訓(xùn)練的其他文本(不屬于兩個(gè)分類)的其他樣本會(huì)歸類到錯(cuò)誤的類別中,導(dǎo)致分類結(jié)果誤判率增加。為了解決此問題,本文提出了文本關(guān)聯(lián)系數(shù)的概念,對(duì)于不屬于二分類的其他待分類問題,引入向量夾角來表示向量之間的關(guān)聯(lián)關(guān)系,計(jì)算其與二分類之間的關(guān)聯(lián)系數(shù),向量夾角越小,說明兩個(gè)向量越相似,運(yùn)用相似度值改善二分法對(duì)不屬于其分類范圍的文本分類識(shí)別力差的問題,具體如式(10)所示:
(10)
式中:ρ(x,y)為關(guān)聯(lián)度值;yn為向量值。
算法實(shí)現(xiàn)步驟如下:
1)按照式(5)計(jì)算文本樣本與全部類別的關(guān)聯(lián)度值,并使用向量d=(d1,d2,…,dm)存儲(chǔ)全部類別與文本樣本的關(guān)聯(lián)度系數(shù)。
2)循環(huán)迭代,每一次迭代剔除與各個(gè)文本關(guān)聯(lián)度最小的類別,減少文本樣本矩陣的維度。
3)循環(huán)迭代結(jié)束后的高關(guān)聯(lián)度文本矩陣的后續(xù)處理使用權(quán)重選舉算法,最終產(chǎn)生分類結(jié)論。
本文采用智能電表采集業(yè)務(wù)數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理后形成文本對(duì)象,將文本對(duì)象進(jìn)行拆分,其中85%的文本設(shè)為訓(xùn)練集,15%的文本作為測(cè)試文本。智能電表采集的數(shù)據(jù)主要包括全市減供、全市停供、區(qū)域性減供、區(qū)域性停供、重特大事故、重大事故、較大事故、一般停電幾類,每個(gè)類別包含2 800個(gè)文本文件。
對(duì)本文提出的CHI-MI-P特征降維算法以及支持向量機(jī)分類模型進(jìn)行試驗(yàn)論證。首先對(duì)特征降維算法的性能進(jìn)行對(duì)比分析,對(duì)比了DF(document frequency,詞頻提取)算法、IG(information gain,信息增益)算法和CHI-MI-P特征降維算法應(yīng)用SVM時(shí)的分類準(zhǔn)確率,結(jié)果如圖2所示。
圖2 不同特征選擇算法應(yīng)用SVM分類器準(zhǔn)確率對(duì)比
由圖2可以發(fā)現(xiàn),DF算法比本文提出的算法的準(zhǔn)確率低很多,當(dāng)特征數(shù)量變得極大時(shí),二者差距雖然縮少了,但依然存在,本文提出的算法優(yōu)勢(shì)明顯。對(duì)不同類別下特征選擇算法的準(zhǔn)確率進(jìn)行了對(duì)比,結(jié)果見表1,由表可知,在特征向量數(shù)量固定時(shí),3種特征降維算法中,IG算法的準(zhǔn)確率整體偏低,本文提出的算法準(zhǔn)確率在80%以上,各個(gè)分類下的準(zhǔn)確率都較高。
表1 CHI、MI和CHI-MI-P算法的分類準(zhǔn)確率對(duì)比
實(shí)驗(yàn)過程中,重點(diǎn)對(duì)基于關(guān)聯(lián)度值的SVM分類和本文提出的改進(jìn)關(guān)聯(lián)度SVM模型的分類結(jié)果進(jìn)行比對(duì)。SVM模型與改進(jìn)算法的查詢準(zhǔn)確率對(duì)比結(jié)果見表2 ,由表可以看出,改進(jìn)算法的查詢準(zhǔn)確率提高較多,其整體結(jié)果較為均衡。這是由于改進(jìn)算法中引入了關(guān)聯(lián)度調(diào)節(jié)參數(shù),使得分類準(zhǔn)確率的差距變小,引入了方差后,使得分布均勻性明顯增加。
表2 SVM和改進(jìn)關(guān)聯(lián)度算法分類結(jié)果對(duì)比
本文以電力數(shù)據(jù)安全分級(jí)策略研究為背景,基于物聯(lián)數(shù)據(jù)分級(jí)和報(bào)表分析模型構(gòu)建技術(shù)定義安全分級(jí)分類,形成電網(wǎng)數(shù)據(jù)安全詞根庫,結(jié)合自然語言處理分類分級(jí)算法,提出了混合特征分級(jí)算法,用于電力數(shù)據(jù)的安全分級(jí),基于詞頻參數(shù)的改進(jìn)特征項(xiàng)降維方法,降低文本分類的噪聲,并結(jié)合優(yōu)化的支持向量機(jī)模型,提高分類算法的準(zhǔn)確率,實(shí)現(xiàn)電力數(shù)據(jù)的自動(dòng)化和智能化安全定級(jí),通過對(duì)比實(shí)驗(yàn)證實(shí),本文提出的算法準(zhǔn)確率達(dá)到80%以上,與其他算法相比極大地提高了分類的準(zhǔn)確率,實(shí)現(xiàn)了對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行安全分級(jí)。