閆嵩琦
(國(guó)網(wǎng)陜西省電力公司 電力科學(xué)研究院, 西安 710000)
近年來,隨著智能電網(wǎng)建設(shè)力度的加大,產(chǎn)生了海量的用戶用電數(shù)據(jù)信息,這些數(shù)據(jù)可以通過數(shù)據(jù)挖掘的方法反映出電力用戶的用電習(xí)慣,從而給電網(wǎng)公司合理的制定供電計(jì)劃提供支撐,但是傳統(tǒng)的信息安全方法已不適用保障大數(shù)據(jù)時(shí)代數(shù)據(jù)的完整性,保密性,智能電網(wǎng)下的數(shù)據(jù)安全需要從全面進(jìn)行考慮,包括供電設(shè)備,配電系統(tǒng),數(shù)據(jù)采集系統(tǒng),服務(wù),管理等各個(gè)方面。所以,對(duì)智能電網(wǎng)數(shù)據(jù)挖掘及隱私保護(hù)進(jìn)行研究對(duì)我國(guó)電網(wǎng)智能化的進(jìn)程有重大意義[1-5]。
智能電網(wǎng)涉及了電力,控制,通信,計(jì)算機(jī)等領(lǐng)域,具有可靠性高,安全性高的特點(diǎn)。當(dāng)在電網(wǎng)中檢測(cè)到用戶有異常能量消耗的時(shí)候,表明用戶具有非日常用電活動(dòng),這就暴露了用戶的隱私[6-7]。在電網(wǎng)數(shù)據(jù)挖掘之前進(jìn)行隱私保護(hù)一方面可以保證數(shù)據(jù)挖掘的可靠性,另一方面又可以保護(hù)電力信息的隱私。
智能電網(wǎng)主要包括智能信息系統(tǒng),智能計(jì)量系統(tǒng),數(shù)據(jù)交易系統(tǒng)和智能服務(wù)系統(tǒng)[8]。智能計(jì)量系統(tǒng)指的是用戶用電信息的統(tǒng)計(jì),電網(wǎng)節(jié)點(diǎn)電壓電流的記錄等。智能信息系統(tǒng)用于電力系統(tǒng)中電力信息的采集,系統(tǒng)配置的功能[9]。智能服務(wù)系統(tǒng)用于為客戶提供業(yè)務(wù)更改及查詢等服務(wù)。數(shù)據(jù)交易系統(tǒng)用于實(shí)現(xiàn)數(shù)據(jù)信息的交換。
目前對(duì)于智能電網(wǎng)的隱私保護(hù)和數(shù)據(jù)挖掘的研究并不是很多,文獻(xiàn)[10]針對(duì)智能電網(wǎng)的大數(shù)據(jù)安全和隱私保護(hù)問題,提出了加法秘密共享方案,并在安全聚合協(xié)議下匯總電表數(shù)據(jù),該方法能夠使電力公司在不泄露客戶隱私信息的前提下提高服務(wù)質(zhì)量[10]。文獻(xiàn)[11]提出采用支持多屬性泛化的隨機(jī)化的隱私保護(hù)方法對(duì)電力數(shù)據(jù)進(jìn)行保護(hù),通過與傳統(tǒng)的MBF算法進(jìn)行對(duì)比,驗(yàn)證了所提方法隱私保護(hù)效率得到了大大提高[11]。
為了提高智能電網(wǎng)數(shù)據(jù)挖掘的效率并提高隱私保護(hù)性能,本文提出了采用熵差法對(duì)智能電網(wǎng)進(jìn)行信息挖掘,采用HP濾波正則化方法對(duì)電網(wǎng)數(shù)據(jù)進(jìn)行隱私保護(hù)。
在智能電網(wǎng)中,用戶的隱私主要表現(xiàn)為用電信息及用戶利益,智能電網(wǎng)的隱私維度一般包括以下四點(diǎn)[12-14]。
個(gè)人信息。個(gè)人信息包括身體,生理,住址,經(jīng)濟(jì)等各個(gè)方面,個(gè)人具有是否能讓其他人訪問個(gè)人信息的權(quán)利。
個(gè)人。指?jìng)€(gè)人的身體情況,健康情況等。
個(gè)人行為。通過個(gè)人的活動(dòng)總結(jié)的行為知識(shí)。
個(gè)人通信。指的是個(gè)人的通信受到相應(yīng)的保護(hù)。
在智能電網(wǎng)中,個(gè)人信息包含了智能電表采集到的用戶各種用電數(shù)據(jù),包括了用電的時(shí)間,總量等[15]。電力用戶具有這些數(shù)據(jù)信息使用情況的知情權(quán)。其他維度也會(huì)隨著智能電網(wǎng)的數(shù)據(jù)采集而被采集,但與傳統(tǒng)電網(wǎng)的其他維度信息一致,所以其他維度的信息也存在著安全隱患問題。所以智能電網(wǎng)與傳統(tǒng)電網(wǎng)在數(shù)據(jù)挖掘上的區(qū)別在于智能電網(wǎng)的數(shù)據(jù)挖掘能夠體現(xiàn)出用戶的行為習(xí)慣,且一定要經(jīng)過用戶允許才能對(duì)其進(jìn)行訪問。
本文提出了基于內(nèi)在模式和外在模式的熵差異常檢測(cè)算法。熵差法借鑒了關(guān)鍵詞檢測(cè)方法,認(rèn)為關(guān)鍵詞會(huì)按照聚簇的形式出現(xiàn),而普通詞均勻出現(xiàn)。熵差法在電力用戶異常行為中的應(yīng)用則認(rèn)為異常用電聚集在某一時(shí)間段,而平時(shí)為正常用電行為。采用熵差法時(shí),熵值越大則不確定性越大,反之則越小。從統(tǒng)計(jì)上來看,聚集的簇和平均分布的組具有各自的分布特性,我們稱之為內(nèi)在模式和外在模式。內(nèi)在模式體現(xiàn)了數(shù)據(jù)聚簇行為,外在模式表示聚簇消失的行為,兩者的差值反映了數(shù)據(jù)的分布情況。在智能電網(wǎng)中將用戶用電數(shù)據(jù)按時(shí)間戳進(jìn)行劃分,采用熵差法判別數(shù)據(jù)的聚類特性來確定異常點(diǎn)[16]。通常認(rèn)為電力用戶的用電情況是有規(guī)律的,當(dāng)出現(xiàn)聚簇行為時(shí)認(rèn)為是異常用電。求取過程如下所述。
1.數(shù)據(jù)量化。電力系統(tǒng)中采集上來的電力用戶數(shù)據(jù)都是以時(shí)間為基準(zhǔn)進(jìn)行排列的,為了求取電力系統(tǒng)數(shù)的熵差,將數(shù)據(jù)進(jìn)行空間劃分,原本按秒為單位的數(shù)據(jù)劃分成以分、小時(shí)為單位的數(shù)據(jù)。
2.求取熵差。對(duì)量化后的數(shù)據(jù)求取熵差,認(rèn)為熵差值小的為正常點(diǎn),熵差值較大的為異常點(diǎn)。假設(shè)某用電等級(jí)出現(xiàn)的位置為xi,求取過程表示為,假設(shè)平均距離為μ,則內(nèi)部熵和外部熵表示如式(1)~式(3)。
dI={di|di<μ}
(1)
dE={di|di>μ}
(2)
S=v∩λ
di=xi+1-xi
(3)
求取同一等級(jí)用電量前后距離d,其內(nèi)外熵表示如式(4)。
內(nèi)部熵:
(4)
其中,Pd是d在dI發(fā)生的可能性,如式(5)。
外部熵:
(5)
其中,Pd是d在dE發(fā)生的可能性。
內(nèi)部熵與外部熵的差值記作,如式(6)。
EDq(d)=(H(dI))q-(H(dE))q
(6)
對(duì)于日常非異常的用電等級(jí),則其值均勻分布且滿足如下條件,如式(7)。
P(d)=p(1-p)d-1
(7)
其中,p是用電等級(jí)出現(xiàn)的概率。對(duì)于服從幾何分布的用電等級(jí),熵差記為式(8)。
(8)
為了使均勻分布的用電等級(jí)得到穩(wěn)定的熵,采用式(9)。
(9)
然后求取小時(shí),分,秒的熵差異常點(diǎn)。并將不同等級(jí)的熵差結(jié)果進(jìn)行排序,熵差值越大認(rèn)為該點(diǎn)越有可能為異常值。
對(duì)電力用戶數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘之前,要保證用戶的隱私信息不被泄露,也不能改變數(shù)據(jù)的性質(zhì)。本文采用濾波器加正則的方法進(jìn)行數(shù)據(jù)隱私保護(hù)。
HP(High-Pass, HP)是基于時(shí)間序列的譜分析方法。將時(shí)間序列分成變化趨勢(shì)分量τt和循環(huán)分量ct[17],如式(10)。
yt=τt+ct,t=1,2,…,T
(10)
采用最小化原理,將ct從yt中隔離,如式(11)。
(11)
其中,λ為懲罰參數(shù)。為方便求解,將HP濾波問題表示為式(12)。
(12)
M分別對(duì)x1,x2,…,xn求導(dǎo),令導(dǎo)數(shù)為0,表示如式(13)。
X=[I+λF]-1Y
(13)
其中,I為單位矩陣,X為平滑后的數(shù)據(jù),F(xiàn)表示為式(14)。
(14)
目標(biāo)問題表示為式(15)。
(15)
S={x|?i,g(i)(x)=0 and ?j,h(i)(x)≤0}
(16)
g(i)(x)是等式約束,h(i)(x)為不等式約束。對(duì)式(16)采用拉格朗日方法,求取目標(biāo)函數(shù)f(x,y)與約束函數(shù)g(x,y)相切的點(diǎn),如式(17)。
(17)
構(gòu)造廣義拉格朗日函數(shù),λ和a為固定值,如式(18)。
(18)
式(16)一定存在x使h(j)(x)<0。式(16)對(duì)所有待求項(xiàng)進(jìn)行求導(dǎo),導(dǎo)數(shù)為0則為正則化成立條件。
在HP濾波的基礎(chǔ)上,引入正則化約束,建模過程如下所述。
1.將智能電網(wǎng)隱私保護(hù)問題轉(zhuǎn)化為最小化問題,如式(19)。
(19)
2.KKT求解時(shí)要求矩陣正定,式(19)重寫為式(20)。
(20)
K+F為正定矩陣。
3.用于電力用戶的用電特征較少,認(rèn)為用戶行為是主要特征。用戶的用電特征主要體現(xiàn)在,用電高峰,低谷。正則項(xiàng)約束的是用電數(shù)據(jù)的相似性,參數(shù)M為兩天用電數(shù)據(jù)的距離,如式(21)。
(21)
X和Xt-1是第t天用電數(shù)據(jù)與第t-1天用電數(shù)據(jù)。
4.求解M與單位矩陣I的距離,距離越小則越相似,如式(22)。
(22)
則最終優(yōu)化目標(biāo)表示為式(23)。
s.t.X≥0,M≥0
(23)
令Q=I+λ(F+K),則有式(24)、式(25)。
(24)
(25)
a,β是正則參數(shù),當(dāng)?shù)腦收斂認(rèn)為是隱私保護(hù)后的用電量。
為了驗(yàn)證本文所提的數(shù)據(jù)挖掘與隱私保護(hù)方法的可靠性,采用算例仿真,對(duì)其進(jìn)行性能驗(yàn)證。實(shí)驗(yàn)環(huán)境如表1所示。
表1 實(shí)驗(yàn)環(huán)境
用于測(cè)試的智能電網(wǎng)數(shù)據(jù)集采集于某電力公司,包含電流電壓等信息。用電數(shù)據(jù)主要為總體用電及用電器用電情況。
在對(duì)隱私數(shù)據(jù)進(jìn)行挖掘時(shí),還沒有統(tǒng)一的評(píng)判標(biāo)準(zhǔn),設(shè)數(shù)據(jù)集S,敏感數(shù)據(jù)為v,非敏感數(shù)據(jù)為λ,S=v∩λ。隱私測(cè)量指標(biāo)定義為,當(dāng)只給λ時(shí),能夠測(cè)量到隱私的可能性。分別采用標(biāo)準(zhǔn)差法,Z-Score C法,密度波動(dòng)法對(duì)電網(wǎng)數(shù)據(jù)等級(jí)進(jìn)行異常點(diǎn)挖掘并排序?qū)Ρ?。選用不同的λ值,驗(yàn)證其對(duì)電網(wǎng)數(shù)據(jù)隱私保護(hù)的性質(zhì)。
根據(jù)以上的設(shè)計(jì)方法,分別計(jì)算四種方法的隱私得分,并進(jìn)行量化處理,如圖1所示。
由于電網(wǎng)數(shù)據(jù)集較多且數(shù)據(jù)中包含著異常點(diǎn)和非異常點(diǎn)。本文提取第20 000-40 000的數(shù)據(jù),分別求取λ在不同值時(shí)的實(shí)驗(yàn)結(jié)果,如圖2-圖7所示。
圖1 隱私保護(hù)對(duì)比實(shí)驗(yàn)
圖2 原始數(shù)據(jù)
圖3 λ=0.01的實(shí)驗(yàn)結(jié)果
圖4 λ=0.05的實(shí)驗(yàn)結(jié)果
圖5 λ=0.1的實(shí)驗(yàn)結(jié)果
圖6 λ=0.5的實(shí)驗(yàn)結(jié)果
圖7 λ=1的實(shí)驗(yàn)結(jié)果
通過圖1的隱私保護(hù)對(duì)比實(shí)驗(yàn)可以看出,熵差法在檢測(cè)異常用電行為時(shí),相比于標(biāo)準(zhǔn)差法,Z-Score C法和密度波動(dòng)法均表現(xiàn)出了優(yōu)勢(shì)。在對(duì)某電網(wǎng)數(shù)據(jù)進(jìn)行測(cè)試時(shí),熵差法比標(biāo)準(zhǔn)差法提升了6.4,比Z-Score C提升了6.34,比密度波動(dòng)法提升了1.06。當(dāng)在電網(wǎng)數(shù)據(jù)隱私挖掘中找到的隱私數(shù)據(jù)越多,則越能為電網(wǎng)數(shù)據(jù)的隱私保護(hù)提供更高的保護(hù),表明本文提出的熵差法在隱私保護(hù)中具有一定的優(yōu)勢(shì)。由圖2-7所示可知,當(dāng)λ取值在[0.5,1]的時(shí)候,能夠更好的實(shí)現(xiàn)數(shù)據(jù)的保護(hù)功能,既能保護(hù)數(shù)據(jù)特征,又能實(shí)現(xiàn)與原始數(shù)據(jù)有很大的差異。
本文提出了基于熵差法的智能電網(wǎng)數(shù)據(jù)挖掘方法及基于HP濾波正則化的隱私保護(hù)方法,對(duì)其數(shù)學(xué)模型進(jìn)行了解析。通過熵差法的數(shù)據(jù)挖掘?qū)嶒?yàn)仿真,驗(yàn)證了熵差法比準(zhǔn)差法,Z-Score C法,密度波動(dòng)法具有更好的隱私挖掘效果,能夠更好的識(shí)別隱私數(shù)據(jù),為保障電網(wǎng)數(shù)據(jù)的隱私性提供了技術(shù)支持。采用HP濾波正則化方法對(duì)電網(wǎng)數(shù)據(jù)進(jìn)行隱私保護(hù),當(dāng)選擇合適的參數(shù)后,能夠?qū)崿F(xiàn)保證電網(wǎng)數(shù)據(jù)特征的前提下對(duì)電網(wǎng)數(shù)據(jù)進(jìn)行隱私保護(hù)。實(shí)驗(yàn)驗(yàn)證了本文所提方法的可靠性及實(shí)用性。