張嵐, 王獻(xiàn)軍, 程勇
(1.國(guó)網(wǎng)河南省電力公司營(yíng)銷服務(wù)中心,河南 鄭州 456000;2.國(guó)網(wǎng)陜西省電力公司,陜西 西安 710000)
電力的數(shù)據(jù)安全是智能電網(wǎng)建設(shè)和運(yùn)行過(guò)程中電網(wǎng)隱私保護(hù)的重要內(nèi)容。保障智能電力數(shù)據(jù)傳輸安全,需對(duì)數(shù)據(jù)傳輸過(guò)程中隱私泄露風(fēng)險(xiǎn)實(shí)行防御,保證數(shù)據(jù)傳輸過(guò)程中的機(jī)密性、傳輸后的完整性,避免數(shù)據(jù)發(fā)生缺失和泄露問(wèn)題,保護(hù)智能電網(wǎng)數(shù)據(jù)隱私安全[1-3]。
當(dāng)下智能電表隱私保護(hù)和用電數(shù)據(jù)隱私保護(hù)是兩種應(yīng)用較為普遍的隱私保護(hù)方法,其中用戶對(duì)前者的應(yīng)用滿意度較低,后者則是當(dāng)下重點(diǎn)研究和應(yīng)用的方法。針對(duì)提升數(shù)據(jù)隱私保護(hù)的效果,陳智雨和陳思光等人,各自通過(guò)量子密鑰[4]和多級(jí)云霧理論[5],設(shè)計(jì)保護(hù)模型完成電力數(shù)據(jù)隱私保護(hù)。但是由于這些模型不具備數(shù)據(jù)屬性特征選取,無(wú)法根據(jù)數(shù)據(jù)屬性特征判斷數(shù)據(jù)的重要程度,因此,無(wú)法完成數(shù)據(jù)篩選,統(tǒng)一完成數(shù)據(jù)加密導(dǎo)致模型完成數(shù)據(jù)通信的開銷較大,同時(shí)數(shù)據(jù)中無(wú)需加密的數(shù)據(jù)也被加密后,增加數(shù)據(jù)的處理步驟。為此,本文研究基于數(shù)據(jù)特征的電力數(shù)據(jù)隱私保護(hù)模型,采用基于最大信息系數(shù)分類模型,完成電力數(shù)據(jù)屬性特征分類,依據(jù)數(shù)據(jù)屬性特征,通過(guò)差分隱私的數(shù)據(jù)匿名隱私保護(hù)模型完成隱私保護(hù)。
最大信息系數(shù)特征分類模型(feature classification model based on maximum information coefficient, MICFC)主要用于原始數(shù)據(jù)集的分類。將4種隱私級(jí)別依次分別命名為1~4級(jí),以隱私級(jí)別為基礎(chǔ)確定特征集,在1級(jí)和3級(jí)數(shù)據(jù)屬性中選取。剩余數(shù)據(jù)屬性為候選集,采用最大信息系數(shù)(MIC)對(duì)特征集和候選集實(shí)行處理,獲取兩者關(guān)聯(lián)性較高的特征數(shù)據(jù),用數(shù)據(jù)集表示,并作輸出[6]。為保證數(shù)據(jù)的高效處理,僅對(duì)隱私屬性實(shí)行保護(hù)。模型的流程見圖1。
初始變量用求解獲取的最大MIC值表示為:
圖1 基于最大信息系數(shù)的數(shù)據(jù)屬性特征分類流程
(1)
式中:K為空集。
(2)
式中:p為設(shè)定的特征數(shù)量。輸出條件為獲取的特征數(shù)量滿足p,該獲取過(guò)程通過(guò)貪心算法完成,且輸出結(jié)果為H,并包含選定變量[7-9]。
1.2.1 模型相關(guān)定義
圖2 保護(hù)模型
本文保護(hù)模型從兩方面完成數(shù)據(jù)隱私保護(hù),分別為數(shù)據(jù)集隱私泄露和過(guò)程隱私泄露,結(jié)合兩方面的保護(hù)設(shè)計(jì)數(shù)據(jù)隱私保護(hù)模型[10],見圖2。
模型主要由兩個(gè)部分完成數(shù)據(jù)隱私保護(hù)。第一部分是實(shí)行數(shù)據(jù)的微聚集k-劃分,其采用平均矢量的最大距離(maximum distance to average vector, MDAV)算法完成,該部分主要目的是確定數(shù)據(jù)集中心點(diǎn),并采用屬于數(shù)據(jù)集的眾值表示;以該數(shù)據(jù)點(diǎn)為參照,選取距離其最遠(yuǎn)的距離為起點(diǎn)實(shí)行劃分處理,形成等價(jià)類,每個(gè)等價(jià)類中包含元組的數(shù)量為K;對(duì)該類實(shí)行定位后,將類中的敏感特征屬性用其替代。第二部分為隱私保護(hù),且通過(guò)差分隱私技術(shù)完成。對(duì)差分隱私實(shí)行定義:設(shè)有隨機(jī)算法M,其輸出構(gòu)成的全部可能的集合用PM表示;σM表示其任意子集;D和D′均表示近數(shù)據(jù)集,且兩者間相差的記錄不可超過(guò)1條。當(dāng)M符合式(3)時(shí),則表示M可完成ε-差分隱私保護(hù)。
PrM(D)∈SM≤exp(ε)×Pr[M(D′)∈SM]
(3)
式中:Pr·為隱私泄露的風(fēng)險(xiǎn),由M控制;ε為隱私保護(hù)預(yù)算,其可體現(xiàn)隱私保護(hù)的程度,且該保護(hù)僅由M提供。
加入噪聲,是完成差分保護(hù)的基礎(chǔ),選取拉普拉斯噪聲機(jī)制,0和b均為該機(jī)制的參數(shù),前者屬于標(biāo)記位置,后者屬于尺度,該機(jī)制分布用Lap(b)表示,則其密度函數(shù)計(jì)算公式為:
p(x)=b/2exp(-x/b)
(4)
1.2.2 模型實(shí)現(xiàn)
(5)
基于上述內(nèi)容可發(fā)現(xiàn),算法具備差分隱私保護(hù),可較大程度提升匿名數(shù)據(jù)集的安全性,算法的詳細(xì)步驟如下所述:
輸入:數(shù)據(jù)集H。
輸出:隱私保護(hù)匿名數(shù)據(jù)集。
(1) 求解相異度矩陣A,且屬于同質(zhì)性測(cè)度,并位于類中,n為元組數(shù)量。
(2) 求解數(shù)據(jù)集中心a,且依據(jù)A完成,確定與其距離最遠(yuǎn)的點(diǎn)r,并用其描述max{d(a,b)}中的b點(diǎn),以r為基準(zhǔn),確定距離其最遠(yuǎn)的點(diǎn)s,并用其描述max{d(b,c)中}的c點(diǎn)。其中,距離計(jì)算公式為:
(6)
式中:X、Y為向量;Xi、Yi為第i個(gè)特征屬性。
(3) 分別以r和s為中心,確定分別距離兩者距離最近的點(diǎn),且數(shù)量為k-1,將其組成等價(jià)類。
(4) 如果n>2k,返回(1);如果k (7) (6) 求解類質(zhì)心,將其代替其他值: (8) (7) 輸出H′實(shí)現(xiàn)整個(gè)數(shù)據(jù)集的差分隱私保護(hù)。 選取某電力公司某地區(qū)的智能電網(wǎng)6個(gè)月的用電數(shù)據(jù)集,并將Adult數(shù)據(jù)集加入其中,將結(jié)合后的數(shù)據(jù)集作為測(cè)試對(duì)象。 圖3 參數(shù)測(cè)試結(jié)果 不同ε取值下的損失率結(jié)果見圖3。分析圖3測(cè)試結(jié)果可得:數(shù)據(jù)的輸出損失率在ε取值不斷增加的情況下呈不斷降低趨勢(shì)。其取值在<0.03時(shí),損失率均在9%以上;當(dāng)該取值>0.04以后,損失率顯著降低,低于5%,并且該取值越接近0.1則損失率越接近0。結(jié)合期望標(biāo)準(zhǔn),則確定ε取值范圍為0.04~0.1,并用于后續(xù)試驗(yàn)中。 模型性能測(cè)試包含兩個(gè)方面,分別是數(shù)據(jù)屬性特征選取性能和微聚集性能測(cè)試。前者通過(guò)保留的數(shù)據(jù)屬性特征數(shù)量和均方根誤差衡量,后者通過(guò)F-Measure(綜合評(píng)價(jià)指標(biāo))衡量,測(cè)試結(jié)果分別見表1和圖4。分析圖4測(cè)試結(jié)果可得:當(dāng)ε取值在0.04~0.1時(shí),隨著該取值的增加,保留的數(shù)據(jù)屬性特征數(shù)量逐漸增加,均方根誤差則逐漸減小,并且F-Measure的取值也隨著ε取值的增加而增加,該結(jié)果與圖3的測(cè)試結(jié)果相符合,表明本文模型在運(yùn)算過(guò)程中,具備良好的運(yùn)算性能。 表1 數(shù)據(jù)屬性特征選取性能測(cè)試結(jié)果 圖4 模型微聚集性能測(cè)試結(jié)果 為分析本文模型對(duì)于發(fā)布數(shù)據(jù)的隱私保護(hù)的私密性,采用引入記錄連接(record linkages, RL)作為衡量標(biāo)準(zhǔn),判斷本文模型的隱私性。RL是指模型從匿名數(shù)據(jù)集中完成原始數(shù)據(jù)匹配的正確率,將文獻(xiàn)[4]和文獻(xiàn)[5]的基于量子密鑰和基于霧計(jì)算的保護(hù)模型作為文本模型的對(duì)比模型,用于完成相關(guān)測(cè)試,直觀衡量文本模型的優(yōu)劣。采用式(9)獲取三種模型的RL結(jié)果,該測(cè)試在兩種條件下完成,分別為不同屬性數(shù)量下和不同數(shù)據(jù)量大小下,結(jié)果見圖5。分析圖5測(cè)試結(jié)果可得:不同屬性數(shù)量下和不同數(shù)據(jù)量大小下,三種模型的RL結(jié)果整體均呈現(xiàn)上升趨勢(shì),但是文本模型的RL結(jié)果明顯低于兩種對(duì)比模型,分別在0.23和0.20以下,兩種對(duì)比模型均在0.25以上。因此,應(yīng)用本文模型保護(hù)后,數(shù)據(jù)的隱私性更高。 圖5 三種模型的隱私性對(duì)比結(jié)果 為避免發(fā)生隱私泄露和數(shù)據(jù)缺失,保護(hù)智能電網(wǎng)數(shù)據(jù)隱私安全,本文結(jié)合智能電力數(shù)據(jù)屬性特征,設(shè)計(jì)了基于數(shù)據(jù)特征的電力數(shù)據(jù)隱私保護(hù)模型。測(cè)試結(jié)果表明:該模型在合理的隱私保護(hù)預(yù)算范圍內(nèi),運(yùn)算性能良好,保護(hù)后數(shù)據(jù)RL值低于0.23,可較大程度保證數(shù)據(jù)的隱私性和可用性,降低數(shù)據(jù)損失率,應(yīng)用性較好。由此可知,本文在避免發(fā)生隱私泄露和數(shù)據(jù)缺失、保護(hù)智能電網(wǎng)數(shù)據(jù)隱私安全方面有著較大的優(yōu)勢(shì)和應(yīng)用前景。2 測(cè)試結(jié)果與分析
2.1 參數(shù)確定
2.2 模型性能測(cè)試
2.3 模型的隱私性測(cè)試
3 結(jié)束語(yǔ)