周 贛,茅 歡,馮燕鈞,華濟(jì)民,曾 瑛
(1.東南大學(xué)電氣工程學(xué)院,江蘇省 南京市 210096;2.國網(wǎng)江蘇省電力有限公司無錫供電分公司,江蘇省 無錫市 214000;3.廣東電網(wǎng)有限責(zé)任公司,廣東省 廣州市 510600)
低壓臺區(qū)線損因在電網(wǎng)總損耗中占比較高而成為電力企業(yè)降損工作的重點[1]。正確的戶變關(guān)系一方面可以保證線損統(tǒng)計的準(zhǔn)確性和可參考性,另一方面為線損異常診斷工作的開展奠定基礎(chǔ),對線損治理具有重要意義。傳統(tǒng)方法大多依靠人工核查來獲取用戶與臺變的從屬關(guān)系,效率低下,且拓?fù)淙諠u復(fù)雜,人工核查難以為繼。近年來,隨著智能電表(smart meter,SM)的普及和高級量測體系(advanced metering infrastructure,AMI)的不斷完善,量測數(shù)據(jù)為臺區(qū)線損的精益化管理提供了全方位的支撐[2],依托這些數(shù)據(jù)進(jìn)行戶變關(guān)系識別,進(jìn)而探尋更為準(zhǔn)確的線損計算方法,已經(jīng)成為理論研究和實際應(yīng)用中的趨勢。
目前,用戶與臺變之間的電壓相關(guān)性分析是戶變關(guān)系識別的重要依據(jù),一些研究通過皮爾遜相關(guān)系數(shù)法[3-5]、灰色關(guān)聯(lián)度分析法[6-7]等方法對用戶與臺變的從屬關(guān)系進(jìn)行梳理,但其準(zhǔn)確性受限于數(shù)據(jù)預(yù)處理方式及人為設(shè)置的用以衡量電壓相似度高低的閾值。由于戶變關(guān)系識別實質(zhì)上是要解決分類問題,另一些研究將聚類算法引入其中,相比于直接進(jìn)行電壓相關(guān)性分析,聚類算法具有更強(qiáng)的泛化能力,且能更有效地提取系統(tǒng)特征從而完成分類任務(wù)。文獻(xiàn)[8]基于獨立成分分析(independent component analysis,ICA)技術(shù),以靜態(tài)數(shù)據(jù)表征臺區(qū)用戶電壓時序特征,隨后利用k-means 聚類得到正確的戶變關(guān)系。文獻(xiàn)[9]利用變壓器數(shù)目和各相出口電壓已知的天然優(yōu)勢選取k-means 算法的聚類個數(shù)以及聚類中心,同時引入相關(guān)系數(shù)重新定義相似度的評估標(biāo)準(zhǔn),從而提高識別準(zhǔn)確率。文獻(xiàn)[10]首先通過分段聚合近似(piecewise aggregate approximation,PAA)方法將電壓曲線分段并降維,隨后在引入一階導(dǎo)數(shù)與動態(tài)時間規(guī)整(dynamic time warping,DTW)的基礎(chǔ)上對k-means 算法加以改進(jìn),構(gòu)建低壓臺區(qū)相位辨識模型。文獻(xiàn)[11]通過t分布的隨機(jī)近 鄰 嵌 入(t-distributed stochastic neighbor embedding,t-SNE)方法實現(xiàn)臺區(qū)用戶電壓數(shù)據(jù)降維,然后基于層次結(jié)構(gòu)的平衡迭代歸約和聚類(balanced iterative reducing and clustering using hierarchies,BIRCH)對用戶相位及接入表箱進(jìn)行辨識。文獻(xiàn)[12]基于加速動態(tài)時間規(guī)整(fast dynamic time warping,F(xiàn)ast DTW)算法進(jìn)行配變低壓側(cè)與用戶側(cè)電壓曲線的相似性分析,然后采用基于融合自組織特征映射(self-organizing feature mapping,SOM)神經(jīng)網(wǎng)絡(luò)和k-means 的兩階段聚類算法進(jìn)一步提升算法性能及計算效率。以上方法均在聚類前對數(shù)據(jù)進(jìn)行降維處理,在保留了電壓曲線主要特征的前提下,避免了長時間尺度數(shù)據(jù)帶來的計算復(fù)雜、耗時嚴(yán)重的問題,提升了戶變關(guān)系識別的效率。然而,當(dāng)采集到的電壓序列存在一定程度的數(shù)據(jù)缺失時,以上方法均需增設(shè)數(shù)據(jù)預(yù)處理環(huán)節(jié),降低了求解效率,且最終戶變關(guān)系識別的準(zhǔn)確性極大地依賴于預(yù)處理效果的好壞,存在一定的局限。因此,尋求一種更為簡單高效的電壓曲線相似性特征提取方法,成為提升臺區(qū)戶變關(guān)系識別模型性能的關(guān)鍵。
本文提出了一種基于多特征符號聚合近似(multi-feature symbolic aggregate approximation,MF-SAX)和層次聚類的戶變關(guān)系識別方法。首先,對傳統(tǒng)的時間序列符號聚合近似(symbolic aggregate approximation,SAX)方法加以改進(jìn),不僅以符號化表達(dá)的方法來提升計算效率,還引入電壓波動系數(shù)及變化趨勢以便更好地提取電壓曲線的動態(tài)特征;然后,采用編輯距離度量表征不同用戶電壓曲線字符串間的相似度,并結(jié)合層次聚類算法分析實際的戶變關(guān)系,篩選出異常用戶。實際算例結(jié)果表明,本文所提戶變關(guān)系識別方法相比于現(xiàn)有方法準(zhǔn)確率更高,誤報更少,且當(dāng)電壓數(shù)據(jù)存在一定程度的缺失時無須增設(shè)插值預(yù)處理環(huán)節(jié),具有更高的求解效率。
錯誤的戶變關(guān)系主要發(fā)生在同一供電片區(qū)或者相鄰的供電片區(qū),即給某個小區(qū)、街道或農(nóng)村供電的幾個鄰近變壓器及終端用戶。本文對這一問題展開研究,在臺區(qū)數(shù)目已知的片區(qū)內(nèi)對用戶和變壓器的從屬關(guān)系進(jìn)行梳理。
配電網(wǎng)中的節(jié)點電壓曲線主要有以下特性[13]:網(wǎng)絡(luò)中同一個分支或者同一個配電變壓器下的負(fù)載一般具有相似的電壓曲線;負(fù)載之間的電氣距離越近,其電壓曲線的相似性越高?,F(xiàn)分別從兩個實際臺區(qū)中隨機(jī)抽取5 個用戶的96 點日電壓曲線,對上述相似度特性進(jìn)行驗證,采用式(1)計算電壓序列X={X1,X2,…,Xs,…,Xn} 與Y={Y1,Y2,…,Ys,…,Yn} 之間的皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient,PCC)C:
式中:n為電壓序列的長度;Xs、Ys分別為序列X、Y中第s個電壓的數(shù)值分別為序列X、Y的均值。
相關(guān)性熱力圖如圖1 所示。圖中:用戶1 至5 來自臺區(qū)1,用戶6 至10 來自臺區(qū)2。
圖1 兩臺區(qū)用戶電壓曲線的相關(guān)性分析Fig.1 Correlation analysis of user voltage curves for two station areas
同一臺區(qū)中用戶的電氣距離相對更近,其電壓序列的相關(guān)性也會相應(yīng)更高,而不同臺區(qū)用戶電壓的PCC 值則會低于同一臺區(qū)用戶電壓的PCC 值,反映在圖1 中明顯的色塊差異上。由此可見,根據(jù)用戶電壓曲線的相似度差異進(jìn)行臺區(qū)戶變關(guān)系識別具有一定的可行性。然而,當(dāng)測試樣本中的用戶用電行為相似、電壓波形接近時,僅以相似度差異作為判據(jù)顯然是不可取的,需要探尋一種更為有效的戶變關(guān)系識別方法。
2.1.1 時間序列符號聚合近似方法
近年來,時間序列分析頗受歡迎,在實際應(yīng)用中為了實現(xiàn)海量數(shù)據(jù)的快速分析,往往需要對長時間尺度下的數(shù)據(jù)進(jìn)行降維處理。Keogh 等人提出了PAA 方法,將原始序列分割為若干條子序列,并利用分段均值表征各子序列的數(shù)值狀況,相比于不做降維處理,在索引能力和計算速度上都取得了較大提升[14]。基于此,Lin 等人提出了SAX 方法,將分段均值映射到等概率區(qū)間,實現(xiàn)了高維連續(xù)數(shù)值到低維離散字符的轉(zhuǎn)換,符號化表達(dá)在兼顧時間效率的同時大大提升了空間效率,在聚類、異常檢測、可視化等數(shù)據(jù)挖掘任務(wù)中也表現(xiàn)出了更為優(yōu)異的性能[15]。然而,降維處理難免會導(dǎo)致局部細(xì)節(jié)的丟失,可以引入附加參數(shù),對時間序列的特征信息加以補(bǔ)充。常見的特征參數(shù)包括波動系數(shù)、變化趨勢、峰度、偏度、自相關(guān)系數(shù)、峰峰值等,本文依托大量實驗來評估這些特征參數(shù)對SAX 方法性能的提升效果。實驗結(jié)果表明,相比于引入其他特征參數(shù),引入波動系數(shù)和變化趨勢其中之一便能夠很好地區(qū)分不同用戶的電壓曲線,從而提升戶變關(guān)系識別的準(zhǔn)確率;而相比于引入單一特征參數(shù),同時引入這兩個特征參數(shù)能夠從數(shù)據(jù)分布和動態(tài)變化兩個不同的角度對電壓曲線進(jìn)行刻畫,使算法能夠出色地應(yīng)對含有相似電壓曲線的復(fù)雜情況。因此,本文將電壓波動系數(shù)和電壓變化趨勢這兩個附加參數(shù)引入傳統(tǒng)SAX 方法中,提出了MF-SAX 方法,進(jìn)一步加強(qiáng)了用戶電壓曲線的特征表達(dá),為后續(xù)的戶變關(guān)系識別模型提供了更為顯著的特征輸入。
2.1.2 附加參數(shù)的引入
1)電壓波動系數(shù)
標(biāo)準(zhǔn)差反映了一組數(shù)據(jù)的離散程度,將電壓檢測值的標(biāo)準(zhǔn)差作為評價指標(biāo)能夠有效量化一段時間內(nèi)配電網(wǎng)節(jié)點電壓的波動情況[16]。各分段內(nèi)的電壓標(biāo)準(zhǔn)差可由式(2)計算得到:
式中:S為分段電壓波動系數(shù);d為該分段內(nèi)的電壓觀測總數(shù);Ug為該分段內(nèi)的第g個電壓觀測值為分段電壓均值。
2)電壓變化趨勢
曼肯德爾(Mann-Kendall,MK)法是一種對樣本數(shù)據(jù)分布無特定要求的非參數(shù)檢驗方法,既能有效分析時序數(shù)據(jù)的變化趨勢,又能克服序列中存在的少量異?;蛉笔е蹈蓴_。基于MK 趨勢校驗實現(xiàn)分段序列中電壓動態(tài)變化趨勢的符號化表達(dá)的步驟如下[17]。
步驟1:假設(shè)條件H0表示時間序列中樣本點獨立同分布,無相應(yīng)的變化趨勢。對于長度為m的用戶電壓子序列x={x1,x2,…,xp,…,xq,…,xm},由式(3)計算檢驗統(tǒng)計量R。
式中:xp和xq分別為序列x中第p個和第q個元素的值;sgn(?)為符號函數(shù)。
步驟2:對于含有大量數(shù)據(jù)的樣本,R服從正態(tài)分布,通過式(5)計算方差V(R)[18]。
步驟3:檢驗統(tǒng)計量Z滿足式(6)。
在顯著性水平α下進(jìn)行雙邊趨勢檢驗,當(dāng)標(biāo)準(zhǔn)正態(tài)分布曲線左端與橫軸所圍面積為τ=1-α/2時,將對應(yīng)位置處的橫坐標(biāo)記為Zτ。對于計算得出的檢驗統(tǒng)計量Z,若|Z|≥|Zτ|,則認(rèn)為原假設(shè)H0不可接受,電壓序列分段存在顯著的變化趨勢,Z>0時呈上升趨勢,Z<0 時呈下降趨勢;若|Z|<|Zτ|,則認(rèn)為原假設(shè)H0是可接受的,電壓序列分段呈平穩(wěn)趨勢[19]。本文給定顯著性水平α=0.05,上升、平穩(wěn)、下降趨勢分別用符號I、S、D 表示。
2.1.3 基于MF-SAX 的電壓曲線特征提取
1)大規(guī)模的樣本數(shù)據(jù)集通常服從正態(tài)分布[20],因而在較長時間尺度下提取長度為z的電壓序列u={u1,u2,…,uh,…,uz},并對其進(jìn)行Z-Score 標(biāo)準(zhǔn)化處理,便能得到服從標(biāo)準(zhǔn)正態(tài)分布的新序列u′={u′1,u′2,…,u′h,…,u′z},如式(7)所示:
式中:uh為原始電壓序列中的第h個值;u′h為新電壓序列中的第h個值;為原始電壓序列的均值;σ為原始電壓序列的標(biāo)準(zhǔn)差。
2)使用PAA 方法對u′進(jìn)行處理,得到k個分段區(qū)間及第t個分段對應(yīng)的電壓均值Pt,1(t=1,2,…,k),計算各個分段內(nèi)的電壓波動系數(shù)Pt,2以及電壓變化趨勢Pt,3。對于電壓曲線存在的少量缺失值,本方法直接以“-”表示,定義電壓數(shù)據(jù)壓縮率為z/k。
3)將電壓均值及波動系數(shù)由數(shù)值映射為符號。在標(biāo)準(zhǔn)正態(tài)分布曲線上設(shè)置A-1 個斷點,使之滿足相鄰兩個斷點所對應(yīng)的概率值的相對間隔為1/A。在坐標(biāo)平面上A-1 個斷點的高度處進(jìn)行水平切割,劃分出A個等概率區(qū)間,分別對應(yīng)于a、b、c等符號。當(dāng)A的取值從3 變化到6 時,相應(yīng)的斷點序列B={B1,B2,…,BA-1} 如表1 所示。表中:BA-1為第A-1 個斷點值。
表1 不同符號集的斷點劃分情況Table 1 Breakpoint division for different symbol sets
得到斷點序列后,便可實現(xiàn)電壓均值及波動系數(shù)的符號化轉(zhuǎn)換:將所有小于B1的數(shù)值映射為符號a,將所有大于等于B1且小于B2的數(shù)值映射為符號b,依此類推。
4)符號融合,以字符串表征電壓序列,u′最終轉(zhuǎn)化為{P1,1,P1,2,P1,3,P2,1,P2,2,P2,3,…,Pk,1,Pk,2,Pk,3}。當(dāng)符號數(shù)目取為5 且分段數(shù)目設(shè)置為6 時,某用戶的日96 點電壓曲線及其符號化表達(dá)生成過程如附錄A 圖A1 所示。
經(jīng)MF-SAX 處理后,各待檢測用戶的電壓曲線從連續(xù)數(shù)值轉(zhuǎn)換為離散字符串,相應(yīng)地便能以文本處理或數(shù)據(jù)結(jié)構(gòu)應(yīng)用等多元化的形式進(jìn)行后續(xù)的數(shù)據(jù)處理。本文采用編輯距離[21](edit distance,ED)度量表征各用戶電壓曲線的字符串間相似度,其生成原理簡單、可解釋性強(qiáng),因而逐漸成為自然語言處理領(lǐng)域中最為經(jīng)典的文本匹配方法之一。兩個連續(xù)非空字符串F與G之間的編輯距離可由下式計算得到:
式中:EF,G(i,j)為字符串F中的前i個字符與字符串G中的前j個字符之間的編輯距離;Fi為字符串F中的第i個字符;Gj為字符串G中的第j個字符;e為EF,G(i-1,j)、EF,G(i,j-1)、EF,G(i-1,j-1)三者中的最小值,分別對應(yīng)于刪除Fi、插入Gj以及將Fi替換為Gj這三種操作[22]。
以某兩個實際用戶對應(yīng)的字符串片段為例,編輯距離矩陣的生成過程如附錄A 圖A2 所示。
針對上述基于編輯距離生成的用戶電壓曲線相似性矩陣,采用層次聚類(hierarchical clustering,HC)算法進(jìn)一步實現(xiàn)戶變關(guān)系的識別。層次聚類是一種基于指定相似性度量準(zhǔn)則構(gòu)建嵌套聚類樹的無監(jiān)督學(xué)習(xí)方法,通過樹狀圖對聚類結(jié)果進(jìn)行可視化展示,由于操作靈活并且可以直觀地展現(xiàn)類間層次關(guān)系而受到語義圖像處理[23-24]等諸多研究領(lǐng)域?qū)W者的關(guān)注??紤]到相鄰臺區(qū)之間更容易產(chǎn)生戶變關(guān)系錯誤匹配的問題[6],所以首先根據(jù)地理信息系統(tǒng)(GIS)記錄將距離相近的臺區(qū)進(jìn)行“捆綁”生成相鄰臺區(qū)集,再在該集合下開展戶變關(guān)系梳理工作。圖2 描述了基于MF-SAX 和層次聚類的戶變關(guān)系識別算法流程。
圖2 戶變關(guān)系識別流程圖Fig.2 Flow chart of user-transformer relationship identification
1)用戶電壓矩陣構(gòu)建:獲取同一相鄰臺區(qū)集合下各用戶的96 點電壓數(shù)據(jù),建立包含所有待檢測用戶的電壓矩陣U0,如式(9)所示。
式中:Ua,b,c為用戶c在第a天的第b個采樣點處的電壓值;M為待檢測臺區(qū)的用戶總數(shù);N為采樣的時間跨度。
2)距離矩陣初始化:將每個用戶劃分為一個單獨的簇,并以T1表示第1 個用戶簇,以T2表示第2 個用戶簇,依此類推,得到待檢測用戶初始簇集合T0={T1,T2,…,TM},隨后令用戶簇集合T=T0,基于編輯距離的計算方法,獲取電壓曲線初始距離矩陣DM。
式中:Ev,w為用戶v和用戶w電壓字符串之間的編輯距離。
3)用戶簇合并:將用戶簇集合T中距離最近的兩個簇Tv和Tw合并為一個新簇Tvw,得到新的用戶簇集合,即此時T從{T1,T2,…,Tv,…,Tw,…,TM}變?yōu)閧T1,T2,…,TM,Tvw}。
4)距離更新:計算Tvw和T中其他用戶簇之間的距離,并更新距離矩陣。
5)重復(fù)步驟3)和步驟4),當(dāng)所有用戶聚為一類時,停止循環(huán)。
6)在包含距離信息的樹狀圖中進(jìn)行水平切割,使上半平面的分支數(shù)等于所需的類別數(shù)量,從而得到聚類結(jié)果。
7)將HC 模塊生成的聚類結(jié)果與原始系統(tǒng)拓?fù)錂n案進(jìn)行對比,篩選出戶變關(guān)系異常的用戶。
從江蘇省南京市某小區(qū)下的兩個相鄰臺區(qū)中截取17 個表箱對應(yīng)的同相電壓曲線片段,構(gòu)建測試樣本,對SAX 不壓縮、SAX 壓縮、MF-SAX 相同壓縮率三種方法進(jìn)行錯誤識別數(shù)量和計算時間的對比分析。
實驗在Windows 10 操作系統(tǒng)的Pycharm(基于Python 3.7)環(huán)境下進(jìn)行,硬件配置為1.80 GHz Intel Core i5-5350U CPU。17 個表箱的電壓曲線片段如圖3 所示。圖中:1 至14 號表箱隸屬于臺區(qū)1,記為正常用戶,15 至17 號表箱隸屬于臺區(qū)2,記為異常用戶。
圖3 電壓曲線示意圖Fig.3 Schematic diagram of voltage curves
在實驗過程中將符號數(shù)目設(shè)置為5,將壓縮率設(shè)置為20。SAX 不壓縮、SAX 壓縮與MF-SAX 相同壓縮率三種方法生成的用戶電壓編輯距離矩陣熱力圖如圖4 所示。圖中:色塊顏色越深,表示用戶電壓曲線的相似度越低。
圖4 三種方法生成的用戶電壓距離矩陣對比Fig.4 Comparison of user voltage distance matrices generated by three methods
分析圖4 可知,SAX 壓縮方法生成的熱力圖并不符合臺區(qū)內(nèi)部顏色淺、臺區(qū)之間顏色深的規(guī)律。SAX 不壓縮方法生成的熱力圖雖然基本符合這一規(guī)律,但是臺區(qū)內(nèi)外的顏色深淺對比不夠強(qiáng)烈。相比之下,本文提出的MF-SAX 方法能夠有區(qū)分度地體現(xiàn)不同臺區(qū)之間用戶電壓曲線的差異,熱力圖中第15 至17 行和列的顏色明顯深于左上角和右下角的正方形區(qū)域,表明正常用戶和異常用戶已經(jīng)能夠被區(qū)分開來。
表2 給出了三種方法的錯誤識別數(shù)量和計算時間。使用傳統(tǒng)SAX 方法時,無論是否進(jìn)行壓縮處理,都發(fā)生了誤報(將戶變關(guān)系正常的用戶識別為異常),說明當(dāng)相鄰臺區(qū)之間的用戶電壓曲線較為相似時,僅僅依靠分段內(nèi)的電壓均值并不能有效地區(qū)分隸屬于這些臺區(qū)的用戶。而MF-SAX 方法引入了電壓波動系數(shù)和電壓變化趨勢這兩個附加參數(shù),使每一個分段內(nèi)提取到的電壓特征得到補(bǔ)充,更為全面地凸顯了用戶電壓曲線之間的動態(tài)差異,提升了戶變關(guān)系識別的效果。表2 結(jié)果表明,MF-SAX 方法既能將臺區(qū)2 中混入的3 個異常用戶全部篩選出來,又不存在誤報的情況,戶變關(guān)系識別結(jié)果完全正確,可見其實用性和有效性。
表2 三種方法的識別效果對比Table 2 Comparison of identification effect of three methods
此外,MF-SAX 方法的另一優(yōu)勢在于通過壓縮處理來減少計算時間。分析表2 可知,當(dāng)壓縮率相同時,MF-SAX 方法與SAX 方法的計算時間非常接近,均明顯少于SAX 不壓縮方法,說明壓縮處理能夠加快方法的求解速度,提升求解效率。
選擇江蘇省南京市某個具有正確拓?fù)錂n案的小區(qū),對MF-SAX+HC 模型在戶變關(guān)系梳理場景中的效果進(jìn)行驗證。該小區(qū)已知共有4 個臺區(qū),經(jīng)現(xiàn)場梳理及歷史線損統(tǒng)計分析后確認(rèn)分別包含37、83、97、65 個用戶。以4 個臺區(qū)的用戶電壓數(shù)據(jù)及變壓器低壓側(cè)電壓數(shù)據(jù)混合構(gòu)建測試樣本,完整數(shù)據(jù)集為臺區(qū)歷史數(shù)據(jù)中采集率為100%的96 點電壓數(shù)據(jù),時間長度為7 天。數(shù)據(jù)組成方式如表3 所示。
表3 測試算例的數(shù)據(jù)組成Table 3 Data composition of test example
為了評估模型性能,采用準(zhǔn)確率(accuracy)fACC、標(biāo)準(zhǔn)化互信息(normalized mutual information)fNMI[25]和FMI(Fowlkes-Mallows index)fFMI作為評價指標(biāo)。
fACC反映了識別正確的用戶數(shù)在總用戶數(shù)中的占比,用于評價戶變關(guān)系識別模型的整體準(zhǔn)確程度。
式中:y為待檢測的用戶總數(shù);為聚類結(jié)果中第r個用戶的類別標(biāo)簽,一般用數(shù)字表示;Lr為第r個用戶的實際類別標(biāo)簽;δ(·,·)為判別函數(shù),當(dāng)兩個自變量相等時取值為1,否則取值為0;ρ()為置換映射函數(shù),將由數(shù)字映射為與Lr同名的標(biāo)簽。
fNMI是一種衡量兩個序列數(shù)據(jù)分布相關(guān)性的評價指標(biāo),反映了聚類質(zhì)量的好壞。
式中:J為實際類別數(shù)目;K為聚類產(chǎn)生的類別數(shù)目;yλ為實際分類中第λ個類別所包含的用戶數(shù)目;yμ為聚類結(jié)果中第μ個類別所包含的用戶數(shù)目;yλ,μ為上述兩個類別的交集所包含的用戶數(shù)目。
通過對比用戶聚類輸出結(jié)果與臺區(qū)營銷檔案,可將戶變關(guān)系模型的識別結(jié)果分為真陽性(true positive,TP)、假陽性(false positive,F(xiàn)P)、真陰性(true negative,TN)、假陰性(false negative,F(xiàn)N)4 種情況,對應(yīng)的樣本數(shù)量分別記為WTP、WFP、WTN、WFN,則fFMI計算如下:
選擇SAX+HC 方法、Pearson 相關(guān)系數(shù)識別法[3]、PAA+DTW-AP[26-27]方法以及t-SNE+BIRCH[11]方法,與本文所提MF-SAX+HC 方法進(jìn)行對比。在MF-SAX+HC 方法以及SAX+HC 方法中,將壓縮率設(shè)置為22,將符號數(shù)目設(shè)置為5;Pearson 相關(guān)系數(shù)識別法設(shè)置相關(guān)性判別閾值為0.8;對于PAA+DTW-AP 方法,將壓縮率同樣設(shè)置為22;t-SNE+BIRCH 方法經(jīng)過參數(shù)優(yōu)化,最終將t-SNE 實現(xiàn)的空間維度設(shè)置為3。
對于本文所提MF-SAX+HC 模型以及其余對比模型,分別考察其在完整數(shù)據(jù)集下的表現(xiàn)以及處理數(shù)據(jù)缺失問題的能力。完整數(shù)據(jù)集下各模型的性能對比結(jié)果如表4 所示。
表4 完整數(shù)據(jù)集下各模型的性能對比Table 4 Performance comparison of models with complete data set
采用MF-SAX+HC 模型進(jìn)行戶變關(guān)系識別時,HC 模塊生成的樹狀圖見附錄A 圖A3,橫坐標(biāo)為用戶/變壓器編號,由于空間限制,不再進(jìn)行展示。在自下而上的聚類過程中,用戶根據(jù)距離遠(yuǎn)近逐層匯聚成簇。初始階段各個用戶自成一簇,隨著簇與簇不斷合并,最終所有用戶聚為一簇。隨后在樹狀圖中進(jìn)行水平切割,已知測試樣本包含4 個臺區(qū),因而選擇合適的切割高度,使其恰好被劃分為4 類,切割分類過程以圖A3 中的水平虛線表示。
隨后模擬數(shù)據(jù)缺失的情況。以完整數(shù)據(jù)集為基礎(chǔ),隨機(jī)選取其中2%的數(shù)據(jù)并將其置為空值,得到缺失率為2%的樣本數(shù)據(jù)。考慮到除符號化表達(dá)方法外其余各方法均無法直接應(yīng)對數(shù)據(jù)缺失問題,在使用前均先采用最近鄰插值作為電壓數(shù)據(jù)缺失值的填補(bǔ)。各模型的參數(shù)設(shè)置與處理完整數(shù)據(jù)集時保持一致,其性能對比結(jié)果如表5 所示。
表5 數(shù)據(jù)缺失時各模型的性能對比Table 5 Performance comparison of models with data missing
綜合分析戶變關(guān)系識別結(jié)果與表中的性能指標(biāo),得到如下結(jié)論:1)相比于傳統(tǒng)SAX 方法,MFSAX 方法通過引入電壓波動系數(shù)和電壓變化趨勢這兩個附加參數(shù),強(qiáng)化了用戶電壓曲線的特征表達(dá),綜合利用了用戶電壓數(shù)據(jù)的靜態(tài)數(shù)值特征和動態(tài)變化特征,提高了戶變關(guān)系識別的準(zhǔn)確率;2)在處理數(shù)據(jù)缺失問題時,符號化表達(dá)方法可以直接將樣本數(shù)據(jù)代入求解,而其余各方法在使用前必須先進(jìn)行插值預(yù)處理,導(dǎo)致工作量增加、求解效率降低;3)無論樣本數(shù)據(jù)是完整還是缺失,MF-SAX+HC 模型的各項性能指標(biāo)都明顯優(yōu)于其余對比模型,可見其不僅在完整數(shù)據(jù)集下具有出色的表現(xiàn),在處理數(shù)據(jù)缺失問題時也能夠很好地保證識別準(zhǔn)確率。
本文提出了一種基于MF-SAX 和層次聚類的戶變關(guān)系識別方法。首先,闡述了基于用戶電壓曲線的戶變關(guān)系識別原理;然后,通過引入電壓波動系數(shù)和電壓變化趨勢兩個附加參數(shù)來改進(jìn)只以均值為變量的傳統(tǒng)SAX 符號化表達(dá)方法;最后,提出了基于MF-SAX 和層次聚類的臺區(qū)戶變關(guān)系識別流程。算例結(jié)果表明,本文所提MF-SAX+HC 方法在充分挖掘了用戶電壓曲線蘊(yùn)含的靜態(tài)與動態(tài)特征信息之后,相比于現(xiàn)有方法準(zhǔn)確率更高,誤報更少,且在使用前無須預(yù)先進(jìn)行用戶電壓數(shù)據(jù)的缺失值的填補(bǔ),具有更高的求解效率。
然而,本文所提戶變關(guān)系識別方法仍存在一定的局限性:一方面,研究過程中采用的數(shù)據(jù)主要來自信息采集成功率高且量測設(shè)備齊全的新臺區(qū),而缺乏對設(shè)備條件相對較差的老舊臺區(qū)的研究;另一方面,壓縮率的選取會對識別結(jié)果產(chǎn)生一定的影響,雖然可以依據(jù)經(jīng)驗來大致確定取值范圍,但要獲得最優(yōu)解還需進(jìn)行人工調(diào)節(jié)。未來,將針對以上兩點對所提方法做出改進(jìn)和完善。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。