劉 敏,方義治,孫廷璽,何 偉,羅思琴,蘭雪珂,周念成*
(1.廣東電網有限責任公司珠海供電局 廣東 珠海 519000;2.重慶大學輸配電裝備及系統(tǒng)安全與新技術國家重點實驗室 重慶 沙坪壩區(qū) 400044)
高壓電纜具有高可靠性及不占用地面空間等優(yōu)勢,已廣泛應用于城市中的高壓配電網[1]。外部環(huán)境、運行工況以及外力等因素使得高壓電纜在運行過程中可能出現缺陷,進而逐漸演化成電網系統(tǒng)性故障,對電網的安全穩(wěn)定運行造成了潛在威脅[2]。因此,有必要研究高壓電纜缺陷識別技術,對高壓電纜的缺陷及時的檢修。
高壓電纜缺陷識別的研究主要集中于局部放電模式識別。文獻[3-5]分別研究了電纜接頭內部氣隙放電對絕緣劣化的影響,電纜接頭沿面放電嚴重程度的評估方法和利用2D-LPEWT 實現電纜局部放電缺陷識別。針對直流電纜的局部放電識別研究,文獻[6-8]分析提出了基于NSST 域增強、改進ECOC 分類器和壓縮感知的直流電纜局部放電識別方法。除了局部放電外,高壓電纜缺陷還存在諸多其他類型,比如外護套損傷、電纜接頭溫度異常[9]等。因此,必須進一步對高壓電纜缺陷識別進行深入研究。
隨著在線監(jiān)測系統(tǒng)的廣泛應用,高壓電纜已經積累了充足的數據,能夠應用于高壓電纜的缺陷識別。從數據挖掘的角度看,高壓電纜缺陷識別本質上是一個分類問題。神經網絡、支持向量機等方法具有良好的分類性能,已在設備故障診斷和模式識別等領域得到廣泛的應用,但是以上方法需要大量的樣本進行訓練,而且對未知類型的數據無法識別[10-11]。而支 持向量數據描述(support vector data description, SVDD)通過建立相同類別樣本的最小超球體模型,實現對測試樣本的二分類[12]。SVDD算法的低復雜性和良好的泛化能力使得其在工程領域的應用具有廣闊前景。文獻[13]通過對每類樣本獨立訓練,構建多個超球體,提出了多元支持向量描述(multi-support vector data description, MSVDD),實現了測試數據的多分類方法。然而,常規(guī)的SVDD算法對異常數據非常敏感[14],由此造成了常規(guī)的SVDD 算法分類準確度低。本文提出利用聚類法對測試樣本進行聚類和篩選處理,減少異常數據對訓練結果的影響,提高高壓電纜缺陷識別的準確性。常用的聚算法可分為層次聚類和基于劃分的聚類方法。層次聚類按照從上到下或者從下到上的策略,通過計算不同類別數據點間的相似度來創(chuàng)建一棵有層次的嵌套聚類樹[15]。由于層次聚類中,下層的結果會繼承到后續(xù)所有上層的聚類結果中,會影響整體聚類的準確性。文獻[16]以模糊C 均值聚類為代表的基于劃分的聚類方法,通過優(yōu)化目標函數得到每個樣本點對所有類中心的隸屬度,從而決定樣本點的類別,然而該方法依賴于人為給定聚類中心數量,聚類中心過少無法反映數據內在特征,聚類中心過多影響求解的效率。競爭凝聚(competitive agglomeration, CA)算法結合了模糊C 均值聚類和層次聚類的優(yōu)點,能夠通過迭代方式自適應尋找最優(yōu)的聚類群集數量,并且能夠對樣本數據進行模糊處理,解決了實際數據對類型劃分不理想的問題[17]。
針對以上問題,本文提出多元模糊支持向量描述方法(multi-fuzzy support vector data description,MFSVDD),用于高壓電纜缺陷識別。以高壓電纜利用CA 算法對訓練樣本進行聚類處理,并剔除隸屬度低的異常數據,然后利用篩選后的樣本及其隸屬度建立加權后的SVDD 算法,通過建立每種狀態(tài)的各自的最小超球體模型,實現對多種高壓電纜異常狀態(tài)的識別。最后,以廣東珠?,F場的實際數據,對所提高壓電纜缺陷識別算法的準確性進行測試。
假設某種高壓電纜狀態(tài)的訓練樣本為X={x1,x2,…,xN}, N 為樣本數量,對于任意一個樣本xi∈Rn為n 維實數空間,n 表示狀態(tài)量維度。SVDD 算法通過構建半徑為r,球心為a 的最小超球體,得到該組訓練樣本的空間模型,該方法可表示為以下二次規(guī)劃模型,即:
式中,C 為懲罰因子;ξi為松弛變量,用來平衡超球體大小和可能落在球體外樣本數量。
根據Lagrange 乘數法,引入Lagrange 乘子λi,μi≥0,式(1)的Lagrange 函數可表示為:
根據Karush-Kuhn-Tucker (KKT)條件,可獲得:
將式(3)代入式(2)可得式(1)的對偶函數,即:
進一步利用高斯核函數K(xi,xj)將低維數據映射到一個高維特征空間,代替內積運算。求解最優(yōu)化模型,得最小超球體的半徑r:
對于任意一組給定的測試數據xt,將式(5)中的支持向量xs替換為xt,計算xt到超球體球心a 的距離rt。當rt≤r 時,則認為測試數據與訓練樣本狀態(tài)屬于同一類,否則認為兩者的狀態(tài)不同。
常規(guī)的SVDD 算法對異常數據很敏感,盡管通過設定參數C 來對錯誤分類樣本懲罰,但是訓練樣本過程中,C 是恒定不變的,因此訓練過程中仍然對這些異常值敏感,而且可能引起過擬合。為避免該缺陷,本文利用模糊理論對懲罰因子模糊處理,降低異常數據對分類結果的影響。CA 算法是在模糊C 均值法基礎上發(fā)展而來,具有很強的自適應能力,能夠根據樣本數據獲得最優(yōu)聚類數量。
設V={v1, v2, …, vM}為聚類中心的集合,M 為群集數量,則CA 算法目標函數表示為:
目標函數(7)由兩部分組成,左半部分用來確定聚類簇的大小和形狀,右半部分為一個偏移項,用來尋找最佳的類別數量,偏移項參數α 為:
隸屬度和聚類中心的更新公式為:
根據上述公式,結合給定的樣本數據,通過不斷迭代,最終獲得每組訓練樣本的群集數量M、各區(qū)間的聚類中心V 以及隸屬度矩陣U[18]。根據聚類結果,異常數據點的隸屬度很小,接近于0。為了提高訓練效率,設定隸屬度閾值σ,當隸屬度uij<σ時,則認為該樣本點xj在群集i 中影響不大,將其舍棄。
壓電纜的狀態(tài)數據包含在線監(jiān)測數據、離線試驗數據和運維數據等多源信息。結合廣東電網珠海供電局高壓電纜的運維經驗,典型高壓電纜在線監(jiān)測裝置布局如圖1 所示。
局部放電和護層環(huán)流傳感器主要安裝在電纜終端和中間接頭的接地線上,而電纜溫度采用分布式光纖測得。根據在線監(jiān)測獲得的實時數據,并結合其他來源數據,構成電纜的狀態(tài)數據集。當高壓電纜狀態(tài)出現異常時,其狀態(tài)數據相比正常狀態(tài)也會發(fā)生變化。然而,對于部分可直接反映電纜缺陷狀態(tài)的單個狀態(tài)量,在本文中不予考慮。如外護套直流耐壓試驗,若電纜在試驗過程中發(fā)生擊穿,顯然電纜已不能正常運行。此外,接地系統(tǒng)異??筛鶕拥叵到y(tǒng)試驗結果直接判斷,與其他狀態(tài)變量無關。重載/過載告警、故障跳閘信息與缺陷同時記錄的樣本極少,故不考慮該指標。結合以上分析,本文選取的狀態(tài)指標如表1 所示。
根據《電力電纜及通道檢修規(guī)程》[9],結合實際運行經驗,根據缺陷發(fā)生的部位,可將電纜的缺陷類型分成表2 所示的7 類。
高壓電纜正常運行狀態(tài)則定義為F0,由此構建了高壓電纜狀態(tài)類型集。
表1 高壓電纜狀態(tài)指標
表2 高壓電纜缺陷類型
根據1.2 節(jié)中訓練樣本聚類和篩選結果,將每一個群集視為一組訓練樣本,則訓練樣本可表示為X1,X2,···,XM,其中Xm∈RNm。對于訓練樣本Xm中數據點xi∈Xm的權重為隸屬度占篩選后樣本Xm的隸屬度之和的比值,定義為ωi,m。
對于每個群集的數據,分別獲得一個最小半徑的超球體,則群集m 的加權SVDD 的目標函數表示為:
此時群集m 最小超球體半徑rm與式(5)一致。而對于任意一組測試數據,其狀態(tài)判別方程可表示為
根據式(12)的正負判斷測試數據xt是否與訓練樣本屬于同一狀態(tài),如果f≤0,則xt與該訓練樣本對應的高壓電纜狀態(tài)一致。當對高壓電纜異常狀態(tài)樣本數據和正常狀態(tài)均采用該方法訓練,則可以獲得MFSVDD,用來判斷高壓電纜的工作狀態(tài)并識別出具體的異常狀態(tài)類型。
高壓電纜的缺陷識別通過找到各缺陷類型的最小超球體的半徑,并用測試樣本和狀態(tài)判斷方程對待測缺陷進行分類,識別流程如圖2 所示,具體步驟為:
1)根據已有的缺陷樣本F0和正常樣本數據F1~F7,利用極差法[19]對所有數據歸一化處理;
2)分別利用CA 聚類方法對各種狀態(tài)類型的歸一化后的樣本進行聚類;
3)對每一個群集Xm,利用加權SVDD 算法求解其最小超球體半徑rm;
4)根據最小超球體半徑和各種狀態(tài)類型樣本數據,構建多元狀態(tài)判別方程f0~f7;
5)將測試數據xt的歸一化值分別代入各狀態(tài)判別方程,如果所有狀態(tài)判別函數f0~f7均大于0,則認為該測試樣本是一種未知的缺陷類型;否則狀態(tài)判斷函數小于0 的狀態(tài)即是測試樣本的狀態(tài)類型。
本文數據來源于廣東電網珠海供電局現有的在線監(jiān)測系統(tǒng)、日常運維和離線試驗,已有的正常狀態(tài)樣本數據100 條,而缺陷狀態(tài)樣本總計500 條。從正常樣本和缺陷樣本中分別隨機選取90 和430條作為訓練樣本,剩余作為測試樣本,每種狀態(tài)的樣本數量如表3 所示。
表3 高壓電纜狀態(tài)類型樣本數量
根據高壓電纜訓練樣本數據,對所有的訓練樣本數據進行歸一化處理,然后利用CA 聚類算法獲得不同狀態(tài)的樣本群集數量和聚類中心,如表4 所示。
設定隸屬度閾值σ=0.2,即隸屬度小于0.2 的樣本數據舍去,認為這些樣本屬于異常點。然后利用加權SVDD 對每個群集中的剩余樣本進行訓練,得到所有群集的最小超球體球心和半徑,如表5 所示。
由表4 和表5 可知,高壓電纜訓練樣本的聚類中心和超球體球心相似,這是因為超球體的球心是訓練樣本的加權和,在一定程度上接近于聚類中心,這也從側面證明了本方法的準確性。
根據超球體球心和半徑,可得到高壓電纜狀態(tài)判別方程(12),利用歸一化的高壓電纜測試樣本分別代入狀態(tài)判斷方程f0~f7,數據點1~10 表示狀態(tài)F0測試數據,數據點11~20 表示狀態(tài)F1測試數據,以此類推,結果如圖3 所示。
從圖3 可以看出,高壓電纜正常狀態(tài)F0測試數據(數據點1~10)的函數f0值均小于0,而其他高壓電纜狀態(tài)測試數據(數據點11~80)的函數f0值大于0,f1函數值小于0 的數據點為缺陷狀態(tài)F1的測試數據(數據點11~20),依次類推,狀態(tài)Fi的測試數據對應的狀態(tài)判別函數fi值均小于0。顯然,利用高壓電纜測試數據分別計算狀態(tài)判別方程,如果狀態(tài)判別方程小于0,則該測試數據的狀態(tài)與該狀態(tài)判別方程對應的狀態(tài)一致。
表4 高壓電纜訓練樣本聚類結果
表5 最小超球體球心和半徑
由于每個高壓電纜狀態(tài)判別方程是各自訓練樣本獨立訓練獲得,當高壓電纜發(fā)生未知缺陷時,其數據特征與其他狀態(tài)一定不同,此時測試樣本函數f0~f7值應都大于0。假設F7狀態(tài)是未知缺陷,從圖3 可以看出,數據點71~80 的函數f0~f7值均大于0,這從側面反映了本方法對未知缺陷類型的自適應能力。
此外,數據點34 的函數f1值小于0,把不屬于狀態(tài)F1的數據點34 識別為狀態(tài)F1,這說明識別方法發(fā)生了誤報。而數據點22 的函數f2值大于0,事實上,數據點22 應是狀態(tài)F2的測試樣本,這說明識別方法發(fā)生了漏報。
為本文通過CA 聚類算法,對高壓電纜訓練數據進行篩選并對SVDD 模型加權處理。為了分析隸屬度閾值σ 對識別效果的影響,圖4 給出了識別正確率與隸屬度閾值的關系。
從圖4 可以看出,MFSVDD 算法識別正確率隨著σ 增加逐漸上升,在σ=0.2 時,識別正確率最高,之后,識別正確率逐漸下降。這是因為當σ 很小時,很多異常的訓練樣本并沒有被剔除,此時獲得超球體球心和半徑不是最優(yōu)結果。而當σ 較大時,剔除的樣本過多,造成訓練樣本不夠豐富,因而降低了識別的準確性。
為進一步分析模糊處理對識別方法效果影響,表6 為MFSVDD 和MSVDD 算法的識別錯誤率。顯然,本文通過對數據模糊處理,對于隸屬度低的數據點賦予較小的權重,降低了MFSVDD 算法對異常數據的敏感性,從而降低了識別錯誤率。而MSVDD 將所有的高壓電纜數據都用來訓練,并同等對待,沒有對異常數據進行有效地處理,造成識別效果差,錯誤率高。此外,本文提出的MFSVDD求解時間僅需0.92 s,與MSVDD 的效率接近,能夠及時地發(fā)出電纜狀態(tài)異常預警。
表6 不同方法識別錯誤率和求解效率對比
本文將CA 算法和SVDD 結合,建立了高壓電纜缺陷識別模型。仿真結果表明:
1) MFSVDD 算法通過狀態(tài)判別函數的正負判斷測試數據所屬類別,能夠區(qū)分高壓電纜不同缺陷。
2)隸屬度閾值的取值影響識別的準確性,因此需要對隸屬度閾值多次測試,尋找最優(yōu)的值。
3)本文所提方法與常規(guī)的MSVDD 相比,降低了異常數據對識別效果的影響,有效地提高了高壓電纜缺陷識別的準確性,并且求解效率高,提高了運維作業(yè)效率。