馬玉濤,黃新波,朱永燦,吳明松,王寧,劉成
(西安工程大學(xué) 電子信息學(xué)院,陜西 西安 710048)
隨著國(guó)家對(duì)鐵路大力發(fā)展的需求,鐵路牽引供電系統(tǒng)規(guī)模與牽引變壓器數(shù)量不斷增加,而牽引變壓器故障造成的經(jīng)濟(jì)損失也逐漸上升;因此對(duì)牽引變壓器進(jìn)行準(zhǔn)確故障診斷分析,對(duì)牽引供電系統(tǒng)的安全運(yùn)行具有重要意義。傳統(tǒng)的牽引變壓器運(yùn)行和維護(hù)主要依賴生產(chǎn)管理數(shù)據(jù)、預(yù)防性試驗(yàn)數(shù)據(jù)等基礎(chǔ)數(shù)據(jù),存在數(shù)據(jù)冗余度高、分析維度低、評(píng)價(jià)效果差等問(wèn)題。
近幾年,鐵路總公司大力推進(jìn)無(wú)人值守變電站戰(zhàn)略,提升電氣設(shè)備智能運(yùn)維水平。電氣設(shè)備在線監(jiān)測(cè)和帶電檢測(cè)技術(shù)作為電力運(yùn)維的主要手段,逐漸在各鐵路公司推廣應(yīng)用。針對(duì)牽引變壓器獲取了包括在線監(jiān)測(cè)的油中溶解氣體[1]、鐵心接地電流[2]等結(jié)構(gòu)化數(shù)據(jù)和帶電檢測(cè)的紅外圖像等非結(jié)構(gòu)數(shù)據(jù),眾多數(shù)據(jù)來(lái)源在能夠?yàn)闋恳儔浩鞯墓收显\斷[3-4]分析帶來(lái)更多依據(jù)的同時(shí),也帶來(lái)了的相關(guān)問(wèn)題。首先,無(wú)法解決多源異構(gòu)數(shù)據(jù)的集成與分析[5-7],數(shù)據(jù)隱含的價(jià)值就不能得到深入挖掘;其次,數(shù)據(jù)傳輸過(guò)程中會(huì)受到各種外界因素干擾,導(dǎo)致故障診斷時(shí)摻雜大量的“臟數(shù)據(jù)”[7-9],影響故障診斷水平;最后,各設(shè)備生成廠商對(duì)牽引變壓器故障診斷分析軟件的開(kāi)發(fā)水平不足[10-13],嵌入軟件中的算法效果較差,導(dǎo)致軟件分析功能不可靠等。
為解決上述問(wèn)題,本文首先對(duì)平臺(tái)的主要功能和總體架構(gòu)進(jìn)行分析與設(shè)計(jì),滿足對(duì)牽引變壓器故障診斷分析的實(shí)際需求以及松耦合、可靈活擴(kuò)展的需求;隨后,針對(duì)不同的數(shù)據(jù)處理需求,建立獨(dú)立的物理存儲(chǔ)模式[14],并對(duì)原始數(shù)據(jù)中的錯(cuò)誤、缺損以及數(shù)據(jù)不平衡[15]等情況進(jìn)行預(yù)處理,解決多源異構(gòu)數(shù)據(jù)帶來(lái)的弊端;再者,針對(duì)牽引變壓器油中溶解氣體進(jìn)行故障診斷時(shí)遇到的不平衡數(shù)據(jù)問(wèn)題進(jìn)行研究,改進(jìn)SMOTE插值算法,驗(yàn)證該方法的有益性;最后,以實(shí)際工程應(yīng)用中的案例為依據(jù),介紹平臺(tái)的應(yīng)用情況。
牽引變壓器的數(shù)據(jù)來(lái)自臺(tái)賬、出廠試驗(yàn)、在線監(jiān)測(cè)、環(huán)境氣象、設(shè)備運(yùn)行檢修規(guī)程等,如何將上述數(shù)據(jù)存儲(chǔ)并且按照公共信息模型[16]、組件接口規(guī)范等國(guó)際電工委員會(huì)發(fā)布的IEC標(biāo)準(zhǔn)進(jìn)行高效融合、集成與共享,是平臺(tái)數(shù)據(jù)層設(shè)計(jì)的需求之一;其次,針對(duì)牽引變壓器原始數(shù)據(jù)中的錯(cuò)誤、缺損以及數(shù)據(jù)不平衡的問(wèn)題進(jìn)行預(yù)處理,是提高對(duì)牽引變壓器運(yùn)行故障診斷的分析和平臺(tái)研發(fā)水平的關(guān)鍵,也是難點(diǎn)所在;最后,平臺(tái)的設(shè)計(jì)應(yīng)具備松耦合、易擴(kuò)展的特性,選擇輕量級(jí)、速度高、插拔性好的框架,以便能夠即時(shí)響應(yīng)軟件開(kāi)發(fā)需求和降低成本。
針對(duì)上述需求分析,平臺(tái)由數(shù)據(jù)管理、故障診斷以及知識(shí)庫(kù)等模塊組成。牽引變壓器故障診斷平臺(tái)的功能需求與設(shè)計(jì)如圖1所示。
圖1中數(shù)據(jù)管理模塊由數(shù)據(jù)的增刪改查、展示和預(yù)處理組成,數(shù)據(jù)預(yù)處理功能具備了對(duì)數(shù)據(jù)錯(cuò)誤、數(shù)據(jù)值缺失、數(shù)據(jù)不平衡性等問(wèn)題的分析解決能力。故障診斷模塊由故障告警、故障分析組成,能夠?qū)崿F(xiàn)對(duì)牽引變壓器故障特征、故障類型、故障原因、故障部位的分析。
綜合以上分析,本平臺(tái)選擇Bootstrap作為主要的前端框架,使用HTML5、CSS3、JavaScript和JQuery的插件來(lái)完成前端的開(kāi)發(fā)。后端選擇Python作為開(kāi)發(fā)語(yǔ)言,以Numpy、Pandas等作為數(shù)據(jù)分析支持庫(kù),選擇Django作為Web框架。平臺(tái)總體架構(gòu)如圖2所示,自下而上依次分為數(shù)據(jù)層、技術(shù)層、業(yè)務(wù)層和展現(xiàn)層共4層。
a)數(shù)據(jù)層作為整個(gè)平臺(tái)架構(gòu)的底層基礎(chǔ),將為各功能模塊提供分散于各系統(tǒng)的數(shù)據(jù)。平臺(tái)根據(jù)實(shí)際需求建立物理存儲(chǔ)并通過(guò)公共信息模型進(jìn)行數(shù)據(jù)表示,經(jīng)過(guò)具備組件接口服務(wù)的規(guī)范訪問(wèn)接口、高速數(shù)據(jù)訪問(wèn)接口等來(lái)訪問(wèn)、調(diào)用數(shù)據(jù),以確保能夠與鐵路現(xiàn)有平臺(tái)進(jìn)行數(shù)據(jù)交互,共享數(shù)據(jù)源和分析結(jié)果。
b)技術(shù)層由企業(yè)服務(wù)總線和各類服務(wù)組件組成,為業(yè)務(wù)層提供支撐。
c)業(yè)務(wù)層則根據(jù)故障診斷的實(shí)際需求,封裝相關(guān)的功能模塊的算法與標(biāo)準(zhǔn)。
d)展現(xiàn)層進(jìn)行信息展示,為用戶進(jìn)行故障診斷分析提供便利。
圖1 故障診斷平臺(tái)功能架構(gòu)Fig.1 Functional framework of fault diagnosis platform
工程實(shí)踐中需要通過(guò)對(duì)牽引變壓器進(jìn)行多種試驗(yàn)來(lái)判斷故障。為避免用戶在各種冗余繁雜的相關(guān)系統(tǒng)間互相切換的情況,將多源異構(gòu)數(shù)據(jù)集成至本平臺(tái),其具體存儲(chǔ)方法示意如圖3所示。
針對(duì)牽引變壓器不同來(lái)源數(shù)據(jù),根據(jù)數(shù)據(jù)的實(shí)際用途及分析需求,建立獨(dú)立的物理存儲(chǔ)模式,并能夠共享信息。具體通過(guò)以下技術(shù)手段實(shí)現(xiàn):
a)將牽引變壓器在線事物型結(jié)構(gòu)化數(shù)據(jù)存放于關(guān)系數(shù)據(jù)庫(kù),典型代表為管理數(shù)據(jù)及屬性數(shù)據(jù)。
b)將油中溶解氣體、鐵心接地電流等在線分析需求的結(jié)構(gòu)化數(shù)據(jù)存放于大規(guī)模并行處理(massively parallel processing,MPP)數(shù)據(jù)倉(cāng)庫(kù)。
c)將紅外圖、局放譜圖等實(shí)時(shí)查詢需求的數(shù)據(jù)存放于分布式列簇?cái)?shù)據(jù)庫(kù),將批處理需求的數(shù)據(jù)存放于Hive。
CIM—公共信息模型Comnion Information model的縮寫;CIS—組件接口規(guī)范,component interface specification的縮寫。
圖3 多源異構(gòu)數(shù)據(jù)存儲(chǔ)方法示意圖Fig.3 Multi-source heterogeneous data storageprocessing method
d)針對(duì)各獨(dú)立的物理存儲(chǔ)模式,以Hadoop平臺(tái)為中轉(zhuǎn),導(dǎo)入關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)萃取、轉(zhuǎn)換、加載的方式;利用大數(shù)據(jù)平臺(tái)的相關(guān)算法進(jìn)行清洗轉(zhuǎn)化,最后加載到MPP數(shù)據(jù)倉(cāng)庫(kù)供業(yè)務(wù)系統(tǒng)使用。
由于傳感設(shè)備故障、網(wǎng)絡(luò)異常、運(yùn)檢人員錄入不規(guī)范等不確定因素,從現(xiàn)場(chǎng)獲得的數(shù)據(jù)經(jīng)常存在大量異常、冗余、缺損的問(wèn)題,一般將其統(tǒng)稱為“臟數(shù)據(jù)”。如不能妥善解決上述問(wèn)題,必將影響數(shù)據(jù)質(zhì)量及平臺(tái)后續(xù)故障診斷分析的準(zhǔn)確性;因此必須進(jìn)行數(shù)據(jù)預(yù)處理,選取出有分析價(jià)值的數(shù)據(jù)。本文封裝相關(guān)的算法及規(guī)則至平臺(tái)的業(yè)務(wù)層,以供用戶調(diào)用,具體流程如圖4所示。
圖4 數(shù)據(jù)預(yù)處理步驟Fig.4 Data preprocessing steps
圖4中:“孤立點(diǎn)檢測(cè)”是通過(guò)對(duì)數(shù)據(jù)集進(jìn)行聚類,以聚類結(jié)果將數(shù)據(jù)集進(jìn)行區(qū)域劃分,判斷劃分后的區(qū)域是否包含孤立點(diǎn),并對(duì)正常區(qū)域進(jìn)行剪枝,最后對(duì)包含孤立點(diǎn)的剩余區(qū)域進(jìn)行距離計(jì)算,得到孤立點(diǎn);“數(shù)據(jù)填充”是將廣義馬氏距離和自組織神經(jīng)網(wǎng)絡(luò)2種算法相結(jié)合,對(duì)數(shù)據(jù)集予以處理以得到約簡(jiǎn)后的數(shù)據(jù)集,再通過(guò)熵值法對(duì)缺損值進(jìn)行填補(bǔ)。
由于孤立點(diǎn)檢測(cè)算法識(shí)別的數(shù)據(jù)并非都是錯(cuò)誤數(shù)據(jù),還需要確定孤立點(diǎn)是否為錯(cuò)誤數(shù)據(jù),平臺(tái)融入了相關(guān)數(shù)據(jù)的判別規(guī)則,以解決不同的檢測(cè)、監(jiān)測(cè)手段以及突發(fā)情況造成的數(shù)據(jù)問(wèn)題。表1給出部分示例,其中規(guī)則1主要由鐵路牽引供電系統(tǒng)的運(yùn)行檢修規(guī)則和電力行業(yè)針對(duì)變壓器的相關(guān)標(biāo)準(zhǔn)組成,包括了鐵路牽引變電所運(yùn)行檢修規(guī)則、變壓器油中溶解氣體分析和判斷導(dǎo)則[17]、帶電設(shè)備紅外診斷應(yīng)用規(guī)范[18]等,規(guī)則2包括了具有普適性的約定。
表1 數(shù)據(jù)預(yù)處理判別規(guī)則Tab.1 Discriminant rules for datapreprocessing
本文針對(duì)變壓器故障診斷時(shí)遇到的不平衡數(shù)據(jù)問(wèn)題進(jìn)行研究與分析,提出PAM-SMOTE數(shù)據(jù)預(yù)處理算法,并進(jìn)行故障診斷驗(yàn)證。所謂不平衡數(shù)據(jù)集是指某類樣本數(shù)據(jù)量遠(yuǎn)小于其他樣本數(shù)量的數(shù)據(jù)集,常見(jiàn)于現(xiàn)實(shí)生活的分類問(wèn)題,例如信用評(píng)價(jià)體系、醫(yī)療診斷、文本分類等均是對(duì)不平衡數(shù)據(jù)的處理和分析。牽引變壓器的待分析數(shù)據(jù)也呈現(xiàn)此類現(xiàn)象,表現(xiàn)為正常數(shù)據(jù)居多以及高溫過(guò)熱故障多于其余故障問(wèn)題。
針對(duì)不平衡數(shù)據(jù)集,由于少數(shù)類別信息容易被多數(shù)類別信息所掩蓋,常見(jiàn)的分類算法往往難以取得良好的分類結(jié)果。Chawla等人提出的過(guò)采樣方法SMOTE[19],即通過(guò)在少數(shù)類樣本及其臨近的樣本連線上隨機(jī)選取一點(diǎn)合成需要的樣本來(lái)解決數(shù)據(jù)平衡問(wèn)題,但該方法存在盲目性不能對(duì)合成的樣本進(jìn)行控制。為此本文提出一種基于圍繞中心點(diǎn)的劃分(partitioning around medoid,PAM)聚類的SMOTE算法,來(lái)預(yù)處理牽引變壓器油色譜的故障類別不平衡數(shù)據(jù),同時(shí)結(jié)合牽引變壓器油色譜故障診斷類別特點(diǎn),以極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)算法[20]為分類器,構(gòu)建DAG-ELMS分類模型,并針對(duì)性地選擇G-mean值作為評(píng)價(jià)度量標(biāo)準(zhǔn)來(lái)度量分類效果,驗(yàn)證算法有益性,最終將該算法封裝到相關(guān)功能模塊。
2.2.1 算法流程
通過(guò)PAM聚類算法獲取少數(shù)類樣本簇心,用改進(jìn)的PAM-SMOTE采樣公式代替SMOTE算法的原有公式,將新生成的樣本數(shù)據(jù)控制在少數(shù)類的樣本區(qū)間,以此解決因SMOTE算法盲目性問(wèn)題導(dǎo)致的模糊數(shù)據(jù)邊界以及過(guò)擬合現(xiàn)象;最后通過(guò)常見(jiàn)的分類算法極限學(xué)習(xí)機(jī)ELM來(lái)進(jìn)行分類。算法分為4個(gè)步驟,具體流程如圖5所示。
a)確定采樣倍率。計(jì)算數(shù)據(jù)集的多數(shù)類與少數(shù)類之間的不平衡程度(imbalanced level,IL),則采樣倍率通過(guò)少數(shù)類與多數(shù)類樣本的數(shù)量之比函數(shù)fIL來(lái)確定,采樣倍率l由式(1)得出。
b)采用PAM聚類算法對(duì)少數(shù)類樣本進(jìn)行聚類。首先,為每個(gè)簇隨機(jī)選擇初始中心點(diǎn),剩余的樣本點(diǎn)根據(jù)與中心點(diǎn)的距離分配給最近的簇,為每個(gè)樣本數(shù)據(jù)Oi、Oh計(jì)算總代價(jià);然后,反復(fù)通過(guò)非中心點(diǎn)替代中心點(diǎn),并用代價(jià)函數(shù)式(2)來(lái)評(píng)估是否為有效替代,有效時(shí)即完成替換,以確保聚類質(zhì)量;最終,給出最佳的聚類簇心。
c)對(duì)以上簇心,進(jìn)行PAM-SMOTE算法﹝如式(3)〕插值。以PAM算法簇心為基點(diǎn)插值,并且計(jì)算每個(gè)聚類數(shù)據(jù)樣本與簇心的歐式距離﹝如式(4)〕,選取最大值Dmax,在聚類的插值范圍內(nèi)延長(zhǎng)過(guò)采樣算法,但并不超過(guò)聚類區(qū)間。
d)將極限學(xué)習(xí)機(jī)ELM算法作為二分類器對(duì)平衡后的數(shù)據(jù)集進(jìn)行分類操作。利用油色譜訓(xùn)練樣本數(shù)據(jù),對(duì)ELM進(jìn)行訓(xùn)練,構(gòu)建多層分類模型,獲取10個(gè)分類器,如圖6所示。圖6中第1層為根節(jié)點(diǎn),是由第1類與第5類構(gòu)成。當(dāng)樣本進(jìn)入時(shí),正類向左邊延伸,負(fù)類向右邊延伸,并且逐步向下判斷,通過(guò)4次判斷,得到分類模型的葉子結(jié)點(diǎn),即故障類型。
l=round(fIL).
(1)
Tih=∑jCjih.
(2)
Pnew=ci+rand (0,Dmax)(Sj-ci).
(3)
(4)
式中:l為round()函數(shù)對(duì)fIL四舍五入后的值;Tih為總代價(jià);Cih為代價(jià)值;j為非中心點(diǎn)的個(gè)數(shù);i表示中心點(diǎn),h表示非中心點(diǎn);dab為2個(gè)向量a、b之間的距離;g1m、g2m為向量分量,m=1,2,...;a取值為(g11,g12,g13,…,g1m),b取值為(g21,g22,g23,…,g2m);Pnew為新插值樣本,其中rand( )函數(shù)為0與Dmax直接某一隨機(jī)數(shù);Sj為第j個(gè)原始樣本數(shù)據(jù);ci為以第i個(gè)原始樣本數(shù)據(jù)作簇心;Dmax為ci附近的n個(gè)數(shù)據(jù)點(diǎn)中距離最大值。
圖5 面向不平衡數(shù)據(jù)集故障診斷算法流程Fig.5 Flow chart of fault diagnosis algorithm forunbalanced data set
圖6 DAG-ELMS分類模型Fig.6 DAG-ELMS classification model
2.2.2 評(píng)價(jià)指標(biāo)
對(duì)于不平衡數(shù)據(jù)問(wèn)題,僅以準(zhǔn)確率作為評(píng)價(jià)指標(biāo)容易出現(xiàn)多數(shù)類分類準(zhǔn)確率高而少數(shù)類分類準(zhǔn)確性低的情況,而G-mean值的大小同時(shí)依賴于少數(shù)類和多數(shù)類的準(zhǔn)確性;因此,本文將測(cè)試數(shù)據(jù)集{fTN,fTP,fFP,fFN}以表2的形式表示,并通過(guò)式(5)、(6)、(7)計(jì)算G-mean值Gmean以評(píng)價(jià)故障診斷的效果。其中,fTN、fTP、fFP、fFN分別為正確的否定的分類數(shù)、正確的肯定的分類數(shù)、錯(cuò)誤的肯定的分類數(shù)、錯(cuò)誤的否定的分類數(shù)。
少數(shù)類樣本分類的準(zhǔn)確率
a+=fTP/(fTP+fFN).
(5)
多數(shù)類樣本分類準(zhǔn)確率
a-=fTN/(fTN+fFP).
(6)
總體分類性能指標(biāo)
(7)
表2 G-mean準(zhǔn)則矩陣表Tab.2 G-mean criterion matrix
本文通過(guò)對(duì)典型案例進(jìn)行研究,確定變壓器典型故障主要以高溫過(guò)熱為主,高能量放電、中低溫過(guò)熱及低能量放電次之。收集已公開(kāi)發(fā)表論文以及IECTC10數(shù)據(jù)庫(kù)中已確定故障且能較全面反映變壓器故障類型的油中溶解氣體樣本數(shù)據(jù)360組,正常數(shù)據(jù)為180組,高溫過(guò)熱、高能放電、中低溫過(guò)熱、低能放電數(shù)據(jù)分別為90組、42組、30組、18組。將樣本集S={(x1,t1),(x2,t2),…,(xr,tr)}(r為樣本數(shù)據(jù)總組數(shù))歸一化處理后,隨機(jī)抽樣將數(shù)據(jù)分開(kāi),選取300組數(shù)據(jù)作為訓(xùn)練集,剩下的60組作為測(cè)試樣本。其中xe為樣本屬性,e=1,2,…,5;包括氫氣(H2)、甲烷(CH4)、乙烷(C2H6)、乙烯(C2H4)、乙炔(C2H2);te為類別標(biāo)簽,分別對(duì)應(yīng)正常N、中低溫過(guò)熱T1、高溫過(guò)熱T2、低能量放電D1、高能量放電D2等5種情況,部分測(cè)試樣本數(shù)據(jù)見(jiàn)表3。
表3 部分樣本測(cè)試數(shù)據(jù)Tab.3 Part of test data
針對(duì)相同的測(cè)試集與樣本集,以ELM、SMOTE-ELM及PAM-SMOTE-ELM進(jìn)行分類。在對(duì)數(shù)據(jù)集不進(jìn)行預(yù)處理的情況下,從表4中可以看出:對(duì)于相同的樣本測(cè)試集與訓(xùn)練集,未經(jīng)處理直接用ELM進(jìn)行分類,相較于經(jīng)過(guò)SMOTE算法平衡數(shù)據(jù)集后,分類結(jié)果的G-mean值明顯較低;基于本文方法下的分類結(jié)果的G-mean值較未進(jìn)行聚類前,有5%左右的提升;高溫過(guò)熱T2故障情況時(shí)G-mean值為80.52,低能放電故障情況時(shí)G-mean值為90.27。
表4 數(shù)據(jù)集驗(yàn)證效果Tab.4 Data set validation effect
電力運(yùn)行日常會(huì)產(chǎn)生大量的數(shù)據(jù),增量數(shù)據(jù)的接入是對(duì)平臺(tái)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的一個(gè)考驗(yàn)。為此,搭建常用的Mysql結(jié)構(gòu)化數(shù)據(jù)庫(kù)、MPP數(shù)據(jù)倉(cāng)庫(kù)以及Hive的相關(guān)環(huán)境(見(jiàn)表5)并進(jìn)行模擬實(shí)驗(yàn),試驗(yàn)結(jié)果見(jiàn)表6。
表5 實(shí)驗(yàn)環(huán)境搭建Tab.5 Construction of experimental environment
由表6的試驗(yàn)結(jié)果可見(jiàn):數(shù)據(jù)能夠高效、準(zhǔn)確地同步;同時(shí)對(duì)源端和目標(biāo)端的消耗情況也較小,滿足平臺(tái)實(shí)時(shí)業(yè)務(wù)對(duì)響應(yīng)速度和安全運(yùn)行的需求。
本文研發(fā)的平臺(tái)可實(shí)現(xiàn)對(duì)牽引變壓器運(yùn)行狀態(tài)全方位的信息集成。該平臺(tái)解決了傳統(tǒng)生產(chǎn)管理系統(tǒng)數(shù)據(jù)冗余度高、分析維度低、評(píng)價(jià)效果差等問(wèn)題,為今后牽引變壓器多源異構(gòu)數(shù)據(jù)分析和故障診斷功能的擴(kuò)展提供了有效的解決方案,也為進(jìn)一步改進(jìn)與完善牽引變壓器故障診斷平臺(tái)積累寶貴經(jīng)驗(yàn)。
表6 從Mysql解析數(shù)據(jù)至MPP數(shù)據(jù)倉(cāng)庫(kù)Tab.6 Parsing Data fromMysql to MPP data warehouse