莊葛巍 ,顧臻,馮秀慶,段艷
(1.國(guó)網(wǎng)上海市電力公司電力科學(xué)研究院,上海 200051;2.上海欣能信息科技發(fā)展有限公司,上海 200025;3.同濟(jì)大學(xué)汽車(chē)學(xué)院,上海 201804)
電能表為電力交易中的貿(mào)易結(jié)算提供依據(jù),電能表檢定工作的重要性日益凸顯[1-2]。隨著智能電網(wǎng)的建設(shè)工作不斷推進(jìn),智能電能表的需求量正日益增長(zhǎng),為應(yīng)對(duì)激增的智能電能表檢定工作量,具有高檢定效率的自動(dòng)化檢定系統(tǒng)應(yīng)運(yùn)而生[3-5]。但智能電能表檢定系統(tǒng)在長(zhǎng)期不間斷的運(yùn)行過(guò)程中,接駁環(huán)節(jié)可能出現(xiàn)機(jī)械疲勞甚至老化,引起檢定結(jié)果異常。目前,計(jì)量中心是在自動(dòng)化檢定系統(tǒng)所監(jiān)控的流水線處于停運(yùn)的狀態(tài)下,定期開(kāi)展人工檢查,以確保各檢定單元的準(zhǔn)確運(yùn)行狀態(tài),但該方法無(wú)法及時(shí)獲悉自動(dòng)化檢定系統(tǒng)所監(jiān)控的流水線相關(guān)的風(fēng)險(xiǎn)信息,使得檢定系統(tǒng)在下一次人工檢查前仍將服務(wù)于試驗(yàn)項(xiàng)目,這將導(dǎo)致大規(guī)模試驗(yàn)結(jié)果出現(xiàn)偏差,雖然通過(guò)縮短人工檢查的時(shí)間間隔,可以在一定程度上降低上述情況發(fā)生的可能性,但會(huì)大幅降低流水線的檢定效率,同時(shí)增加人力和運(yùn)維成本。實(shí)現(xiàn)對(duì)自動(dòng)化檢定系統(tǒng)上各檢定表位接駁環(huán)節(jié)機(jī)械性能的在線評(píng)價(jià),對(duì)于提升自動(dòng)化檢定系統(tǒng)的可靠性具有重要意義。
對(duì)于如何實(shí)現(xiàn)自動(dòng)化檢定系統(tǒng)的異常在線檢測(cè),已經(jīng)有相關(guān)學(xué)者通過(guò)研究提出了一些解決方案。文獻(xiàn)[6]針對(duì)自動(dòng)化檢定系統(tǒng)的流水線的故障特點(diǎn),構(gòu)建了基于模糊推理的故障診斷專家系統(tǒng);文獻(xiàn)[7]基于數(shù)據(jù)挖掘相關(guān)算法改進(jìn)原理,建立故障征兆和故障性質(zhì)的關(guān)聯(lián)規(guī)則,實(shí)現(xiàn)對(duì)二次回路故障的實(shí)時(shí)診斷;文獻(xiàn)[8]針對(duì)自動(dòng)化檢定系統(tǒng)的流水線設(shè)備檢修頻率缺乏科學(xué)性的問(wèn)題,建立了基于檢修優(yōu)先級(jí)系數(shù)求解設(shè)備最佳檢修頻率的數(shù)學(xué)模型,為流水檢修周期提供科學(xué)依據(jù);文獻(xiàn)[9]提出了一種自動(dòng)化檢定系統(tǒng)的流水線表位故障定位及報(bào)警系統(tǒng),該系統(tǒng)通過(guò)識(shí)別連續(xù)檢定不合格的表位來(lái)進(jìn)行故障判定;文獻(xiàn)[10]采用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)(extract-transform-load,ETL)、用于過(guò)程控制的OLE(OLE for process control,OPC)等標(biāo)準(zhǔn)協(xié)議與技術(shù),通過(guò)采集流水線風(fēng)險(xiǎn)信息與結(jié)合專家系統(tǒng),實(shí)現(xiàn)對(duì)檢定流水線的風(fēng)險(xiǎn)預(yù)警和對(duì)系統(tǒng)的評(píng)估;文獻(xiàn)[11]采用局部異常檢測(cè)算法對(duì)流水線檢定表位異常進(jìn)行故障識(shí)別。由于多數(shù)情況下異常數(shù)據(jù)是無(wú)標(biāo)記的,異常檢測(cè)研究多從無(wú)監(jiān)督角度出發(fā)[11],無(wú)監(jiān)督異常檢測(cè)方法適合數(shù)據(jù)量少、維度低的數(shù)據(jù)異常識(shí)別[12],應(yīng)用到數(shù)據(jù)量較大的智能電表檢定流水線上,如何降低模型的誤判率將是一個(gè)難題,雖然有監(jiān)督異常檢測(cè)算法的試驗(yàn)效果好,但模型的訓(xùn)練樣本需要以大量的人工標(biāo)記為代價(jià),所以在自動(dòng)化檢定中適用性不強(qiáng)。
針對(duì)以上問(wèn)題,提出利用自動(dòng)化檢定系統(tǒng)數(shù)據(jù),通過(guò)對(duì)無(wú)監(jiān)督異常檢測(cè)算法篩選的“異常表位”進(jìn)行人工檢查,能夠在排除表位故障的同時(shí)獲得少量標(biāo)記樣本,利用少量的標(biāo)記樣本和大量的無(wú)標(biāo)記樣本采用半監(jiān)督方式構(gòu)建直推式支持向量機(jī)(transductive support vector machine,TSVM)異常檢測(cè)模型,TSVM模型可對(duì)未標(biāo)記樣本進(jìn)行標(biāo)記。流水線在工作過(guò)程中不斷獲取新的未標(biāo)記樣本,可繼續(xù)按照半監(jiān)督方式對(duì)TSVM模型進(jìn)行擴(kuò)展及優(yōu)化。文中所提出的異常表位的檢測(cè)算法利用國(guó)網(wǎng)上海市電力公司自動(dòng)化檢定系統(tǒng)數(shù)據(jù)進(jìn)行了分析,通過(guò)對(duì)比人工檢查結(jié)果,驗(yàn)證了方法的有效性,降低了無(wú)監(jiān)督式異常檢測(cè)算法的誤判率,對(duì)自動(dòng)化檢定系統(tǒng)的運(yùn)維智能化工作具有一定指導(dǎo)意義。
智能電能表自動(dòng)化檢定系統(tǒng)檢定工作主要是由一套電氣回路的60個(gè)檢定表位形成一個(gè)檢定單元,通常一條檢定流水線包含30個(gè)檢定單元,在每一次的檢定任務(wù)中,來(lái)自同一批次的智能電能表被隨機(jī)分配到不同表位中,進(jìn)行多項(xiàng)不同的誤差實(shí)驗(yàn),所得到的誤差實(shí)驗(yàn)數(shù)據(jù)除了反映智能電能表本身的質(zhì)量問(wèn)題外,還可以間接反映檢定裝置本身的問(wèn)題。
假定同一批次的智能電能表的計(jì)量性能具有相同的分布特征,在所有檢定表位均處于正常狀態(tài)且狀態(tài)一致時(shí),認(rèn)為處在同一檢定單元的60個(gè)檢定表位所對(duì)應(yīng)的誤差實(shí)驗(yàn)數(shù)據(jù)也應(yīng)該具有相同的分布特征,當(dāng)某個(gè)檢定表位出現(xiàn)例如銹蝕、變形等故障時(shí),其分布特征將與其他表位不同,表現(xiàn)為“異?!睌?shù)據(jù)點(diǎn)。為便于在海量的誤差實(shí)驗(yàn)數(shù)據(jù)中提取數(shù)據(jù)分布特征值,對(duì)在同一檢定表位產(chǎn)生的海量誤差實(shí)驗(yàn)數(shù)據(jù)進(jìn)行相關(guān)統(tǒng)計(jì)量的計(jì)算:基于同一檢定表位產(chǎn)生的數(shù)據(jù),分別統(tǒng)計(jì)每個(gè)實(shí)驗(yàn)項(xiàng)目數(shù)據(jù)中的最大值、最小值,計(jì)算其期望、方差、偏度和峰度,用于描述該檢定表位的數(shù)據(jù)分布的平均水平、離散程度、不對(duì)稱性和極端異常值占比,將表位異常狀態(tài)轉(zhuǎn)換為數(shù)據(jù)分布的異常。
檢定系統(tǒng)下一條流水線包含30個(gè)檢定單元,每一個(gè)檢定單元的實(shí)驗(yàn)數(shù)據(jù)集包含60個(gè)檢定表位樣本,即{X1,X2,…,X60},分別計(jì)算每個(gè)表位對(duì)應(yīng)每一項(xiàng)誤差實(shí)驗(yàn)數(shù)據(jù)的最值、期望、方差、偏度和峰度,構(gòu)建每個(gè)表位樣本的特征,以進(jìn)行m項(xiàng)誤差實(shí)驗(yàn)為例,則每個(gè)樣本包含6m個(gè)特征值,即6m個(gè)維度。
為防止較大尺度的數(shù)據(jù)弱化其他特征數(shù)據(jù)的影響,致異常因子算法的預(yù)測(cè)性能降低,將樣本的各個(gè)特征值縮放到相同的尺度下,采用標(biāo)準(zhǔn)化特征縮放處理數(shù)據(jù),公式如下:
式中:x為待處理特征值;u為待處理特征數(shù)據(jù)集的期望;s為待處理特征數(shù)據(jù)集的標(biāo)準(zhǔn)差;z為經(jīng)過(guò)標(biāo)準(zhǔn)化后的特征值。
標(biāo)準(zhǔn)化可以使樣本的所有特征保持均值為0,方差為1。
國(guó)網(wǎng)上海市電力公司對(duì)智能電能表的檢定過(guò)程進(jìn)行了十項(xiàng)誤差實(shí)驗(yàn),則每個(gè)檢定表位樣本的數(shù)據(jù)維度高達(dá)60維度,由于一個(gè)鑒定單元最多可獲得60個(gè)鑒定表位樣本,在數(shù)據(jù)維度接近甚至超過(guò)樣本數(shù)量的情況下,數(shù)據(jù)樣本分布稀疏,對(duì)其進(jìn)行概率密度函數(shù)設(shè)計(jì)會(huì)比較困難,設(shè)計(jì)分類器也很困難,無(wú)疑給異常檢測(cè)增加了難度,所以對(duì)數(shù)據(jù)集進(jìn)行降維處理是有必要的。主成分分析(principal component analysis,PCA)是最常用的一種降維方法,其算法如下所示:
輸入:樣本集D={X1,X2,…,X59,X60};
過(guò)程:
1)對(duì)所有樣本進(jìn)行中心化:
2)計(jì)算樣本的協(xié)方差矩陣XXT;
3)對(duì)協(xié)方差矩陣XXT做特征值分解;
4)取最大的d′個(gè)特征值所對(duì)應(yīng)的特征向量W1,W2,…,W′d;
輸出:投影矩陣W=(W1,W2,…,W′d)。
降維后的維度d′由用戶指定,不同維度下的數(shù)據(jù)特征信息占比不同,用戶可通過(guò)設(shè)定想要保留的特征信息占比來(lái)確定d′的取值。智能電能表自動(dòng)化檢定系統(tǒng)的數(shù)據(jù)樣本在不同d′值時(shí)對(duì)應(yīng)的特征保留信息占比如圖1所示。
圖1 不同維度下的樣本特征信息保留占比Fig.1 Proportion of sample characteristic information retention under different dimensions
標(biāo)準(zhǔn)化后的樣本數(shù)據(jù),若要保留接近99.9%的特征信息,需要數(shù)據(jù)維度在40維以上,即用于異常檢測(cè)算法分析的有效數(shù)據(jù)維數(shù)為40維度。
TSVM模型構(gòu)建方法如下:
步驟一:對(duì)包含少量異常數(shù)據(jù)的待測(cè)檢定表位數(shù)據(jù)進(jìn)行特征提取、構(gòu)建特征向量,并進(jìn)行PCA降維處理;
步驟二:選擇準(zhǔn)確率較高的無(wú)監(jiān)督異常檢測(cè)算法篩選出“異常表位”,交由人工進(jìn)行檢查,在排除故障的同時(shí)獲得標(biāo)記樣本;
步驟三:利用標(biāo)記樣本與未標(biāo)記樣本以半監(jiān)督方式獲得基于TSVM的異常檢測(cè)模型。
另外,為了提升TSVM模型性能,可多次利用新的標(biāo)記樣本按照半監(jiān)督方式對(duì)模型進(jìn)行優(yōu)化,優(yōu)化模型性能的方法為:先利用TSVM模型預(yù)測(cè)出待檢測(cè)樣本中的異常數(shù)據(jù),交由人工進(jìn)行檢查,然后用所有獲得人工標(biāo)記的樣本構(gòu)建標(biāo)記樣本庫(kù),從中選取距離分類邊界較近的數(shù)據(jù)點(diǎn)構(gòu)成新的標(biāo)記樣本,與未標(biāo)記樣本按照半監(jiān)督方式優(yōu)化TSVM模型;用優(yōu)化后的TSVM模型對(duì)標(biāo)記樣本庫(kù)中的數(shù)據(jù)點(diǎn)進(jìn)行預(yù)測(cè),計(jì)算標(biāo)記樣本的預(yù)測(cè)狀態(tài)與真實(shí)狀態(tài)之間差異的比率,其值小于人為設(shè)定的閾值時(shí),判定該模型性能滿足預(yù)測(cè)準(zhǔn)確度條件。經(jīng)過(guò)優(yōu)化后的TSVM模型可直接對(duì)待檢測(cè)數(shù)據(jù)集進(jìn)行預(yù)測(cè)。
所構(gòu)建的模型只需要小部分的標(biāo)記樣本,通過(guò)采用無(wú)監(jiān)督異常檢測(cè)算法,在原始不純凈的無(wú)標(biāo)簽樣本中篩選出異常表位樣本,再交給人工對(duì)這些表位進(jìn)行標(biāo)記。孤立森林(isolation forest,Iforest),局部異常因子(local outlier factor,LOF),一類支持向量機(jī)(one-class support vector machine,OCSVM)是目前流行且效果較好的三種無(wú)監(jiān)督異常檢測(cè)算法:
1)孤立森林(Iforest):Iforest算法對(duì)全局異常檢測(cè)的效果較好,適合對(duì)連續(xù)型、較高維度的數(shù)據(jù)進(jìn)行異常檢測(cè)。Iforest算法是多次二叉樹(shù)式的劃分過(guò)程,每次隨機(jī)抽取數(shù)據(jù)集的特征,隨機(jī)取值作為劃分依據(jù)對(duì)數(shù)據(jù)集進(jìn)行劃分,經(jīng)過(guò)多次迭代,直到在森林中形成一棵孤立的樹(shù)[13]。樣本數(shù)據(jù)點(diǎn)在樹(shù)中所處的位置越低,被判為異常數(shù)據(jù)點(diǎn)的可能性越大。
2)局部異常檢測(cè)(LOF):LOF算法對(duì)全局異常點(diǎn)的檢測(cè)效果不如Iforest,但對(duì)數(shù)據(jù)分布比較集中、異常比重較小的數(shù)據(jù)集的局部異常檢測(cè)效果較好。LOF算法是基于密度的離群點(diǎn)檢測(cè)方法,通過(guò)計(jì)算樣本點(diǎn)的第K鄰域(非全局)來(lái)確定局部可達(dá)密度,通過(guò)比較樣本點(diǎn)與其鄰域點(diǎn)的局部可達(dá)密度來(lái)判斷樣本是否為異常點(diǎn),樣本點(diǎn)的密度越低,越可能是異常點(diǎn)。
3)一類支持向量機(jī)(OCSVM):OCSVM是一種經(jīng)過(guò)修改的支持向量機(jī)類型,適合奇異值檢測(cè)以及樣本不平衡場(chǎng)景,對(duì)高維度、大樣本數(shù)據(jù)的異常檢測(cè)效果好。OCSVM模型的訓(xùn)練樣本僅為一類數(shù)據(jù),通過(guò)建立出可代表該類數(shù)據(jù)的模型,獲取數(shù)據(jù)集的分布形狀,從而在檢測(cè)過(guò)程中,判斷待預(yù)測(cè)的數(shù)據(jù)樣本是否與訓(xùn)練樣本同屬于一類數(shù)據(jù)。
標(biāo)記樣本的選取原則是盡量減少標(biāo)記代價(jià),選擇最可能是異常數(shù)據(jù)點(diǎn)的樣本進(jìn)行標(biāo)注,在排除表位故障的同時(shí),還有助于較快發(fā)現(xiàn)新的異常類型。為了選出適用于智能電能表自動(dòng)化檢定系統(tǒng)數(shù)據(jù)的無(wú)監(jiān)督異常檢測(cè)算法,選擇機(jī)器學(xué)習(xí)庫(kù)中的Letter高維異常數(shù)據(jù)集來(lái)檢測(cè)三種無(wú)監(jiān)督異常檢測(cè)算法的準(zhǔn)確率,其數(shù)據(jù)維度以及異常程度與經(jīng)過(guò)PCA降維處理的智能電能表自動(dòng)化檢定系統(tǒng)數(shù)據(jù)相似,Letter數(shù)據(jù)集的維度為32,樣本量為1 600,其中異常樣本數(shù)為100,采用交叉驗(yàn)證法優(yōu)化模型算法的參數(shù),實(shí)驗(yàn)結(jié)果如表1所示。
表1 無(wú)監(jiān)督異常檢測(cè)的平均準(zhǔn)確率Tab.1 Average accuracy of unsupervised anomaly detection
選取具有較高準(zhǔn)確率的LOF算法,通過(guò)無(wú)監(jiān)督方式在原始數(shù)據(jù)集中篩選出“異常數(shù)據(jù)點(diǎn)”,再交給人工進(jìn)行核查。
TSVM作為半監(jiān)督支持向量機(jī)模型的代表,與支持向量機(jī)(support vector machine,SVM)一樣,是解決二分類問(wèn)題的算法,可用在半監(jiān)督式異常檢測(cè)場(chǎng)景中,并且適合標(biāo)記樣本數(shù)量較少的情況。
標(biāo)記樣本Dl={(x1,y1),(x2,y2),…,(xL,yL)},其中yi∈{-1,+1},-1 表示異常,+1 表示正常,未標(biāo)記樣本Du={xL+1,xL+2,…,xm},TSVM 算法通過(guò)嘗試未標(biāo)記樣本的所有標(biāo)記組合,找到一個(gè)能讓所有樣本之間的間隔最大化的超平面[14],該算法最終給出的未標(biāo)記樣本的標(biāo)記應(yīng)該滿足下式:
式中:(w,b)為一個(gè)超平面;εi為與所有樣本一一對(duì)應(yīng)的松弛向量;Cl與Cu分別為代表標(biāo)記樣本與未標(biāo)記樣本權(quán)重的折中參數(shù)。
具體算法流程如下所示:
輸入:Dl,Du,Cl,Cu;
過(guò)程:
1)用Dl訓(xùn)練一個(gè)SVMl;
2)用 SVMl對(duì)Du中的樣本進(jìn)行預(yù)測(cè),得到y(tǒng)=(yL+1,yL+2,…,ym);
3)初始化Cu?Cl;
4)whileCu<Cldo
基于Dl,Du,y,Cl,Cu,求解式(2)得到(w,b),ε
while?{i,j|(yiyj<0)∧(εi>0)∧(εj>0)∧(εi+εj>2)}do
基于Dl,Du,y,Cl,Cu,重新求解式(2)得到(w,b),ε
輸出:Du的預(yù)測(cè)結(jié)果:y=(yL+1,yL+2,…,ym)。
文中數(shù)據(jù)來(lái)自國(guó)網(wǎng)上海市電力公司智能電能表自動(dòng)化檢定系統(tǒng),該系統(tǒng)的被檢設(shè)備類型為三相智能電能表,選取數(shù)據(jù)為2020年11月10日到2020年11月13日,批次號(hào)為JYL20002的檢定數(shù)據(jù):該系統(tǒng)對(duì)每個(gè)智能電能表進(jìn)行10項(xiàng)誤差實(shí)驗(yàn),在自動(dòng)化檢定系統(tǒng)中共產(chǎn)生了196 790條誤差實(shí)驗(yàn)數(shù)據(jù)。
該條檢定系統(tǒng)下流水線共有30個(gè)檢定單元,每個(gè)檢定單元的數(shù)據(jù)集包含60個(gè)檢定表位樣本,基于每個(gè)檢定表位產(chǎn)生的10項(xiàng)誤差實(shí)驗(yàn)數(shù)據(jù),構(gòu)建其特征向量,每個(gè)樣本的特征向量包含60個(gè)特征值,以1號(hào)檢定單元的1號(hào)檢定表位為例,其各項(xiàng)特征值如表2所示。對(duì)1號(hào)檢定單元的60個(gè)樣本的特征向量進(jìn)行標(biāo)準(zhǔn)化處理和降維,由原先的60維度降至40維度,降維后的數(shù)據(jù)特征如表3所示。
表2 表位樣本的特征值(1號(hào)樣本為例)Tab.2 Eigenvalues of epitope samples(sample 1 as an example)
表3 經(jīng)過(guò)PCA降維后的特征數(shù)據(jù)Tab.3 Feature data after PCA dimensionality
考慮到檢定單元之間還可能存在標(biāo)準(zhǔn)表誤差不同以及電氣回路存在故障等問(wèn)題,在獲取標(biāo)記樣本時(shí),以同一檢定單元的表位樣本作為待測(cè)數(shù)據(jù)集,采用LOF異常檢測(cè)算法,通過(guò)表位的特征數(shù)據(jù)計(jì)算該檢定單元中每個(gè)表位的異常因子數(shù)值(表征每個(gè)樣本的異常程度),然后采用箱型圖法對(duì)同一檢定單元的60個(gè)表位樣本的異常因子數(shù)值進(jìn)行異常篩選,篩選出最可能是異常數(shù)據(jù)點(diǎn)的表位樣本,交由人工對(duì)“異常表位”進(jìn)行檢查。將無(wú)監(jiān)督式異常檢測(cè)算法應(yīng)用于該批次(JYL20002)的30個(gè)檢定單元,可以得到1 800個(gè)檢定表位的異常因子數(shù)值,其中1號(hào)檢定單元的60個(gè)檢定表位的異常因子數(shù)值如表4所示。
表4 無(wú)監(jiān)督異常算法結(jié)果Tab.4 Results of unsupervised anomaly algorithm
應(yīng)用箱型圖方法對(duì)上述異常因子數(shù)值進(jìn)行異常檢測(cè):根據(jù)人工檢查經(jīng)驗(yàn)得到鑒定單元中故障表位的占比,以此來(lái)調(diào)整箱型圖的上限閾值,將該閾值作為無(wú)監(jiān)督算法中正常與異常的分類邊界,將超過(guò)該閾值距離的樣本判定為異常樣本,此鑒定單元取1.397 58作為判定值,1號(hào)檢定單元中被判定為異常的表位為:11,32,34,35,51,52和53號(hào),經(jīng)過(guò)人工檢查發(fā)現(xiàn),11,51,53故障,而32,34,35,52無(wú)故障,同樣的無(wú)監(jiān)督異常檢測(cè)算法應(yīng)用于整條流水線數(shù)據(jù),判定為異常的表位有322個(gè),經(jīng)過(guò)人工核查,其中無(wú)故障的表位有230個(gè),顯而易見(jiàn),無(wú)監(jiān)督異常檢測(cè)在智能電能表異常檢測(cè)方面的應(yīng)用存在誤判率較高的問(wèn)題。
TSVM利用無(wú)監(jiān)督異常篩選與人工檢查獲取到的小標(biāo)記表位樣本集訓(xùn)練出一個(gè)初始SVM,接著使用該學(xué)習(xí)器對(duì)未標(biāo)記表位樣本進(jìn)行打標(biāo),這樣所有樣本都有了標(biāo)記,基于這些有標(biāo)記的樣本重新訓(xùn)練SVM,之后再尋找易出錯(cuò)樣本不斷調(diào)整。
為了檢測(cè)模型性能,采用了機(jī)器學(xué)習(xí)中將樣本隨機(jī)劃分為訓(xùn)練集和測(cè)試集的方法,但與直接將樣本進(jìn)行隨機(jī)劃分的應(yīng)用不同,基于同一鑒定表位在同一誤差實(shí)驗(yàn)項(xiàng)目中會(huì)生成數(shù)百條實(shí)驗(yàn)數(shù)據(jù),所以將該方法應(yīng)用到相同表位的同一誤差實(shí)驗(yàn)項(xiàng)目的數(shù)據(jù)集,將其隨機(jī)劃分為“訓(xùn)練集”和“測(cè)試集”,用于模擬流水線在兩次不同工作過(guò)程中得到的檢定數(shù)據(jù)集,再經(jīng)過(guò)特征提取、標(biāo)準(zhǔn)化和降維處理得到訓(xùn)練樣本與測(cè)試樣本。
訓(xùn)練樣本中包括標(biāo)記樣本和未標(biāo)記樣本,以1號(hào)單元為例,其中經(jīng)過(guò)人工檢測(cè)的11,32,34,35,51,52和53號(hào)表位樣本數(shù)據(jù)可作為有標(biāo)記樣本Xi,用-1和+1表示檢定表位的故障和正常狀態(tài):
而未經(jīng)過(guò)人工核查的其他表位可作為未標(biāo)記樣本集:
利用標(biāo)記樣本與未標(biāo)記樣本按照半監(jiān)督方式訓(xùn)練得到TSVM模型,通過(guò)網(wǎng)格尋優(yōu)方法調(diào)整參數(shù)Cl,Cu,以提高模型準(zhǔn)確性,應(yīng)用該模型對(duì)“測(cè)試集”進(jìn)行預(yù)測(cè),其預(yù)測(cè)結(jié)果與無(wú)監(jiān)督異常檢測(cè)算法結(jié)果對(duì)比如表5所示。
表5 TSVM與LOF異常檢測(cè)結(jié)果對(duì)比Tab.5 Comparison of anomaly detection results of TSVM and LOF
通過(guò)模型預(yù)測(cè)結(jié)果可以看出,相比無(wú)監(jiān)督異常檢測(cè)模型而言,所構(gòu)建的TSVM模型具有更高準(zhǔn)確率。
針對(duì)智能電能表自動(dòng)化檢定系統(tǒng)實(shí)現(xiàn)檢定表位的在線異常檢測(cè)的難題,提出了構(gòu)建基于TSVM模型的異常檢測(cè)模型的方法:面對(duì)不純凈的檢定表位樣本,首先以無(wú)監(jiān)督方式篩選出最可疑的表位樣本,交由人工進(jìn)行標(biāo)記,在排除表位故障的同時(shí),獲得部分標(biāo)記樣本數(shù)據(jù),然后利用標(biāo)記樣本與未標(biāo)記樣本來(lái)構(gòu)建TSVM模型。實(shí)驗(yàn)結(jié)果表明,所構(gòu)建的異常檢測(cè)模型可以實(shí)現(xiàn)流水線表位異常的在線檢測(cè),減少由于停運(yùn)檢修帶來(lái)的工作量,能提高流水線的工作效率;算法模型與無(wú)監(jiān)督異常檢測(cè)方法對(duì)比,基于半監(jiān)督學(xué)習(xí)方式的TSVM模型具有更高的精準(zhǔn)度,并且該模型能夠通過(guò)主動(dòng)學(xué)習(xí)方式,選取有利的標(biāo)記樣本訓(xùn)練模型:從標(biāo)記樣本庫(kù)中選擇更多鄰近分類邊界的樣本作為標(biāo)記樣本,提供給TSVM模型進(jìn)行學(xué)習(xí),達(dá)到提升模型性能的目的,主動(dòng)學(xué)習(xí)的方法為智能電能表自動(dòng)化檢定系統(tǒng)在今后的工作過(guò)程不斷優(yōu)化和改進(jìn)TSVM模型性能提供了思路。