沈?qū)W利,楊 瑩,,秦鑫宇,,俞 輝
( 1.遼寧工程技術(shù)大學(xué) 軟件學(xué)院,遼寧 葫蘆島 125105;2.中國科學(xué)院 海西研究院 泉州裝備制造研究所,福建 泉州 362216)
近年來,風(fēng)能作為一種可再生資源得到廣泛的發(fā)展和利用[1–2]。風(fēng)力發(fā)電機(jī)通常被安裝在海上和偏遠(yuǎn)的高海拔陸地地區(qū),以獲得最大的風(fēng)速和最小的利益沖突[3]。但是這些地區(qū)濕度高溫度低,風(fēng)力發(fā)電機(jī)的葉片容易出現(xiàn)結(jié)冰現(xiàn)象,而葉片結(jié)冰會使葉片的氣動外形、結(jié)構(gòu)性能及載荷發(fā)生改變,從而造成風(fēng)機(jī)故障、安全隱患和經(jīng)濟(jì)損失等問題[4]。因此,提高對葉片早期結(jié)冰故障診斷的能力尤為重要。
目前風(fēng)機(jī)運行的實時數(shù)據(jù)主要通過數(shù)據(jù)采集與監(jiān)控(Supervisory control and data acquisition,SCADA)系統(tǒng)進(jìn)行存儲,基于SCADA數(shù)據(jù)的風(fēng)機(jī)葉片結(jié)冰故障診斷方法得到了廣泛的研究[5]。
文獻(xiàn)[6]提出了一種基于Relief算法特征選擇和XGBoost算法的風(fēng)機(jī)葉片結(jié)冰診斷方法。文獻(xiàn)[7]利用SCADA 數(shù)據(jù)中的風(fēng)速和網(wǎng)側(cè)有功功率兩個變量,通過邏輯回歸分類器進(jìn)行風(fēng)機(jī)葉片結(jié)冰診斷。文獻(xiàn)[8]提出了一種結(jié)合Mini Batch K-means聚類算法與合成少數(shù)類過采樣法(Synthetic minority oversampling technique,SMOTE)來處理高度不平衡的SCADA數(shù)據(jù),然后通過隨機(jī)森林方法來進(jìn)行葉片結(jié)冰診斷的方法。以上方法采用經(jīng)典機(jī)器學(xué)習(xí)方法作為診斷模型,由于SCADA 數(shù)據(jù)量大且信息復(fù)雜,上述方法往往無法有效利用這些數(shù)據(jù),模型的性能優(yōu)劣對特征選取的質(zhì)量具有較高的依賴性。
近年來,深度學(xué)習(xí)算法因其在很多識別任務(wù)上表現(xiàn)出識別精度高且易于實現(xiàn)的優(yōu)勢,吸引了大量專家學(xué)者對深度學(xué)習(xí)算法在風(fēng)機(jī)葉片結(jié)冰故障診斷方面開展研究。文獻(xiàn)[9]提出一種基于SCADA數(shù)據(jù)的棧式自編碼器的風(fēng)機(jī)葉片結(jié)冰診斷方法。文獻(xiàn)[10]提出一種基于深度神經(jīng)網(wǎng)絡(luò)的方法來監(jiān)測風(fēng)力發(fā)電機(jī)葉片結(jié)冰情況,該模型主要基于風(fēng)機(jī)SCADA監(jiān)控系統(tǒng)的電力相關(guān)數(shù)據(jù)、風(fēng)數(shù)據(jù)和溫度數(shù)據(jù)做出葉片結(jié)冰診斷。文獻(xiàn)[11]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的風(fēng)機(jī)葉片結(jié)冰診斷系統(tǒng),通過卷積神經(jīng)網(wǎng)絡(luò)自適應(yīng)地提取深層次特征。文獻(xiàn)[12]提出一種基于深度信念網(wǎng)絡(luò)的風(fēng)機(jī)葉片積冰診斷方法。這些方法大多集中在對風(fēng)機(jī)葉片結(jié)冰診斷模型的改進(jìn),很少有研究將重點放在風(fēng)機(jī)數(shù)據(jù)特征選擇上面。雖然基于深度神經(jīng)網(wǎng)絡(luò)的診斷模型可以充分利用選取的特征,但由于SCADA 監(jiān)測數(shù)據(jù)具有數(shù)據(jù)量大、冗余度高等特點,這往往會增加模型的訓(xùn)練復(fù)雜度,影響模型診斷的準(zhǔn)確率和泛化能力。同時,隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的加深,網(wǎng)絡(luò)模型容易陷入局部最優(yōu)。
針對以上問題,本文采用風(fēng)機(jī)葉片結(jié)冰數(shù)據(jù)分析與XGBoost 算法相結(jié)合的方法進(jìn)行特征選擇,并提出一種基于一維殘差神經(jīng)網(wǎng)絡(luò)(1DRes-CNN)的風(fēng)機(jī)葉片結(jié)冰診斷模型。該方法通過風(fēng)機(jī)葉片結(jié)冰物理機(jī)制分析與數(shù)據(jù)可視化相結(jié)合的方法,對SCADA數(shù)據(jù)進(jìn)行分析,生成有效表征葉片結(jié)冰的新特征;基于XGBoost算法進(jìn)行特征選取,去除冗余特征;將選擇好的特征作為1DRes-CNN模型的輸入,該模型自適應(yīng)地提取特征并做出葉片結(jié)冰診斷,減少了人為選擇特征的不足和傳統(tǒng)的特征提取方法所帶來的復(fù)雜性,同時,一維殘差塊的加入避免了神經(jīng)網(wǎng)絡(luò)在信息傳遞時出現(xiàn)梯度消失從而陷入局部最優(yōu)的問題。最終通過實驗使該方法的有效性和優(yōu)越性得到了驗證。
本文使用的SCADA 數(shù)據(jù)集來源于國內(nèi)北方某公司提供的WT A和WT B風(fēng)機(jī)SCADA數(shù)據(jù)集。每條數(shù)據(jù)包含26 維特征,包括風(fēng)機(jī)的運行參數(shù)、環(huán)境參數(shù)和狀態(tài)參數(shù),SCADA 數(shù)據(jù)集的統(tǒng)計信息如表1所示。SCADA系統(tǒng)采樣間隔為7秒。此外,此監(jiān)測變量中,風(fēng)速、發(fā)動機(jī)轉(zhuǎn)速、網(wǎng)側(cè)有功功率、溫度等變量均經(jīng)過人工加密處理,與真實數(shù)值不同,失去其原始物理意義,本文僅分析數(shù)據(jù)之間的相對關(guān)系,因此皆舍棄變量單位。
表1 原始SCADA數(shù)據(jù)
數(shù)據(jù)預(yù)處理包括數(shù)據(jù)標(biāo)記、數(shù)據(jù)分割、數(shù)據(jù)平衡問題、數(shù)據(jù)歸一化。標(biāo)記數(shù)據(jù)指根據(jù)風(fēng)機(jī)正常和故障的時間范圍對數(shù)據(jù)進(jìn)行標(biāo)記,標(biāo)記風(fēng)葉正常數(shù)據(jù)為0,風(fēng)葉結(jié)冰數(shù)據(jù)為1,同時刪除無效數(shù)據(jù)。此外,SCADA系統(tǒng)正常取樣時間間隔7秒左右,風(fēng)葉結(jié)冰不是瞬時狀態(tài),為減小噪聲數(shù)據(jù)的影響,每隔一分鐘對原始數(shù)據(jù)進(jìn)行重新分割,取每組樣本數(shù)值的平均值作為新的樣本特征。針對數(shù)據(jù)類間不平衡問題,本文通過對結(jié)冰樣本進(jìn)行SMOTE 過采樣,將結(jié)冰數(shù)據(jù)與正常數(shù)據(jù)比例設(shè)置約為1:1。SMOTE算法是基于隨機(jī)過采樣算法的一種改進(jìn),通過臨近樣本之間線性插值生成新的樣本,并將生成的新樣本加入原數(shù)據(jù)集,來改善原數(shù)據(jù)集類間不平衡問題,其實現(xiàn)過程簡單且易于實現(xiàn),在減小過擬合可能性的同時避免了原信息的丟失,被廣泛用于不平衡數(shù)據(jù)集的處理中[13–15]。且SMOTE 過采樣過程與后續(xù)診斷模型訓(xùn)練過程相互獨立,具有通用性,不影響后續(xù)不同診斷模型的測試結(jié)果。通過數(shù)據(jù)歸一化處理消除不同特征間數(shù)值的范圍差異,提高模型的學(xué)習(xí)效率。
單純依靠26維原始SCADA數(shù)據(jù)無法很好地識別結(jié)冰與未結(jié)冰數(shù)據(jù),本研究基于風(fēng)機(jī)葉片結(jié)冰物理機(jī)制和數(shù)據(jù)可視化分析補(bǔ)充相關(guān)特征,實現(xiàn)對早期葉片結(jié)冰更好的表征。
風(fēng)機(jī)葉片結(jié)冰的原因包括環(huán)境因素和自身因素[16]。環(huán)境因素中最主要的影響因素為環(huán)境溫度,當(dāng)環(huán)境溫度等于或者低于0°C 時,葉片接觸到潮濕的水汽,尤其是過冷卻水滴,當(dāng)其撞擊到風(fēng)機(jī)的葉片上時,水滴凍結(jié)造成葉片結(jié)冰現(xiàn)象[17]。同時,由于風(fēng)機(jī)所處環(huán)境的特殊性,環(huán)境溫度容易隨時間發(fā)生較大的變化。這些變化將導(dǎo)致機(jī)艙溫度發(fā)生變化。因此,為了消除環(huán)境溫度變化的影響,環(huán)境溫度減去機(jī)艙溫度作為新的特征變量更容易區(qū)分風(fēng)葉結(jié)冰與正常狀態(tài),得到的新特征溫度差,記作tmps。如圖1所示。消除環(huán)境溫度之前,結(jié)冰數(shù)據(jù)和正常數(shù)據(jù)均勻分布在y=0的兩側(cè),引入溫度差變量后,如圖2所示。正常數(shù)據(jù)分布在y=0兩側(cè),結(jié)冰數(shù)據(jù)基本分布在y=0以下,新的特征變量較環(huán)境溫度變量更容易區(qū)分風(fēng)葉結(jié)冰與正常狀態(tài)。
圖1 機(jī)艙溫度與環(huán)境溫度散點圖
圖2 機(jī)艙溫度與溫度差散點圖
風(fēng)速和功率是葉片結(jié)冰預(yù)測的主要特征。風(fēng)機(jī)的實際功率P如式(1)所示[18]:
式中:ρa(bǔ)——空氣密度;S——葉片掃風(fēng)面積;CP——風(fēng)能利用率;V——風(fēng)速。
正常情況下,CP與風(fēng)機(jī)的葉尖速比和翼型升阻比的比值相關(guān),風(fēng)機(jī)葉片覆冰會造成葉片翼型的空氣動力學(xué)結(jié)構(gòu)改變,翼型升力減小,阻力增大,升阻比減小,最終使得風(fēng)機(jī)的風(fēng)能利用率下降[19]。因此,在風(fēng)速一定的情況下,風(fēng)機(jī)葉片結(jié)冰和P有明顯的對應(yīng)關(guān)系,如式(2)所示:
風(fēng)機(jī)葉片覆冰后風(fēng)機(jī)葉片表面的粗糙程度以及風(fēng)葉翼型的氣動外形發(fā)生改變,導(dǎo)致風(fēng)機(jī)輸出功率降低,風(fēng)速一定的情況下,輸出功率和風(fēng)速的比值降低,如圖3所示。根據(jù)實際數(shù)據(jù)生成新的特征,能夠較好地表示葉片結(jié)冰狀態(tài)。新特征為功率/風(fēng)速,記作power_wind_speed,公式如式(3)所示:
圖3 風(fēng)速與功率散點圖
式中:power——功率;wind_speed——風(fēng)速。
如圖3標(biāo)識部分所示,已有的數(shù)據(jù)中觀察到風(fēng)機(jī)接近或者達(dá)到額定功率后無結(jié)冰狀態(tài),通過強(qiáng)規(guī)則過濾掉此部分?jǐn)?shù)據(jù)。當(dāng)葉片處于非結(jié)冰情況下,風(fēng)機(jī)的功率會遵循風(fēng)機(jī)正常運行情況下的風(fēng)機(jī)輸出功率模型,當(dāng)風(fēng)機(jī)葉片發(fā)生結(jié)冰情況時,風(fēng)機(jī)功率降低,偏離正常功率曲線,無法達(dá)到額定功率[20]。本文通過最小二乘法對風(fēng)葉正常樣本進(jìn)行擬合,得到風(fēng)機(jī)正常功率曲線,最后通過該基線模型預(yù)測在給定風(fēng)速的情況下風(fēng)機(jī)的功率。數(shù)據(jù)集中所有的樣本得到對應(yīng)風(fēng)速下的預(yù)測功率與真實功率的偏離程度。新特征為預(yù)測功率與真實功率差值,記作powers,公式如(4)所示:
式中:Ppre——通過基線模型預(yù)測的功率,Ptrue——風(fēng)機(jī)輸出的實際功率。圖4顯示了風(fēng)機(jī)實際功率與基線模型預(yù)測功率數(shù)值的偏離程度,顯然結(jié)冰數(shù)據(jù)與基線模型有更大的偏差值。
圖4 功率基線模型
風(fēng)力發(fā)電機(jī)葉片為三葉片形式,風(fēng)機(jī)一般安裝完成后會根據(jù)嚴(yán)格的重量和力矩配平校準(zhǔn),使得葉片保持相對平衡的角度。由于結(jié)冰屬于不確定因素,每個葉片結(jié)冰程度不同,可能會造成葉片重量和力矩的不平衡。然而,如圖5所示??梢暬形唇?jīng)過預(yù)處理的原始SCADA 數(shù)據(jù),包括所有結(jié)冰數(shù)據(jù)和未結(jié)冰數(shù)據(jù)。風(fēng)機(jī)3個葉片的槳距角和變槳速率數(shù)據(jù)分布相對一致,難以從中分辨結(jié)冰和不結(jié)冰的狀態(tài),冗余特征容易造成訓(xùn)練模型過擬合和增加模型訓(xùn)練復(fù)雜度,因此將其均值作為新的特征。新特征為葉片平均槳距角和葉片平均變槳速率,分別記作mean_pitch_angle和mean_pitch_speed。
圖5 葉片槳距角和變槳速率數(shù)據(jù)分布
SCADA 數(shù)據(jù)中大量冗余特征影響模型構(gòu)建性能,特征選擇的主要目的是實現(xiàn)精準(zhǔn)降維,從而有效提高風(fēng)機(jī)葉片結(jié)冰故障診斷性能。XGBoost[21]是在梯度提升決策樹(Gradient boosting decision tree,GBDT)上進(jìn)行的優(yōu)化,具有魯棒性強(qiáng)的優(yōu)勢,充分考慮到了不同特征之間的關(guān)聯(lián)度,以及小方差的結(jié)冰敏感特征,所選特征更加適合深度神經(jīng)網(wǎng)絡(luò)模型。為了提取最佳特征,本研究基于XGBoost 算法進(jìn)行特征選擇。
XGBoost 是一個迭代殘差樹的集合,通過擬合新樹與前一顆樹的殘差,將目標(biāo)函數(shù)最小化并且生成新的預(yù)測值,最終將每棵樹預(yù)測值相加得到最準(zhǔn)確的預(yù)測值[22]。公式(5)為訓(xùn)練過程的目標(biāo)函數(shù):
式中:yj——真實值;Yj——預(yù)測值;L(yj,Yj)——yj和Yj之間的平方差損失函數(shù);Ω(fj)——正則項,(其中γ表示收縮系數(shù),用于控制樹的生成;T為葉子的數(shù)量;λ為L2范式的系數(shù);ω為葉子權(quán)重)。
另外,XGBoost 同時對損失函數(shù)進(jìn)行了2 階導(dǎo)數(shù)的計算,將原優(yōu)化問題轉(zhuǎn)化為凸優(yōu)化問題,提高了預(yù)測分類精確度和收斂速度,最終的目標(biāo)函數(shù)為:
式中:gj——損失函數(shù)L(?)的1 階導(dǎo)數(shù),hj——損失函數(shù)L(?)的2階導(dǎo)數(shù)。
基于XGBoost 算法做特征選擇時,算法在構(gòu)造增強(qiáng)樹設(shè)計過程中,通過獲得特征得分來表明每個特征對訓(xùn)練模型的重要性[23]。當(dāng)一個特征被更多的用于增強(qiáng)樹的關(guān)鍵決策,其得分就越高,據(jù)此得分來得到特征重要性排序。將經(jīng)過預(yù)處理和特征補(bǔ)充的數(shù)據(jù)通過XGBoost 算法建模,得到數(shù)據(jù)的特征重要度,重要度為特征劃分樹結(jié)點的次數(shù),每次劃分時通過貪心法選擇信息增益最大的特征作為分裂點,信息增益的計算公式如(7)所示:
基于XGBoost 特征選擇的結(jié)果在第5.3 節(jié)進(jìn)行詳細(xì)的介紹和分析。
深度神經(jīng)網(wǎng)絡(luò)可以從原始數(shù)據(jù)中自動提取深層次特征,消除人工特征選擇的不足。本文采用一維卷積層來捕獲數(shù)據(jù)信息流的局部序列特征,卷積層[24]通過卷積核在輸入數(shù)據(jù)進(jìn)行滑動以提取其局部特征,將特征數(shù)據(jù)作為卷積層的輸入。因此,卷積層的操作如式(8)所示:
式中:f(?)——激活函數(shù);bli——偏置項;wli——權(quán)重矩陣;xl-1——第l-1 層的輸出;xli——第l層的第i個特征。
同時一維殘差神經(jīng)網(wǎng)絡(luò)(1DRes-CNN)加入殘差塊[25],每個殘差塊由兩層卷積層以特定的方式構(gòu)成。
殘差塊的結(jié)構(gòu)如圖6所示。
圖6 殘差塊結(jié)構(gòu)
xl表示殘差塊的輸入,xl+1表示殘差塊的輸出。殘差神經(jīng)網(wǎng)絡(luò)將輸入xl直接傳到輸出來擬合殘差映射函數(shù),只學(xué)習(xí)輸入和輸出之間的殘差F1(xl),簡化了學(xué)習(xí)的目標(biāo)。從而可以更好地發(fā)揮深層次的CNN強(qiáng)大的學(xué)習(xí)能力,在加深網(wǎng)絡(luò)層數(shù)以提高網(wǎng)絡(luò)效率的同時避免了網(wǎng)絡(luò)性能的衰減。
本文提出的1DRes-CNN,其結(jié)構(gòu)如圖7所示。模型輸入為經(jīng)過風(fēng)機(jī)葉片結(jié)冰物理機(jī)制分析和XGBoost算法選取的特征,輸出為1或0,其中,1表示葉片結(jié)冰,0表示葉片正常。在該模型中,卷積核的大小設(shè)置為3*1,卷積核的數(shù)目為16。Dropout 層的作用是按照一定比例隨機(jī)丟棄一部分神經(jīng)元和連接,該比例設(shè)置為0.25。由于葉片結(jié)冰診斷屬于二分類問題,故損失函數(shù)選擇交叉熵?fù)p失函數(shù)。
圖7 一維殘差神經(jīng)網(wǎng)絡(luò)
本文提出的風(fēng)機(jī)葉片結(jié)冰診斷流程如圖8所示。將采集到的SCADA 數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。在訓(xùn)練階段,首先進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)標(biāo)記、數(shù)據(jù)分割、數(shù)據(jù)平衡問題、數(shù)據(jù)歸一化;然后基于風(fēng)機(jī)葉片結(jié)冰物理機(jī)制和SCADA 數(shù)據(jù)可視化進(jìn)行特征分析建立豐富的特征,并基于XGBoost 算法進(jìn)行特征選取,挖掘出更好表征葉片結(jié)冰故障的特征數(shù)據(jù);最后輸入1DRes-CNN 模型進(jìn)行訓(xùn)練,對模型參數(shù)調(diào)優(yōu)。在測試階段,對測試集進(jìn)行歸一化預(yù)處理,并選取特征,利用構(gòu)建好的1DRes-CNN 模型進(jìn)行風(fēng)機(jī)葉片結(jié)冰診斷,并對模型的性能做出評估。
圖8 風(fēng)葉結(jié)冰診斷流程
本文實驗使用的深度學(xué)習(xí)框架為Pytorch,編程語言為Python,CPU 為i7-9750H,操作系統(tǒng)為Windows。本文所采用的一維殘差神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。損失函數(shù)為交叉熵函數(shù),優(yōu)化器為Adam,學(xué)習(xí)率設(shè)置為0.01,批次大小設(shè)置為500,迭代次數(shù)為100次,激活函數(shù)為ReLU。
本文通過留出法(hold-out)對WT A 數(shù)據(jù)進(jìn)行劃分,其中:70%為訓(xùn)練集,30%為驗證集。此外,由于不同的風(fēng)電機(jī)組位于不同的地理位置,因此風(fēng)機(jī)SCADA數(shù)據(jù)分布之間存在很大的偏差,將WT A和WTB 風(fēng)機(jī)數(shù)據(jù)相互作為訓(xùn)練集和驗證集進(jìn)行實驗分析。將預(yù)處理和特征分析后的SCADA 數(shù)據(jù)經(jīng)過XGBoost 進(jìn)行特征選擇,將最終選取的數(shù)據(jù)作為模型的輸入。通過訓(xùn)練集對模型進(jìn)行訓(xùn)練,然后通過驗證集進(jìn)行性能測評,以檢驗該模型的綜合性能。
混淆矩陣通常用來評估分類模型的性能,表2為混淆矩陣的表現(xiàn)形式。
表2 混淆矩陣
基于混淆矩陣通過精確度(Precision)、準(zhǔn)確度(Accuracy)、召回率(Recall)、F1值等來進(jìn)一步評估分類模型,如式(9)所示:
式中:Precision——實際結(jié)冰占預(yù)測為結(jié)冰情況之比;Recall——預(yù)測為結(jié)冰與實際結(jié)冰情況之比;T1——對Precision和Recall進(jìn)行整體評價;Accuracy——正確分類的情況與錯誤分類的情況之比。
將經(jīng)過數(shù)據(jù)分析生成的特征與原始特征作為XGBoost 算法的輸入,以獲得不同特征重要度。XGBoost 算法的特征重要度排名如圖9所示。結(jié)果表明風(fēng)葉結(jié)冰對補(bǔ)充特征預(yù)測功率與真實功率差值最敏感,補(bǔ)充特征功率/風(fēng)速和環(huán)境機(jī)艙溫度差也是風(fēng)葉結(jié)冰的重要特征,與基于風(fēng)機(jī)葉片結(jié)冰物理機(jī)制分析的結(jié)果一致。外界的低溫環(huán)境是導(dǎo)致葉片結(jié)冰的最直接因素。同時,風(fēng)機(jī)葉片結(jié)冰后可能會造成風(fēng)機(jī)的氣動力學(xué)特性發(fā)生改變,從而造成風(fēng)機(jī)轉(zhuǎn)速的變化,所以風(fēng)機(jī)轉(zhuǎn)速與風(fēng)葉結(jié)冰一定程度會有直接的對應(yīng)關(guān)系。
圖9 基于XGBoost特征重要性排序
通過在驗證集上進(jìn)行測試,將特征重要度從高往低依次排序后,隨后遞增用于建模的特征維度,同時比較分類準(zhǔn)確度,準(zhǔn)確度最高的維度作為XGBoost選擇的最佳特征維度。比較1DRes-CNN模型診斷的準(zhǔn)確率,結(jié)果如圖10 所示。實驗結(jié)果表明,隨著XGBoost 中排名靠后的特征逐步剔除,分類的準(zhǔn)確性逐步提高,這主要是因為消除了冗余特征,
圖10 特征數(shù)量與模型準(zhǔn)確度關(guān)系
當(dāng)選擇通過XGBoost 選取特征的前9 維特征時,模型準(zhǔn)確率高達(dá)96.11%,當(dāng)繼續(xù)剔除特征時,模型準(zhǔn)確度有了明顯下降,表明剔除了有用特征。最終選取的9維特征如表3所示。實驗結(jié)果表明,本文應(yīng)用的特征選擇的方法可以準(zhǔn)確識別冗余特征。
表3 SCADA數(shù)據(jù)
為了驗證基于風(fēng)機(jī)葉片結(jié)冰物理機(jī)制的特征分析和XGBoost 相結(jié)合的特征選擇方法在1DRes-CNN模型上的性能,分別使用原始特征以及方差選擇法[26]、互信息法[27]、卡方檢驗法[28]3 種經(jīng)典特征選擇方法做對比。為了公平起見,將僅經(jīng)過預(yù)處理階段的26 維原始特征和各特征選擇方法所得到的最優(yōu)特征維度的訓(xùn)練集分別置入1DRes-CNN 模型進(jìn)行訓(xùn)練,然后使用測試集對訓(xùn)練好的模型性能進(jìn)行評估,對比驗證本文提出方法的有效性。
模型對驗證集的預(yù)測結(jié)果如表4所示。結(jié)果表明,相較于其它3 種特征選擇方法,XGBoost 算法有較明顯的優(yōu)勢,基于XGBoost 算法選擇的9 維特征用作診斷模型的輸入時,模型的診斷準(zhǔn)確率達(dá)到96.11%,召回率高達(dá)92.87%,說明選擇9維特征時,模型對風(fēng)葉結(jié)冰情況具有更高的識別率。其它特征選擇方法選取的最優(yōu)特征維度均高于XGBoost,說明保留了較多的冗余特征,但識別精度卻沒有提高,而經(jīng)過數(shù)據(jù)分析和XGBoost選取特征對葉片結(jié)冰具有更高的敏感性,1DRes-CNN模型可以更好地利用這些特征作出風(fēng)葉結(jié)冰故障診斷。
表4 特征選擇方法性能對比
為了評估所提模型的診斷性能,本文分別采用3個機(jī)器學(xué)習(xí)模型對比分析,對比模型分別為:卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)、支持向量機(jī)(Support vector machine,SVM)和隨機(jī)森林(Random forest,RF)。為了公平起見,已對SVM 和RF 模型參數(shù)進(jìn)行了優(yōu)化,包括SVM 的懲罰系數(shù)、RBF 參數(shù)以及RF 中樹的最大深度和樹的數(shù)量。為防止深層卷積神經(jīng)網(wǎng)絡(luò)發(fā)生過擬合,經(jīng)過實驗選擇,將CNN隱藏層設(shè)置為3層,其中包括一層卷積層、兩層全連接層。
將最終經(jīng)過XGBoost算法選取的9維特征作為4 個模型的輸入。表5顯示了在不同訓(xùn)練模型上的結(jié)果。其中,1DRes-CNN模型對風(fēng)葉結(jié)冰診斷效果最為突出,準(zhǔn)確度和F1 值均達(dá)到了95%以上,說明模型對風(fēng)葉結(jié)冰或風(fēng)葉正常情況具有較好的識別率。雖然RF 精確度達(dá)到98%以上,召回率卻僅僅達(dá)到82.27%,說明模型對葉片結(jié)冰的識別率較低,顯然該模型不利于風(fēng)葉結(jié)冰診斷任務(wù)。SVM 性能與CNN相似,然而SVM算法需要較長的計算時間,而風(fēng)機(jī)的SCADA 數(shù)據(jù)量龐大,因此不適合選擇SVM作為診斷模型。較淺層的CNN相較于1DRes-CNN 模型,綜合性能均低于后者,說明CNN 不能很好地提取深層特征,進(jìn)而也就不能很好地區(qū)分風(fēng)葉結(jié)冰與正常情況。
表5 4種算法分類結(jié)果/(%)
通過對4 個模型的綜合性能分析對比,得知本文提出的基于XGBoost 特征選擇的1DRes-CNN 模型具有更好的整體診斷準(zhǔn)確率。
由于不同的風(fēng)電機(jī)組位于不同的地理位置,因此風(fēng)機(jī)SCADA 數(shù)據(jù)分布之間存在很大的偏差。為了進(jìn)一步驗證所提模型的泛化能力,分別將WT A和WT B相互作為訓(xùn)練集和驗證集用于模型性能的評估。因驗證數(shù)據(jù)集具有嚴(yán)重的數(shù)據(jù)不均衡現(xiàn)象,故選取葉片結(jié)冰和葉片正常的正確識別率作為性能指標(biāo)可以更直觀地表示模型的泛化能力。實驗結(jié)果如表6所示。
表6 葉片結(jié)冰與葉片正常識別率/(%)
基于1DRes-CNN 風(fēng)葉結(jié)冰檢測模型在新的測試集上有較好的表現(xiàn),葉片結(jié)冰的識別率可達(dá)到平均84%的水平。在實際生產(chǎn)生活中,由于不同的風(fēng)電機(jī)受不同的地理位置和風(fēng)機(jī)型號參數(shù)的影響,因此風(fēng)機(jī)在運行參數(shù)和環(huán)境參數(shù)等方面存在很大的差異,造成了數(shù)據(jù)分布之間的偏差,在一定程度上影響了模型的診斷能力。以上驗證結(jié)果表明了1DRes-CNN模型具有良好的泛化能力。
本文提出了一種基于XGBoost 特征選擇和1DRes-CNN的風(fēng)葉結(jié)冰診斷方法,通過實驗對比分析得出的結(jié)論如下:
(1)針對風(fēng)機(jī)SCADA數(shù)據(jù)特征冗余問題,通過對風(fēng)機(jī)結(jié)冰物理機(jī)制和SCADA 數(shù)據(jù)可視化的分析,并基于XGBoost特征選擇方法選取最優(yōu)特征,相較于原始特征,1DRes-CNN具有更高的風(fēng)葉結(jié)冰診斷準(zhǔn)確率。
(2)利用一維卷積層自適應(yīng)地提取特征并做出葉片結(jié)冰診斷,加入殘差塊加深網(wǎng)絡(luò)層次的同時解決網(wǎng)絡(luò)優(yōu)化的過程中存在的梯度消失和梯度爆炸問題,與其它3個機(jī)器學(xué)習(xí)算法相比,該模型具有更高的綜合性能。
(3)模型具有較好的泛化能力,在不同風(fēng)機(jī)的風(fēng)葉結(jié)冰診斷任務(wù)中,模型的風(fēng)葉結(jié)冰識別率超過80%。
本文基于風(fēng)機(jī)SCADA 數(shù)據(jù)對風(fēng)機(jī)葉片結(jié)冰做出診斷,但未將業(yè)內(nèi)優(yōu)秀風(fēng)機(jī)專家的經(jīng)驗融入診斷模型當(dāng)中,未來可考慮借助已有經(jīng)驗,進(jìn)一步增強(qiáng)模型的診斷性能和泛化能力。