張國珍, 王其樂, 葉天澤, 楊錫運
(1.龍源電力集團股份有限公司,北京 100034; 2.中能電力科技開發(fā)有限公司,北京 100034; 3.華北電力大學 控制與計算機工程學院,北京 102206)
受氣象環(huán)境、隨機性載荷、脈沖電壓等因素影響,發(fā)電機、齒輪箱等風電機組部件的工作運行條件往往存在較大的不確定性,從而給風電機組的穩(wěn)定運行埋下了諸多安全隱患[1]。相關部件若后期維護不及時或缺乏針對性,很容易引發(fā)意外故障,嚴重時甚至會折損風機的壽命。
齒輪箱等部件的高溫降容狀態(tài)是表征風電機組亞健康狀態(tài)的良好指標。當高溫降容狀態(tài)不超過某一閥值時,通常表明風機各部件、各子系統(tǒng)整體運行良好;而當其超過閥值顯示異常時,則可能指示存在裝置老化、轉子超速、線圈短路等問題[2,3]。因此可以通過開展風機高溫降容狀評估,提前研判風機潛在的運行故障,以便及時針對性地開展運維工作。
隨機森林(Random Forest,RF)具有良好的抗噪性和泛化能力,過擬合問題影響較小[4,5]。除此之外,RF能夠評估各個特征在分類問題上的重要性,有助于挑選最優(yōu)特征子集。雖然RF算法的泛化能力和分類性能較好,但隨機設置參數(shù)時其分類穩(wěn)定性仍會受到影響,最優(yōu)特征子集也會收到影響,最優(yōu)特征子集的維度也會因此而增加。文獻[6]通過vine-copula模型對機組各個特征進行相關性分析,建立合適的貝葉斯概率圖形網(wǎng)絡,從而實現(xiàn)對高溫降容狀態(tài)的評估。
鑒于傳統(tǒng)的基于單一算法或理論的狀態(tài)評估方法的預測精度尚不夠理想[7-10],為了實現(xiàn)考慮時序特性的負荷特征自動提取和非線性降維。本文基于“數(shù)據(jù)驅動”的思想,提出基于隨機森林和長短時記憶(LSTM)自動編碼器(Autoencoder,Aec)的風機高溫降容狀態(tài)檢測方法。將具備時序記憶功能的LSTM單元作為Aec的神經(jīng)元。利用隨機森林算法對SCADA數(shù)據(jù)進行特征約簡,自動編碼器的非線性特征提取能力和LSTM的時序特征提取能力,建立重構曲線,擬定合適的閾值。從而對風機高溫降容狀態(tài)進行評估檢測,為風電場運維方案的編制提供提供科學依據(jù),從而更好地應對和處置齒輪箱高溫降容狀態(tài),減少及避免更大的損失。
隨機森林算法是一種基于傳統(tǒng)決策樹的統(tǒng)計學習理論,其基本思路為:(1)利用重采樣抽樣法從初始樣本集中選取k組數(shù)據(jù),每組數(shù)據(jù)的容量都與初始樣本集相同;(2)分別對k組數(shù)據(jù)建立k個決策樹模型,并計算相應的分類結果;(3)根據(jù)k個分類結果來投票決定其最終分類。為了處理風機高溫降容中的多維特征信號,提高模型的預測能力,本文采用隨機森林算法對SCADA數(shù)據(jù)中的多維特征進行約簡,如圖1所示。
圖1 隨機森林算法流程圖Fig.1 Flow chart of random forest algorithm
隨機森林[8]特征選擇中舍棄掉風機SCADA數(shù)據(jù)的冗余特征,降低了干擾因素,篩選后的特征指標體系更具代表性,從而有效地提高分類的精度。其算法流程如下所示:
(1)計算Ck(x)在對應OOBk中的準確率acck;
(3)計算特征x(j)(j=1,2,…,n)的重要性度量。
(1)
(4)從現(xiàn)有的特征數(shù)據(jù)中刪去重要性較低的特征,從而得到全新的特征子集,在全新特征子集上構建隨機森林C*(·),得到全新特征子集對應隨機森林算法中的OOB誤差率;
(5)重復步驟(4),當僅剩1個特征時此流程結束,通過最小OOB誤差率的方法來決定最終的特征子空間。
LSTM是一種特別的循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN),善于解決時間序列問題,RNN中的梯度爆炸和梯度消失等問題也得到有效解決[11-15]。LSTM中單元狀態(tài)ct的內容由兩個門來控制:一個是遺忘門,它決定了上一時刻的單元狀態(tài)ct-1有多少保留到當前時刻ct;另一個是輸入門,它決定了當前時刻網(wǎng)絡的輸入xt有多少保存到單元狀態(tài)ct。而LSTM的當前輸出值ht是由輸出門和單元狀態(tài)ct來決定。LSTM的結構原理[16]如圖2所示。
圖2 LSTM網(wǎng)絡結構Fig.2 Structure of LSTM network
LSTM的長期記憶特點可在時間序列數(shù)據(jù)分析中得到有效應用,結合當前信息和篩選后的過往信息,最終實現(xiàn)預測的作用。為了確保模型的預測精度,需要參考預測值與實際值的重構誤差,進行參數(shù)調節(jié)。
(2)
式中:h(t-1)i∈Rm為t-1時刻第i個編碼單元的輸出狀態(tài)向量;輸入向量xti∈Rm,W;R為m×d和m×m階系數(shù)權重矩陣;函數(shù)k(·)通常為激活函數(shù)“tanh”。將Xi中的每個列向量作為編碼器的輸入,可得
(3)
(4)
hi=ht,ni
(5)
(6)
式中:j為hti的行數(shù),池化步驟結束后,hi輸入解碼器,輸入可重構為
(7)
(8)
圖3 LSTM-Aec網(wǎng)絡結構Fig.3 Structure of LSTM-Aec
風電機組在夏季存在齒輪箱油溫過高導致機組出力降低頻發(fā)的情形(簡稱高溫降容狀態(tài)),機組頻繁出現(xiàn)高溫降容狀態(tài),會引起潤滑油化學性能降低,容易造成齒面的磨損和損壞,從而影響風機的正常運行。因此,根據(jù)機組的監(jiān)測數(shù)據(jù)實時評估機組齒輪箱導致的高溫降容運行狀態(tài),提前知曉風機亞健康狀態(tài),制定合理的運行方案,不僅可以減少風機出力損失,也能避免造成零部件損壞,從而避免發(fā)生更嚴重的故障造成風機長時間停機、維修時間過長以及產(chǎn)生高昂維修成本。
SCADA系統(tǒng)能夠提供的機組參數(shù)較為龐雜,從數(shù)據(jù)量龐大的SCADA系統(tǒng)中分析有效數(shù)據(jù)、提取關鍵特征時,隨機森林算法憑借決策樹的特性,利用所有決策樹得到的平均不純度(基尼系數(shù))衰減來量化特征的重要性,根據(jù)重要性可以剔除相關度很低的特征,從而有效精簡模型特征。這大大減少了模型的訓練時間,而且模型的擬合能力也不會降低。
風機齒輪箱油溫會隨著運行風速、運行功率的隨機波動發(fā)生不規(guī)則變化,會呈現(xiàn)非平穩(wěn)時間序列特點。傳統(tǒng)神經(jīng)網(wǎng)絡每層之間的節(jié)點無連接, 而循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)則不同,RNN通過保存當前隱藏層的信息,并通過隱藏層之間的連接將信息傳遞到下一時刻的隱藏層,使得網(wǎng)絡具有“記憶”功能。記憶功能的存在使得RNN在處理時間序列性問題上表現(xiàn)突出。但網(wǎng)絡在進行反向傳播時, 對模型的線性關系參數(shù)具有長期依賴性,在運算過程中序列過長會引起梯度消失現(xiàn)象,網(wǎng)絡參數(shù)過大則會產(chǎn)生梯度爆炸現(xiàn)象。本文采用的LSTM方法的網(wǎng)絡利用時間反向傳播訓練,在保存了記憶功能的基礎上,克服了梯度消失的問題。
因此,為了提高齒輪箱高溫降容狀態(tài)評估的準確率,本文提出了基于隨機森林和LSTM-自編碼算法的風機高溫降容狀態(tài)評估方法,該方法兼顧了準確性和快速性,具體流程圖如圖4所示。
圖4 本文模型流程圖Fig.4 Flow chart of proposed model
其原理步驟如下:首先,從SCADA系統(tǒng)中獲取完整數(shù)據(jù)、機組異常情況申訴和故障異常情況申訴中的高溫降容填報信息。根據(jù)風速功率散點圖通過最優(yōu)組內方差算法挑選出異常功率點,同時刪除停機點。緊接著,將處理后的數(shù)據(jù)作為隨機森林算法的輸入,利用所有決策樹得到的平均不純度(基尼系數(shù))衰減來量化特征的重要性,通過序列后向搜索方法求取各特征組合下的分類精度,刪除冗余特征。最后,將特征篩選后的數(shù)據(jù)輸入LSTM-Aec網(wǎng)絡,利用LSTM-Aec算法的“記憶”功能以及非線性特征提取能力,得出高溫降容狀態(tài)的評估結果。
為驗證本文所述模型對風機高溫降容狀態(tài)評估的有效性,采用內蒙古東部某風電場中2019年1月~12月從SCADA系統(tǒng)中采集到的完整數(shù)據(jù)以及機組異常情況申訴和故障異常情況申訴中的高溫降容填報信息。該風場裝機200臺風機齒輪箱油溫統(tǒng)計結果表明,機組高溫降容散點主要集中在高風速、中高功率、高齒輪箱油溫等區(qū)域,如圖5所示。
圖5 風速-齒輪箱油溫-功率散點圖Fig.5 Wind speed-gearbox oil temperature-power scatter diagram
經(jīng)過篩選后,提取數(shù)據(jù)集中的6 000條數(shù)據(jù)作為仿真數(shù)據(jù),其中有5 000條數(shù)據(jù)是風機正常運行狀態(tài)時的數(shù)據(jù),1 000條是風機高溫降容狀態(tài)下的運行數(shù)據(jù)。為了得到穩(wěn)定泛化算法模型,將整體數(shù)據(jù)集分訓練集(80%)、測試集(20%) 輸入模型。
完成實驗模型構建并確定模型結構后,需要通過性能指標對模型進行評價。根據(jù)預測類別與真實類別將預測結果分為:真正例(TP)正確地識別風機處于高溫降容狀態(tài)、假正例(FP)將未處于高溫降容狀態(tài)判斷為處于高溫降容狀態(tài)、真反例(TN)將處于高溫降容狀態(tài)判斷為未處于高溫降容狀態(tài)、假反例(FN)正確識別風機處于正常狀態(tài) 4 種,得到的混淆矩陣如表1。
表1 分類結果混淆矩陣
根據(jù)混淆矩陣,可以得到4個評價指標:
(9)
(10)
(11)
(12)
式中:精準率P表示實際高溫降容狀態(tài)次數(shù)占預測為高溫降容狀態(tài)次數(shù)的比例;召回率R表示預測為高溫降容狀態(tài)次數(shù)占實際高溫降容狀態(tài)次數(shù)的比例;準確率A表示測試集中高溫降容狀態(tài)分類正確的次數(shù)占測試集數(shù)據(jù)總量的比例;F1分數(shù)是一種調和分數(shù),為對二分類問題分類效果的一種評價指標,兼顧了精準率和準確率。
鑒于大量數(shù)據(jù)的冗余特征會降低分類計算速度與準確度,本此采用隨機森林算法對SCADA數(shù)據(jù)進行特征約簡,在此基礎上對數(shù)據(jù)集進行特征權重的求取,將SCADA系統(tǒng)采集的19種特征參數(shù)作為輸入,得出每一個特征屬性在隨機森林分類過程中所占的重要性權重大小,如圖6所示。
圖6 各特征在高溫降容狀態(tài)診斷中所占的權重Fig.6 Weight of each feature in diagnosis of capacity reduction at high temperature
特征權重分類結果表明,機組高溫降容狀態(tài)與風速、有功/無功功率、齒輪箱油溫等特征權重較大,而A/B/C相電流和電壓的權重則較小,可見風機高溫降容狀態(tài)與風速、功率、齒輪箱油溫、發(fā)電機轉速等特征息息相關。
本文采用的是序列后向搜索方法,以此搜索能夠找到實現(xiàn)最大分類準確率的最佳特征子集,最終特征選擇的實驗結果。統(tǒng)計結果表明,當非重要特征(在重要性排序中次序靠后的特征)依次剔除時,分類結果的準確率在逐漸升高,這是因為相關性較低的特征和冗余特征的減少提升了分類器的性能;如圖7所示,當分類結果的準確率達到最高值0.851 3之后又逐漸降低,則是因為相關性較大的特征被剔除,降低了分類器的性能。這說明了隨機森林算法能夠較為有效地檢測并剔除低相關性特征和冗余特征,從而提高分類器的性能。因此,選取前9個特征的組合作為LSTM-Aec算法的特征輸入。
圖7 特征組合與高溫降容狀態(tài)識別準確率的關系Fig.7 Relationship between feature combination and state recognition accuracy of capacity reduction at high-temperature
本文的實驗仿真環(huán)境為:Python 3.7.0,Windows10×64,4 GB RAM,i5-5250 CPU,1.60 GHz。其中LSTM-Aec模型的訓練次數(shù)被設置為200次。LSTM-Aec結構的隱含層包括一層編碼層和一層解碼層,輸入層節(jié)點數(shù)和輸入特征向量維度相同,解碼和編碼層節(jié)點數(shù)只是輸入層節(jié)點數(shù)的一半。正常運行狀態(tài)下,訓練集和驗證集的平均絕對誤差變化曲線如圖8所示,從圖中可以看出,LSTM-Aec模型在訓練次數(shù)達到100前后時,平均絕對誤差逐漸收斂,最終達到0.170 7??梢奓STM-Aec的重構數(shù)據(jù)樣本能夠有效的反映原始輸入數(shù)據(jù)的相關信息。
圖8 LSTM-Aec的重構誤差變化曲線Fig.8 Reconstruction errors of LSTM-Autoenconder
閾值的大小會直接影響準確率的變化,本文觀測窗口設置為5,閾值選為2.5,訓練結果如圖9所示。
圖9 驗證集重構誤差散點及閾值Fig.9 Validation set reconstruction error scatter and threshold
為了驗證本文所提出的隨機森林結合LSTM-Aec模型的優(yōu)越性,將基于RNN的自編碼網(wǎng)絡和基于LSTM-Aec算法的檢測方法得出的結果用來對比,同時對比隨機森林(RF)、支持向量機(SVM)、BP神經(jīng)網(wǎng)絡三種傳統(tǒng)分類方法的分類結果。其中BP的網(wǎng)絡結構為9-50-1;SVM選用多項式基核函數(shù)作為核函數(shù);RF采用第1章所述步驟;RNN-Aec結構與LSTM-Aec相同;以上均采用同樣的訓練數(shù)據(jù)與測試數(shù)據(jù),對得到的測試集擬合結果進行分析。仿真結果如表2所示。
表2 算法性能對比
從表2中可以看出,傳統(tǒng)分類方法中RF和SVM的準確率A、精確率P和調和分數(shù)F1相差無幾,SVM較RF稍有優(yōu)勢,BP模型則比SVM和RF要全面占優(yōu),這是因為它作為神經(jīng)網(wǎng)絡算法的優(yōu)勢所在。本文所提方法在三個精準率、召回率和F1值這三個指標上均表現(xiàn)良好,RF-LSTM-Aec模型的精確率P和召回率R都要明顯高于未使用隨機森林進行處理的LSTM-Aec模型,分別為0.980 9和0.976 0。而RNN-Aec模型的檢測結果中,各項指標均有所下滑,其中精確率P、召回率R和調和分數(shù)F1分別為0.957 4、0.946 3和0.951 8。綜上所述,本文所提出的基于隨機森林和LSTM-Aec模型的性能總體上優(yōu)于RNN-Aec和LSTM-Aec算法以及傳統(tǒng)的分類方法。
為了客觀、準確表征風電機組高溫降容狀態(tài)本文提出了一種基于隨機森林算法和LSTM-Aec算法相結合的風機高溫降容狀態(tài)評估模型。
(1)采用隨機森林算法把SCADA數(shù)據(jù)的特征維度約簡至9個,消除冗余特征對試驗仿真造成的不良影響;
(2)利用LSTM-Aec算法計算檢測值與實際值之間的重構誤差進行參數(shù)調節(jié),設定合適的閾值,以便對風機高溫降容狀態(tài)進行高精度的評估檢測;
(3)實驗仿真結果表明,基于該方法的風機高溫降容狀態(tài)評估的精確率和準確率分別達0.998 7和0.992 1,整體優(yōu)于基于RNN-Aec和基于LSTM-Aec算法的檢測方法以及傳統(tǒng)分類方法。