國(guó)電電力山東新能源開(kāi)發(fā)有限公司 苑宏利 呂明明 張小東 魯東大學(xué)數(shù)學(xué)與統(tǒng)計(jì)科學(xué)學(xué)院 汪健冬 楊秋蓮 付恩強(qiáng) 劉廣臣 華風(fēng)數(shù)據(jù)(深圳)有限公司 黃文廣 柯 超 陳 文
目前風(fēng)電行業(yè)隨著風(fēng)電機(jī)組運(yùn)行年限增加,大量風(fēng)電機(jī)組安全隱患不斷增加、造成運(yùn)維的成本不斷升高,使得風(fēng)電場(chǎng)的經(jīng)濟(jì)效益嚴(yán)重下降。為保證風(fēng)電機(jī)組健康安全運(yùn)行和降低風(fēng)場(chǎng)運(yùn)維成本,運(yùn)用機(jī)器學(xué)習(xí)結(jié)合大數(shù)據(jù)分析的大型風(fēng)電機(jī)組運(yùn)行狀態(tài)評(píng)估及故障診斷技術(shù)已成為風(fēng)電行業(yè)的重點(diǎn)研究。為了增強(qiáng)風(fēng)機(jī)發(fā)電的持續(xù)穩(wěn)定、降低風(fēng)電機(jī)組由于長(zhǎng)時(shí)間停機(jī)導(dǎo)致的利益損失,作為關(guān)鍵部位的主軸承研究意義重大。
關(guān)于主軸承故障診斷,基于LightGMB算法、深度信念網(wǎng)絡(luò)、回歸分析等算法已有眾多論文發(fā)表,對(duì)軸承進(jìn)行狀態(tài)監(jiān)測(cè)和故障診斷必須提取出反映軸承故障的特征信息,然而這些特征信息常淹沒(méi)于其他部件的噪聲干擾之中,為此國(guó)內(nèi)陳長(zhǎng)征等[1]用盲源分離算法、黃南天等[2]采用非平衡小樣本數(shù)據(jù)的風(fēng)機(jī)軸承故障深度對(duì)抗診斷,王桂蘭等[3]采用機(jī)器學(xué)習(xí)算法LightGMB,賈依達(dá)爾·熱孜別克等[4]提出了PCA-GAElman結(jié)合算法的模型來(lái)對(duì)齒輪箱軸承溫度進(jìn)行預(yù)測(cè),陳雪峰等[5]通過(guò)研究復(fù)合材料葉片、齒輪箱、發(fā)電機(jī)三大部件來(lái)對(duì)風(fēng)電機(jī)組進(jìn)行故障診斷與監(jiān)測(cè);烏彤等[6]對(duì)風(fēng)力發(fā)電機(jī)軸承故障的探究,總結(jié)了多個(gè)軸承故障的類(lèi)型與原因,并從時(shí)域、頻域、時(shí)頻三個(gè)角度對(duì)故障進(jìn)行診斷;馬立鵬等[7]對(duì)風(fēng)機(jī)變槳軸承與輪轂連接螺栓進(jìn)行疲勞分析;魏巍等[8]采用小波分析對(duì)風(fēng)機(jī)軸承退化狀態(tài)進(jìn)行研究。而指標(biāo)體系的選取,數(shù)據(jù)的來(lái)源等關(guān)鍵因素是建模的關(guān)鍵,我們綜合以上眾人的經(jīng)驗(yàn),對(duì)該部件進(jìn)行更深度的研究。
風(fēng)機(jī)實(shí)際運(yùn)行中主軸承部件與主軸承葉輪側(cè)溫度(CI_MainBearingRotorSideTemp)、主軸承齒輪箱側(cè)溫度(CI_MainBearingGbSideTemp)關(guān)系密切,因此本文主要研究以上兩個(gè)對(duì)象對(duì)風(fēng)電機(jī)組的故障進(jìn)行監(jiān)測(cè)。主要包括三個(gè)部分。首先,運(yùn)用4種算法pearson相關(guān)系數(shù)、隨機(jī)森林、CatBoost算法、XGBoost算法對(duì)15個(gè)經(jīng)驗(yàn)特征變量與2個(gè)研究對(duì)象的相關(guān)性排序進(jìn)行特征篩選,賦予每個(gè)模型等比例權(quán)重,計(jì)分排序;然后,利用篩選出的特征集運(yùn)用多種算法建模進(jìn)行主軸承故障監(jiān)測(cè),對(duì)比結(jié)果表明XGBoost算法模型最優(yōu);最后,運(yùn)用殘差進(jìn)行故障預(yù)警,利用風(fēng)機(jī)故障停機(jī)時(shí)效性,在風(fēng)機(jī)停機(jī)前提前預(yù)知故障狀態(tài),同時(shí)利用特征重要性排序作為故障來(lái)源診斷與定位的參考。
本文基于日照莒縣風(fēng)場(chǎng)的一號(hào)風(fēng)機(jī)進(jìn)行建模研究,從SCADA數(shù)據(jù)庫(kù)中提取了2018~2019年以10秒鐘為時(shí)間間隔的數(shù)據(jù)共約310萬(wàn)條。征求風(fēng)電專(zhuān)家意見(jiàn),從控制狀態(tài)篩選出并網(wǎng)狀態(tài)下的數(shù)據(jù)作為輸入數(shù)據(jù),刪去含有缺失值的數(shù)據(jù)行、刪除其他控制狀態(tài)下的數(shù)據(jù)行;列處理:刪除日期時(shí)間列,刪除控制狀態(tài)列,最終把數(shù)據(jù)處理成以一分鐘為時(shí)間間隔。
變量篩選、確立特征函數(shù)關(guān)系是模型的基礎(chǔ)。確定特征函數(shù)關(guān)系,據(jù)專(zhuān)家經(jīng)驗(yàn),主軸承葉輪側(cè)溫度、主軸承齒輪箱側(cè)溫度與主軸承的關(guān)系較為密切,對(duì)此建立雙變量與其它特征函數(shù)關(guān)系。特征變量集簡(jiǎn)潔有效、高靈敏度的特點(diǎn)是簡(jiǎn)化模型結(jié)構(gòu)、提升模型精度、訓(xùn)練高效機(jī)器學(xué)習(xí)模型的關(guān)鍵。因此尋找多特征變量之間的關(guān)系,排除相關(guān)性較小甚至無(wú)關(guān)變量對(duì)模型體系的影響是建模的關(guān)鍵,也是故障原因診斷和定位的重要參考。
特征變量篩選采用四種算法模型進(jìn)行變量重要性排序,即Pearson相關(guān)系數(shù)、隨機(jī)森林模型、XGBoost算法模型、CatBoost算法模型,對(duì)可能影響主軸承的15個(gè)輸入變量的重要性進(jìn)行排序,并分別平均賦予權(quán)重進(jìn)行綜合排序,排序結(jié)果以及其與主軸承葉輪側(cè)溫度(℃)、主軸承齒輪箱側(cè)溫度(℃)分別如下。
CI_WindSpeed1:15、15,CI_GearboxInputShaftTemp:11、11,CI_GearboxOutputShaftTemp:9、4,CI_GeaboxInletOilTemp:5、4,CI_GenBearingTemperature:6、1,CI_NacelleCabTemp:8、6,CI_PcsActivePower:13、13,CI_IprRealPowe:12、12,CI_PitchHubTempS1:3、2,CI_PitchHubTempS2:1、2,CI_PitchHubTempS3:2、7,CI_GenWindingTemperatureU1:10、8,CI_PcsMeasuredGenSpeed:14、14,CI_NacelleAirTemp:7、9,CI_OutsideAirTemp:4、10。
XGBoost(Exterme Gradient Boosting)算法[9]是以集成思想為基礎(chǔ),以梯度提升算法(Gradient Boost)為框架,是一個(gè)具有可拓展性的樹(shù)提升算法系統(tǒng),并非簡(jiǎn)單的將多個(gè)CART樹(shù)相加,而是利用加法模型和不斷遞進(jìn)的算法實(shí)現(xiàn)學(xué)習(xí)的優(yōu)化路徑。目前XGBoost已在競(jìng)賽、醫(yī)學(xué)、金融等多個(gè)領(lǐng)域具有不可替代的作用,此算法在損失函數(shù)中引入正則項(xiàng)等方法防止模型的過(guò)擬合,適用性較于其他算法模型也表現(xiàn)優(yōu)異,可更快更有效的處理大量數(shù)據(jù)。較與它相似的GBDT算法更加充分的利用了導(dǎo)數(shù)信息,使其能夠更快速地達(dá)到最優(yōu)。本文提出一種基于XGBoost算法模型用于主軸承故障監(jiān)測(cè)與故障原因診斷,流程如圖1。
圖1中對(duì)原始數(shù)據(jù)初步清洗后,篩選變量、提取特征函數(shù)關(guān)系,將風(fēng)機(jī)正常狀態(tài)下的特征數(shù)據(jù)基于XGBoost算法建立回歸分析進(jìn)行訓(xùn)練,從而對(duì)主軸承故障監(jiān)測(cè)建模,最終將模型嵌入風(fēng)機(jī)監(jiān)測(cè)系統(tǒng)中持續(xù)輸入系統(tǒng)后臺(tái)的實(shí)時(shí)監(jiān)測(cè)數(shù)據(jù),如何進(jìn)行故障監(jiān)測(cè)、判斷故障狀態(tài)體現(xiàn)于輸入數(shù)據(jù)中故障數(shù)據(jù)在模型中的異常趨勢(shì)會(huì)表現(xiàn)出與先前正常數(shù)據(jù)訓(xùn)練的風(fēng)機(jī)正常狀態(tài)下模型的趨勢(shì)圖產(chǎn)生分離,從而運(yùn)用風(fēng)機(jī)故障從故障先兆到故障停機(jī)的時(shí)效性,在兩趨勢(shì)分離之初進(jìn)行態(tài)勢(shì)分析,當(dāng)趨勢(shì)圖到達(dá)高限值,預(yù)測(cè)風(fēng)機(jī)即將進(jìn)入故障狀態(tài),從而完成主軸承故障狀態(tài)的監(jiān)測(cè)。
當(dāng)風(fēng)機(jī)從主軸承部件的模型結(jié)果判斷為故障狀態(tài)。接下來(lái)的目標(biāo)是進(jìn)行故障原因的診斷與定位,對(duì)此結(jié)合技術(shù)人員與模型建立的特征重要性排序結(jié)果,對(duì)主軸承可疑相關(guān)部件實(shí)施檢查和維護(hù),從而實(shí)現(xiàn)風(fēng)機(jī)主軸承防控。
綜合考慮到模型訓(xùn)練結(jié)果的準(zhǔn)確性、時(shí)效性,設(shè)定樹(shù)的深度、樹(shù)的棵數(shù)、葉子節(jié)點(diǎn)權(quán)重、學(xué)習(xí)率等參數(shù),采用機(jī)器學(xué)習(xí)常用方法網(wǎng)格搜索(grid search)進(jìn)行參數(shù)調(diào)優(yōu),獲取局部最優(yōu)解。為避免隨機(jī)劃分?jǐn)?shù)據(jù)集產(chǎn)生的偶然性,均采用多折交叉驗(yàn)證方法來(lái)降低隨機(jī)事件發(fā)生概率。隨著參數(shù)個(gè)數(shù)增長(zhǎng),參數(shù)組合更是呈現(xiàn)指數(shù)增長(zhǎng),在保證模型準(zhǔn)確率的前提下使模型達(dá)到最優(yōu)解,還需有效降低時(shí)間成本,本文XGBoost模型中主要設(shè)定以下參數(shù):樹(shù)的最大深度(max_depth)可以控制過(guò)擬合;學(xué)習(xí)速率(learning_rate)控制每一步迭代的步長(zhǎng);樹(shù)的個(gè)數(shù)(n_estimators)取值適當(dāng)大時(shí)更好,提高魯棒性;最小葉子節(jié)點(diǎn)樣本權(quán)重和(min_child_weight)可避免學(xué)習(xí)局部特殊樣本。其調(diào)優(yōu)結(jié)果分別為50、6、200、0.05。
為評(píng)價(jià)XGBoost模型的準(zhǔn)確率及穩(wěn)健性,本文計(jì)算溫度實(shí)際均值、預(yù)測(cè)均值,MSE(Mean Squared Error)、MAE(Mean Absolute Error)、MAPE(Mean Absolute Percent Error)、R2(R Squared)六項(xiàng)評(píng)價(jià)指標(biāo)。其中R2稱(chēng)為擬合優(yōu)度,R2的值越接近1說(shuō)明模型預(yù)測(cè)值對(duì)實(shí)際觀測(cè)值的擬合程度越好。通過(guò)上述六個(gè)評(píng)價(jià)指標(biāo)對(duì)整個(gè)模型訓(xùn)練的好壞進(jìn)行總體的評(píng)判。計(jì)算公式如下:
為了展示XGBoost算法模型在預(yù)測(cè)主軸承部件重要相關(guān)溫度的效果,建立多個(gè)其他模型用于對(duì)比,仍采用相同的80%數(shù)據(jù)用于訓(xùn)練模型、20%數(shù)據(jù)用于檢驗(yàn)?zāi)P停C合各項(xiàng)指標(biāo)將各個(gè)算法模型進(jìn)行對(duì)比分析,實(shí)驗(yàn)表明XGBoost在該風(fēng)機(jī)部件的預(yù)測(cè)能力優(yōu)異,相比于其它算法模型預(yù)測(cè)準(zhǔn)確率高、穩(wěn)健性強(qiáng)、能保證較好的時(shí)效性,綜合來(lái)看選取XGBoost算法是正確的。表1是以主軸承齒輪箱側(cè)溫度為待預(yù)測(cè)值的各項(xiàng)評(píng)價(jià)指標(biāo)對(duì)比表。
表1 模型對(duì)比表
以上各項(xiàng)評(píng)價(jià)指標(biāo)均在模型達(dá)到最優(yōu)參數(shù)時(shí)記錄,結(jié)果表明XGBoost算法的各項(xiàng)指標(biāo)均優(yōu)于另外兩種算法,模型擬合優(yōu)度R2(R Squared)更是接近于1,說(shuō)明了估計(jì)值與對(duì)應(yīng)的實(shí)際數(shù)據(jù)之間擬合程度很高,可靠性強(qiáng)。從計(jì)算耗時(shí)來(lái)看,隨機(jī)森林耗時(shí)較短,但在風(fēng)場(chǎng)實(shí)際運(yùn)行中,需準(zhǔn)確性更好的模型來(lái)降低因風(fēng)機(jī)長(zhǎng)時(shí)間故障停機(jī)造成的經(jīng)濟(jì)損失,做到提前預(yù)警故障、提前維修故障。綜上,本文選取XGBoost算法作為研究最終的算法模型(圖2)。
為驗(yàn)證模型的有效性,選取日照某風(fēng)場(chǎng)風(fēng)機(jī)實(shí)測(cè)數(shù)據(jù)作為對(duì)象進(jìn)行驗(yàn)證,在主軸承發(fā)生故障前,其對(duì)應(yīng)的主軸承齒輪箱側(cè)溫度會(huì)處于非正常狀態(tài)下溫度,即模型預(yù)測(cè)溫度值與實(shí)測(cè)溫度值會(huì)出現(xiàn)偏差,若兩條溫度曲線偏離持續(xù)增加,則需考慮其即將發(fā)生故障。該風(fēng)機(jī)于2019年1月3日18時(shí)(日期來(lái)自風(fēng)電系統(tǒng)故障記錄表)主軸傳感器發(fā)生故障,取其故障前后各一段時(shí)間約2500個(gè)樣本數(shù)據(jù)進(jìn)行分析。
上圖3紅色代表實(shí)測(cè)溫度值,藍(lán)色代表預(yù)測(cè)溫度值,易知在b點(diǎn)到c點(diǎn)風(fēng)機(jī)主軸承部件出現(xiàn)故障,導(dǎo)致實(shí)際溫度曲線與模型預(yù)測(cè)溫度曲線發(fā)生偏離,由故障記錄表顯示,確實(shí)在該時(shí)間段發(fā)生了故障,在樣本點(diǎn)a附近,該部位的溫度也顯示出異常波動(dòng);在樣本點(diǎn)c后,風(fēng)機(jī)維修完成,該溫度逐漸趨于穩(wěn)定,到達(dá)正常溫度范圍。
主軸承齒輪箱側(cè)溫度殘差圖(圖4),更加清晰發(fā)現(xiàn)圖中圈出范圍內(nèi)預(yù)測(cè)值與實(shí)測(cè)值的偏離,表現(xiàn)為殘差曲線則出現(xiàn)大幅度的波動(dòng),技術(shù)人員便可通過(guò)殘差曲線波動(dòng)信息對(duì)故障風(fēng)機(jī)進(jìn)行早維修、早重啟、早運(yùn)行,本文便是通過(guò)觀測(cè)判斷殘差曲線的長(zhǎng)時(shí)間波動(dòng)來(lái)診斷主軸承故障,提前發(fā)現(xiàn)風(fēng)機(jī)異常,進(jìn)而降低因?yàn)轱L(fēng)機(jī)長(zhǎng)時(shí)間因故障停機(jī)造成的損失,大大提高風(fēng)場(chǎng)實(shí)際利益。實(shí)驗(yàn)結(jié)果表現(xiàn)出本文提出的模型實(shí)用性良好。