孫堅(jiān), 楊宇兵
(1.三峽大學(xué)電氣與新能源學(xué)院, 宜昌 443002; 2.新能源微電網(wǎng)湖北省協(xié)同創(chuàng)新中心(三峽大學(xué)), 宜昌 443002)
風(fēng)能具有無污染和持續(xù)的特性,是發(fā)電領(lǐng)域最受歡迎的清潔能源之一[1]。為了更好地獲取和利用風(fēng)能,風(fēng)力發(fā)電機(jī)一般安裝于低溫度、高濕度的高海拔地區(qū)[2],因此葉片很容易結(jié)冰。結(jié)冰會(huì)加速葉片疲勞,降低其使用壽命[3];造成風(fēng)力機(jī)年發(fā)電量巨大損失[4];對(duì)人員安全構(gòu)成較大隱患。對(duì)葉片狀態(tài)的檢測(cè)可以有效做出結(jié)冰預(yù)警,為除冰或停機(jī)提供重要依據(jù)。因此,葉片結(jié)冰狀態(tài)檢測(cè)的研究,對(duì)保障風(fēng)力機(jī)安全和避免大規(guī)模停電具有重要意義。
目前對(duì)風(fēng)力機(jī)葉片結(jié)冰檢測(cè)的研究方法可以概括為直接法和間接法[5]。直接法通過檢測(cè)葉片表面物理信息的變化來反映其狀態(tài)的變化,在工程實(shí)際中具有局限性[6-7]。
間接法是利用風(fēng)力機(jī)工作期間的環(huán)境參數(shù)、運(yùn)行參數(shù)、葉片狀態(tài)參數(shù)等對(duì)其覆冰情況進(jìn)行檢測(cè)[5]。這些參數(shù)主要來源是數(shù)據(jù)采集與監(jiān)控(supervisory control and data acquisition, SCADA)系統(tǒng)。利用SCADA系統(tǒng)的結(jié)冰檢測(cè)方法具有成本低、數(shù)據(jù)獲取方便等優(yōu)點(diǎn)。如隨機(jī)森林[8](random forest, RF)、支持向量機(jī)[9](support vector machine, SVM)、棧式自編碼網(wǎng)絡(luò)[10]和卷積神經(jīng)網(wǎng)絡(luò)[11](convolutional neural networks, CNN)等方法在葉片結(jié)冰檢測(cè)領(lǐng)域取得一定效果。另外采用同質(zhì)集成的分類模型在該領(lǐng)域也有所應(yīng)用。Tao等[12]以極限梯度提升樹(extreme gradient boosting, XGBoost)為基礎(chǔ)學(xué)習(xí)器,通過Stacking的方式構(gòu)建了Stacked-XGBoost分類器。Wang等[13]以窗口滑動(dòng)算法為基礎(chǔ),將多個(gè)長(zhǎng)短期記憶(long short term memory, LSTM)網(wǎng)絡(luò)檢測(cè)結(jié)果進(jìn)行組合,構(gòu)造了Wavelet-LSTM分類器。
上述方法采用單一分類器或者同質(zhì)集成分類器判別結(jié)冰狀態(tài),檢測(cè)性能有待提升。而異質(zhì)集成模型可以結(jié)合不同個(gè)體學(xué)習(xí)器的優(yōu)勢(shì)[14]。Liu等[14]將深度神經(jīng)網(wǎng)絡(luò)(deep neural networks, DNN)、SVM和RF模型進(jìn)行組合,構(gòu)建了En-DAEs模型,以多數(shù)投票原則對(duì)個(gè)體學(xué)習(xí)器的檢測(cè)結(jié)果進(jìn)行歸類,準(zhǔn)確度達(dá)到了95.5%。Xiao等[5]對(duì)CNN和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks, RNN)、CNN和LSTM、CNN和門控循環(huán)單元(gated recurrent unit,GRU)分別進(jìn)行融合,并用固定權(quán)重加權(quán)集成,構(gòu)建了GSDE模型,準(zhǔn)確度達(dá)到了96.04%。上述模型雖然取得一定效果,但是個(gè)體學(xué)習(xí)器受權(quán)重約束很大,不能充分發(fā)揮其優(yōu)勢(shì)。因此如何實(shí)現(xiàn)個(gè)體學(xué)習(xí)器在集成策略中權(quán)重的自適應(yīng),成為葉片結(jié)冰檢測(cè)研究的重點(diǎn)。
針對(duì)上述問題,現(xiàn)提出一種堆疊降噪自動(dòng)編碼器和權(quán)重自適應(yīng)的集成學(xué)習(xí)結(jié)冰檢測(cè)模型。首先考慮原始數(shù)據(jù)中變量維度對(duì)模型性能的影響,采用堆疊降噪自動(dòng)編碼器深度挖掘原始數(shù)據(jù)中葉片結(jié)冰的強(qiáng)關(guān)聯(lián)特征;其次,為了避免參數(shù)過多導(dǎo)致局部最優(yōu),通過貝葉斯算法和K折交叉驗(yàn)證對(duì)個(gè)體分類器進(jìn)行超參數(shù)選擇;接著,構(gòu)建了包含個(gè)體分類器權(quán)重的數(shù)學(xué)模型,并用序列二次規(guī)劃算法優(yōu)化權(quán)重值,得到新的權(quán)重分配體系,進(jìn)而以最優(yōu)加權(quán)投票策略構(gòu)建組合模型。最后,將壓縮后的樣本輸入分類器進(jìn)行訓(xùn)練,通過多項(xiàng)指標(biāo)對(duì)檢測(cè)結(jié)果進(jìn)行評(píng)價(jià),從而驗(yàn)證該方法在結(jié)冰檢測(cè)方面的可行性。
堆疊降噪自動(dòng)編碼器(stacked denoising auto encoder, SDAE)的基本單元是自動(dòng)編碼器(auto encoder, AE)。AE由編碼器和解碼器兩部分組成[14]。其基本結(jié)構(gòu)圖如圖1所示。
圖1 AE的基本結(jié)構(gòu)Fig.1 Basic structure of AE
假設(shè)輸入樣本x={x1,x2,…,xn},編碼過程將x通過編碼函數(shù)f(x)映射到隱藏層h={h1,h2,…,hm}中,其數(shù)學(xué)表達(dá)式為
h=f(x)=σe(W1x+b1)
(1)
式(1)中:W1為輸入層與隱藏層之間的權(quán)重矢量;b1為輸入層與隱藏層之間的偏差矢量;σe為編碼器的激活函數(shù)為RELU函數(shù)。
解碼過程將h通過解碼重構(gòu)的方式,映射到輸出層,過程與編碼過程相似,表達(dá)式為
y=σd(W2h+b2)
(2)
式(2)中:W2為隱藏層與輸出層之間的權(quán)重矢量;b2為隱藏層與輸出層之間的偏差矢量;σd為解碼器的激活函數(shù)為RELU函數(shù)。
將加入噪聲的樣本輸入AE,構(gòu)建新的網(wǎng)絡(luò),稱之為降噪自動(dòng)編碼器(denoising auto-encoders, DAE)。SDAE是由多個(gè)DAE堆疊而成的。AE重點(diǎn)關(guān)注解碼結(jié)果是否與原始輸入一致,而SDAE 更關(guān)注編碼后的數(shù)據(jù)是否更能代表原始數(shù)據(jù),從而在減少空間維數(shù)的同時(shí)保留最大信息的編碼特征,提高網(wǎng)絡(luò)的魯棒性。
為了使分類器對(duì)結(jié)冰判別效果最優(yōu),要求個(gè)體學(xué)習(xí)器能充分發(fā)揮自身優(yōu)勢(shì),因此需要對(duì)其進(jìn)行超參數(shù)優(yōu)化。另外Bagging加權(quán)集成算法中個(gè)體學(xué)習(xí)器的權(quán)重對(duì)最終分類結(jié)果的影響很大,傳統(tǒng)的權(quán)重分配方式為等權(quán)重或固定權(quán)重[5],不能充分發(fā)揮個(gè)體學(xué)習(xí)器的優(yōu)勢(shì)。因此為了得到最優(yōu)的權(quán)重分配,用序列二次規(guī)劃算法對(duì)其進(jìn)行尋優(yōu)。最優(yōu)權(quán)重集成學(xué)習(xí)流程圖如圖2所示。
圖2 改進(jìn)的Bagging集成學(xué)習(xí)模型Fig.2 Improved Bagging ensemble learning model
集成學(xué)習(xí) (ensemble learning, EL)是將多個(gè)基礎(chǔ)分類器融合,使預(yù)測(cè)結(jié)果更準(zhǔn)確的模型,其中Boosting集成學(xué)習(xí)是將相同個(gè)體分類器通過相加的方式進(jìn)行集成,而Bagging異質(zhì)集成是通過投票進(jìn)行集成,通常使用硬投票和軟投票兩種集成策略。硬投票是通過對(duì)檢測(cè)結(jié)果按照多數(shù)投票原則進(jìn)行分類,不能充分發(fā)揮每個(gè)模型的優(yōu)勢(shì)[14]。軟投票是對(duì)每個(gè)個(gè)體學(xué)習(xí)器的輸出概率與其自身權(quán)重進(jìn)行加權(quán)組合,根據(jù)給定的置信度判定樣本類別,該方法具有取長(zhǎng)補(bǔ)短的效果。軟投票的加權(quán)組合策略表達(dá)式為
(3)
為個(gè)體學(xué)習(xí)器的總數(shù);pj為第j個(gè)模型的輸出概率;wj為第j個(gè)模型的權(quán)重。
為了選取模型的最優(yōu)超參數(shù)組合,用貝葉斯算法(Bayesian optimization, BO)對(duì)Bagging集成模型中個(gè)體分類器進(jìn)行優(yōu)化。貝葉斯優(yōu)化包括概率代理模型和采集函數(shù)兩個(gè)部分[15-16]。
2.2.1 概率代理模型
概率代理模型首先得到目標(biāo)函數(shù)f的先驗(yàn)概率分布p(f)。接著在采集函數(shù)達(dá)到最大值的位置采樣,即D1:t={(x1,f1),(x2,f2),…,(xt,ft)},從而得到f的邊際似然分布p(D1:t)。根據(jù)已知信息將該位置的信息修訂為后驗(yàn)分布,即
(4)
式(4)中:t為當(dāng)前采樣點(diǎn);p(f|D1:t)為后驗(yàn)分布;p(D1:t|f)為似然分布。
為了使貝葉斯優(yōu)化的精度更高,概率代理模型采用高斯過程(Gaussian processes, GP),f(x)遵循高斯分布,即
f(x)~GP[μ,k(x,x′)]
(5)
式(5)中:μ為均值,μ=E[f(x)];k(x,x′)為協(xié)方差函數(shù),k(x,x′)=E{[f(x)-μ(x)][f(x′)-μ(x′)]};x和x′為兩個(gè)隨機(jī)變量。
2.2.2 采集函數(shù)
采集函數(shù)是在優(yōu)化過程中搜索下一個(gè)采集點(diǎn)的依據(jù)。用PI作為采集函數(shù),表示下一個(gè)樣本點(diǎn)可以更新目標(biāo)函數(shù)的最優(yōu)參數(shù)[16],表達(dá)式為
αt(x;D1:t)=p[f(x)≤v*-ε]
(6)
式(6)中:v*為目標(biāo)函數(shù)在當(dāng)前的最優(yōu)值;ε為平衡參數(shù);φ(·)為標(biāo)準(zhǔn)正態(tài)分布累積分布函數(shù);σt(x)為后驗(yàn)標(biāo)準(zhǔn)差。
2.3.1 受約束的權(quán)重模型
考慮到個(gè)體學(xué)習(xí)器之間具有一定的差異性,且模型的輸出概率為非線性關(guān)系,根據(jù)交叉熵?fù)p失函數(shù),建立含權(quán)重wj的概率與標(biāo)簽的損失函數(shù)[17],即
(7)
(8)
2.3.2 序列二次規(guī)劃算法
上述所提出的權(quán)重分配模型,不難看出是一個(gè)非線性優(yōu)化問題,為解決該問題,使用序列二次規(guī)劃(sequential quadratic programming, SQP)算法進(jìn)行求解。SQP由于其全局收斂性和線性收斂速度,在解決小規(guī)模非線性優(yōu)化問題上具有一定有效性。SQP的步驟如下[18]。
(1)給定SPQ法中迭代的初始點(diǎn)。
(2)將式(7)在迭代點(diǎn)處簡(jiǎn)化為二次規(guī)劃問題。
(3)求解上述二次規(guī)劃問題,對(duì)最優(yōu)解進(jìn)行更新。
(4)如果達(dá)到迭代次數(shù),輸出最優(yōu)解;否則在該方向上繼續(xù)搜索,轉(zhuǎn)向步驟(2)。
結(jié)冰檢測(cè)模型通過SDAE挖掘數(shù)據(jù)之間的內(nèi)在聯(lián)系,提取強(qiáng)關(guān)聯(lián)性特征作為核心數(shù)據(jù)輸入原始個(gè)體學(xué)習(xí)器進(jìn)行訓(xùn)練,并用貝葉斯優(yōu)化對(duì)每個(gè)模型進(jìn)行超參數(shù)尋優(yōu);將測(cè)試數(shù)據(jù)輸入保存的最優(yōu)模型,用2.3節(jié)的集成策略將結(jié)果進(jìn)行加權(quán)組合,根據(jù)給定的置信度得到最終的分類結(jié)果;最后通過評(píng)價(jià)指標(biāo)對(duì)模型的有效性進(jìn)行評(píng)價(jià)。具體過程如圖3所示。
圖3 風(fēng)力機(jī)葉片結(jié)冰檢測(cè)流程圖Fig.3 Wind turbine blade icing detection flow chart
實(shí)驗(yàn)數(shù)據(jù)來自2017年工業(yè)大數(shù)據(jù)創(chuàng)新競(jìng)賽平臺(tái),由金風(fēng)科技提供。其中記錄了15號(hào)風(fēng)力機(jī)從2015年11月1日—2016年1月1日的工況及葉片結(jié)冰狀態(tài),該數(shù)據(jù)集用于模型訓(xùn)練;記錄了21號(hào)風(fēng)力機(jī)2015年11月1日—2015年12月1日的運(yùn)行情況,該數(shù)據(jù)集用于驗(yàn)證。兩個(gè)典型實(shí)例的樣本均經(jīng)過脫敏處理,且每個(gè)時(shí)間戳的間隔為7 s。兩臺(tái)風(fēng)力機(jī)的采樣點(diǎn)數(shù)分別為393 886和190 494,含有26個(gè)特征變量,其標(biāo)簽如表1所示。
表1 原始數(shù)據(jù)特征變量Table 1 Original data feature variables
訓(xùn)練數(shù)據(jù)集中正常(標(biāo)簽為0)和結(jié)冰(標(biāo)簽為1)樣本的比例為14.66。剔除異常數(shù)據(jù)后,以滑動(dòng)窗口為100,步長(zhǎng)為1的方式進(jìn)行取樣,并通過下采樣使得正常樣本和結(jié)冰樣本比例為4∶1。保留3 500個(gè)時(shí)間戳構(gòu)建新的樣本集,將其輸入SDAE網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)降維,并用Min-Max公式進(jìn)行歸一化,即
(9)
式(9)中:x′(i)為歸一化后的樣本值;x(i)為歸一化前的樣本值;xmax和xmin分別為當(dāng)前樣本組中的最大值和最小值。
采用三層的AE網(wǎng)絡(luò)構(gòu)建SDAE模型[17],其中三個(gè)隱藏層的節(jié)點(diǎn)數(shù)分別為256、128、64,初始學(xué)習(xí)率為0.001,衰減率為0.96。為了檢驗(yàn)SDAE對(duì)原始樣本的信息挖掘和數(shù)據(jù)相似性判斷能力,將編碼器的輸出用t分布隨機(jī)鄰域嵌入[19](t-distributed stochastic neighbor embedding, t-SNE)方法降維可視化,如圖4所示。
圖4 基于t-SNE的數(shù)據(jù)可視化Fig.4 T-SNE-based dataset visualization
如圖4所示,結(jié)冰樣本和正常樣本在二維平面中用不同的方式表示。從樣本的整體分布模式不難看出,兩類樣本分布在同一范圍內(nèi),這說明葉片在不同狀態(tài)下運(yùn)行時(shí)的工況具有一定的相似性,即只依靠環(huán)境變量或運(yùn)行參數(shù)難以判斷當(dāng)下風(fēng)力機(jī)葉片的覆冰情況。如圖4(a)所示,兩類樣本交叉分布,數(shù)據(jù)群相互堆疊,正常樣本和結(jié)冰樣本耦合關(guān)系較為嚴(yán)重,說明原始數(shù)據(jù)中存在冗余特征,對(duì)樣本集產(chǎn)生了噪聲影響。如圖4(b)所示,兩類樣本基本呈點(diǎn)群分布。這說明降維數(shù)據(jù)保留了原始數(shù)據(jù)的歷史信息,同時(shí)降低了原始數(shù)據(jù)中噪聲的影響。通過分析不同維度下集成分類器的準(zhǔn)確度來確定輸入樣本的維度,結(jié)果如圖5所示。
圖5 不同維度準(zhǔn)確度對(duì)比Fig.5 Comparison of accuracy in different dimensions
如圖5所示,準(zhǔn)確度隨著維度的增加整體呈先增后減的趨勢(shì)。準(zhǔn)確度最高值是在樣本輸入維度為10的情況下,達(dá)到了99.2%。結(jié)合圖4可以判斷原始樣本集中部分參數(shù)不僅對(duì)樣本整體的有效性有一定影響,對(duì)模型的準(zhǔn)確度同樣存在干擾。低維樣本雖然保留了原始數(shù)據(jù)的歷史信息,但過少的變量不足以精確識(shí)別葉片當(dāng)下的運(yùn)行狀態(tài);而維度過高時(shí),存在的噪聲會(huì)對(duì)分類器產(chǎn)生一定的負(fù)面影響。
Bagging集成模型中基礎(chǔ)分類器的性能及其差異都會(huì)影響集成模型的分類效果。因此,立足于不同分類器的檢測(cè)效果,選擇RF、XGBoost、輕量梯度提升機(jī)(light gradient boosting machine, LightGBM)、K最鄰近(K-nearest neighbor, KNN)作為個(gè)體學(xué)習(xí)器,構(gòu)建BO-RF、BO-XGBoost、BO-LightGBM、BO-KNN模型,通過五折交叉驗(yàn)證的方式確定其準(zhǔn)確度最優(yōu)時(shí)的超參數(shù),如表2所示。
表2 個(gè)體學(xué)習(xí)器的超參數(shù)Table 2 Hyperparameters of the individual model
為了檢驗(yàn)個(gè)體分類器和集成學(xué)習(xí)模型在貝葉斯超參數(shù)優(yōu)化后的性能是否提升,通過分類準(zhǔn)確度對(duì)其進(jìn)行了對(duì)比,如圖6所示。為了方便表示,用AE-EL代替本文所構(gòu)建的模型。
圖6 優(yōu)化前后各模型的準(zhǔn)確率Fig.6 Accuracy of each model before and after optimization
如圖6所示,優(yōu)化后個(gè)體學(xué)習(xí)器及集成分類器的性能均有所提升,其中LightGBM和AE-EL最為明顯,較優(yōu)化前提升了5.6%。改善較小的是XGBoost,提升了2.7%??偟膩碚f,貝葉斯優(yōu)化在基礎(chǔ)分類器的參數(shù)尋優(yōu)方面做出了一定貢獻(xiàn),有效提升了模型的分類性能。
3.4.1 評(píng)價(jià)指標(biāo)
本實(shí)驗(yàn)根據(jù)葉片真實(shí)結(jié)冰情況和模型判斷結(jié)果之間的一致性,來評(píng)價(jià)本文構(gòu)建模型的好壞。用混淆矩陣中各項(xiàng)數(shù)值作為一致性評(píng)價(jià)標(biāo)準(zhǔn),并通過其計(jì)算模型最終的分類結(jié)果。其中結(jié)冰樣本代表正例,正常樣本代表反例?;煜仃嚾绫?所示。
表3 混淆矩陣Table 3 Confusion matrix
在結(jié)冰檢測(cè)過程中,希望可以將葉片結(jié)冰時(shí)的狀態(tài)盡可能識(shí)別,以達(dá)到對(duì)冬季風(fēng)力機(jī)葉片結(jié)冰狀態(tài)的精準(zhǔn)預(yù)警。本文中采用分類準(zhǔn)確度(accuracy)、f1分?jǐn)?shù)、馬修斯相關(guān)系數(shù)(Matthews correlation coefficient)、BS(Brier score)作為分類器性能的評(píng)價(jià)指標(biāo),分別記作ia、if、im、ib。其中ib用來衡量概率預(yù)測(cè)的準(zhǔn)確性,值越低代表檢測(cè)概率與樣本真實(shí)標(biāo)簽越接近[17]。上述4個(gè)指標(biāo)的計(jì)算式分別為
(10)
(11)
(12)
(13)
式中:n為樣本個(gè)數(shù);yi為第i個(gè)樣本的真實(shí)標(biāo)簽;p(xi)為第i個(gè)樣本的概率估計(jì)。
3.4.2 分類結(jié)果分析
在軟投票集成策略中,需要通過訓(xùn)練過程確定各個(gè)體學(xué)習(xí)器和集成分類器的置信度,對(duì)測(cè)試樣本的概率評(píng)估大于等于置信度時(shí)判斷該樣本為結(jié)冰樣本,否則判斷該樣本為正常樣本。本文中根據(jù)分類精確率P和召回率R的交叉點(diǎn)來確定置信度,如圖7所示。
圖7 各分類器的置信度Fig.7 Confidence of each classifier
(14)
(15)
如圖7所示,精確率和召回率兩者呈相互制約的關(guān)系。在分類器的概率估計(jì)值等于置信度的點(diǎn),假反例和假正例一樣多。超過置信度時(shí),精確率上升而召回率下降,此時(shí)分類器對(duì)測(cè)試集中狀態(tài)為結(jié)冰的樣本誤判率更高。要使系統(tǒng)預(yù)警情況越真實(shí),必須更正模型的判斷機(jī)制,讓超過置信度的樣本恢復(fù)為結(jié)冰狀態(tài),因此選擇二者交叉點(diǎn)作為分類判斷依據(jù)。各分類器的權(quán)重、置信度及指標(biāo)如表4所示。
表4 各分類器檢測(cè)結(jié)果Table 4 Detection results of each classifier
如表4所示,各分類器的置信度在[0.246, 0.400]區(qū)間內(nèi),這表明個(gè)體分類器在結(jié)冰檢測(cè)方面有一定差異卻又不失精度。根據(jù)序列二次規(guī)劃優(yōu)化的個(gè)體學(xué)習(xí)器權(quán)重來看,LightGBM對(duì)集成學(xué)習(xí)器的貢獻(xiàn)最高,而KNN貢獻(xiàn)最低,且均滿足式(8)的約束條件。
在準(zhǔn)確度ia、if和im3個(gè)指標(biāo)上,個(gè)體學(xué)習(xí)器中LightGBM整體表現(xiàn)較好,KNN的各項(xiàng)指標(biāo)均表現(xiàn)欠佳。而本文中所構(gòu)建的AE-EL學(xué)習(xí)器除了if分?jǐn)?shù)外均高于個(gè)體分類器。其中ia指標(biāo)比KNN提升了7.6%,達(dá)到99.2%;im指標(biāo)比KNN提升了7.8%,達(dá)到了86.7%,這表明所構(gòu)建的AE-EL學(xué)習(xí)器能夠結(jié)合個(gè)體學(xué)習(xí)器的優(yōu)勢(shì),在結(jié)冰檢測(cè)方面的性能有所提升。由于if指標(biāo)忽略了真反例的值,使得AE-EL學(xué)習(xí)器略低于LightGBM。另外,本文中所構(gòu)建的模型ib值最低,從側(cè)面反映出了本文所提的權(quán)重優(yōu)化方法在權(quán)重集成策略中的可行性,集成分類器的概率估計(jì)值可以與樣本標(biāo)簽更好地?cái)M合。
此外,為驗(yàn)證本文所構(gòu)建的集成分類器的泛化能力,用21號(hào)風(fēng)力機(jī)的數(shù)據(jù)進(jìn)行仿真。驗(yàn)證過程的數(shù)據(jù)集與訓(xùn)練過程樣本大小及類別比例均相等,用ia、if、im指標(biāo)對(duì)驗(yàn)證結(jié)果進(jìn)行評(píng)價(jià),如表5所示。
表5 21號(hào)風(fēng)力機(jī)的驗(yàn)證結(jié)果Table 5 Verification results of No.21 wind turbine
如表5所示,21號(hào)風(fēng)力機(jī)上集成分類器與個(gè)體學(xué)習(xí)器相比在3個(gè)指標(biāo)均表現(xiàn)最好,準(zhǔn)確度達(dá)到了95.7%,相比KNN分類器提升了11.1%。對(duì)個(gè)體學(xué)習(xí)器的各個(gè)指標(biāo)進(jìn)行分析,可以看出KNN在單獨(dú)應(yīng)用于結(jié)冰檢測(cè)中時(shí)表現(xiàn)最差,而LightGBM表現(xiàn)較好??傮w來說,集成分類器在對(duì)風(fēng)力機(jī)結(jié)冰狀態(tài)進(jìn)行判別時(shí),不僅對(duì)同一組樣本的分類性能有效,對(duì)不同風(fēng)力機(jī)也有一定的泛化能力。
為了驗(yàn)證本文所構(gòu)建異質(zhì)集成分類器的有效性,將本文方法與同質(zhì)集成模型Stacked-XGBoost[12]、WaveletLSTM[13]進(jìn)行對(duì)比;另外為了驗(yàn)證本文所改進(jìn)的權(quán)重組合策略的可行性,將本文所用的個(gè)體分類器用等權(quán)重的方式進(jìn)行加權(quán),構(gòu)建AE-EL1分類器,并將AE-EL與AE-EL1、En-DAEs[14]及固定權(quán)重策略構(gòu)建的分類器GSDE[5]進(jìn)行對(duì)比。結(jié)果如表6所示。
表6 不同集成模型結(jié)果對(duì)比Table 6 Results comparison of different ensemble models
如表6所示,在同質(zhì)集成模型中,Stacked-XGBoost在ia和if兩個(gè)指標(biāo)的表現(xiàn)比Wavelet-LSTM好,但是與異質(zhì)集成模型中多數(shù)投票原則構(gòu)建的En-DAEs模型及AE-EL模型相比,ia和if指標(biāo)會(huì)遜色一些;在異質(zhì)集成模型中,不同集成策略下模型的判別結(jié)果相差比較大。對(duì)于ia指標(biāo)來說,本文提出的最優(yōu)權(quán)重集成策略最好,比基于固定權(quán)重策略的GSDE模型提升了8.3%。對(duì)于if指標(biāo),本文模型與En-DAEs稍有偏差,但其對(duì)系統(tǒng)做出正確預(yù)警的影響微乎其微。對(duì)于im指標(biāo),本文模型比基于等權(quán)重策略構(gòu)建的AE-EL1提升了11.5%,這說明對(duì)個(gè)體學(xué)習(xí)器權(quán)重的優(yōu)化可以削弱數(shù)據(jù)不平衡對(duì)模型性能的影響,從而提升系統(tǒng)的穩(wěn)定性。
提出了一種基于SDAE網(wǎng)絡(luò)和Bagging最優(yōu)權(quán)重集成學(xué)習(xí)的風(fēng)力機(jī)葉片結(jié)冰檢測(cè)模型。首先,利用SDAE對(duì)原始葉片運(yùn)行狀態(tài)數(shù)據(jù)集進(jìn)行壓縮,以降低噪聲對(duì)分類器性能的影響。然后用貝葉斯算法優(yōu)化RF、XGBoost、LightGBM、KNN的超參數(shù),使個(gè)體學(xué)習(xí)器在集成分類器中能夠表現(xiàn)最佳。最后,根據(jù)交叉熵?fù)p失函數(shù)建立了對(duì)個(gè)體學(xué)習(xí)器權(quán)重的約束方程和約束條件,提出了基于序列二次規(guī)劃的最優(yōu)加權(quán)集成策略。
為了驗(yàn)證數(shù)據(jù)降維的有效性、貝葉斯優(yōu)化的優(yōu)越性以及最優(yōu)加權(quán)集成策略的可行性,對(duì)其結(jié)果進(jìn)行了對(duì)比分析,得出了以下結(jié)論。
(1)通過t-SNE對(duì)SDAE壓縮樣本的可視化,發(fā)現(xiàn)所提取數(shù)據(jù)能夠有效保留原始數(shù)據(jù)的歷史信息,結(jié)合對(duì)不同維度分類準(zhǔn)確度的對(duì)比,得到輸入10維樣本時(shí)可以使分類器性能最優(yōu)。
(2)與優(yōu)化前的各分類器進(jìn)行對(duì)比,貝葉斯優(yōu)化可以使個(gè)體學(xué)習(xí)器的性能進(jìn)一步提升,從而為集成分類器做更高貢獻(xiàn)。
(3)與個(gè)體學(xué)習(xí)器及其他集成分類器相比,最優(yōu)加權(quán)集成策略可以使結(jié)冰分類準(zhǔn)確度最高提升8.3%,而馬修斯相關(guān)系數(shù)最高提升11.5%,驗(yàn)證了最優(yōu)加權(quán)集成策略在異質(zhì)集成分類器中的可行性。另外通過21號(hào)風(fēng)力機(jī)驗(yàn)證了本文所構(gòu)建的模型在不同風(fēng)機(jī)上均具有較好的適應(yīng)性。