王競一,曹 歡,劉曉冬,楊文廣,張 明
(1.河北涿州京源熱電有限責(zé)任公司,河北 保定 072750;2.南京天洑軟件有限公司,江蘇 南京 211106)
隨著火電廠運行管理模式的精細(xì)化,特別是隨著智能化技術(shù)在火電廠中的應(yīng)用,優(yōu)化火電廠整個系統(tǒng)中關(guān)鍵環(huán)節(jié)的運行方式、降低輔機等設(shè)備的異常停機、提高設(shè)備運行經(jīng)濟性和可靠性,成為火電廠提質(zhì)增效的重要手段?;痣姀S化學(xué)水處理系統(tǒng)是火電廠的重要輔助系統(tǒng)?;痣姀S化學(xué)水處理系統(tǒng)通常包括鍋爐補給水、凝結(jié)處理、廢水處理三個部分,是整個電力生產(chǎn)系統(tǒng)中的重要組成部分。由于火電廠不同環(huán)節(jié)對水質(zhì)的高要求,化學(xué)水處理系統(tǒng)通常較為復(fù)雜,且運行過程對異常和故障的容忍度低。為保持化學(xué)水處理系統(tǒng)運行在較優(yōu)狀態(tài),需定期對化學(xué)水處理系統(tǒng)進(jìn)行清洗,清洗周期的優(yōu)化對于水質(zhì)的保持和運行的經(jīng)濟性都具有十分重要的影響。通過關(guān)鍵參數(shù)趨勢預(yù)測,可以對設(shè)備的性能狀態(tài)退化進(jìn)行趨勢預(yù)測,可以輔助運行人員發(fā)現(xiàn)參數(shù)異常以及合理安排清洗計劃。
本文以化學(xué)水處理系統(tǒng)關(guān)鍵設(shè)備的運行參數(shù)預(yù)測為目標(biāo),提出了一種基于mRMR和LSTM的時間序列預(yù)測方法,可以針對運行數(shù)據(jù)中影響水處理系統(tǒng)性能的關(guān)鍵參數(shù),建立高準(zhǔn)確度的水處理系統(tǒng)參數(shù)預(yù)測與評價方法,通過與隨機森林?jǐn)?shù)等多種算法進(jìn)行對比,證明了方法的有效性,為短期趨勢預(yù)測和清洗周期預(yù)測提供方法支撐。
典型的時間序列預(yù)測訓(xùn)練的過程包括輸入?yún)?shù)的選擇、時間序列的數(shù)據(jù)步長和窗口的選擇、訓(xùn)練算法的選擇以及超參的選擇。在建立預(yù)測模型的過程中,需要根據(jù)選擇的時間長度進(jìn)行時間序列的預(yù)處理,由于實際系統(tǒng)的采樣率較高,每秒1次數(shù)據(jù)采集,在預(yù)測較長時間的參數(shù)狀態(tài)值時,需考慮中長期的歷史趨勢,存在了時間序列長度難以被長短時記憶模型有效捕獲的困難,即數(shù)據(jù)數(shù)據(jù)的時間間隔和窗口大小將對結(jié)果具有顯著影響。
對此,本文提供了一種分層的超參優(yōu)化選擇思路,即首先使用mRMR來進(jìn)行特征參數(shù)的選擇,然后通過對比訓(xùn)練進(jìn)行時間序列的數(shù)據(jù)步長和窗口的選擇,最后進(jìn)行LSTM網(wǎng)絡(luò)層數(shù)和神經(jīng)元個數(shù)的超參選擇,最終完成模型的訓(xùn)練。對于本方法中的關(guān)鍵組成部分的原理描述如下。
進(jìn)行特征參數(shù)選擇之前,首先要根據(jù)測量數(shù)據(jù)進(jìn)行數(shù)據(jù)的預(yù)處理,入口流量的分布規(guī)律如圖1所示。
圖1 入口流量分布規(guī)律
由圖1可知,入口流量為0的時間占據(jù)了相當(dāng)?shù)谋壤?,這表明,在數(shù)據(jù)預(yù)處理中,需要對數(shù)據(jù)進(jìn)行篩選,去掉停機時間的數(shù)據(jù),同時利用清洗時間將數(shù)據(jù)進(jìn)行分割,以正確捕獲數(shù)據(jù)規(guī)律,為預(yù)測模型的建立提供良好的數(shù)據(jù)基礎(chǔ)。
在原始測量參數(shù)中,存在較多的變量,為分析變量直接的相關(guān)性,特別是對預(yù)測性能的相關(guān)性,本文采用最小冗余最大相關(guān)性的特征參數(shù)選擇方法。
最小冗余最大相關(guān)性(mRMR)是一種濾波式的特征選擇方法,一種常用的特征選擇方法是最大化特征與分類變量之間的相關(guān)度,就是選擇與分類變量擁有最高相關(guān)度的前k個變量。但是,在特征選擇中,單個好的特征的組合并不能增加分類器的性能,因為有可能特征之間是高度相關(guān)的,這就導(dǎo)致特征變量的冗余。因此最終有了mRMR,即最大化特征與分類變量之間的相關(guān)性,而最小化特征與特征之間的相關(guān)性。這就是mRMR的核心思想。它不僅考慮到了特征和label之間的相關(guān)性,還考慮到了特征和特征之間的相關(guān)性。度量標(biāo)準(zhǔn)使用的是互信息(Mutual Information,MI)。對于mRMR方法,特征子集與類別的相關(guān)性通過各個特征與類別的信息增益的均值來計算,而特征與特征的冗余使用的是特征和特征之間的互信息加和再除以子集中特征個數(shù)的平方。
(1)互信息
定義:給定兩個隨機變量x和y,他們的概率密度函數(shù)(對應(yīng)于連續(xù)變量)為p(x),p(y),p(x,y),則互信 息為
互信息是信息論里一種有用的信息度量,它可以看成是一個隨機變量中包含的關(guān)于另一個隨機變量的信息量,或者說是一個隨機變量由于已知另一個隨機變量而減少的不確定性。
(2)mRMR目標(biāo)
mRMR的目標(biāo)就是找出含有m個特征的特征子集S,這m個特征需滿足以下兩點條件:
1)保證特征和類別的相關(guān)性最大;
2)確保特征之間的冗余性最小。
由于RNN存在梯度消失的問題,學(xué)者提出了長短時記憶神經(jīng)網(wǎng)絡(luò)模型(Long Short-Term Memory,LSTM)來解決這個問題。除了隱狀態(tài)向量外,LSTM還維護一個能夠?qū)刂箷r間步所觀測到的信息進(jìn)行編碼的記憶單元。記憶單元由三個門結(jié)構(gòu)控制:輸入門、輸出門和遺忘門。
LSTM單元的具體結(jié)構(gòu)如圖2所示。在每一個時間步t,首先,遺忘門的向量f通過一個關(guān)于當(dāng)前時刻輸入x和上一個時刻的隱狀態(tài)f的函數(shù)得到。當(dāng)遺忘門的值接近1時,來自上一個記憶單元c的信息將會被保留,當(dāng)遺忘門的值接近0時,來自上一個記憶單元的信息將會被遺忘。之后,另一個關(guān)于當(dāng)前時刻輸入x和上一個時刻的隱狀態(tài)h的函數(shù)將會導(dǎo)出輸入門向量i。該輸入門向量將會被加到記憶單元中形成c。最后,輸出門將會決定哪些來自記憶單元的信息被用來形成新的新狀態(tài)h。
圖2 LSTM單元結(jié)構(gòu)圖
為驗證本文所提出的方法,針對化學(xué)水處理的反滲透設(shè)備的一段壓差,基于本文提出的方法,進(jìn)行了4h和12h提前預(yù)測,為狀態(tài)的識別和預(yù)警提供方法和模型基礎(chǔ)。原始數(shù)據(jù)集的采樣間隔為10s,長度為1年。采用前文中的方法,剔除停機時間的數(shù)據(jù),得到有效數(shù)據(jù)共計142萬組,其中訓(xùn)練數(shù)據(jù)占比70%,測試數(shù)據(jù)占比30%。
利用mRMR方法,針對反滲透設(shè)備進(jìn)行了特征參數(shù)選擇,選擇結(jié)果見表1。
表1 特征參數(shù)選擇結(jié)果
利用特征參數(shù)選擇得到的參數(shù),以及優(yōu)化選擇的時間窗口參數(shù),構(gòu)建了多個LSTM訓(xùn)練模型,自動篩選模型超參數(shù),按訓(xùn)練結(jié)果從中選取合適的組合。
4h預(yù)測的LSTM模型最優(yōu)的層數(shù)為2層,神經(jīng)元的個數(shù)為10個。建立的短時記憶模型網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 長短時記憶模型網(wǎng)絡(luò)結(jié)構(gòu)
通過訓(xùn)練得到的預(yù)測結(jié)果如圖4所示。
圖4 差壓4h預(yù)測
對于12h預(yù)測模型,選擇網(wǎng)絡(luò)層數(shù)為2,通過訓(xùn)練,得到的預(yù)測結(jié)果如圖5所示。利用特征參數(shù)選擇得到的參數(shù),構(gòu)建了訓(xùn)練模型,自動篩選模型超參數(shù),按訓(xùn)練結(jié)果從中選取合適的組合。
圖5 差壓12h預(yù)測
從機理的角度看,對于不同的目標(biāo)預(yù)測時長,最優(yōu)的輸入?yún)?shù)的時間間隔和窗口大小是不同的。對于4h和12h的壓差預(yù)測,本文分別計算了時間間隔為2 min和10 min, 窗口大小為2 h、3 h和4 h,對于預(yù)測準(zhǔn)確度的影響,最終得到的結(jié)果見表2和表3。
表2 4 h提前預(yù)測效果
表3 12 h提前預(yù)測結(jié)果
可以看到,當(dāng)預(yù)測時長為4 h時,數(shù)據(jù)間隔取10 min,數(shù)據(jù)窗口為3 h是預(yù)測效果最好。當(dāng)預(yù)測時長為12 h時,數(shù)據(jù)間隔為10 min,數(shù)據(jù)窗口為4 h,預(yù)測效果更好。
作為對比,本文在相同輸入樣本之下,同時使用支持向量機SVR、隨機森林RF和集成學(xué)習(xí)梯度提升決策樹GBDT,SVR使用RBF核函數(shù),隨機森林中數(shù)目的個數(shù)為100,GBDT中弱學(xué)習(xí)器的個數(shù)為100。
根據(jù)最終訓(xùn)練的結(jié)果(表4)可以得出。不論對于4h預(yù)測還是12 h預(yù)測,使用LSTM的精度要好于另外三種算法,進(jìn)一步證明了本文提出的組合算法的有效性。
表4 不同預(yù)測方法對比表
本文以火電廠化學(xué)水處理系統(tǒng)為對象,提出了一種基于mRMR和LSTM的時間序列預(yù)測方法,提供分層的超參優(yōu)化選擇思路,即首先使用mRMR來進(jìn)行特征參數(shù)的選擇,然后使用通過對比訓(xùn)練進(jìn)行時間序列的數(shù)據(jù)步長和窗口的選擇,最后進(jìn)行LSTM網(wǎng)絡(luò)層數(shù)和神經(jīng)元個數(shù)的超參選擇,最終完成模型的訓(xùn)練。
將該方法應(yīng)用在反滲透設(shè)備一段壓差的預(yù)測之中,分析了運行數(shù)據(jù)中影響該參數(shù)的關(guān)鍵參數(shù),針對4h和12h的差壓參數(shù)預(yù)測優(yōu)化選擇了時間步長和窗口大小的,最后建立基于長短時記憶模型網(wǎng)絡(luò)的參數(shù)預(yù)測模型,并通過與其他算法進(jìn)行對比,取得了較好的預(yù)測效果。本文所建立的方法可以為化學(xué)水處理系統(tǒng)短期趨勢預(yù)測和清洗周期預(yù)測提供方法支撐。同時也可以為相似設(shè)備的趨勢預(yù)測和清洗周期預(yù)測提供方法 支持。