王力光, 贠勇博, 朱保宇, 司風琪
(1. 大唐環(huán)境產(chǎn)業(yè)集團股份有限公司特許經(jīng)營分公司, 南京 211100;2. 東南大學 能源熱轉(zhuǎn)換及其過程測控教育部重點實驗室, 南京 210096)
SO2是大氣中的主要污染物之一。我國電力依賴于煤炭資源,燃煤電廠排放的SO2給環(huán)境造成了很大的影響。國家環(huán)保發(fā)展規(guī)劃要求持續(xù)推進電力行業(yè)SO2減排工作,控制SO2排放成為發(fā)電企業(yè)面臨的重大課題[1]。目前,我國電廠大多使用濕法煙氣脫硫技術(shù),其中采用石灰石-石膏濕法脫硫的機組占脫硫總裝機容量的85%左右[2]。因此,對石灰石-石膏濕法煙氣脫硫系統(tǒng)出口SO2濃度進行實時監(jiān)測尤為重要。燃煤電廠布置了大量的煙氣分析監(jiān)測儀器,例如利用煙氣連續(xù)排放檢測系統(tǒng)(CEMS)對脫硫系統(tǒng)出口煙氣中的SO2濃度進行監(jiān)測,但這只是對SO2排放量的單一結(jié)果反饋,并不能反映脫硫系統(tǒng)過程參數(shù)與出口SO2濃度之間的關(guān)系;另外,CEMS在線分析儀表維護保養(yǎng)復雜,價格昂貴,受外界環(huán)境等因素影響較大,往往會出現(xiàn)測量結(jié)果漂移的現(xiàn)象[3]。
為了監(jiān)測SO2排放量,優(yōu)化濕法脫硫系統(tǒng)的運行參數(shù),需要建立脫硫系統(tǒng)出口SO2濃度預測模型,掌握脫硫系統(tǒng)過程參數(shù)與出口SO2濃度之間的關(guān)系。目前,主流的建模方法分為機理建模和數(shù)據(jù)驅(qū)動建模。燃煤電站脫硫系統(tǒng)運行過程具有動態(tài)、非線性和時變等特性,機理建模較為困難,且模型精度往往難以滿足工程實際的要求;但隨著計算機、傳感器、數(shù)據(jù)存儲和通信等技術(shù)快速地發(fā)展,數(shù)據(jù)驅(qū)動建模越來越多地應用到電站脫硫系統(tǒng)中。與傳統(tǒng)機理建模方法不同,數(shù)據(jù)驅(qū)動建模通過數(shù)據(jù)清洗和挖掘來獲取系統(tǒng)特征參數(shù)間的關(guān)聯(lián)特性[4],并不需要深入了解系統(tǒng)復雜的機理特性,能夠滿足復雜熱工過程設備或系統(tǒng)的建模需求[5-7]。因此,筆者建立了基于最小二乘支持向量機(LSSVM)的脫硫系統(tǒng)出口SO2濃度預測模型。
通常,數(shù)據(jù)驅(qū)動建模必須滿足訓練和測試數(shù)據(jù)服從相同分布的假設,主要從對象自身的數(shù)據(jù)中挖掘知識,但在當前超低排放的背景下,為了滿足排放要求,石灰石-石膏濕法脫硫系統(tǒng)高負荷運行時常常將吸收塔漿液循環(huán)泵全開運行,減泵運行的方式較少[8],這使得減泵運行方式下的運行數(shù)據(jù)較少,并且與漿液循環(huán)泵全開狀態(tài)下的脫硫系統(tǒng)運行數(shù)據(jù)的分布差距明顯。因此,以漿液循環(huán)泵全開狀態(tài)下的運行數(shù)據(jù)為主要訓練樣本建立預測模型。
由于訓練數(shù)據(jù)與減泵運行數(shù)據(jù)分布存在差異,在減泵運行時的SO2濃度預測效果較差。為了解決數(shù)據(jù)分布差異帶來的模型泛化能力較差的問題,筆者采用遷移學習的思想,將已存在豐富運行數(shù)據(jù)的漿液循環(huán)泵全開狀態(tài)(即源域)的知識通過一定的方式遷移到數(shù)據(jù)量不足的減泵運行狀態(tài)(即目標域)?,F(xiàn)有的遷移學習主要可歸納為兩大類:(1)實例重加權(quán)[9-10],這是一種基于樣本的遷移學習方法,它根據(jù)某種加權(quán)技術(shù)重用源域的樣本,進行遷移;(2)特征匹配,即利用子空間幾何結(jié)構(gòu)進行子空間學習[11],或者通過分布對齊來減少域之間的邊緣(或條件)分布差異,屬于基于特征的遷移學習方法。其中,實例重加權(quán)方法針對較為相似的數(shù)據(jù)遷移效果較為明顯。
因此,首先考慮到脫硫系統(tǒng)特性參數(shù)的相關(guān)性及系統(tǒng)的非線性,建立了基于LSSVM的脫硫系統(tǒng)出口SO2濃度預測模型。其次,針對運行數(shù)據(jù)分布變化的場景,從樣本遷移的角度,采用基于實例重加權(quán)的核均值匹配(KMM)遷移學習方法建立了加權(quán)LSSVM模型,實現(xiàn)了不同漿液循環(huán)泵組合運行方式下脫硫系統(tǒng)出口SO2濃度的預測。
LSSVM是一種改進的支持向量機(SVM)算法。針對SVM計算復雜、效率較低的問題,LSSVM利用二次損失函數(shù)將SVM的尋優(yōu)過程變?yōu)榍蠼饩€性方程,簡化了模型尋優(yōu)迭代過程。經(jīng)過不斷地研究和改進,LSSVM已廣泛應用于工程實際中非線性回歸估計等問題[12]。
1.1.1 LSSVM原理和計算過程
給定任意的訓練集D=(xi,yi),i=1,2,…,l,其中,l為樣本數(shù)量,輸入數(shù)據(jù)xi∈Rm,輸出數(shù)據(jù)yi∈Rm,m為維數(shù),LSSVM定義的回歸函數(shù)J為:
(1)
約束條件為:
yi=wTφ(xi)+b+ei
(2)
式中:w權(quán)重向量;γ為懲罰參數(shù);e為近似誤差,e=[e1,e2,…,el]T;φ(·)為非線性映射函數(shù);b為偏置。
相應的拉格朗日函數(shù)為:
b+ei-yi]
(3)
α=[α1,α2,…,αl]T
式中:α為拉格朗日因子。
基于Karush-Kuhn-Tucker(KKT)條件,可通過w、b、ei和αi的偏微分獲得方程解:
(4)
聯(lián)立消除w和ei,得到
(5)
式中:I為單位矩陣;y=[y1,y2,…,yl]T;1=[1,1,…,1]T;Ωij=φ(xi)Tφ(xj)=K(xi,xj),K(·)為核函數(shù),i,j=1,2,…,l。
最后,得到LSSVM的回歸模型為:
(6)
式中:y(x)為LSSVM得到的回歸函數(shù),該預測模型采用線性核,主要參數(shù)為懲罰參數(shù)γ。
針對源域和目標域分布差異的問題,基于樣本的遷移學習算法[9-10]大多著眼于對源域和目標域的分布比值進行估計。具體如下:
在d維數(shù)據(jù)空間,有ntr個獨立同分布的訓練樣本Xtr={xi|i=1,…,ntr}從概率密度函數(shù)(PDF)為ptr(x)的分布采樣而來;而nts個獨立同布分的測試樣本Xts={xj|j=1,…,nts}從另一個分布pts(x)采樣得到。假設pts(x)相對于ptr(x)是連續(xù)的(即ptr(x)=0時,pts(x)=0),則密度比β(x)計算式為:
(7)
KMM算法通過在再生核希爾伯特空間(RKHS)中,最小化加權(quán)訓練數(shù)據(jù)分布β(x)ptr(x)和測試數(shù)據(jù)分布pts(x)之間的最大均值差異MMD為:
MMD2(F,β,ptr,pts)=
‖Ex-ptr(x)[β(x)φ(x)]-Ex-
pts(x)[φ(x)]‖2
(8)
式中:‖·‖是L2范數(shù),RKHS即φ(x),x→F;Ex為期望。
若核空間是通用的,并且pts(x)相對于ptr(x)是連續(xù)的,則式(8)的解β(x)收斂到pts(x)=β(x)ptr(x)。
使用Xtr和Xts的經(jīng)驗平均代替期望,最小化MMD距離相當于最小化相應的二次規(guī)劃問題,即
(9)
β=[β1,β2,…,βl]T
Kxtr,xtr=K(xi,xi′),xi,xi′∈Xtr
(10)
Kxtr,xts=K(xi,xj),xi∈Xtr,xj∈Xts
(11)
第一個約束給出了密度比βi的范圍,反映了pts(x)和ptr(x)之間的分布差異。第二個約束則是對β(x)的正則項。
式(9)給出了具有線性約束的凸二次規(guī)劃問題,可以通過二次規(guī)劃解算器計算得到最優(yōu)解。建模過程中使用MATLAB軟件工具箱中較為成熟的“interior-point-convex”算法作為二次規(guī)劃解算器。
在LSSVM模型建好后,當面對測試樣本Xts與訓練樣本Xtr分布出現(xiàn)差異的場景時,該模型的泛化能力變?nèi)酰A測精度降低。此時,從樣本遷移的角度,通過KMM算法求解得到訓練樣本Xtr的權(quán)重β(x),再根據(jù)式(6),得到樣本加權(quán)的LSSVM模型為:
(12)
綜上所述,整個基于KMM樣本加權(quán)的LSSVM算法步驟見圖1。
圖1 基于KMM樣本加權(quán)的LSSVM算法步驟流程
在當前超低排放背景下,為了滿足環(huán)保要求,即使是在低負荷運行工況下,脫硫系統(tǒng)的漿液循環(huán)泵多數(shù)也是開啟的,甚至全開,影響了運行經(jīng)濟性。出現(xiàn)該問題的根本原因是未能掌握不同漿液循環(huán)泵組合運行方式下脫硫系統(tǒng)出口SO2濃度信息,從而采用了保守的運行方式。因此,筆者將建立機組實際運行負荷范圍內(nèi)不同漿液循環(huán)泵組合方式運行下的脫硫系統(tǒng)出口SO2濃度預測模型,為機組在不同工況下的漿液循環(huán)泵優(yōu)化調(diào)度提供指導。
以某600 MW機組為研究對象,石灰石-石膏濕法脫硫系統(tǒng)的脫硫過程大致為:來自鍋爐的煙氣經(jīng)煙氣系統(tǒng)和引風機增壓后,通過煙氣換熱器降溫,降溫后的煙氣自下而上進入吸收塔,而塔內(nèi)的石灰石/石灰漿液自上而下進行噴淋,通過逆流混合的方式,進行一系列物理和化學反應并伴隨著持續(xù)的熱交換,從而脫除煙氣中的SO2;脫硫后煙氣中的液滴經(jīng)過除霧器去除,煙氣再經(jīng)煙氣換熱器增加溫度,達到溫度要求后,通過煙囪排入到大氣之中;經(jīng)反應后吸收SO2的石灰石漿液(主要成分為CaSO3)流入脫硫塔底部的漿液池中,而增氧風機鼓入的空氣將對其進行強制氧化,生成可二次利用的石膏(主要成分為CaSO4)。
脫硫系統(tǒng)中的主要運行參數(shù)之間存在著密切的相關(guān)性,結(jié)合整體脫硫過程,選取入口煙氣流量(x1)、入口煙氣氧體積分數(shù)(x2)、入口SO2濃度(x3)、入口煙塵質(zhì)量濃度(x4)、入口煙氣溫度(x5)、石灰石漿液供給流量(x6)和漿液pH(x7)為模型輸入?yún)?shù),脫硫系統(tǒng)出口SO2濃度為輸出參數(shù),且采用折算濃度,即將原始數(shù)據(jù)中的SO2排放量折算到基準含氧體積分數(shù)(6%)下。
該石灰石-石膏濕法脫硫系統(tǒng)有4臺漿液循環(huán)泵,其主要設計參數(shù)見表1。從該600 MW機組廠級監(jiān)控信息系統(tǒng)(SIS)中選取1個月的運行數(shù)據(jù),采樣周期為60 s。
表1 漿液循環(huán)泵主要性能參數(shù)
電廠SIS采集的數(shù)據(jù)往往受到通信和傳感器故障等影響,因此需要對采樣的數(shù)據(jù)進行清洗。目前,采用iforest孤立點檢測算法對異常數(shù)據(jù)進行剔除。此外,機組運行工況發(fā)生較大變化時,模型變量的統(tǒng)計特性也會發(fā)生變動,因此數(shù)據(jù)預處理還包括了對穩(wěn)態(tài)數(shù)據(jù)的篩選。筆者選用鍋爐負荷為特征變量,對采集的數(shù)據(jù)進行了穩(wěn)態(tài)判定和篩選。
經(jīng)過數(shù)據(jù)處理后,一共篩選出5 412組穩(wěn)態(tài)數(shù)據(jù)。進一步分析后發(fā)現(xiàn),主要包含了2種漿液循環(huán)泵組合運行方式數(shù)據(jù):4 415組4臺漿液循環(huán)泵運行(簡稱4泵運行)數(shù)據(jù),937組3臺漿液循環(huán)泵運行(簡稱3泵運行)數(shù)據(jù)。對這2種運行方式的數(shù)據(jù)分布進行分析,結(jié)果見圖2。
圖2 不同漿液循環(huán)泵組合運行方式的數(shù)據(jù)分布對比
從圖2可以看出:4泵運行和3泵運行的數(shù)據(jù)分布存在一定差異,并不滿足數(shù)據(jù)驅(qū)動建模要求的數(shù)據(jù)獨立同分布的假設。若以4泵運行數(shù)據(jù)作為訓練樣本進行建模,對3泵運行結(jié)果進行預測,預測精度將明顯下降,即模型的泛化能力不足;若以3泵運行數(shù)據(jù)進行建模和預測,又因訓練樣本過少,模型發(fā)生過擬合的現(xiàn)象,無法進行預測。因此,采用遷移學習的思想,將數(shù)據(jù)量較大的4泵運行數(shù)據(jù)(源域數(shù)據(jù))通過樣本重加權(quán)的方式遷移至與3泵運行數(shù)據(jù)(目標域數(shù)據(jù))相同分布上,減少不同漿液循環(huán)泵組合運行方式下的模型參數(shù)分布差異,提高模型的泛化能力。
在數(shù)據(jù)處理和分析后,針對擬要解決的問題,建立以下幾種場景的模型,設計并進行對比試驗。
場景1:只采用3泵運行的少量數(shù)據(jù)進行建模訓練和測試,觀察模型的預測精度。
場景2:只采用4泵運行的訓練數(shù)據(jù)進行建模,用3泵運行的數(shù)據(jù)進行測試,觀察預測結(jié)果,以驗證樣本遷移的必要性。
場景3:利用4泵運行的數(shù)據(jù),考慮樣本遷移,建立了基于KMM樣本加權(quán)的LSSVM預測模型,并對3泵運行的數(shù)據(jù)進行預測,分析預測結(jié)果。
場景1和場景2的模型都只是LSSVM預測模型,場景3涉及KMM算法進行樣本遷移的過程,其中KMM算法用到的核函數(shù)選擇高斯核函數(shù)。3種場景中都采用交叉驗證(CV)對LSSVM模型參數(shù)進行尋優(yōu),3種場景的參數(shù)尋優(yōu)結(jié)果分別為18、7、11。
為了定量評價不同場景下的模型性能,利用回歸模型中使用廣泛的均方根誤差(RMSE)與決定性系數(shù)R2來衡量模型預測值與實測值之間的偏差,其計算公式分別為:
(13)
(14)
場景1下LSSVM預測模型對訓練樣本和測試樣本的預測結(jié)果見圖3。由圖3可以看出:由于3泵運行的時間短,數(shù)據(jù)較少,工況覆蓋面較窄,因此模型的預測精度較低,3泵運行訓練時的R2為0.817,測試時的R2只有0.576,無法滿足工程實際需要。
圖3 場景1下脫硫系統(tǒng)出口SO2質(zhì)量濃度測量值與模型預測值對比
場景2下的模型預測結(jié)果見圖4。
圖4 場景2下脫硫系統(tǒng)出口SO2質(zhì)量濃度測量值與模型預測值對比
從圖4可以看出:由于4泵運行數(shù)據(jù)樣本較多,訓練模型的精度較高,R2達到了0.963,但是若以基于4泵運行數(shù)據(jù)建立的模型來進行3泵運行結(jié)果的預測仍存在一定問題,測試時的R2為0.832。分析原因為雖然這2種模型的脫硫運行機理一樣,但是通過圖2可以發(fā)現(xiàn),由于漿液循環(huán)泵組合運行方式不同,模型的特性參數(shù)呈現(xiàn)出不同的工作特性;同時,4泵運行數(shù)據(jù)與3泵運行數(shù)據(jù)邊緣分布有著明顯的不同,直接采用這種方式建立預測模型,無法達到預期效果,模型存在訓練過擬合的現(xiàn)象。
因此,在場景1和場景2的基礎上,進一步設計得到場景3,采用基于KMM樣本加權(quán)的LSSVM對不同漿液循環(huán)泵組合運行方式下的脫硫系統(tǒng)出口SO2濃度進行預測,結(jié)果見圖5。
圖5 場景3下脫硫系統(tǒng)出口SO2質(zhì)量濃度測量值與模型預測值對比
由圖5可以看出:場景3的改進模型對3泵運行測試樣本的預測效果明顯優(yōu)于場景1和場景2,樣本測試時的R2從0.576上升到0.892。
綜上所述,采用筆者所提出的基于KMM樣本加權(quán)的LSSVM建模方法(場景3),一方面實現(xiàn)了不同漿液循環(huán)泵組合運行方式之間的樣本遷移,使得4泵運行的模型參數(shù)被成功地遷移到3泵運行的數(shù)據(jù)分布之中,另一方面通過樣本加權(quán)與LSSVM方法融合,實現(xiàn)了模型預測精度和泛化能力的提升。
以脫硫系統(tǒng)SO2出口濃度預測為研究對象,針對不同漿液循環(huán)泵組合運行方式下模型特性參數(shù)邊緣分布差異帶來的模型泛化能力較差的問題,采用實例重加權(quán)的遷移學習策略,建立了基于KMM的樣本加權(quán)LSSVM預測模型。以某600 MW機組脫硫系統(tǒng)現(xiàn)場運行數(shù)據(jù)為樣本進行了模型訓練和測試,通過3種場景的對比試驗,結(jié)果表明:相較于采用單一運行方式數(shù)據(jù)建立模型(如:訓練3泵運行數(shù)據(jù)后測試3泵運行時的SO2濃度,R2為0.576;訓練4泵運行數(shù)據(jù)后測試3泵運行時的SO2濃度,R2為0.832),所提出的模型(基于4泵運行數(shù)據(jù)的KMM樣本加權(quán)LSSVM預測模型)在測試時的R2為 0.892,明顯提高了不同漿液循環(huán)泵組合運行方式下的脫硫系統(tǒng)出口SO2濃度預測精度,而且預測模型的泛化能力也明顯增強。