Application of BP Neural Network Based on Preferred Training Samples
in Prediction of Desulfurization Efficiency
孫栓柱1 李益國2 周春蕾 代家元1 王 明1
(江蘇方天電力技術有限公司1,江蘇 南京 211102;東南大學能源與環(huán)境學院2,江蘇 南京 210096)
樣本優(yōu)選BP神經(jīng)網(wǎng)絡在脫硫效率預測中的應用
Application of BP Neural Network Based on Preferred Training Samples
in Prediction of Desulfurization Efficiency
孫栓柱1李益國2周春蕾代家元1王明1
(江蘇方天電力技術有限公司1,江蘇 南京211102;東南大學能源與環(huán)境學院2,江蘇 南京210096)
摘要:樣本質(zhì)量對神經(jīng)網(wǎng)絡的性能有重要影響,如何從高速增長的海量數(shù)據(jù)中選擇訓練樣本是一個難點。針對這一問題,運用一種基于數(shù)據(jù)分布和聚類分析的樣本優(yōu)選方法對海量數(shù)據(jù)進行預處理,快速剔除數(shù)據(jù)集中的噪聲信號,選擇具有代表性的樣本,從而有效縮小樣本空間、改善樣本質(zhì)量。最后,以燃煤機組石灰石-石膏濕法脫硫系統(tǒng)脫硫效率為輸出參數(shù),選取影響脫硫效率的7個主要測點為輸入?yún)?shù),建立BP神經(jīng)網(wǎng)絡預測模型,并應用提出的樣本優(yōu)選方法從海量歷史數(shù)據(jù)中選取樣本數(shù)據(jù)對模型進行訓練和測試。訓練后的模型平均預測絕對誤差達到0.75%,而且對不同工況的預測精度均較為平均。
關鍵詞:濕法脫硫脫硫效率BP神經(jīng)網(wǎng)絡樣本優(yōu)選預測
Abstract:The quality of samples may greatly affect the performance of neural network, so how to select training samples from massive rapidly growth data is difficult. Aiming at this problem, by using the preferred sample selection method based on data distribution and clustering analysis,themassivedataarepre-processed, the noise signals in data set are excluded rapidly, so the representative samples are selected, thus the sample space is effectively shrunk, the quality of samples is improved. Finally, with the efficiency of limestone - gypsum wet flue gas desulfurization system of coal-fired units as the output parameter, and 7 of the major measurement points that affecting desulfurization efficiency are selected as the input parameters to establish BP neural network prediction model; and the proposed preferred sample selection method is applied to select sample data from massive historical data for training and testing the model. The average prediction absolute error is 0.75% with the model after training, and the prediction accuracies under different operating conditions are more or less evenly.
Keywords:Wet desulfurizationDesulfurization efficiencyBP neural networkPreferred sample selectionPrediction
0引言
江蘇是全國率先利用實時監(jiān)控系統(tǒng)對脫硫電價進行考核的省份,江蘇省環(huán)保廳于2010年頒布規(guī)定[1]明確將脫硫效率與脫硫電價掛鉤。江蘇的脫硫工藝以石灰石-石膏濕法脫硫為主,通過對該工藝脫硫效率的精確預測,可以判別現(xiàn)場采集數(shù)據(jù)是否真實準確,為相關政府部門的監(jiān)管執(zhí)法提供依據(jù)。
脫硫設施是一個動態(tài)非線性系統(tǒng),利用神經(jīng)網(wǎng)絡的自適應學習能力,能夠自動發(fā)現(xiàn)數(shù)據(jù)中存在的模式,從而進行可靠的預測。樣本在神經(jīng)網(wǎng)絡學習中占有非常重要的地位,樣本集是否具有代表性對神經(jīng)網(wǎng)絡的性能起著至關重要的作用[2]。利用全部歷史數(shù)據(jù)進行訓練顯然不現(xiàn)實,從海量數(shù)據(jù)中合理選擇樣本而不降低網(wǎng)絡性能,就成為網(wǎng)絡建模面臨的一個難題。本文采用一種基于數(shù)據(jù)分布和聚類分析的樣本優(yōu)選方法,對海量數(shù)據(jù)進行降噪處理和樣本選擇,從而解決上述問題。
1BP神經(jīng)網(wǎng)絡
人工神經(jīng)網(wǎng)絡是近年來迅速發(fā)展起來的一種信息處理系統(tǒng),其中應用較為廣泛的是反向傳播(back progagation,BP)神經(jīng)網(wǎng)絡。BP神經(jīng)網(wǎng)絡是采用反向傳播算法進行學習直至產(chǎn)生特定非線性映射的多級前饋非循環(huán)網(wǎng)絡。有研究證明,具有一個線性激活函數(shù)的輸出層和一個s型激活函數(shù)的隱藏層的兩層BP神經(jīng)網(wǎng)絡,只要隱藏層有足夠多的神經(jīng)元,幾乎可以實現(xiàn)任意復雜的非線性映射[3]。
標準BP算法建立在最速下降梯度法基礎上,最小化網(wǎng)絡實際輸出與期望輸出之間的均值平方誤差(mean square error,MSE)[4]。MSE定義如下:
(1)
式中:Q為訓練樣本個數(shù);n為輸出參數(shù)個數(shù);dq,h、yq,h分別為第q個輸入向量的期望輸出、實際輸出的第h個分量。
標準BP算法雖然算法簡單,但是收斂速度較慢,容易陷入局部極小。Levenberg-Marquardt算法是一種更為有效的數(shù)值最優(yōu)化技術,可以加快網(wǎng)絡收斂速度,非常適合于以均值平方誤差為性能指標的神經(jīng)網(wǎng)絡訓練[5]。對于中等規(guī)模的神經(jīng)網(wǎng)絡,即使需要進行大量計算,LM算法仍然是收斂速度最快的神經(jīng)網(wǎng)絡訓練算法。
在網(wǎng)絡結構和算法確定后,網(wǎng)絡性能是否優(yōu)良很大程度上取決于訓練樣本的質(zhì)量。來自過程數(shù)據(jù)庫的原始樣本集,不僅因其巨大的數(shù)據(jù)量而無法被直接用來對網(wǎng)絡進行訓練,而且因其中可能包含的異常值、孤立點等噪聲數(shù)據(jù)和在空間分布的不均勻性等因素,極大地提高了網(wǎng)絡結構的復雜性,降低了網(wǎng)絡的精確度。因此,在為海量數(shù)據(jù)建立網(wǎng)絡模型時,如何通過對樣本集的優(yōu)化和選擇達到改善網(wǎng)絡性能的目的,就成為需要解決的關鍵問題。
2樣本優(yōu)選方法
許多建模技術,包括神經(jīng)網(wǎng)絡,在正態(tài)分布的樣本數(shù)據(jù)會獲得最好的性能[6];而涵蓋整個數(shù)據(jù)范圍、具有代表性的高質(zhì)量樣本集則可以顯著降低模型的復雜性,提高網(wǎng)絡泛化能力。
異常值、孤立點等噪聲數(shù)據(jù)會對模型產(chǎn)生極端影響,破壞數(shù)據(jù)的正態(tài)分布[7]。合理設定參數(shù)的取值范圍可以對異常數(shù)據(jù)進行識別;分析數(shù)據(jù)分布特征,繪制頻率直方圖和正態(tài)分布密度曲線,可以觀察數(shù)據(jù)分布是否均勻,在海量數(shù)據(jù)中快速查找有無出現(xiàn)頻率過低的孤立點,結合數(shù)據(jù)變化趨勢對孤立點進行評估和剔除,可以有效改善數(shù)據(jù)分布。
① 偏度。偏度是數(shù)據(jù)分布偏斜方向和程度的統(tǒng)計量,反映了數(shù)據(jù)分布非對稱程度,直觀看來就是密度曲線相對于平均值的不對稱程度。一般來說,偏度在-0.5~0.5之間說明數(shù)據(jù)具有正態(tài)分布的特征;偏度的絕對值>0.5,說明數(shù)據(jù)分布是不平衡的,向一側傾斜。
② 峰度。峰度是反映分布曲線頂端尖銳或扁平程度的統(tǒng)計量。正態(tài)分布數(shù)據(jù)的峰度為3。峰度在2~4之間,說明數(shù)據(jù)接近正態(tài)分布。如果峰度>3,說明分布曲線中出現(xiàn)異常值的可能性比正態(tài)分布曲線大,分布曲線在其峰值附近比正態(tài)分布陡。
在許多領域,例如:航空航天、圖像處理、金融分析等,數(shù)據(jù)容量以及數(shù)據(jù)增長的速度都會阻礙在線數(shù)據(jù)分析技術的應用,也超出了軟硬件的負載能力。對樣本數(shù)據(jù)進行聚類分析,從每個數(shù)據(jù)子集中選擇代表性的樣本,是一種從海量數(shù)據(jù)中快速選擇樣本、縮小樣本空間的有效方法[8]。
(1) 標準化變換
一般來說,在實際應用中,各參數(shù)之間存在著量綱、數(shù)量級不同等方面的問題。因此,在進行聚類分析之前,要對數(shù)據(jù)進行標準化處理,使得各參數(shù)取值與單位無關,且呈現(xiàn)相同的數(shù)量級。
(2) 聚類分析
K均值聚類法又稱為快速聚類法,對于大容量數(shù)據(jù)集具有較高的處理效率。但是,聚類個數(shù)的選擇直接影響聚類質(zhì)量,最佳聚類個數(shù)的確定通常比較困難,目前尚無成熟的理論指導。
理想的聚類效果應該是類內(nèi)相似性最大、類間相異度最大[9]。樣本輪廓值綜合反映了這兩個特征,聚類輪廓值是樣本集上所有樣本輪廓值的平均值,可以用來對聚類有效性進行分析。聚類輪廓值越大,說明聚類質(zhì)量越好,其最大值對應的聚類數(shù)可以被認為是最優(yōu)的聚類個數(shù)。
(3) 樣本選擇
對數(shù)據(jù)集進行聚類分析后形成了多個數(shù)據(jù)子集,在每個數(shù)據(jù)子集中根據(jù)數(shù)據(jù)分布的離散程度采取不同的樣本選擇方法選取典型樣本,以盡可能少的樣本反映全體樣本的特征。聚類內(nèi)樣本選擇的具體步驟如下。
② 從數(shù)據(jù)分散的聚類中選擇樣本。對于離散度超過門限T的聚類,選擇到聚類中心距離最近的樣本作為聚類中心附近樣本的典型樣本,同時保留邊界樣本。邊界樣本滿足下述條件:到聚類中心的距離大于α×聚類半徑,其中,聚類半徑是聚類自子集中樣本到聚類中心的最大距離。
③ 從數(shù)據(jù)密集的聚類中選擇樣本。離散度小于門限T的聚類,首先計算每個樣本的最近鄰樣本;然后,統(tǒng)計每個樣本作為其他樣本最近鄰的次數(shù);最后,根據(jù)作為最近鄰樣本的次數(shù)從大到小依次選擇典型樣本,同時舍棄以其為最近鄰的樣本,直至選出的典型樣本覆蓋整個聚類子集。最近鄰樣本滿足下述條件。
設n為聚類子集樣本數(shù),樣本xk的輸入向量為pk、輸出向量為ok,其最近鄰樣本xnn的輸入向量為pnn、輸出向量為onn,則:
(2)
3影響脫硫效率的因素
對于石灰石-石膏濕法脫硫工藝,影響脫硫效率的運行參數(shù)主要有漿液pH值、鈣硫摩爾比Ca/S、液氣比L/G、吸收劑利用率和固體物停留時間,其中前三個參數(shù)是相互獨立的運行參數(shù),后兩個參數(shù)均能由這三個參數(shù)表示[10]。上述影響因素與脫硫效率之間的關系可表達如下:
(3)
漿液pH值表示吸收塔石灰石漿體中氫離子的濃度,它不僅直接反映了吸收塔漿液的酸堿程度,而且直接影響SO2的吸收、漿液中石灰石的溶解過程和系統(tǒng)運行的安全可靠性。漿液pH值升高,傳質(zhì)系數(shù)增高,SO2的吸收速度加快;反之,SO2的吸收速度下降, 且CaSO3的溶解度隨之顯著增大,導致石灰石利用率下降。
鈣硫摩爾比Ca/S是指單位時間內(nèi)加入吸收塔中CaCO3的摩爾數(shù)與入口煙氣中SO2的摩爾數(shù)之比,反映了達到一定脫硫效率時鈣基吸收劑的過量程度,也說明了鈣的有效利用率。當鈣硫摩爾比較低時,由于吸收及投入量不足,導致脫硫效率明顯降低;當鈣硫摩爾比較高時,一方面會導致吸收劑的過剩,另一方面會使得漿液中石灰石過飽和凝聚,嚴重降低脫硫效率。
液氣比L/G是指單位時間內(nèi)吸收劑混合物漿液噴淋量與標準狀態(tài)濕煙氣流量之比,其大小直接反映了對入口煙氣中SO2的吸收能力。提高液氣比,就增大了吸收塔內(nèi)噴淋密度,使液氣間的接觸面積增大,脫硫效率也隨之增大。但是,提高液氣比會使?jié){液循環(huán)泵的流量增大,從而加大循環(huán)泵的能耗,使得脫硫系統(tǒng)經(jīng)濟性能有所降低。
4脫硫效率預測模型
影響脫硫效率的運行參數(shù)中,漿液pH值在脫硫DCS系統(tǒng)中有測點,鈣硫摩爾比Ca/S和液氣比L/G沒有DCS測點。鈣硫摩爾比Ca/S與進入吸收塔石灰石漿液體積流量和密度、吸收塔入口煙氣SO2和O2濃度等DCS測點有關,液氣比L/G則與石漿液循環(huán)泵功率、石灰石循環(huán)漿液密度和吸收塔入口煙氣O2濃度等DCS測點相關。因此,選取漿液pH值、進入吸收塔石灰石漿液體積流量和密度、吸收塔入口煙氣SO2濃度、O2濃度、石灰石漿液循環(huán)泵功率和石灰石循環(huán)漿液密度這7個DCS測點為輸入?yún)?shù),脫硫效率為輸出參數(shù),建立BP神經(jīng)網(wǎng)絡預測模型。網(wǎng)絡結構如圖1所示。
圖1 預測模型網(wǎng)絡結構
以某電廠330 MW、采用濕法脫硫工藝的燃煤機組2012年7月至12月的5 min脫硫系統(tǒng)運行數(shù)據(jù)為數(shù)據(jù)來源,從中選取50%負荷以上、投運2臺石灰石漿液循環(huán)泵的運行數(shù)據(jù)為原始樣本集,剔除超出取值范圍、測量有誤等壞點后形成優(yōu)選前樣本集,數(shù)據(jù)容量為36 862。
根據(jù)頻率直方圖和正態(tài)分布密度曲線,對輸入?yún)?shù)分別進行孤立點剔除操作,形成初選樣本集,數(shù)據(jù)容量為35 431。剔除操作后樣本的數(shù)值特征統(tǒng)計量如表1所示,剔除操作前后樣本數(shù)據(jù)分布特征統(tǒng)計量如表2所示。
表1 剔除孤立點后樣本數(shù)值特征比較
表2 剔除異常值前后樣本分布特征比較
① 標準化處理
對初選樣本集進行零均值標準差標準化變換,形成標準化樣本集,變換后的參數(shù)數(shù)據(jù)均值為0,標準差為1。
② 數(shù)據(jù)聚類
以不同的聚類數(shù)目對標準化樣本集進行聚類分析,圖2顯示了聚類個數(shù)與輪廓值之間的變化關系。從圖2可以看出,最佳聚類數(shù)為8,聚類輪廓值達到最大。
圖2 聚類個數(shù)-聚類輪廓值之間的關系
③ 樣本選擇
根據(jù)聚類內(nèi)樣本選擇算法,離散度門限T取所有聚類離散度的平均值,邊界樣本選擇參數(shù)α取0.2,從每個聚類中分別執(zhí)行樣本選擇操作,形成優(yōu)選樣本集,數(shù)據(jù)容量為14 285。聚類內(nèi)樣本選擇結果如表3所示。
表3 聚類樣本選擇比例
考慮到優(yōu)選樣本集的數(shù)據(jù)容量較大,包括了多種運行工況,因此模型采用LM算法為訓練算法,最大迭代次數(shù)為5 000,MSE為0.5,初始學習速率為0.02,將優(yōu)選樣本集按2∶1∶1的比例劃分成訓練集、驗證集和測試集對網(wǎng)絡進行訓練,以避免出現(xiàn)過擬合現(xiàn)象。訓練結束時MSE降至0.608 3。
5預測結果分析
為了檢驗脫硫效率預測模型的有效性和精度,從同一臺機組2013年1月(冬季)和7月(夏季)50%負荷以上、投運2臺石灰石漿液循環(huán)泵的5 min歷史數(shù)據(jù)中隨機選取15組數(shù)據(jù)記錄作為預測樣本,進行網(wǎng)絡仿真。預測結果如表4所示。
表4 模型預測結果及誤差
從預測結果可以看出,模型的最大誤差為2%,平均誤差為0.26%,平均絕對誤差為0.75%,MSE為0.90%。模型預測值與實際值對比如圖3所示。
圖3 模型預測值與實際值比較曲線
由于15組預測樣本是從近1萬條待選數(shù)據(jù)中隨機選取的,數(shù)據(jù)分布較為分散,處于不同的運行工況。從圖3可以看出,預測值均勻地分布在實際值兩側,說明模型對不同工況的預測效果較為平均。
6結束語
本文基于脫硫數(shù)據(jù)海量存儲的實際情況,通過數(shù)據(jù)分布特征分析從大量原始數(shù)據(jù)中快速剔除孤立樣本,采用基于聚類分析的樣本選擇方法從大樣本集中選取訓練樣本。應用BP神經(jīng)網(wǎng)絡技術,對濕法脫硫效率與其主要影響參數(shù)之間的非線性關系進行建模,用優(yōu)選樣本集對模型進行訓練和測試,模型的均方誤差為0.90%,與實際值的平均絕對誤差為0.75%,表明該樣本優(yōu)選方法是有效可行的。在下一步工作中,將進一步研究如何在模型運行過程中,根據(jù)實際數(shù)據(jù)找出新的典型樣本,提高樣本集的完備性,使得模型能不斷適應實際運行環(huán)境。
參考文獻
[1] 江蘇省環(huán)境保護廳.關于印發(fā)江蘇省135MW及以上燃煤機組脫硫電價考核管理規(guī)程(試行)的通知,蘇環(huán)辦〔2010〕416號[Z].2010.
[2] Philip N.What is there in a training sample?[C]//Nature & Biologically Inspired Computing,2009.NaBIC 2009.World Congress on Coimbatore:IEEE,2009:1507-1511.
[3] 張繼龍.基于BP神經(jīng)網(wǎng)絡與遺傳算法的鍋爐排放特性研究[D].沈陽:東北大學,2008.
[4] Fredric M H,Ivica K.神經(jīng)計算原理[M].葉世偉,王海娟,譯.北京:機械工業(yè)出版社,2007.
[5] Martin T H,Howard B D,Mark H B.神經(jīng)網(wǎng)絡設計[M].戴葵,譯.北京:機械工業(yè)出版社,2002.
[6] Stein R.Selecting data for neural networks[J].AI Expert,1993(8):42.
[7] 賈晨科.基于K-距離的孤立點和聚類算法研究[D].鄭州:鄭州大學,2006.
[8] Yu L,Wang S,Lai K K.An integrated data preparation scheme for neural network data analysis[J].Knowledge and Data Engineering,IEEE Transactions on,2006,18(2):217-230.
[9] 王麗娜,王建東,李濤,等.集成粗糙集和陰影集的簇特征加權模糊聚類算法[J].系統(tǒng)工程與電子技術,2013,35(8):1769-1776.
[10]侯鵬飛.石灰石濕法脫硫性能指標在線監(jiān)測與控制策略的優(yōu)化設計[D].太原:山西大學,2011.
中圖分類號:TP399
文獻標志碼:A
DOI:10.16086/j.cnki.issn1000-0380.201503018
國家自然科學基金資助項目(編號:51076027)。
修改稿收到日期:2014-08-12。
第一作者孫栓柱(1973-),男,1998年畢業(yè)于華北電力大學熱工自動控制專業(yè),獲碩士學位,高級工程師;主要從事發(fā)電側節(jié)能減排信息化、自動控制等方面的研究。