董 澤,賈 昊,姜 煒
基于特征選擇的數(shù)據(jù)驅(qū)動(dòng)軟測(cè)量方法
董 澤1,2,賈 昊1,2,姜 煒1
(1.華北電力大學(xué)河北省發(fā)電過(guò)程仿真與優(yōu)化控制技術(shù)創(chuàng)新中心,河北 保定 071003;2.華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院,北京 102206)
由于測(cè)量環(huán)境惡劣,分析儀器成本昂貴,測(cè)量延遲大,發(fā)電機(jī)組一些關(guān)鍵參數(shù)難以實(shí)現(xiàn)在線測(cè)量。本文提出一種基于皮爾森相關(guān)系數(shù)和最小角回歸算法相結(jié)合的特征選擇方法,并以此為基礎(chǔ)建立電廠煙氣含氧量軟測(cè)量模型。首先,根據(jù)機(jī)理分析確定煙氣含氧量模型的初始輸入變量,使用皮爾森相關(guān)系數(shù)對(duì)多測(cè)點(diǎn)數(shù)據(jù)進(jìn)行數(shù)據(jù)融合;然后,使用最小角回歸算法對(duì)輸入變量進(jìn)行特征選擇,引入高斯過(guò)程回歸(GPR)模型建立了煙氣含氧量的軟測(cè)量模型;最后將該模型用于某超超臨界1 000 MW機(jī)組實(shí)際穩(wěn)定工況數(shù)據(jù)進(jìn)行仿真。結(jié)果表明:該模型預(yù)測(cè)結(jié)果與實(shí)測(cè)值誤差較小,模型精度較高;使用該特征選擇方法可以有效減少模型二次變量數(shù)量,降低模型輸入復(fù)雜度,提高計(jì)算效率,同時(shí)可以改善模型的泛化能力,提高軟測(cè)量的靜態(tài)準(zhǔn)確度。
軟測(cè)量;數(shù)據(jù)融合;特征選擇;皮爾森相關(guān)系數(shù);最小角回歸;高斯過(guò)程回歸;煙氣含氧量
在現(xiàn)代工業(yè)生產(chǎn)過(guò)程中,為了實(shí)現(xiàn)節(jié)能和效益最大化,及時(shí)對(duì)生產(chǎn)過(guò)程中的重要參數(shù)進(jìn)行監(jiān)測(cè)和控制具有重要意義。然而,在實(shí)際生產(chǎn)過(guò)程中,由于測(cè)量環(huán)境惡劣、分析儀器成本昂貴、測(cè)量延遲大等原因,使得這些參數(shù)大多難以在線測(cè)量。20世紀(jì)90年代以來(lái),軟測(cè)量技術(shù)[1]快速發(fā)展,逐漸成為解決以上問(wèn)題的有效途徑之一。軟測(cè)量技術(shù)是一種利用易于測(cè)量的變量來(lái)建立預(yù)測(cè)模型估計(jì)難以測(cè)量變量的方法,這可以為過(guò)程監(jiān)控、優(yōu)化和控制提供所需的重要實(shí)時(shí)信息[2-3]。目前,軟測(cè)量技術(shù)已經(jīng)在熱工領(lǐng)域取得了一些成功應(yīng)用[4]。
與傳統(tǒng)的機(jī)理建模方法相比,數(shù)據(jù)驅(qū)動(dòng)軟測(cè)量建模方法不需要先驗(yàn)知識(shí)和運(yùn)行經(jīng)驗(yàn),完全使用歷史數(shù)據(jù)建立預(yù)測(cè)模型。隨著數(shù)據(jù)驅(qū)動(dòng)建模方法的快速發(fā)展,很多多變量統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法應(yīng)用在軟測(cè)量上,如主成分回歸(PCR)[5]、偏最小二乘回歸(PLSR)[6]、人工神經(jīng)網(wǎng)絡(luò)(ANN)[7]和支持向量機(jī)(SVM)[8]等方法。
在軟測(cè)量方法應(yīng)用中,通常會(huì)有很多候選輸入變量。特征選擇可以減少輸入變量的個(gè)數(shù),減少模型的復(fù)雜性,同時(shí)可以減少過(guò)度擬合,提高模型精度,進(jìn)而減少模型開(kāi)發(fā)時(shí)間,提高模型性能。目前常見(jiàn)的特征選擇方法有主成分分析法(PCA)[9]、互信息法(MI)[10]、偏最小二乘法(PLS)[11]。
在火電機(jī)組中,煙氣含氧量可以反映機(jī)組的經(jīng)濟(jì)運(yùn)行情況,是確保鍋爐燃燒優(yōu)化控制的主要因素之一。目前在電廠實(shí)際生產(chǎn)過(guò)程中,主要采用氧化鋯氧量分析儀或使用軟測(cè)量方法對(duì)煙氣含氧量進(jìn)行測(cè)量。氧化鋯氧量分析儀存在維護(hù)成本高、壽命短且測(cè)量結(jié)果滯后大等缺點(diǎn),其測(cè)量效果并不十分理想。目前已有一些軟測(cè)量方法應(yīng)用在火電廠煙氣含氧量的測(cè)量上[12-13]。本文提出一種基于皮爾森相關(guān)系數(shù)和最小角回歸算法相結(jié)合的變量篩選算法,以此確定軟測(cè)量建模過(guò)程中的輸入變量,并通過(guò)高斯過(guò)程回歸方法建立煙氣含氧量的軟測(cè)量模型。采用某火電廠歷史數(shù)據(jù)對(duì)所提方法進(jìn)行測(cè)試,取得了良好的測(cè)量效果。
目前對(duì)于火電廠熱工系統(tǒng)而言,由于其具有設(shè)計(jì)參數(shù)高、容量大、生產(chǎn)過(guò)程惡劣等特點(diǎn),對(duì)傳感器有很高要求。為了保證系統(tǒng)安全,往往需要多路傳感器對(duì)測(cè)點(diǎn)進(jìn)行監(jiān)測(cè)。多測(cè)點(diǎn)之間往往具有很強(qiáng)的線性關(guān)系,如果對(duì)該測(cè)量結(jié)果不進(jìn)行處理直接作為輸入變量對(duì)系統(tǒng)進(jìn)行軟測(cè)量建模,不但會(huì)增加計(jì)算量,還會(huì)導(dǎo)致共線性問(wèn)題。
使用皮爾森相關(guān)系數(shù)法對(duì)多測(cè)點(diǎn)數(shù)據(jù)進(jìn)行相關(guān)性分析,得到各傳感器數(shù)據(jù)之間的擬合權(quán)值,將多測(cè)點(diǎn)數(shù)據(jù)進(jìn)行融合。該方法比傳統(tǒng)的求取多個(gè)傳感器的算術(shù)平均值方法更加可靠、準(zhǔn)確,物理意義也可以得到更好的說(shuō)明。皮爾遜相關(guān)系數(shù)定義為2個(gè)變量之間的協(xié)方差和標(biāo)準(zhǔn)差之比:
式中,cov()為與的協(xié)方差,var()和var()分別為和的方差。
由式(2)得到對(duì)應(yīng)的第個(gè)變量的權(quán)重
式中為對(duì)應(yīng)的第個(gè)變量的權(quán)重。
最小角回歸(LARS)算法[14]是一種線性回歸方法,可用于高維數(shù)據(jù)的特征選擇。相比于使用PLS方法做特征選擇,LARS方法的可解釋性更強(qiáng)。該方法首先構(gòu)造一階懲罰函數(shù)確定某些變量的系數(shù)為0,將其作為無(wú)效變量并刪除,由此獲得解釋力強(qiáng)的模型。其優(yōu)化目標(biāo)可表示為:
LARS算法在求解上述問(wèn)題的基本思想是:首先將所有自變量的系數(shù)置0,找出與因變量相關(guān)性最大的自變量x。然后沿著x方向按照某個(gè)步長(zhǎng)前進(jìn),直到可以選擇出另一個(gè)和x都與當(dāng)前殘差具有相同相關(guān)性的變量x。然后沿x與x的角平分線的方向移動(dòng),直到找到另一個(gè)和(x x)都與殘差相關(guān)性相同的變量l。由此類推,直至選擇出所有所需變量。
2)令=+1,當(dāng)前相關(guān)系數(shù)記為
3)分別計(jì)算
5)重復(fù)2)—4)步,直到選到所需變量個(gè)數(shù)為止。
高斯過(guò)程回歸模型是一種基于貝葉斯統(tǒng)計(jì)理論的非參數(shù)概率模型[16],其性質(zhì)完全由均值和協(xié)方差確定,即:
對(duì)于回歸問(wèn)題,考慮如下模型:
式中,為輸入樣本點(diǎn)的總數(shù),為函數(shù)值,為均值為0方差為的白噪聲。
由此得到的先驗(yàn)分布
式中,(,)==(k)為×階正定且對(duì)稱的協(xié)方差矩陣,矩陣元素k=(x,x)為x和x之間的相關(guān)性,(,*) =(*,)T為測(cè)試點(diǎn)x與訓(xùn)練集輸入之間的×1階協(xié)方差矩陣,為維單位矩陣。
由此得出預(yù)測(cè)值f的后驗(yàn)分布:
要建立一個(gè)高斯過(guò)程回歸(GPR)模型首先需要選擇模型的協(xié)方差函數(shù),求取其中的協(xié)方差矩陣。一般選用高斯核函數(shù)作為協(xié)方差函數(shù),即
本文提出的軟測(cè)量建模過(guò)程如圖1所示。首先,通過(guò)機(jī)理分析選擇相關(guān)輸入變量,得到原始輸入變量集(1,2,,x),為原始輸入變量個(gè)數(shù)。然后通過(guò)計(jì)算多測(cè)點(diǎn)變量之間的皮爾森相關(guān)系數(shù),確定變量權(quán)重,對(duì)多測(cè)點(diǎn)變量進(jìn)行數(shù)據(jù)融合,得到輸入變量集(1,2,,X),為融合后輸入變量個(gè)數(shù)。使用LARS算法找到輸入變量集中各變量對(duì)應(yīng)的權(quán)重系數(shù)集(1,2,,)。根據(jù)輸入變量集和權(quán)重系數(shù)集,得到GPR模型最終的輸入數(shù)據(jù)集(11,22,,X)。
圖1 Pc-lars-GPR模型
煙氣氧含量是與鍋爐效率和經(jīng)濟(jì)燃燒密切相關(guān)的主要指標(biāo),但由于惡劣的工作條件和硬件傳感器的高維護(hù)成本,很難實(shí)現(xiàn)在線精確測(cè)量。由于鍋爐爐膛漏風(fēng)、煤質(zhì)變化和燃料不完全燃燒等因素對(duì)煙氣含氧量的影響較大,因此選取能夠反映負(fù)荷、燃料、風(fēng)量等方面的變量作為輔助變量。根據(jù)機(jī)理分析并結(jié)合文獻(xiàn)[17]中使用的變量,選擇與煙氣含氧量密切相關(guān)的25個(gè)過(guò)程變量作為二次變量,分別為主蒸汽壓力1、主蒸汽溫度2、爐膛負(fù)壓3、總風(fēng)量4、發(fā)電機(jī)有功功率5、給水流量6、總?cè)剂狭?、送風(fēng)機(jī)A/B擋板開(kāi)度89、引風(fēng)機(jī)A/B擋板開(kāi)度1011、送風(fēng)機(jī)A/B電流1213、引風(fēng)機(jī)A/B電流1415、空氣預(yù)熱器出口A1/A2/A3/ B1/B2/B3煙氣溫度1621、引風(fēng)機(jī)出口A/B煙氣溫度2223、送風(fēng)機(jī)入口A/B風(fēng)量2425。輸出變量為鍋爐A/B兩側(cè)煙道中的煙氣含氧量12。
采用某電廠超超臨界1 000 MW二次再熱機(jī)組的實(shí)際運(yùn)行數(shù)據(jù)驗(yàn)證本文方法的有效性。從該電廠DCS選取機(jī)組負(fù)荷變化跨度較大(600~1 000 MW)的1個(gè)月運(yùn)行數(shù)據(jù),采樣間隔設(shè)定為30 s,對(duì)其穩(wěn)定工況下的煙氣含氧量軟測(cè)量建模。篩選具有良好工況代表性的穩(wěn)態(tài)數(shù)據(jù),采用文獻(xiàn)[18]介紹的穩(wěn)態(tài)檢測(cè)方法,以機(jī)組負(fù)荷、主蒸汽壓力、主蒸汽溫度作為判定變量,篩選出975組穩(wěn)態(tài)數(shù)據(jù)。使用其中650組數(shù)據(jù)作為訓(xùn)練樣本,另外325組數(shù)據(jù)作為測(cè)試樣本。
在訓(xùn)練模型前,首先對(duì)所有數(shù)據(jù)進(jìn)行清洗和預(yù)處理,剔除離群點(diǎn)。然后將訓(xùn)練樣本歸一化到[-1,1]范圍內(nèi),在得到輸出后再進(jìn)行反歸一化處理。由于對(duì)輸出1和2建立軟測(cè)量模型所用的方法相同,僅以輸出1為例,驗(yàn)證本文方法。
從二次變量集可以看出存在多測(cè)點(diǎn)變量,分別計(jì)算變量89、1011、1213、1415、1621、2223、2425的皮爾森相關(guān)系數(shù),并用1.1節(jié)的方法對(duì)相關(guān)輸入變量進(jìn)行加權(quán)處理,從而得到新的輸入數(shù)據(jù)集。以變量1621為例計(jì)算其皮爾森相關(guān)系數(shù),計(jì)算結(jié)果見(jiàn)表1。
表1 多測(cè)點(diǎn)變量相關(guān)系數(shù)
Tab.1 The correlation coefficient of multi-point variables
由表1可知變量間存在很強(qiáng)的線性相關(guān)性。當(dāng)有測(cè)點(diǎn)存在故障時(shí),其相關(guān)性系數(shù)將趨于零,則其對(duì)應(yīng)的權(quán)重系數(shù)也趨于零,變量的修正值將不受故障點(diǎn)影響。因此,在建立煙氣含氧量模型之前對(duì)多測(cè)點(diǎn)數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,不但可以降低輸入變量,還有利于提高數(shù)據(jù)的準(zhǔn)確性。
通過(guò)對(duì)多測(cè)點(diǎn)變量數(shù)值進(jìn)行加權(quán)融合,得到新的輸入變量集。新變量集包含14個(gè)變量,分別為主蒸汽壓力1、主蒸汽溫度2、爐膛負(fù)壓3、總風(fēng)量4、發(fā)電機(jī)有功功率5、給水流量6、總?cè)剂狭?、送風(fēng)機(jī)擋板開(kāi)度8、引風(fēng)機(jī)擋板開(kāi)度9、送風(fēng)機(jī)電流10、引風(fēng)機(jī)電流11、空氣預(yù)熱器出口煙氣溫度12、引風(fēng)機(jī)出口煙氣溫度13、送風(fēng)機(jī)入口風(fēng)量14。
使用LARS算法計(jì)算數(shù)據(jù)融合得到的輸入變量集的特征系數(shù),從而得到GPR軟測(cè)量建模的輸入數(shù)據(jù)集。以預(yù)測(cè)輸出1為例,計(jì)算各輸入變量的系數(shù)。迭代次數(shù)與系數(shù)的關(guān)系及各輸入變量權(quán)重系數(shù)分別如圖2和表2所示。
圖2 迭代次數(shù)與系數(shù)的關(guān)系
表2 輸入變量權(quán)重系數(shù)
Tab.2 The weight coefficients of the input variables
由表2可知,通過(guò)使用LARS算法對(duì)輸入數(shù)據(jù)集進(jìn)行分析,確定特征變量主蒸汽壓力1和引風(fēng)機(jī)擋板開(kāi)度9對(duì)煙氣含氧量軟測(cè)量建模的影響較小,故將這2個(gè)變量從輸入數(shù)據(jù)集中剔除。由給出的特征系數(shù),得到最終輸入數(shù)據(jù)集。
為了對(duì)比驗(yàn)證建模效果,本文同時(shí)采用核偏最小二乘(KPLS)、最小二乘支持向量機(jī)(LSSVM)作為對(duì)比建模方法,同時(shí)與是否采用本文提出的特征選擇方法做對(duì)比,所有建模方法的核函數(shù)均采用高斯核函數(shù)。
本文分別使用均方根誤差RMSE、平均相對(duì)誤差MRE和決定系數(shù)2作為模型的評(píng)價(jià)指標(biāo),驗(yàn)證模型性能。各指標(biāo)計(jì)算公式為
圖3 訓(xùn)練樣本實(shí)測(cè)值與預(yù)測(cè)值對(duì)比
圖4 測(cè)試樣本實(shí)測(cè)值與預(yù)測(cè)值對(duì)比
為了更直觀地展示Pc-lars-GPR模型的泛化能力,圖5使用點(diǎn)劃線對(duì)實(shí)測(cè)值與預(yù)測(cè)值做對(duì)比。由圖5可知,預(yù)測(cè)值與實(shí)測(cè)值非常接近,且處于95%置信度區(qū)間內(nèi),證明該模型具有良好的性能。此外,對(duì)3種模型以及是否采用本文提出的特征選擇方法做對(duì)比,各模型誤差對(duì)比結(jié)果如表3和圖6—圖7所示。圖6是從訓(xùn)練樣本的角度對(duì)算法性能進(jìn)行比較。由圖6a)可見(jiàn),比較KPLS、LSSVM和GPR對(duì)訓(xùn)練樣本的預(yù)測(cè)誤差,GPR模型對(duì)訓(xùn)練樣本的擬合程度最好,RMSE和MRE指標(biāo)最小,LSSVM模型的效果次之,KPLS模型的效果最差。與KPLS和LSSVM建模方法相比,GPR模型參數(shù)優(yōu)化相對(duì)容易,因此模型的精確性較好。KPLS方法是在PLS方法基礎(chǔ)上通過(guò)使用高斯核函數(shù)實(shí)現(xiàn)非線性建模。由于PLS本身是一種線性建模方法,盡管采用了核函數(shù),其對(duì)處理非線性問(wèn)題仍存在一定誤差。如圖6b)所示,通過(guò)在建模前使用特征選擇算法對(duì)輸入變量進(jìn)行篩選,3種建模方法的建模誤差都有一定程度降低。
圖7為測(cè)試樣本各模型的預(yù)測(cè)誤差,主要考察模型的泛化能力。由圖7a)可見(jiàn),GPR表現(xiàn)最好,KPLS表現(xiàn)最差,說(shuō)明GPR建模方法不但建模精度較好,而且模型泛化能力優(yōu)良。由圖7b)可見(jiàn),采用特征選擇算法對(duì)輸入變量進(jìn)行篩選,也能提高模型的泛化能力。
圖5 實(shí)測(cè)值與預(yù)測(cè)值對(duì)比
表3 各模型性能對(duì)比
Tab.3 Performance comparison of each model
1)采用皮爾森相關(guān)系數(shù)對(duì)多測(cè)點(diǎn)進(jìn)行數(shù)據(jù)融合,得到的測(cè)量結(jié)果比多個(gè)測(cè)點(diǎn)的算術(shù)平均值更準(zhǔn)確,可靠性更高。同時(shí)該方法減少了建模計(jì)算量,減輕了模型共線性問(wèn)題,提高了建模精度。
2)通過(guò)采用LARS算法得到輸入變量的特征系數(shù),由此得到最終的輸入變量集。該方法可以有效減少建模所需的輸入變量個(gè)數(shù),降低輸入變量的維度,減少計(jì)算量。
3)將本文提出Pc-lars-GPR煙氣含氧量模型應(yīng)用于某超超臨界1 000 MW機(jī)組的煙氣含氧量軟測(cè)量,結(jié)果表明該模型誤差較小,且其靜態(tài)準(zhǔn)確度和泛化性能均可滿足軟測(cè)量要求。
[1] KADLEC P, GRBI? R, GABRYS B. Review of adaptation mechanisms for data-driven soft sensors[J]. Computers & Chemical Engineering, 2011, 35(1): 1-24.
[2] KHATIBISEPEHR S, HUANG B, KHARE S. Design of inferential sensors in the process industry: a review of Bayesian methods[J]. Journal of Process Control, 2013, 23(10): 1575-1596.
[3] GE Z. Mixture Bayesian regularization of PCR model and soft sensing application[J]. IEEE Transactions on Industrial Electronics, 2015, 62(7): 4336-4343.
[4] 韓璞, 喬弘, 王東風(fēng), 等. 火電廠熱工參數(shù)軟測(cè)量技術(shù)的發(fā)展和現(xiàn)狀[J]. 儀器儀表學(xué)報(bào), 2007, 28(6): 1139-1146.
HAN Pu, QIAO Hong, WANG Dongfeng, et al. Development and current status of thermal parameter soft-sensing technique in power plant[J]. Chinese Journal of Scientific Instrument, 2007, 28(6): 1139-1146.
[5] YUAN X, GE Z, SONG Z, et al. Soft sensor modeling of nonlinear industrial processes based on weighted probabilistic projection regression[J]. IEEE Transactions on Instrumentation and Measurement, 2017, 66(4): 837-845.
[6] GALICIA H J, HE Q P, WANG J. A reduced order soft sensor approach and its application to a continuous digester[J]. Journal of Process Control, 2011, 21(4): 489-500.
[7] ROGINA A, ?I?KO I, MOHLER I, et al. Soft sensor for continuous product quality estimation (in crude distillation unit)[J]. Chemical Engineering Research and Design, 2011, 89(10): 2070-2077.
[8] 李建強(qiáng), 趙凱, 牛成林, 等. 基于GA-SVM的電站鍋爐煙氣含氧量軟測(cè)量模型[J]. 熱力發(fā)電, 2017, 46(4): 63-69.
LI Jianqiang, ZHAO Kai, NIU Chenglin, et al. GA-SVM-based soft-sensor model for oxygen content in flue gas of utility boilers[J]. Thermal Power Generation, 2017, 46(4): 63-69.
[9] 金秀章, 韓超. KPCA-LSSVM在磨煤機(jī)一次風(fēng)量預(yù)測(cè)中的應(yīng)用[J]. 自動(dòng)化儀表, 2015, 36(3): 62-67.
JIN Xiuzhang, HAN Chao. Application of KPCA-LSSVM in prediction of the primary air flow of pulverizer[J]. Process Automation Instrumentation, 2015, 36(3): 62-67.
[10] 劉吉臻, 秦天牧, 楊婷婷, 等. 基于偏互信息的變量選擇方法及其在火電廠SCR系統(tǒng)建模中的應(yīng)用[J]. 中國(guó)電機(jī)工程學(xué)報(bào), 2016, 36(9): 2438-2443.
LIU Jizhen, QIN Tianmu, YANG Tingting, et al. Variable selection method based on partial mutual information and its application in power plant SCR system modeling[J]. Proceedings of the CSEE, 2016, 36(9): 2438-2443.
[11]呂游, 劉吉臻, 楊婷婷, 等. 基于PLS特征提取和LS-SVM結(jié)合的NO排放特性建模[J]. 儀器儀表學(xué)報(bào), 2013, 34(11): 2418-2424.
LV You, LIU Jizhen, YANG Tingting, et al. NOemission characteristic modeling based on feature extraction using PLS and LS-SVM[J]. Chinese Journal of Scientific Instrument, 2013, 34(11): 2418-2424.
[12] 李建強(qiáng), 張瑩瑩, 牛成林. 基于PSO-LSSVM模型的火電廠煙氣含氧量預(yù)測(cè)[J]. 熱能動(dòng)力工程, 2018, 33(7): 49-55.
LI Jianqiang, ZHANG Yingying, NIU Chenglin. Prediction of the oxygen content in flue gas of power plant based on PSO-LSSVM model[J]. Journal of Engineering for Thermal Energy and Power, 2018, 33(7): 49-55.
[13] 賀桂林, 王富強(qiáng), 張秋生, 等. 基于非參數(shù)組合的電廠含氧量軟測(cè)量模型[J]. 熱力發(fā)電, 2018, 47(4): 55-62.
HE Guilin, WANG Fuqiang, ZHANG Qiusheng, et al. Soft measurement model of oxygen content based on the nonparametric combination for power plants[J]. Thermal Power Generation, 2018, 47(4): 55-62.
[14] EFRON B, HASTIE T, JOHNSTONE I, et al. Least angle regression[J]. The Annals of Statistics, 2004, 32(2): 407-499.
[15] 顏勝科, 楊輝華, 胡百超, 等. 基于最小角回歸與GA-PLS的NIR光譜變量選擇方法[J]. 光譜學(xué)與光譜分析, 2017, 37(6): 1733-1738.
YAN Shengke, YANG Huihua, HU Baichao, et al. Variable selection method of NIR spectroscopy based on least angle regression and GA-PLS[J]. Spectroscopy and Spectral Analysis, 2017, 37(6): 1733-1738.
[16] RASMUSSEN C E. Gaussian processes in machine learning[M]. Springer, Berlin, Heidelberg: Advanced Lectures on Machine Learning, 2004: 63-71.
[17]YAN W, TANG D, LIN Y. A data-driven soft sensor modeling method based on deep learning and its application[J]. IEEE Transactions on Industrial Electronics, 2017, 64(5): 4237-4245.
[18] 賈昊, 董澤, 閆來(lái)清. 基于信號(hào)分解和統(tǒng)計(jì)假設(shè)檢驗(yàn)的穩(wěn)態(tài)檢測(cè)方法[J]. 儀器儀表學(xué)報(bào), 2018, 39(10): 150-157.
JIA Hao, DONG Ze, YAN Laiqing. Steady-state detection method based on signal decomposition and statistical hypothesis test[J]. Chinese Journal of Scientific Instrument, 2018, 39(10): 150-157.
Data-driven soft sensor modeling method based on feature selection
DONG Ze1,2, JIA Hao1,2, JIANG Wei1
(1. Hebei Technology Innovation Center of Simulation & Optimized Control for Power Generation, North China Electric Power University, Baoding 071003, China; 2. School of Control and Computer Engineering, North China Electric Power University, Beijing 102206, China)
Due to poor measurement environment, expensive analytical instruments and large measurement delay, some key variables of power generating units are difficult to realize on-line measurement. To solve this problem, a feature selection method based on the Pearson correlation coefficient and the least angle regression algorithm (LARS) is presented. On this basis, a soft sensing model of oxygen content in flue gas of power plants is established. Firstly, the initial variables of oxygen content in flue gas are determined according to the mechanism study, and the Pearson correlation coefficient is used to fuse the data of multiple measurement points. Then, the least angle regression algorithm is used to select the input variables, and the soft sensor model of oxygen content in flue gas is established by introducing the Gauss process regression (GPR) model. Finally, this model is applied to simulate the actual steady condition data of an ultra supercritical 1 000 MW unit. The results show that, the predicted results have little error with the actually measured values, and the precision of the model is higher. Applying this feature selection method can effectively reduce the number of the secondary variables used in modeling, decrease the input complexity of the model and improve the calculation efficiency. Moreover, it can enhance the static accuracy and generalization ability of the flue gas oxygen content model.
soft sensing, data fusion, feature selection, Pearson correlation coefficient, least angle regression, Gauss process regression, oxygen content in flue gas
TP274.2
A
10.19666/j.rlfd.201901004
2019-01-16
河北省自然科學(xué)基金項(xiàng)目(E2018502111);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助(2018QN096)
Supported by:Natural Science Foundation of Hebei Province (E2018502111); Fundamental Research Funds for the Central Universities (2018QN096)
董澤(1970—),博士,教授,主要研究方向?yàn)榇笮突痣姍C(jī)組建模理論與方法、智能控制理論及應(yīng)用,dongze33@126.com。
賈昊(1988—),博士研究生,主要研究方向?yàn)榇笮突痣姍C(jī)組歷史數(shù)據(jù)挖掘與建模,Jiah_paper@163.com。
董澤, 賈昊, 姜煒. 基于特征選擇的數(shù)據(jù)驅(qū)動(dòng)軟測(cè)量方法[J]. 熱力發(fā)電, 2019, 48(9): 83-89. DONG Ze, JIA Hao, JIANG Wei. Data-driven soft sensor modeling method based on feature selection[J]. Thermal Power Generation, 2019, 48(9): 83-89.
(責(zé)任編輯 杜亞勤)