孫海芳,胡天亨,馬亞欣,劉忠剛,梁昌晶
(1. 中油國際管道有限公司 中哈天然氣管道項目,北京 100029;2. 四川省天宇銳集團有限公司,四川 成都 610000;3. 中國市政工程西北設(shè)計研究院有限公司,甘肅 蘭州 730000;4. 中國石油華北油田公司 第五采油廠,河北 辛集 052360)
隨著國民經(jīng)濟的發(fā)展,天然氣在一次能源消費中的比重越來越大,中國近年來興建了中緬天然氣、中哈天然氣、西氣東輸、陜京線等一系列管道工程,逐步形成了橫貫東西、縱貫?zāi)媳?、連通海外的輸氣管網(wǎng)。在管道運行期間,壓縮機流量參數(shù)是核算壓縮機效率、繪制性能曲線、分析管道能耗的基礎(chǔ)參數(shù)[1-2]。但限于目前國內(nèi)仍以體積計量作為天然氣貿(mào)易和消費的主要結(jié)算方式,通常只在首站進(jìn)出口匯管處安裝超聲波、容積式或氣體渦輪流量計,對于并聯(lián)壓縮機組中的單臺壓縮機沒有計量,各中間壓氣站也沒有單獨計量,這就導(dǎo)致管道方在協(xié)調(diào)上游氣源和下游用戶氣量時,存在一定的盲目性和未知性,特別是在冬季或節(jié)假日用氣高峰的工況下,壓縮機的運行狀態(tài)無法達(dá)到最優(yōu)。因此,如何獲得單臺壓縮機的流量參數(shù)是管道方亟待解決的主要問題之一。目前,已有諸多學(xué)者將數(shù)據(jù)驅(qū)動軟測量技術(shù)應(yīng)用于汽油干點預(yù)測[3]、海上油氣生產(chǎn)系統(tǒng)預(yù)測[4-5]和污水化學(xué)需氧量[6]預(yù)測等方面,但針對壓縮機流量的預(yù)測還鮮有報道?;诖?在現(xiàn)場測試實驗的基礎(chǔ)上,構(gòu)建隨機森林的流量預(yù)測模型,并采用網(wǎng)格搜索對影響模型精度的超參數(shù)進(jìn)行尋優(yōu),最終實現(xiàn)最優(yōu)預(yù)測模型,為能源管控和流量優(yōu)化提供實際參考。
軟測量技術(shù)是在生產(chǎn)知識的基礎(chǔ)上,選擇一些容易測量的變量作為自變量,難以測量的變量作為因變量,用數(shù)據(jù)驅(qū)動和計算機技術(shù)構(gòu)建兩者之間的非線性關(guān)系,對因變量實施預(yù)測的過程[7-8]。實現(xiàn)過程包括自變量選擇、數(shù)據(jù)采集及預(yù)處理、軟測量建模三部分,其中,軟測量建模是預(yù)測結(jié)果準(zhǔn)確性的關(guān)鍵,采用隨機森林模型構(gòu)建。
隨機森林模型屬于以決策樹為個體的集成學(xué)習(xí)算法,可用于分類或回歸預(yù)測,避免了傳統(tǒng)模型存在的過擬合或欠擬合現(xiàn)象[9]。首先,采用Bootstrap方法抽取訓(xùn)練集數(shù)據(jù),該方法是在原始樣本容量不變的前提下,有放回的抽取觀察樣本,保證每個觀察樣本被抽到的概率相等,最終形成n個子樣本集{X1,X2, …,Xn};隨后,建立與子樣本集對應(yīng)的決策樹,并隨機選擇m個特征變量作為當(dāng)前決策樹節(jié)點的分裂特征集;最后,對每個決策樹回歸得到的數(shù)據(jù)匯總,即為{Y1,Y2, …,Yn},取回歸結(jié)果的均值作為模型最終預(yù)測結(jié)果[10]。
在隨機森林算法建模的過程中,決策樹的個數(shù)n和分裂特征數(shù)m屬于超參數(shù),兩者決定著預(yù)測模型準(zhǔn)確性和泛化能力。n數(shù)量太小,導(dǎo)致訓(xùn)練階段擬合不充分;數(shù)量太大,導(dǎo)致計算時間過長。m數(shù)量太小,導(dǎo)致特征分裂準(zhǔn)確性存在誤差;數(shù)量太大,導(dǎo)致計算效率過低。在此,采用網(wǎng)格搜索對超參數(shù)進(jìn)行尋優(yōu),即對所有可能出現(xiàn)的n和m組合下的隨機森林模型的預(yù)測效果進(jìn)行遍歷,以期找到精度最高的參數(shù)組合。但網(wǎng)格搜索在面臨數(shù)據(jù)量較大樣本時,計算復(fù)雜度會呈指數(shù)增長,故繼續(xù)采用交叉驗證的方式提高被評估模型的準(zhǔn)確性和可靠性,避免數(shù)據(jù)集分組不均衡帶來的數(shù)據(jù)偏移現(xiàn)象[11]。
交叉驗證是將全部樣本集分為K組,其中K-1組作為訓(xùn)練集,剩余的1組作為測試集,每次訓(xùn)練結(jié)束后,輸出K個模型的預(yù)測結(jié)果,將平均得分作為模型評價標(biāo)準(zhǔn)。
預(yù)測流程如下:
1)數(shù)據(jù)收集。選擇壓縮機進(jìn)口壓力、出口壓力、進(jìn)口溫度、出口溫度、轉(zhuǎn)速、氣質(zhì)中甲烷含量、大氣壓力、環(huán)境溫度、燃料氣消耗量作為輸入變量,選擇壓縮機流量作為輸出變量。
2)數(shù)據(jù)預(yù)處理??紤]到不同變量具有的量綱和量綱單位不一,為消除各維數(shù)據(jù)之間的數(shù)量級差別,對變量進(jìn)行歸一化處理,如式(1)所示:
(1)
3)確定輸入變量。為避免輸入變量間的冗余性對模型預(yù)測精度造成影響,根據(jù)“平均基尼指數(shù)”下降的原則衡量袋外數(shù)據(jù)的回歸準(zhǔn)確性,如該變量的基尼指數(shù)對樣本回歸的誤差結(jié)果影響較大,則該變量的重要程度較大。
4)確定模型參數(shù)。在網(wǎng)格搜索和交叉驗證的基礎(chǔ)上,確定模型超參數(shù),交叉驗證K取10,即為10折交叉驗證。
5)模型訓(xùn)練及結(jié)果分析。將訓(xùn)練集和測試集代入設(shè)定好參數(shù)的模型中,將預(yù)測結(jié)果進(jìn)行反歸一化處理,得到最終預(yù)測結(jié)果,并通過均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)對模型精度進(jìn)行定量評價,如式(2),式(3)所示:
(2)
(3)
以某輸氣管道典型離心式壓縮機為例,首站配有1臺國產(chǎn)CGT30-D型燃?xì)廨啓C驅(qū)動的PCL805型離心式壓縮機,3臺進(jìn)口RR型燃?xì)廨啓C驅(qū)動的RFBB36型離心式壓縮機,最大進(jìn)站壓力為5 MPa,在出口匯管處配有超聲波流量計。利用用戶調(diào)峰及設(shè)備檢修間隙,參照SY/T 6637—2018《天然氣輸送管道系統(tǒng)能耗測試和計算方法》中的測試步驟,由獲取計量資質(zhì)的專業(yè)人員通過便攜式流量測試設(shè)備對單臺壓縮機組的流量進(jìn)行連續(xù)監(jiān)測,同時采集與流量數(shù)據(jù)相關(guān)的特征作為輸入變量。其中,壓力、溫度、轉(zhuǎn)速根據(jù)現(xiàn)場數(shù)據(jù)采集與監(jiān)控系統(tǒng)(SCADA)的監(jiān)測結(jié)果獲取,氣質(zhì)中甲烷含量通過便攜式氣相色譜儀獲取,燃料氣消耗量通過燃料氣流量計獲取。測試期間,在5 min之內(nèi),轉(zhuǎn)速的波動范圍應(yīng)在±0.5%,壓力的波動范圍在±2%,溫度的波動范圍在±0.5℃為穩(wěn)態(tài)工況的判定依據(jù),由此測試不同條件下的壓縮機流量數(shù)據(jù)。以PCL805型離心式壓縮機的數(shù)據(jù)為例,共獲取不同工況下的500組數(shù)據(jù),部分?jǐn)?shù)據(jù)見表1所列。隨后,利用式(1)對表1的數(shù)據(jù)進(jìn)行歸一化,完成數(shù)據(jù)預(yù)處理過程。
表1 PCL805型離心式壓縮機流量數(shù)據(jù)(部分)
設(shè)置n和m的缺省值分別為200,3,則輸入變量重要程度如圖1所示。其中,燃料氣消耗量和大氣壓力的重要程度小于0.3,說明這2個參數(shù)對壓縮機流量的預(yù)測結(jié)果不構(gòu)成影響,應(yīng)予以刪減。
圖1 輸入變量的重要程度示意
在n=200的條件下,考察不同m值下預(yù)測結(jié)果的RMSE和擬合優(yōu)度,見表2所列。其中,m=5時,預(yù)測結(jié)果的RMSE最小、擬合優(yōu)度最大,即m=5為最佳參數(shù)。
表2 不同m值下預(yù)測結(jié)果的RMSE和擬合優(yōu)度
在m=5的條件下,考察不同n值下預(yù)測結(jié)果的RMSE,如圖2所示。隨著n的增加,模型計算誤差逐漸減小,在n>200時,模型計算誤差接近下限??紤]到模型誤差要求一定程度上保持平穩(wěn)性,故最終n取300。
圖2 不同決策樹數(shù)量下的預(yù)測結(jié)果示意
將測試集數(shù)據(jù)代入訓(xùn)練好的隨機森林模型,得到壓縮機流量預(yù)測結(jié)果。為了驗證本文結(jié)果的準(zhǔn)確性,與支持向量機(SVM)模型、樸素貝葉斯(NB)模型和經(jīng)網(wǎng)格搜索確定超參數(shù)的支持向量機(GS-SVM)模型的預(yù)測結(jié)果對比,見表3所列。其中,GS-SVM模型中的懲罰因子為10,不敏感參數(shù)為0.001,SVM和NB模型的超參數(shù)為默認(rèn)值。將SVM和GS-SVM模型相比,GS-SVM模型的預(yù)測精度大幅提升,說明超參數(shù)直接影響模型的泛化能力,合理的超參數(shù)尋優(yōu)方法對于節(jié)省模型算力具有重要意義,網(wǎng)格搜索方法具有一定合理性。將GS-SVM和本文模型相比,兩者只是數(shù)據(jù)驅(qū)動的模型不一致,但明顯本文模型的預(yù)測效果更好,這是由于支持向量機雖然可以在小樣本條件下建立數(shù)據(jù)逼近和回歸,但本質(zhì)上屬于淺層神經(jīng)網(wǎng)絡(luò)模型,對于壓縮機流量這類復(fù)雜非線性的數(shù)據(jù)集理解和剖析能力有限,隨機森林的中間層是由數(shù)個決策樹構(gòu)成,通過剪枝操作得到最終結(jié)果,其結(jié)果反映了多數(shù)的決策結(jié)果,故預(yù)測效果更好。將NB和本文模型相比,NB的預(yù)測效果最差,這與該模型在實施預(yù)測時需確定先驗概率,而先驗概率取決于假設(shè)條件,當(dāng)假設(shè)條件不恰當(dāng)時,對模型預(yù)測精度影響較大。
表3 不同模型中RMSE與MAPE的預(yù)測結(jié)果對比
繪制真實值與本文預(yù)測值的點線圖,對比如圖3所示??梢钥闯鰞烧叩奈呛闲院鸵恢滦暂^好,僅有部分預(yù)測值偏離真實值,但偏離程度較小??傮w上看,基于隨機森林的軟測量技術(shù)可以真實地反映單臺、多臺并聯(lián)壓縮機及匯管的工藝氣流量,對于提高站場自動化水平、制定節(jié)能降耗措施具有重要意義。
圖3 真實值與預(yù)測值對比示意
本文模型在融合網(wǎng)格搜索和隨機森林算法的基礎(chǔ)上,實現(xiàn)了基于數(shù)據(jù)驅(qū)動的壓縮機流量軟測量建模,通過基尼指數(shù)確定了燃料氣消耗量和大氣壓力對壓縮機流量的相關(guān)性較小,其變量應(yīng)予以刪減。通過交叉驗證和網(wǎng)格搜索確定了隨機森林的超參數(shù),決策樹的個數(shù)n為300,分裂特征數(shù)m為5時的預(yù)測效果最佳。與SVM,NB,GS-SVM模型相比,本文模型的RMSE和MAPE均最小,說明了本文模型可以用于壓縮機流量的軟測量,具有一定的先進(jìn)性和科學(xué)性。