朱振宇 ,白小眾,徐磊 ,侯磊 *,劉金海,谷文淵,孫欣
1 中國(guó)石油大學(xué)(北京)機(jī)械與儲(chǔ)運(yùn)工程學(xué)院,北京 102249
2 中國(guó)石油天然氣集團(tuán)公司油氣儲(chǔ)運(yùn)重點(diǎn)實(shí)驗(yàn)室,北京 102249
3 國(guó)家管網(wǎng)集團(tuán)北方管道有限責(zé)任公司錦州輸油氣分公司,錦州 121000
我國(guó)長(zhǎng)輸原油管道電耗巨大,年均電耗占管道運(yùn)行成本的一半以上,降低管道電耗值是管道企業(yè)的迫切需要。為此,企業(yè)通常采用電耗預(yù)測(cè)方法對(duì)電耗值進(jìn)行目標(biāo)管理,即為管道設(shè)置合理的電耗目標(biāo)值。電耗預(yù)測(cè)按時(shí)間間隔可分為短期﹑中期和長(zhǎng)期能耗預(yù)測(cè)3 種類型。對(duì)于中期能耗預(yù)測(cè)而言,其預(yù)測(cè)周期通常為一個(gè)月。預(yù)測(cè)值與真實(shí)值之間的差距既能反映企業(yè)的運(yùn)行管理水平,又能體現(xiàn)管道的節(jié)能潛力,因此對(duì)原油管道月度電耗值進(jìn)行準(zhǔn)確預(yù)測(cè)成為一個(gè)亟待解決的問(wèn)題。
原油管道傳統(tǒng)的能耗預(yù)測(cè)方法主要包括工藝計(jì)算法和統(tǒng)計(jì)預(yù)測(cè)法[1]。工藝計(jì)算法基于管道實(shí)際工藝流程進(jìn)行能耗預(yù)測(cè),現(xiàn)多以成熟的商業(yè)軟件進(jìn)行仿真模擬。Zuo等[2]根據(jù)工藝原理建立了在給定流量下的管道最優(yōu)運(yùn)行數(shù)學(xué)模型,適用于多種原油管道的能耗預(yù)測(cè)。但該方法通常涉及的站場(chǎng)設(shè)備和管道運(yùn)行參數(shù)眾多,且理論公式在實(shí)際應(yīng)用時(shí)存在局限性;統(tǒng)計(jì)預(yù)測(cè)法基于管道多年歷史數(shù)據(jù)來(lái)建立預(yù)測(cè)模型,隋富娟等[3]利用某輸油管道5 年的輸油量和油電損耗,建立了三元非等間距的GM(1,1)模型,但原油管道影響因素眾多,各因素之間非線性聯(lián)系強(qiáng),上述方法不適用于多因素影響下的管道能耗預(yù)測(cè)。近年來(lái),人工智能技術(shù)飛速發(fā)展,機(jī)器學(xué)習(xí)方法既能擺脫完全依賴準(zhǔn)確理論知識(shí)建模的困難,又能基于過(guò)程數(shù)據(jù)對(duì)其中蘊(yùn)含的潛在信息進(jìn)行挖掘,因此機(jī)器學(xué)習(xí)模型已在多種能源消耗預(yù)測(cè)領(lǐng)域得到廣泛應(yīng)用。Nasr等[4]利用神經(jīng)網(wǎng)絡(luò)模型對(duì)黎巴嫩汽油需求量分別進(jìn)行了單變量和多變量預(yù)測(cè),證明多變量模型具有更好的預(yù)測(cè)效果;王小君等[5]引入基于數(shù)據(jù)挖掘理論的支持向量機(jī)模型,解決了電力系統(tǒng)負(fù)荷預(yù)測(cè)樣本選取問(wèn)題;呂歡歡等[6]針對(duì)影響列車牽引能耗因素繁多問(wèn)題,運(yùn)用支持向量機(jī)和隨機(jī)森林兩種方法建立列車牽引能耗預(yù)測(cè)模型,有效解決了高維度和非線性難題;Zeng等[7]利用多層感知人工神經(jīng)網(wǎng)絡(luò)對(duì)某輸油管道日耗電量進(jìn)行預(yù)測(cè),證明該模型有較高的預(yù)測(cè)精度。隨著“智慧管道”構(gòu)想的提出,更加速了以大數(shù)據(jù)為依托的機(jī)器學(xué)習(xí)技術(shù)在管道業(yè)的應(yīng)用與發(fā)展,黃維和[8]﹑吳長(zhǎng)春[9]﹑董紹華[10]等學(xué)者對(duì)此作了諸多研究與思考。
利用機(jī)器學(xué)習(xí)方法進(jìn)行建模,數(shù)據(jù)的數(shù)量和質(zhì)量是關(guān)鍵[11],當(dāng)訓(xùn)練樣本數(shù)量不充足時(shí),機(jī)器學(xué)習(xí)算法會(huì)出現(xiàn)泛化能力不足﹑預(yù)測(cè)精度不佳等問(wèn)題。但由于管道運(yùn)行數(shù)據(jù)獲取成本過(guò)高﹑企業(yè)重視數(shù)據(jù)安全﹑因年久失修或者工藝變化而進(jìn)行管道改造等原因,往往導(dǎo)致難以獲得足夠多的樣本來(lái)進(jìn)行研究。為解決樣本不足問(wèn)題﹑促進(jìn)管道大數(shù)據(jù)的發(fā)展,本文基于數(shù)據(jù)生成技術(shù)提出通過(guò)自取法(Bootstrap)對(duì)輸油管道運(yùn)行數(shù)據(jù)小樣本集進(jìn)行擴(kuò)充,利用粒子群算法(PSO)優(yōu)化后的支持向量機(jī)(SVM)模型對(duì)總體樣本進(jìn)行學(xué)習(xí)和預(yù)測(cè),以此提高預(yù)測(cè)精度,并以國(guó)內(nèi)某輸油管道作為算例分析,驗(yàn)證了該實(shí)驗(yàn)方法的可行性與有效性。
選擇特征參數(shù)的目的是為機(jī)器學(xué)習(xí)方法識(shí)別有用和非冗余的特征子集,輸入特征參數(shù)的合理選擇直接決定了模型的預(yù)測(cè)性能。因此,有必要對(duì)管道運(yùn)行過(guò)程中影響電耗的相關(guān)因素進(jìn)行詳細(xì)分析,選擇合適的參數(shù)作為預(yù)測(cè)模型的輸入特征。
運(yùn)行電耗主要是指長(zhǎng)輸管道各站內(nèi)的輸油泵機(jī)組耗電量,這部分能耗是維持管道正常運(yùn)行最基本﹑最關(guān)鍵的能耗,也最具有節(jié)能潛力[12],主要受原油物性參數(shù)﹑管道參數(shù)﹑環(huán)境參數(shù)和運(yùn)行參數(shù)4 類參數(shù)影響,部分參數(shù)的詳細(xì)分類如表1 所示。其中,原油物性參數(shù)隨管道溫度變化而變化,在實(shí)際運(yùn)輸過(guò)程中很難實(shí)時(shí)獲取,且對(duì)于同一條原油管道,當(dāng)輸送的油品種類一定時(shí),原油物性的影響可以忽略不計(jì)。管道參數(shù)基本可以視為固定值,作為輸入?yún)?shù)的意義不大。環(huán)境參數(shù)中地溫較為重要,當(dāng)?shù)販馗邥r(shí)管道的散熱量會(huì)減少,相應(yīng)的管輸耗電量減少,反之則會(huì)增加。管道運(yùn)行參數(shù)中的輸量﹑進(jìn)出站溫度和壓力等參數(shù)都與泵機(jī)組耗電有著密不可分的聯(lián)系?;谏鲜龇治?,選擇輸量﹑平均進(jìn)溫﹑平均出溫﹑平均進(jìn)壓﹑平均出壓和地溫作為預(yù)測(cè)模型的輸入?yún)?shù),用于管道運(yùn)行電耗預(yù)測(cè)。
表1 原油管道參數(shù)分類Table 1 Classification of crude oil pipeline parameters
管道A為國(guó)內(nèi)一條保溫原油管道,全線長(zhǎng)度為361.2 km,設(shè)計(jì)輸量為900 萬(wàn)~1000 萬(wàn)t/a,共設(shè)有9座站場(chǎng),為方便論述本文以其中2 座站場(chǎng)數(shù)據(jù)為例進(jìn)行實(shí)驗(yàn)。取2 站場(chǎng)2017 年1 月至2019 年6 月各30 組數(shù)據(jù),其中部分?jǐn)?shù)據(jù)如表2 所示。
由于采集的數(shù)據(jù)樣本較少,如果采用傳統(tǒng)的隨機(jī)抽樣方法劃分?jǐn)?shù)據(jù)集,通常會(huì)造成得到的訓(xùn)練集和測(cè)試集的分布規(guī)律與原始數(shù)據(jù)集的分布規(guī)律出現(xiàn)大的偏離,使預(yù)測(cè)結(jié)果缺乏可信度。因此本文采用分層抽樣來(lái)替代簡(jiǎn)單隨機(jī)抽樣,用以避免明顯的抽樣偏差,保證預(yù)測(cè)結(jié)果的有效性。
為驗(yàn)證小樣本集下使用分層抽樣的優(yōu)越性,以站場(chǎng)1 的輸量數(shù)據(jù)為例,按其分布規(guī)律劃分為4 個(gè)區(qū)間,分別使用分層抽樣法和隨機(jī)抽樣法對(duì)數(shù)據(jù)進(jìn)行抽樣,最終的結(jié)果如圖1 所示。通過(guò)分析可得,原始數(shù)據(jù)中4 個(gè)區(qū)間所占的比例分別是6.67%﹑26.67%﹑26.67%和40.00%,分層抽樣獲得的訓(xùn)練樣本中四個(gè)區(qū)間所占的比例分別是4.76%﹑28.57%﹑28.57%和38.10%,隨機(jī)抽樣的結(jié)果分別是4.76%﹑23.81%﹑38.10%和33.33%,2 種抽樣方法的平均絕對(duì)百分誤差分別是11.90%和24.71%。由此可知分層抽樣方法在小樣本情況下能有效降低隨機(jī)抽樣帶來(lái)的抽樣偏差,能夠更好地體現(xiàn)原始數(shù)據(jù)的分布規(guī)律,有利于保證預(yù)測(cè)效果的客觀性和可靠性。
表2 站場(chǎng)1 部分?jǐn)?shù)據(jù)Table 2 Partial data of Station 1
表3 站場(chǎng)2 部分?jǐn)?shù)據(jù)展示Table 3 Partial data of Station 2
充足的訓(xùn)練樣本及其在樣本空間中的分布性決定了機(jī)器學(xué)習(xí)方法的泛化能力與預(yù)測(cè)精度,但在實(shí)際生產(chǎn)過(guò)程中,由于獲取樣本成本過(guò)高﹑數(shù)據(jù)多但重復(fù)﹑考慮數(shù)據(jù)安全等原因,往往只能獲得少量數(shù)據(jù),使得建立的預(yù)測(cè)模型難以達(dá)到精度要求。
為此,學(xué)者們提出用數(shù)據(jù)生成技術(shù)解決數(shù)據(jù)不足問(wèn)題。數(shù)據(jù)生成技術(shù)的思想是利用先驗(yàn)知識(shí)或樣本分布規(guī)律等潛在信息生成新的樣本[13],用于填充樣本信息間隔,提高原始樣本集的預(yù)測(cè)能力。生成的新樣本被稱為虛擬樣本或者人工樣本,是根據(jù)原始樣本內(nèi)的潛在信息而得到的一種新數(shù)據(jù)。原始小樣本﹑虛擬樣本和總體空間之間的關(guān)系如圖2 所示,原始小樣本集由少量原始數(shù)據(jù)組成,總體空間和原始小樣本集之間的信息空白則由大量虛擬樣本進(jìn)行填充。因此,原始樣本中的信息間隔被縮小,添加虛擬樣本能夠提高預(yù)測(cè)模型在小樣本集下的學(xué)習(xí)能力和預(yù)測(cè)精度。
目前較為常用的生成方法有蒙特卡洛法﹑整體趨勢(shì)擴(kuò)散技術(shù)(MTD)和自取法等。蒙特卡洛法原理簡(jiǎn)單,但在數(shù)據(jù)量極少情況下會(huì)產(chǎn)生較大誤差[14];MTD通過(guò)三角隸屬函數(shù)非對(duì)稱地對(duì)數(shù)據(jù)進(jìn)行擴(kuò)散,但有著單模態(tài)和獨(dú)立性假設(shè)的缺陷[15]。因此,本文選用自取法作為擴(kuò)充原始數(shù)據(jù)的途徑,相較于其他方法,它具有不需要對(duì)樣本分布進(jìn)行假設(shè)的優(yōu)點(diǎn),因此當(dāng)樣本分布未知時(shí),該方法最為有效[16-17]。
圖1 站場(chǎng)1 不同抽樣方法抽樣結(jié)果圖Fig. 1 Sampling results of different sampling methods in Station 1
圖2 小樣本集、虛擬樣本 、總體空間關(guān)系圖Fig. 2 Small sample set, virtual sample, and overall spatial diagram
自取法于1979 年由統(tǒng)計(jì)學(xué)家Bradley Efron系統(tǒng)地提出,其本質(zhì)上是一種不需要樣本分布假設(shè)的非參數(shù)采樣方法,通過(guò)在原始樣本的基礎(chǔ)上進(jìn)行隨機(jī)的有放回的抽樣,來(lái)構(gòu)建某個(gè)估計(jì)量的置信區(qū)間。當(dāng)可利用的樣本數(shù)量有限時(shí),自取法不需要對(duì)經(jīng)驗(yàn)分布進(jìn)行過(guò)多假設(shè),能夠從采集到的新的子樣本中得到統(tǒng)計(jì)量,從而進(jìn)一步研究總體樣本。該方法實(shí)現(xiàn)數(shù)據(jù)生成過(guò)程的步驟如下:
(1)假設(shè)原始小樣本集X中含有k個(gè)特征,n組數(shù)據(jù),取出某一特征x=[x1,x2,…,xn],然后使用隨機(jī)數(shù)生成器隨機(jī)生成整數(shù)l1,l2,…,ln∈[1,n];
(2)在生成的整數(shù)l1,l2,…,ln的基礎(chǔ)上,根據(jù)其所對(duì)應(yīng)的下標(biāo),從原始數(shù)據(jù)集x中進(jìn)行有放回的抽樣,得到新的數(shù)據(jù)集x’=[xl1,xl2,…,xln];
(3)重復(fù)步驟(2)k次,得到擴(kuò)充后的樣本集X’=[x1′,x2′ ,…,xk′ ],生成的樣本數(shù)量為k×n。
支持向量機(jī)是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化的機(jī)器學(xué)習(xí)算法,相較于神經(jīng)網(wǎng)絡(luò)算法,它在處理小樣本時(shí)能夠避免“過(guò)擬合”問(wèn)題,因此被廣泛應(yīng)用于回歸﹑預(yù)測(cè)﹑分類等領(lǐng)域[18-21]。支持向量機(jī)的預(yù)測(cè)精度依賴于懲罰系數(shù)C和核參數(shù)γ的選取,超參數(shù)選取不當(dāng)會(huì)影響模型的泛化能力[22]。因此,需要對(duì)這兩個(gè)超參數(shù)進(jìn)行優(yōu)化,選擇合適的取值。
目前,超參數(shù)優(yōu)化工作主要通過(guò)啟發(fā)式算法來(lái)完成,而粒子群算法相較于遺傳算法(GA)﹑果蠅算法(FOA)等具有設(shè)置參數(shù)少﹑收斂快的優(yōu)點(diǎn)[23],因此本文選用粒子群算法對(duì)支持向量機(jī)進(jìn)行超參數(shù)優(yōu)化。在該算法中,種群由粒子組成,每個(gè)粒子的特征包括一個(gè)位置向量和一個(gè)速度向量,利用個(gè)體極值pbest和全局極值gbest來(lái)更新位置和速度。每個(gè)粒子根據(jù)如下公式來(lái)更新自己的速度和位置:
式中,k為迭代次數(shù);ω為慣性權(quán)重;c1﹑c2稱為學(xué)習(xí)因子;r1(k)和r2(k)是[0,1]區(qū)間的隨機(jī)數(shù);υi(k)和xi(k)分別表示粒子i在第k次迭代的速度和位置;pbest(k)和gbest(k)分別表示粒子i在第k次迭代的個(gè)體極值的位置和全局極值的位置。
提出的PSO-SVM預(yù)測(cè)模型能夠?qū)蓚€(gè)超參數(shù)進(jìn)行動(dòng)態(tài)調(diào)整,然后將得到的最優(yōu)組合反饋給SVM模型,實(shí)現(xiàn)超參數(shù)的自適應(yīng)優(yōu)化,圖3 為PSO-SVM模型的超參數(shù)優(yōu)化流程。
本研究的目的是通過(guò)增加虛擬樣本到特定小數(shù)據(jù)集來(lái)提高預(yù)測(cè)模型的預(yù)測(cè)精度,主要內(nèi)容包括:根據(jù)原始小樣本集建立初始SVM預(yù)測(cè)模型;通過(guò)自取法生成虛擬樣本,對(duì)原始樣本集進(jìn)行擴(kuò)充;將原始樣本與虛擬樣本合并形成總樣本,以此為基礎(chǔ)展開預(yù)測(cè);對(duì)預(yù)測(cè)結(jié)果進(jìn)行誤差分析。具體實(shí)現(xiàn)步驟如下:
(1)對(duì)搜集的數(shù)據(jù)進(jìn)行檢查和缺失修補(bǔ),去除明顯錯(cuò)誤的數(shù)據(jù)。
(2)為了避免隨機(jī)抽樣帶來(lái)的抽樣誤差,采用分層抽樣來(lái)劃分訓(xùn)練集和測(cè)試集,使得劃分的樣本與初始數(shù)據(jù)的分布規(guī)律較為接近。因?yàn)檩斎胫档拇笮〈嬖谳^大差異,因此對(duì)輸入值進(jìn)行歸一化,歸一化范圍通常為0~1,如式(3)所標(biāo)。
式中,x’是歸一化后的結(jié)果,xmax和xmin分別是輸入數(shù)據(jù)的最大值和最小值,x是初始值。
(3)利用PSO算法對(duì)SVM進(jìn)行超參數(shù)優(yōu)化,建立初始預(yù)測(cè)模型,使用原始小樣本集中的訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),并在測(cè)試集數(shù)據(jù)上進(jìn)行測(cè)試,記錄該模型的預(yù)測(cè)結(jié)果。
(4)通過(guò)自取法對(duì)訓(xùn)練集數(shù)據(jù)中的每一個(gè)輸入屬性進(jìn)行擴(kuò)充,生成虛擬樣本的輸入值。
(5)將得到的虛擬樣本輸入值通過(guò)已建立的SVM模型計(jì)算得到其輸出值。
圖3 PSO-SVM流程圖Fig. 3 PSO-SVM flow chart
(6)重復(fù)步驟(4)﹑(5)n次,即可得到n個(gè)虛擬樣本,將原始訓(xùn)練集數(shù)據(jù)與虛擬樣本合并,得到總樣本集。利用PSO-SVM預(yù)測(cè)模型對(duì)總樣本集數(shù)據(jù)進(jìn)行訓(xùn)練,并在測(cè)試集數(shù)據(jù)上進(jìn)行測(cè)試。將預(yù)測(cè)結(jié)果與步驟(3)的結(jié)果進(jìn)行分析比較,評(píng)估該方法的可行性與適用性,圖4 為具體流程圖。
為了評(píng)價(jià)預(yù)測(cè)模型的精度,采用平均絕對(duì)誤差(MAE)﹑平均絕對(duì)百分誤差(MAPE)﹑相對(duì)誤差(RE)和決定系數(shù)(R2)作為性能指標(biāo)來(lái)評(píng)估各模型的預(yù)測(cè)能力。各評(píng)價(jià)指標(biāo)公式如下:
式中,yi,和分別表示初始值﹑平均值和預(yù)測(cè)值。
將所得數(shù)據(jù)按7:3 的比例進(jìn)行數(shù)據(jù)集的劃分,歸一化后分別進(jìn)行訓(xùn)練和測(cè)試,PSO參數(shù)設(shè)置如下:C∈[1,9000],g∈[0.01,10],最大迭代次數(shù)Kmax=100,粒子群數(shù)目M=100,粒子維度n=2,加速因子c1=c2=2,適應(yīng)度函數(shù)選擇平均絕對(duì)百分誤差。
圖4 整體流程圖Fig. 4 Overall flow chart
支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)是目前應(yīng)用較廣的兩種機(jī)器學(xué)習(xí)算法,為比較二者在小樣本下的預(yù)測(cè)能力,分別利用其對(duì)管道數(shù)據(jù)進(jìn)行建模和預(yù)測(cè),計(jì)算得到不同模型預(yù)測(cè)值的3 種評(píng)價(jià)指標(biāo)值,如圖4 所示,并以站場(chǎng)1 為例,列舉了真實(shí)值與預(yù)測(cè)值比較結(jié)果,如表5 所示。分析比較可得,站場(chǎng)1 支持向量機(jī)模型的MAE﹑MAPE﹑R2值 分 別 為69.9471×103kW·h﹑4.4701%和0.9279, 相較于神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的71.2648×103kW·h﹑5.5150%和0.9113,分別優(yōu)化了1.88%﹑23.38%和1.79%,預(yù)測(cè)精度更高,得到的預(yù)測(cè)值更加貼近真實(shí)值,驗(yàn)證了支持向量機(jī)在小樣本情況下能夠避免“過(guò)擬合”現(xiàn)象,預(yù)測(cè)效果要優(yōu)于神經(jīng)網(wǎng)絡(luò)算法。
為驗(yàn)證添加虛擬樣本對(duì)模型預(yù)測(cè)能力的影響,向已建立的PSO-SVM模型中添加10 組虛擬樣本,將預(yù)測(cè)結(jié)果與添加虛擬樣本前的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,圖5﹑圖6 展示了兩站場(chǎng)的測(cè)試數(shù)據(jù)和添加虛擬樣本前后的預(yù)測(cè)值,能夠發(fā)現(xiàn)添加虛擬樣本后的大部分預(yù)測(cè)值要更接近真實(shí)值。為了更清楚地展示添加虛擬樣本對(duì)預(yù)測(cè)模型性能的改善,圖7-8 分別記錄了2 組實(shí)驗(yàn)測(cè)試集相對(duì)誤差的絕對(duì)值,其基準(zhǔn)設(shè)置為[0,4%],通過(guò)對(duì)比不同模型真實(shí)值與預(yù)測(cè)值之間的偏離程度,能夠直觀評(píng)價(jià)模型的預(yù)測(cè)性能。對(duì)于站場(chǎng)1,添加虛擬樣本前后的離散點(diǎn)在參考范圍內(nèi)的點(diǎn)數(shù)分別為3 個(gè)和7個(gè),站場(chǎng)2 中添加虛擬樣本前后離散點(diǎn)在參考范圍內(nèi)的點(diǎn)數(shù)分別5 個(gè)和7 個(gè),證明添加虛擬樣本有利于預(yù)測(cè)模型充分利用原始數(shù)據(jù)的剩余價(jià)值,相較于單純利用原始樣本集,能夠提高預(yù)測(cè)模型的學(xué)習(xí)能力,有效降低預(yù)測(cè)誤差,保證預(yù)測(cè)模型在樣本不充足時(shí)的預(yù)測(cè)精度。
表4 不同預(yù)測(cè)模型結(jié)果對(duì)比Table 4 Comparison of results of different prediction models
表5 站場(chǎng)1 預(yù)測(cè)結(jié)果比較Table 5 Comparison of predicted results of Station 1
圖5 站場(chǎng)1 預(yù)測(cè)結(jié)果對(duì)比圖Fig. 5 Comparison of forecast results of Station 1
圖6 站場(chǎng)2 預(yù)測(cè)結(jié)果對(duì)比圖Fig. 6 Comparison of forecast results of Station 2
為進(jìn)一步驗(yàn)證虛擬樣本數(shù)量對(duì)預(yù)測(cè)結(jié)果的影響,向建立好的PSO-SVM模型中依次添加10﹑20﹑30﹑40﹑50 組虛擬樣本,分別對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè),將預(yù)測(cè)結(jié)果與未添加虛擬樣本的結(jié)果進(jìn)行比較,發(fā)現(xiàn)添加虛擬樣本后站場(chǎng)1 的MAE值分別下降了19.78%﹑21.17%﹑28.65%﹑30.86%和32.38%,站場(chǎng)2 的MAE值分別下降了12.06%﹑18.43%﹑19.63%﹑25.83%和29.74%,如圖9﹑圖10 所示。分析可得,隨著虛擬樣本數(shù)目的增加,模型的預(yù)測(cè)誤差在不斷降低,但趨勢(shì)逐漸平穩(wěn),說(shuō)明在一定范圍內(nèi)虛擬樣本的加入能夠增強(qiáng)模型的學(xué)習(xí)能力,提高預(yù)測(cè)精度。但由于實(shí)際管道運(yùn)行數(shù)據(jù)中仍不可避免的存在部分噪聲和冗余,使得模型的預(yù)測(cè)精度仍具有提升的空間。
圖7 站場(chǎng)1 相對(duì)誤差絕對(duì)值離散圖Fig. 7 Discrete figure of absolute relative error in station 1
圖8 站場(chǎng)2 相對(duì)誤差絕對(duì)值離散圖Fig. 8 Discrete figure of absolute relative error in station 2
圖9 站場(chǎng)1 不同數(shù)目虛擬樣本預(yù)測(cè)誤差圖Fig. 9 Prediction error graph of different number of virtual samples in Station 1
圖10 站場(chǎng)2 不同數(shù)目虛擬樣本預(yù)測(cè)誤差圖Fig. 10 Prediction error graph of different number of virtual samples in Station 2
(1)基于數(shù)據(jù)生成技術(shù)與機(jī)器學(xué)習(xí)理論,針對(duì)小樣本情況下長(zhǎng)輸原油管道運(yùn)行電耗中期預(yù)測(cè)問(wèn)題,提出利用自取法生成虛擬樣本對(duì)原始小樣本集進(jìn)行擴(kuò)充,再利用PSO-SVM模型對(duì)耗電量進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,虛擬樣本加入后模型的平均絕對(duì)誤差分別降低了32.38%和29.74%,能夠有效降低預(yù)測(cè)誤差,滿足生產(chǎn)預(yù)測(cè)需要的精度,為管道數(shù)據(jù)獲取成本過(guò)高﹑企業(yè)重視數(shù)據(jù)安全等原因造成的可用樣本不充足問(wèn)題提供了一種新的解決思路。
(2)通過(guò)對(duì)比分層抽樣法和隨機(jī)抽樣法的抽取結(jié)果,證明在小樣本情況下分層抽樣具有更低的抽樣偏差,抽取的訓(xùn)練集和測(cè)試集能夠更好地反映原始樣本數(shù)據(jù)的分布規(guī)律,有利于確保預(yù)測(cè)效果的客觀性和可靠性。
(3)通過(guò)對(duì)比支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)兩種算法在小樣本集下的預(yù)測(cè)結(jié)果,證明支持向量機(jī)模型在樣本較少時(shí)能夠有效避免“過(guò)擬合”現(xiàn)象,具有更好的預(yù)測(cè)效果。
(4)通過(guò)向測(cè)試樣本中添加不同數(shù)目的虛擬樣本來(lái)確定虛擬樣本最優(yōu)添加數(shù)量,發(fā)現(xiàn)隨著虛擬樣本數(shù)目的增多,預(yù)測(cè)精度逐漸提高,但增幅漸緩,說(shuō)明一定數(shù)目?jī)?nèi)虛擬樣本的加入能夠提高模型的預(yù)測(cè)能力。
(5)提出的虛擬樣本方法能夠提高預(yù)測(cè)模型在樣本不充足時(shí)的預(yù)測(cè)能力,有利于管道企業(yè)對(duì)月度電耗值進(jìn)行精確的目標(biāo)管理,以便對(duì)運(yùn)行方案進(jìn)行相應(yīng)調(diào)整,達(dá)到降低管道運(yùn)行電耗的目的。