徐磊 ,侯磊 *,朱振宇 ,徐震,雷婷 ,李雨 ,李強(qiáng),陳秀芹,王九玲,陳星燃
1 中國(guó)石油大學(xué)(北京)機(jī)械與儲(chǔ)運(yùn)工程學(xué)院,北京 102249
2 中國(guó)石油大學(xué)(北京)石油工程教育部重點(diǎn)實(shí)驗(yàn)室,北京 102249
3 中國(guó)石化勝利油田有限公司樁西采油廠,東營(yíng) 257237
4 北京交通大學(xué)(威海校區(qū))土建學(xué)院,威海 264200
隨著國(guó)內(nèi)油田的持續(xù)開(kāi)發(fā),部分油田開(kāi)采后期采出液含水率達(dá)到90%以上[1]。隨著國(guó)家對(duì)環(huán)境保護(hù)越來(lái)越重視,采出水排放標(biāo)準(zhǔn)也越來(lái)越嚴(yán)格。因此,油田采出水處理達(dá)標(biāo)已成為國(guó)內(nèi)油田開(kāi)發(fā)過(guò)程中的重要任務(wù)。油田采出水水質(zhì)預(yù)判主要是憑借專家經(jīng)驗(yàn),但該方法具有強(qiáng)烈的個(gè)人主觀性,難以做到水質(zhì)的準(zhǔn)確預(yù)測(cè)。也存在一部分研究通過(guò)對(duì)現(xiàn)場(chǎng)采出水水質(zhì)展開(kāi)化驗(yàn)來(lái)測(cè)算水質(zhì)是否達(dá)標(biāo),但該方法耗時(shí)較長(zhǎng),不利于現(xiàn)場(chǎng)工作高效開(kāi)展。
近年來(lái),隨著軟計(jì)算技術(shù)的快速發(fā)展,各類機(jī)器學(xué)習(xí)方法在水質(zhì)預(yù)測(cè)領(lǐng)域已被廣泛應(yīng)用。相比傳統(tǒng)方法,機(jī)器學(xué)習(xí)能夠替代從事一些枯燥機(jī)械化的工作,客觀精確做出一些智能決策,提高工作效率[2]。圖1為主流機(jī)器學(xué)習(xí)方法在水質(zhì)預(yù)測(cè)領(lǐng)域應(yīng)用的熱力圖,統(tǒng)計(jì)了2000年——2020年6大類機(jī)器學(xué)習(xí)方法在水質(zhì)領(lǐng)域的實(shí)踐案例,數(shù)據(jù)來(lái)源于Web of Science數(shù)據(jù)庫(kù)。通過(guò)統(tǒng)計(jì)分析可得,機(jī)器學(xué)習(xí)方法在水產(chǎn)養(yǎng)殖、江河湖泊、化工廠、長(zhǎng)江、海水、水廠等多個(gè)領(lǐng)域運(yùn)用最為普遍,在油田采出水處理領(lǐng)域處于起步階段。
圖1 機(jī)器學(xué)習(xí)方法在水質(zhì)預(yù)測(cè)領(lǐng)域的熱力圖Fig.1 Heat map of machine learning methods in the field of water quality prediction
近5年來(lái),眾多機(jī)器學(xué)習(xí)方法中神經(jīng)網(wǎng)絡(luò)[3]和支持向量機(jī)[4]在水質(zhì)領(lǐng)域運(yùn)用最為廣泛,二者對(duì)數(shù)據(jù)的非線性處理能力通常要優(yōu)于其它機(jī)器學(xué)習(xí)方法。秦文虎等[5]構(gòu)建基于缺失值填補(bǔ)算法和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)相結(jié)合的水質(zhì)預(yù)測(cè)模型。以太湖水質(zhì)監(jiān)測(cè)數(shù)據(jù)為樣本,對(duì)模型進(jìn)行精度檢驗(yàn)。結(jié)果表明,相較于對(duì)比模型,所提出的模型預(yù)測(cè)精度更高。AHMED[6]建立一種基于WDT—ANFIS的水質(zhì)混合預(yù)測(cè)模型,通過(guò)兩個(gè)實(shí)際案例的驗(yàn)證,得出該模型預(yù)測(cè)效果較理想。NOORI[7]利用提出的SWAT—ANN混合模型對(duì)美國(guó)亞特蘭大市區(qū)流域的水質(zhì)進(jìn)行預(yù)測(cè),研究表明,建立的混合模型對(duì)于未知流域水質(zhì)預(yù)測(cè)具有很大的潛力。但神經(jīng)網(wǎng)絡(luò)在運(yùn)用過(guò)程存在容易過(guò)擬合、易陷入局部極小、數(shù)據(jù)量較少或一般時(shí)無(wú)法充分利用樣本信息。
與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的支持向量機(jī)能夠在數(shù)據(jù)量不多、數(shù)據(jù)呈現(xiàn)較強(qiáng)非線性特征時(shí)依舊保持不錯(cuò)的預(yù)測(cè)效果。李建文等[8]利用提出的EEMD—SVR模型對(duì)天津某漁業(yè)養(yǎng)殖池塘內(nèi)溶解氧和PH展開(kāi)預(yù)測(cè),研究表明該模型具有較好的預(yù)測(cè)效果,能夠滿足實(shí)際漁業(yè)養(yǎng)殖水質(zhì)精細(xì)化管理需要。白云等[9]利用提出的VMD—LSSVR混合模型對(duì)河水水質(zhì)展開(kāi)預(yù)測(cè),與對(duì)比模型相比,該方法具有更高的預(yù)測(cè)精度,能夠?yàn)楹铀|(zhì)污染預(yù)控提供有效技術(shù)支持。ZHANG[10]建立基于WT—PSO—SVM的徑流預(yù)測(cè)模型,以黃河上游唐乃海站1956年——2008年的數(shù)據(jù)為依托,研究表明,混合模型比單一具有更好的預(yù)測(cè)精度。KISI[11]利用LSSVM建立水質(zhì)預(yù)測(cè)模型,研究證明,LSSVM比ANN和SRC的預(yù)測(cè)效果更好。但以上基于支持向量機(jī)的混合方法無(wú)法準(zhǔn)確捕獲數(shù)據(jù)分解后高頻序列的特征,參數(shù)優(yōu)化過(guò)程容易出現(xiàn)局部最優(yōu)解和早熟收斂等問(wèn)題。
鑒于目前油田現(xiàn)場(chǎng)通常依據(jù)專家經(jīng)驗(yàn)對(duì)水質(zhì)進(jìn)行預(yù)判,具有個(gè)人主觀性,很難做到水質(zhì)的客觀準(zhǔn)確監(jiān)測(cè);亦或?qū)Σ沙鏊|(zhì)指標(biāo)展開(kāi)化驗(yàn)來(lái)測(cè)算水質(zhì)是否達(dá)標(biāo),該方法耗時(shí)較長(zhǎng),不利于提高現(xiàn)場(chǎng)工作效率。部分研究借助于機(jī)器學(xué)習(xí)方法對(duì)水質(zhì)展開(kāi)了預(yù)測(cè),但忽略了數(shù)據(jù)噪聲,對(duì)數(shù)據(jù)的非線性也考慮不足。為解決以上問(wèn)題,本文提出一種兩層分解算法與改進(jìn)支持向量機(jī)相結(jié)合的預(yù)測(cè)方法,利用兩層分解算法準(zhǔn)確捕獲數(shù)據(jù)分解后的高頻序列特征,采用改進(jìn)支持向量機(jī)解決參數(shù)優(yōu)化過(guò)程中容易出現(xiàn)局部最優(yōu)解和早熟收斂等問(wèn)題。并結(jié)合勝利油田樁西聯(lián)合站采出水?dāng)?shù)據(jù)對(duì)該方法進(jìn)行準(zhǔn)確性評(píng)價(jià)。
實(shí)際現(xiàn)場(chǎng)采集的數(shù)據(jù)含有噪聲,前人學(xué)者對(duì)此做了諸多研究,HUANG[12]提出經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)方法,將原始信號(hào)分解為多個(gè)內(nèi)涵模態(tài)分量(IMF),其本質(zhì)是濾波和消噪過(guò)程,但模型和EMD無(wú)法很好地融合。針對(duì)此問(wèn)題,WU和HUANG[13]提出集成經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD)方法,相較于EMD,EEMD對(duì)原始信號(hào)增加了有限幅度的白噪聲,以劃分時(shí)頻空間中的頻率范圍,減少模式混疊的機(jī)會(huì),提高分解算法穩(wěn)定性,但依舊無(wú)法完全抵消所增加的噪聲。因此,為了提高EEMD的性能,提出一種高級(jí)的自適應(yīng)噪聲完整集成經(jīng)驗(yàn)?zāi)J椒纸馑惴?CEEMDAN)[14]。CEEMDAN對(duì)EEMD進(jìn)行改進(jìn),采用添加有限次自適應(yīng)白噪聲的方法,有效解決EMD中模態(tài)混合的問(wèn)題,高效消除噪聲,克服EEMD因添加噪聲完備性較差和CEEMD在EMD分解過(guò)程中添加一對(duì)相反的白噪聲而增加計(jì)算量的缺點(diǎn),實(shí)現(xiàn)了較高的預(yù)測(cè)性能。
但CEEMDAN分解得到的序列中通常含有高頻子序列,高頻子序列是制約預(yù)測(cè)性能的又一障礙,為了進(jìn)一步提高預(yù)測(cè)性能,提出兩層數(shù)據(jù)分解(CEEMDAN-VMD)方法。相比其它二次分解算法,變分模態(tài)分解(VMD)能夠克服EMD等方法存在端點(diǎn)效應(yīng)和模態(tài)分量混疊的問(wèn)題,降低復(fù)雜度高和非線性強(qiáng)的時(shí)間序列非平穩(wěn)性,將高頻子序列分解為低頻子序列,獲取較平穩(wěn)的序列分量,充分削弱原始數(shù)據(jù)的非平穩(wěn)性,成功解決高頻序列難以準(zhǔn)確預(yù)測(cè)的難題[15]。
支持向量機(jī)(SVM)是由VAPNIK在1995年[4]提出的。SVM主要依賴于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,能夠有效避免過(guò)擬合問(wèn)題,在數(shù)據(jù)不足的情況下依舊保持較好的預(yù)測(cè)性能[16]。SVM的預(yù)測(cè)效果在很大程度上取決于核函數(shù),相關(guān)實(shí)驗(yàn)表明,RBF核函數(shù)在大多數(shù)情況下比其他核函數(shù)有更好的性能,需要考慮的參數(shù)也更少,因此,考慮采用RBF核函數(shù)。
超參數(shù)的合理選取直接影響預(yù)測(cè)結(jié)果,為此學(xué)者們進(jìn)行了大量研究,提出將SVM與優(yōu)化算法相結(jié)合的混合模型。其中,粒子群(PSO)算法是由KENNEDY和EBERHART在1995年[17]提出的,是一種基于群體行為的全局優(yōu)化算法。相比于遺傳算法(GA)、果蠅算法(FOA)等其它優(yōu)化算法,PSO具有參數(shù)少、收斂快的優(yōu)點(diǎn)。然而,粒子群算法容易出現(xiàn)局部最優(yōu)解和早熟收斂的問(wèn)題。為解決這一缺陷,引入一個(gè)慣性權(quán)重ω,較大的ω能夠使粒子跳出極值點(diǎn)執(zhí)行全局搜索,較小的ω能夠使粒子進(jìn)行精細(xì)搜索。因此,為了在全局搜索和精細(xì)搜索之間獲得平衡,需要采用一些方法來(lái)調(diào)整慣性權(quán)值,考慮慣性權(quán)值對(duì)粒子群優(yōu)化算法搜索能力的影響,提出以下改進(jìn):
式中:ωmin為最小慣性權(quán)重;kmax為最大迭代次數(shù)。
根據(jù)ω的變化,解決過(guò)程分粒子本身的局部?jī)?yōu)化,全局優(yōu)化和局部搜索最優(yōu)粒子3個(gè)階段。
研究數(shù)據(jù)來(lái)自勝利油田樁西聯(lián)合站,以日數(shù)據(jù)為時(shí)間單位采集2019年9月1日——2020年3月28日的水質(zhì)數(shù)據(jù),對(duì)205組有效數(shù)據(jù)進(jìn)行歸一化處理。樁西采出水處理站于1993年10月建成投產(chǎn),主要負(fù)責(zé)樁西聯(lián)合站采出水和海四聯(lián)采出水處理,1998年、2004年增設(shè)二、三級(jí)過(guò)濾,2012年整體改造設(shè)計(jì)規(guī)模為1.5×104m3/d。采出水工藝概括為“三段沉降、三級(jí)過(guò)濾”,圖2位樁西聯(lián)合站采出水系統(tǒng)工藝流程圖。
圖2 樁西聯(lián)合站采出水系統(tǒng)工藝流程圖Fig.2 Process flow chart of the produced water treatment system of Zhuangxi Joint Station
實(shí)際現(xiàn)場(chǎng)采集的參數(shù)有絮凝劑A劑、絮凝劑B劑、殺菌劑、緩蝕劑、濾料清洗劑、1號(hào)分水器界面、2號(hào)分水器界面、來(lái)液溫度、來(lái)液水質(zhì)、各級(jí)水質(zhì)、進(jìn)站水量和處理后外輸水量等,共計(jì)37種參數(shù)。其中現(xiàn)場(chǎng)重點(diǎn)關(guān)注本站可人為調(diào)節(jié)的參數(shù)、方便水質(zhì)預(yù)警后的水質(zhì)優(yōu)化。結(jié)合現(xiàn)場(chǎng)實(shí)際需求選取37類參數(shù)中的絮凝劑A劑、絮凝劑B劑、殺菌劑、緩蝕劑、1號(hào)分水器界面和2號(hào)分水器界面作為預(yù)測(cè)模型的輸入?yún)?shù),二級(jí)濾罐回注含油、二級(jí)濾罐回注懸浮、三級(jí)濾罐注水含油和三級(jí)濾罐注水懸浮分別作為A、B、C和D共4個(gè)案例中評(píng)價(jià)水質(zhì)狀況的輸出參數(shù),部分參數(shù)如表1所示。
表1 水質(zhì)流程部分?jǐn)?shù)據(jù)Table 1 Partial data of water quality during operation
4個(gè)案例的輸出參數(shù)分為二級(jí)濾罐回注含油、二級(jí)濾罐回注懸浮、三級(jí)濾罐注水含油和三級(jí)濾罐注水懸浮。訓(xùn)練集和測(cè)試集按7:3的比例進(jìn)行劃分。由于實(shí)際樣本量不大,如果采用隨機(jī)抽樣方法劃分整個(gè)數(shù)據(jù)集,得到的訓(xùn)練集和測(cè)試集的分布規(guī)律可能會(huì)與原始數(shù)據(jù)集分布規(guī)律呈現(xiàn)較大偏差。因此,考慮采用分層抽樣方法[18-19]。
根據(jù)4個(gè)案例輸出參數(shù)的分布規(guī)律,將4個(gè)案例輸出參數(shù)的數(shù)據(jù)均劃分為4個(gè)區(qū)間。以案例A的二級(jí)濾罐回注含油數(shù)據(jù)為例,隨機(jī)抽樣得到的訓(xùn)練集與分層抽樣得到的訓(xùn)練集的偏差如表2所示,能夠大致看出分層抽樣誤差相對(duì)較小。進(jìn)一步依據(jù)4個(gè)案例輸出參數(shù)的數(shù)據(jù)分別計(jì)算隨機(jī)抽樣和分層抽樣的平均絕對(duì)百分比誤差(MAPE),統(tǒng)計(jì)數(shù)據(jù)見(jiàn)表3。經(jīng)分析,4個(gè)案例隨機(jī)抽樣和分層抽樣MAPE的對(duì)比依次為19.87%和 0.68%、21.41%和 2.24%、48.00%和 10.73%、12.16%和1.77%。能夠看出,分層抽樣的訓(xùn)練集與初始樣本保持較好的一致性。
表2 基于二級(jí)濾罐回注含油數(shù)據(jù)的隨機(jī)抽樣和分層抽樣對(duì)比Table 2 Comparison of random sampling and stratified sampling based on the oil content of secondary filter tank during reinjection
表3 4份數(shù)據(jù)隨機(jī)抽樣和分層抽樣的平均絕對(duì)百分誤差Table 3 The mean absolute percentage error of random sampling and stratified sampling based on four data
通過(guò)對(duì)4個(gè)案例數(shù)據(jù)展開(kāi)抽樣研究可得,簡(jiǎn)單隨機(jī)抽樣得到的訓(xùn)練集與初始樣本的分布規(guī)律不一致,分層抽樣得到的訓(xùn)練集與初始樣本的分布規(guī)律保持較好的一致性。與簡(jiǎn)單隨機(jī)抽樣相比,分層抽樣能夠避免明顯的抽樣偏差,保證預(yù)測(cè)結(jié)果的有效性。因此,采用分層抽樣的方法來(lái)劃分訓(xùn)練集和測(cè)試集。
根據(jù)兩層分解算法(CEEMDAN-VMD)和改進(jìn)粒子群算法的支持向量機(jī)(MPSO-SVM)建立混合預(yù)測(cè)模型,混合模型的主要實(shí)驗(yàn)參數(shù)如表4所示,通過(guò)實(shí)驗(yàn)驗(yàn)證對(duì)所提出的混合模型的預(yù)測(cè)效果進(jìn)行準(zhǔn)確性評(píng)價(jià),混合預(yù)測(cè)系統(tǒng)流程如圖3所示。數(shù)據(jù)預(yù)處理技術(shù)和模型的建立均采用Python 3.6.6編程語(yǔ)言實(shí)現(xiàn)。
圖3 基于CEEMDAN-VMD-MPSO-SVM的混合預(yù)測(cè)模型流程圖Fig.3 Flow chart of the hybrid prediction model based on CEEMDAN-VMD-MPSO-SVM
表4 實(shí)驗(yàn)參數(shù)值Table 4 Experimental parameters
預(yù)測(cè)精度是評(píng)價(jià)性能好壞的重要指標(biāo)。相關(guān)文獻(xiàn)中記載了多種評(píng)價(jià)預(yù)測(cè)精度的指標(biāo)[20-22]。在各種指標(biāo)中,相對(duì)誤差(RE)、平均絕對(duì)百分比誤差(MAPE)和決定系數(shù)(R2) 3個(gè)指標(biāo)的絕對(duì)值通常在0~1范圍內(nèi)。其中,RE表示預(yù)測(cè)值與真實(shí)值的偏差程度,利用RE的箱型圖能夠直觀反映模型的預(yù)測(cè)效果。MAPE在RE的基礎(chǔ)上增加了絕對(duì)值,MAPE通過(guò)百分比衡量模型性能,其值在10%以內(nèi)說(shuō)明預(yù)測(cè)效果較好。R2越大,因變量能夠被自變量解釋的比重越大,R2越接近1,模型擬合越好,其值在0.80以上說(shuō)明預(yù)測(cè)效果較好。上述3個(gè)物理量均為無(wú)量綱單位,便于直觀評(píng)價(jià)混合模型的預(yù)測(cè)性能,因此,采用RE、MAPE和R2三個(gè)指標(biāo)來(lái)評(píng)價(jià)模型的預(yù)測(cè)能力,各評(píng)價(jià)指標(biāo)公式如下:
式中,yi,和分別表示初始值、平均值和預(yù)測(cè)值。
將建立的混合預(yù)測(cè)模型CEEMDAN-VMDMPSO-SVM與SVM、PSO-SVM、MPSO-SVM、VMD-MPSO-SVM、CEEMDAN-MPSO-SVM等 5種模型展開(kāi)預(yù)測(cè)性能對(duì)比,驗(yàn)證混合模型的預(yù)測(cè)性能。
以案例A的測(cè)試集為例,CEEMDAN-VMDMPSO-SVM預(yù)測(cè)曲線和真實(shí)數(shù)據(jù)曲線如圖4所示,與5種對(duì)比模型相對(duì)誤差絕對(duì)值的箱型圖如圖6所示。經(jīng)圖4分析可得,該混合模型對(duì)歷史數(shù)據(jù)的擬合較好,相對(duì)誤差(RE)主要在[-10%,10%]范圍內(nèi),保證了較高的擬合度。通過(guò)圖5進(jìn)一步對(duì)比多個(gè)模型的箱型圖,分析可得,建立的混合模型的預(yù)測(cè)效果要優(yōu)于5種對(duì)比模型的預(yù)測(cè)效果。
圖4 建立的模型與實(shí)際曲線擬合對(duì)比圖Fig.4 Curve fitting of the proposed model and the actual data
圖5 建立的模型與5種對(duì)比模型相對(duì)誤差絕對(duì)值的箱型圖Fig.5 Box plot of the absolute value for the relative error between the proposed model and five comparison models
圖6 6種模型在4個(gè)案例上MAPE的直方圖Fig.6 Histogram of MAPE for six models based on four cases
為了進(jìn)一步全面比較建立的混合模型的預(yù)測(cè)效果,表5總結(jié)了基于4個(gè)案例不同模型預(yù)測(cè)得到的MAPE和R2值。圖6為6種模型在4個(gè)案例上MAPE的直方圖,圖7為6種模型在4個(gè)案例上R2的雷達(dá)圖。
表5 基于4個(gè)案例不同模型預(yù)測(cè)得到的MAPE和R2值Table 5 MAPE and R2 values obtained by different models based on four cases
圖7 6種模型在4個(gè)案例上R2的雷達(dá)圖Fig.7 Radar chart of R2 for six models based on four cases
通過(guò)6個(gè)預(yù)測(cè)模型的對(duì)比可得,CEEMDANVMD-MPSO-SVM模型能夠在MAPE上獲得最小值,在R2獲得最大值,預(yù)測(cè)效果最好。為了深入評(píng)價(jià)所提出混合模型各子模塊的性能,開(kāi)展了進(jìn)一步對(duì)比研究。
通過(guò)SVM與PSO-SVM和MPSO-SVM對(duì)比分析,發(fā)現(xiàn)PSO-SVM和MPSO-SVM的預(yù)測(cè)性能明顯優(yōu)于SVM,證明優(yōu)化算法對(duì)模型預(yù)測(cè)性能能夠帶來(lái)一定的提升。通過(guò)PSO-SVM與MPSO-SVM對(duì)比分析,發(fā)現(xiàn)MPSO-SVM預(yù)測(cè)性能優(yōu)于PSO-SVM,證明PSO的改進(jìn)進(jìn)一步提升了PSO-SVM的預(yù)測(cè)性能。
通過(guò)MPSO-SVM與VMD-MPSO-SVM和CEEMDAN-MPSO-SVM預(yù)測(cè)結(jié)果的對(duì)比,發(fā)現(xiàn)VMD和CEEMDAN單層分解算法的添加均能夠提高模型的預(yù)測(cè)精度,證明了單一分解算法能夠在一定程度上捕獲數(shù)據(jù)信號(hào)特征。
通過(guò)CEEMDAN-VMD-MPSO-SVM與CEEMDAN-MPSO-SVM和VMD-MPSO-SVM的對(duì)比,發(fā)現(xiàn)兩層分解算法模型的預(yù)測(cè)效果要優(yōu)于單層分解算法模型的預(yù)測(cè)效果。證明CEEMDAN-VMD作為一種強(qiáng)大的數(shù)據(jù)分解算法,相比單一數(shù)據(jù)分解算法,能夠進(jìn)一步有效消除冗余噪聲、捕獲數(shù)據(jù)主要特征、降低模型預(yù)測(cè)難度。
建立的混合模型在4個(gè)案例上的預(yù)測(cè)精度均優(yōu)于對(duì)比模型,證明該模型在油田水質(zhì)預(yù)測(cè)領(lǐng)域具有良好的適用性,能夠?yàn)樗|(zhì)預(yù)警等方面提供科學(xué)依據(jù)。
以CEEMDAN-VMD-MPSO-SVM為例,進(jìn)一步分析該模型在案例A、B、C和D上的預(yù)測(cè)效果,圖8為該模型在4個(gè)案例上MAPE和R2值的趨勢(shì)線圖。分析可得MAPE在4個(gè)案例上的波動(dòng)性較小,預(yù)測(cè)值范圍為[4.94%,5.62%],保持在10%以內(nèi),預(yù)測(cè)效果良好。但R2針對(duì)4個(gè)案例大致呈現(xiàn)出下降的趨勢(shì),且針對(duì)案例D,R2值小于0.8,預(yù)測(cè)效果不理想。由2.1節(jié)可知,4個(gè)案例的輸出值分別為二級(jí)濾罐回注含油、二級(jí)濾罐回注懸浮、三級(jí)濾罐注水含油和三級(jí)濾罐注水懸浮,依次對(duì)應(yīng)圖2流程中的先后順序,表明從二級(jí)濾罐到三級(jí)濾罐過(guò)程增加了不確定性,越靠近流程尾部,越難準(zhǔn)確預(yù)測(cè),以其它對(duì)比模型為例依舊能夠得出類似的結(jié)論,因此,在水質(zhì)預(yù)警過(guò)程中更應(yīng)該注重提高二級(jí)濾罐指標(biāo)的預(yù)測(cè)精度。
圖8 所提出模型在4個(gè)案例上MAPE和R2值Fig.8 The MAPE and R2 values of the proposed model on four cases
(1)采用分層抽樣的方法對(duì)水質(zhì)數(shù)據(jù)進(jìn)行劃分,使訓(xùn)練集和測(cè)試集的分布規(guī)律與原始數(shù)據(jù)集的分布規(guī)律保持較好的一致性,有效避免了隨機(jī)抽樣引起的較大偏差,保證預(yù)測(cè)結(jié)果的客觀性和可靠性。
(2)提出了基于支持向量回歸的改進(jìn)粒子群優(yōu)化算法,提高了粒子群的搜索能力、避免了局部最優(yōu)解和早熟收斂,能夠有效提高全局最優(yōu)解的收斂速度和能力。
(3)首次將兩層數(shù)據(jù)分解算法應(yīng)用到油田水質(zhì)領(lǐng)域,與其他分解算法相比,兩層分解算法具有2種子分解算法的綜合性能,能夠消除預(yù)測(cè)過(guò)程中的冗余噪聲,有效捕捉原始數(shù)據(jù)集的主要特征。
(4)混合預(yù)測(cè)模型綜合了數(shù)據(jù)分解算法和優(yōu)化算法的優(yōu)勢(shì),針對(duì)4個(gè)預(yù)測(cè)案例,對(duì)比常規(guī)SVM模型、MAPE下降幅度分別達(dá)到6.001%、3.164%、4.590%和2.6%,R2提升幅度分別達(dá)到0.264、0.364、0.404和0.467,建立的水質(zhì)模型擁有較高的預(yù)測(cè)精度,同時(shí)彌補(bǔ)了機(jī)器學(xué)習(xí)方法在該領(lǐng)域的空白。
(5)提出的混合模型能夠用于油田聯(lián)合站采出水處理效果預(yù)測(cè)研究,準(zhǔn)確預(yù)測(cè)處理后的水質(zhì)是否達(dá)標(biāo),為水質(zhì)預(yù)警提供科學(xué)的依據(jù),保證水質(zhì)安全,進(jìn)一步能夠有效降低電耗和藥耗。