龐河清, 匡建超,2, 蔡左花, 王 眾, 黃耀綜
( 1. 成都理工大學(xué) 能源學(xué)院,四川 成都 610059; 2. 成都理工大學(xué) 管理科學(xué)學(xué)院,四川 成都 610059; 3. 西南油氣分公司 勘探開發(fā)研究院貴陽(yáng)所,貴州 貴陽(yáng) 550004; 4. 勝利油田分公司 孤東采油4廠,山東 東營(yíng) 257237 )
油氣井產(chǎn)能預(yù)測(cè)是油氣經(jīng)濟(jì)評(píng)價(jià)的重要環(huán)節(jié),其預(yù)測(cè)準(zhǔn)確性對(duì)后續(xù)井網(wǎng)布置、合理高效開發(fā),乃至整個(gè)油氣工業(yè)投資與決策都會(huì)產(chǎn)生深遠(yuǎn)影響[1].然而受地下復(fù)雜地質(zhì)情況的限制,即使同一油氣藏相鄰兩井產(chǎn)能也不一樣,加上鉆井取心的困難和巖心歸位的不正確,使得儲(chǔ)層產(chǎn)能預(yù)測(cè)成為油氣勘探開發(fā)的難點(diǎn).隨著油氣勘探難度的增加,傳統(tǒng)經(jīng)驗(yàn)預(yù)測(cè)方法已難以滿足實(shí)際生產(chǎn)需要.為了利用常規(guī)測(cè)井方法表征地下復(fù)雜的地質(zhì)條件,從而與儲(chǔ)層產(chǎn)能建立聯(lián)系,一些學(xué)者陸續(xù)提出逐步回歸[2]、模糊模式識(shí)別[3]、灰色關(guān)聯(lián)[4]、動(dòng)態(tài)聚類[4]等儲(chǔ)層產(chǎn)能預(yù)測(cè)方法,并取得一定成效.這些方法大多基于均質(zhì)地層和線性映射的假設(shè),沒有充分考慮地質(zhì)條件的復(fù)雜性,難以大范圍推廣利用[5].近年來,隨著神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等智能機(jī)器學(xué)習(xí)方法發(fā)展,使得儲(chǔ)層產(chǎn)能預(yù)測(cè)由線性領(lǐng)域推廣到非線性領(lǐng)域,預(yù)測(cè)精度得到提高.此外,基于算法改進(jìn)及輸入變量?jī)?yōu)化的復(fù)合模型的大量應(yīng)用,較好地解決神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)的收斂速度慢、降噪效果差等問題.
支持向量機(jī)包括支持向量分類機(jī)(SVC)和支持向量回歸機(jī)(SVR)功能,目前在油氣儲(chǔ)層分類和產(chǎn)能預(yù)測(cè)中都有應(yīng)用[5-6],但鮮見把2種功能組合起來進(jìn)行儲(chǔ)層識(shí)別及產(chǎn)能預(yù)測(cè).嚴(yán)衍祿和安欣在光譜分析實(shí)驗(yàn)中發(fā)現(xiàn),模型分析準(zhǔn)確度和訓(xùn)練集樣本的組分濃度范圍有關(guān),即樣本數(shù)據(jù)的組分濃度范圍越大,分類越多,模型分析準(zhǔn)確度越低;反之,分析準(zhǔn)確度越高[7-8].儲(chǔ)層產(chǎn)能預(yù)測(cè)亦具有相同原理,模型預(yù)測(cè)效果很大程度取決于訓(xùn)練樣本的分類級(jí)別,即分類范圍越大,模型的分析準(zhǔn)確度越低;反之,準(zhǔn)確度越高.在支持向量分類機(jī)和支持向量回歸機(jī)特點(diǎn)的基礎(chǔ)上,筆者提出一種新的建模方法——逐類組合支持向量機(jī)方法(Termwise-combination Support Vector Machine,TCSVM).該建模思路是首先用支持向量分類機(jī)對(duì)樣本數(shù)據(jù)進(jìn)行歸類,實(shí)現(xiàn)儲(chǔ)層類別判識(shí);然后根據(jù)判識(shí)結(jié)果,用支持向量回歸機(jī)(SVR)按類別分別建立產(chǎn)能預(yù)測(cè)模型;最后對(duì)相應(yīng)類別的儲(chǔ)層進(jìn)行逐類產(chǎn)能預(yù)測(cè).該建模方法不僅充分考慮各數(shù)據(jù)類別范圍對(duì)儲(chǔ)層判識(shí)的干擾,改善傳統(tǒng)支持向量回歸機(jī)的預(yù)測(cè)性能,而且還與主成分分析等方法結(jié)合起來,建立主成分分析逐類組合支持向量機(jī)等復(fù)合模型,通過前期降噪、降維的屬性優(yōu)化作用后,提高儲(chǔ)層判識(shí)和產(chǎn)能預(yù)測(cè)的準(zhǔn)確率.
支持向量機(jī)(Support Vector Machine,SVM)是Vapink等基于統(tǒng)計(jì)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則提出來的一種新型學(xué)習(xí)機(jī)器[9-11],具有分類和回歸功能.支持向量機(jī)優(yōu)點(diǎn):(1)用全局尋優(yōu)取代局部尋優(yōu),避免神經(jīng)網(wǎng)絡(luò)的局部極值問題,從而獲得最優(yōu)解;(2)引入結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)提高機(jī)器學(xué)習(xí)的泛化能力;(3)通過核函數(shù)取代內(nèi)積運(yùn)算,使得運(yùn)算量大大減少,因此避免神經(jīng)網(wǎng)絡(luò)固有的“維數(shù)災(zāi)難”問題.在支持向量機(jī)的實(shí)際應(yīng)用中,無論從事分類還是回歸,其基本原理相同,都是應(yīng)用非線性映射函數(shù)將映射到高維特征空間中;然后在高維特征空間中巧妙利用核函數(shù)取代內(nèi)積運(yùn)算,求解最優(yōu)近似值超平面或最優(yōu)擬合值超平面,實(shí)現(xiàn)結(jié)構(gòu)風(fēng)險(xiǎn)最小化;通過構(gòu)建決策函數(shù),最終實(shí)現(xiàn)線性分類和線性回歸.分類機(jī)的原理參考文獻(xiàn)[11-14].
假設(shè)存在樣本集S={(x1,y1),…,(xl,yl)}?Rn×R,要實(shí)現(xiàn)回歸功能,首先尋找最優(yōu)近似超平面,即達(dá)到‖w‖2最小化,那么滿足表達(dá)式[11]
(1)
引入拉格朗日函數(shù),求解優(yōu)化問題的對(duì)偶式[12],即
(2)
對(duì)于非線性問題,應(yīng)用映射函數(shù)映射到高維特征空間中,然后在高維空間中利用核函數(shù)求解最優(yōu)超平面,所構(gòu)建決策函數(shù)[13-14]為
(3)
式中:K(xi,xj)為核函數(shù).目前滿足mercer條件的核函數(shù)主要有:(1)線性核函數(shù),K(x,y)=xTy;(2)多項(xiàng)式核函數(shù),K(x,y)=(s(x·y)+c)d;(3)高斯徑向基核函數(shù),K(x,y)=exp(-‖x-y‖2/2σ2);(4)指數(shù)徑向基核函數(shù),K(x,y)=exp(-‖x-y‖/2σ);(5)神經(jīng)網(wǎng)絡(luò)核函數(shù),K(x,y)=tanh[s(x·y)+c][14].
考慮高斯核函數(shù)的抗噪能力較其他核函數(shù)強(qiáng)及其對(duì)參數(shù)的不敏感性[15],在儲(chǔ)層判識(shí)和產(chǎn)能預(yù)測(cè)時(shí)選用高斯核函數(shù).
由于模式識(shí)別等智能機(jī)器學(xué)習(xí)與訓(xùn)練樣本的組分濃度、類別范圍有關(guān)[7-8],即樣本數(shù)據(jù)的分類范圍影響模型的預(yù)測(cè)效果,分類越多,模型的分析準(zhǔn)確度越低;反之,準(zhǔn)確度越高.所以模型TCSVM是先將檢驗(yàn)樣本SVC分類,然后分別按類別建立訓(xùn)練模型,最后對(duì)相應(yīng)類別的檢驗(yàn)樣本進(jìn)行SVR逐類預(yù)測(cè),其實(shí)現(xiàn)步驟見圖1.模型的回歸分析準(zhǔn)確率與前置分類正確率密切相關(guān),因此,為了提高模型分類正確率,還需對(duì)樣本數(shù)據(jù)進(jìn)行降噪處理,消除數(shù)據(jù)之間的冗余信息.分別采用主成分分析、核主成分分析和粗糙集方法作為模型前置功能,實(shí)現(xiàn)輸入變量的預(yù)處理、刪除冗余信息、降低噪音等目標(biāo).
圖1 逐類組合支持向量機(jī)建模思路
陜甘寧中部氣田位于鄂爾多斯盆地中部,在榆林、烏審旗、定邊和延安之間,面積超過1×104km2[9].該氣田的主力氣藏馬五1氣藏的巖性主要有泥-細(xì)晶白云巖、細(xì)粉晶白云巖、中粗粉晶白云巖、角粒狀粉晶白云巖、粉晶砂屑白云巖等.儲(chǔ)集空間及孔隙類型有溶孔(洞)、晶間孔、粒內(nèi)孔、鑄??椎?儲(chǔ)層孔隙度巖心分析值最高為16.6%,最低的為0.14%;滲透率最高為61.955×10-3μm2,最低的為0.020 3×10-3μm2,平均為5.63×10-3μm2.受多因素影響,孔洞發(fā)育具有較強(qiáng)的非均質(zhì)性,縱向上總體表現(xiàn)為由上到下儲(chǔ)層孔洞密度升高、孔徑變大、充填程度變低、充填物中黏土量減少等[16].隨著氣田勘探開發(fā)的進(jìn)行,儲(chǔ)層判識(shí)和氣水層識(shí)別問題日益嚴(yán)重,給氣田勘探開發(fā)的科學(xué)管理及高效開采帶來危害.因此,對(duì)氣藏進(jìn)行儲(chǔ)層判識(shí)及產(chǎn)能預(yù)測(cè),分析主力氣藏馬五1儲(chǔ)層各小層的產(chǎn)能縱橫分布特征及氣水組合關(guān)系十分必要.以該氣藏19口井已測(cè)試的92個(gè)層位作為建模樣本,用78個(gè)(85%)樣本進(jìn)行模型訓(xùn)練,剩下14個(gè)(15%)樣本進(jìn)行模型回判檢驗(yàn).
根據(jù)長(zhǎng)慶中部氣田儲(chǔ)層分級(jí)標(biāo)準(zhǔn),將儲(chǔ)層分為氣層、含氣層、干層、水層共4類(其中在92個(gè)已測(cè)試層位中氣層35個(gè)、含氣層17個(gè)、干層25個(gè)、水層15個(gè))[17].根據(jù)研究區(qū)實(shí)際地質(zhì)情況和測(cè)井相應(yīng)特征,挑選10種與氣水層密切相關(guān)的屬性參數(shù)作為模型的輸入變量,即深側(cè)向電阻率(RLLD)、深淺雙側(cè)向電阻率幅度差(ΔR)、自然伽馬(GR)、測(cè)井聲波孔隙度(φs)、產(chǎn)能系數(shù)(Kh)、滲透率(K)、有效厚度(h)、儲(chǔ)滲因子(Kφs)、可動(dòng)水指數(shù)(RR)和介質(zhì)類型因子(EE)(見表1和表2).
表1 長(zhǎng)慶中部氣田各產(chǎn)量區(qū)間的賦值原則
注:qg為產(chǎn)氣量;qw為產(chǎn)水量.
首先將挑選的屬性參數(shù)作為支持向量分類機(jī)的輸入變量,實(shí)現(xiàn)樣本數(shù)據(jù)的歸類;然后按儲(chǔ)層類別分別用支持向量回歸機(jī)建立訓(xùn)練模型;最后對(duì)相應(yīng)類別的檢驗(yàn)樣本進(jìn)行逐類回歸檢驗(yàn).為與傳統(tǒng)方法進(jìn)行比較,也用傳統(tǒng)建模思路對(duì)儲(chǔ)層產(chǎn)能進(jìn)行回歸分析.儲(chǔ)層判識(shí)和產(chǎn)能預(yù)測(cè)是在libsvm-2.88工具箱中實(shí)現(xiàn)的,運(yùn)用的核函數(shù)為高斯徑向基核函數(shù);而且在儲(chǔ)層判識(shí)時(shí)約定訓(xùn)練樣本回判率大于90%,對(duì)檢驗(yàn)樣本進(jìn)行判識(shí)歸類(見表3).
使用逐類組合支持向量機(jī)模型進(jìn)行產(chǎn)能預(yù)測(cè)時(shí),前期歸類正確與否直接影響回歸預(yù)測(cè)的準(zhǔn)確率.因此,為了提高儲(chǔ)層判識(shí)的吻合度,分別嘗試使用主成分分析支持向量機(jī)模型(PCA-SVM)、核主成分分析支持向量機(jī)模型(KPCA-SVM)、粗糙集支持向量機(jī)模型(RS-SVM)、支持向量機(jī)模型(SVM)進(jìn)行儲(chǔ)層判識(shí).由表3可知,PCA-SVM模型和KPCA-SVM模型的分類吻合率最高,達(dá)到100%;RS-SVM和SVM的分類吻合度只有92.86%.由此說明在進(jìn)行模式識(shí)別時(shí),對(duì)樣本數(shù)據(jù)進(jìn)行適當(dāng)預(yù)處理是必不可少的.以主成分分析與核主成分分析方法的降噪效果最好,不僅能較好地消除數(shù)據(jù)之間的冗余信息,提高運(yùn)算速度,而且還保留原始數(shù)據(jù)的絕大部分信息,保證預(yù)測(cè)的吻合度.
表2 樣本參數(shù)輸入?yún)R總(歸一化數(shù)據(jù))
表3 回判結(jié)果
注:*表示識(shí)別有誤.
根據(jù)表3分類結(jié)果,用逐類組合支持向量機(jī)方法按類別分別進(jìn)行逐類儲(chǔ)層產(chǎn)能預(yù)測(cè).同時(shí),分別用傳統(tǒng)支持向量機(jī)模型進(jìn)行儲(chǔ)層產(chǎn)能預(yù)測(cè)(見表4和表5).由表3-5可知,逐類組合模型的平均絕對(duì)誤差和平均相對(duì)誤差都比傳統(tǒng)的建模方法小.在逐類組合模型中尤以PCA-TCSVM模型的誤差最低(平均絕對(duì)誤差為0.359,平均相對(duì)誤差為0.036),KPCA-TCSVM模型次之(平均絕對(duì)誤差為0.417,平均相對(duì)誤差為0.041).這表明,逐類組合模型預(yù)測(cè)效果的優(yōu)劣取決于SVC歸類的正確率,即檢驗(yàn)樣本錯(cuò)分率越低,模型預(yù)測(cè)效果越高;反之,模型的預(yù)測(cè)效果越低.
文獻(xiàn)[18]用多項(xiàng)式自組織神經(jīng)網(wǎng)絡(luò)方法(MOSN)對(duì)文中實(shí)例作過研究(平均絕對(duì)誤差為1.751,平均相對(duì)誤差為0.367).傳統(tǒng)的支持向量機(jī)方法中,只有PCA-SVM模型的預(yù)測(cè)誤差(平均絕對(duì)誤差為1.447,平均相對(duì)誤差為0.317)較MSON的低,其他模型的誤差較MSON的高.文中建模方法誤差比MSON的低,其中尤以KPCA-TCSVM、PCA-TCSVM模型最為顯著,其誤差不僅比MOSN的要低1個(gè)數(shù)量級(jí),而且相關(guān)因數(shù)也比MOSN的高,達(dá)到0.996,可信度最高(見表4和表5).
表4 陜甘寧馬五1儲(chǔ)層檢驗(yàn)樣本預(yù)測(cè)結(jié)果誤差分析
表5 不同模型預(yù)測(cè)誤差
(1)使用主成分分析、核主成分分析以及粗糙集對(duì)樣本數(shù)據(jù)進(jìn)行降噪,然后作為變量輸入支持向量分類機(jī),實(shí)現(xiàn)儲(chǔ)層類別判識(shí),其分類效果以PCA-SVM和KPCA-SVM模型的最好,吻合度達(dá)到100%.
(2)對(duì)儲(chǔ)層產(chǎn)能預(yù)測(cè),逐類組合支持向量機(jī)模型的預(yù)測(cè)效果較傳統(tǒng)的支持向量機(jī)模型要好,可信度高,尤其以主成分分析支持向量機(jī)模型的應(yīng)用效果最好,預(yù)測(cè)誤差最低,相關(guān)因數(shù)最高.原因是先歸類再預(yù)測(cè)的建模方法,指定每類模型的適用范圍,從而減少其他類別樣本對(duì)模型預(yù)測(cè)的干擾,提高模型預(yù)測(cè)準(zhǔn)確率.
(3)逐類組合支持向量機(jī)模型的預(yù)測(cè)效果和前期歸類的準(zhǔn)確率息息相關(guān),儲(chǔ)層歸類準(zhǔn)確率越高,其相應(yīng)的產(chǎn)能預(yù)測(cè)效果越好;反之,其產(chǎn)能預(yù)測(cè)效果越差.