王 眾,張哨楠,匡建超,羅 鑫
(1.油氣藏地質(zhì)及開發(fā)工程國家重點(diǎn)實(shí)驗(yàn)室 成都理工大學(xué),四川成都 610059;2.成都理工大學(xué)能源學(xué)院,四川成都 610059)
基于主成份分析和支持向量機(jī)的PCA-SVM儲(chǔ)層識別模型研究
王 眾1,2,張哨楠1,2,匡建超2,羅 鑫2
(1.油氣藏地質(zhì)及開發(fā)工程國家重點(diǎn)實(shí)驗(yàn)室 成都理工大學(xué),四川成都 610059;2.成都理工大學(xué)能源學(xué)院,四川成都 610059)
儲(chǔ)層識別是油氣勘探開發(fā)中所面臨的關(guān)鍵問題和難點(diǎn)之一。針對傳統(tǒng)儲(chǔ)層識別方法預(yù)測精度較低這一問題,提出了基于主成份分析和支持向量機(jī)的PCA-SVM儲(chǔ)層識別模型,較好地解決了傳統(tǒng)學(xué)習(xí)方法在非線性預(yù)測中的小樣本、過學(xué)習(xí)、局部極小點(diǎn)等問題,同時(shí)消除了出入變量之間的多重相關(guān)性,減少了輸入變量的個(gè)數(shù),提高了預(yù)測精度和收斂速度。通過對長慶中部氣田馬五1段儲(chǔ)層的實(shí)例應(yīng)用,PCA-SVM模型的預(yù)測精度達(dá)到100%,優(yōu)于SVM模型(93.6%)和Fisher判別模型(96.3%)。這表明PCA-SVM模型具有更高的預(yù)測精度,為致密儲(chǔ)層的準(zhǔn)確識別探索了又一新方法。
主成份分析;支持向量機(jī);PCA-SVM模型;儲(chǔ)層識別
儲(chǔ)層識別一直都是油氣勘探與開發(fā)領(lǐng)域的一項(xiàng)基本任務(wù),其結(jié)果的正確性直接影響到油氣田的開發(fā)效果[1]。前人對此進(jìn)行了大量研究,提出了逐步回歸[2]、動(dòng)態(tài)聚類[3]、模糊識別[4]、逐步判別[5]等方法,并取得了一定成效。但由于儲(chǔ)層識別屬于非線性預(yù)測問題,加之絕大部份油氣田地質(zhì)條件復(fù)雜,所以上述模型對于致密儲(chǔ)層的識別受到多方面的限制,導(dǎo)致預(yù)測精度不高。針對上述問題,有學(xué)者提出了利用神經(jīng)網(wǎng)絡(luò)來進(jìn)行致密儲(chǔ)層識別,并在實(shí)踐中取得不錯(cuò)效果[6、7]。然而,普通神經(jīng)網(wǎng)絡(luò)存在收斂速度慢,易陷入局部最優(yōu)解等問題[8];此外,由于影響儲(chǔ)層的因素多而復(fù)雜,使得傳統(tǒng)儲(chǔ)層識別方法在實(shí)際應(yīng)用過程中常遇到以下問題:①輸入?yún)?shù)過多,彼此相互關(guān)聯(lián),導(dǎo)致信息重疊與數(shù)據(jù)冗余,影響模型的預(yù)測精度與計(jì)算速度;②輸入?yún)?shù)過少,難以全面準(zhǔn)確反映與刻畫儲(chǔ)層的全貌,導(dǎo)致預(yù)測精度降低[1,6]。
支持向量機(jī)(Suppo rtVecto rM achine,SVM)是近來廣泛應(yīng)用的一種新型機(jī)器學(xué)習(xí)方法,以結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則代替神經(jīng)網(wǎng)絡(luò)的經(jīng)驗(yàn)最小化原則,被認(rèn)為是目前針對小樣本非線性分類和預(yù)測等問題的最佳理論[9]?;诖?作者將與SVM與主成份分析相集成,提出了PCA-SVM儲(chǔ)層識別模型。該模型不僅較好地解決了神經(jīng)網(wǎng)絡(luò)固有的過學(xué)習(xí)以及局部極小點(diǎn)等問題,而且消除了輸入變量間的多重相關(guān)性,提高了儲(chǔ)層識別的精度。
1.1 主成份分析基本原理[10]
主成份分析法(Princip le ComponentAnalysis,PCA)是目前廣泛應(yīng)用的一種降維技術(shù)。設(shè)X=(x1,x2,…,xp)T是P維隨機(jī)向量(E X=u,D X=V≥0),PCA的基本思想就是將這p個(gè)特征變量x1、x2、…、xp綜合成盡可能少的幾個(gè)綜合變量y1、y2、…、yq(q≤p),且要求y1、y2、…、yq既能充分反映x1、x2、…、xp所攜帶的信息,又能使得這個(gè)q個(gè)新變量互不相關(guān)。由于y1要反映原來變量所攜帶的信息,則y1應(yīng)是x1、x2、…、xp的線性組合,即
其中 a1=(a11,a12,…,a1p)T為非零常向量。
要使y1能最大限度地反映原來p個(gè)特征變量所攜帶的信息,就要使得y1的方差(式2)盡可能地大。
由于不能通過增大向量a1的長度來使D y1變大,那么求解y1的問題就歸結(jié)為在a1滿足單位化條件a1Ta1=1之下,求使得D y1達(dá)到最大的a1。通過lagrange乘數(shù)法可以求解此問題,具體推導(dǎo)過程請參見文獻(xiàn)[10],最終可以得出公式(3)。
其中 λ是協(xié)方差陣V的特征根。
使得D y1最大即是讓λ的值最大。設(shè)λ1是協(xié)方差陣V的最大特征根,則a1就是λ1所對應(yīng)的單位化特征向量,這樣就求出了第一個(gè)綜合變量y1。同理可以求出y1、y2、…、yq,并稱y1、y2、…、yq為第一、第二、……、第p個(gè)主成份。
1.2 支持向量機(jī)基本原理[11]
支持向量機(jī)(SVM)是Vap ink等人在二十世紀(jì)九十年代,基于統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則提出的一種新型學(xué)習(xí)機(jī)器[12]。SVM解決了傳統(tǒng)學(xué)習(xí)方法中“維數(shù)災(zāi)難”問題,具有對樣本依賴小,解為全局最優(yōu)解及泛化能力強(qiáng)等優(yōu)點(diǎn),已被廣泛應(yīng)用于模式識別和預(yù)測等領(lǐng)域,成為既神經(jīng)網(wǎng)絡(luò)之后機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)[13]。
利用SVM進(jìn)行分類預(yù)測的基本思想,就是通過非線性變換,將輸入變量x轉(zhuǎn)化到某個(gè)高維空間中,然后在變換空間中求解最優(yōu)分類面,獲得決策函數(shù)。目前,C-支持向量分類機(jī)(非線性軟間隔分類機(jī))在實(shí)際應(yīng)用中分類效果較好,是一種經(jīng)常使用的支持向量分類機(jī)。其算法如下:
設(shè)樣本集T={(x1,y1),…,(xl,yl)}∈(X×Y)l,且xi∈X=Rn,yi∈Y={1,-1},i=1,…,l。定義核函數(shù):
首先,通過非線性映射 φ:Rn→H將輸入變量映射到高維H ilbert空間H中。此時(shí),“最大間隔”非線性支持向量機(jī)的目標(biāo)函數(shù)可表示為式(5)。
相應(yīng)的分類函數(shù)可表示為:
則C-SVM就轉(zhuǎn)化為在選擇K(x,x′)和適當(dāng)?shù)膮?shù)C的基礎(chǔ)上,求解下面最優(yōu)化問題:
對于不同的核函數(shù),可以產(chǎn)生不同的支持向量機(jī)。常用的核函數(shù)有以下三種:
(1)多項(xiàng)式核:
(2)徑向基函數(shù)(RBF)核:
(3)二層神經(jīng)網(wǎng)絡(luò):
1.3 PCA-SVM儲(chǔ)層識別模型原理
由于影響儲(chǔ)層分類的因素多且還存在相關(guān)性,所以SVM在實(shí)際應(yīng)用過程中同樣會(huì)遇到:①輸入?yún)?shù)過多導(dǎo)致信息相互重疊,影響模型精度和收斂速度;②輸入?yún)?shù)過少導(dǎo)致難以全面準(zhǔn)確反映儲(chǔ)層全貌,預(yù)測精度降低的問題?;诖?作者汲取主成份分析和支持向量機(jī)的優(yōu)點(diǎn),提出了PCA-SVM儲(chǔ)層識別模型,該模型不僅消除了變量間的多重相關(guān)性,同時(shí)減少了輸入變量個(gè)數(shù),提高了收斂速度和識別精度。其模型的建模步驟如下:
(1)制定儲(chǔ)層分類標(biāo)準(zhǔn),對需要預(yù)測的油(氣)田儲(chǔ)層進(jìn)行分類。通常儲(chǔ)層可以分為:工業(yè)流油(氣)層、含油(氣)層、油(氣)水同層、干層四類。
(2)選擇原始輸入變量,建立SVM的訓(xùn)練樣本集。
(3)利用PCA對輸入的變量進(jìn)行處理,從中選取最能代表原始信息的主成份。
(4)挑選出的主成份作為C-SVM的輸入,對未知儲(chǔ)層的類別進(jìn)行預(yù)測,其計(jì)算過程為[14]:①選擇合適的核函數(shù),在實(shí)際應(yīng)用中一般選用RBF函數(shù);②由于核參數(shù)σ和懲罰因子C的選取,直接影響到模型的穩(wěn)定性和泛化能力的強(qiáng)弱,為防止過擬合,可以運(yùn)用網(wǎng)格法和交叉驗(yàn)證法來尋找核參數(shù)和懲罰因子的最優(yōu)值C*和σ*;③運(yùn)用C*和σ*對收集的樣本進(jìn)行訓(xùn)練SVM;④對訓(xùn)練好的SVM進(jìn)行檢驗(yàn)。在通常情況下,當(dāng)回判率大于90%時(shí),SVM才能用作預(yù)測;⑤運(yùn)用達(dá)到精度要求的SVM,對未知儲(chǔ)層的類別進(jìn)行預(yù)測。
長慶中部氣田位于鄂爾多斯盆地中部,在榆林、烏審旗、定邊和延安之間,面積超過1×104km2,其奧陶系馬家溝組巖性復(fù)雜,屬于致密儲(chǔ)層,對該儲(chǔ)層的準(zhǔn)確識別,是該地層天然氣開發(fā)中所面臨的關(guān)鍵問題。作者以長慶中部氣田馬五1段儲(chǔ)層為例,運(yùn)用PCA-SVM模型對其儲(chǔ)層類別進(jìn)行預(yù)測,并將預(yù)測結(jié)果同目前常用方法進(jìn)行了比較。
2.1 儲(chǔ)層分類
根據(jù)中部氣田的實(shí)際情況,按照鄂爾多斯盆地的儲(chǔ)層分級標(biāo)準(zhǔn),并結(jié)合前人研究成果,作者將馬五1段儲(chǔ)層分為四類:工業(yè)氣層(I類)、含氣層(II類)、氣水同層(III類)和干層(IV類)(見表1)。
表1 中部氣田儲(chǔ)層分級標(biāo)準(zhǔn)Tab.1 Standard of reservoir classification in central gas-field
2.2 選取模型參數(shù)和樣本
在對研究區(qū)大量參數(shù)的分析以及咨詢專家的基礎(chǔ)上,挑選出八個(gè)與儲(chǔ)層性質(zhì)、特征相關(guān)的參數(shù),分別是:①電阻率(Rlld);②深淺雙側(cè)向電阻率幅度差(△R);③自然伽瑪(GR);④測井聲波孔隙度(Φs);⑤滲透率(K);⑥儲(chǔ)滲因子(KΦs);⑦可動(dòng)水指數(shù)(RR);⑧介質(zhì)類型因子(EE)。
作者選用了長慶中部氣田馬五1段19口井分層測試的92個(gè)已知樣本[15](見表2)。為了檢驗(yàn)?zāi)P皖A(yù)測分類的有效性,作者隨機(jī)選取表2中前65個(gè)已知樣本作為訓(xùn)練數(shù)據(jù),后27個(gè)樣本作為預(yù)測數(shù)據(jù)。
表2 已知樣本匯總表Tab.2 Param eterof samp les
表3 各主成份的載荷系數(shù)和貢獻(xiàn)率Tab.3 Loading and variance contribution of each p rincip le component
2.3 儲(chǔ)層識別
首先根據(jù)式(1)~式(3),作者運(yùn)用M IN ITAB的PCA工具箱對表2中的數(shù)據(jù)進(jìn)行處理,求出各主成份的載荷系數(shù)和累計(jì)貢獻(xiàn)率(由于篇幅限制,具體計(jì)算過程請參見文獻(xiàn)[16])。根據(jù)計(jì)算結(jié)果(見表3),作者選取前代表原始信息94.6%的前5個(gè)主成份作為SVM的輸入變量。
作者運(yùn)用libsvm-2.88軟件來完成SVM分類預(yù)測的實(shí)現(xiàn)。首先選取RBF作為核函數(shù),以表2中的前65個(gè)作為訓(xùn)練樣本,對SVM進(jìn)行訓(xùn)練(以5個(gè)主成份作為輸入變量,儲(chǔ)層類別為輸出變量)。通過多次參數(shù)的調(diào)整,求得核參數(shù)和懲罰因子的最優(yōu)值C=1 448.154 687 87,σ=0.005 524 271 728 02(見圖1),當(dāng)回判率達(dá)到95.38%時(shí)(見圖2),表明該模型的精度已經(jīng)達(dá)到要求,可以進(jìn)行預(yù)測。最后以表2中余下27個(gè)樣本作為檢驗(yàn),預(yù)測正確率達(dá)100%(見下頁表4)。
圖1 網(wǎng)格搜索C和σ的最優(yōu)值圖Fig.1 Op timal value of grid search
圖2 模型回判精度圖Fig.2 Recognition p robability of the trained classifier
為了進(jìn)一步驗(yàn)證PCA-SVM模型的優(yōu)越性,作者還運(yùn)用判別分析模型和SVM模型,對表2的數(shù)據(jù)進(jìn)行了相同的分類預(yù)測,結(jié)果見下頁表4。
由表4可知,SVM雖然具有小樣本、全局尋優(yōu)、泛化能力強(qiáng)等優(yōu)點(diǎn),但輸入數(shù)據(jù)的相關(guān)性對SVM的預(yù)測精度有較大影響:單獨(dú)使用SVM的精度(93.6%)小于傳統(tǒng)Fisher判別分析模型(96.3%);當(dāng)使用主成份分析對數(shù)據(jù)進(jìn)行預(yù)處理后,預(yù)測精度達(dá)到了100%。進(jìn)一步分析表4,對于SVM模型判錯(cuò)的87號和92號樣本,都是將儲(chǔ)層識別為I類。作者認(rèn)為,這可能是訓(xùn)練樣本中I類儲(chǔ)層樣本個(gè)數(shù)較多所造成的,表明單獨(dú)使用SVM模型,對訓(xùn)練樣本的選取也有較高的要求。
表4 預(yù)測結(jié)果對比表(加粗斜體表示預(yù)測結(jié)果與實(shí)際不符合)Tab.4 Resu ltsof p rediction
作者在本文提出的PCA-SVM儲(chǔ)層識別模型,充分汲取了主成份分析和支持向量機(jī)的優(yōu)點(diǎn),不僅較好地解決了傳統(tǒng)學(xué)習(xí)方法在非線性預(yù)測中的小樣本、過學(xué)習(xí)、局部極小點(diǎn)等問題,還克服了自變量之間的多重相關(guān)性問題,減少了輸入變量的個(gè)數(shù),提高了預(yù)測精度和收斂速度。以中部氣田馬五1儲(chǔ)層識別為例,采用PCA-SVM模型對儲(chǔ)層類型進(jìn)行預(yù)測,取得了良好的效果,預(yù)測結(jié)果與客觀實(shí)際吻合。將該模型用于儲(chǔ)層分類預(yù)測,豐富和發(fā)展了儲(chǔ)層識別和預(yù)測的理論和方法。該模型在長慶中部氣田馬五1儲(chǔ)層的識別中還僅僅是一次嘗試,由于缺乏地震數(shù)據(jù),作者只是對19口井的儲(chǔ)層進(jìn)行了縱向分析。在進(jìn)一步的研究中,可以考慮利用單井精細(xì)預(yù)測結(jié)果與橫向地震數(shù)據(jù)進(jìn)行儲(chǔ)層類別標(biāo)定,對該區(qū)的有利儲(chǔ)層進(jìn)行橫向預(yù)測。
[1]劉錫健,匡建超.偏最小二乘神經(jīng)網(wǎng)絡(luò)在儲(chǔ)層識別和產(chǎn)能預(yù)測中的應(yīng)用——以陜甘寧盆地中部氣田馬五1儲(chǔ)層為例[J].礦物巖石,2005,25(4):80.
[2]李定軍,李瑞.逐步回歸法在川西坳陷須家河組四段儲(chǔ)層識別中的應(yīng)用[J].中國西部油氣地質(zhì),2006,2(2):223.
[3]文環(huán)明,肖慈王旬,甄兆聰,等.動(dòng)態(tài)聚類分析在儲(chǔ)層分級中的應(yīng)用[J].物探化探計(jì)算技術(shù),2002,24(2):323.
[4]劉正鋒,燕軍.模糊識別方法在儲(chǔ)層識別中的應(yīng)用[J].西南石油學(xué)院學(xué)報(bào),1998,20(3):4.
[5]田方,楊永發(fā),麻平社,等.逐步判別分析法在鄂爾多斯盆地油田的應(yīng)用[J].國外測井技術(shù),2005,20(1):40.
[6]張銀德,匡建超,曾劍毅.基于粒子群算法的模糊優(yōu)選神經(jīng)網(wǎng)絡(luò)儲(chǔ)層識別模型[J].物探化探計(jì)算技術(shù),2008,30(3):202.
[7]匡建超,曾劍毅,王眾.模糊優(yōu)選神經(jīng)網(wǎng)絡(luò)在長慶中部氣田馬五1儲(chǔ)層識別中的應(yīng)用[J].油氣地質(zhì)與采收率,2008,15(5):5.
[8]張鋒,張星,張樂,等.利用支持向量機(jī)方法預(yù)測儲(chǔ)層產(chǎn)能[J].西南石油大學(xué)學(xué)報(bào),2007,29(3):24.
[9]滕衛(wèi)平,俞善賢,胡波,等.SVM回歸法在汛期旱澇預(yù)測中的應(yīng)用研究[J].浙江大學(xué)學(xué)報(bào)(理學(xué)版),2008,35(3):343.
[10]郭科,龔灝.多元統(tǒng)計(jì)方法及其應(yīng)用[M].四川:電子科技大學(xué)出版社,2003.
[11]VLAD IM IR N.VAPN IK.統(tǒng)計(jì)學(xué)習(xí)理論[M].許建華,張學(xué)工,譯.北京:電子工業(yè)出版社,2004.
[12]VLAD IM IR N.VAPN IK.The Nature of Statistical Learning Theory[M].NY:Sp ringer-Verlag,1995.
[13]劉得軍,冉群英,王斌.支持向量機(jī)在大慶齊家凹陷測井解釋中的應(yīng)用[J].石油物探,2007,46(2):156.
[14]HSU CW,CHANGCC,L IN C J.A PracticalGuide to SupportVector C lassification[EB/OL].(2008-05-21)[2009-07-30]http://www.csie.ntu.edu.tw/~c jlin.
[15]董孝華,匡建超,齊天霞,等.陜甘寧盆地中部氣田馬五1儲(chǔ)層流體識別及平面分布特征研究[R].西安:長慶石油勘探局勘探開發(fā)研究院,1994(12):52.
[16]洪楠,侯軍,李志輝.M IN ITAB統(tǒng)計(jì)分析教程[M].北京:電子工業(yè)出版社,2007.
TE 122.2
A
1001—1749(2010)06—0636—05
四川石油天然氣研究中心重點(diǎn)資助項(xiàng)目(川油氣科SKA 09-01);四川省教育廳重點(diǎn)資助項(xiàng)目(2008ZB026)
2010-05-05 改回日期:2010-09-27
王眾(1983-),男,四川成都人,博士,研究方向?yàn)榈V產(chǎn)普查與勘探。