陳 浩 張 超,2 徐程浩 王智林 李芳芳 尚云志 張?zhí)K杰 李 旋
(1. 中國(guó)石油大學(xué)(北京)安全與海洋工程學(xué)院 北京 102249; 2. 中國(guó)石油遼河油田分公司勘探開發(fā)研究院 遼寧盤錦 124011;3. 中國(guó)石化江蘇油田分公司勘探開發(fā)研究院 江蘇揚(yáng)州 225009; 4. 中海油能源發(fā)展股份有限公司工程技術(shù)分公司 天津 300452;5. 大慶油田有限責(zé)任公司勘探開發(fā)研究院 黑龍江大慶 163712; 6. 渤海鉆探工程有限公司井下技術(shù)服務(wù)公司 天津 300283)
致密油藏儲(chǔ)層物性差,孔喉結(jié)構(gòu)復(fù)雜,常規(guī)直井開發(fā)經(jīng)濟(jì)效益較差,多采用水平井多級(jí)壓裂技術(shù)提高產(chǎn)量。由于體積壓裂后,縫網(wǎng)結(jié)構(gòu)復(fù)雜、壓裂參數(shù)與產(chǎn)量之間呈復(fù)雜映射關(guān)系,常規(guī)經(jīng)驗(yàn)公式法和數(shù)值解析法在產(chǎn)能預(yù)測(cè)方面效果欠佳,且對(duì)于新數(shù)據(jù)適應(yīng)性弱,推廣難度大[1-5]。
隨著人工智能的迅猛發(fā)展,神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、貝葉斯網(wǎng)絡(luò)、隨機(jī)森林等機(jī)器學(xué)習(xí)方法理論基礎(chǔ)完善、泛化性強(qiáng)、實(shí)際應(yīng)用過(guò)程中方便快捷,相比較于傳統(tǒng)方法優(yōu)勢(shì)明顯,逐漸在油氣產(chǎn)能預(yù)測(cè)領(lǐng)域得到廣泛應(yīng)用[6-13]。2009年,葉雙江 等基于灰色關(guān)聯(lián)與神經(jīng)網(wǎng)絡(luò)技術(shù),對(duì)多因素非線性影響下的水平井初始產(chǎn)量進(jìn)行了預(yù)測(cè),相對(duì)誤差在10%以內(nèi)[14];2010年,劉科 等采用最小二乘支持向量機(jī),結(jié)合產(chǎn)能公式,建立了水平井產(chǎn)量預(yù)測(cè)的支持向量機(jī)模型[15];2012年,莊華 等采用BP神經(jīng)網(wǎng)絡(luò)模型,結(jié)合測(cè)井?dāng)?shù)據(jù)和壓力施工參數(shù),對(duì)朝長(zhǎng)地區(qū)扶楊油層壓裂產(chǎn)量進(jìn)行了預(yù)測(cè)[16];2018年,殷榮網(wǎng) 等利用改進(jìn)的粒子群優(yōu)化支持向量機(jī)算法,通過(guò)構(gòu)建地質(zhì)因素與產(chǎn)量之間的非線性映射關(guān)系,建立了油井單井產(chǎn)能預(yù)測(cè)模型,其預(yù)測(cè)效果要比基因遺傳神經(jīng)網(wǎng)絡(luò)算法更優(yōu)[17]。
實(shí)際應(yīng)用中發(fā)現(xiàn),機(jī)器學(xué)習(xí)方法的預(yù)測(cè)效果對(duì)數(shù)據(jù)本身的依賴性很強(qiáng),不同機(jī)器學(xué)習(xí)方法的適應(yīng)條件不同。例如,莊華 等的BP神經(jīng)網(wǎng)絡(luò)模型對(duì)地區(qū)的依賴性較強(qiáng),不完善的數(shù)據(jù)樣本會(huì)大大影響預(yù)測(cè)結(jié)果的可信度[16]。相比之下,支持向量機(jī)方法在數(shù)據(jù)量需求的方面具有獨(dú)特優(yōu)勢(shì),由于支持向量機(jī)方法自身完善的理論,可以有效處理油田實(shí)際應(yīng)用中最常見的小樣本問(wèn)題[18]。但是,目前在大多數(shù)的低滲透油藏水平井開發(fā)領(lǐng)域的應(yīng)用中,主控因素通常以測(cè)井參數(shù)、地質(zhì)參數(shù)和水平井參數(shù)為主,普遍缺少體積壓裂的工程參數(shù)。
大慶油田M2區(qū)塊為中淺層特低產(chǎn)特低豐度致密油藏,地質(zhì)條件復(fù)雜、水平井體積壓裂開發(fā)單井產(chǎn)量差異大。針對(duì)目標(biāo)油藏儲(chǔ)層物性普遍較差、井?dāng)?shù)偏少、影響參數(shù)復(fù)雜的開發(fā)現(xiàn)狀,本文首先采用皮爾森系數(shù)、斯皮爾曼系數(shù)和肯德爾系數(shù)3種方法,進(jìn)行主控因素篩選和排序,在此基礎(chǔ)上,基于支持向量機(jī)方法,建立了具有較高精度和泛化能力的致密油藏水平井體積壓裂初期產(chǎn)能預(yù)測(cè)模型,以期為國(guó)內(nèi)外致密油藏有效開發(fā)提出指導(dǎo)性建議。
參數(shù)的選取對(duì)產(chǎn)能預(yù)測(cè)至關(guān)重要,參數(shù)過(guò)多可能導(dǎo)致冗余參數(shù)的存在,影響模型預(yù)測(cè)能力,參數(shù)過(guò)少可能無(wú)法構(gòu)建完善的預(yù)測(cè)模型,導(dǎo)致誤差增大。實(shí)際應(yīng)用中,一般都需要結(jié)合多種參數(shù)篩選方法進(jìn)行選擇。理想的模型應(yīng)盡可能全面地涵蓋所有影響產(chǎn)量的因素,同時(shí)去掉冗余特征。在實(shí)際應(yīng)用中選擇主控因素時(shí),還會(huì)受到數(shù)據(jù)收集困難、模型復(fù)雜性,和計(jì)算量過(guò)大等多種條件的制約。因此,在模型構(gòu)建的過(guò)程中,主控因素的篩選工作是非常必要的。
一般來(lái)說(shuō),影響致密油藏水平井體積壓裂的主要因素包括:①目的層油藏條件和物性參數(shù),如地層壓力、孔隙度、滲透率、含油飽和度等;②壓裂改造參數(shù),如鉆遇油層長(zhǎng)度、鉆遇油層厚度、壓裂段數(shù)、壓裂簇?cái)?shù)、總砂量、總液量等。結(jié)合大慶油田M2區(qū)塊實(shí)際情況可知,儲(chǔ)層普遍發(fā)育差、不連續(xù)、不壓裂無(wú)產(chǎn)量,體積壓裂后產(chǎn)量提升明顯。如表1所示,5個(gè)主力含油層位的地層壓力、孔隙度、滲透率、平均孔喉半徑和含油飽和度等數(shù)據(jù)均比較接近,因此,水平井體積壓裂產(chǎn)量主要取決于壓裂改造程度。
表1 大慶油田M2區(qū)塊地質(zhì)數(shù)據(jù)
為了合理地選擇輸入特征,本文采用了皮爾森系數(shù)、斯皮爾曼系數(shù)和肯德爾系數(shù),對(duì)輸入?yún)?shù)與產(chǎn)量之間的相關(guān)性進(jìn)行了計(jì)算。3種方法的相關(guān)系數(shù)判別角度不同,其中,皮爾森系數(shù)可以很好地表現(xiàn)變量之間的線性相關(guān)性,但是需要數(shù)據(jù)滿足正態(tài)分布,而且數(shù)據(jù)中的異常值的存在會(huì)對(duì)關(guān)聯(lián)結(jié)果產(chǎn)生很大影響[19],斯皮爾曼系數(shù)和肯德爾系數(shù)是等級(jí)相關(guān)系數(shù),這2種方法只關(guān)注變量間單調(diào)關(guān)系,不需要數(shù)據(jù)滿足正態(tài)分布,而且還可以減弱異常值對(duì)結(jié)果的影響[20]。3種相關(guān)系數(shù)計(jì)算公式如下所示:
(1)
(2)
(3)
表2為目標(biāo)油藏水平井體積壓裂初期產(chǎn)量數(shù)據(jù)統(tǒng)計(jì)情況,包括壓裂后3個(gè)月內(nèi)的平均日產(chǎn)油量數(shù)據(jù)和壓裂參數(shù)數(shù)據(jù)。盡管在儲(chǔ)層條件方面非常接近,但由于壓裂施工參數(shù)的差異,各井的初期產(chǎn)量明顯不同,在5.4~48.7 t/d。
表2 M2區(qū)塊水平井體積壓裂初期產(chǎn)量數(shù)據(jù)
基于皮爾森、斯皮爾曼和肯德爾3種相關(guān)系數(shù)計(jì)算方法,獲得了各參數(shù)的相關(guān)系數(shù)r(-1 表3 |r|的取值范圍與意義 對(duì)輸入特征采用3種相關(guān)系數(shù)進(jìn)行計(jì)算,獲得的特征與油井產(chǎn)量相關(guān)排序結(jié)果匯總在表4。可以看出,在正負(fù)相關(guān)性方面3種方法的結(jié)論是一致的,均認(rèn)為縫間距和產(chǎn)量呈負(fù)相關(guān)關(guān)系,其余因素均為正相關(guān)關(guān)系。在相關(guān)程度大小方面,肯德爾系數(shù)和斯皮爾曼系數(shù)方法的結(jié)論基本一致,而皮爾森系數(shù)的結(jié)果認(rèn)為總砂量的相關(guān)程度要略小于壓裂簇?cái)?shù),油層厚度的相關(guān)程度要小于壓裂段數(shù),縫間距的相關(guān)程度要大于總液量。3種方法的側(cè)重點(diǎn)不同,因此,為了更全面地評(píng)價(jià)輸入特征,本文綜合考慮3種相關(guān)系數(shù)的結(jié)果作為特征優(yōu)選的依據(jù)。綜合分析認(rèn)為,7個(gè)參數(shù)中,鉆遇油層對(duì)M2區(qū)塊致密油藏水平井體積壓裂產(chǎn)量的影響最大,總砂量和壓裂簇?cái)?shù)次之,其次為油層厚度和壓裂段數(shù),總液量和縫間距與產(chǎn)量的關(guān)聯(lián)度最小。 表4 不同方法的相關(guān)系數(shù)對(duì)比 大數(shù)據(jù)時(shí)代背景下,機(jī)器學(xué)習(xí)方法泛化能力強(qiáng),實(shí)際問(wèn)題中應(yīng)用效果好,在定量預(yù)測(cè)評(píng)價(jià)領(lǐng)域廣受關(guān)注[21]。目前應(yīng)用較廣的方法有:隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等。支持向量機(jī)方法的優(yōu)勢(shì)在于其計(jì)算的復(fù)雜度取決于支持向量的個(gè)數(shù)而不是樣本空間維度,所以能有效地處理高維問(wèn)題,而且對(duì)于小樣本數(shù)據(jù)應(yīng)用效果更好。該方法的缺點(diǎn)是對(duì)超參數(shù)的選取非常敏感,不同的超參數(shù)會(huì)對(duì)模型學(xué)習(xí)效果產(chǎn)生很大影響[22]。 圖1 支持向量機(jī)回歸原理示意圖 對(duì)于非線性問(wèn)題還需要引入核函數(shù),把樣本數(shù)據(jù)從低維空間映射到高維空間,將其轉(zhuǎn)變成線性問(wèn)題進(jìn)行最優(yōu)求解。徑向基核函數(shù)學(xué)習(xí)能力強(qiáng),計(jì)算精度高,應(yīng)用最廣泛,因此本研究選用徑向基核函數(shù)[25-26]。徑向基核函數(shù)公式如下: (4) 式(4)中:K為核函數(shù);xi與xj為輸入?yún)?shù);g為核函數(shù)基寬。 不同參數(shù)之間量綱不同,數(shù)量級(jí)差異過(guò)大會(huì)導(dǎo)致模型構(gòu)建難度增大,準(zhǔn)確性降低。所以通常會(huì)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,以此來(lái)避免不同參數(shù)之間的數(shù)值問(wèn)題和量綱問(wèn)題。本文分別使用未處理的原始數(shù)據(jù)和采用Z-Score標(biāo)準(zhǔn)化方法處理過(guò)的數(shù)據(jù)進(jìn)行對(duì)比,發(fā)現(xiàn)采用標(biāo)準(zhǔn)化后的數(shù)據(jù)建立的模型運(yùn)行速度更快、預(yù)測(cè)效果更好。標(biāo)準(zhǔn)化公式如下: (5) 式(5)中:X′為標(biāo)準(zhǔn)化后的數(shù)據(jù);X為原始數(shù)據(jù);σ為數(shù)據(jù)標(biāo)準(zhǔn)差;μ為數(shù)據(jù)均值。 主成分分析法能夠在保留數(shù)據(jù)最大信息的前提下,對(duì)數(shù)據(jù)有效降維。采用降維后的新數(shù)據(jù)作為輸入?yún)?shù),可減少冗余信息干擾,提高模型計(jì)算速度[27]。本文采用PCA降維方法,基于篩選的水平井體積壓裂7個(gè)主控因素,把數(shù)據(jù)維度降低了2個(gè)維度,信息保留百分比為97.81%。因此,本文采用PCA降維方法后,可以在最大程度上保留原始數(shù)據(jù)信息的同時(shí),有效減少了模型計(jì)算量,提高了建模速度。 模型建立的關(guān)鍵是對(duì)數(shù)據(jù)的充分學(xué)習(xí)和對(duì)超參數(shù)的尋優(yōu)。主要的建模過(guò)程包括:①設(shè)定超參數(shù)區(qū)間;②劃分訓(xùn)練集與測(cè)試集的數(shù)據(jù);③選取超參數(shù)結(jié)合交叉驗(yàn)證法構(gòu)建模型;④評(píng)價(jià)建模效果;⑤對(duì)比選取最優(yōu)超參數(shù)。 模型建立的常用方法主要有兩種。第一種方法比較簡(jiǎn)便,首先把數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,訓(xùn)練集數(shù)據(jù)用于學(xué)習(xí)后的模型構(gòu)建,測(cè)試集數(shù)據(jù)用于模型驗(yàn)證。在此基礎(chǔ)上,基于訓(xùn)練集數(shù)據(jù)的學(xué)習(xí)效果和測(cè)試集數(shù)據(jù)的預(yù)測(cè)效果進(jìn)行評(píng)價(jià)。分類模型使用分類準(zhǔn)確率評(píng)價(jià),回歸模型使用相對(duì)誤差來(lái)評(píng)價(jià)。這種方法雖然可以快速地搭建模型。但在訓(xùn)練集和測(cè)試集劃分的時(shí)候可能出現(xiàn)數(shù)據(jù)劃分不合理導(dǎo)致的誤差;此外,由于訓(xùn)練集數(shù)據(jù)僅用于學(xué)習(xí),測(cè)試集數(shù)據(jù)僅用于檢驗(yàn),沒(méi)能充分地利用數(shù)據(jù)信息,這種方法對(duì)于數(shù)據(jù)的利用率較低。 超參數(shù)尋優(yōu)方法主要有啟發(fā)式算法和最優(yōu)化算法兩大類。啟發(fā)式算法主要包括基因遺傳算法和粒子群算法等,分別通過(guò)模擬生物進(jìn)化的自然選擇原理和鳥群覓食行為中的群集智能原理進(jìn)行篩選。啟發(fā)式算法的優(yōu)點(diǎn)是尋優(yōu)速度更快,但可能會(huì)陷入局部極值的問(wèn)題。最優(yōu)化算法主要是網(wǎng)格搜索法,它能獲得更好的尋優(yōu)效果,缺點(diǎn)是尋優(yōu)速度較慢。 本文分別對(duì)常規(guī)式和嵌入式兩種網(wǎng)格搜索方法進(jìn)行尋優(yōu)效果的對(duì)比。對(duì)比發(fā)現(xiàn),常規(guī)方法尋優(yōu)參數(shù)間的步長(zhǎng)變化較大,多次尋優(yōu)過(guò)程可能會(huì)錯(cuò)過(guò)最優(yōu)參數(shù),因此需要多次改變參數(shù)范圍進(jìn)行尋優(yōu),效率較低。相比之下,嵌入式方法通過(guò)等步長(zhǎng)逐步尋優(yōu)來(lái)獲取最優(yōu)參數(shù),尋優(yōu)效率更高(表5)。 表5 核函數(shù)參數(shù)優(yōu)選范圍 建模過(guò)程中,首先將原始數(shù)據(jù)集分為訓(xùn)練集與測(cè)試集兩部分,其中隨機(jī)選擇4口水平井作為測(cè)試集,剩余16口水平井用來(lái)構(gòu)建模型。采用網(wǎng)格搜索法獲得最優(yōu)參數(shù),訓(xùn)練集的預(yù)測(cè)效果如圖2所示。從圖2可以看出,支持向量機(jī)方法對(duì)于訓(xùn)練集數(shù)據(jù)擬合效果較好,基于支持向量機(jī)的10折法和留P法的訓(xùn)練集數(shù)據(jù)誤差僅為0.79%和0.82%。 圖2 訓(xùn)練集產(chǎn)量預(yù)測(cè)效果對(duì)比 4口驗(yàn)證井的預(yù)測(cè)結(jié)果如圖3所示,支持向量機(jī)10折法預(yù)測(cè)效果較好,平均誤差為8.4%;支持向量機(jī)留P法最優(yōu),平均誤差僅為5.4%。 圖3 測(cè)試集產(chǎn)量預(yù)測(cè)效果對(duì)比 分析認(rèn)為,目前M2區(qū)塊致密油藏仍處于開發(fā)初期,水平井體積壓裂數(shù)量有限,適合小樣本高維度的支持向量機(jī)方法預(yù)測(cè)效果較好。其中,支持向量機(jī)留P法在該階段能更加充分地利用樣本信息,非常適合初期壓裂水平井的產(chǎn)量預(yù)測(cè)。不足之處是隨著開發(fā)的繼續(xù)進(jìn)行,井?dāng)?shù)增加,留P法會(huì)產(chǎn)生巨大的計(jì)算量,運(yùn)算速度開始下降。因此,隨著開發(fā)井?dāng)?shù)的增加可選擇運(yùn)算速度更快的支持向量機(jī)10折法,數(shù)據(jù)量的增加可以提高模型的預(yù)測(cè)能力。 為了更好驗(yàn)證模型預(yù)測(cè)效果,基于本文的數(shù)據(jù)庫(kù)并結(jié)合長(zhǎng)慶油田X井區(qū)長(zhǎng)7致密油水平井體積壓裂的8組數(shù)據(jù),構(gòu)建產(chǎn)能預(yù)測(cè)模型,數(shù)據(jù)來(lái)自于文獻(xiàn)[28]。預(yù)測(cè)效果如圖4所示,其中,長(zhǎng)慶油田X井區(qū)長(zhǎng)7的6口訓(xùn)練集水平井的預(yù)測(cè)產(chǎn)量平均相對(duì)誤差為2%,測(cè)試集兩口水平井的預(yù)測(cè)產(chǎn)量平均相對(duì)誤差為11%;說(shuō)明構(gòu)建的模型可以有效地應(yīng)用于其他區(qū)塊的產(chǎn)能預(yù)測(cè)工作中。 圖4 長(zhǎng)慶油田油井產(chǎn)量預(yù)測(cè)效果 1) 基于大慶油田M2區(qū)塊20口典型致密油體積壓裂水平井的油藏條件、儲(chǔ)層性質(zhì)和壓裂參數(shù),綜合采用皮爾森系數(shù)、斯皮爾曼系數(shù)和肯德爾系數(shù)進(jìn)行主控因素篩選和評(píng)價(jià)。鉆遇油層和產(chǎn)量相關(guān)性最強(qiáng),總砂量和壓裂簇?cái)?shù)次之,之后是油層厚度和壓裂段數(shù),總液量和縫間距與產(chǎn)量的關(guān)聯(lián)度最小。 2) 在數(shù)據(jù)標(biāo)準(zhǔn)化和主成分分析的預(yù)處理工作基礎(chǔ)上,采用支持向量機(jī)方法建立了目標(biāo)油藏水平井體積壓裂產(chǎn)能預(yù)測(cè)模型。對(duì)比發(fā)現(xiàn),支持向量機(jī)10折交叉驗(yàn)證的精度較好,平均誤差為8.4%,支持向量機(jī)留P交叉驗(yàn)證預(yù)測(cè)效果更好,平均相對(duì)誤差僅為5.4%。 3) 由于不同方法各有優(yōu)勢(shì),在致密油產(chǎn)能預(yù)測(cè)等相關(guān)領(lǐng)域的應(yīng)用中,應(yīng)該結(jié)合實(shí)際情況,進(jìn)行不同開發(fā)階段的機(jī)器學(xué)習(xí)方法優(yōu)選。其中,支持向量機(jī)方法適合小樣本高維度情況下的精準(zhǔn)預(yù)測(cè)。建議在開發(fā)初期,井?dāng)?shù)較少時(shí)選用留P法;隨著開發(fā)的推進(jìn),井?dāng)?shù)增加,建議優(yōu)選精度較好、運(yùn)算速度更快的10折法;當(dāng)數(shù)據(jù)量更為充足時(shí),可以考慮神經(jīng)網(wǎng)絡(luò)方法。2 支持向量機(jī)方法的原理
3 數(shù)據(jù)預(yù)處理
3.1 數(shù)據(jù)的標(biāo)準(zhǔn)化
3.2 主成分分析(PCA)數(shù)據(jù)降維
4 模型建立
4.1 模型訓(xùn)練及測(cè)試
4.2 超參數(shù)尋優(yōu)
5 模型驗(yàn)證與應(yīng)用
5.1 模型驗(yàn)證
5.2 模型應(yīng)用
6 結(jié)論