曹 沖 程林松 張向陽(yáng) 賈 品 時(shí)俊杰
(中國(guó)石油大學(xué)(北京)石油工程學(xué)院,北京 102249)
地下流體在多孔介質(zhì)中的流動(dòng)往往涉及多尺度、多變量、多物理場(chǎng)的耦合.現(xiàn)有的產(chǎn)量預(yù)測(cè)方法包括經(jīng)驗(yàn)曲線法[1-3]、(半)解析方法[4-6]及數(shù)值模擬法[7-11].因?yàn)槟P偷募僭O(shè)條件及方程的局限性,無法真實(shí)準(zhǔn)確地刻畫實(shí)際油藏生產(chǎn)過程,從而造成了產(chǎn)量預(yù)測(cè)結(jié)果不確定性.盡管低滲,特低滲及非常規(guī)油氣資源的開發(fā)已成為當(dāng)前研究熱點(diǎn)問題,人們對(duì)地下復(fù)雜的油氣滲流機(jī)理的認(rèn)識(shí)仍不完善[12-15],這也限制了這些傳統(tǒng)方法的適用性.此外,綜合考慮多種力學(xué)問題的耦合滲流問題存在機(jī)理表征困難,模型求解難度大,計(jì)算不收斂等問題.因此,實(shí)際油田中的多變量,多尺度和非線性數(shù)據(jù)給傳統(tǒng)產(chǎn)量預(yù)測(cè)模型帶來了巨大的挑戰(zhàn)[16-18].
近年來,人工智能技術(shù),大數(shù)據(jù)分析方法由于其強(qiáng)大的學(xué)習(xí)及預(yù)測(cè)能力在工業(yè)界得到了廣泛應(yīng)用.同時(shí),油田中存在的地質(zhì)?油藏?流體?工藝數(shù)據(jù)給數(shù)據(jù)建模技術(shù)應(yīng)用在石油行業(yè)提供了可能性.吳新根等[19]應(yīng)用BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)羅馬什金油田年產(chǎn)量,與Weng 旋回模型預(yù)測(cè)結(jié)果相比,人工神經(jīng)網(wǎng)絡(luò)是一種可行的石油產(chǎn)量外推預(yù)測(cè)方法.李留仁等[20]采用3 層BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)了12 個(gè)月的月產(chǎn)油量,預(yù)測(cè)月產(chǎn)油量誤差在10%以內(nèi).邢明海等[21]以多層前饋神經(jīng)網(wǎng)絡(luò)和函數(shù)連接神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),研究了5 種不同的組合方式下的油田總產(chǎn)量.Chithra 等[22]利用高階神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)10 個(gè)月的累積產(chǎn)量,誤差在5%以內(nèi).高階神經(jīng)網(wǎng)絡(luò)包含傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的線性相關(guān)項(xiàng)(突觸操作)及神經(jīng)輸入與突觸權(quán)重的高階相關(guān)項(xiàng)(n階相關(guān)項(xiàng)).馬林茂等[23]利用遺傳算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)連接權(quán)值和閾值,并將該算法用于預(yù)測(cè)大慶油田BED 試驗(yàn)區(qū)高含水階段的油田產(chǎn)量預(yù)測(cè).李彥尊等[24]基于靜態(tài)地質(zhì),油藏及工程參數(shù),利用人工神經(jīng)網(wǎng)絡(luò)方法預(yù)測(cè)頁(yè)巖油氣的投產(chǎn)5年內(nèi)的產(chǎn)量.神經(jīng)網(wǎng)絡(luò)強(qiáng)大的預(yù)測(cè)能力往往依賴于大量樣本數(shù)據(jù)庫(kù),對(duì)于小樣本數(shù)據(jù)(數(shù)據(jù)量小于1000)的訓(xùn)練,容易出現(xiàn)明顯的過擬合現(xiàn)象.而實(shí)際油田開發(fā)過程中由于區(qū)塊限制,記錄不全,操作不當(dāng)?shù)纫蛩仉y以獲取較為準(zhǔn)確的大量樣本數(shù)據(jù).近年來,眾多學(xué)者探索了機(jī)器學(xué)習(xí)算法在產(chǎn)量預(yù)測(cè)中的應(yīng)用,并取得了一定的效果.Bhattacharya 等[25]和Wang 等[26]等綜合多類型油藏?cái)?shù)據(jù),建立機(jī)器學(xué)習(xí)模型,預(yù)測(cè)頁(yè)巖氣單井日產(chǎn)量.宋宣毅等[27]利用隨機(jī)森林方法確定了影響產(chǎn)能的主控因素.Xue 等[28]以頁(yè)巖氣藏的多段壓裂水平井為例,綜合影響頁(yè)巖氣產(chǎn)量的9 個(gè)主控參數(shù)及生產(chǎn)動(dòng)態(tài)中的最大產(chǎn)氣量數(shù)據(jù),對(duì)比多目標(biāo)隨機(jī)森林回歸和多輸出回歸鏈算法對(duì)日產(chǎn)氣量進(jìn)行預(yù)測(cè).
針對(duì)地下流體在多孔介質(zhì)中的滲流機(jī)理復(fù)雜,滲流模型求解難度大,產(chǎn)量預(yù)測(cè)結(jié)果不確定性強(qiáng)等問題,本文以特低滲透油藏開發(fā)過程中搜集到的小樣本數(shù)據(jù)為例(樣本量 <1000),探究一種適用于預(yù)測(cè)產(chǎn)量的數(shù)據(jù)代理模型,它可以省去復(fù)雜物理建模過程,簡(jiǎn)化模型求解問題,兼顧計(jì)算效率與預(yù)測(cè)精度.此外,給出了數(shù)據(jù)代理模型預(yù)測(cè)產(chǎn)量的詳細(xì)流程,并對(duì)比分析三種代理模型在產(chǎn)量預(yù)測(cè)中應(yīng)用效果.最后,針對(duì)小樣本多變量產(chǎn)量預(yù)測(cè)問題,給出能有效提高模型預(yù)測(cè)效果的針對(duì)性建議,為滲流代理模型在石油行業(yè)的應(yīng)用提供了理論指導(dǎo).
滲流代理模型能否準(zhǔn)確預(yù)測(cè)油氣產(chǎn)量往往取決于可靠的油田數(shù)據(jù).而真實(shí)的油田數(shù)據(jù)資料往往存在數(shù)據(jù)跳躍,數(shù)據(jù)缺失等問題.因此,數(shù)據(jù)預(yù)處理,作為建立代理模型的第一步,能將原始油田數(shù)據(jù)進(jìn)行加工、降噪、歸一化等一系列處理形成產(chǎn)量預(yù)測(cè)數(shù)據(jù)庫(kù).為了保證計(jì)算精度的前提下盡可能節(jié)省代理模型的計(jì)算時(shí)間,模型的超參數(shù)優(yōu)化在數(shù)據(jù)建模中也至關(guān)重要.最后,經(jīng)過訓(xùn)練后的最優(yōu)代理模型能用于油氣產(chǎn)量預(yù)測(cè).本文將數(shù)據(jù)建模技術(shù)預(yù)測(cè)油氣產(chǎn)量的一般流程劃分為數(shù)據(jù)采集,數(shù)據(jù)預(yù)處理,代理模型建立與優(yōu)化三個(gè)部分,如圖1 所示.
圖1 數(shù)據(jù)建模技術(shù)預(yù)測(cè)油氣產(chǎn)量的一般流程Fig.1 A general flow of data modeling techniques for predicting oil and gas production
為了獲得準(zhǔn)確可靠的產(chǎn)量預(yù)測(cè)結(jié)果,應(yīng)盡可能廣泛地收集影響油氣產(chǎn)量的油田數(shù)據(jù).本文結(jié)合地質(zhì)背景,在充分理解油藏開發(fā)規(guī)律和生產(chǎn)工藝的基礎(chǔ)上,將影響產(chǎn)量預(yù)測(cè)的實(shí)際油田數(shù)據(jù)歸為以下八類(如圖2 所示).針對(duì)產(chǎn)量預(yù)測(cè)這類回歸問題,類別數(shù)據(jù)需通過獨(dú)熱編碼技術(shù),圖像數(shù)據(jù)通過卷積神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化后便于代理提取和學(xué)習(xí).
圖2 油田數(shù)據(jù)庫(kù)的建立Fig.2 Establishment of oilfield database
為了使機(jī)器學(xué)習(xí)算法具有更好的預(yù)測(cè)能力,需要有足夠數(shù)量和質(zhì)量的訓(xùn)練數(shù)據(jù).實(shí)際油田數(shù)據(jù)存在著記錄不完整、數(shù)據(jù)噪聲大等問題.這些實(shí)際數(shù)據(jù)在輸入機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練之前需要進(jìn)行預(yù)處理.本文將數(shù)據(jù)預(yù)處理的過程分為四個(gè)部分:數(shù)據(jù)清理、數(shù)據(jù)標(biāo)準(zhǔn)化、相關(guān)性分析和數(shù)據(jù)集劈分.數(shù)據(jù)清理是數(shù)據(jù)預(yù)處理的第一步,其中包括刪除或填充丟失的記錄和異常值,對(duì)分類數(shù)據(jù)進(jìn)行編碼和對(duì)數(shù)據(jù)集進(jìn)行平滑處理等.此外,對(duì)輸入數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化是獲得可靠的訓(xùn)練模型所必不可少的步驟,它可以消除不同維度的變量之間的差異.在訓(xùn)練滲流代理模型之前,通過均值和方差對(duì)數(shù)據(jù)進(jìn)行歸一化.特征工程是構(gòu)建滲流代理模型的基礎(chǔ),應(yīng)基于影響石油生產(chǎn)的理論知識(shí)和現(xiàn)場(chǎng)專業(yè)知識(shí)進(jìn)行初步提取.此外,低相關(guān)性的變量會(huì)降低模型的準(zhǔn)確性,而高相關(guān)性的變量會(huì)大大降低模型的復(fù)雜度并提高預(yù)測(cè)準(zhǔn)確率.因此,變量間的相關(guān)性分析和重要性排序?qū)τ蜌猱a(chǎn)量預(yù)測(cè)具有重要意義,可用于主成分分析,灰色關(guān)聯(lián)分析,隨機(jī)森林進(jìn)行分析.數(shù)據(jù)劈分是防止模型過擬合并提高模型泛化能力的方法之一.通過從產(chǎn)量預(yù)測(cè)模型數(shù)據(jù)集中隨機(jī)抽取訓(xùn)練數(shù)據(jù),然后將訓(xùn)練,測(cè)試和驗(yàn)證數(shù)據(jù)集通過交叉驗(yàn)證進(jìn)行劃分,交叉驗(yàn)證可用于評(píng)估和預(yù)測(cè)油井的性能.
建立數(shù)據(jù)庫(kù)后,將訓(xùn)練數(shù)據(jù)輸入到數(shù)據(jù)驅(qū)動(dòng)的模型中進(jìn)行訓(xùn)練,通過優(yōu)化算法對(duì)超參數(shù)進(jìn)行優(yōu)化.當(dāng)訓(xùn)練誤差達(dá)到期望值或沒有減少時(shí),可以通過驗(yàn)證集驗(yàn)證訓(xùn)練模型.最后,通過隨機(jī)選擇測(cè)試數(shù)據(jù)對(duì)模型進(jìn)行盲測(cè).在本文中,均方誤差(mean square error)Ems和準(zhǔn)確率R2被用來評(píng)估代理模型,其具體表達(dá)式如下
式中,yi表示實(shí)際值,yi表示模型預(yù)測(cè)值,n為樣本量 ,y表示實(shí)際值yi平均.
決策樹(decision tree)通過拆分預(yù)測(cè)變量并遞歸劃分?jǐn)?shù)據(jù)集來描述因變量與一個(gè)或多個(gè)自變量之間的關(guān)系[29].在決策樹的每個(gè)分支上,觀察數(shù)據(jù)通過自變量的閾值分配給左右路徑.在回歸樹中,通過最小化誤差指標(biāo)劈分?jǐn)?shù)據(jù)集并在葉子節(jié)點(diǎn)上獲得預(yù)測(cè)值.基于CART 樹和裝袋法的隨機(jī)森林,通過聚集大量決策樹來近似表征任意復(fù)雜的非線性曲面,這使得它成為一個(gè)強(qiáng)大的預(yù)測(cè)工具[30-31],能用于解決復(fù)雜的非線性回歸和分類問題.它能從訓(xùn)練數(shù)據(jù)集中獲得預(yù)定數(shù)量的小樣本用于并行估計(jì),通過簡(jiǎn)單的參數(shù)優(yōu)化,便可獲得較高的預(yù)測(cè)精度.如圖3 所示,通過分割每個(gè)節(jié)點(diǎn)并隨機(jī)選擇給定節(jié)點(diǎn)的子集來構(gòu)建隨機(jī)森林模型進(jìn)行訓(xùn)練,并且未經(jīng)過剪枝的樹在每個(gè)節(jié)點(diǎn)處隨機(jī)增長(zhǎng).這種隨機(jī)化特征使得模型能夠避免過擬合問題.最終預(yù)測(cè)值是RF 算法中每個(gè)決策樹的平均值.此外,隨機(jī)森林方法也可以對(duì)變量的重要性進(jìn)行排序,便于抽提產(chǎn)量主控因素,有助于分析油田生產(chǎn)動(dòng)態(tài)分析.
圖3 隨機(jī)森林預(yù)測(cè)產(chǎn)量示意圖Fig.3 Schematic diagram of random forest forecast oil production
梯度提升樹(gradient boosting decision tree,GBDT)通過多輪迭代,每輪迭代產(chǎn)生一個(gè)弱學(xué)習(xí)器(CART 回歸樹),每個(gè)學(xué)習(xí)器通過降低上一輪的殘差進(jìn)行訓(xùn)練[32-33].最終的預(yù)測(cè)結(jié)果通過將每輪訓(xùn)練得到的弱學(xué)習(xí)器進(jìn)行加權(quán)求和得到,這種通過集合多個(gè)弱學(xué)習(xí)器形成一個(gè)強(qiáng)化模型的集成學(xué)習(xí)方法能大大減少模型的訓(xùn)練時(shí)間,同時(shí)可以有效避免過擬合問題.近年來,由陳天奇等[34-35]提出的極限梯度爬升算法(extreme gradient boosting,XGBoost)對(duì)GBDT進(jìn)行了優(yōu)化,進(jìn)一步提升了算法的計(jì)算速度和預(yù)測(cè)性能,成為了當(dāng)前數(shù)據(jù)挖掘算法中的熱點(diǎn).其主要優(yōu)點(diǎn)如下[36-37].
(1)目標(biāo)函數(shù)優(yōu)化利用了損失函數(shù)關(guān)于待求函數(shù)的二階導(dǎo)數(shù),加快優(yōu)化進(jìn)程,增加模型準(zhǔn)確性.
(2)支持并行化,對(duì)于某個(gè)節(jié)點(diǎn),節(jié)點(diǎn)內(nèi)選擇最佳分裂點(diǎn),候選分裂點(diǎn)計(jì)算增益用多線程并行.訓(xùn)練速度快.
(3)通過引入正則化項(xiàng),增加模型的泛化能力,能有效防止過擬合問題.
人工神經(jīng)網(wǎng)絡(luò) (artificial neural network),作為功能強(qiáng)大的機(jī)器學(xué)習(xí)算法,可以充分挖掘隱藏在數(shù)據(jù)背后的非線性關(guān)系.多個(gè)相互連接的并行神經(jīng)元組成的人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)一般包括輸入層,隱藏層和輸出層.僅包含輸入和輸出層的神經(jīng)網(wǎng)絡(luò)也稱為單層感知器,通常用于解決線性問題.多層感知器可能包含多個(gè)隱藏層,用來探索因變量和自變量之間復(fù)雜非線性關(guān)系[38-39].神經(jīng)元之間的連接可以用等式(3)表示,當(dāng)輸入信號(hào)通過時(shí),神經(jīng)元根據(jù)其權(quán)重交換消息.每個(gè)神經(jīng)元的輸入信息通過線性加權(quán)組合在一起,通過不斷調(diào)整權(quán)重和偏差以使輸出與輸入變量相關(guān).最后,通過激活函數(shù)獲得計(jì)算結(jié)果的輸出
式中yi是神經(jīng)元i的輸出;f(·)是激活函數(shù),可用于控制神經(jīng)元的狀態(tài)(興奮或抑制);wij是后一層的神經(jīng)元j和當(dāng)前層的神經(jīng)元i之間的連接權(quán)重;xj表示上一層神經(jīng)元j的輸出值;bi是神經(jīng)元i的偏差.
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程包括兩個(gè)階段:信號(hào)的前饋傳輸和誤差的反向傳播[40-41].在第一階段,信號(hào)從輸入層傳遞到隱藏層或輸出層.在第二階段,將從預(yù)測(cè)值和實(shí)際值計(jì)算出的誤差信號(hào)傳播回輸入層,并更新輸入層中神經(jīng)元之間的連接權(quán)重和偏差.最后,需要一個(gè)具有濾波器功能的傳遞函數(shù)來激活該單元并產(chǎn)生輸出.人工神經(jīng)網(wǎng)絡(luò)中的常用激活函數(shù)包括Sigmoid 函數(shù),tanh 函數(shù)和ReLU 函數(shù).為了節(jié)省模型優(yōu)化時(shí)間,本文采用文獻(xiàn)報(bào)道中普遍適用的ReLU函數(shù)作為產(chǎn)量預(yù)測(cè)的激活函數(shù)[42-44].
本文以國(guó)內(nèi)某特低滲透油田為例,盡可能地搜集了該油田242 口壓裂水平井的6 個(gè)月累積產(chǎn)油量及影響產(chǎn)量的地質(zhì)?油藏?工藝變量,主要包括孔隙度(φ),滲透率(K),含水飽和度(Sw),泥質(zhì)含量(Sh),電阻率(R),射孔厚度(hperf),有效厚度(h),井底流壓(pwf),生產(chǎn)壓差(ΔP),油藏位置(邊部),入地總液量(Vfrac)及六個(gè)月的平均產(chǎn)量(Q6?m).為了準(zhǔn)確評(píng)估壓后效果及訓(xùn)練模型,選取6 個(gè)月平均月產(chǎn)量作為預(yù)測(cè)指標(biāo),通過函數(shù)插值填補(bǔ)缺失值、降噪、類別數(shù)據(jù)獨(dú)熱編碼等技術(shù)手段對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,獲得了12 個(gè)變量的統(tǒng)計(jì)分析結(jié)果,主要包括均值(mean),標(biāo)準(zhǔn)差(std),最小值(min),第一四分位數(shù)(25%),中位數(shù)(50%),第三四分位數(shù)(75%),最大值(max),具體結(jié)果如表1 所示.
表1 產(chǎn)量數(shù)據(jù)庫(kù)統(tǒng)計(jì)分析Table 1 Statistical analysis of oilfield database
針對(duì)油田所搜集到的242 口壓裂水平井?dāng)?shù)據(jù)的產(chǎn)量預(yù)測(cè)問題,本文的工作流程如下.
(1)首先通過填補(bǔ)缺失值,類別數(shù)據(jù)(如油藏位置)進(jìn)行獨(dú)熱編碼進(jìn)行數(shù)據(jù)預(yù)處理;
(2)為了獲得較為可靠的預(yù)測(cè)結(jié)果,在數(shù)據(jù)預(yù)處理的基礎(chǔ)上先對(duì)數(shù)化處理再進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,獲得符合高斯分布特征的無量綱數(shù)據(jù),形成產(chǎn)量預(yù)測(cè)數(shù)據(jù)庫(kù);
(3)為了對(duì)比驗(yàn)證三種代理模型的預(yù)測(cè)效果,利用隨機(jī)劈分方法將數(shù)據(jù)切分為訓(xùn)練集和測(cè)試集;
(4)經(jīng)過模型訓(xùn)練后的數(shù)據(jù),為了減少模型訓(xùn)練過程中預(yù)測(cè)結(jié)果的差異性,采用十折交叉驗(yàn)證方法評(píng)估三種代理模型(隨機(jī)森林、XGBoost、人工神經(jīng)網(wǎng)絡(luò))的預(yù)測(cè)效果.
(5)為了評(píng)估小樣本數(shù)據(jù)下數(shù)據(jù)預(yù)處理對(duì)模型預(yù)測(cè)效果的影響,考慮經(jīng)過數(shù)據(jù)對(duì)數(shù)化處理和不經(jīng)過對(duì)數(shù)化處理兩種條件下評(píng)估代理模型的預(yù)測(cè)效果.
數(shù)據(jù)預(yù)處理是獲得準(zhǔn)確可靠的預(yù)測(cè)結(jié)果的關(guān)鍵,針對(duì)本案例中偏度較大的變量,本文采用對(duì)數(shù)函數(shù)進(jìn)行轉(zhuǎn)化,利用核密度估計(jì)方法獲取轉(zhuǎn)換前后的概率密度分布
式中,f為概率密度函數(shù),K(·)為核函數(shù)(非負(fù)、積分為1,符合概率密度性質(zhì),并且均值為0),h>0 為一個(gè)平滑參數(shù),稱作帶寬.結(jié)果表明,對(duì)數(shù)化處理后的數(shù)據(jù)更加服從高斯分布(見圖4,圖5 所示).
圖4 轉(zhuǎn)換前數(shù)據(jù)分布(以孔隙度為例)Fig.4 Data distribution before transformation(taking porosity as an example)
圖5 轉(zhuǎn)換后數(shù)據(jù)分布(以孔隙度為例)Fig.5 Data distribution after transformation (taking porosity as an example)
為了消除不同變量之間的量綱影響,采用基于原始數(shù)據(jù)的均值和標(biāo)準(zhǔn)差進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,其表達(dá)為
式中,x表示原始數(shù)據(jù),μ表示數(shù)據(jù)的均值,σ表示數(shù)據(jù)的標(biāo)準(zhǔn)差,x*為標(biāo)準(zhǔn)化后的數(shù)據(jù).
經(jīng)過預(yù)處理的數(shù)據(jù)可輸入到機(jī)器學(xué)習(xí)算法中進(jìn)行訓(xùn)練,為了評(píng)估模型效果并對(duì)比分析隨機(jī)森林、XGBoost、人工神經(jīng)網(wǎng)絡(luò)之間的差異,本文采用隨機(jī)劈分方法將產(chǎn)量預(yù)測(cè)數(shù)據(jù)庫(kù)劃分為訓(xùn)練集(70% 數(shù)據(jù)集)和測(cè)試集(30% 數(shù)據(jù)集),通過十折交叉驗(yàn)證的均方誤差和準(zhǔn)確率來評(píng)估模型的預(yù)測(cè)效果.
正如前文所述,本文采用適用于小樣本的集成學(xué)習(xí)模型(隨機(jī)森林及XGBoost)進(jìn)行訓(xùn)練,并與人工神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比.為了獲取高效準(zhǔn)確的優(yōu)化模型,通過十折交叉驗(yàn)證對(duì)滲流代理模型進(jìn)行超參數(shù)優(yōu)化,優(yōu)化后的模型結(jié)構(gòu)如表2 所示.
表2 模型參數(shù)優(yōu)化結(jié)果Table 2 Model parameter optimization results
產(chǎn)量主控因素分析及排序是油井性能評(píng)估的一個(gè)重要步驟,本文基于數(shù)據(jù)建模技術(shù)及前文建立的產(chǎn)量模型數(shù)據(jù)庫(kù),采用皮爾遜相關(guān)系數(shù)分析各個(gè)變量對(duì)6 個(gè)月累積產(chǎn)油量的影響.皮爾遜相關(guān)系數(shù)能定量分析不同自變量與因變量之間的相關(guān)程度并排序,其值越接近1,相關(guān)性越強(qiáng);其值越接近0,相關(guān)性越弱.皮爾遜相關(guān)系數(shù)的表達(dá)式為
式中, ρX,Y表示變量X,Y之間的相關(guān)系數(shù);c ov(X,Y),σX, σY分別表示協(xié)方差、變量X的標(biāo)準(zhǔn)差、變量Y的標(biāo)準(zhǔn)差;μX, μY分別表示變量X、變量Y的均值.通過數(shù)據(jù)建模分析得到的皮爾遜相關(guān)系數(shù)矩陣如圖6 所示.從圖中可以看到,該特低滲透油藏,影響6 個(gè)月累積產(chǎn)油量前四個(gè)因素分別為入地液量,儲(chǔ)層厚度,生產(chǎn)壓差,油藏有無邊水.
圖6 產(chǎn)量影響因素分析Fig.6 Analysis of factors affecting oil production
此外,為了說明數(shù)據(jù)預(yù)處理步驟在數(shù)據(jù)驅(qū)動(dòng)預(yù)測(cè)產(chǎn)量過程中的重要性,本文對(duì)比了三種滲流代理模型在經(jīng)過數(shù)據(jù)預(yù)處理(標(biāo)準(zhǔn)化)和不經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化的兩種場(chǎng)景下的預(yù)測(cè)效果,如圖7~圖9 所示.
從圖7~圖9 可以看出,未經(jīng)過標(biāo)準(zhǔn)化的數(shù)據(jù)直接輸入到模型中會(huì)產(chǎn)量較大誤差,嚴(yán)重影響模型預(yù)測(cè)效果.對(duì)比三種滲流代理模型來看,數(shù)據(jù)標(biāo)準(zhǔn)化對(duì)神經(jīng)網(wǎng)絡(luò)模型影響最大;而對(duì)于集成學(xué)習(xí)模型,未進(jìn)行標(biāo)準(zhǔn)化也能取得一定的效果.因此,利用滲流代理模型進(jìn)行回歸預(yù)測(cè)時(shí),數(shù)據(jù)標(biāo)準(zhǔn)化是模型取得較高準(zhǔn)確率的關(guān)鍵,尤其是對(duì)于神經(jīng)網(wǎng)絡(luò),未經(jīng)數(shù)據(jù)標(biāo)準(zhǔn)化的數(shù)據(jù)會(huì)模型會(huì)嚴(yán)重影響產(chǎn)量預(yù)測(cè)效果.
圖7 隨機(jī)森林模型標(biāo)準(zhǔn)化對(duì)比Fig.7 Standardization comparison of random forest models
圖8 XGBoost 模型標(biāo)準(zhǔn)化對(duì)比Fig.8 Standardization comparison of XGBoost models
圖9 人工神經(jīng)網(wǎng)絡(luò)模型標(biāo)準(zhǔn)化對(duì)比Fig.9 Standardization comparison of artificial neural network models
將隨機(jī)劈分的產(chǎn)量預(yù)測(cè)數(shù)據(jù)庫(kù)分別輸入到優(yōu)化的隨機(jī)森林、XGBoost 回歸樹及人工神經(jīng)網(wǎng)絡(luò)模型中,通過指數(shù)化及反歸一化可以得到產(chǎn)量模型的預(yù)測(cè)結(jié)果.所得訓(xùn)練集,測(cè)試集及整個(gè)數(shù)據(jù)集的均方誤差及準(zhǔn)確率結(jié)果如表3 所示.為了更加直觀對(duì)比三種機(jī)器學(xué)習(xí)算法的預(yù)測(cè)性能,繪制了目標(biāo)值與模型值的交會(huì)圖如圖10~圖12 所示.
圖10 隨機(jī)森林目標(biāo)值與預(yù)測(cè)值交會(huì)圖Fig.10 Cross plot of target and predicted values of random forest
圖11 XGBoost 目標(biāo)值與預(yù)測(cè)值交會(huì)圖Fig.11 Cross plot of target and predicted values of XGBoost
圖12 人工神經(jīng)網(wǎng)絡(luò)目標(biāo)值與預(yù)測(cè)值交會(huì)圖Fig.12 Cross plot of target and predicted values of artificial neural networks
表3 滲流代理模型結(jié)果對(duì)比Table 3 Comparison of results of seepage proxy model
結(jié)合兩種模型評(píng)估指標(biāo)(均方誤差,Ems、準(zhǔn)確率,R2)來看,總體而言三種滲流代理模型均能取得較好的預(yù)測(cè)效果(R2>0.8,Ems<0.2),這說明滲流代理模型能被用來挖掘多變量油田數(shù)據(jù)之間復(fù)雜非線性關(guān)系.從測(cè)試集的均方誤差結(jié)果可以看出,人工神經(jīng)網(wǎng)絡(luò)針對(duì)小樣本數(shù)據(jù)的預(yù)測(cè)的過擬合現(xiàn)象十分嚴(yán)重(Ems= 0.45,R2= 0.54),不太適合小樣本數(shù)據(jù)的預(yù)測(cè),而隨機(jī)森林算法和極限梯度提升數(shù)的預(yù)測(cè)效果明顯優(yōu)于神經(jīng)網(wǎng)絡(luò),進(jìn)一步說明集成學(xué)習(xí)算法在處理小樣本數(shù)據(jù)時(shí)表現(xiàn)出來的優(yōu)越性,對(duì)比隨機(jī)森林和極限梯度提升樹來看,隨機(jī)森林在測(cè)試集上略低于極限梯度提升樹,而在總體預(yù)測(cè)結(jié)果來看,隨機(jī)森林算法仍具有明顯的優(yōu)勢(shì),因此,隨機(jī)森林算法能較好地用于小樣本多變量的油田數(shù)據(jù)分析.
本文針對(duì)地下多孔介質(zhì)滲流過程中存在的非線性、多尺度、多物理場(chǎng)等耦合滲流機(jī)理難以準(zhǔn)確刻畫與表征,考慮多機(jī)理耦合的滲流模型求解難度大,計(jì)算效率低等滲流力學(xué)發(fā)展面臨的瓶頸問題,探索了一種利用大數(shù)據(jù)分析方法建立滲流代理模型預(yù)測(cè)石油產(chǎn)量的方法與流程,所得結(jié)論如下.
(1)本文建立的三種滲流代理模型不需要建立復(fù)雜的物理模型及假設(shè)便能挖掘油田數(shù)據(jù)之間復(fù)雜的非線性關(guān)系,高效準(zhǔn)確地預(yù)測(cè)產(chǎn)量,兼顧計(jì)算效率的同時(shí)能實(shí)現(xiàn)產(chǎn)量的準(zhǔn)確預(yù)測(cè).
(2)滲流代理模型預(yù)測(cè)石油產(chǎn)量包括油田數(shù)據(jù)收集、數(shù)據(jù)清洗(缺失值填充、數(shù)據(jù)標(biāo)準(zhǔn)化與對(duì)數(shù)化等)、產(chǎn)量預(yù)測(cè)數(shù)據(jù)庫(kù)建立、代理模型優(yōu)化、產(chǎn)量預(yù)測(cè)等步驟.針對(duì)油田開發(fā)過程中的多變量小樣本問題,在模型開始訓(xùn)練前,數(shù)據(jù)對(duì)數(shù)化及歸一化處理能明顯提升模型的預(yù)測(cè)效果.
(3)代理模型能快速分析多變量之間的相關(guān)性,抽提影響產(chǎn)量的主控因素.相比于神經(jīng)網(wǎng)絡(luò)模型,隨機(jī)森林具有更好的泛化性能,能更好地適用于小樣本多變量的產(chǎn)量預(yù)測(cè)問題.