樊毅龍,馬先林,2,連建文
(1.西安石油大學(xué)石油工程學(xué)院,陜西西安 710065;2.陜西省油氣田特種增產(chǎn)技術(shù)重點(diǎn)實(shí)驗(yàn)室,陜西西安 710065;3.成都理工大學(xué),四川成都 610059)
隨著非常規(guī)油氣的勘探與開發(fā)[1],水力壓裂技術(shù)也取得了很大進(jìn)步,同時(shí)也遇到了一些困難和挑戰(zhàn)。在壓裂研究過程中影響壓裂效果的因素較多,其中包括地質(zhì)狀況、壓裂施工參數(shù)等因素。眾多參數(shù)與壓裂效果之間的關(guān)系復(fù)雜,傳統(tǒng)的數(shù)學(xué)方法和油藏?cái)?shù)值模擬方法[2-6],存在計(jì)算復(fù)雜、滲流機(jī)理單一、數(shù)據(jù)模擬運(yùn)行時(shí)間長、地質(zhì)模型的局限性大等問題。在壓裂施工和生產(chǎn)過程中產(chǎn)生了海量、多變、復(fù)雜的數(shù)據(jù),給研究者帶來諸多挑戰(zhàn)。
利用機(jī)器學(xué)習(xí)[7](Machine Learning)的方法直接對(duì)排量、支撐劑用量、平均砂比等現(xiàn)場施工參數(shù)進(jìn)行優(yōu)化設(shè)計(jì),并且在短時(shí)間內(nèi)完成優(yōu)化,使得壓裂效果達(dá)到最優(yōu)化,從而提高單井產(chǎn)能。但機(jī)器學(xué)習(xí)方法解決問題時(shí)對(duì)于數(shù)據(jù)質(zhì)量和數(shù)量要求較高。數(shù)據(jù)缺失問題難以避免,造成水力壓裂施工和生產(chǎn)數(shù)據(jù)缺失原因較多。為了改善數(shù)據(jù)質(zhì)量,必須采用合理的方法對(duì)缺失值填補(bǔ)[8-11],使得機(jī)器學(xué)習(xí)算法建立可靠的預(yù)測模型。本文利用R 語言環(huán)境對(duì)缺失值進(jìn)行了可視化分析,并比較了多種填補(bǔ)方法。
通過對(duì)收集到的原始數(shù)據(jù)進(jìn)行整理,從中篩選出與水力壓裂施工的相關(guān)數(shù)據(jù)。對(duì)這些數(shù)據(jù)進(jìn)行初步統(tǒng)計(jì)發(fā)現(xiàn)蘇里格氣田東區(qū)壓裂直井產(chǎn)能影響因素可以分為地質(zhì)因素、壓裂施工因素和生產(chǎn)因素三大方面。
(1)地質(zhì)因素:主要包括頂深、孔隙度、視氣飽和度、基質(zhì)滲透率、泥質(zhì)含量、儲(chǔ)層有效厚度、破裂壓力、微裂縫、黏土礦物類型和含量、聲波時(shí)差、電阻率等儲(chǔ)層特征;儲(chǔ)層壓力、儲(chǔ)層溫度、地質(zhì)構(gòu)造、地應(yīng)力狀態(tài)等儲(chǔ)集狀態(tài)。
(2)壓裂施工因素:對(duì)儲(chǔ)層進(jìn)行壓裂施工可以改變儲(chǔ)層滲流特征和儲(chǔ)層原始物性,進(jìn)而影響單井產(chǎn)能和開采效果。壓裂施工因素包括射孔厚度、前置液、頂替液、混砂液、入地液量、陶粒用量、攜砂液、砂比、施工排量、施工壓力、累計(jì)排液量、返排率等。
(3)生產(chǎn)因素:生產(chǎn)因素包括穩(wěn)定油壓、穩(wěn)定套壓、靜壓、流壓。
用無阻流量來衡量壓裂井的產(chǎn)能。本文中篩選統(tǒng)計(jì)的影響壓裂直井產(chǎn)能的因素共有24 個(gè),并自定義了影響因素相應(yīng)的名稱(見表1,表2)。
表1 影響因素的篩選Tab.1 Screening of influencing factors
表2 數(shù)據(jù)的變量名稱Tab.2 Variable names of data
利用R 語言對(duì)800 口井24 個(gè)影響因素原始數(shù)據(jù)集的缺失值進(jìn)行可視化分析,得知數(shù)據(jù)集共有19 200個(gè)數(shù)據(jù)點(diǎn)。其中有667 口井擁有完整數(shù)據(jù)集,133 口井有缺失數(shù)據(jù)點(diǎn),共計(jì)250 個(gè)數(shù)據(jù)點(diǎn)缺失,缺失值在總數(shù)據(jù)集約占1.3 %,缺失占比在可控范圍,即可以通過一些處理方法進(jìn)行缺失值填補(bǔ)(見圖1)。圖1 的第一行表示有667 口井的24 個(gè)因素沒有任何缺失,即667 口井擁有完整的數(shù)據(jù)集;第二行表示只缺失泥質(zhì)含量(SH)的井有48 口;第四行表示泥質(zhì)含量(SH)和破裂壓力(DL)同時(shí)缺失的井有7 口;最后一列表示整個(gè)數(shù)據(jù)集中缺失最多的因素泥質(zhì)含量(SH)共缺失57 個(gè)數(shù)據(jù)點(diǎn);其余行、列以此類推。
如果缺失數(shù)據(jù)的數(shù)量相對(duì)于整個(gè)數(shù)據(jù)集占比非常小,則認(rèn)為缺失值在可控范圍內(nèi),即可對(duì)其缺失填補(bǔ)。但這只是對(duì)于整個(gè)數(shù)據(jù)集而言,若數(shù)據(jù)集樣本的某一特性或示例數(shù)據(jù)丟失過多,則應(yīng)該考慮是否刪除該特性或示例,而不是盲目填補(bǔ)。通常,對(duì)于大型數(shù)據(jù)集缺失值數(shù)量的安全最大閾值是總閾值的5 %,本文使用數(shù)據(jù)缺失約為1.3 %。此外,如果某個(gè)特性或示例的數(shù)據(jù)丟失超過5 %,可能將該特性或示例刪除。因此,填補(bǔ)缺失值前用R 語言的一個(gè)簡單函數(shù)來檢查丟失超過5 %數(shù)據(jù)的特性或示例??芍s84 %的井沒有缺失任何數(shù)據(jù)信息。單個(gè)因素?cái)?shù)據(jù)缺失最多的是泥質(zhì)含量(SH)約占該因素?cái)?shù)據(jù)量的7 %,缺失值占比超過5 %選擇刪除泥質(zhì)含量(SH)。其余的8 個(gè)缺失值占比都低于5 %,即可以填補(bǔ)缺失值(見圖2)。
圖1 缺失值分布圖Fig.1 Distribution of missing values
相關(guān)性分析是使用多元回歸方法時(shí)最為重要的數(shù)據(jù)分析。此處相關(guān)性分析的目的是明確與無阻流量較為顯著的影響因素,對(duì)缺失值填補(bǔ)后的數(shù)據(jù)集建立多元線性回歸模型,并比較三種填補(bǔ)方法的各個(gè)參數(shù)及其標(biāo)準(zhǔn)誤差。使用R 語言中pscyh 軟件包繪制相關(guān)散點(diǎn)矩陣圖(見圖3~圖5)。圖中相關(guān)系數(shù)位于對(duì)角線上方,處于對(duì)角線位置上的則是各因素的分布直方圖。處于對(duì)角線下方的每個(gè)散點(diǎn)圖中都有著一個(gè)近似橢圓形的對(duì)象,稱為相關(guān)橢圓,相關(guān)橢圓從另一個(gè)角度給出了一種可視化信息即兩個(gè)變量之間是怎樣密切相關(guān)的。x、y 軸所代表的變量的均值則確定了橢圓的中心點(diǎn)。相關(guān)橢圓的形狀表現(xiàn)出了兩變量之間的相關(guān)性,橢圓的形狀越接近圓代表著弱相關(guān),相反橢圓被拉伸的越橢,相關(guān)性越強(qiáng)。另外可以清楚地看到散點(diǎn)圖之間還有一條曲線,這條曲線被稱為局部回歸平滑,被用來表示x、y 軸對(duì)應(yīng)變量之間的關(guān)系。
圖2 缺失值占比分布圖Fig.2 Distribution of missing values
從圖3 中可以看出,與無阻流量線性相關(guān)性最強(qiáng)的地質(zhì)因素是儲(chǔ)層有效厚度(HH),頂深(DVT)次之,其余因素線性相關(guān)性較弱。
從圖4 可以看出,與無阻流量線性相關(guān)性較強(qiáng)的壓裂施工因素較多,在這里只選取兩個(gè)較強(qiáng)的因素分析,即選取射孔厚度(PFTH)和入地總液量(TO)。
圖3 地質(zhì)因素相關(guān)系數(shù)矩陣Fig.3 Correlation coefficient matrix of geological factors
圖4 壓裂施工因素相關(guān)系數(shù)矩陣Fig.4 Correlation coefficient matrix of fracturing construction factors
圖5 生產(chǎn)因素相關(guān)系數(shù)矩陣Fig.5 Correlation coefficient matrix of production factors
從圖5 可以看出,與無阻流量線性相關(guān)性較強(qiáng)的生產(chǎn)因素是流壓(FF)和穩(wěn)定套壓(PC),其余生產(chǎn)因素對(duì)無阻流量的影響主要是非線性。
從圖3、圖4、圖5 可以總結(jié)得出:對(duì)壓裂直井無阻流量呈線性影響較強(qiáng)因素有儲(chǔ)層有效厚度(HH)、頂深(DVT)、射孔厚度(PFTH)、入地總液量(TO)以及相關(guān)生產(chǎn)因素流壓(FF)和穩(wěn)定套壓(PC)。其余因素的線性相關(guān)性較弱。因此,在下文缺失值填補(bǔ)數(shù)據(jù)集對(duì)比時(shí),選擇以上六大因素與無阻流量建立多元線性回歸模型,比較各自對(duì)應(yīng)的參數(shù)和標(biāo)準(zhǔn)誤差。
首先,構(gòu)造一個(gè)完整的數(shù)據(jù)集,即利用667 口井完整的數(shù)據(jù)集。根據(jù)線性相關(guān)分析得到對(duì)無阻流量影響的六大因素,建立完整數(shù)據(jù)集相應(yīng)的多元回歸模型,得到模型的各參數(shù)及其標(biāo)準(zhǔn)誤差作為比較的標(biāo)準(zhǔn),分別與均值填補(bǔ)、K 最近鄰填補(bǔ)和多重填補(bǔ)后的數(shù)據(jù)集回歸模型參數(shù)和標(biāo)準(zhǔn)誤差比較[12,13]。運(yùn)行R 語言后得到結(jié)果(見表3)。
造成壓裂生產(chǎn)數(shù)據(jù)缺失的原因有很多,不完整的數(shù)據(jù)給數(shù)據(jù)分析帶來了很多不便。在缺失問題方面經(jīng)過多年的研究,發(fā)現(xiàn)了很多的缺失處理方法包括刪除法、均值填補(bǔ)法、期望最大化法、回歸填補(bǔ)法、K 最近鄰填補(bǔ)法和多重填補(bǔ)法等[14-16]。為了提高數(shù)據(jù)挖掘的質(zhì)量和分析結(jié)果的穩(wěn)健性,根據(jù)缺失的機(jī)制和模式采用適當(dāng)?shù)姆椒ㄌ钛a(bǔ)缺失問題。換句話說,如何才能選擇最優(yōu)的填補(bǔ)方法是非常關(guān)鍵的一步。本文采用以下三種填補(bǔ)方法對(duì)比:
(1)均值填補(bǔ)法(Mean Imputation)。該方法是用數(shù)據(jù)集中觀測值的平均值填補(bǔ)缺失。均值填補(bǔ)一般分為條件均值和非條件均值。條件均值填補(bǔ)是依靠輔助信息,對(duì)整個(gè)數(shù)據(jù)集進(jìn)行分層,使數(shù)據(jù)集各層的特性接近相似,然后利用每層對(duì)應(yīng)的響應(yīng)填補(bǔ)缺失值。非條件均值填補(bǔ)是指對(duì)所有的缺失值,利用整個(gè)數(shù)據(jù)集觀測值的均值進(jìn)行填補(bǔ),即填補(bǔ)的缺失信息都是相同的。前者的填補(bǔ)效果好于后者。但是均值填補(bǔ)通常會(huì)使響應(yīng)值的方差和標(biāo)準(zhǔn)差變小。均值填補(bǔ)法簡單快捷,適合于簡單缺失的描述性研究。
表3 完整數(shù)據(jù)集各變量參數(shù)及其標(biāo)準(zhǔn)誤差Tab.3 Variable parameters and standard errors of the complete data set
(2)K 最近鄰填補(bǔ)法(K-Nearest Neighbor,KNN)。KNN 填補(bǔ)算法基本原理是基于歐氏距離計(jì)算K 個(gè)和它最近的觀測,在K 最近鄰案例中對(duì)距離進(jìn)行逆加權(quán)算出填補(bǔ)值,用該值來代替缺失值。只需要調(diào)用一次函數(shù)就可以對(duì)所有缺失值進(jìn)行插補(bǔ)是這種方法的優(yōu)勢所在。此外,該方法考慮到了缺失數(shù)據(jù)彼此之間的相關(guān)性,預(yù)測結(jié)果比較準(zhǔn)確;對(duì)數(shù)據(jù)的依賴度特別大,容錯(cuò)性太差。如果一兩個(gè)數(shù)據(jù)是錯(cuò)誤的,且在需要分類的數(shù)值旁邊,這樣就會(huì)直接導(dǎo)致預(yù)測數(shù)據(jù)的不準(zhǔn)確。
(3)多重填補(bǔ)法(Multiple Imputation,MI)。MI 的基本思想是源于貝葉斯估計(jì)。認(rèn)為缺失數(shù)據(jù)是隨機(jī)的,它的值是根據(jù)已觀測到的數(shù)據(jù),通過估計(jì)出需要填補(bǔ)的值。再使用不同的噪聲,形成多組可選填補(bǔ)值。通過某種選擇機(jī)制,選取最優(yōu)的填補(bǔ)方法。該方法不僅插補(bǔ)效果較好,且均方誤差和波動(dòng)性都是最??;但與其他填補(bǔ)方法相比MI 對(duì)數(shù)據(jù)集的分析過程相對(duì)更復(fù)雜,需要盡可能多的變量,且變量要有一定的重要性,以免喪失數(shù)據(jù)精度。
在R 語言分別對(duì)三種填補(bǔ)方法的數(shù)據(jù)集作多元線性回歸結(jié)果(見表4)。均值填補(bǔ)法填補(bǔ)完成的數(shù)據(jù)集經(jīng)過R 語言分析之后所得到常數(shù)項(xiàng)、變量系數(shù)的取值及標(biāo)準(zhǔn)誤差與完整數(shù)據(jù)集的常數(shù)項(xiàng)、變量系數(shù)的取值及標(biāo)準(zhǔn)誤差相比較是偏小的,但偏差不是很大。KNN填補(bǔ)效果與簡單的均值填補(bǔ)效果基本一樣。對(duì)于本文收集到的數(shù)據(jù)集類型和缺失占比,使用多重填補(bǔ)法填補(bǔ)的次數(shù)不同,得出的效果還是有一定差別的。通過表格數(shù)據(jù)對(duì)比,顯然多重填補(bǔ)效果最接近完整數(shù)據(jù)集,可以發(fā)現(xiàn)多重填補(bǔ)法填補(bǔ)3 次的效果最為理想,而使用多重填補(bǔ)法填5 次以上的常數(shù)項(xiàng)、變量系數(shù)的取值及標(biāo)準(zhǔn)誤差基本保持不變。
通過多元線性回歸分析比較得出結(jié)論:
(1)對(duì)于此數(shù)據(jù)集缺失類型和缺失率,三種填補(bǔ)方法都表現(xiàn)出較好的效果。相比之下多重填補(bǔ)得到的常數(shù)項(xiàng)、變量系數(shù)的取值及標(biāo)準(zhǔn)誤差與完整數(shù)據(jù)集的常數(shù)項(xiàng)、變量系數(shù)的取值及標(biāo)準(zhǔn)誤差最接近,所以最終選擇多重填補(bǔ)法。
(2)多重填補(bǔ)法作為較為流行的填補(bǔ)手段不一定適合每個(gè)缺失問題。相反,也不能直接淘汰最為簡單的均值填補(bǔ)法。對(duì)于不同數(shù)據(jù)集的缺失機(jī)制和缺失率,只有通過填補(bǔ)對(duì)比分析才能得知哪種方法填補(bǔ)效果最好。
表4 填補(bǔ)后各變量參數(shù)及其標(biāo)準(zhǔn)誤差Tab.4 Variable parameters and their standard errors after filling