董萃蓮, 董海峰, 閆紅丹
(西安石油大學(xué) 計(jì)算機(jī)學(xué)院, 西安710065 )
鉆井液是為了保證安全、快速、優(yōu)質(zhì)鉆井工程的關(guān)鍵性因素,不同的地質(zhì)環(huán)境可能對(duì)鉆井液的選擇有所不同,以往通過石油工程師在一定的實(shí)驗(yàn)分析下,通過經(jīng)驗(yàn)等方式得出鉆井液種類[1]。 鉆井液種類繁多,形成了各種各樣的體系。 由于地質(zhì)環(huán)境的復(fù)雜性往往會(huì)給石油工程師的選擇帶來各種各樣的問題,為了避免石油工程師在鉆井液種類選擇時(shí)所遇到的種種問題,利用機(jī)器學(xué)習(xí)來對(duì)此問題進(jìn)行探討。
機(jī)器學(xué)習(xí)近年來發(fā)展迅猛,越來越多的算法被學(xué)者們應(yīng)用于各個(gè)領(lǐng)域中,比如:人臉識(shí)別、語(yǔ)音識(shí)別、天氣預(yù)測(cè)、股票預(yù)測(cè)、房?jī)r(jià)預(yù)測(cè)等等。 而在預(yù)測(cè)優(yōu)選領(lǐng)域,BP 神經(jīng)網(wǎng)絡(luò)模型也越來越成熟,被廣泛應(yīng)用于各種預(yù)測(cè)中。 但在實(shí)際應(yīng)用中,由于各種問題所需要訓(xùn)練的模型輸入變量有所不同,有些研究對(duì)象的輸入特征變量可能比較多或者該類型問題比較復(fù)雜等,如果還單一性的采用BP 神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行預(yù)測(cè)研究,可能會(huì)出現(xiàn)某些不可控的問題,同時(shí)也會(huì)增加模型的預(yù)測(cè)難度、降低預(yù)測(cè)準(zhǔn)確性,使得模型預(yù)測(cè)性能大大地降低[2]。 因此,需要對(duì)此類問題進(jìn)行前期的相應(yīng)處理,借用組合模型來避免此類問題的發(fā)生。
鉆井在探測(cè)與開掘石油、天然氣資源時(shí)是至關(guān)重要的環(huán)節(jié),同時(shí)也是勘測(cè)和開發(fā)石油天然氣的一個(gè)重要手段。 鉆井液在安全、快速和優(yōu)質(zhì)鉆井中起著重要的作用。 由于油氣層數(shù)據(jù)信息非常復(fù)雜,不確定性較高,某些鉆井液對(duì)地質(zhì)層參數(shù)的影響還不能用精確數(shù)值來量化,具有一定的模糊性和非線性。通常情況下,石油工程師會(huì)在一定實(shí)驗(yàn)分析的基礎(chǔ)上,采用經(jīng)驗(yàn)公式等方法來進(jìn)行分析解釋,效率低、預(yù)測(cè)結(jié)果可靠性誤差大。 為了避免這種方法存在的缺陷問題,通過之前選擇鉆井液體系的歷史數(shù)據(jù)信息進(jìn)行分析,引入機(jī)器學(xué)習(xí)的方法,來構(gòu)建鉆井液體系優(yōu)選的模型,從而在較少和一定模糊數(shù)據(jù)的情況下完成鉆井液體系的優(yōu)選。
在對(duì)鉆井液體系進(jìn)行優(yōu)選時(shí),不僅要考慮保護(hù)儲(chǔ)集層,還要考慮地質(zhì)層、工程要求、環(huán)保等各方面的因[3]。 主要考慮這些影響因素:井別、井眼最高溫度、最高地層孔隙壓力、井斜角、儲(chǔ)層孔隙平均半徑、儲(chǔ)層水敏性(水敏)、儲(chǔ)層鹽敏性(鹽敏)、儲(chǔ)層堿敏性(堿敏)、儲(chǔ)層巖石潤(rùn)濕性、儲(chǔ)層PH 值、井眼鹽層及鹽水層狀況(鹽侵度)、井眼石膏層及水泥層狀況、地層粘土含量、地層粘土膨脹率、環(huán)境類別、鈣離子濃度,利用以往數(shù)據(jù)集來作為訓(xùn)練集,訓(xùn)練確定優(yōu)選模型來進(jìn)行后續(xù)優(yōu)選,輸入上述16 種特征參數(shù),通過訓(xùn)練好的優(yōu)選模型得出最終的相應(yīng)優(yōu)選鉆井液體系種類。 從而達(dá)到解決鉆井液優(yōu)選的問題。
由于鉆井液體系優(yōu)選的參數(shù)達(dá)到16 個(gè),考慮到BP 神經(jīng)網(wǎng)絡(luò)優(yōu)選模型高維輸入?yún)?shù)可能使得優(yōu)選模型的規(guī)模過于龐大,引起訓(xùn)練效果低下、準(zhǔn)確度低、訓(xùn)練時(shí)長(zhǎng)劇增等問題。 故考慮對(duì)其先進(jìn)行前期的處理,分析以下3 種方法來避免此種問題的發(fā)生。
主成分分析主要通過降維的思想,將原始的特征集,通過其矩陣之間的相關(guān)關(guān)系找出各個(gè)特征不相關(guān)的、可代表所有特征的、比原始特征少的特征項(xiàng)[4-5]。 從而達(dá)到用少數(shù)特征項(xiàng)全權(quán)代表全體原始特征項(xiàng)的目的。
在本文鉆井液體系的優(yōu)選中可構(gòu)建模型為:假設(shè)有x 個(gè)樣本,每個(gè)樣本有16 個(gè)特征項(xiàng),分別為CS1,CS2,CS3,…,CS16,則原始特征項(xiàng)矩陣為(1):
由上特征項(xiàng)矩陣,可得到該體系綜合特征項(xiàng)線性組合。
線性組合式中的組合系數(shù)A 滿足該項(xiàng)組合系數(shù)平方和為1。
主成分分析算法的具體步驟如下:
假如有x 條數(shù)據(jù),有16 個(gè)特征項(xiàng)
(1)將原始數(shù)據(jù)集組成x 行16 列的矩陣CS;
(2)將CS 的每一列(即一個(gè)特征項(xiàng)屬性) 進(jìn)行均值化操作(在此采用零均值化),也就是減去該列的平均值;
(3)計(jì)算出協(xié)方差矩陣;
(4)計(jì)算出協(xié)方差矩陣的各個(gè)特征值及相對(duì)應(yīng)的特征向量R;
(5)把特征向量R 按照相對(duì)應(yīng)的特征值的大小順序由上至下組成矩陣,通過實(shí)驗(yàn)觀察選取合適的前M 項(xiàng),組成新矩陣CSS;
(6) CSS 即為降維處理后的數(shù)據(jù)集。
奇異值分解是通過數(shù)學(xué)中矩陣的因式分解,通過求出奇異值個(gè)數(shù)和奇異值的同時(shí),得到一個(gè)重新排列的,可用于代替原始數(shù)據(jù)矩陣的相似矩陣,將該數(shù)據(jù)集的奇異值按大小順序排列,得出其重要程度表,從而根據(jù)實(shí)際需求而確定留下重要程度大的特征項(xiàng),舍去不重要的特征參數(shù),從而達(dá)到減少原始數(shù)據(jù)集項(xiàng)的目的,找出原始數(shù)據(jù)集中的主要影響項(xiàng)[9~10]。
奇異值分解算法具體步驟如下:
(1)獲取矩陣CS(即需要降維的原始數(shù)據(jù)集);
(2) 計(jì)算出CSTCS 和CS CST;
(3)計(jì)算出CSTCS 和CS CST的特征向量λi與λj,vi與ui;
(4) 依據(jù)原始正交基映射后還是正交基的性質(zhì),得出CSvi= σiui,由此可求出奇異值σi;
(5) 根據(jù)CS = UΣVt,可以得到CS 的奇異值分解,UΣ 即為所求的數(shù)據(jù)集;
(6)根據(jù)奇異值的大小,通過實(shí)驗(yàn)觀察,確定需要留下的奇異值個(gè)數(shù),即可得到相應(yīng)的降維數(shù)據(jù)集。
灰色關(guān)聯(lián)度分析法是通過確定性數(shù)據(jù)集列(即結(jié)果)和若干個(gè)比較數(shù)據(jù)列(即特征參數(shù)項(xiàng))的幾何形狀的相似程度來決斷它們之間的緊密關(guān)系,從而找出它們之間的關(guān)聯(lián)程度,該方法一般用于分析、研究各個(gè)特征因素對(duì)結(jié)果的影響程度大小,在此將其應(yīng)用于尋找16 個(gè)特征參數(shù)影響鉆井液體系選擇結(jié)果的影響程度之中,從而確定16 個(gè)特征參數(shù)中最重要且最終保留,用于進(jìn)行后續(xù)訓(xùn)練的特征參數(shù)[13~14]。
灰色關(guān)聯(lián)度分析算法步驟如下:
(1)確定分析數(shù)列:確定反映鉆井液體系優(yōu)選的參考數(shù)列和影響鉆井液體系選擇的比較數(shù)列。
①參考數(shù)列(即為鉆井液選擇結(jié)果項(xiàng));
②比較數(shù)列(即為16 個(gè)特征參數(shù)項(xiàng))
(2)對(duì)變量進(jìn)行無量綱化操作, 通過對(duì)比較數(shù)列進(jìn)行均值化處理,達(dá)到無量綱化的目的:
(3)根據(jù)公式(2)計(jì)算出關(guān)聯(lián)系數(shù)。
(5)對(duì)關(guān)聯(lián)度R 進(jìn)行排序,依據(jù)排序大小找出對(duì)應(yīng)的重要項(xiàng),確定留下多少項(xiàng)特征參數(shù)。
BP 神經(jīng)網(wǎng)絡(luò)的主要思想是在輸入歷史數(shù)據(jù)集樣本之后,用反向傳播的算法思想對(duì)BP 神經(jīng)網(wǎng)絡(luò)的權(quán)值和偏差進(jìn)行反復(fù)多次性的調(diào)整訓(xùn)練[15],最終使得到的向量同用戶希望的向量盡可能的接近,當(dāng)學(xué)習(xí)模型輸出的誤差小于事先指定的誤差時(shí),則訓(xùn)練結(jié)束,保存此時(shí)的權(quán)值和偏差值,以備后續(xù)的訓(xùn)練學(xué)習(xí)使用[16]。
神經(jīng)網(wǎng)絡(luò)模型主要分為3 部分:輸入層、隱含層和輸出層。 在此處使用的神經(jīng)網(wǎng)絡(luò)模型為16 個(gè)輸入節(jié)點(diǎn),1 個(gè)輸出結(jié)點(diǎn),隱含層借用經(jīng)驗(yàn)公式(5)來確定,N 為輸入神經(jīng)元的個(gè)數(shù),M 為輸出層神經(jīng)元的個(gè)數(shù),A 為[1,10] 之間的常數(shù)。
BP 神經(jīng)網(wǎng)絡(luò)優(yōu)選算法的主要步驟如下:(算法分為兩大主干部分)
(1)輸入信號(hào)的前向傳播,輸入數(shù)據(jù)通過輸入層傳至隱含層,最后到達(dá)輸出層。
(2)誤差反向傳播,從輸出層傳至隱含層,在從隱含層傳至輸入層,依次調(diào)整隱含層至輸出層的權(quán)重和偏置量,輸入層至隱含層的權(quán)重和偏置量。
對(duì)于鉆井液體系優(yōu)選,主要采用如下算法模型思維圖所示方法進(jìn)行構(gòu)建模型,如圖1 所示。
圖1 算法模型思維圖Fig. 1 Algorithmic model mind map
對(duì)于鉆井液體系優(yōu)選的研究主要采用如算法模型思維圖所示的方式進(jìn)行優(yōu)選模型的構(gòu)建,采用3種方式,分別是主成分分析法+BP 神經(jīng)網(wǎng)絡(luò)優(yōu)選、奇異值分解法+BP 神經(jīng)網(wǎng)絡(luò)優(yōu)選以及灰色關(guān)聯(lián)度分析+BP 神經(jīng)網(wǎng)絡(luò)優(yōu)選。 具體的模型訓(xùn)練過程如下鉆井液體系優(yōu)選流程圖,如圖2 所示。
圖2 鉆井液體系優(yōu)選流程圖Fig. 2 Flow chart of drilling fluid system optimization
本文主要研究了如何將機(jī)器學(xué)習(xí)應(yīng)用于鉆井液體系優(yōu)選中,以解決石油工程師選取鉆井液時(shí)所遇到的問題,由于鉆井液的選擇涉及的影響因素頗多,故在此借用三種方法對(duì)歷史鉆井液體系數(shù)據(jù)集進(jìn)行處理,結(jié)合實(shí)驗(yàn)將數(shù)據(jù)集處理,得到最合適的結(jié)果,將處理后的數(shù)據(jù)集用作鉆井液體系優(yōu)選的訓(xùn)練集,從而解決了鉆井液優(yōu)選的問題。 經(jīng)實(shí)驗(yàn)證明,利用該方式進(jìn)行優(yōu)選可以提高訓(xùn)練的準(zhǔn)確度,減少優(yōu)選訓(xùn)練時(shí)間,減輕了石油工程師繁雜的工作量,同時(shí)為快速、安全、優(yōu)質(zhì)鉆井提供保障。