李 博,王魯朝
(山東省第三地質(zhì)礦產(chǎn)勘查院,山東煙臺 264000)
隨著我國經(jīng)濟的快速發(fā)展,資源、環(huán)境等問題變得越來越突出,科學鉆探及礦產(chǎn)勘查等工作,都在持續(xù)不斷地向深部延伸以解決上述矛盾[1-2]。然而,在鉆探過程中,機械鉆探速度對施工工期和經(jīng)濟效率有巨大關(guān)系,因此有較多學者針對機械鉆探速度進行研究,取得了一些重要成果。早在1974 年,Bourgoyne 和Young(B&Y)建立了一個數(shù)值模型,將機械鉆速分析為八個因素的函數(shù),包括(F1)地層強度的影響,(F2)地層正常壓實的影響,(F3)地層欠壓實的影響,(F4)壓差的影響,(F5)鉆頭直徑和鉆頭重量的影響,(F6)轉(zhuǎn)速的影響,(F7)齒磨損的影響和(F8)鉆頭水力學的影響。B&Y模型已被用作提高鉆井效率的標準和可靠的方法[3-4]。然而,一些研究表明,由于缺乏多元回歸技術(shù),如回歸點數(shù)量的敏感性和多重共線性的存在,B&Y模型無法準確預測和模擬具有有意義常系數(shù)值的鉆井行為。國內(nèi)外傳統(tǒng)統(tǒng)計分析建立地層可鉆性模型的方法主要有dc指數(shù)模型法[5]、分形理論法[6-7]、測井參數(shù)計算法[8-12]和基于機械鉆速的地層可鉆性分級法[13-15]。然而,傳統(tǒng)統(tǒng)計建模分析方法雖然考慮了較多因素的影響,但是在復雜地質(zhì)鉆進過程中由于各因素之間經(jīng)常存在強耦合現(xiàn)象,導致其模型預測具有較大誤差。針對復雜地質(zhì)鉆進過程中存在的不確定性、時變時滯和各變量之間強耦合等特性,運用機器學習方法是解決復雜地質(zhì)鉆進過程中進行機械鉆速預測的有效途徑。然而,針對碳酸鹽巖地質(zhì)基于機器學習方法預測機械鉆速方面仍鮮有研究和報道。
本文建立了碳酸鹽巖鉆井機械鉆速的支持向量回歸(SVR)、BP人工神經(jīng)網(wǎng)絡(luò)(BPANN)和遺傳算法優(yōu)化BP 人工神經(jīng)網(wǎng)絡(luò)(GA-BPANN)三種機器學習預測模型,以期得到一種快速便捷的機械鉆速預測方法,為碳酸鹽巖地質(zhì)鉆井作業(yè)決策提供依據(jù)。
支持向量回歸在高維空間中構(gòu)造超平面或超平面集合,將有限維空間映射到維數(shù)更高的空間中,從而可以同時最小化經(jīng)驗誤差和最大化幾何邊緣區(qū),直觀的來說,分類邊界離最近的訓練數(shù)據(jù)點越遠越好,因為這樣可以縮小泛化誤差[16]。值得注意的是在間隔邊界之內(nèi)的數(shù)據(jù)并不進行誤差計算,即認為只有在間隔邊界之外的數(shù)據(jù)才進行誤差計算,在找到一個最優(yōu)超平面的基礎(chǔ)上,進一步確定一個在最優(yōu)超平面上下范圍內(nèi)的空間,這個空間即為支持向量回歸的結(jié)果[16]。
傳統(tǒng)BPANN神經(jīng)網(wǎng)絡(luò)在進行模型訓練時,其初始權(quán)重和偏置通常隨機產(chǎn)生,但是如果初始權(quán)重和偏置選取不合理,極易導致神經(jīng)網(wǎng)絡(luò)模型的學習速率過慢而難以達到收斂,甚至會陷入局部最優(yōu)的情況。
在確定BPANN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)后,通過遺傳算法對神經(jīng)網(wǎng)絡(luò)進行優(yōu)化,首先對BPANN神經(jīng)網(wǎng)絡(luò)各層間的初始權(quán)重和偏置進行實數(shù)編碼,再經(jīng)過選擇、交叉、變異等遺傳操作獲取較優(yōu)值,并將其作為BPANN神經(jīng)網(wǎng)絡(luò)的初始權(quán)重和偏置。遺傳算法個體基因位數(shù)等于BPANN神經(jīng)網(wǎng)絡(luò)權(quán)重和閾值的個數(shù),每位個體的適應(yīng)度函數(shù)根據(jù)訓練誤差進行設(shè)計[17],計算公式如下:
式中:f(i)——第i個染色體的適應(yīng)度值;
p——神經(jīng)網(wǎng)絡(luò)訓練樣本數(shù);
yij——第i個染色體對第j個樣本的預測輸出值;
tij——樣本實際輸出值。
本文實例數(shù)據(jù)來自汶川地震斷裂帶科學鉆探工程的主孔之一,位于四川省都江堰市虹口鄉(xiāng)八角廟六組境內(nèi),鉆井井位位于小溝山溝谷底的簡易公路與河流之間的河床上,鉆井位置海拔高度約1150m,工作區(qū)處于龍門山中央斷裂帶,井口距斷裂帶地表露頭約650m。鉆孔設(shè)計和實際鉆孔結(jié)構(gòu)和套管程序分別如圖1(a)、(b)所示。
圖1 鉆孔結(jié)構(gòu)和套管程序
收集的數(shù)據(jù)包括鉆時、鉤載、鉆壓、泵壓、流量、轉(zhuǎn)速、扭矩和總池體積,部分數(shù)據(jù)資料如表1所示。完整數(shù)據(jù)可在地質(zhì)云網(wǎng)站中獲?。╤ttps://geocloud.cgs.gov.cn/)。
表1 部分鉆井數(shù)據(jù)
為了降低數(shù)值大小對模型精準度的影響,在進行訓練模型時將表1中的數(shù)據(jù),需要對各列數(shù)據(jù)進行歸一化處理,如式(2)所示:
式中:x′i——歸一化的數(shù)值;
xi——原始數(shù)值;
xmin——數(shù)值最小值;
xmax——數(shù)值最大值。
MIC 的想法是針對兩個變量之間的關(guān)系,將其離散在二維空間中,并且使用散點圖來表示,將當前二維空間在x、y方向分別劃分為一定的區(qū)間數(shù),然后統(tǒng)計當前的散點在各個方格中落入的情況,即聯(lián)合概率的計算,從而解決了在互信息中的聯(lián)合概率難求的問題。MIC的計算公式如下式所示。
其中,X、Y是x、y方向上的網(wǎng)格劃分個數(shù),B是常數(shù),通常取約m0.6。p(X,Y)為變量x和y之間的聯(lián)合概率。
從圖2可以看出,機械鉆速與各因素的相關(guān)性均大于1/m(其中,m為模型輸入變量的個數(shù),此處m=9),說明各因素對機械鉆速存在一定的影響。機械鉆速與井深、鉤載、鉆壓、流量、轉(zhuǎn)速和扭矩的MIC值較大,說明這些因素對機械鉆速的影響較高。然而,機械鉆速與泵壓和總池體積的MIC值較低,說明這兩個因素雖然也會對機械鉆速產(chǎn)生影響,但是影響程度較低。因此,本文選取MIC值較大的6 個影響因素作為輸入變量,分別為井深、鉤載、鉆壓、流量、轉(zhuǎn)速和扭矩。
圖2 鉆井因素MIC值熱力圖
本文利用Python 工具箱進行BPANN 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)計,其關(guān)鍵是確定BPANN 神經(jīng)網(wǎng)絡(luò)層數(shù)、隱藏層神經(jīng)元個數(shù)和激活函數(shù)等方面[17]。
(1)BPANN 神經(jīng)網(wǎng)絡(luò)層數(shù)。研究表明,當單隱藏層無法達到預期效果時,可以通過適當增加隱藏層數(shù)來提高精準度,然而隱藏層數(shù)目過多會導致網(wǎng)絡(luò)的復雜度增加,因此隱藏層一般不超過兩層[17],即隱藏層數(shù)目設(shè)為imin=1,imax=2。為了提高模型的預測精度本文隱藏層數(shù)目設(shè)置為2層。
(2)隱藏層神經(jīng)元個數(shù)。通常采用試錯法確定隱藏層神經(jīng)元個數(shù),神經(jīng)元個數(shù)可由經(jīng)驗公式獲得參數(shù)設(shè)置范圍:,其中δ=1,2,…,10。
采用上述原則及試錯法確定的預測模型參數(shù)如表2所示。
表2 模型參數(shù)
采用2.2 小節(jié)中的參數(shù),建立碳酸鹽鉆井的鉆速GA-BPANN智能預測模型,其實現(xiàn)流程圖如圖3所示,同時建立相應(yīng)的支持向量回歸(SVM)和BP 人工神經(jīng)網(wǎng)絡(luò)(BPANN)預測模型,用以進行性能預測比較,其中BPANN采用的模型參數(shù)和GA-BPANN一致。
圖3 GA優(yōu)化BPANN流程圖
本文采用四個性能指標對所提模型的性能進行了評估。這些度量是產(chǎn)生的模型和實驗結(jié)果之間的確定系數(shù)(R2)、平均絕對誤差(MAE)、均方值誤差(RMSE)和平均絕對百分誤差(MAPE),分別如式(5)至式(8)所示:
式中:——預測值;
Yi——實測值;
——實測值均值。
通過上節(jié)的模型建立流程,首先進行數(shù)據(jù)預處理,然后對數(shù)據(jù)進行歸一化處理,建立3個預測模型,最后對3個模型進行模型評價。三種模型模型的評價指標如表3所示。
表3 模型的評價指標
為了挑選出更為精確的智能預測模型,除計算了全集R2評價指標外,還計算了RMSE、MAE和MAPE評價指標。一般認為MAPE<10%表明預測精度較高。由表3 可知,上述預測方法的MAPE值均小于10%,說明所建立的三種智能預測模型具有較高的預測精度,其中GA-BPANN 模型的MAPE僅為4.2538%,均低于SVR 和BPANN 模型的7.4024%和6.5416%。在RMSE和MAE方面,也可以看出GA-BPANN模型的RMSE和MAE值均低于SVR 和BPANN 模型,說明采用遺傳算法優(yōu)化BPANN可以進一步提升模型精測精度。
為了更直觀地反映本文建立的GA-ANN模型的計算誤差,將全集的預測結(jié)果與實測數(shù)據(jù)進行對比,如圖4所示。由圖4對比可見,GA-BPANN模型的預測值與實測值分布具有較好的一致性,說明本文所建立的碳酸鹽巖鉆井的GA-BPANN 鉆速預測模型的預測值和實測值吻合較好,可以達到準確預測的效果。
圖4 模型預測結(jié)果
從圖5(a)展示了ROP 隨H 的變化規(guī)律,當深度變化時ROP 處于一個相對穩(wěn)定的狀態(tài),說明鉆進過程處于一種良好的狀態(tài)。但是,當井深在100m 處時,ROP出現(xiàn)了一些較大值,可能是因為該處出現(xiàn)了部分軟弱層造成的。從圖5(b)展示了ROP隨HL的變化規(guī)律,可以看出隨著HL的增大,ROP具有增大的趨勢,當HL在75~100kN 時得到了較高的ROP。從圖5(c)展示了ROP隨WOB的變化規(guī)律,當WOB小于40kN時ROP隨WOB的增加具有增大的趨勢,之后呈現(xiàn)下降趨勢。從圖5(d)可以看出,Q 為20 時具有較好的ROP。從圖5(e)可以看出,隨著RPM 的增大,ROP 具有增大的趨勢。從圖5(f)可以看出,隨著T的增大,ROP具有減小的趨勢,因為T越大需要克服的阻力越大。
圖5 不同因素對機械鉆速的影響規(guī)律
鉆井鉆進過程中存在的眾多不確定性、時變時滯及變量間強耦合等特性,在傳統(tǒng)理論分析中,建立多影響因素的統(tǒng)一數(shù)學預測模型具有很大難度,并且預測精準度較低。本文開發(fā)了基于遺傳算法優(yōu)化BP 人工神經(jīng)網(wǎng)絡(luò)的機械鉆速預測模型。通過最大信息系數(shù)方法篩選出井深、鉤載、鉆壓、流量、轉(zhuǎn)速和扭矩作為輸入變量,建立機械鉆速預測模型。該GA-BPANN 預測模型具有較高的預測精度,可為后續(xù)工程應(yīng)用提供技術(shù)指導。在后續(xù)研究中,收集更多的數(shù)據(jù),建立魯棒性更強、適用范圍更廣、精準度更高的機械鉆速預測模型是值的研究的問題。