張海軍, 張高峰, 王國(guó)娜, 王立輝, 劉洋, 任陽峰, 鄭雙進(jìn)*
(1.中國(guó)石油天然氣股份有限公司大港油田分公司, 天津 300450; 2.中國(guó)石油天然氣股份有限公司西南油氣田分公司, 成都 610000;3.長(zhǎng)江大學(xué)石油工程學(xué)院, 武漢 430100)
在油氣鉆探領(lǐng)域,機(jī)械鉆速(rate of penetration,ROP)是評(píng)估鉆井效率的重要指標(biāo),直接影響著鉆井周期和鉆井成本。針對(duì)機(jī)械鉆速,中外學(xué)者大多運(yùn)用傳統(tǒng)方法建立模型進(jìn)行預(yù)測(cè),每種模型均有其適用性。Bahari等[1]建立了W.C.Maurer方程,但該方程考慮因素不夠全面;Adebayo等[2]建立了巖石特性、物理性質(zhì)與機(jī)械鉆速之間的經(jīng)驗(yàn)?zāi)P?,但未考慮鉆井參數(shù)對(duì)機(jī)械鉆速的影響;Kumar等[3]研究得到了一套機(jī)械鉆速預(yù)測(cè)模型,但該模型參數(shù)受巖性影響較大,且模型較為復(fù)雜;Hung等[4]研究得到了基于旋轉(zhuǎn)沖擊鉆頭的機(jī)械鉆速預(yù)測(cè)模型,僅在硬度高的地層中較為適用;巨滿成等[5]、杜鐮等[6]基于巖石可鉆性對(duì)機(jī)械鉆速預(yù)測(cè)進(jìn)行了研究,但研究?jī)H引用了少量的鉆井參數(shù),基于大量統(tǒng)計(jì)數(shù)據(jù)并應(yīng)用各種數(shù)學(xué)方法進(jìn)行處理而建立了鉆速方程,由于不具有普遍性,致使其應(yīng)用受到限制;田璐等[7]通過綜合應(yīng)用油基鉆井液、旋轉(zhuǎn)導(dǎo)向地質(zhì)導(dǎo)向、雙凝雙密度水泥漿等技術(shù),并進(jìn)行了鉆頭優(yōu)選和鉆具組合優(yōu)化,有效提高了機(jī)械鉆速。李琪等[8]提出了一種人工智能算法與結(jié)合粒子群的神經(jīng)網(wǎng)絡(luò)算法(particle swarm optimization-back propagation, PSO-BP)神經(jīng)網(wǎng)絡(luò)相結(jié)合的鉆進(jìn)機(jī)械鉆速預(yù)測(cè)模型,并根據(jù)實(shí)際工況對(duì)其進(jìn)行了模型評(píng)價(jià),結(jié)果表明PSO-BP機(jī)械鉆速模型具有良好的預(yù)測(cè)精度。李昌盛[9]利用多元回歸方法改進(jìn)了B-Y(Bourgoyne-Young)鉆速方程,但該方程只適用于鉆井液鉆井;景寧等[10]提出了一種基于層析分析法和神經(jīng)網(wǎng)絡(luò)相組合的智能模型,利用巖石抗壓強(qiáng)度、鉆頭尺寸等影響因素進(jìn)行鉆速預(yù)測(cè);劉勝娃等[11]研究了一種基于人工神經(jīng)網(wǎng)絡(luò)技術(shù)的定向井機(jī)械鉆速預(yù)測(cè)模型,該模型能在數(shù)據(jù)量較充足、數(shù)據(jù)質(zhì)量較高的條件下得出較高預(yù)測(cè)準(zhǔn)確度;石祥超等[12]評(píng)價(jià)了隨機(jī)森林、支持向量機(jī)、梯度提升樹、人工神經(jīng)網(wǎng)絡(luò)4種人工智能算法在四川盆地某區(qū)塊的機(jī)械鉆速預(yù)測(cè)精度,結(jié)果表明隨機(jī)森林算法對(duì)區(qū)塊內(nèi)各單井?dāng)?shù)據(jù)的預(yù)測(cè)精度能達(dá)到90%,對(duì)整個(gè)區(qū)塊數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確度能達(dá)到88%;左迪一[13]通過采用隨機(jī)森林回歸方法對(duì)5種類別的井建立鉆速預(yù)測(cè)模型并進(jìn)行現(xiàn)場(chǎng)應(yīng)用驗(yàn)證,結(jié)果均取得了較好的效果,說明隨機(jī)森林回歸方法具有非常強(qiáng)的針對(duì)性和準(zhǔn)確度。
調(diào)研分析發(fā)現(xiàn),現(xiàn)有的機(jī)械鉆速預(yù)測(cè)大多依靠經(jīng)驗(yàn),或是在前人已建立的模型基礎(chǔ)上行改進(jìn),或是依靠控制變量等方法進(jìn)行實(shí)驗(yàn),尋找影響機(jī)械鉆速的主要因素,這些預(yù)測(cè)方法難免會(huì)造成較大誤差,難以滿足當(dāng)前鉆井施工需求。近年來,隨著大數(shù)據(jù)與機(jī)器學(xué)習(xí)技術(shù)的興起,基于歷史鉆井?dāng)?shù)據(jù)運(yùn)用機(jī)器學(xué)習(xí)方法進(jìn)行大數(shù)據(jù)分析,開展機(jī)械鉆速預(yù)測(cè)不失為一種好方法?,F(xiàn)通過分析東部某油田機(jī)械鉆速的影響因素,結(jié)合鉆井歷史數(shù)據(jù)建立了機(jī)械鉆速預(yù)測(cè)模型,并利用遺傳算法進(jìn)行優(yōu)化,測(cè)試模型的精度和泛化性,得到了滿足施工設(shè)計(jì)及現(xiàn)場(chǎng)作業(yè)需要的機(jī)械鉆速預(yù)測(cè)方法,有助于指導(dǎo)該區(qū)塊鉆井施工參數(shù)優(yōu)化,提高鉆井施工效益。
現(xiàn)場(chǎng)鉆井施工過程中,鉆壓、轉(zhuǎn)速、鉆井液密度、循環(huán)排量、漏斗黏度、鉆頭尺寸及牙齒磨損等因素都會(huì)影響機(jī)械鉆速。鉆壓通過影響破巖作用來影響機(jī)械鉆速,如果在硬度較高的地層施加小鉆壓,會(huì)直接影響機(jī)械鉆速的提高[14];轉(zhuǎn)速也會(huì)對(duì)鉆頭破巖產(chǎn)生較大影響,但影響略小于鉆壓,當(dāng)鉆遇較軟地層時(shí)提高轉(zhuǎn)速可明顯提高機(jī)械鉆速,但當(dāng)鉆遇較硬地層時(shí),提高轉(zhuǎn)速并不能很好地提高機(jī)械鉆速[14];鉆井液的密度、排量、漏斗黏度共同影響井底巖屑清理程度和輔助破巖程度,進(jìn)而影響機(jī)械鉆速[15];增大鉆頭尺寸會(huì)降低鉆頭破巖效率,進(jìn)而降低機(jī)械鉆速,但減小鉆頭尺寸又會(huì)影響油氣開采效率,所以鉆頭尺寸設(shè)計(jì)需要權(quán)衡鉆頭尺寸與機(jī)械鉆速的關(guān)系來滿足油田開發(fā)需求[16]。另外,鉆頭牙齒磨損、老化、結(jié)構(gòu)設(shè)計(jì)不合理等因素也會(huì)造成機(jī)械鉆速降低[16]。本文中搜集了來自東部某油田的現(xiàn)場(chǎng)鉆井施工數(shù)據(jù),考慮機(jī)械鉆速影響因素包含鉆壓、轉(zhuǎn)速、鉆頭直徑、鉆頭壓降、鉆頭出入井新度、鉆頭磨損程度、鉆井液密度、漏斗黏度及排量,基于以上影響因素建立滿足施工設(shè)計(jì)及現(xiàn)場(chǎng)作業(yè)需要的機(jī)械鉆速分類預(yù)測(cè)方法。
本文建模數(shù)據(jù)來自東部某油田的現(xiàn)場(chǎng)鉆井施工數(shù)據(jù),原始數(shù)據(jù)如表1所示,總計(jì)398組,變量名稱包括入井新度、出井新度、牙齒磨損量、鉆壓、轉(zhuǎn)速、鉆井液排量、鉆井液密度、鉆井液漏斗黏度、鉆頭壓降、鉆頭直徑及平均機(jī)械鉆速。其中以前十組變量作為建立模型時(shí)的輸入變量,平均機(jī)械鉆速為模型的輸出變量。
為了提高機(jī)械鉆速分類預(yù)測(cè)的針對(duì)性,需要對(duì)機(jī)械鉆速進(jìn)行分級(jí),鉆速分級(jí)使得機(jī)械鉆速數(shù)值大小不受鉆頭尺寸制約,且將建模任務(wù)從回歸問題轉(zhuǎn)化為分類問題,有利于提高模型的精度。根據(jù)現(xiàn)場(chǎng)實(shí)際工況,將不同鉆頭尺寸對(duì)應(yīng)的機(jī)械鉆速進(jìn)行分級(jí)(“低鉆速”“中鉆速”“高鉆速”),分級(jí)規(guī)則如表2所示。
按照表2所示的分級(jí)規(guī)則對(duì)表1中的機(jī)械鉆速數(shù)據(jù)按不同鉆頭直徑進(jìn)行分級(jí),分級(jí)后的數(shù)據(jù)如表3所示(低鉆速為1;中鉆速為2;高鉆速為3),為消除各特征之間量綱不同造成的數(shù)值規(guī)模差異,需要對(duì)除機(jī)械鉆速外所有特征數(shù)據(jù)進(jìn)行歸一化處理,歸一化的計(jì)算方法為
(1)
表1 順南區(qū)塊現(xiàn)場(chǎng)鉆井施工原始數(shù)據(jù)(前十行)
表2 不同鉆頭尺寸對(duì)應(yīng)的機(jī)械鉆速分級(jí)
式(1)中:x′i為歸一化后的數(shù)據(jù);xi表示為歸一化前的原始樣本數(shù)據(jù);xmin表示為原始樣本數(shù)據(jù)特征值的最小值;xmax表示為原始樣本數(shù)據(jù)特征值的最大值。歸一化處理后的施工數(shù)據(jù)見表3所示。
隨機(jī)森林是集成學(xué)習(xí)算法之一[17-19],它的基學(xué)習(xí)器是決策樹;該算法的核心思想是采用多顆決策樹的投票機(jī)制,解決分類和預(yù)測(cè)問題。對(duì)于回歸預(yù)測(cè)問題,將多棵樹的回歸結(jié)果進(jìn)行平均得到最終結(jié)果;對(duì)于分類問題,將多棵樹的判斷結(jié)果進(jìn)行投票,基于少數(shù)服從多數(shù)得到最終的分類結(jié)果;該算法有運(yùn)行速度快,精度高等特點(diǎn)。
K近鄰算法[20-22](K-nearest neighbor,KNN)寓意K個(gè)靠近的“鄰居”,屬于監(jiān)督式學(xué)習(xí)算法;該算法不會(huì)預(yù)先生成一個(gè)分類預(yù)測(cè)模型,而是將建模與預(yù)測(cè)、分類工作同時(shí)進(jìn)行,模型構(gòu)建好后進(jìn)行分類、預(yù)測(cè)結(jié)果也將輸出;該算法可以對(duì)離散型變量進(jìn)行分類,也可以對(duì)連續(xù)型變量進(jìn)行預(yù)測(cè)。
支持向量機(jī)[23-25](support vector machine,SVM)的核心思想是結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則和統(tǒng)計(jì)學(xué)習(xí)理論VC(Vapnik-Chervonenkis)維理論,該算法屬于監(jiān)督式機(jī)器學(xué)習(xí)算法,可用于離散因變量的分類和連續(xù)因變量的預(yù)測(cè)。
基于預(yù)處理后的鉆井施工數(shù)據(jù),由Python軟件在數(shù)據(jù)中隨機(jī)選出建模所需的訓(xùn)練集和評(píng)估模型精度所需的測(cè)試集,運(yùn)用隨機(jī)森林算法、K近鄰算法、支持向量機(jī)算法分別建立模型,建模過程全程使用Python自編程序,隨機(jī)森林算法、K近鄰算法、支持向量機(jī)算法通過Sklearn庫實(shí)現(xiàn)。
表3 機(jī)械鉆速分級(jí)預(yù)處理后的數(shù)據(jù)集(前10行)
以數(shù)據(jù)集中的鉆頭入井新度、鉆頭出井新度、牙齒磨損量、鉆壓、轉(zhuǎn)速、鉆井液排量、鉆井液密度、鉆井液漏斗黏度、鉆頭壓降、鉆頭直徑作為輸入變量,以平均機(jī)械鉆速作為輸出變量,訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)的劃分為9∶1,基于隨機(jī)森林算法、K近鄰算法、支持向量機(jī)算法建立默認(rèn)參數(shù)的機(jī)械鉆速分類預(yù)測(cè)模型;3種算法模型默認(rèn)參數(shù)如表4所示,默認(rèn)模型分類預(yù)測(cè)結(jié)果如表5~表7所示。
由機(jī)械鉆速等級(jí)預(yù)測(cè)結(jié)果可知,隨機(jī)森林算法、K近鄰算法、支持向量機(jī)算法在39組測(cè)試數(shù)據(jù)集的分類準(zhǔn)確率分別為69.2%、59%、71.8%,分類效果最好的是支持向量機(jī)算法,其次是隨機(jī)森林算法、K近鄰算法??紤]隨機(jī)森林算法、K近鄰算法的分類準(zhǔn)確率不高,需要針對(duì)模型參數(shù)進(jìn)行優(yōu)化,以提高模型預(yù)測(cè)精度。
表4 3種算法對(duì)應(yīng)的模型默認(rèn)參數(shù)
表5 隨機(jī)森林算法預(yù)測(cè)機(jī)械鉆速等級(jí)結(jié)果混淆矩陣
表6 K近鄰算法預(yù)測(cè)機(jī)械鉆速等級(jí)結(jié)果混淆矩陣
表7 支持向量機(jī)算法預(yù)測(cè)機(jī)械鉆速等級(jí)結(jié)果混淆矩陣
遺傳算法(genetic algorithm,GA)[26-28]。是基于自然界遺傳機(jī)制和生物進(jìn)化論的一種高效隨機(jī)搜索和優(yōu)化方法,其具有全局優(yōu)化性能,能夠找到機(jī)器學(xué)習(xí)算法參數(shù)最合適的值,使得算法達(dá)到最優(yōu)配置,從而更加準(zhǔn)確地預(yù)測(cè)機(jī)械鉆速分類。遺傳算法優(yōu)化模型參數(shù)流程圖如圖1所示。
遺傳算法的種群數(shù)量設(shè)定為200,繁衍最大代數(shù)設(shè)置為80,染色體交叉概率為80%,染色體變異概率為染色體長(zhǎng)度的倒數(shù),適應(yīng)值函數(shù)設(shè)定為39組測(cè)試數(shù)據(jù)在各優(yōu)化模型的準(zhǔn)確率?;谶z傳算法優(yōu)化后的3種算法模型參數(shù)如表8所示。
圖1 遺傳算法優(yōu)化模型參數(shù)流程圖Fig.1 Flow chart of optimizing model parameters by genetic algorithm
表8 基于遺傳算法優(yōu)化后的3種算法模型參數(shù)
將優(yōu)化后的模型參數(shù)輸入對(duì)應(yīng)模型,利用39組測(cè)試數(shù)據(jù)驗(yàn)證優(yōu)化后各模型的精度和泛化性,優(yōu)化后的3個(gè)模型預(yù)測(cè)結(jié)果如表9~表11所示。
表9 優(yōu)化后的隨機(jī)森林算法預(yù)測(cè)機(jī)械鉆速等級(jí)結(jié)果混淆矩陣
表10 優(yōu)化后的K近鄰算法預(yù)測(cè)機(jī)械鉆速等級(jí)結(jié)果混淆矩陣
表11 優(yōu)化后的支持向量機(jī)算法預(yù)測(cè)機(jī)械鉆速 等級(jí)結(jié)果混淆矩陣
機(jī)械鉆速分類預(yù)測(cè)結(jié)果表明,經(jīng)遺傳算法優(yōu)化后3種算法的準(zhǔn)確率均有提升,隨機(jī)森林算法的分類準(zhǔn)確率提高了12.9%,K近鄰算法的分類準(zhǔn)確率提高了12.8%,支持向量機(jī)算法的分類準(zhǔn)確率提高了5.2%,其中隨機(jī)森林算法的分類準(zhǔn)確率最高為82.1%,其次是支持向量機(jī)算法和K近鄰算法,該方法東部某油田機(jī)械鉆速預(yù)測(cè)提供了新思路。
該井是東部某油田的一口四開井身結(jié)構(gòu)井,設(shè)計(jì)井深6 190 m。一開φ660.4 mm鉆頭鉆至井深494 m,下入φ508 mm套管,鉆井液密度1.10 g/cm3,漏斗黏度8 s,鉆壓40 kN,轉(zhuǎn)速50 r/min,鉆井液循環(huán)排量60 L/s;二開φ444.5 mm鉆頭鉆至井深2 236 m,下入φ339.7 mm套管,鉆井液密度1.25 g/cm3,漏斗黏度55 s,鉆壓220 kN,轉(zhuǎn)速80 r/min,鉆井液循環(huán)排量65 L/s;三開φ311.2 mm鉆頭鉆至井深4 720 m,下入φ244.5 mm套管,鉆井液密度1.40 g/cm3,漏斗黏度60 s,鉆壓80 kN,轉(zhuǎn)速80 r/min,鉆井液循環(huán)排量60 L/s;四開φ215.9 mm鉆頭鉆至井深6 166 m,下入φ139.7 mm套管,鉆井液密度1.20 g/cm3,漏斗黏度45 s,鉆壓40 kN,轉(zhuǎn)速60 r/min,鉆井液循環(huán)排量30 L/s。該井累計(jì)使用鉆頭27只,其中一開使用鉆頭1只,二開使用鉆頭2只,三開使用鉆頭4只,四開使用鉆頭3只,機(jī)械鉆速范圍在1.03~123.67 m/h。
選用皮爾遜相關(guān)系數(shù)法進(jìn)行分析評(píng)價(jià),該方法可用于考量?jī)蓚€(gè)變量X和Y之間的相關(guān)度,其值介于-1~1,1表示變量完全正相關(guān),0表示無關(guān),-1表示完全負(fù)相關(guān)。總體相關(guān)系數(shù)定義為
(2)
估算樣本的協(xié)方差和標(biāo)準(zhǔn)差的公式為
(3)
圖2 機(jī)械鉆速預(yù)測(cè)值與實(shí)際值相關(guān)性對(duì)比圖Fig.2 Correlation diagram between predicted and actual ROP values
運(yùn)用遺傳算法優(yōu)化后的隨機(jī)森林模型進(jìn)行機(jī)械鉆速分類預(yù)測(cè),預(yù)測(cè)值與實(shí)際值對(duì)比如圖2所示。從圖2可以看出,皮爾遜相關(guān)系數(shù)r=0.987 3,機(jī)械鉆速分類預(yù)測(cè)值與實(shí)際值之間具有很好的相關(guān)性,二者之間誤差很小,表明運(yùn)用遺傳算法優(yōu)化后的隨機(jī)森林模型可用于東部某油田機(jī)械鉆速分類預(yù)測(cè),根據(jù)多因素敏感性分析可進(jìn)一步開展鉆井施工參數(shù)優(yōu)化。
(1)分析了東部某油田機(jī)械鉆速的主要影響因素,基于該油田的鉆井歷史數(shù)據(jù)分別運(yùn)用隨機(jī)森林算法、K近鄰算法及支持向量機(jī)算法建立了機(jī)械鉆速分類預(yù)測(cè)基礎(chǔ)模型,測(cè)試得以上3種算法的分類預(yù)測(cè)準(zhǔn)確率分別為69.2%、59%、71.8%,模型預(yù)測(cè)精度有待提高。
(2)運(yùn)用遺傳算法針對(duì)隨機(jī)森林算法、K近鄰算法及支持向量機(jī)算法建立的機(jī)械鉆速分類預(yù)測(cè)基礎(chǔ)模型進(jìn)行優(yōu)化,優(yōu)化后3種模型的分類預(yù)測(cè)準(zhǔn)確率分別為:82.1%、71.8%、77%,其中經(jīng)遺傳算法優(yōu)化后的隨機(jī)森林模型精確度最高,可用于該油田機(jī)械鉆速分類預(yù)測(cè)及施工參數(shù)優(yōu)化。