LUU Quang Hung,LAU Man Fai,NG Sebastian P.H.,TING Clement P.W.,WEE Reuben,THEN Patrick H.H.
(1.斯威本科技大學(xué)科學(xué)、工程與技術(shù)系,霍桑 3122,澳大利亞;2.斯威本科技大學(xué)工程、計(jì)算與科學(xué)系,砂拉越 93350,馬來西亞;3.IDS公司,砂拉越 93100,馬來西亞)
可靠地預(yù)測鉆井周期是油氣勘探開發(fā)規(guī)劃中的一項(xiàng)重要工作[1]。目前在預(yù)測和優(yōu)化鉆井周期時(shí),主要的關(guān)注點(diǎn)集中在鉆速模擬方面。有研究者對傳統(tǒng)的鉆速模型[2-8]進(jìn)行了改進(jìn),引入了一些重要的變量來描述鉆井過程,將這種改進(jìn)后的模型稱為半經(jīng)驗(yàn)?zāi)P?,其中的變量?jīng)過多次回歸后可得到預(yù)測函數(shù)。近年來,利用各種鉆井?dāng)?shù)據(jù),結(jié)合計(jì)算資源,現(xiàn)代鉆速模型的應(yīng)用越來越廣泛[9]。這些模型大多數(shù)都是數(shù)據(jù)驅(qū)動的,可通過應(yīng)用各種統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)技術(shù)(如人工神經(jīng)網(wǎng)絡(luò)(ANN)技術(shù)[10-12]、隨機(jī)森林算法[11,13]、支持向量機(jī)方法[13])得到。
雖然鉆速模擬是評估鉆井效率的重要方法,但總鉆井周期不是只由鉆速決定。先前的研究[14-15]指出,提高瞬時(shí)鉆速和平均鉆速不一定能降低鉆井成本。這是因?yàn)殂@井施工包括多個(gè)過程,從鉆機(jī)動員、為更換磨損鉆頭起出井底鉆具組合、下套管和固井到解決偶然事件,其中許多過程都不會直接影響鉆速。總鉆井周期也受到非生產(chǎn)因素的影響,如鉆井設(shè)備失效、井下落物打撈時(shí)間比預(yù)期時(shí)間長、遭遇惡劣天氣等。在整個(gè)鉆井施工過程中,非生產(chǎn)時(shí)間可能會持續(xù)多日,與機(jī)械鉆井所花費(fèi)的生產(chǎn)時(shí)間相當(dāng)。因此,建立鉆井周期預(yù)測模型有利于更好地制定鉆井計(jì)劃。
鉆井周期預(yù)測模型可使用確定性方法或概率法得到。在確定性方法中,根據(jù)各鉆井要素之間的關(guān)系可以確立一個(gè)鉆井周期預(yù)測模型,對總鉆井周期[16-18]或某個(gè)鉆井階段(如換鉆頭)的周期[19-20]進(jìn)行多次回歸分析。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,這種方法取得了一些進(jìn)展。例如,Ardekani等[19]針對更換鉆頭的過程開發(fā)了人工神經(jīng)網(wǎng)絡(luò)模型,比伊朗南部油田取樣回歸的結(jié)果更加準(zhǔn)確。概率法則把預(yù)測目標(biāo)按照可能性而不是一個(gè)數(shù)字來考慮。這是因?yàn)閷?shí)際的鉆井過程是不確定的,受到各種非確定因素的影響。概率法不僅可以綜合考慮鉆井活動不確定性的影響,還可以量化風(fēng)險(xiǎn),從而優(yōu)化鉆井成本[21-22]。因此,在過去的20多年里,概率法成為了鉆井施工設(shè)計(jì)中的常用方法[23-24]。McIntosh[21]根據(jù)樣本數(shù)據(jù)對各個(gè)鉆井階段的周期進(jìn)行了概率分析,并認(rèn)為對這些概率值進(jìn)行排序可以找出對總鉆井周期影響較大的作業(yè)活動。Akins等[22]得到了一套相對綜合的采用概率法預(yù)測鉆井周期的實(shí)踐方法。Loberg等[23]和 Merlo等[24]開發(fā)了商業(yè)軟件包,有利于鉆井工程師量化鉆井風(fēng)險(xiǎn)并得到相應(yīng)的鉆井周期和鉆井成本。采用北海中部118口井的數(shù)據(jù),Adams等[25]對各種影響因素進(jìn)行分類,描述了鉆井周期的概率分布。之后,Adams等[26]又添加了93口井的數(shù)據(jù),對概率分布進(jìn)一步細(xì)化。這些概率模型的主要局限性在于,它們僅依據(jù)單變量概率密度函數(shù)。由于多變量概率密度函數(shù)被過度簡化為單變量概率密度函數(shù),忽略了一些因素(如垂深和鉆深)的影響,結(jié)果會出現(xiàn)一定偏差。
因此,本文提出采用多變量概率密度函數(shù)對鉆井周期進(jìn)行描述,建立多變量概率模型來預(yù)測鉆井周期。一方面,在概率模型中引入了更多的鉆井變量,可提高預(yù)測結(jié)果的精確度。另一方面,某些特定事件已經(jīng)發(fā)生后,可以得到條件概率,更好地量化可預(yù)測性。本文重點(diǎn)關(guān)注主要鉆井階段即導(dǎo)管段、表層套管段、技術(shù)套管段、生產(chǎn)套管段的總施工周期,因?yàn)榭傘@井周期就取決于這幾個(gè)鉆井階段的總施工周期。在多變量分析中,采用目標(biāo)層深度來模擬鉆井階段,采用垂直深度來模擬下套管和固井階段。初步分析表明,這些深度與每個(gè)鉆井階段所需的周期具有高度的相關(guān)性。
本文首先根據(jù)自適應(yīng)核密度估計(jì)法建立了每個(gè)鉆井階段周期的理論模型,采用蒙特卡洛模擬法建立了整個(gè)鉆井作業(yè)總周期的理論模型,并進(jìn)行了算例分析。然后建立了無事故鉆井周期的概率模型,并對模型進(jìn)行了驗(yàn)證,討論了總鉆井周期與無事故周期之間的差異以及將模擬數(shù)據(jù)用于機(jī)器學(xué)習(xí)模型訓(xùn)練的可行性。
首先,采用自適應(yīng)核密度估計(jì)法得到各鉆井階段的多變量概率密度函數(shù),預(yù)測考慮鉆井深度和其他參數(shù)的鉆井周期概率分布。然后,結(jié)合不同鉆井階段的概率密度值,采用蒙特卡洛模擬法得到整個(gè)鉆井作業(yè)總周期的預(yù)測模型。
有兩個(gè)或兩個(gè)以上變量即為多變量概率密度函數(shù)。本文采用Bernacchia和Pigolotti提出的自適應(yīng)核密度估計(jì)法[27]得到了多變量概率密度函數(shù)。這種方法的優(yōu)點(diǎn)是可以得到具有高收斂性的最優(yōu)化的核函數(shù)和帶寬(bin)。采用 O’Brien等[28]的研究方法(名為fastKDE),在大量數(shù)據(jù)的基礎(chǔ)上快速高效地得到概率密度函數(shù)的預(yù)測值。
給出一組數(shù)據(jù),具有n個(gè)數(shù)據(jù)點(diǎn)p1,p2,…,pn,設(shè)多變量概率密度函數(shù)為f。其中,核密度估計(jì)模型是二元的,設(shè)鉆井周期為t,深度為d,深度是與每個(gè)鉆井周期有關(guān)的參數(shù)。數(shù)據(jù)集pj(j=1,2,…,n)里的每個(gè)數(shù)據(jù)可以用坐標(biāo)(tj,dj)來表示。也可以在核密度估計(jì)模型中加入更多變量來代表更多元的分布。本文求取的概率密度函數(shù)是光滑變量p的函數(shù),它與離散數(shù)據(jù)點(diǎn)p1,p2,…,pn之間的關(guān)系可通過引入核函數(shù)K來得到:
顯然,為了通過一組離散數(shù)據(jù)來得到概率密度函數(shù),必須確定核函數(shù)K。Bernacchia和Pigolotti提出的自適應(yīng)核密度估計(jì)法[27]采用了傅里葉變換,可將數(shù)據(jù)坐標(biāo)(t,d)有效地轉(zhuǎn)化為可描述分布的頻域 u,反之亦然。其中,傅里葉變換的逆變換定義為:
核函數(shù)的傅里葉變換為:
其中,E(u)是經(jīng)驗(yàn)特征函數(shù),定義為:
每個(gè)鉆井階段都可以根據(jù)概率密度函數(shù)來預(yù)測。然而,在大量數(shù)據(jù)缺失的情況下,很難對整個(gè)鉆井作業(yè)進(jìn)行有效的預(yù)測。假設(shè)想要估計(jì)包含所有主要鉆井階段的一個(gè)完整的鉆井作業(yè)的總鉆井周期,如果只有5%的施工作業(yè)包含所有鉆井階段,那就意味著必須忽略其他 95%的施工作業(yè)里的數(shù)據(jù)信息。當(dāng)完整的施工作業(yè)數(shù)量不足時(shí),由于僅采用了少量的樣本,預(yù)測結(jié)果就會有所偏差。
采用馬爾科夫鏈蒙特卡洛法(MCMC),可以利用每個(gè)鉆井階段的概率密度函數(shù)來得到采樣數(shù)據(jù),因此可以有效便捷地評估與整個(gè)施工作業(yè)有關(guān)的風(fēng)險(xiǎn)。利用馬爾科夫鏈蒙特卡洛法來評估鉆井作業(yè)的不確定性的方法并不是新提出的[29]。Peterson等[30]模擬了開支授權(quán)(AFE)的風(fēng)險(xiǎn),然而僅采用了少量數(shù)據(jù)(27口井)且假設(shè)輸入數(shù)據(jù)符合大量的特殊分布:正態(tài)分布、伽馬分布、對數(shù)正態(tài)分布和指數(shù)分布,因此結(jié)果并不是很可靠。
本文采用吉布斯采樣法,根據(jù)馬爾科夫鏈蒙特卡洛法由多變量概率密度函數(shù)得到一系列數(shù)據(jù)。吉布斯采樣法是眾所周知的 Metropolis-Hastings采樣法的一種特殊情況,由于Metropolis-Hastings采樣法對跳躍函數(shù)的選取很敏感,對于多變量的情況吉布斯采樣法更實(shí)用。采用吉布斯采樣法得到m個(gè)鉆井階段的r個(gè)模擬結(jié)果的過程如下。
③從 1到 m,對所有的鉆井階段重復(fù)第②步,就得到包含m個(gè)階段的一個(gè)蒙特卡洛模擬結(jié)果。
對于變量超過兩個(gè)的情況,上述過程同樣適用。需要注意的是,在這種情況下,對于每一步從條件概率中得到樣本的過程,第②步中變量的順序是隨機(jī)選取的。
筆者的行業(yè)合作伙伴是一個(gè)馬來西亞公司,該公司為很多鉆井公司提供數(shù)據(jù)管理服務(wù)。本文采用了該公司數(shù)據(jù)庫(見表1)中192次鉆井作業(yè)的數(shù)據(jù)集。每次鉆井作業(yè)的數(shù)據(jù)集中都包括每次鉆井作業(yè)中各階段的順序、每個(gè)鉆井階段的周期、深度等。典型鉆井施工井身結(jié)構(gòu)示意圖如圖1所示,由于本文重點(diǎn)對8個(gè)主要鉆井階段進(jìn)行分析,其他鉆井階段的數(shù)據(jù)就從數(shù)據(jù)集里剔除了。將這8個(gè)鉆井階段分成了4組,詳見下文。
圖1 典型鉆井施工井身結(jié)構(gòu)示意圖
表1 按照不同分類對414次鉆井作業(yè)的鉆井?dāng)?shù)據(jù)匯總
導(dǎo)眼或?qū)а劭椎闹饕康氖窃谧畛醯你@井過程中提供一個(gè)可靠的結(jié)構(gòu)基礎(chǔ)來保證井、井口和作業(yè)設(shè)備的穩(wěn)定性。鉆井開始后,導(dǎo)眼將鉆井液從井筒返排到鉆機(jī)。導(dǎo)眼鉆進(jìn)的過程一般需要0.35 d(見表2),約8.4 h。下一個(gè)作業(yè)就是下導(dǎo)管,即采用打樁機(jī)將套管用水泥固定在海床上。導(dǎo)管非常厚(厚度大于3 cm),非常短,在61~66 cm的井眼中,導(dǎo)管直徑可達(dá)47~51 cm[31]。下導(dǎo)管作業(yè)平均需要 0.78 d(見表 2),約18.7 h。下導(dǎo)管周期與深度之間的相關(guān)系數(shù)很小,為0.18,可能是由于到目前為止一直還沒有直井鉆井。
下導(dǎo)管后就是表層套管段鉆進(jìn),主要是鉆井鉆到表土層后向更深層鉆井時(shí)需要進(jìn)行的操作,通常會受到松軟地層和地下水滲入井眼的影響。鉆一個(gè)直徑約45 cm的表層套管段井眼,平均花費(fèi)1.9 d(見表2),有時(shí)要花14 d左右。下一個(gè)階段就是下表層套管,目的是將井筒中的設(shè)備和流體與周圍環(huán)境隔離開??紤]到固井,標(biāo)準(zhǔn)的套管直徑較?。s34 cm)。下表層套管平均需要1.55 d(見表2)。表層套管段鉆井周期與深度之間的皮爾森相關(guān)系數(shù)高達(dá) 0.80,說明本文方法可以預(yù)測出鉆至目標(biāo)深度所需的時(shí)間。
表2 數(shù)據(jù)集中選出的192次鉆井作業(yè)的統(tǒng)計(jì)數(shù)據(jù)
在鉆井作業(yè)中用時(shí)最長的就是技術(shù)套管段鉆進(jìn),平均要花5.2 d(見表2)。由于受到各種復(fù)雜因素的影響,如海床的地質(zhì)特征、井筒性質(zhì)、設(shè)備類型和操作以及各種意料之外的技術(shù)和非技術(shù)事故都會對鉆井周期造成影響,精細(xì)地模擬技術(shù)套管段鉆進(jìn)時(shí)間是非常困難的。表2所示的數(shù)據(jù)集中的數(shù)據(jù)也證明了這一點(diǎn),鉆井周期的方差很大。一旦鉆井完成,下技術(shù)套管階段平均只需要2.4 d就可以完成(見表2)。一般技術(shù)套管段井眼和套管直徑分別為31,24 cm[31]。
為了到達(dá)目標(biāo)油層,需要進(jìn)行生產(chǎn)套管段鉆進(jìn),平均需要3.7 d(見表2)。在生產(chǎn)套管段鉆進(jìn)中會出現(xiàn)更多的技術(shù)問題,最長可能需要 2個(gè)星期。目標(biāo)層下生產(chǎn)套管可以封閉產(chǎn)層,為下一步采油提供基礎(chǔ)。一般生產(chǎn)套管段井眼和套管直徑分別為22,18 cm。下套管平均用時(shí)1.8 d(見表2)。由于成本和技術(shù)問題,深井中生產(chǎn)套管也可能偶爾換成生產(chǎn)尾管。
為了建立無事故建井周期的概率模型系統(tǒng),在重建概率密度函數(shù)和進(jìn)行馬爾科夫鏈蒙特卡洛模擬時(shí),提出了行業(yè)中常用的兩個(gè)假設(shè):①假設(shè)實(shí)測數(shù)據(jù)點(diǎn)數(shù)量足以準(zhǔn)確完整地代表某個(gè)鉆井階段的實(shí)際分布;②假設(shè)每個(gè)鉆井階段周期的預(yù)測是一個(gè)隨機(jī)的過程,包括輸入數(shù)據(jù)和輸出數(shù)據(jù)的固有隨機(jī)性,而且每個(gè)鉆井階段都是獨(dú)立的隨機(jī)過程,與其他鉆井階段之間沒有相關(guān)性。
對于不同的鉆井階段,即導(dǎo)眼鉆進(jìn)、表層套管段鉆進(jìn)、技術(shù)套管段鉆進(jìn)、生產(chǎn)套管段鉆進(jìn)、下導(dǎo)管、下表層套管、下技術(shù)套管和下生產(chǎn)套管,采用Bernacchia和 Pigolotti提出的自適應(yīng)核密度估計(jì)法[27]可以得到鉆井周期與深度的聯(lián)合概率分布,如圖 2所示。圖 2中這些階段的特征總結(jié)如下:①所有鉆井階段的施工周期都是多個(gè)橢圓區(qū)域的疊加,在每個(gè)橢圓區(qū)域中數(shù)據(jù)分布都是從邊緣向中心越來越密集;②幾乎所有的鉆井階段主要橢圓的主軸都在水平方向上被不均勻或不平行地拉長;③CH、SH、PH、SC和 PC階段的橢圓向?qū)蔷€方向傾斜(見圖2a、圖2b、圖2d、圖2f和圖2h中的黃色和綠色部分),這幾個(gè)階段鉆井周期與深度的皮爾森相關(guān)系數(shù)較高(0.35~0.80)。按照圖 2中的分布,可以根據(jù)已知深度預(yù)測得到鉆井周期的條件概率,反之也可以根據(jù)鉆井周期預(yù)測得到深度的條件概率。
圖2 8個(gè)鉆井階段無事故鉆井周期與深度的聯(lián)合概率分布
本文主要關(guān)注對鉆井周期(時(shí)間)的預(yù)測,圖 3是隨深度變化的無事故鉆井周期條件概率的空間分布。圖3中水平線表示采樣深度,針對這一深度(將在圖4中使用)計(jì)算建井周期的一維條件概率。圖3表征了在不同深度下鉆井周期不同的可能性,但實(shí)際上鉆井周期隨著深度的變化成比例地變化。這與直觀感覺一致,即井越深,鉆井、下套管和固井所需的時(shí)間就越長。
圖3 8個(gè)鉆井階段隨深度變化的無事故鉆井周期條件概率的空間分布(水平的白色條狀區(qū)表示從傅里葉變換中剔除的低概率區(qū))
給定條件概率,就可以對已知深度的各個(gè)鉆井階段的周期進(jìn)行預(yù)測。圖 4為在給定深度下無事故鉆井周期的條件概率分布。例如,圖4c描述了在技術(shù)套管段鉆進(jìn)階段鉆進(jìn)垂深2 000 m的鉆井周期條件概率。圖4中,縱坐標(biāo)的值越大表示鉆井周期的概率越大,根據(jù)主要概率分布曲線得出多個(gè)眾數(shù),主要概率分布曲線及其貢獻(xiàn)量(用百分比表示)在圖中展示,但貢獻(xiàn)量占比小于 1%或者超出繪圖窗的概率曲線不在圖中展示。以下技術(shù)套管階段(見圖4g)為例,第1個(gè)概率分布曲線(貢獻(xiàn)量占比97%)眾數(shù)為2.1 d,第2個(gè)概率分布曲線(貢獻(xiàn)量占比1%)眾數(shù)為6.7 d,表示概率最大的無事故鉆井周期為2.1 d,其次為6.7 d。圖4中棕色區(qū)域代表每個(gè)眾數(shù)的 P10~P90范圍,仍以下技術(shù)套管階段(見圖4g)為例,第1個(gè)概率分布曲線中,在P10~P90范圍內(nèi),無事故鉆井周期在1.1~3.8 d。
圖4 8個(gè)鉆井階段在給定深度下無事故鉆井周期的條件概率分布
根據(jù)各鉆井階段的深度相關(guān)概率模型,可以針對已知垂深預(yù)測出完成某個(gè)鉆井階段所需的周期。本文對主要概率分布進(jìn)行了評估,給出了值域內(nèi)的最高發(fā)生概率。預(yù)測結(jié)果以概率范圍對應(yīng)的鉆井周期最小值到最大值的形式給出,而不是給出一個(gè)確定的值(不能反映實(shí)際鉆井中的不可預(yù)見性),作業(yè)者可以據(jù)此定量評估鉆井計(jì)劃的風(fēng)險(xiǎn)。
進(jìn)行鉆井周期預(yù)測時(shí)的主要難題之一就是數(shù)據(jù)不全。在本文采用的數(shù)據(jù)集中,只有2%的鉆井施工作業(yè)包含所有8個(gè)階段,大多數(shù)鉆井作業(yè)僅包括3~5個(gè)階段。此外,所有階段的數(shù)據(jù)不是呈尖峰態(tài)分布(峰度大于3),就是呈低峰態(tài)分布(峰度小于3)(見表2),在使用常規(guī)的基于數(shù)據(jù)的統(tǒng)計(jì)模型時(shí)就有一定難度。由于數(shù)據(jù)直方圖肯定會偏離正態(tài)分布,導(dǎo)致難度更大。由于不是所有鉆井作業(yè)都包含這 8個(gè)階段的數(shù)據(jù),很難在一個(gè)模型中同時(shí)考慮所有階段。
通過馬爾科夫鏈蒙特卡洛模擬可以對一次包含所有 8個(gè)階段的完整鉆井作業(yè)的無事故鉆井周期進(jìn)行預(yù)測,如圖5所示。圖5展示了不同模擬次數(shù)下的模擬結(jié)果,1條藍(lán)色線表示1次模擬的結(jié)果。圖中黑色實(shí)線表示實(shí)測數(shù)據(jù),通過對每個(gè)鉆井階段的原始數(shù)據(jù)進(jìn)行算術(shù)平均得到??梢钥闯?,當(dāng)模擬次數(shù)為1 000或更多時(shí),蒙特卡洛模擬的眾數(shù)大概為20 d(見圖5c或圖5d中紅色實(shí)線),這與實(shí)際鉆井階段的平均時(shí)間19 d(由圖5c或圖5d中所有藍(lán)色實(shí)線所示數(shù)據(jù)求平均值得到)基本吻合。這說明通過馬爾科夫鏈蒙特卡洛模擬能夠有效地獲得實(shí)測數(shù)據(jù)的平均值。經(jīng)過1 000次模擬后,P10~P90范圍對應(yīng)的鉆井周期范圍是穩(wěn)定的,預(yù)計(jì)在15~29 d。在某些情況下,一次完整的鉆井過程可能會持續(xù)長達(dá) 43 d,這種風(fēng)險(xiǎn)是不可排除的。需要注意的是,雖然圖 5是針對每個(gè)鉆井階段的已知深度范圍對各階段的所有值隨機(jī)運(yùn)行的結(jié)果,但是對于一個(gè)確定的深度,仍然可以確定蒙特卡洛模擬結(jié)果。
圖5 不同模擬次數(shù)下無事故鉆井周期的馬爾科夫鏈蒙特卡洛模擬結(jié)果
綜上,可以通過較多次數(shù)的蒙特卡洛模擬來預(yù)測鉆井周期。這種方法的好處是,不需要同時(shí)掌握一次完整鉆井作業(yè)中的所有階段的所有數(shù)據(jù),而是可以將缺失數(shù)據(jù)的鉆井階段聯(lián)合起來,進(jìn)行完整的風(fēng)險(xiǎn)評估。模擬次數(shù)越多,對整個(gè)鉆井作業(yè)風(fēng)險(xiǎn)的定量評價(jià)結(jié)果越可靠。
通常認(rèn)為,在很多情況下根據(jù)已知數(shù)據(jù)集建立的統(tǒng)計(jì)或概率模型足以在實(shí)際中應(yīng)用,而無需進(jìn)行更多評估[32-34]。然而,本文基于兩個(gè)方面的考慮進(jìn)行了更多的分析來驗(yàn)證模型。一方面,有必要對比和驗(yàn)證模型中得到的參數(shù)的最優(yōu)性。另一方面,將模擬參數(shù)與實(shí)際鉆井參數(shù)匹配,有助于了解是否可以根據(jù)模型獲得數(shù)據(jù)的主要特點(diǎn)。在數(shù)據(jù)不全的情況下建立模型時(shí),驗(yàn)證就顯得更加重要。
重建概率密度函數(shù)的難題之一是在選取最優(yōu)參數(shù)時(shí)的主觀性,包括函數(shù)和帶寬的優(yōu)先形式。而核密度估計(jì)法受核帶寬和核形狀選擇的影響。通過對經(jīng)驗(yàn)特征函數(shù)進(jìn)行傅里葉變換,Bernacchia和 Pigolotti[27]發(fā)現(xiàn),低通濾波器有助于獲得自適應(yīng)核密度估計(jì)值,可將模擬概率密度函數(shù)與實(shí)際數(shù)據(jù)之間的差異降到最低。當(dāng)樣本數(shù)量很大時(shí),自適應(yīng)核密度估計(jì)法可以完全收斂,而不受核帶寬和核形狀選擇的影響。
截止頻率是建立自適應(yīng)核密度估計(jì)函數(shù)時(shí)所需的唯一參數(shù),Bernacchia和Pigolotti[27]認(rèn)為,一半的經(jīng)驗(yàn)特征函數(shù)值在特定經(jīng)驗(yàn)閾值之上。O’Brien等[28]通過引入快速傅里葉變換對核密度估計(jì)法進(jìn)行了擴(kuò)展,得到了與超體積相關(guān)的替代經(jīng)驗(yàn)閾值。Bernacchia和Pigolotti[27]證明了這個(gè)替代經(jīng)驗(yàn)閾值在人工數(shù)據(jù)計(jì)算時(shí)是有效的,同時(shí),O’Brien等[28]發(fā)現(xiàn),他們的參數(shù)對于人工模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)都是有效且穩(wěn)定的。O’Brien等[28]也證明了選擇的最優(yōu)參數(shù)與其他自動帶寬選擇法選擇的參數(shù)的表現(xiàn)同樣優(yōu)異。因此,本文采用了O’Brien等[28]的方法和經(jīng)驗(yàn)閾值。
圖 6是不同鉆井階段的實(shí)測數(shù)據(jù)與多變量概率模型得到的模擬結(jié)果之間的統(tǒng)計(jì)對比。對于實(shí)測數(shù)據(jù),統(tǒng)計(jì)了每個(gè)鉆井階段現(xiàn)有的所有數(shù)據(jù)。對于模擬結(jié)果,采用了每個(gè)鉆井階段的概率模型得出的10 000個(gè)數(shù)據(jù)點(diǎn),剔除了異常值。結(jié)果發(fā)現(xiàn),模擬結(jié)果與實(shí)測數(shù)據(jù)的統(tǒng)計(jì)分析結(jié)果具有高度相似性。例如,技術(shù)套管段鉆進(jìn)階段(見圖6c)的模擬結(jié)果的中位數(shù)是4.9 d(見圖6c),與實(shí)測數(shù)據(jù)的中位數(shù)4.3 d(見表2)非常接近。
為了全面檢驗(yàn)?zāi)P偷男阅?,總結(jié)了圖 6中所有統(tǒng)計(jì)箱線圖的中位數(shù)和須值。圖7a是無事故鉆井周期的統(tǒng)計(jì)結(jié)果,可以看出各階段模擬結(jié)果的中位數(shù)和須值與實(shí)測數(shù)據(jù)的中位數(shù)和須值之間高度相關(guān),皮爾森相關(guān)系數(shù)均高達(dá)0.989。圖7b是總鉆井周期的統(tǒng)計(jì)結(jié)果,皮爾森相關(guān)系數(shù)分別高達(dá)0.990和0.959。值得注意的是,每個(gè)階段的實(shí)測數(shù)據(jù)點(diǎn)不超過132個(gè)。盡管數(shù)據(jù)不多,模擬結(jié)果與實(shí)測數(shù)據(jù)之間仍有較高的匹配度。
圖6 8個(gè)鉆井階段實(shí)測數(shù)據(jù)與多變量概率模型模擬結(jié)果的統(tǒng)計(jì)分析結(jié)果對比
圖7 無事故鉆井周期和總鉆井周期的實(shí)測數(shù)據(jù)與模擬結(jié)果的統(tǒng)計(jì)參數(shù)對比
無事故鉆井周期與總鉆井周期之間總是存在著顯著的差異。為了對這個(gè)差異進(jìn)行量化,重新推導(dǎo)了每個(gè)階段的深度相關(guān)概率模型。然后,對數(shù)據(jù)集中的所有鉆井作業(yè)的總鉆井周期進(jìn)行了新的馬爾科夫鏈蒙特卡洛模擬。圖 8為模擬得到的無事故鉆井周期和總鉆井周期的概率分布。對于無事故鉆井周期,P10和 P90的對應(yīng)值分別為10 d和26 d,也就是說,對于一次完整的鉆井作業(yè),無事故鉆井周期有80%的概率在10~26 d。相比之下,對于總鉆井周期,P10和 P90的對應(yīng)值分別為14 d和38 d。可見,如果鉆井過程中出現(xiàn)事故,鉆井周期可能延長至少4 d,至多12 d。此外,總鉆井周期的概率分布曲線沿著橫軸被拉長,尾部更長,表示不僅鉆井周期延長,不確定性范圍也擴(kuò)大。
圖8 通過馬爾科夫鏈蒙特卡洛模擬得到的一次完整的鉆井作業(yè)的無事故鉆井周期和總鉆井周期的概率分布
圖9為經(jīng)過10 000次馬爾科夫鏈蒙特卡洛模擬后得出的各階段無事故鉆井周期和總鉆井周期的累計(jì)概率分布??梢钥闯?,生產(chǎn)套管段鉆進(jìn)階段無事故鉆井周期與總鉆井周期之間的差異最大,最大相差超過10 d(累計(jì)概率 95%);表層套管段鉆進(jìn)和技術(shù)套管段鉆進(jìn)階段的總鉆井周期會比無事故鉆井周期大約多出 2 d(累計(jì)概率95%)。
圖9 經(jīng)過10 000次馬爾科夫鏈蒙特卡洛模擬后得出的各階段無事故鉆井周期和總鉆井周期的累計(jì)概率分布
概率法之所以受到關(guān)注是因?yàn)樗梢岳酶怕史植己瘮?shù)獲取更多數(shù)據(jù)。由于機(jī)器學(xué)習(xí)模型依賴數(shù)據(jù)的可用性,數(shù)據(jù)不全會導(dǎo)致機(jī)器學(xué)習(xí)模型表現(xiàn)變差,因此概率法的應(yīng)用就顯得非常重要。為了進(jìn)一步檢驗(yàn)概率法提高機(jī)器學(xué)習(xí)模型預(yù)測能力的作用,對不同數(shù)量的輸入數(shù)據(jù)進(jìn)行了隨機(jī)森林(RF)模型的性能測試。
采用泰勒圖描述了不同數(shù)量輸入數(shù)據(jù)情況下隨機(jī)森林模型的性能,如圖10所示。采用泰勒圖可以在一個(gè)圖中對 3個(gè)主要的統(tǒng)計(jì)參數(shù),即皮爾森相關(guān)系數(shù)、均方根誤差和標(biāo)準(zhǔn)差進(jìn)行評價(jià)。從圖10中可以看出,模擬數(shù)據(jù)與實(shí)測數(shù)據(jù)具有相近的標(biāo)準(zhǔn)差,均在2.5~3.3 d這一范圍內(nèi);均方根誤差也相近,均在2.2~2.6 d這一范圍內(nèi);所有情況下隨機(jī)森林模型都表現(xiàn)良好,皮爾森相關(guān)系數(shù)較高(均大于 0.8)。這說明模型模擬得到的數(shù)據(jù)與實(shí)測數(shù)據(jù)具有相似的特征。也就是說,可以采用概率模型來估計(jì)鉆井?dāng)?shù)據(jù),將模擬數(shù)據(jù)用于機(jī)器學(xué)習(xí)模型的訓(xùn)練。
圖10 不同數(shù)量輸入數(shù)據(jù)下隨機(jī)森林模型性能的對比
本文提出了一種用多變量概率模型來預(yù)測鉆井周期的方法。這種方法采用自適應(yīng)核密度估計(jì)法來建立與深度相關(guān)的鉆井周期概率模型,并結(jié)合馬爾科夫鏈蒙特卡洛法模擬一次完整鉆井作業(yè)周期的概率分布。
利用行業(yè)伙伴提供的數(shù)據(jù)集對模型進(jìn)行了測試,數(shù)據(jù)集中的數(shù)據(jù)都是在實(shí)際鉆井施工中采集的。研究表明,根據(jù)本文建立的模型,當(dāng)鉆井深度一定時(shí),可以預(yù)測出各個(gè)主要鉆井階段可能的施工周期,將這些施工周期結(jié)合起來就可以得到整個(gè)鉆井階段的總施工周期。此外還發(fā)現(xiàn),如果在鉆井過程中發(fā)生事故,在10%~90%的置信區(qū)間內(nèi),鉆井周期延長至少4 d,至多 12 d。采用概率法獲取的模擬數(shù)據(jù)可用于機(jī)器學(xué)習(xí)模型的訓(xùn)練。
符號注釋:
C——皮爾森相關(guān)系數(shù);d——深度,m;E(u)——經(jīng)驗(yàn)特征函數(shù);f——多變量概率密度函數(shù);?f——f的最優(yōu)值;F——傅里葉變換;F-1——逆傅里葉變換;i——樣本序號;j——數(shù)據(jù)點(diǎn)序號;k——鉆井階段序號;K——核函數(shù);m——鉆井階段個(gè)數(shù);n——數(shù)據(jù)點(diǎn)個(gè)數(shù);N——有相關(guān)數(shù)據(jù)記錄的鉆井作業(yè)次數(shù),簡稱記錄次數(shù);Nd——對模擬結(jié)果進(jìn)行統(tǒng)計(jì)分析時(shí)采用的數(shù)據(jù)點(diǎn)個(gè)數(shù);Nm——蒙特卡洛模擬次數(shù);p——光滑變量;p1,p2,…,pn——離散數(shù)據(jù)點(diǎn);P10,P90——目標(biāo)值可信度10%和90%對應(yīng)的概率,%;r——包含所有鉆井階段的蒙特卡洛模擬結(jié)果的個(gè)數(shù);t——鉆井周期,d;u——頻域;κ(u) ——核函數(shù)的傅里葉變換;κ?(u)——κ(u)的最優(yōu)值;φ(u) ——傅里葉變換的逆變換;φ?(u)——最優(yōu)逆變換。