程希 ,周軍 ,傅海成 ,羅雄民
(1.西安石油大學(xué)地球科學(xué)與工程學(xué)院,陜西 西安 710065;2.西安石油大學(xué)院士專家工作站,陜西 西安 710065;3.中國(guó)石油集團(tuán)測(cè)井有限公司,陜西 西安 710075;4.中國(guó)石油集團(tuán)勘探開(kāi)發(fā)研究院,北京 100083)
自從1927 年法國(guó)斯倫貝謝兄弟獲取第一條測(cè)井曲線以來(lái),測(cè)井技術(shù)在經(jīng)過(guò)模擬測(cè)井、數(shù)字測(cè)井、數(shù)控測(cè)井、成像測(cè)井等4 代的技術(shù)發(fā)展,產(chǎn)生了大量的數(shù)據(jù)。但由于受限于學(xué)習(xí)算法與硬件算力,這些數(shù)據(jù)沒(méi)有很好地被挖掘利用。非常規(guī)、超深油氣和地?zé)岬染G色能源日益引起石油工業(yè)界的重視,使傳統(tǒng)的測(cè)井評(píng)價(jià)對(duì)象也在發(fā)生變化。這些非常規(guī)油氣儲(chǔ)層通常表現(xiàn)出低對(duì)比度、孔隙結(jié)構(gòu)復(fù)雜、礦物成份復(fù)雜,以及地?zé)岬荣Y源的復(fù)雜巖性和評(píng)價(jià)目的的不同,用傳統(tǒng)的巖石物理模型難以滿足現(xiàn)場(chǎng)工程需求。近年來(lái),有學(xué)者提出了數(shù)據(jù)模型驅(qū)動(dòng)的地球科學(xué)知識(shí)發(fā)現(xiàn)的思想,開(kāi)辟了地球科學(xué)研究的新思路(Karianne et al.,2019;Markus et al.,2019)。隨著CPU、GPU、TPU 等硬件算力的顯著提升,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法的突破,特別是人工智能算法在圖像分類和自然語(yǔ)言處理方面明顯的進(jìn)展,點(diǎn)燃起油氣研究人員和現(xiàn)場(chǎng)工程師的熱情,他們?cè)噲D把機(jī)器學(xué)習(xí)應(yīng)用在測(cè)井方法模擬、儀器設(shè)計(jì)、巖石物理分析、測(cè)井作業(yè)以及測(cè)井解釋等方面。一些學(xué)者提出基于機(jī)器學(xué)習(xí)與大數(shù)據(jù)技術(shù)的地球物理測(cè)井系統(tǒng)的思想,試圖形成“測(cè)井方法、儀器制造、測(cè)井作業(yè)、巖石物理以及測(cè)井綜合解釋”一體化,并把人工智能測(cè)井(AIL)的發(fā)展分為3 個(gè)階段(程希等,2019,2021)。也有研究人員對(duì)包括機(jī)器學(xué)習(xí)在內(nèi)的人工智能在國(guó)內(nèi)的應(yīng)用前景進(jìn)行了綜述(鄒文波,2020)。一些學(xué)者提出了人工智能技術(shù)在測(cè)井技術(shù)中的應(yīng)用構(gòu)想和人工智能在石油勘探開(kāi)發(fā)領(lǐng)域的應(yīng)用前景(匡立春等,2021;李寧等,2021)。中國(guó)石油天然氣集團(tuán)有限公司正在研發(fā)的勘探開(kāi)發(fā)夢(mèng)想云平臺(tái),通過(guò)統(tǒng)一數(shù)據(jù)湖、統(tǒng)一技術(shù)平臺(tái)、通用應(yīng)用推進(jìn)油氣勘探開(kāi)發(fā)的智能化(杜金虎等,2020;趙麗莎等,2020)。人工智能或機(jī)器學(xué)習(xí)在流體評(píng)價(jià)中的應(yīng)用也陸續(xù)開(kāi)展(羅剛等,2022)。中石化集團(tuán)公司以油田石化智云工業(yè)互聯(lián)網(wǎng)平臺(tái)為基礎(chǔ)建立智能工廠、智能油田、智能化研究院。中海油集團(tuán)提出在建設(shè)的智能油田技術(shù)平臺(tái)基礎(chǔ)上實(shí)現(xiàn)智能油田建設(shè)、勘探開(kāi)發(fā)數(shù)據(jù)治理的目標(biāo)。延長(zhǎng)石油則以延長(zhǎng)能源互聯(lián)網(wǎng)平臺(tái)為基礎(chǔ),實(shí)現(xiàn)能源生產(chǎn)、消費(fèi)、調(diào)度,設(shè)備狀態(tài)、數(shù)據(jù)分析、優(yōu)化效益、智能仿真、智庫(kù)服務(wù)和綠色經(jīng)濟(jì)一體化。地礦系統(tǒng)已經(jīng)探索結(jié)合大數(shù)據(jù)、云計(jì)算、人工智能、5G 和區(qū)塊鏈等高新信息技術(shù),探索自然資源要素的遙感快速智能識(shí)別、地質(zhì)環(huán)境動(dòng)態(tài)變化定量分析與模擬預(yù)測(cè)、圖譜合一的譜遙感地球體檢等應(yīng)用(韓海輝等,2022;李志忠等,2022)。在工程地質(zhì)方面,有科研人員利用基于高斯混合聚類算法的西安市人工填土空間分布研究(劉梁等,2022)。在國(guó)外,斯倫貝謝公司提出“通過(guò)DELFI 認(rèn)知E & P 環(huán)境發(fā)揮機(jī)器學(xué)習(xí)和人工智能的力量”構(gòu)想,用數(shù)字化更深入地對(duì)油藏描述,推進(jìn)油氣服務(wù)的智能化,他們的技術(shù)專家研究了一種使用機(jī)器學(xué)習(xí)來(lái)消除傳統(tǒng)地震解釋方法造成的操作瓶頸,改進(jìn)斷層解釋工作流程,應(yīng)用該流程成功地提取了地震體上細(xì)微的斷層位移。貝克休斯公司提出結(jié)合錄井、油井監(jiān)測(cè)、地層測(cè)試,以測(cè)井解釋等模塊為核心構(gòu)建大數(shù)據(jù)平臺(tái),以促進(jìn)人工智能技術(shù)在石油和天然氣行業(yè)中應(yīng)用。國(guó)外研究人員和工程師探索把機(jī)器學(xué)習(xí)等機(jī)器學(xué)習(xí)算法應(yīng)用于復(fù)雜巖性識(shí)別、孔隙度求取、測(cè)井?dāng)?shù)據(jù)質(zhì)量控制、橫波數(shù)據(jù)提取、隨鉆電阻率測(cè)井模擬等方面開(kāi)展探索應(yīng)用(Akkurt et al.,2019;Gupta et al.,2019;Kuvichko et al.,2019;Oruganti et al.,2019;Wu et al.,2019;Xu et al.,2019)。筆者依據(jù)數(shù)據(jù)和物理模型驅(qū)動(dòng)的知識(shí)發(fā)現(xiàn)范式,按照“數(shù)據(jù)-算法-平臺(tái)-知識(shí)-應(yīng)用場(chǎng)景”的思路,基于測(cè)井大數(shù)據(jù)和大數(shù)據(jù)基礎(chǔ)上的機(jī)器學(xué)習(xí),開(kāi)展基于測(cè)井大數(shù)據(jù)的機(jī)器學(xué)習(xí)算法特點(diǎn)、屬性,以及地球物理測(cè)井評(píng)價(jià)的應(yīng)用場(chǎng)景分析,以及機(jī)器學(xué)習(xí)與地球物理測(cè)井應(yīng)用場(chǎng)景的對(duì)應(yīng)關(guān)系研究,并以實(shí)例分析了其在解決復(fù)雜巖性識(shí)別、儲(chǔ)層分類、力學(xué)評(píng)價(jià)及氣藏監(jiān)測(cè)等應(yīng)用。
近年來(lái),測(cè)井大數(shù)據(jù)和人工智能(AI)在油氣工業(yè)界受到越來(lái)越多的關(guān)注,正在成為解決復(fù)雜測(cè)井評(píng)價(jià)問(wèn)題最常用和最有效的方法之一。面向測(cè)井大數(shù)據(jù)的機(jī)器學(xué)習(xí)算法的發(fā)展、硬件算力的增強(qiáng)和存儲(chǔ)器價(jià)格的降低,為機(jī)器學(xué)習(xí)算法的應(yīng)用提供了數(shù)據(jù)和硬件支撐。而測(cè)井大數(shù)據(jù)的形成則包括多源化的測(cè)井作業(yè),分布式井下傳感器,巖石物理分析測(cè)試數(shù)據(jù),以及與其相關(guān)的地質(zhì)勘探、鉆井、錄井、測(cè)試等數(shù)據(jù)。測(cè)井技術(shù)發(fā)展過(guò)程中形成的多樣化記錄格式的數(shù)據(jù),與測(cè)井相關(guān)的數(shù)據(jù),如錄井?dāng)?shù)據(jù),地質(zhì)測(cè)試,巖心分析,動(dòng)態(tài)測(cè)試,模擬數(shù)據(jù),后校正和解釋處理結(jié)果,永久傳感器記錄數(shù)據(jù)等形成測(cè)井大數(shù)據(jù)。測(cè)井大數(shù)據(jù)除呈現(xiàn)出大數(shù)據(jù)的共有特征之外,還具有多尺度性特點(diǎn),即巖心掃描數(shù)據(jù)具有微米到厘米尺度,電聲成像數(shù)據(jù)分辨率具有毫米到厘米尺度。常規(guī)的微電阻率和聲核探測(cè)深度在厘米尺度級(jí),而側(cè)向感應(yīng)類在2 m 尺度內(nèi),過(guò)套管電阻率測(cè)井則在10 m 尺度內(nèi),井間聲波和電磁則在幾百米到1 km 范圍內(nèi)。
人工智能是一種機(jī)器吸收信息來(lái)執(zhí)行具有人類智能特征的任務(wù)和能力的技術(shù),如識(shí)別物體形態(tài)和聲音、從環(huán)境中學(xué)習(xí)和解決問(wèn)題。機(jī)器學(xué)習(xí)是對(duì)一組數(shù)據(jù)進(jìn)行分割、排序和轉(zhuǎn)換,提取問(wèn)題內(nèi)在特征,以最大限度地提高對(duì)目標(biāo)數(shù)據(jù)集中的模式進(jìn)行分類、預(yù)測(cè)、聚類或發(fā)現(xiàn)的能力。深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)算法,它構(gòu)建了越來(lái)越復(fù)雜的學(xué)習(xí)層次結(jié)構(gòu),具有學(xué)習(xí)的正向和反向傳播能量。多層人工神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)算法的例子。
1.2.1 機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)
機(jī)器學(xué)習(xí)庫(kù)是通過(guò)云平臺(tái)的Spark 接口,并在Python 和R 庫(kù)中與NumPy 相互操作??梢允褂萌魏畏植际酱髷?shù)據(jù)源,這樣易于在云計(jì)算的工作流中實(shí)現(xiàn)。以集成機(jī)器學(xué)習(xí)為例,說(shuō)明機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)。集成機(jī)器學(xué)習(xí)是一種將弱學(xué)習(xí)算法的結(jié)果融合成高質(zhì)量分類或預(yù)測(cè)的新方法。集成機(jī)器算法的泛化能力通常比單個(gè)學(xué)習(xí)者的泛化能力強(qiáng)。首先,學(xué)習(xí)數(shù)據(jù)可能無(wú)法提供足夠的信息用于單個(gè)最佳機(jī)器學(xué)習(xí)算法。其次,單個(gè)學(xué)習(xí)算法的搜索過(guò)程很慢。正在搜索的假設(shè)空間有可能不包含真正的目標(biāo)函數(shù),而集成機(jī)器學(xué)習(xí)算法能更好逼近真實(shí)函數(shù),尤其是對(duì)不穩(wěn)定的學(xué)習(xí)算法,如決策樹(shù)或神經(jīng)網(wǎng)絡(luò)。機(jī)器學(xué)習(xí)算法根據(jù)對(duì)輸入數(shù)據(jù)的人工干預(yù)程度,可分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)。監(jiān)督學(xué)習(xí)主要由決策樹(shù)、樸素貝葉斯法和支持向量機(jī)等。非監(jiān)督學(xué)習(xí)主要是主成分分析,主要用于數(shù)據(jù)降維以及特性挖掘。
當(dāng)i從1 變化到N 時(shí),假設(shè)給定測(cè)井訓(xùn)練數(shù)據(jù)。假設(shè)fm是一些弱分類器。損失函數(shù)I 的值為0 或1,定義為下式:
經(jīng)過(guò)學(xué)習(xí)處理,最終的分類器基于弱分類器的線性組合:
從本質(zhì)上講,集成算法是一種貪婪算法,它通過(guò)優(yōu)化一個(gè)弱分類器的權(quán)值并添加一個(gè)弱分類器,逐步地構(gòu)建一個(gè)強(qiáng)分類器g(x)?;貧w算法依據(jù)RMSE 或MSE 最小化,調(diào)整權(quán)重來(lái)優(yōu)選學(xué)習(xí)算法。通過(guò)算法試算的RMSE 比較,其權(quán)重函數(shù)為:
例如,y1、y2分別為公式(6)中的機(jī)器學(xué)習(xí)算法1和2, 試算出MAE 或RME。當(dāng)?shù)趇個(gè)算法得到的MAE 偏差小于第i+1 個(gè)算法時(shí),選擇第i個(gè)算法,繼續(xù)比較,直到選擇出,最佳算法為止(圖1)。機(jī)器學(xué)習(xí)算法是通過(guò)已有的結(jié)果數(shù)據(jù)構(gòu)建模型,來(lái)預(yù)測(cè)未知的結(jié)果,它是基于已知結(jié)果的數(shù)據(jù)集構(gòu)建學(xué)習(xí)模型。通過(guò)將這些模型應(yīng)用于新數(shù)據(jù)集,并自動(dòng)完成預(yù)測(cè)。它擅長(zhǎng)從數(shù)據(jù)中提取特性知識(shí),以構(gòu)建精確的模型。機(jī)器學(xué)習(xí)算法最適合基于已知結(jié)果的觀察對(duì)新數(shù)據(jù)進(jìn)行快速、自動(dòng)預(yù)測(cè)。機(jī)器學(xué)習(xí)算法能很方便地測(cè)試和優(yōu)化仿真模型,它通常是通過(guò)大數(shù)據(jù)平臺(tái)的計(jì)算機(jī)高級(jí)語(yǔ)言來(lái)實(shí)現(xiàn)的。
圖1 自適應(yīng)機(jī)器學(xué)習(xí)算法處理流程圖Fig.1 Processing chart on adaptive machine learning
現(xiàn)有的測(cè)井?dāng)?shù)據(jù)結(jié)合其他數(shù)據(jù),應(yīng)用機(jī)器學(xué)習(xí)算法以解決實(shí)際測(cè)井解釋問(wèn)題。這就需要花費(fèi)大量時(shí)間來(lái)選擇、運(yùn)行、調(diào)整和算法評(píng)估機(jī)器學(xué)習(xí)算法,以確保能有效地利用時(shí)間來(lái)達(dá)到完成測(cè)井解釋問(wèn)題的目標(biāo)。需要評(píng)估所用算法的性能和作用,它是訓(xùn)練和測(cè)試算法的依據(jù)。應(yīng)用這一指標(biāo)RSME(MAE)或精度對(duì)多種算法的結(jié)果進(jìn)行評(píng)估,并根據(jù)結(jié)果可以確定哪些算法的參數(shù)需要調(diào)整,能取得更高的精度。
機(jī)器學(xué)習(xí)模型的性能是用經(jīng)過(guò)訓(xùn)練的模型對(duì)測(cè)試數(shù)據(jù)集預(yù)測(cè)的度量,例如分類,回歸和聚類進(jìn)行評(píng)價(jià)。對(duì)測(cè)井?dāng)?shù)據(jù)進(jìn)行預(yù)處理,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)要求格式統(tǒng)一。根據(jù)分類、回歸或者預(yù)測(cè)問(wèn)題,選擇適合不超過(guò)10 個(gè)標(biāo)準(zhǔn)算法,然后按照測(cè)試指標(biāo)評(píng)價(jià)它們的性能。如果要測(cè)試許多方法,則可能必須重新預(yù)處理所準(zhǔn)備的數(shù)據(jù),并減小所選數(shù)據(jù)集的大小。為了提高效率,盡可能使用較小的數(shù)據(jù)集對(duì)不同的機(jī)器學(xué)習(xí)算法進(jìn)行評(píng)估,而使用數(shù)據(jù)集中進(jìn)行算法參數(shù)調(diào)整,以獲取更高的評(píng)價(jià)指標(biāo)(圖2)。從總的數(shù)據(jù)集中,需要選擇一部分?jǐn)?shù)據(jù)作為訓(xùn)練集,而另一部分?jǐn)?shù)據(jù)作為測(cè)試集。算法將在訓(xùn)練集數(shù)據(jù)上進(jìn)行訓(xùn)練,并在測(cè)試集數(shù)據(jù)進(jìn)行評(píng)估,可以隨機(jī)選擇數(shù)據(jù)分割。訓(xùn)練數(shù)據(jù)集能夠體現(xiàn)預(yù)測(cè)模型的特征。特別是測(cè)試數(shù)據(jù)集與預(yù)測(cè)數(shù)據(jù)集數(shù)據(jù)架構(gòu)必須一致。與使用測(cè)試和訓(xùn)練數(shù)據(jù)集相比,交叉驗(yàn)證是使用整個(gè)轉(zhuǎn)換后的數(shù)據(jù)集來(lái)訓(xùn)練和測(cè)試機(jī)器學(xué)習(xí)算法。將數(shù)據(jù)集分成多個(gè)大小相等的實(shí)例組,并在所有實(shí)例組上訓(xùn)練該模型,在其他測(cè)試組數(shù)據(jù)上測(cè)試模型。不斷重復(fù)這一過(guò)程,以使實(shí)例數(shù)據(jù)都有機(jī)會(huì)作為測(cè)試數(shù)據(jù)集。對(duì)性能指標(biāo)(RSME 或MAE 等)評(píng)估學(xué)習(xí)算法的性能,也把訓(xùn)練組和測(cè)試組數(shù)據(jù)盡可能的互換,以防止出現(xiàn)過(guò)擬合問(wèn)題。測(cè)試各種機(jī)器學(xué)習(xí)算法,就是根據(jù)測(cè)井問(wèn)題確定是應(yīng)用監(jiān)督機(jī)器學(xué)習(xí)、非監(jiān)督機(jī)器學(xué)習(xí)。然后,確定測(cè)井解釋問(wèn)題的性質(zhì)以評(píng)估優(yōu)選機(jī)器學(xué)習(xí)算法。
分類對(duì)于測(cè)井技術(shù)而言,主要用于測(cè)井巖性識(shí)別。集成回歸算法的函數(shù)為:
式中:Xnew 為新數(shù)據(jù),predict 為訓(xùn)練學(xué)習(xí)的函數(shù),tree 為所選的樹(shù)分類方法。利用交叉驗(yàn)證是為了更好地了解樹(shù)對(duì)新數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確性。通常,交叉驗(yàn)證隨機(jī)把訓(xùn)練數(shù)據(jù)分成10 個(gè)部分它訓(xùn)練了10 棵新樹(shù),每棵樹(shù)上有9 棵樹(shù)數(shù)據(jù)。它檢查了樹(shù)上每個(gè)新樹(shù)的預(yù)測(cè)準(zhǔn)確性訓(xùn)練樹(shù)中未包含的數(shù)據(jù)。這種方法給出了很好的估計(jì)生成樹(shù)的預(yù)測(cè)精度,因?yàn)樗梢詼y(cè)試新樹(shù)在新數(shù)據(jù)上的準(zhǔn)確率或精度。集成學(xué)習(xí)方法的特點(diǎn)是將許多弱學(xué)習(xí)者的結(jié)果融合到一種高質(zhì)量的整體預(yù)測(cè)器中,這些算法具有相同的語(yǔ)法,根據(jù)需求探索出合適的精度最好的方法。
集成函數(shù)(Ens)為:
式中:X數(shù)據(jù)矩陣,每一行包含一個(gè)觀測(cè)值,每一列包含一個(gè)預(yù)測(cè)變量。Y為響應(yīng),它具有與X中的行相同數(shù)量的觀察值。model 是代表使用方法的類型。numbers 是指每個(gè)要素中以ENS 為單位的弱學(xué)習(xí)器的數(shù)量。因此,Ens 的元素?cái)?shù)是學(xué)習(xí)者中的元素?cái)?shù)量。評(píng)價(jià)學(xué)習(xí)質(zhì)量的方法,首先在獨(dú)立的測(cè)試集上評(píng)估整體,也可以通過(guò)交叉驗(yàn)證來(lái)評(píng)估整體。
1.2.2 適用性
現(xiàn)有的測(cè)井技術(shù)在儲(chǔ)層評(píng)價(jià)、巖石物理、儀器設(shè)計(jì)、測(cè)井信息采集和模擬仿真等方面,由于受有限模型和理論模擬的復(fù)雜性的影響,其應(yīng)用受到了限制。以概率分析、統(tǒng)計(jì)學(xué)和數(shù)據(jù)科學(xué)為基礎(chǔ)的機(jī)器學(xué)習(xí),則在解決上述問(wèn)題上有極大的優(yōu)勢(shì)。對(duì)測(cè)井工業(yè)而言,機(jī)器學(xué)習(xí)算法的應(yīng)用主要集中在測(cè)井儀器的快速物理建模,油藏油井監(jiān)測(cè),測(cè)井?dāng)?shù)據(jù)質(zhì)量控制;虛擬測(cè)井,數(shù)據(jù)生成。目前測(cè)井技術(shù)人員主要關(guān)注于困難井的測(cè)井?dāng)?shù)據(jù)質(zhì)量控制、缺少數(shù)據(jù)修復(fù)、多井多條曲線的深度匹配;多井測(cè)井解釋中飽和度、滲透率確定、巖性或巖相識(shí)別、力學(xué)評(píng)價(jià)、地震反演中聲阻抗信息提??;開(kāi)發(fā)中油井油藏監(jiān)測(cè)、油井壽命和油藏壽命預(yù)測(cè)。
機(jī)器學(xué)習(xí)算法的特點(diǎn)以及在測(cè)井技術(shù)上的應(yīng)用。測(cè)井?dāng)?shù)據(jù)質(zhì)量控制、測(cè)井模擬仿真以及巖石物理測(cè)試數(shù)據(jù),是測(cè)井綜合評(píng)價(jià)分析的基礎(chǔ)。綜合評(píng)價(jià)從單井的儲(chǔ)層評(píng)價(jià),巖石力學(xué)各向異性分析,到油藏監(jiān)測(cè),機(jī)器學(xué)習(xí)算法都能貫穿其中。詳細(xì)的解決問(wèn)題、實(shí)現(xiàn)手段、優(yōu)勢(shì)以及效果(表1)。通過(guò)對(duì)回歸樹(shù)、支持向量機(jī)、高斯回歸、集成樹(shù)分析等機(jī)器學(xué)習(xí)算法進(jìn)行了對(duì)比,用集成樹(shù)的機(jī)器學(xué)習(xí)算法修復(fù)了聲波橫波測(cè)井曲線,并對(duì)鄂爾多斯盆地頁(yè)巖油進(jìn)行了力學(xué)評(píng)價(jià)。根據(jù)已有的測(cè)井曲線應(yīng)用深度神經(jīng)網(wǎng)絡(luò)(DNN)等算法產(chǎn)生虛擬測(cè)井曲線。以測(cè)井曲線為對(duì)象、應(yīng)用神經(jīng)網(wǎng)絡(luò)對(duì)巖石靜態(tài)泊松比預(yù)測(cè)。利用神經(jīng)網(wǎng)絡(luò)、梯度回歸、高斯回歸等方法預(yù)測(cè)了隨鉆電阻率測(cè)井響應(yīng)。利用貝葉斯方法對(duì)超深方位電阻率測(cè)井進(jìn)行了解釋。對(duì)聲波信號(hào)應(yīng)用主成分分析和支持向量機(jī)的方法進(jìn)行分類。應(yīng)用機(jī)器學(xué)習(xí)算法對(duì)測(cè)井?dāng)?shù)據(jù)進(jìn)行質(zhì)量控制,測(cè)井曲線深度匹配。根據(jù)機(jī)器學(xué)習(xí)算法的特點(diǎn),可以應(yīng)用在地質(zhì)相分類或儲(chǔ)層分類,巖石物理實(shí)驗(yàn)?zāi)M,地質(zhì)力學(xué)特性預(yù)測(cè),機(jī)器學(xué)習(xí)算法的分類與其在測(cè)井中應(yīng)用的對(duì)應(yīng)關(guān)系,以及機(jī)器學(xué)習(xí)算法在測(cè)井中的應(yīng)用(圖3,表2),其中,相同顏色代表樹(shù)枝分類的相同層(圖3)。
表1 機(jī)器學(xué)習(xí)算法在測(cè)井中的應(yīng)用統(tǒng)計(jì)表Tab.1 Machine learning for logging applications
表2 機(jī)器學(xué)習(xí)算法特點(diǎn)及測(cè)井適用性統(tǒng)計(jì)表Tab.2 Characterization of machine learning and its applicability on well logging
圖3 機(jī)器學(xué)習(xí)算法的分類與其在測(cè)井中應(yīng)用的對(duì)應(yīng)關(guān)系圖Fig.3 Corresponding relationship between the classification of machine learning algorithm and its application in logging
集成機(jī)器學(xué)習(xí)算法包括套袋法、提升法、疊加法以及隨機(jī)森林法。套袋法的目的是降低模型的高方差。以決策樹(shù)為例,說(shuō)明其特點(diǎn)。在每個(gè)子樣本訓(xùn)練數(shù)據(jù)的基礎(chǔ)上建立多個(gè)決策樹(shù)。在不同的決策樹(shù)上訓(xùn)練數(shù)據(jù),減少在每個(gè)決策樹(shù)上過(guò)擬合的問(wèn)題。為了提高模型的效率,每棵決策樹(shù)都進(jìn)行深度成長(zhǎng)。每個(gè)決策樹(shù)的結(jié)果被聚合以形成最終的預(yù)測(cè)結(jié)果,這樣經(jīng)過(guò)聚合,預(yù)測(cè)數(shù)據(jù)的方差就降低了。提升法是按照順序集成多個(gè)的同類型分類器,每個(gè)模型或分類器基于下一個(gè)模型將使用的特征值進(jìn)行測(cè)試。它通過(guò)平均弱學(xué)習(xí)模型的權(quán)值,使弱學(xué)習(xí)模型變成強(qiáng)學(xué)習(xí)模型。疊加法結(jié)合多種分類或回歸技術(shù),使用完整的訓(xùn)練數(shù)據(jù)集訓(xùn)練較低級(jí)模型,然后使用較低級(jí)模型的結(jié)果訓(xùn)練組合模型。與增強(qiáng)訓(xùn)練不同,每個(gè)較低層次的模型都要進(jìn)行并行訓(xùn)練。來(lái)自較低層次模型的預(yù)測(cè)用作下一個(gè)模型的輸入,作為訓(xùn)練數(shù)據(jù)集,并形成一個(gè)堆棧,其中模型的頂層比模型的底層訓(xùn)練得更多。頂層模型具有較好的預(yù)測(cè)精度,它們是在低層模型的基礎(chǔ)上建立起來(lái)的。隨著堆棧的增加,最后以最小的誤差的模型進(jìn)行預(yù)測(cè)。組合模型或元模型的預(yù)測(cè)是基于對(duì)不同弱模型或低層模型的預(yù)測(cè)。它專注于產(chǎn)生更少的偏差模型。隨機(jī)森林法在自舉樣本上使用深度樹(shù)。將每個(gè)樹(shù)的輸出進(jìn)行組合以減少方差。在生長(zhǎng)每棵樹(shù)時(shí),數(shù)據(jù)集的采樣是基于減少不同輸出相關(guān)性的特征進(jìn)行樹(shù)生長(zhǎng)的。它適合于具有確定缺失數(shù)據(jù)的訓(xùn)練集數(shù)據(jù)。它的每棵樹(shù)都有不同的結(jié)構(gòu),這可能導(dǎo)致森林法的偏差略有增加,但由于結(jié)果是平均所有來(lái)自不同樹(shù)且特征相關(guān)性較少的預(yù)測(cè)結(jié)果,其方差的減少,有利于提高整體的預(yù)測(cè)性能。集成法是通過(guò)分類器的不同組合對(duì)復(fù)雜數(shù)據(jù)進(jìn)行研究和處理,以獲得更好的預(yù)測(cè)或分類效果。在集成學(xué)習(xí)中,每個(gè)模型的預(yù)測(cè)必定是不相關(guān)的。這將使模型的偏差和方差盡可能地低。該模型能在最小誤差的情況下提高效率,預(yù)測(cè)輸出。集成法是一種監(jiān)督學(xué)習(xí)算法,因?yàn)槟P椭笆怯脭?shù)據(jù)集進(jìn)行訓(xùn)練來(lái)進(jìn)行預(yù)測(cè)的。在集成學(xué)習(xí)中,分量分類器的數(shù)量應(yīng)與類標(biāo)簽的數(shù)量相同,以達(dá)到較高的準(zhǔn)確率。
目前的地球物理科學(xué)既是以數(shù)據(jù)驅(qū)動(dòng),也是以模型驅(qū)動(dòng)的研究領(lǐng)域。地球物理測(cè)井參數(shù)的反演問(wèn)題常常將兩者聯(lián)系起來(lái)。地球物理測(cè)井科學(xué)知識(shí)的發(fā)現(xiàn)將越來(lái)越多地來(lái)自于對(duì)測(cè)井大數(shù)據(jù)的分析、反演理論的新發(fā)展以及計(jì)算密集型模擬結(jié)果。隨著地球物理測(cè)井過(guò)程的計(jì)算機(jī)模擬在規(guī)模和復(fù)雜程度上迅速增加,地球物理科學(xué)家面臨的首要挑戰(zhàn)是如何盡可能多地提取有用的信息,如何從數(shù)據(jù)和模擬以及兩者之間的相互作用中獲得對(duì)新知識(shí)的理解。 近年來(lái),地球物理科學(xué)家應(yīng)用機(jī)器學(xué)習(xí)這一新技術(shù),從最初集中在大數(shù)據(jù)分析,已經(jīng)擴(kuò)展到使用機(jī)器學(xué)習(xí)(ML)來(lái)通過(guò)數(shù)據(jù)驅(qū)動(dòng)的發(fā)現(xiàn)和模型驅(qū)動(dòng)的理解,實(shí)現(xiàn)對(duì)聲電核以及流體之間的耦合過(guò)程的更深理解。機(jī)器學(xué)習(xí)具有在更大的函數(shù)空間,提取知識(shí)特征工程,從而建立復(fù)雜的模型,提供了從數(shù)據(jù)中得出新認(rèn)識(shí),也是被認(rèn)為是通向油氣人工智能的手段。它涉及到機(jī)器可以學(xué)習(xí)經(jīng)驗(yàn),識(shí)別數(shù)據(jù)中的復(fù)雜模式和關(guān)系。由于ML 方法是穩(wěn)健的、快速的,并能探索一個(gè)大的函數(shù)空間,為地球物理測(cè)井學(xué)者提供了能用于在科學(xué)數(shù)據(jù)集中發(fā)現(xiàn)新的模式、結(jié)構(gòu)和關(guān)系的能力,這些都是通過(guò)傳統(tǒng)技術(shù)不容易發(fā)現(xiàn)的。ML 可以揭示出以前未被識(shí)別的信號(hào)或物理過(guò)程,并提取關(guān)鍵特征來(lái)代表、解釋或可視化地球物理測(cè)井?dāng)?shù)據(jù)。正演建模和反演時(shí),使用ML 進(jìn)行自動(dòng)化、建模或反演可能會(huì)產(chǎn)生新知識(shí)的理解和發(fā)現(xiàn)。目前油氣工業(yè)研究人員,正在探索將機(jī)器學(xué)習(xí)應(yīng)用在測(cè)井模擬、測(cè)井作業(yè)質(zhì)量控制、測(cè)井解釋和儲(chǔ)層工程參數(shù)評(píng)價(jià)中。
基于測(cè)井大數(shù)據(jù)云計(jì)算是實(shí)現(xiàn)地球物理測(cè)井知識(shí)發(fā)現(xiàn)的新途徑。測(cè)井大數(shù)據(jù)云計(jì)算實(shí)現(xiàn)了數(shù)據(jù)存儲(chǔ)、文件管理、進(jìn)程控制、并行任務(wù)處理能力。它的分布式系統(tǒng)是一種可伸縮分布式文件系統(tǒng),可在多臺(tái)計(jì)算機(jī)存儲(chǔ)數(shù)據(jù),具有高度的容錯(cuò)能力。它能實(shí)現(xiàn)資源管理功能,并且數(shù)據(jù)處理分析在集群機(jī)上運(yùn)行,具有并行處理框架,即在主節(jié)點(diǎn)接受輸入并將其劃分為較小的子問(wèn)題,并將其分配給工作程序節(jié)點(diǎn)。它的彈性分布式數(shù)據(jù)集是一種特殊基礎(chǔ)數(shù)據(jù)結(jié)構(gòu),能把存儲(chǔ)在不同機(jī)器上的數(shù)據(jù),形成邏輯數(shù)據(jù)集。測(cè)井大數(shù)據(jù)云計(jì)算是提供測(cè)井大數(shù)據(jù)的分布式存儲(chǔ)與處理、人工智能學(xué)習(xí)模型的數(shù)據(jù)訓(xùn)練、驗(yàn)證和測(cè)試的硬件服務(wù)框架。其內(nèi)部包括分布式文件系統(tǒng),資源管理與調(diào)度模塊,分布式計(jì)算框架,各種數(shù)據(jù)操作與學(xué)習(xí)模塊,服務(wù)連接總線層,以及用戶的應(yīng)用層(圖4)。
圖4 測(cè)井大數(shù)據(jù)云計(jì)算模塊結(jié)構(gòu)圖Fig.4 Internal module distribution on private cloud computing
需要注意的是,隨著大數(shù)據(jù)的用戶增加和功能的強(qiáng)大,云計(jì)算的數(shù)據(jù)安全日益引起石油公司的關(guān)注。云計(jì)算的數(shù)據(jù)安全采用3 種技術(shù)手段,保證數(shù)據(jù)安全。首先選擇在云計(jì)算平臺(tái)上使用強(qiáng)密碼,也就是必須創(chuàng)建并使用一個(gè)強(qiáng)大的密碼,以保護(hù)數(shù)據(jù)不被黑客入侵。這些強(qiáng)密碼包括:密碼長(zhǎng)度至少為10 個(gè)字符。密碼必須包含大寫字母(A - Z)、小寫字母(A~Z)、數(shù)字(0~9)與特殊字符,例如@、#、$、%、^、(、)、&、*!。c# a25^ub@2 是一個(gè)強(qiáng)密碼和標(biāo)準(zhǔn)密碼。對(duì)于不同的帳戶使用強(qiáng)而獨(dú)特的密碼,并定期更改密碼。其次是對(duì)數(shù)據(jù)加密,它是云計(jì)算中確保數(shù)據(jù)安全的有效手段之一。它需要用戶在訪問(wèn)數(shù)據(jù)之前對(duì)數(shù)據(jù)解密,這個(gè)解密過(guò)程也將保護(hù)數(shù)據(jù)免受服務(wù)提供商和未經(jīng)授權(quán)用戶的網(wǎng)絡(luò)攻擊,其加密和解密的方式包括:AES、MD5、SHA1 等。最后是使用防毒軟件,它能幫助保護(hù)云數(shù)據(jù)免于惡意軟件,病毒,和不必要的威脅,并防止黑客未經(jīng)授權(quán)訪問(wèn)云數(shù)據(jù)。
測(cè)井知識(shí)發(fā)現(xiàn)的實(shí)現(xiàn)是通過(guò)大數(shù)據(jù)云計(jì)算驅(qū)動(dòng)的機(jī)器學(xué)習(xí)來(lái)實(shí)現(xiàn)的,以下從巖性識(shí)別與儲(chǔ)層分類、橫波提取及各向異性評(píng)價(jià)以及油藏評(píng)價(jià)等方面說(shuō)明其應(yīng)用。
鄂爾多斯盆地的頁(yè)巖油具有勘探和開(kāi)發(fā)的巨大潛力,但其復(fù)雜的儲(chǔ)層組成卻變得越來(lái)越復(fù)雜。目前,測(cè)井的便捷解釋面臨更加難以識(shí)別巖性,評(píng)估和監(jiān)測(cè)儲(chǔ)層以及預(yù)測(cè)產(chǎn)量的問(wèn)題。僅利用特征的常規(guī)的巖性測(cè)井曲線來(lái)識(shí)別頁(yè)巖未取得良好的效果,因?yàn)橛行y(cè)井響應(yīng)信噪比低。傳統(tǒng)的測(cè)井處理和解釋工作主要依靠專家的經(jīng)驗(yàn),并且效率低。機(jī)器學(xué)習(xí)算法是通過(guò)首先將訓(xùn)練數(shù)據(jù)依靠特征工程,減少為幾個(gè)可以解釋的類,然后每個(gè)類學(xué)習(xí)模型來(lái)減少機(jī)器學(xué)習(xí)算法的局限性。該方法可作為連續(xù)學(xué)習(xí),提取特征值,從而形成自動(dòng)處理流程來(lái)完成測(cè)井?dāng)?shù)據(jù)解釋。
機(jī)器學(xué)習(xí)算法技術(shù)可以使用更多特征曲線來(lái)識(shí)別巖性,并且可以使用修復(fù)測(cè)井丟失的數(shù)據(jù)。除了巖性測(cè)井曲線外,在許多特征曲線, 如AC,DEN,Ra 和CNL 以及錄井、測(cè)試等數(shù)據(jù)用來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型。采用決策樹(shù),支持向量機(jī),KNN 和集成算法進(jìn)行優(yōu)化學(xué)習(xí)。結(jié)果表明,采用集成法的Bagging 的訓(xùn)練精度幾乎達(dá)到98.5%,預(yù)測(cè)值達(dá)到94.3%。圖5 展示了巖性識(shí)別聲波井徑特征的可視化交會(huì)圖,圖6 和表3 展示了機(jī)器學(xué)習(xí)算法巖性識(shí)別結(jié)果以及準(zhǔn)確率對(duì)比。對(duì)所有模型進(jìn)行了參數(shù)選擇分析,并將最佳參數(shù)用于相應(yīng)的分類器。集成學(xué)習(xí)方法變得更具影響力,因?yàn)樗梢酝ㄟ^(guò)使用多種學(xué)習(xí)算法來(lái)補(bǔ)償弱學(xué)習(xí)算法的不足以獲得更好的性能。在復(fù)雜的地質(zhì)情況下,測(cè)井響應(yīng)與地層參數(shù)存在更復(fù)雜的非線性函數(shù)關(guān)系,應(yīng)用機(jī)器學(xué)習(xí)算法來(lái)準(zhǔn)確識(shí)別巖性,最佳分類器是集成學(xué)習(xí),其次是k 最近鄰法,最后是決策樹(shù)。在用多條曲線進(jìn)行儲(chǔ)層質(zhì)量分類時(shí),第一組采用GR,AC,CNL,DEN,RD,RS,RD/RS,RD-RS 學(xué)習(xí);第二組采用GR,AC,CNL,DEN,RD,RS 學(xué)習(xí);第三組采用GR,AC,CNL,RD,RS,RD/RS,RD-RS 學(xué)習(xí);第四組采用GR,AC,CNL,RD,RS;第五組采用GR,AC 學(xué)習(xí)。
表3 多種測(cè)井曲線下的機(jī)器學(xué)習(xí)算法儲(chǔ)層分類結(jié)果對(duì)比表Tab.3 The comparison of machine learning reservoir classification results under multiple logging curves
圖5 巖性識(shí)別聲波井徑數(shù)據(jù)的特征可視化圖Fig.5 Lithology recognition and acoustic well diameter data visual intersection by Machine learning
圖6 機(jī)器學(xué)習(xí)算法巖性識(shí)別準(zhǔn)確率對(duì)比圖Fig.6 The comparison of machine learning lithology identification accuracy
當(dāng)井眼不規(guī)則時(shí),井眼內(nèi)部存在復(fù)雜的泥漿流變和天熱氣涌入時(shí),很難獲得可靠的水平橫波時(shí)差,特別是在軟地層中。能應(yīng)用機(jī)器學(xué)習(xí)算法的方法從各種常規(guī)測(cè)井曲線中預(yù)測(cè)橫波速度,但該方法除使用縱速度測(cè)井作為特征值外,還使用了其他幾種測(cè)井測(cè)量值,如自然伽馬,密度,中子,電阻率,孔隙率和飽和度等測(cè)井曲線。它是對(duì)已有的具有橫波速度測(cè)井?dāng)?shù)據(jù)集訓(xùn)練,并驗(yàn)證機(jī)器學(xué)習(xí)算法模型。根據(jù)測(cè)井知識(shí)和橫波的相關(guān)性,在特征選擇過(guò)程以突出顯示哪些測(cè)井曲線是橫波速度(VS)的良好預(yù)測(cè)指標(biāo)。然后訓(xùn)練各種回歸模型,并通過(guò)其均方根誤差(RMSE)將預(yù)測(cè)值與各種模型的實(shí)際值進(jìn)行比較,然后選擇具有最小RMSE 的模型。再對(duì)數(shù)據(jù)集中的另一口井進(jìn)行預(yù)測(cè),該井用作驗(yàn)證集。
利用機(jī)器學(xué)習(xí)算法中的回歸預(yù)測(cè)修復(fù)擴(kuò)徑段橫波數(shù)據(jù),用于評(píng)價(jià)致密含氣砂巖儲(chǔ)層各向異性(圖7),對(duì)地質(zhì)力學(xué),巖石物理學(xué)和其他應(yīng)用尤為重要。儲(chǔ)層各向異性指數(shù)表示儲(chǔ)層不同方向礦物顆粒、分層、裂縫、應(yīng)力等引起橫波速度隨方向的變化,是用快慢橫波速度之差來(lái)度量的,可以用以下式來(lái)定義:
圖7 機(jī)器學(xué)習(xí)算法修復(fù)橫波數(shù)據(jù)評(píng)價(jià)致密含氣砂巖儲(chǔ)層各向異性圖Fig.7 Evaluation of anisotropy of tight gas-bearing sandstone reservoir using machine learning to recover shear wave data
式中:S1慢橫波時(shí)差,S2快橫波時(shí)差,△S=S1—S2。泊松比和楊氏模量用于評(píng)價(jià)非常規(guī)油氣儲(chǔ)層脆性所必須的2 個(gè)參數(shù),它可以從偶極聲波測(cè)井和體積密度測(cè)井中估算出來(lái)。
把已有數(shù)據(jù)段的數(shù)據(jù),分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。利用機(jī)器學(xué)習(xí)算法,建立以縱波時(shí)差(速度)、密度、井徑以及自然電位等曲線為特征的學(xué)習(xí)模型。通過(guò)優(yōu)選機(jī)器學(xué)習(xí)算法,得到關(guān)于地層橫波時(shí)差的學(xué)習(xí)模型。在修復(fù)段,利用學(xué)習(xí)的模型,學(xué)習(xí)出該段的地層橫波參數(shù)。圖7 中第6 道的藍(lán)色重疊圖代表地層的時(shí)差各向異性。
從單井?dāng)U展到氣藏,可以有效了解這個(gè)氣藏的含氣飽和度變化規(guī)律,從而降低開(kāi)發(fā)風(fēng)險(xiǎn)。機(jī)器學(xué)習(xí)能解決了更新3D 靜態(tài)模型和油藏參數(shù)預(yù)測(cè)問(wèn)題。將裸眼井與套管井測(cè)井?dāng)?shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,深度匹配,應(yīng)用數(shù)字巖心技術(shù),根據(jù)測(cè)井巖性曲線機(jī)器學(xué)習(xí)相關(guān)分析,建立隨沉積相變化的可變m、n 的阿爾奇含氣飽和度計(jì)算方法。在套管井測(cè)量不同時(shí)間段的數(shù)據(jù),通過(guò)過(guò)套管電阻率測(cè)井正演模擬,建立地層視電阻率與水泥環(huán)厚度、水泥環(huán)電阻率、地層參數(shù)(厚度、電阻率)以及圍巖參數(shù)(厚度、電阻率)的響應(yīng)值。利用實(shí)際測(cè)井資料,通過(guò)機(jī)器學(xué)習(xí)建立地層真電阻率與地層視電阻率與水泥環(huán)厚度、水泥環(huán)電阻率、地層參數(shù)(厚度、電阻率)以及圍巖參數(shù)(厚度、電阻率)的學(xué)習(xí)模型。最后反演出地層真電阻率,實(shí)現(xiàn)從地層真電阻率的變化,反映氣層以及氣藏的含氣飽和度的變化,實(shí)現(xiàn)氣藏開(kāi)采動(dòng)態(tài)監(jiān)測(cè),為實(shí)現(xiàn)時(shí)間序列上的產(chǎn)能變化預(yù)測(cè)奠定技術(shù)基礎(chǔ)。
機(jī)器學(xué)習(xí)在氣藏監(jiān)測(cè)運(yùn)行方面具有成本更低,更準(zhǔn)確且速度更快的優(yōu)勢(shì)。數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)預(yù)測(cè)分析已應(yīng)用于具有大量數(shù)據(jù)的氣藏監(jiān)測(cè)與管理,這些技術(shù)包括K 最近鄰(KNN)、支持向量機(jī)回歸、核嶺回歸、隨機(jī)森林、自適應(yīng)增強(qiáng)(Adaboost)等。使用機(jī)器學(xué)習(xí)方法進(jìn)行4D 儲(chǔ)層物性變化預(yù)測(cè)的可行性。結(jié)合聲電模擬算法和過(guò)套管電聲測(cè)井資料,可實(shí)現(xiàn)油藏動(dòng)態(tài)監(jiān)測(cè)及油井產(chǎn)能及壽命預(yù)測(cè)。油藏監(jiān)測(cè)縱向含氣飽和度變化分布顯示(圖8),黃色部分為含氣厚度和飽和度在多井縱向上的分布。經(jīng)過(guò)生產(chǎn)測(cè)試,在第一、三氣藏的井L48 第一、二層段發(fā)現(xiàn)高產(chǎn)氣層,合采的日產(chǎn)氣量為3 284 萬(wàn)m3、水量為3.3 m3;在第一、二、三氣藏的井L172 井的3 個(gè)層段有氣水同產(chǎn)層,日產(chǎn)氣量為3.1 萬(wàn)m3、水量為3.4 m3;其他井的含氣層段均有氣產(chǎn)出。
圖8 過(guò)套管電阻率多井氣藏監(jiān)測(cè)圖Fig.8 Monitoring of gas distribution in multiple wells through casing resistivity
(1)按照“數(shù)據(jù)-算法-平臺(tái)-知識(shí)-應(yīng)用場(chǎng)景”的研究方法,分析了測(cè)井大數(shù)據(jù)的形成基礎(chǔ);根據(jù)機(jī)器學(xué)習(xí)算法的特點(diǎn)和測(cè)井技術(shù)的分類屬性,分析了測(cè)井機(jī)器學(xué)習(xí)的實(shí)現(xiàn)及在測(cè)井中的適用性。
(2)根據(jù)基于測(cè)井大數(shù)據(jù)的機(jī)器學(xué)習(xí)知識(shí)發(fā)現(xiàn)的特點(diǎn),以及實(shí)現(xiàn)框架分析,它在巖性識(shí)別、力學(xué)各向異性評(píng)價(jià)以及油氣藏監(jiān)測(cè)等方面具有明顯的潛力和應(yīng)用前景。