楊傳書,李昌盛,孫旭東,黃歷銘,張好林
(中國石化石油工程技術(shù)研究院,北京102206)
近年來,新一代人工智能技術(shù)快速發(fā)展,在智慧安防、智慧金融、智慧零售等領(lǐng)域取得了良好的應(yīng)用效果。因此,全社會掀起了“人工智能+”的研究熱潮,石油行業(yè)也不例外,盡管一些報道稱在某些場景取得了很好的應(yīng)用結(jié)果,但總體來說,人工智能技術(shù)在石油行業(yè)的應(yīng)用研究仍處在探索階段,在鉆井領(lǐng)域尚未取得工業(yè)應(yīng)用的實質(zhì)進(jìn)展。從現(xiàn)有文獻(xiàn)報道看,人工智能的應(yīng)用場景很多,人工智能算法也很多,需要采用科學(xué)的方法加快人工智能應(yīng)用技術(shù)研發(fā)。筆者從方法論入手,闡述了一條將人工智能技術(shù)應(yīng)用到鉆井領(lǐng)域的技術(shù)路徑,并提出了鉆井人工智能技術(shù)的發(fā)展建議。
人工智能(簡稱AI)是計算機(jī)科學(xué)的一個分支,是一門認(rèn)知學(xué)科,它試圖了解智能的實質(zhì),并生產(chǎn)出一種新的、能以人類智能相似的方式做出反應(yīng)的智能機(jī)器。AI包括機(jī)器人、計算機(jī)視覺、自然語言處理、認(rèn)知與推理、機(jī)器學(xué)習(xí)和博弈與倫理等6大方面[1],廣泛應(yīng)用于社交、醫(yī)療和商業(yè)等領(lǐng)域。支撐AI崛起的3大支柱條件是數(shù)據(jù)、算力和算法。
BP公司與IBM公司聯(lián)合研發(fā)了下套管卡管智能預(yù)測系統(tǒng),準(zhǔn)確率達(dá)到了85%。沙特阿美公司利用決策樹和k-鄰近算法預(yù)測井涌,準(zhǔn)確率達(dá)到了90%以上[2]。Oceanit和Shell公司合作研發(fā)了智能定向鉆井系統(tǒng),利用14口井的定向鉆井?dāng)?shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,基于當(dāng)前施工參數(shù)預(yù)測未來的壓差和扭矩,誤差分別為0.21%和2.72%,可以實現(xiàn)高效定向鉆進(jìn)[3]。Aramco公司利用人工智能方法計算基于時間的鉆井液安全密度窗口,計算速度與傳統(tǒng)的物理解析算法相比大幅提高[4]。管志川等人[5]采用神經(jīng)網(wǎng)絡(luò)方法,研究了鉆井過程中的井下復(fù)雜情況,并對漏、涌、卡等風(fēng)險進(jìn)行識別和預(yù)測。殷志明等人[6]采用機(jī)器學(xué)習(xí)的方式研究了鉆速預(yù)測過程中的離群點問題,提出了一種融合離群點的檢測算法。Yin Qishuai等人[7]利用大數(shù)據(jù)挖掘技術(shù)研究實時錄井?dāng)?shù)據(jù)、識別鉆井狀態(tài),分析了鉆井非生產(chǎn)時間,形成了提高鉆井效率的方案。
近年來,國外油公司或油服公司紛紛與人工智能研究機(jī)構(gòu)進(jìn)行聯(lián)合,加快了油氣領(lǐng)域人工智能應(yīng)用的研究;同時,各大公司認(rèn)識到數(shù)據(jù)共享平臺及開放性人工智能創(chuàng)新環(huán)境的重要性,斯倫貝謝公司推出的DELFI云平臺和哈里伯頓公司推出的DecisionSpace?365云平臺,都是具備全業(yè)務(wù)鏈數(shù)據(jù)管理、大數(shù)據(jù)及支撐人工智能研究的開放式云平臺。國內(nèi)中國石油集團(tuán)發(fā)布了“夢想云”,包括云平臺、數(shù)據(jù)湖、數(shù)據(jù)中臺、應(yīng)用商店和人工智能應(yīng)用等關(guān)鍵技術(shù),為加快包括鉆井在內(nèi)的油氣人工智能技術(shù)研究奠定了基礎(chǔ)[8]。中國石化也著手打造石化智云平臺,并開展了智能油氣田試點建設(shè),但支撐鉆井大數(shù)據(jù)及人工智能研究的基礎(chǔ)仍然薄弱。
工業(yè)界AI不同于人機(jī)博弈和商業(yè)營銷,僅僅靠簡單的數(shù)據(jù)驅(qū)動是行不通的,必須從實際問題出發(fā),用領(lǐng)域知識來約束人工智能建模[9]。鉆井是一項復(fù)雜的工程,必須找到合適的場景、合適的數(shù)據(jù),并將行業(yè)知識與AI算法相融合,才能將AI技術(shù)真正應(yīng)用于鉆井領(lǐng)域。
大數(shù)據(jù)是AI的基石,進(jìn)行AI建模,必須確保有可用的數(shù)據(jù)??捎玫臄?shù)據(jù)應(yīng)包含3大特征:數(shù)據(jù)量要大,只有原始數(shù)據(jù)量大,才有可能構(gòu)建足夠多的訓(xùn)練樣本;數(shù)據(jù)要準(zhǔn)確,利用錯誤數(shù)據(jù)和假數(shù)據(jù)無法構(gòu)建正確的關(guān)聯(lián)關(guān)系;數(shù)據(jù)維度全面,即數(shù)據(jù)項必須涵蓋應(yīng)用場景所需的主要特征量。
鉆井領(lǐng)域的AI技術(shù)不僅依賴于各類工程數(shù)據(jù),還依賴于井下環(huán)境數(shù)據(jù),即巖石與地層特征數(shù)據(jù)。工程類數(shù)據(jù)包括井眼軌跡、井身結(jié)構(gòu)、鉆具組合、鉆頭、鉆井液體系、鉆井液性能、實時綜合錄井(包括工程參數(shù)、鉆井液參數(shù)、氣測參數(shù))、巖屑錄井、測井、故障復(fù)雜情況記錄和鉆時等數(shù)據(jù),上述部分?jǐn)?shù)據(jù)為時間序列,部分為深度序列,部分兼而有之,不同場合都可以用。此外,還包括一些計算數(shù)據(jù),如環(huán)空壓力、摩阻扭矩、機(jī)械比能等。巖石與地層特征數(shù)據(jù)包括巖石力學(xué)參數(shù)、巖石產(chǎn)狀、巖石物理性質(zhì)、地層三壓力和地層巖性等,這些參數(shù)大多是基于測錄井?dāng)?shù)據(jù)計算或解釋,進(jìn)而通過試驗或?qū)崪y校驗得到的,而測錄井?dāng)?shù)據(jù)的解釋可以利用AI技術(shù)。
李杰等人[10]提出,需要從以下3個方向開展智能制造系統(tǒng)研究:1)在解決可見問題的過程中積累經(jīng)驗和知識,從而規(guī)避這些問題;2)需要根據(jù)數(shù)據(jù)去分析產(chǎn)生問題的隱性線索、關(guān)聯(lián)性和根本原因,將不可見問題顯性化,進(jìn)而解決不可見問題;3)通過深度挖掘知識,建立知識和問題之間的相關(guān)性,從舊知識中產(chǎn)生新知識,并利用新知識精確建模,從設(shè)計層面避免可見和不可見問題的發(fā)生。參考這一思路,結(jié)合鉆井領(lǐng)域的業(yè)務(wù)特點,大致可以梳理出鉆井領(lǐng)域AI應(yīng)用場景(見表1)。
表1 鉆井領(lǐng)域AI應(yīng)用場景及解決的問題Table1 AI application scenarios and problemsto be solved in drilling engineering
2.3.1 大數(shù)據(jù)支撐平臺
機(jī)器學(xué)習(xí)是基于數(shù)據(jù)的科學(xué)方法,因此首先要把各類數(shù)據(jù)、海量數(shù)據(jù)組織起來,并轉(zhuǎn)換成AI算法可直接調(diào)用的數(shù)據(jù)集,常規(guī)數(shù)據(jù)管理系統(tǒng)無法完成這一工作。大數(shù)據(jù)支撐平臺主要實現(xiàn)的功能包括:異構(gòu)數(shù)據(jù)存儲、數(shù)據(jù)預(yù)處理、數(shù)據(jù)聚合、數(shù)據(jù)過濾、數(shù)據(jù)變換、特征提取、特征衍生、特征降維、樣本標(biāo)記和數(shù)據(jù)服務(wù)等。由于涉及異構(gòu)數(shù)據(jù),數(shù)據(jù)體量大,必須使用ETL數(shù)據(jù)提取工具、Hadoop分布式存儲與計算工具、Spark大數(shù)據(jù)計算引擎等流行工具。
2.3.2 AI建模算法及工具庫
成熟的AI算法非常多,且還在不斷研發(fā)出新的AI算法。表2列舉了鉆井程領(lǐng)域可能用到的算法及其適用場景[11-12]。
表2 常用AI算法及其適用場景Table 2 Common AI algorithms and their applicable scenarios
我國在AI基礎(chǔ)方面的研究比較薄弱,尚未形成可用的算法平臺。目前,國內(nèi)研究人員主要使用國外開源的算法庫(已經(jīng)把一些算法進(jìn)行了程序封裝,可直接調(diào)用),包括TensorFlow、Apache System ML、Caff e、Apache Mahout、Open NN、Py Torch、Neuroph、Deeplearning4j、Mycroft、OpenCog等,每個算法庫都有其優(yōu)缺點,需要甄別選用或組合使用[13]。
鉆井領(lǐng)域AI項目成功的關(guān)鍵在于3個條件:有實際需求的業(yè)務(wù)場景、有滿足條件的數(shù)據(jù)、有適用的技術(shù)工具(即AI工具)。業(yè)務(wù)、數(shù)據(jù)、技術(shù)三者欠缺任何一項,都不可能獲得理想的結(jié)果,好比三輪車的3個輪子,任何1個輪子有缺陷,都影響行車速度和平穩(wěn)性。確立AI項目時應(yīng)遵循“三輪驅(qū)動”方法(見圖1),優(yōu)先選擇三者交集中心區(qū)的項目。
實際研究工作中,分別從業(yè)務(wù)、數(shù)據(jù)、技術(shù)3個方面進(jìn)行現(xiàn)狀梳理,針對每種組合情形,分別歸入圖1的7個區(qū):0區(qū)代表三者兼?zhèn)?,具備開展AI建模的條件,可啟動應(yīng)用研究工作;1區(qū)、2區(qū)和3區(qū)代表具備了其中2項條件,可進(jìn)一步探索另一條件的可行性,比如搜集必須的數(shù)據(jù)、挖掘業(yè)務(wù)需求,或者尋找適合的AI方法,這些情形可通過努力逐漸向0區(qū)過渡;4區(qū)、5區(qū)和6區(qū)是極不成熟的情形,建議暫時放棄。
圖1 “三輪驅(qū)動”方法論Fig.1"Three-wheel drive"methodology
對于0區(qū)的情形,還可對每個條件進(jìn)行評估:業(yè)務(wù)場景方面,可從需求迫切程度、預(yù)期應(yīng)用廣度、潛在社會經(jīng)濟(jì)效益等方面進(jìn)行量化評價;數(shù)據(jù)基礎(chǔ)方面,可從數(shù)據(jù)完整性、數(shù)據(jù)量、準(zhǔn)確率、可標(biāo)記率等維度進(jìn)行量化評價;技術(shù)工具方面,可從算法豐富程度、算法在其他行業(yè)應(yīng)用成熟度、樣本需求量、可遷移性、算法工具獲取難易程度等角度進(jìn)行量化評價。最終從中選出三者均為高分的項目開展研究,并快速應(yīng)用研究成果。
以表1所列的業(yè)務(wù)場景為綱,以“三輪驅(qū)動”方法為指導(dǎo),根據(jù)筆者所在團(tuán)隊的技術(shù)現(xiàn)狀,分別從3個方面進(jìn)行評估,開展了項目優(yōu)選,限于篇幅,表3僅列出了部分項目的評估情況(業(yè)務(wù)需求已在表1闡述,此處不再贅述)。
由表3可知,模型訓(xùn)練主要使用歷史數(shù)據(jù),而模型應(yīng)用必須使用實際數(shù)據(jù)作為入口參數(shù),模型訓(xùn)練和實際應(yīng)用場景下的數(shù)據(jù)滿足程度可能有差異,某些情況下即便模型可以訓(xùn)練出來,實際場景應(yīng)用時也存在很大難度,比如隨鉆機(jī)械鉆速的預(yù)測和監(jiān)測。
表3 鉆井領(lǐng)域AI技術(shù)部分應(yīng)用項目評價Table 3 Project evaluation (example)of AI application in drilling engineering
鉆井領(lǐng)域亟待解決且適合應(yīng)用人工智能技術(shù)的問題,包括地層特征識別、鉆井參數(shù)優(yōu)化、井眼軌道優(yōu)化、井下故障診斷預(yù)警等。下面以鉆井井下風(fēng)險實時識別為例,簡要闡述人工智能建模及試驗驗證情況。
3.2.1 數(shù)據(jù)提取與預(yù)處理
從實時分析數(shù)據(jù)集和復(fù)雜情況案例知識庫中自動提取鉆井復(fù)雜情況樣本,包括復(fù)雜情況類型、發(fā)生時間、井深和錄井參數(shù)等。由于錄井實時數(shù)據(jù)存在空值、異常、重復(fù)、噪聲等情況,如不處理將對模型產(chǎn)生影響,因此對數(shù)據(jù)進(jìn)行預(yù)處理,選取多種數(shù)據(jù)處理方法,開發(fā)數(shù)據(jù)提取和預(yù)處理模塊。以鉆井實時數(shù)據(jù)為例,最常見的問題是數(shù)據(jù)項值缺失和數(shù)據(jù)項值異常(如超出正常值范圍)、數(shù)據(jù)記錄重復(fù),對于這些異常,一般采取數(shù)據(jù)項整列刪除、數(shù)據(jù)記錄整條刪除、利用本列均值替換等方式進(jìn)行處理,通過開發(fā)數(shù)據(jù)預(yù)處理模塊,預(yù)先設(shè)置每種異常的處理方式,軟件即可自動批量處理數(shù)據(jù),得到正??捎玫臄?shù)據(jù);亦可在隨鉆過程中對動態(tài)采集的數(shù)據(jù)進(jìn)行實時處理,以滿足實時智能預(yù)測的應(yīng)用需求。
3.2.2 業(yè)務(wù)標(biāo)簽
基于業(yè)務(wù)專家理論及油田歷史井實鉆經(jīng)驗,按照正常作業(yè)、故障征兆、故障發(fā)生等作業(yè)狀態(tài),對實鉆錄井時間域原始數(shù)據(jù)劃分時間段,如以3 min為時間窗格,通過專家分析對井漏前、井漏時和井漏后的錄井?dāng)?shù)據(jù)打標(biāo)簽,分別定義為非井漏樣本、井漏樣本和非井漏樣本(見圖2)。
圖2 專家業(yè)務(wù)標(biāo)簽邏輯Fig.2 Expert businesstag logic
3.2.3 特征選取
根據(jù)數(shù)據(jù)相關(guān)性分析結(jié)果,確定不同鉆井復(fù)雜情況的特征參數(shù)。以井漏為例,提取參數(shù)(入口流量、出口流量、鉆井液池內(nèi)鉆井液體積、立管壓力等)的絕對值、變化率、偏度、峰度和相關(guān)性等特征量,找到井漏與非井漏樣本之間數(shù)據(jù)變化的差異性,利用斯皮爾曼相關(guān)性分析方法分析特征參數(shù)與井漏的相關(guān)性,形成訓(xùn)練井漏識別模型特征參數(shù)的選取邏輯(見圖3),最終確定9個特征參數(shù),即工況、入口流量、出口流量、計量罐內(nèi)鉆井液體積變化、鉆井液體積變化、立管壓力、立管壓力變化率、套管壓力和套管壓力變化率。
圖3 井漏特征選取邏輯Fig.3 Lost circulation featureselection logic
以卡鉆為例進(jìn)行分析??ㄣ@發(fā)生前大鉤載荷、立壓、扭矩及轉(zhuǎn)速等參數(shù)異常波動,大量卡鉆實例分析結(jié)果表明,卡鉆發(fā)生時參數(shù)呈現(xiàn)隨時間變化的規(guī)律,因此引入了平均值和峰值作為新的特征參數(shù)。由于每個參數(shù)都存在正常的波動,相鄰2組數(shù)據(jù)(一般相隔5~10 s)的變化不能準(zhǔn)確體現(xiàn)參數(shù)真正的變化趨勢,于是將數(shù)據(jù)按連續(xù)時間窗劃分為處理單元,最終確定了14個特征參數(shù)(每3 min一個數(shù)據(jù)窗格作為計算單元):工況、大鉤載荷、過去30 min大鉤載荷的平均值、大鉤載荷變化率峰值、立壓、過去30 min立壓的平均值、立壓變化率峰值、扭矩、過去30 min扭矩的平均值、扭矩變化率峰值、鉆壓、入口流量和轉(zhuǎn)速。
3.2.4 算法選取與模型構(gòu)建
根據(jù)復(fù)雜情況的特征參數(shù),將鉆井復(fù)雜情況識別問題處理為二分類問題,即井漏和非井漏、溢流和非溢流、卡鉆和非卡鉆。大數(shù)據(jù)分類算法豐富,典型算法包括決策樹、隨機(jī)森林和支持向量機(jī)等,目前應(yīng)用較多的是以決策樹為基礎(chǔ)的集成算法,XGBoost是應(yīng)用效果較好的一種集成算法。XGBoost算法由GBDT(梯度提升迭代決策樹)改進(jìn)而來,是由多個基學(xué)習(xí)器共同構(gòu)成的整體模型,既可以用于分類問題,也可以用于回歸問題。依據(jù)混淆矩陣,利用XGBoost算法進(jìn)行推算,驗證模型的準(zhǔn)確率和召回率,通過反復(fù)調(diào)整模型的框架參數(shù)(比如調(diào)整最大迭代次數(shù)n、迭代步長l等),逐步得到最優(yōu)模型。
鉆井井下故障智能識別建模過程中,首先提取80%的案例數(shù)據(jù)集加載到算法中進(jìn)行訓(xùn)練,用剩余的20%案例數(shù)據(jù)集進(jìn)行驗證;然后局部更換數(shù)據(jù)集中的案例,重復(fù)上述過程,通過驗證識別結(jié)果與實際案例的吻合度,促進(jìn)模型通過學(xué)習(xí)提高準(zhǔn)確率。以某地區(qū)57口井的114個井下故障案例作為基本數(shù)據(jù)樣本集,附加100個正常鉆進(jìn)的數(shù)據(jù)樣本,共同構(gòu)建了模型訓(xùn)練樣本集。研究發(fā)現(xiàn),基于XGBoost算法訓(xùn)練的模型,井漏識別準(zhǔn)確率80%,溢流識別準(zhǔn)確率82.7%,卡鉆識別準(zhǔn)確率71.2%,識別準(zhǔn)確率和計算速度與經(jīng)典GBDT相比明顯提高。此外,該結(jié)果也比筆者此前基于傳統(tǒng)方法建模的識別準(zhǔn)確率有所提高,今后隨著案例樣本不斷積累和增加,該模型識別井下故障的準(zhǔn)確率會進(jìn)一步提高。
1)鉆井領(lǐng)域AI應(yīng)用場景很多,但國內(nèi)石油企業(yè)“數(shù)據(jù)孤島”問題較嚴(yán)重,而且鉆井歷史數(shù)據(jù)的標(biāo)準(zhǔn)化、完整性、正確性欠缺,數(shù)據(jù)的自動化采集程度較低(數(shù)據(jù)頻度、準(zhǔn)確性和時效性不足),較難構(gòu)建出針對每個應(yīng)用場景的高質(zhì)量訓(xùn)練樣本。
2)大數(shù)據(jù)及人工智能應(yīng)用研究離不開大數(shù)據(jù)相關(guān)技術(shù)的支撐,傳統(tǒng)技術(shù)手段難以支撐海量數(shù)據(jù)的抽取、處理、轉(zhuǎn)換、服務(wù),而針對鉆井工程大數(shù)據(jù)的支撐平臺剛剛起步。
1)建立集團(tuán)級數(shù)據(jù)共享中心,加快數(shù)據(jù)治理,打破油田分公司之間、專業(yè)板塊之間的信息壁壘,提高數(shù)據(jù)質(zhì)量,將科研單位的研發(fā)能力同生產(chǎn)單位的數(shù)據(jù)優(yōu)勢結(jié)合起來,共同促成企業(yè)數(shù)字轉(zhuǎn)型和鉆井的智能化。
2)借鑒國外經(jīng)驗,同知名的AI專業(yè)研究機(jī)構(gòu)合作,首先構(gòu)建一體化大數(shù)據(jù)及人工智能研究支撐平臺,針對鉆速預(yù)測及參數(shù)優(yōu)化、井眼軌道優(yōu)化、地層特征識別等場景,優(yōu)選或自研人工智能算法,選擇復(fù)雜疑難的鉆井工區(qū),加強(qiáng)工程特征研究及模型驗證,注重現(xiàn)場的可實施性。
3)進(jìn)行井場設(shè)備的數(shù)字化升級換代,大幅提高現(xiàn)場數(shù)據(jù)的自動化采集程度,為鉆井AI技術(shù)發(fā)展積累高質(zhì)量的“原材料”,促進(jìn)鉆井技術(shù)自動化、智能化的快速發(fā)展。
隨著人工智能算法的不斷豐富和鉆井領(lǐng)域數(shù)據(jù)的積累,人工智能方法將為鉆井技術(shù)提供新的途徑和重要補(bǔ)充,特別是在利用傳統(tǒng)試驗方法難以構(gòu)建準(zhǔn)確物理模型的場景,人工智能技術(shù)將大有作為。在大數(shù)據(jù)及人工智能技術(shù)的推動下,鉆井工程正在經(jīng)歷一場數(shù)字化轉(zhuǎn)型革命。鉆井人工智能應(yīng)用場景很多,每個場景所需要的基礎(chǔ)條件和算法各不相同,“三輪驅(qū)動”的方法論可在一定程度上幫助研究者走出“無從下手”的困境,能夠快速評估優(yōu)選出應(yīng)用人工智能技術(shù)的場景,按照規(guī)范的步驟構(gòu)建人工智能模型,并進(jìn)行現(xiàn)場試驗,從而促進(jìn)鉆井技術(shù)的升級轉(zhuǎn)型。