王建華,溫欣,管震,王海濤,閆紹山
(1.昆侖數(shù)智科技有限責(zé)任公司,北京 100043;2.北京工業(yè)大學(xué)經(jīng)濟與管理學(xué)院,北京 100124)
鉆井過程中經(jīng)常會遇到各種各樣的復(fù)雜事故情況,如鉆具刺漏、鉆頭磨損、鉆具掉落、鉆具阻卡等,其中鉆具阻卡是最為常見的一種異?,F(xiàn)象。鉆具阻卡是指在起、下鉆過程中,由于井下可能存在壓差、沉砂或砂橋、井眼坍塌、鉆頭泥包、井眼縮徑、鍵槽等原因,經(jīng)常會碰到的鉆具遇阻、遇卡的現(xiàn)象。在絕大多數(shù)井上,或多或少,或重或輕,都會出現(xiàn)鉆具阻卡現(xiàn)象,特別是隨著水平井、大位移斜井、定向井、分枝井等復(fù)雜井型的出現(xiàn),鉆具阻卡現(xiàn)象變得更為普遍。在鉆井過程中如果不能及時監(jiān)測阻卡的苗頭,對阻卡原因進行準確分析判斷,恰當(dāng)處理鉆具阻卡,就會導(dǎo)致輕微阻卡惡化成嚴重阻卡乃至卡死,拖延鉆井時間,增加鉆井費用,處理過程還易引起斷鉆具、坍塌等其他井下復(fù)雜事故,再嚴重時甚至?xí)?dǎo)致井的報廢,造成巨額的經(jīng)濟損失。因此,在鉆井過程中對有可能發(fā)生的鉆具阻卡進行準確預(yù)警,對于防止阻卡惡化,降低施工風(fēng)險,節(jié)省鉆井費用及減少經(jīng)濟損失具有重要意義。
傳統(tǒng)的阻卡分析和報警主要是通過設(shè)置單一參數(shù)門限值進行預(yù)警,且必須通過專業(yè)人員連續(xù)跟蹤實時監(jiān)測曲線才能完成,參數(shù)門限值的設(shè)置依賴于專家的經(jīng)驗,存在較大的主觀性。由于地層的多樣性和鉆井過程中的復(fù)雜性導(dǎo)致鉆具阻卡的種類多種多樣,人為分析難以對阻卡進行準確報警和預(yù)警,勞動強度也極大。另一方面,鉆井過程中從井場實時傳輸?shù)胶蠓降母黜椼@井參數(shù),如大鉤負荷、大鉤高度、懸重(計算后的參數(shù))、扭矩、轉(zhuǎn)盤轉(zhuǎn)速等數(shù)據(jù),能夠全面反映鉆井狀態(tài),對于準確預(yù)警鉆具阻卡很有幫助。因此,必須充分利用鉆井過程中的各項鉆井參數(shù)數(shù)據(jù)并結(jié)合工況以及鄰井復(fù)雜事故才能對鉆井狀態(tài)做出全面、合理的評估,及時發(fā)現(xiàn)阻卡異常,預(yù)防鉆具卡死情況的發(fā)生,減少鉆周期,達到降本增效的目標,為安全鉆井保駕護航。
在故障診斷中,目前基于知識的專家系統(tǒng)和基于神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)的智能預(yù)警系統(tǒng)等人工智能方法應(yīng)用最為廣泛?;谥R的專家系統(tǒng)指利用專家的經(jīng)驗和知識為故障診斷服務(wù),主要由人機界面、知識庫、推理機、綜合數(shù)據(jù)庫以及解釋器五部分組成。基于神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)的智能預(yù)警系統(tǒng)指利用神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)算法的自適應(yīng)學(xué)習(xí)、自組織、容錯,能夠?qū)W習(xí)非線性關(guān)系等特點,對于歷史故障數(shù)據(jù)進行學(xué)習(xí)建模,并對有可能發(fā)生的故障進行及時預(yù)警。目前在化工設(shè)備、機械系統(tǒng)以及電子設(shè)備的故障診斷方面應(yīng)用最為廣泛,專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)模型對于石油鉆井行業(yè)故障診斷效率和準確性的提高也有重要意義,但是在石油鉆井行業(yè)鮮少用之。因此,本文提出基于支持向量機(SVM)的鉆具阻卡智能預(yù)警模型(SVM-IAM),在鉆井過程中從井場實時傳輸?shù)胶蠓降臄?shù)據(jù)基礎(chǔ)上,綜合利用大數(shù)據(jù)和人工智能技術(shù)讓計算機學(xué)習(xí)大量案例,建立阻卡復(fù)雜事故預(yù)警模型,實現(xiàn)阻卡的自動預(yù)警,及早防范和控制卡鉆等嚴重復(fù)雜事故。
為實現(xiàn)鉆具阻卡的自動預(yù)警和報警,及時發(fā)現(xiàn)阻卡異常,及早防范和控制卡鉆等復(fù)雜事故,本文提出了基于SVM的鉆具阻卡智能預(yù)警系統(tǒng)。首先,對鉆井過程中從井場實時傳輸?shù)胶蠓降脑紨?shù)據(jù)進行缺失值補全,保證數(shù)據(jù)的完整和連續(xù)性;其次,對數(shù)據(jù)進行異常值處理和去噪處理,保證數(shù)據(jù)的質(zhì)量和準確性;再次,對數(shù)據(jù)進行特征提取及歸一化處理,將原始數(shù)據(jù)構(gòu)造成適合于模型訓(xùn)練的形式;最后,經(jīng)過上述操作的原始數(shù)據(jù)通過SVM模型,會自動給出是否會發(fā)生鉆具阻卡的預(yù)警。
在鉆井過程中從井場實時傳輸?shù)胶蠓降臄?shù)據(jù),因為傳感器和數(shù)據(jù)庫存儲等偶發(fā)故障、人為失誤等原因,不可避免地會造成少量的數(shù)據(jù)缺失。數(shù)據(jù)的缺失會極大地影響數(shù)據(jù)分析的結(jié)果,對模型的準確性造成不良影響,因此需要對數(shù)據(jù)缺失進行處理。目前,對數(shù)據(jù)缺失進行處理的常用方法主要有加權(quán)法、刪除法、均值插補法、線性插補法、最近鄰插補法等方法。由于鉆井?dāng)?shù)據(jù)為從井場實時傳輸?shù)胶蠓降臅r間序列數(shù)據(jù),需要保持時間間隔內(nèi)的連續(xù)性,因此采用線性插補法對缺失值進行補全操作。
線性插補法的主要思想是假設(shè)包含缺失值的變量和其他變量之間存在線性關(guān)系,然后利用變量之間的線性關(guān)系建立多項式回歸方程,利用該方程及已知的數(shù)據(jù)對缺失值進行補全處理。
在對數(shù)據(jù)進行缺失值補全之后,需要進一步對數(shù)據(jù)中的異常值及噪聲進行處理,提高數(shù)據(jù)的質(zhì)量和準確性。
在實際生產(chǎn)中,由于井場物理設(shè)備等原因,會造成數(shù)據(jù)異常波動,如大鉤負荷忽然上升然后又恢復(fù)正常,就會造成均值變化量、標準差過大,這種數(shù)據(jù)就叫做異常數(shù)據(jù),異常數(shù)據(jù)很容易造成模型對鉆具阻卡的誤判。為了減少阻卡的誤判,采用格拉布斯準則來剔除異常數(shù)據(jù),判斷公式如下式(1)所示。具體的步驟為:(1)針對待剔除異常值的某一列特征,獲取8分鐘的實時數(shù)據(jù)構(gòu)成數(shù)據(jù)集合,確定集合中數(shù)據(jù)的數(shù)量、均值、標準差;(2)集合中的每一條數(shù)據(jù)代入式(1),若該條數(shù)據(jù)滿足公式條件則標記為待剔除數(shù)據(jù),剩余數(shù)據(jù)繼續(xù)迭代;(3)把待剔除數(shù)據(jù)轉(zhuǎn)換為8分鐘內(nèi)數(shù)據(jù)的平均值,異常數(shù)據(jù)變成有效數(shù)據(jù)。
式中,xi為集合中每一條數(shù)據(jù);mean為集合中數(shù)據(jù)的均值;std為集合中數(shù)據(jù)的標準差;n為集合中數(shù)據(jù)的數(shù)量;a為顯著性水平;g(n,a)的取值可以通過查格布拉斯準則表得到。
由于部分井場采集數(shù)據(jù)波動性較大,有明顯的噪波,會嚴重影響模型學(xué)習(xí)的效果。因此在提取趨勢特征之前,需要對數(shù)據(jù)進行去噪處理。采用小波變換對數(shù)據(jù)進行去噪處理,基本原理是對原始窗口數(shù)據(jù)進行先期處理,將曲線分解低頻和高頻頻譜,去掉高頻頻譜后進行小波重構(gòu),最終達到去噪的目的。小波變換去噪的基本步驟:(1)確定小波基函數(shù)為sym8基函數(shù),小波變換級數(shù)為5級,對待去噪字段進行小波變換,得到不同尺度下的小波系數(shù);(2)確定閾值函數(shù)為軟硬閾值折中的函數(shù),對不同尺度下的小波系數(shù)進行閾值處理,得到估計小波系數(shù);(3)對估計小波系數(shù)進行逆變換,即得到去除了噪聲的字段。
經(jīng)過上述數(shù)據(jù)缺失補全、數(shù)據(jù)異常值剔除、數(shù)據(jù)去噪之后,需要選取對模型有用的字段,并進行數(shù)據(jù)滑窗操作,構(gòu)造用于模型訓(xùn)練的特征。最終選取的字段包括大鉤負荷、大鉤高度、扭矩、鉆頭位置、鉆壓等因子,在選取的因子之上進行數(shù)據(jù)滑窗操作。
在實際生產(chǎn)環(huán)境中采集的實時數(shù)據(jù)是基于時間變化的,這種數(shù)據(jù)在機器學(xué)習(xí)領(lǐng)域被稱作時間序列數(shù)據(jù)。在本文模型中需要利用數(shù)據(jù)滑窗的思想,將基于時間序列的數(shù)據(jù)轉(zhuǎn)化為瞬時數(shù)據(jù)。數(shù)據(jù)滑窗的基本思想是:(1)確定數(shù)據(jù)滑動的時間窗口大小(以分鐘為單位),并將時間窗口放在數(shù)據(jù)起始位置;(2)利用差分、均值、方法等一系列特征工程,將當(dāng)前時間窗口內(nèi)的數(shù)據(jù)處理成瞬時數(shù)據(jù),將時間窗口沿著時間軸向后滑動1分鐘;(3)循環(huán)執(zhí)行步驟(2),直至?xí)r間窗口無法向后滑動。例如,我們確定時間窗口大小為5分鐘,第一次我們將[0,5]分鐘的數(shù)據(jù)處理成瞬時數(shù)據(jù);然后將時間窗口沿著時間軸向后滑動1分鐘,即將[1,6]分鐘的數(shù)據(jù)處理成瞬時數(shù)據(jù);之后沿著時間軸依次往后進行實時跟蹤,直至數(shù)據(jù)窗口無法向后滑動。分別對時間窗口大小為3分鐘至7分鐘進行了測試,最終選定時間窗口大小為4分鐘。
為了去除數(shù)據(jù)量綱的影響,并保證模型訓(xùn)練時加快收斂,需要進一步對經(jīng)數(shù)據(jù)滑窗得到的特征進行歸一化。例如,不同井的大鉤高度,大鉤負荷兩個因子的值在鉆具阻卡發(fā)生時的數(shù)值差異很大,經(jīng)過歸一化可以把有量綱的大鉤負荷、大鉤高度,轉(zhuǎn)化為無量綱數(shù)據(jù),使得樣本的分布差異性更顯然、更強。歸一化即把特征列數(shù)據(jù)經(jīng)過特定處理后限制在一定范圍內(nèi),目前常用的歸一化方法有最大最小值歸一化、對數(shù)歸一化、指數(shù)歸一化、三角函數(shù)歸一化等。本文模型采用最大最小值歸一化方法對特征列數(shù)據(jù)進行歸一化,將特征列數(shù)據(jù)范圍限定在[0,1]區(qū)間內(nèi)。
經(jīng)上述一系列數(shù)據(jù)操作之后,最終得到適合于模型訓(xùn)練的數(shù)據(jù)?;赟VM,結(jié)合訓(xùn)練數(shù)據(jù)進行模型構(gòu)建,即得到本文基于SVM的鉆具阻卡智能預(yù)警模型SVM-IAM。
支持向量機(Support Vector Machine,SVM)是Vapnik等人(1995)根據(jù)統(tǒng)計學(xué)理論提出的一種機器學(xué)習(xí)方法,目前已經(jīng)廣泛應(yīng)用于模式識別、狀態(tài)評估、故障診斷等領(lǐng)域。SVM處理的問題大致可以分類兩類:線性可分問題,線性不可分問題。對于線性可分問題,SVM的任務(wù)就是找到一個最優(yōu)超平面,使得任一樣本點到該超平面的距離最大化。對于線性不可分問題,則首先需要借助核函數(shù)將樣本空間映射至高維特征空間,然后在此高維特征空間內(nèi)找到一個最優(yōu)超平面,使得任一樣本點到該超平面的距離最大化。
本文研究的問題屬于線性不可分問題,因此需要借助核函數(shù)將樣本空間映射至高維特征空間,具體選擇的核函數(shù)為徑向基核函數(shù)。
本部分首先對模型訓(xùn)練用到的數(shù)據(jù)集進行介紹,并對模型的參數(shù)進行說明;然后對本文SVM-IAM模型及3種基線方法的結(jié)果進行對比分析,驗證本文SVM-IAM模型的有效性。
本文采用的數(shù)據(jù)集為從不同井場傳回的井場綜合錄井?dāng)?shù)據(jù),未經(jīng)任何處理的原始數(shù)據(jù)總量為32662條。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)缺失處理、數(shù)據(jù)異常值及去噪處理、特征提取及歸一化處理之后,數(shù)據(jù)總量為617條,共有27個特征列,1個樣本標簽列。樣本標簽列中1表示阻卡樣本(正樣本),0表示正常樣本(負樣本)。其中阻卡樣本共11條,正負樣本比例極度不均衡。
正負樣本比例不均衡會嚴重影響模型學(xué)習(xí)的效果,因此需要對此進行處理。處理樣本不均衡問題主要有過采樣和欠采樣兩種方法,本文選擇過采樣方法。過采樣的基本思想是:按照特定規(guī)則合成部分少數(shù)類樣本,緩解少數(shù)類樣本與多數(shù)類樣本的比例不均衡問題。具體來說,本文使用SMOTE方法對少數(shù)類樣本進行過采樣,同時考慮到采樣會放大少數(shù)樣本中的噪聲對模型的影響這一問題,過采樣中最終設(shè)置的正負樣本比例為0.5。因此,最終用于模型訓(xùn)練的數(shù)據(jù)總量為909條,其中正樣本303條,正負樣本比例為1:2。
為驗證本文所提SVM-IAM模型的有效性,在本文數(shù)據(jù)集上進行對比實驗。將本文模型與邏輯回歸模型(Logistic Regression,LR)、樸素貝葉斯模型(Naive Bayes, NB)和決策樹模型(Decision Tree, DT)在不同測試集比例下進行性能比較,性能評估指標選用查準率(Precision)、查全率(Recall),測試集比例分別為15%、20%、25%、30%、35%。圖1展示了對比實驗中各模型的查準率和召回率在不同測試集比例下的變化情況。
圖1 不同測試集比例下本文SVM-IAM模型與3個基準模型的性能對比
從圖1(a)可以看到,本文模型在查準率上表現(xiàn)最好,其次是決策樹模型、邏輯回歸模型和樸素貝葉斯模型。特別是在測試集比例為15%、20%、25%時,本文模型優(yōu)勢更加明顯。在測試集比例為35%時,決策樹模型的查準率與本文模型的查準率相當(dāng)。查準率衡量的是模型給出的阻卡預(yù)測中,真正發(fā)生阻卡的次數(shù)所占的比例,反映的是模型對于阻卡預(yù)測的效率。
從圖1(b)可以看到,本文模型在召回率上表現(xiàn)最好,其次是邏輯回歸模型、決策樹模型和樸素貝葉斯模型。特別是在測試集比例為15%、20%、25%時,本文模型優(yōu)勢更加明顯。召回率衡量的是所有發(fā)生阻卡的情況中,模型正確給出阻卡預(yù)測的次數(shù)所占比例,反映的是模型對于真正阻卡的覆蓋率。
綜上,本文模型與邏輯回歸模型、樸素貝葉斯模型和決策樹模型相比,在阻卡預(yù)測的效率和對真正阻卡的覆蓋率方面都取得了較好的效果,驗證了本文模型的有效性。
針對鉆井過程中傳統(tǒng)鉆具阻卡分析預(yù)警準確率低的問題,本文提出了一種基于SVM的鉆具阻卡智能預(yù)警模型SVMIAM。首先使用線性插補法對原始數(shù)據(jù)進行數(shù)據(jù)缺失補全,其次使用格布拉斯準則去除數(shù)據(jù)異常值,使用小波變換去除數(shù)據(jù)噪聲,再次對處理過的數(shù)據(jù)進行數(shù)據(jù)滑窗操作提取特征并進行歸一化處理,最后基于SVM構(gòu)建智能阻卡智能預(yù)警模型。實驗結(jié)果表明,與其他方法相比,本文SVM-IAM模型在查準率和召回率上都取得了較好的效果,能夠?qū)︺@井過程中的鉆具阻卡進行準確預(yù)警。在以后的工作中,將進一步研究如何構(gòu)造更為有效的特征和如何選擇更為合適的機器學(xué)習(xí)模型。