張曉東,王栩穎,秦子軒
(中國石油大學(xué)(華東)計算機(jī)科學(xué)與技術(shù)學(xué)院,山東 青島 266580)
隨著石油工業(yè)的不斷發(fā)展,有桿抽油機(jī)在石油工業(yè)中得到了大力發(fā)展和廣泛應(yīng)用,抽油機(jī)井故障成為嚴(yán)重影響油田生產(chǎn)的問題之一[1]。由于井下的工作環(huán)境復(fù)雜,抽油設(shè)備受疲勞、磨損、腐蝕等多因素影響容易發(fā)生故障,導(dǎo)致檢泵,因此有效預(yù)測故障,確立合理的檢泵周期,有助于提高油田的生產(chǎn)效率和經(jīng)濟(jì)效益。研究人員在抽油機(jī)井故障預(yù)測及檢泵周期預(yù)測等方面做了大量的研究工作[2-9]。
目前的研究多采用線性回歸和概率分布方法研究環(huán)境因素對檢泵周期的影響規(guī)律,文獻(xiàn)[2]則通過回歸分析的方法,闡述了針對存在桿管偏磨現(xiàn)象的抽油機(jī)井檢泵周期與其影響因素間定量的相互作用;分別構(gòu)建了沖程、沖次、回采工作面液量、含水率變化規(guī)律與檢泵周期的一元回歸表達(dá)式,并構(gòu)建了多種因素影響聯(lián)合效應(yīng)與檢泵周期變化的多元回歸表達(dá)式。研究結(jié)論在一定程度上體現(xiàn)了主要人為調(diào)節(jié)因素對桿管偏磨失效現(xiàn)象的影響規(guī)律。文獻(xiàn)[3]根據(jù)油田抽油機(jī)井沒有確定的故障發(fā)生率函數(shù)和最佳預(yù)防性檢泵周期變化和檢泵策略,提出了基于威布爾分布的抽油機(jī)井事故發(fā)生率研究。通過分析檢泵周數(shù)據(jù),建立了分布模型并使用模糊粒子群—模擬退火算法,對分布模型進(jìn)行了參數(shù)化計算并定義了機(jī)采井故障率函數(shù),以及利用模糊決策分析法估算最佳的檢泵周期。文獻(xiàn)[4]通過分析實(shí)際油井檢泵作業(yè)數(shù)據(jù),使用概率分布模型描述了檢泵周期與設(shè)備失效風(fēng)險的分布規(guī)律,使用三參數(shù)威布爾分布模型,描述了檢泵周期與泵可靠度的相關(guān)關(guān)系,并建立了某一固定時間區(qū)間內(nèi)檢泵作業(yè)井?dāng)?shù)的概率預(yù)測模型。
有桿抽油機(jī)井由抽油桿、抽油管、抽油泵以及井下配套工具4個部分組成,通常把各部分的最短壽命作為檢泵周期,對各部分設(shè)備進(jìn)行動力學(xué)分析,預(yù)測檢泵周期。文獻(xiàn)[5]基于GA-SVM和蒙特卡羅模擬建立了抽油桿磨損分析與安全評估模型。分析抽油桿受力情況,建立了井下影響因素與抽油桿磨損率的映射關(guān)系,預(yù)測抽油桿的壽命。文獻(xiàn)[6]針對水平井在復(fù)雜受力環(huán)境下井下扶正器疲勞導(dǎo)致故障的情況,運(yùn)用ANSYS對扶正器進(jìn)行了力學(xué)分析和疲勞壽命分析,研究建立了水平井抽油桿扶正器的仿真模型,并模擬了扶正器工作的受力情況,認(rèn)為傳統(tǒng)的扶正器結(jié)構(gòu)存在應(yīng)力集中現(xiàn)象,并提出了結(jié)構(gòu)優(yōu)化方案。文獻(xiàn)[7]將壁厚值、直徑和缺陷尺寸等參數(shù)作為疲勞壽命模型計算輸入?yún)?shù),利用在線檢測技術(shù)和疲勞壽命相結(jié)合的評價方法,更加準(zhǔn)確預(yù)測剩余壽命。文獻(xiàn)[8]使用深度學(xué)習(xí)方法中的長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM),根據(jù)已有的油田生產(chǎn)數(shù)據(jù),選取了15項與抽油桿腐蝕密切相關(guān)的變量,通過參數(shù)優(yōu)化、網(wǎng)絡(luò)訓(xùn)練,構(gòu)建了基于LSTM的抽油桿剩余壽命預(yù)測模型。文獻(xiàn)[9]提出了基于灰度矩陣極限學(xué)習(xí)機(jī)(Gray Matrix-Extreme Learning Machine, GM-ELM)的故障診斷方法,利用灰度矩陣對有桿抽油機(jī)井進(jìn)行故障特征提取,再采用數(shù)理統(tǒng)計的方式建立灰度矩陣的特征向量,將故障特性向量作為故障診斷模式的輸入值,通過構(gòu)建GM-ELM模式對抽油機(jī)井故障進(jìn)行檢測。
目前基于回歸分析的油井檢泵周期的預(yù)測方法均為純數(shù)學(xué)的方法,缺少理論依據(jù),且精度較差;對設(shè)備的壽命預(yù)測大多沒有形成量化模型,影響因素考慮不全面,對油井檢泵計劃缺少指導(dǎo)性。以上方法有待于進(jìn)一步完善和深入研究。本文利用支持向量機(jī)回歸與卷積神經(jīng)網(wǎng)絡(luò),根據(jù)抽油機(jī)井生產(chǎn)參數(shù)的特點(diǎn),分別提取檢泵周期相關(guān)參數(shù)的靜態(tài)特征和動態(tài)特征,通過多模態(tài)壓縮雙線性池化融合特征向量,基于判別模型建立檢泵周期預(yù)測模型,可進(jìn)一步提高預(yù)測的準(zhǔn)確率。
根據(jù)抽油機(jī)井生產(chǎn)數(shù)據(jù)的性質(zhì),將影響檢泵周期的參數(shù)分為靜態(tài)參數(shù)和動態(tài)參數(shù)。靜態(tài)參數(shù)是指抽油機(jī)井工作狀態(tài)數(shù)據(jù),表征物理狀態(tài),每月更新,且變化較小;動態(tài)參數(shù)是指抽油機(jī)井生產(chǎn)數(shù)據(jù),與油井的運(yùn)行相關(guān),每天都會產(chǎn)生新數(shù)據(jù)??紤]到2類參數(shù)特征不同,分別對靜態(tài)參數(shù)和動態(tài)參數(shù)建立特征提取模型,將提取出的2類特征輸入多模態(tài)壓縮雙線性池化模型進(jìn)行特征融合,利用判別模型對融合特征進(jìn)行重學(xué)習(xí)預(yù)測抽油機(jī)井檢泵周期,如圖1所示。
圖1 模型框架
針對靜態(tài)參數(shù)變化不大且數(shù)據(jù)量小的特點(diǎn),采用SVR建立靜態(tài)特征提取模型;動態(tài)參數(shù)的數(shù)據(jù)量較大,采用卷積神經(jīng)網(wǎng)絡(luò)提取動態(tài)參數(shù)特征。
1.1.1 靜態(tài)參數(shù)篩選
抽油機(jī)井的靜態(tài)參數(shù)表征井的物理狀態(tài),正常工作情況下,數(shù)據(jù)變化較小,采用Spearman秩相關(guān)系數(shù)[10],計算預(yù)靜態(tài)參數(shù)與檢泵周期的相關(guān)程度大小來分析影響檢泵周期的主要因素。Spearman秩相關(guān)系數(shù)是利用單調(diào)方程衡量2個變量的依賴性的非參數(shù)指標(biāo),即便在變量值沒有變化的情況下,也不會出現(xiàn)像Pearson相關(guān)系數(shù)分母為0而無法計算的情況。Spearman秩相關(guān)系數(shù)如下:
(1)
其中,di表示2個變量分別排序后成對的變量位置差,n表示樣本數(shù)量。分別以上行電流、下行電流、泵徑、泵深、沖程、沖次、排量、泵效、含水率、載荷差為分量組成變量M,以檢泵周期天數(shù)為因變量N,di為M、N的秩次之差,分別計算各參數(shù)的r值,結(jié)果如表1所示。
表1 Spearman相關(guān)系數(shù)r值
表1中的數(shù)據(jù)是基于某油田10年內(nèi)近8000口抽油機(jī)井的生產(chǎn)作業(yè)數(shù)據(jù)集計算得出,r值表示靜態(tài)參數(shù)與檢泵周期的相關(guān)系數(shù)值,r值越大表示相關(guān)性越高。分別選取r值大于0.5的7種參數(shù)、r值大于0.6的6種參數(shù)、r值大于0.7的5種參數(shù)作為靜態(tài)參數(shù),將3組靜態(tài)參數(shù)進(jìn)行特征提取、特征融合之后,輸入判別模型預(yù)測檢泵周期,預(yù)測準(zhǔn)確率分別為0.78、0.83、0.71。同時根據(jù)機(jī)理分析,泵效是指在抽油井生產(chǎn)過程中,實(shí)際產(chǎn)量與理論產(chǎn)量的比值,對造成抽油機(jī)井的故障因素影響不大。
綜合實(shí)驗(yàn)結(jié)果與機(jī)理分析,從表1中篩選r值大于0.6的靜態(tài)參數(shù)作為模型的輸入?yún)?shù),包括泵深、沖程、載荷差、沖次、含水率、泵徑。
1.1.2 靜態(tài)參數(shù)提取
支持向量機(jī)回歸(SVR)[11-13]本質(zhì)上是利用一種非線性映射,把不能線性返回的樣本數(shù)據(jù)映射到更高維度實(shí)現(xiàn)線性返回,該回歸的函數(shù)表達(dá)式為:
f(x)=ωTφ(x)+b
(2)
基于SVR的靜態(tài)特征提取模型的過程描述如下:
1)構(gòu)建訓(xùn)練樣本。
2)獲取最優(yōu)的懲罰因子和核函數(shù)寬度。
懲罰因子C用來調(diào)節(jié)模型復(fù)雜度與經(jīng)驗(yàn)誤差之間的平衡,核函數(shù)寬度σ影響特征空間中樣本數(shù)據(jù)分布的復(fù)雜程度。SVR的回歸性能與核函數(shù)有關(guān),徑向基核函數(shù)(Radial Basis Function, RBF)[14]計算量較小且計算效率高,使得模型具有更強(qiáng)的泛化能力和學(xué)習(xí)能力,徑向基核函數(shù)如下:
(3)
選取徑向基核函數(shù),將(C,σ)初始化,采用網(wǎng)格搜索法,設(shè)置選擇范圍、終止條件以及網(wǎng)格搜索步長,在所有的(C,σ)組合內(nèi)引用SVR對樣本進(jìn)行學(xué)習(xí),計算結(jié)果使用交叉驗(yàn)證均方差(MSE)表示:
(4)
其中,yi為訓(xùn)練集輸出值,即第i個點(diǎn)的實(shí)際檢泵周期誤差,y′i為第i個點(diǎn)的預(yù)測值。計算MSE,MSE值越小,(C,σ)參數(shù)組合效果更好。
3)訓(xùn)練模型。
將訓(xùn)練樣本和最佳的(C,σ)參數(shù)組合代入SVR模型進(jìn)行訓(xùn)練,根據(jù)樣本數(shù)量N和檢泵周期值擬合每個輸入的權(quán)重ω,將靜態(tài)參數(shù)輸入訓(xùn)練好的模型中提取靜態(tài)參數(shù)特征。
1.2.1 動態(tài)參數(shù)篩選
抽油機(jī)井每天都會產(chǎn)生新的動態(tài)參數(shù)數(shù)據(jù),數(shù)據(jù)量十分龐大,采用Pearson相關(guān)系數(shù)[15]篩選動態(tài)參數(shù)中與檢泵周期相關(guān)性強(qiáng)的參數(shù),其輸出范圍為[-1,1],正值表示正相關(guān),負(fù)值表示負(fù)相關(guān),0表示無相關(guān)性。將檢泵周期作為特征向量,使用Pearson相關(guān)系數(shù)分析各動態(tài)參數(shù)與檢泵周期的線性關(guān)系絕對值大小,輸出值的絕對值越大,則相關(guān)性越強(qiáng)。Pearson相關(guān)系數(shù)觀測值X、Y的總體相關(guān)系數(shù)為:
(5)
其中,cov(X,Y)用于表示X、Y特征的協(xié)方差,σX為X特征的標(biāo)準(zhǔn)差,σY則主要用于表示Y特征的標(biāo)準(zhǔn)差。
分別以日產(chǎn)液量、日產(chǎn)油量、日產(chǎn)水量、油壓、套壓、流壓、動液面、井口溫度為分量組成X={x1,x2,…,xi},xi為某一天的參數(shù)值,以檢泵周期為Y={y1,y2,…,yi},yi為xi對應(yīng)的檢泵周期天數(shù),計算Pearson相關(guān)系數(shù)公式rxy:
(6)
由此可以得到檢泵周期與各生產(chǎn)參數(shù)的Pearson相關(guān)系數(shù)r值,如表2所示,樣本數(shù)據(jù)為某油田近10年的生產(chǎn)數(shù)據(jù)。
表2 Pearson相關(guān)系數(shù)r值
分別選取r值大于0.4的6種參數(shù)、r值大于0.5的5種參數(shù)、r值大于0.6的4種參數(shù)作為動態(tài)參數(shù),將3組動態(tài)參數(shù)進(jìn)行特征提取、特征融合之后,輸入判別模型預(yù)測檢泵周期,預(yù)測準(zhǔn)確率分別為0.75、0.86、0.80。并且根據(jù)實(shí)際生產(chǎn)經(jīng)驗(yàn),井口溫度會影響原油粘度,對抽油桿的作用力有較大影響,相對于粘度來說,套壓和油壓的影響較小。綜合實(shí)驗(yàn)結(jié)果與機(jī)理分析,從表2中篩選r值大于0.5的生產(chǎn)參數(shù)作為輸入特征,包括日產(chǎn)液量、流壓、日產(chǎn)油量、動液面、井口溫度。
1.2.2 動態(tài)特征重建
在訓(xùn)練模型之前,為防止數(shù)據(jù)中存在較大數(shù)值的數(shù)據(jù)影響數(shù)值較小的數(shù)據(jù)對于訓(xùn)練的效果,需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化、歸一化操作消除量綱。表達(dá)公式如下:
(7)
卷積神經(jīng)網(wǎng)絡(luò)的輸入為矩陣,由于動態(tài)參數(shù)種類較少,要將參數(shù)結(jié)構(gòu)進(jìn)行重建。以單個井為例,按時間順序選擇5種動態(tài)參數(shù)的30條數(shù)據(jù)作為一組,將6組數(shù)據(jù)合并為一個30×30的矩陣。
1.2.3 動態(tài)特征提取
將重建后的動態(tài)參數(shù)輸入到卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)[16-18]中進(jìn)行訓(xùn)練,深層卷積神經(jīng)網(wǎng)絡(luò)能夠更好地提取不同參數(shù)的特征信息,模型泛化能力強(qiáng),但隨著網(wǎng)絡(luò)深度加深會出現(xiàn)梯度消失或梯度爆炸現(xiàn)象。殘差網(wǎng)絡(luò)(Residual Network, ResNet)[19-21]通過捷徑連接和恒等映射組成的殘差塊,使得網(wǎng)絡(luò)深度增加時模型不退化,具有更強(qiáng)的特征提取能力。
本文采用的ResNet-50整體結(jié)構(gòu)如圖2所示,首先通過Stage1的7×7卷積層和3×3最大池化層對輸入數(shù)據(jù)進(jìn)行一次特征提取操作,再通過Stage2中的4個殘差結(jié)構(gòu)提取更高層特征信息,最后通過Stage3全連接層輸出提取后的動態(tài)特征。
圖2中Conv是卷積層,Batch Norm表示批量正則化處理,Max Pool表示最大池化操作,Avg Pool表示平均池化操作。激活函數(shù)選擇線性整流單元ReLU函數(shù)[22],表達(dá)式如下:
圖2 ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)
f(x)=max(0,x)
(8)
其中,線性整流單元的輸入為x,同時也是上一層的網(wǎng)絡(luò)輸出,x與0的相對極大值就是線性整流單元的輸出結(jié)果。
由于從靜態(tài)參數(shù)中提取的靜態(tài)特征和從動態(tài)參數(shù)提取的動態(tài)特征分別表示單方面的特征,不能單獨(dú)預(yù)測檢泵周期,所以需要將2類特征進(jìn)行特征融合,將融合后的特征向量作為輸入,預(yù)測檢泵周期。將提取的靜態(tài)特征記為f1(Sn)和動態(tài)特征記為f2(Dn),輸入多模態(tài)壓縮雙線性池化(Multimodal Compact Bilinear Pooling, MCPB)模型[23]進(jìn)行特征融合。由于MCBP采用外積的計算方法,融合了靜態(tài)特征f1(Sn)和動態(tài)特征f2(Dn)特征向量中每個元素之間的相互關(guān)系,所產(chǎn)生的多模態(tài)融合特征向量更具表達(dá)性;并且MCBP將靜態(tài)特征f1(Sn)和動態(tài)特征f2(Dn)特征向量投射到頻域空間,無需直接計算外積,避免了計算復(fù)雜、容易產(chǎn)生過擬合等問題。
MCBP采用Count Sketch投射函數(shù)ψ,將靜態(tài)特征向量和動態(tài)特征向量的外積f1(Sn)?f2(Dn)投射到低維空間表示為:
ψ(f1(Sn)?f1(Dn),h,g)=ψ(f1(Sn),h,g)*ψ(f2(Dn),h,g)
(9)
其中,h、g為哈希映射,*表示卷積運(yùn)算。根據(jù)卷積定理,時域中的卷積對應(yīng)頻域中的乘積,式(9)可表達(dá)為:
ψ(f1(Sn)?f1(Dn),h,g)=FFT-1(FFT(f1′(Sn))⊙f2′(Dn))
(10)
其中,⊙表示點(diǎn)積操作,結(jié)果為融合后的特征向量。
為提升檢泵周期預(yù)測的準(zhǔn)確率,本文提出3種判別模型,分別為基于GMM的判別模型、基于決策樹的判別模型和基于線性模型的判別模型,用3種判別模型分別預(yù)測檢泵周期,驗(yàn)證哪種模型對于檢泵周期預(yù)測的效果更好。將判別模型訓(xùn)練的損失函數(shù)定義為:
(11)
其中:Pi表示判別模型輸出的預(yù)測檢泵周期值;Yi為實(shí)際檢泵周期值。
1.4.1 基于GMM的判別模型
高斯混合模型(Gaussian Mixture Model, GMM)[24]是一種基于概率模型的聚類方法,假設(shè)輸入樣本服從k個參數(shù)未知的高斯分布,服從同一分布的樣本則被聚為一類。利用高斯混合模型的檢泵周期預(yù)測過程如下:
1)最優(yōu)聚類個數(shù)。
為較準(zhǔn)確地預(yù)測檢泵周期,縮小天數(shù)范圍,依據(jù)實(shí)際生產(chǎn)經(jīng)驗(yàn)及數(shù)據(jù),將檢泵周期天數(shù)300~1200天,分別按照間隔50天和100天進(jìn)行分組,可分為18類和9類。利用貝葉斯信息準(zhǔn)則(Bayesian information criterion, BIC)[25]的模型選擇理論對上述2種分組進(jìn)行概率估計。表達(dá)式為:
CBIC=-ln(L)+npln(m)
(12)
其中,CBIC為BIC值,np為超參數(shù)的個數(shù),L為模型估計似然函數(shù)的最大值。計算結(jié)果如表3所示,以具有低BIC值的模型為優(yōu)。
表3 2種分組的BIC值
由表3結(jié)果可知,當(dāng)聚類個數(shù)為9時的CBIC值更小,因此按照間隔100天對檢泵周期進(jìn)行分組。
2)聚類檢泵周期。
將融合后的特征向量輸入高斯混合模型進(jìn)行訓(xùn)練。利用最大期望(expectation-maximization, EM)算法[26]對k個混合的高斯分布進(jìn)行擬合,以求得每個分布的均值μj和協(xié)方差εj(1≤j≤k)。利用計算獲得的高斯參數(shù),遍歷所有樣本,將樣本歸于概率最大的一類。
1.4.2 基于決策樹的判別模型
梯度提升迭代決策樹(Gradient Boosting Decision Tree, GDBT)[27]是Boosting算法中的一種,是決策樹(CART)的加法模型,核心在于累加所有樹的結(jié)果作為最終結(jié)果。在預(yù)測檢泵周期時,將損失函數(shù)的負(fù)梯度在當(dāng)前模型的值,作為殘差的近似值去擬合一個回歸樹得到最終的回歸樹:
(13)
XGBoost[28-30]是對GDBT的改進(jìn),在最小化損失函數(shù)時進(jìn)行了正則化,擬合上一輪強(qiáng)學(xué)習(xí)器損失函數(shù)的二階導(dǎo)展開,提高了精度。對于目標(biāo)函數(shù),使用二階泰勒展開式來優(yōu)化,目標(biāo)函數(shù)為:
(14)
1.4.3 基于線性模型的判別模型
邏輯回歸(Logistic Regression, LR)[31-33]是一種廣義的線性回歸分析模型,主要思想是在線性回歸的基礎(chǔ)上,通過Sigmoid函數(shù)引入非線性模型,邏輯回歸模型表達(dá)為:
z=θTX
(15)
其中,X為靜態(tài)特征與動態(tài)特征融合后的特征向量,θT為回歸系數(shù)。使用Sigmoid函數(shù)作為預(yù)測函數(shù),表達(dá)式為:
(16)
采用最大似然估計法對回歸系數(shù)進(jìn)行估計,損失函數(shù)最小時,求得最佳回歸系數(shù)值,代入模型,預(yù)測檢泵周期。
實(shí)驗(yàn)數(shù)據(jù)集來源于某油田的抽油機(jī)井生產(chǎn)數(shù)據(jù),將與抽油機(jī)井檢泵周期相關(guān)的參數(shù)按照類型分為靜態(tài)參數(shù)和動態(tài)參數(shù),靜態(tài)參數(shù)主要包括上行電流、下行電流、泵徑、泵深、沖程、沖次、排量、泵效、含水率、載荷差,動態(tài)參數(shù)主要包括日產(chǎn)液量、日產(chǎn)油量、日產(chǎn)水量、含水率、油壓、套壓、流壓、動液面、井口溫度等。
將數(shù)據(jù)集隨機(jī)劃分,70%的數(shù)據(jù)用于訓(xùn)練,30%的數(shù)據(jù)用于測試。在訓(xùn)練階段,首先對數(shù)據(jù)進(jìn)行預(yù)處理,分別提取靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)的特征,再利用多模態(tài)壓縮雙線性池化融合2類特征,將融合后的特征向量輸入判別模型進(jìn)行訓(xùn)練。在測試階段,將測試數(shù)據(jù)輸入訓(xùn)練好的判別模型,最終預(yù)測抽油機(jī)井檢泵周期天數(shù)。
本文設(shè)計2個指標(biāo)去評價模型。一是計算模型預(yù)測的檢泵周期天數(shù)和真實(shí)檢泵周期天數(shù)的均方根誤差(Root Mean Square Error, RMSE),表示模型預(yù)測的誤差,計算公式為:
(17)
二是計算模型準(zhǔn)確率衡量模型預(yù)測的有效性,預(yù)測結(jié)果|Pj-Yj|≤0.1×Yj表示預(yù)測準(zhǔn)確,其中Pj表示預(yù)測的檢泵周期值,Yj為實(shí)際檢泵周期值;否則表示預(yù)測不準(zhǔn)確。
針對本文的檢泵周期預(yù)測模型,從以下3個方面對該模型進(jìn)行有效性分析:1)分析模型本身參數(shù)對于模型的影響;2)使用不同的判別模型分析對預(yù)測結(jié)果的影響;3)使用其他故障預(yù)測的方法與本文的模型進(jìn)行對比驗(yàn)證。
靜態(tài)特征提取模型中的核函數(shù)將特征從低維到高維進(jìn)行轉(zhuǎn)換,分別使用了多項式核函數(shù)、徑向基核函數(shù)和線性核函數(shù),分析不同的核函數(shù)對于靜態(tài)特征提取的影響,其中模型參數(shù)C=4,ε=0.274,σSVR=0.047;對于動態(tài)特征提取模型,分別使用了vgg16、vgg19、resnet34和resnet50等卷積神經(jīng)網(wǎng)絡(luò),分析了不同的算法對動態(tài)特征提取的效果。如表4所示,resnet的預(yù)測結(jié)果明顯優(yōu)于vgg,殘差這一結(jié)構(gòu)可以更好地幫助模型進(jìn)行預(yù)測,而通過徑向基核函數(shù)將數(shù)據(jù)進(jìn)行高維映射可以更好地提取靜態(tài)特征。
表4 特征提取模型結(jié)果
本文對比了5種不同的動態(tài)特征提取網(wǎng)絡(luò),分析了網(wǎng)絡(luò)中不同的結(jié)構(gòu)對模型效果的影響,如表5所示,模型A是基礎(chǔ)的網(wǎng)絡(luò),模型B用了更簡單的全連接層,模型C用了2個更小的卷積核代替模型A中的大卷積核,模型D用了更多的卷積層和更少的全連接層,模型E相比模型C則是增加了全連接層的寬度。如表6所示,模型A和模型C取得了更好的預(yù)測結(jié)果,更大的全連接層可以獲得更好的預(yù)測結(jié)果,而卷積層對于預(yù)測結(jié)果影響并不大。
表5 模型結(jié)構(gòu)
表6 模型預(yù)測結(jié)果
判別模型將融合之后動態(tài)特征和靜態(tài)特征映射至檢泵周期,實(shí)現(xiàn)最終的預(yù)測過程,選擇較為契合油井?dāng)?shù)據(jù)特點(diǎn)的判別模型可以極大地提高模型的準(zhǔn)確性,本文使用了GMM、邏輯回歸、GBDT以及XGBoost等4種不同的判別模型分別對檢泵周期進(jìn)行預(yù)測,如表7所示,由于數(shù)據(jù)特征較為混亂,難以聚類,故GMM的表現(xiàn)效果最差;數(shù)據(jù)量不足導(dǎo)致了邏輯回歸的預(yù)測結(jié)果也難以取得理想結(jié)果;而GBDT和XGBoost取得了較好的結(jié)果。
隨機(jī)抽取40口測試集中的抽油機(jī)井進(jìn)行預(yù)測并顯示檢泵周期預(yù)測值和真實(shí)值的對比圖,具體分析模型的有效性,如圖3所示,模型預(yù)測的檢泵周期值可以較好地擬合真實(shí)值,在一定程度上可以為檢泵作業(yè)進(jìn)行指導(dǎo)作用。
圖3 檢泵周期預(yù)測結(jié)果
對比文獻(xiàn)[9]中基于GM-ELM的有桿泵抽油井故障診斷方法(模型A)和文獻(xiàn)[34]中基于LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的故障時間序列預(yù)測方法(模型B)與本文的基于特征融合的檢泵周期預(yù)測方法(模型C)進(jìn)行對比。預(yù)測結(jié)果如表8所示,由于模型B對于油井?dāng)?shù)據(jù)并不是專門契合,其預(yù)測準(zhǔn)確性較差;而本文模型根據(jù)油井?dāng)?shù)據(jù)的特點(diǎn)將其進(jìn)行分類并設(shè)計不同的模型處理不同類型的數(shù)據(jù),故得到了較好的預(yù)測結(jié)果。
表8 模型預(yù)測結(jié)果對比
針對石油生產(chǎn)中抽油機(jī)井檢泵周期的問題,本文提出了基于特征融合的檢泵周期預(yù)測模型。輸入抽油機(jī)井歷史生產(chǎn)數(shù)據(jù)和作業(yè)數(shù)據(jù),采用徑向基核函數(shù)的SVR算法提取靜態(tài)參數(shù)特征,采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行動態(tài)特征提取,利用多模態(tài)壓縮雙線性池化模型將靜態(tài)特征和動態(tài)特征進(jìn)行特征融合,并基于判別模型方法構(gòu)建檢泵周期預(yù)測模型。采用生成的測試集對優(yōu)化后的預(yù)測模型進(jìn)行測試,模型預(yù)測的準(zhǔn)確率達(dá)到了89%,綜合性能優(yōu)于其他模型。本文所提出的抽油機(jī)井檢泵周期預(yù)測方法對指導(dǎo)油田生產(chǎn)作業(yè)具有一定參考價值。