• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    抽油機故障診斷的分布驅(qū)動主動學(xué)習(xí)算法

    2022-06-30 06:57:02沈佳園
    關(guān)鍵詞:示功圖抽油機代價

    汪 敏,周 磊,閔 帆,張 響,沈佳園,韓 菲

    (1.西南石油大學(xué)電氣信息學(xué)院,成都 610500;2.西南石油大學(xué)計算機科學(xué)學(xué)院,成都 610500;3.浙江浙能天然氣運行有限公司,杭州 310052;4.新疆油田公司風(fēng)城油田,克拉瑪依 834000)

    抽油機井一直都是石油開采中的重要組成部分,為了更好地了解抽油機井的工作狀況,就必須對其工作時產(chǎn)生的一系列數(shù)據(jù)進行分析,從而判斷抽油機井是否正常工作。通過測量抽油機往復(fù)一周所產(chǎn)生的載荷、位移系列數(shù)據(jù)來繪制地面示功圖[1],由不同因素導(dǎo)致的抽油機故障會形成不同形狀的示功圖。及時準確地對示功圖進行診斷,得出抽油機的故障原因,可以減少財產(chǎn)損失和延長零部件的使用壽命。目前以示功圖為研究對象對抽油機進行故障診斷是最常見的方法。常見的有BP神經(jīng)網(wǎng)絡(luò)[2]、主成分分析方法[3]以及支持向量機(Support vector machine,SVM)[4]等。田增國等[5]提出了一種基于主成分分析的示功圖故障診斷系統(tǒng)。該方法是利用降維技術(shù)保留大量信息的情況下將原始數(shù)據(jù)進行壓縮,將大量的線性相關(guān)屬性變量轉(zhuǎn)化成幾個相互獨立或者不相關(guān)的變量。通過計算示功圖經(jīng)過主成分分析后的數(shù)據(jù)之間的相關(guān)系數(shù)來判定不同故障。施海青等[6]提出了一種基于支持向量機的抽油機故障診斷方法。該方法采用矢量曲線對數(shù)據(jù)進行壓縮,從而提取井下示功圖特征點。采用“一對一”的方式構(gòu)建多分類支持向量機分類器,能夠?qū)Χ鄠€故障做出識別。杜娟等[7]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的抽油機工況識別方法。該方法在原有神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上增添了兩個注意力機制模塊,能夠很好地調(diào)節(jié)原有模型的過擬合情況,使模型更能關(guān)注小類別工況。在工況復(fù)雜的抽油機故障診斷實驗中,該模型具有良好的泛化能力。文獻[8]提出了一種基于稀疏多圖正則化極限學(xué)習(xí)機的抽油機故障診斷方法。該方法通過快速離散曲波變換提取示功圖特征,利用圖表示學(xué)習(xí)方法構(gòu)建類內(nèi)圖和類間圖來表示同類數(shù)據(jù)間的關(guān)系以及不同類別數(shù)據(jù)間的關(guān)系。通過稀疏表示,可以使同一類數(shù)據(jù)的結(jié)果輸出盡可能相同,不同類別的數(shù)據(jù)的結(jié)果輸出盡可能分開。示功圖故障診斷測試表明,該模型在抽油機工況識別上有很好的表現(xiàn)。文獻[9]采用了適應(yīng)噪聲因子的濾波器以及使用基函數(shù)來與之結(jié)合的方法。使用近似多邊形的傅里葉描述符方法來提取示功圖特征,采用徑向基函數(shù)(Radial basis function,RBF)神經(jīng)網(wǎng)絡(luò),利用指標(biāo)圖數(shù)據(jù)和生產(chǎn)數(shù)據(jù)建立故障診斷模型,使用自適應(yīng)噪聲因子來解決模型中的自適應(yīng)濾波問題。實驗表明,模型在示功圖故障診斷方面取得不錯的表現(xiàn)。

    現(xiàn)階段常用深度學(xué)習(xí)方法進行故障診斷測試,Peng 等[10]開發(fā)了一種新型雙向門控循環(huán)單元(Bidirectional gated recurrent unit,BGRU),在訓(xùn)練階段對每個訓(xùn)練樣本進行加權(quán),以減少類不平衡的影響,然后利用成本敏感的主動學(xué)習(xí)來選擇候選樣本。在實際等離子體蝕刻工藝數(shù)據(jù)集上評估了所提出方法的有效性。Jin 等[11]提出一種用于復(fù)合故障診斷的新型解耦注意力殘差網(wǎng)絡(luò),應(yīng)用在軸承數(shù)據(jù)集,獲得了優(yōu)越的精度,大大減少了領(lǐng)域?qū)<业臉?biāo)記工作量。Zhang 等[12]引入概率主動支持向量機(Probabilistic active support vector machine,Pro-ASVM)的學(xué)習(xí)方法,根據(jù)樣本點的概率選擇點作為支持向量。應(yīng)用于軸承振動信號的分類,獲得了優(yōu)異的分類效果。Jian 等[13]針對實際工業(yè)故障診斷訓(xùn)練集規(guī)模較小的問題,提出了一種基于主動和半監(jiān)督學(xué)習(xí)的故障診斷新方法。應(yīng)用于實際的智能維護系統(tǒng)數(shù)據(jù),為小訓(xùn)練集下的故障診斷提供了一種有前途且有用的方法。Chen 等[14]針對自組織蜂窩網(wǎng)絡(luò)(Self-organizing cellular networks,SONs)中的故障診斷的多分類問題,提出了一種新的基于主動學(xué)習(xí)的故障診斷方案。該方案只需很少的標(biāo)記訓(xùn)練實例即可實現(xiàn)高診斷性能,從而顯著降低成本。Pun?ochá? 等[15]提出了主動故障診斷(Active fault diagnosis,AFD)領(lǐng)域的基本分類方法。由于實際油田生產(chǎn)過程中存在抽油機井下的故障種類數(shù)量多且不同故障類別的數(shù)據(jù)量不平衡、人為標(biāo)注的樣本少且費時費力等問題,常用的深度學(xué)習(xí)工況識別模型難以在實際工作中落地。同時,主成分分析方法、支持向量機等傳統(tǒng)的方法無法很好的處理不平衡數(shù)據(jù)分類問題。針對以上方法存在的不足,本文提出一種基于分布驅(qū)動的多類別長尾數(shù)據(jù)代價敏感主動學(xué)習(xí)算法(Cost-sensitive active learning algorithm based on distribution-driven multi-class long-tailed data,CALA)來解決這一困難且非常有意義的問題。

    1 特征提取

    本節(jié)主要介紹本文示功圖的特征提取方法,結(jié)合灰度矩陣的知識,提取示功圖灰度矩陣的6 個特征作為統(tǒng)計特征。

    1.1 網(wǎng)格法提取灰度矩陣

    本文采用網(wǎng)格法[16]對示功圖進行灰度矩陣提取,網(wǎng)格法構(gòu)建示功圖的灰度矩陣主要包含如下步驟:

    (1)標(biāo)準化示功圖

    為了更好地比較不同工況下的抽油機示功圖,消除示功圖量綱對收集到的數(shù)據(jù)的影響,將采集到的示功圖數(shù)據(jù)進行標(biāo)準歸一化。為符合石油工業(yè)的習(xí)慣,將示功圖放進一個長寬比為2∶1 的矩形中,滿足繪制的地面示功圖被矩形內(nèi)切這一條件。

    (2)網(wǎng)格化示功圖

    將長方形分成多個網(wǎng)格,本文將之劃分為20×10 大小的網(wǎng)格個數(shù),并將所有網(wǎng)格的初始灰度賦值“0”;若網(wǎng)格內(nèi)含有示功圖曲線,其灰度值賦值為“1”;邊界內(nèi)部網(wǎng)格的灰度值往矩形中心依次遞增;邊界外部網(wǎng)格的灰度值以矩形邊界依次遞減。邊界搜索方式按列進行。

    1.2 特征向量提取

    通過對構(gòu)建好的示功圖灰度矩陣[17]進行數(shù)理統(tǒng)計,計算灰度均值gˉ、方差σ2、偏度ε、峰度P、能量E和熵ξ這6 個統(tǒng)計特征作為示功圖特征值。

    假設(shè)灰度矩陣大小為G(A,B),矩陣中任意位置的值gab(1 ≤a≤A,1 ≤b≤B)表示示功圖網(wǎng)格化后對應(yīng)位置的灰度。設(shè)灰度矩陣中灰度級數(shù)為R,設(shè)某一灰度級數(shù)r的數(shù)量為T(r),則該灰度級數(shù)在灰度矩陣中出現(xiàn)的概率可表示為p(r)=T(r)/(A×B)。

    以統(tǒng)計的6 個特征值{d1,d2,d3,d4,d5,d6}作為最終的分類特征向量。

    2 算法設(shè)計

    本文的數(shù)據(jù)模型是教師和誤分類代價決策系統(tǒng)(TMC-DS)[18],該決策系統(tǒng)定義成1 個四元組

    式中:X代表一個數(shù)據(jù)集向量;y代表數(shù)據(jù)真實標(biāo)簽向量;M代表誤分類代價矩陣;t代表專家代價為1。CALA 算法過程框圖如圖1 所示。

    圖1 CALA 算法流程框圖Fig.1 CALA algorithm flow chart

    2.1 獲取數(shù)據(jù)最佳分布

    本節(jié)設(shè)計了一種基于誤差統(tǒng)計函數(shù)探索數(shù)據(jù)最佳聚類簇數(shù)的方法。依據(jù)“物以類聚”的原則,樣本間距離越接近,它們的標(biāo)簽就越可能一致的假設(shè)[19]。通過對多個結(jié)構(gòu)化數(shù)據(jù)集進行分析測驗,得到擬合誤差曲線。其具體步驟如下:

    (1)距離閾值實例對

    依據(jù)距離閾值λ的相鄰實例對(xi,xj)定義為

    式中:dist(xi,xj)代表數(shù)據(jù)樣本xi和xj間的歐式距離;λ為設(shè)定歸一化距離閾值;Nλ為滿足條件的實例對個數(shù)。

    (2)實例對標(biāo)簽統(tǒng)計誤差

    根據(jù)式(8)得到的實例對個數(shù),依據(jù)不同的距離閾值定義實例對標(biāo)簽統(tǒng)計誤差函數(shù)

    式中:|Nλ|為滿足閾值λ下實例對數(shù)量;yi和yj為樣本xi和xj對應(yīng)的真實標(biāo)簽。

    (3)獲取經(jīng)驗誤差函數(shù)

    首先選取30 個不同樣本個數(shù),不同特征個數(shù)以及不同類別數(shù)量的公開數(shù)據(jù)集,其次通過式(8)計算不同閾值λ下的實例對個數(shù),然后通過式(9)統(tǒng)計不同閾值λ 下的標(biāo)簽統(tǒng)計誤差e(λ),最后通過多項式擬合得到經(jīng)驗誤差函數(shù),即

    擬合曲線相關(guān)系數(shù)達到0.999 9,符合工程實際。

    (4)優(yōu)化目標(biāo)函數(shù)

    式中:n為數(shù)據(jù)樣本總數(shù),ni為對應(yīng)第i簇的樣本個數(shù),λi為第i簇的最遠兩樣本距離與數(shù)據(jù)集最遠兩樣本距離的比值。

    2.2 預(yù)分類

    利用預(yù)分類修正基于統(tǒng)計策略得到的最佳簇數(shù)。將統(tǒng)計策略得到的最佳聚類簇數(shù)中每一簇通過主動學(xué)習(xí)方法[20]選擇最具代表性的樣本作為訓(xùn)練集,通過概率預(yù)測模型得到樣本預(yù)分類標(biāo)簽。訓(xùn)練集的選取方式為

    式中:ci為第Ci簇的聚類中心;s*為該簇交由專家標(biāo)注的樣本。

    通過Softmax 回歸[21],輸入任意樣本xi,屬于樣本對應(yīng)的預(yù)測概率為

    其預(yù)測標(biāo)簽為

    式中:l為樣本類別數(shù)量;θ為Softmax 目標(biāo)函數(shù)訓(xùn)練得到的最佳參數(shù)。通常通過梯度下降法[22]求解。

    2.3 更新最佳聚類分布

    通過Softmax 回歸模型進行預(yù)分類,測試樣本會得到一個相應(yīng)的預(yù)測標(biāo)簽。將數(shù)據(jù)再次進行聚類,依照得到的樣本預(yù)測標(biāo)簽和經(jīng)驗誤差曲線構(gòu)建新的聚類優(yōu)化目標(biāo)函數(shù),有

    式中:?1和?2為權(quán)重系數(shù);pu(Ci)為第Ci簇的預(yù)測標(biāo)簽純度,定義如下

    2.4 集成分類

    根據(jù)找到的最佳聚類簇數(shù),將數(shù)據(jù)進行聚類,選取每一簇離中心點最近的樣本作為訓(xùn)練集,通過Softmax 回歸得到測試集的預(yù)測標(biāo)簽。并且將該訓(xùn)練集同時作為K最近鄰算法(K-nearest neighbor,KNN)預(yù)測分類模型的訓(xùn)練集,得到測試集的KNN 預(yù)測標(biāo)簽集合j'。結(jié)合二者的預(yù)測標(biāo)簽構(gòu)建決策函數(shù)

    2.5 偽代碼及時間復(fù)雜度分析

    (1)算法偽代碼

    算法 CALA

    輸入決策信息系統(tǒng)S=(X,y,M,t)

    輸出預(yù)測標(biāo)簽集合Y=[y]n×1

    步驟1~5 為賦值和通過聚類得到數(shù)據(jù)初始分布信息階段,計算量主要在于聚類算法,時間復(fù)雜度為O(kdn)。步驟6~8 為選取訓(xùn)練樣本和Softmax 預(yù)分類過程,選取訓(xùn)練樣本階段時間復(fù)雜度為O(n2),Softmax 預(yù)分類過程時間復(fù)雜度為O(n'2),n'為預(yù)分類樣本數(shù)量,為原始樣本總數(shù)減去訓(xùn)練樣本后的樣本個數(shù)。n'<n,這階段總的時間復(fù)雜度為O(n2)+O(n'2)=O(n2)。步驟9~25 為更新最佳聚類分布和集成分類過程,更新最佳聚類分布與初始聚類階段時間復(fù)雜度一致為O(kdn),集成分類過程中,Softmax 分類階段時間復(fù)雜度為O(n2),KNN 分類階段時間復(fù)雜度為O(n),考慮while 循環(huán)過程,則這階段總的時間復(fù)雜度為O(kdn·log2n)+O(n2log2n)+O(nlog2)=O(n2log2n)。其中特征數(shù)d<n,聚類簇數(shù)k<n,時間復(fù)雜度為

    O(kdn)+O(n2)+O(n2log2n)=O(n2log2n)。

    3 算法驗證

    3.1 數(shù)據(jù)集描述

    實驗采用來自新疆風(fēng)城油田4 個作業(yè)區(qū)不同抽油機示功圖數(shù)據(jù)對本文算法進行驗證分析。其具體信息如表1 所示。這些數(shù)據(jù)包含多個類別且都是不平衡數(shù)據(jù)。其中A01 是抽油機作業(yè)一區(qū)常規(guī)油井采集的示功圖數(shù)據(jù),A02 是抽油機作業(yè)二區(qū)稠油油井采集的示功圖數(shù)據(jù),A03 是抽油機作業(yè)三區(qū)超稠油油井采集的示功圖數(shù)據(jù),A04 是抽油機作業(yè)四區(qū)SAGD 油井采集的示功圖數(shù)據(jù)。4 個油田示功圖數(shù)據(jù)包含有正常工作、供液不足、氣體影響、氣鎖、上碰泵、下碰泵、游動閥關(guān)閉遲緩、柱塞脫出泵工作筒、游動閥漏、固定閥漏、砂影響+供液不足和慣性影響這12 種常見抽油機工況。其中,大部分為正常工作,氣體影響工況為最小類別故障工況。A01 中正常工況樣本有4 474 個,氣體影響工況有300 個,不平衡比例為14.91;A02 中正常工況樣本有4 974 個,氣體影響工況有300 個,不平衡比例為16.58;A03 中正常工況樣本有5 374 個,氣體影響工況有300 個,不平衡比例為17.91;A04 中正常工況樣本有5 845 個,氣體影響工況樣本有300個,不平衡比例為19.48。實際油田工作環(huán)境下,抽油機示功圖中氣體影響這一類工況數(shù)據(jù)稀少。當(dāng)發(fā)生氣體影響時,抽油機泵腔內(nèi)壓力不能正常下降,使得加載速度變慢,采油效率降低。對小類別工況進行準確識別能夠及時對故障機械進行維修,減少損失、延長機器設(shè)備的使用壽命。

    表1 數(shù)據(jù)集信息Table 1 Information of datasets

    3.2 評價指標(biāo)

    本文實驗采用精度、平均代價F-Measure 作為評估算法性能的指標(biāo),其精度定義為

    式中:|Xt|為測試集的樣本數(shù)量,error 為誤分類樣本數(shù)量。

    對于不平衡抽油機故障工況數(shù)據(jù)而言,刻畫不同工況具有不同的誤分類代價是很有必要的。對于稀少工況類別數(shù)據(jù)在實際場景下樣本數(shù)稀少,誤分類的代價應(yīng)遠大于常見工況類別數(shù)據(jù)誤分類代價。本文設(shè)定的代價矩陣[23]為

    式中:ni和nj分別表示測試集中屬于第i類和第j類的樣本數(shù)量。平均代價為

    式中:Aij為將第i類誤分類為第j類的樣本數(shù)量;|Xr|為交由專家標(biāo)注的樣本個數(shù);t為查詢標(biāo)簽代價,實驗中設(shè)置為1。

    為驗證模型在不平衡數(shù)據(jù)分類上的性能,從準確率(Precision)和召回率(Recall)和F-measure 分數(shù)[24]這3 個評價指標(biāo)對模型性能進行綜合評判。這3 種評價指標(biāo)可以由表2 的混淆矩陣計算得出。

    式中:TP 和TN 分別表示真實標(biāo)簽與預(yù)測標(biāo)簽全部為正,全部為負的樣本數(shù)量;FP 表示真實標(biāo)簽為負,預(yù)測標(biāo)簽為正的樣本數(shù)量,而FN 相反。準確率是針對模型測試結(jié)果,表示預(yù)測為正實例中有多少真正的正實例;召回率是針對于原始樣本具體標(biāo)簽,表示原始樣本的正實例有多少被模型預(yù)測正確。F-measure 綜合兼顧這兩個評判標(biāo)注,是評價算法性能最常用的指標(biāo)。

    表2 混淆矩陣Table 2 Confusion matrix

    3.3 實驗設(shè)計

    為驗證提出的算法模型性能的優(yōu)越性,將本文提出的CALA 算法與基于欠采樣技術(shù)的代價敏感學(xué)習(xí)算法(Under-sampling,US)[25]、基于閾值移動調(diào)整類別閾值算法(Threshold-moving,TM)[26]、基于過采樣技術(shù)的代價敏感學(xué)習(xí)算法(Over-sampling,OS)[27]、增強的自動雙支持向量機算法(Enhanced automatic twin support vector machine,EATWSVM)[28]、基于邊距的非定性采樣主動學(xué)習(xí)算法(Uncertainty sampling with margin,UM)[29]、基于熵的不確定性采樣主動學(xué)習(xí)算法(Uncertainty sampling with entropy,UE)[30]和基于成本嵌入的主動學(xué)習(xí)算法(Active learning with cost embedding,ALCE)[31]以及卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)這8 種算法進行比較。US、TM、OS 和EATWSVM 是4 種代價敏感不平衡數(shù)據(jù)處理方法,UM、UE 和ALCE 是3 種代價敏感主動學(xué)習(xí)算法。

    4 實驗結(jié)果及分析

    4.1 與代價敏感不平衡數(shù)據(jù)處理方法比較

    本節(jié)實驗中,將真實采集到的4 個油田的抽油機示功圖數(shù)據(jù)用于模型性能驗證。每個數(shù)據(jù)集選取30%的樣本交由專家標(biāo)注標(biāo)簽進行模型訓(xùn)練,其余樣本作為測試集。同樣條件下,隨機10 次重復(fù)實驗,統(tǒng)計各評價指標(biāo)結(jié)果。結(jié)果取均值和標(biāo)準差如表3 所示。

    表3 與代價敏感不平衡數(shù)據(jù)處理方法對比實驗結(jié)果(均值±方差)Table 3 Comparison of experimental results with cost?sensitive imbalanced data processing methods(mean±std)

    從表3 可以看出,在A01、A02、A03 和A04 數(shù)據(jù)集中,本文所提出的CALA 算法在精度、召回率和F-measure 這3 種評價指標(biāo)上展現(xiàn)的性能都優(yōu)于其余4 種對比算法。在代價性能測試上,過采樣算法OS 表現(xiàn)最好,CALA 在4 個數(shù)據(jù)集上的代價排名分別為第二、第四、第四和第二。

    為驗證本文提出的CALA 算法在不同查詢比率下的性能,圖2 顯示了CALA 與4 種代價敏感不平衡數(shù)據(jù)處理方法在查詢比率為30%、35%、40%、45%和50%下的F-measure 對比,對于4 個真實油井?dāng)?shù)據(jù)集,CALA 算法的平均F-measure 明顯高于其余算法。

    圖2 CALA 算法與4 種不平衡數(shù)據(jù)處理算法在不同查詢比率下的F-measure 比較Fig.2 Comparison of F-measure between CALA algorithm and four imbalanced data processing algorithms under different query ratios

    4.2 與代價敏感主動學(xué)習(xí)算法比較

    本節(jié)實驗中,將真實采集到的4個油田的抽油機示功圖數(shù)據(jù)用于模型性能驗證。每個數(shù)據(jù)集選取30%的樣本交由專家標(biāo)注標(biāo)簽進行模型訓(xùn)練,其余樣本作為測試集。同樣條件下,隨機10次重復(fù)實驗,統(tǒng)計各評價指標(biāo)結(jié)果。結(jié)果取均值和標(biāo)準差如表4所示。

    表4 與代價敏感主動學(xué)習(xí)算法對比實驗結(jié)果(均值±方差)Table 4 Comparison of experimental results with cost sensitive active learning algorithms(mean±std)

    從表4 可以看出,在A01、A02 和A04 數(shù)據(jù)集中,本文所提出的CALA 算法在精度、召回率和F-measure 這3 種評價指標(biāo)上展現(xiàn)的性能都優(yōu)于其余4 種對比算法。A03 數(shù)據(jù)集上,提出的CALA 算法在召回率和F-measure 評價上優(yōu)于其余對比算法。在代價性能測試上,深度學(xué)習(xí)算法CNN 表現(xiàn)最好,CALA 在4 個數(shù)據(jù)集上的代價排名分別為第三、第二、第五和第二。

    為驗證算法在不同查詢比率下的性能,圖3 分別顯示了與3 種代價敏感主動學(xué)習(xí)算法以及深度學(xué)習(xí)算法在查詢比率為30%、35%、40%、45%和50%下的F-measure 對比,對于4 個真實油井?dāng)?shù)據(jù)集,CALA 算法的平均F-measure 明顯高于其余算法。

    圖3 CALA 算法與代價敏感主動學(xué)習(xí)算法以及CNN 算法在不同查詢比率下的F-measure 比較Fig.3 Comparison of F-measure between CALA algorithm and cost-sensitive active learning algorithm and CNN algoithm under different query ratios

    4.3 小類別工況下的模型性能測試

    為驗證本文算法在小類別上的識別性能,氣體影響工況為最小類別工況。其中A01、A02、A03和A04 數(shù)據(jù)集中氣體影響工況占比分別為2.85%、2.72%、2.60% 和2.38%。表5 和表6 分別列出CALA 算法和8 種對比算法在氣體影響工況上的性能。表5 和表6 可以得出,CALA 算法在小類別識別方面的準確度和F-Measure 優(yōu)于其余對比算法;在召回率方面,US、TM 和UM 算法表現(xiàn)較好。

    表5 小類別工況下與代價敏感不平衡數(shù)據(jù)處理方法的對比實驗結(jié)果(均值±方差)Table 5 Experimental results compared with cost?sensitive imbalanced data processing methods under small category conditions(mean±std)

    4.4 模型變換測試

    本文算法的核心在于提出的主動查詢策略以及基于代價優(yōu)化目標(biāo)實現(xiàn)分布優(yōu)化。因此,本文將KNN 算法替換成樸素貝葉斯(Na?ve Bayes,NB)算法即CALA_NB。表7 為CALA_NB 在查詢比率為30%下重復(fù)10 次實驗得到的結(jié)果。結(jié)果表明,將KNN 替換成NB 之后,算法的效果相差不大,說明本文算法性能適用性能較好。

    表6 小類別工況下與代價敏感主動學(xué)習(xí)算法的對比實驗結(jié)果(均值±方差)Table 6 Experimental results compared with cost?sensitive active learning algorithms under small category conditions(mean±std)

    4.5 算法適用性分析

    為驗證算法在12 種常見抽油機工況下的不同性能,圖4 分別顯示了CALA 在A01、A02、A03 以及A04 四個數(shù)據(jù)集用30%查詢比例情況下12 種工況的精度。其中橫坐標(biāo)1~12 分別對應(yīng)12 種抽油機工況。從圖中可以看出CALA 在各種工況下的識別精度表現(xiàn)都較好。

    4.6 模型時間開銷對比測試

    表8 為本文提出算法CALA 與其余9 種模型在4 個實際抽油機數(shù)據(jù)集上運行的時間開銷。本文提出的算法CALA 均排名第4,由于使用了集成好的US、TM 和OS 算法,這3 種算法運行速度更快。

    圖4 CALA 算法在4 個油田數(shù)據(jù)集上的12 種工況精度Fig.4 Accuracy of CALA algorithm for 12 working conditions on four oil field datasets

    5 結(jié)論

    針對抽油機井下工況復(fù)雜、種類繁多的特點,本文提出一種抽油機故障診斷的分布驅(qū)動主動學(xué)習(xí)算法。該算法首先利用大量結(jié)構(gòu)化數(shù)據(jù)構(gòu)造經(jīng)驗誤差函數(shù),結(jié)合主動學(xué)習(xí)查詢少量關(guān)鍵樣本,通過代價敏感方法優(yōu)化算法模型,得到工況數(shù)據(jù)最佳聚類簇數(shù)來改善數(shù)據(jù)分布。有效利用迭代過程中的代價優(yōu)化函數(shù),使得該算法在抽油機示功圖故障診斷方面較對比算法在精度上有較大提高。在小類別工況識別中,本文提出的算法在準確度和F-measure 分數(shù)上明顯優(yōu)于其余對比算法。針對實際工程環(huán)境下未知工況的識別和診斷是下一步將要研究的內(nèi)容。

    猜你喜歡
    示功圖抽油機代價
    抽油機井泵效影響因素的確定方法*
    愛的代價
    海峽姐妹(2017年12期)2018-01-31 02:12:22
    代價
    成熟的代價
    油井示功圖相似性的研究與應(yīng)用
    沁水盆地南部煤層氣井抽油機偏磨防治分析
    中國煤層氣(2014年6期)2014-08-07 03:07:05
    基于示功圖的往復(fù)壓縮機故障診斷技術(shù)
    基于MATLAB的抽油機減速器優(yōu)化設(shè)計
    河南科技(2014年16期)2014-02-27 14:13:19
    淺談示功圖及示功圖分析
    河南科技(2014年11期)2014-02-27 14:09:46
    C-640系列抽油機游梁的組對及焊接變形控制
    河南科技(2014年5期)2014-02-27 14:08:38
    大田县| 陕西省| 琼海市| 内黄县| 云霄县| 台北市| 兴文县| 常德市| 绥中县| 普兰县| 囊谦县| 洛南县| 洛宁县| 崇礼县| 新余市| 东源县| 绥化市| 华容县| 比如县| 青海省| 确山县| 平泉县| 密山市| 武城县| 安义县| 舞钢市| 岳普湖县| 海宁市| 沾益县| 西乌| 墨江| 涿鹿县| 水富县| 九江市| 温宿县| 荣昌县| 汝阳县| 湖州市| 彭水| 云浮市| 荆州市|