摘 要:海洋平臺(tái)壓力容器在運(yùn)行中承受較大的工作載荷,服役環(huán)境復(fù)雜,常出現(xiàn)裂紋、腐蝕等失效問(wèn)題,常用超聲波測(cè)厚無(wú)損檢測(cè)技術(shù)對(duì)設(shè)備服役狀況進(jìn)行定期檢測(cè)。本文采用機(jī)器學(xué)習(xí)算法構(gòu)建設(shè)備壁厚預(yù)測(cè)模型,基于歷史檢測(cè)數(shù)據(jù)實(shí)現(xiàn)海上壓力容器減薄情況的預(yù)測(cè)功能。經(jīng)樣本數(shù)據(jù)的特征工程處理,以容器壁厚作為模型預(yù)測(cè)目標(biāo),設(shè)計(jì)溫度、工作壓力、容器類型等基礎(chǔ)數(shù)據(jù)作為輸入,對(duì)模型進(jìn)行訓(xùn)練及測(cè)試。結(jié)合模型預(yù)測(cè)性能的評(píng)估及調(diào)參處理,獲取預(yù)測(cè)評(píng)價(jià)指標(biāo)較優(yōu)的XGBoost模型。該模型能夠?yàn)樵O(shè)備狀態(tài)的評(píng)估及風(fēng)險(xiǎn)策略提供指導(dǎo)作用,對(duì)海洋平臺(tái)的安全生產(chǎn)具有重要意義。
關(guān)鍵詞:壓力容器;壁厚預(yù)測(cè);XGBoost模型
中圖分類號(hào):TE 951 文獻(xiàn)標(biāo)志碼:A
海上壓力容器是海洋石油平臺(tái)的重要設(shè)備,分為存儲(chǔ)類、換熱類、分離類和反應(yīng)類。由于海洋環(huán)境的特殊性及運(yùn)行條件的復(fù)雜性,海上平臺(tái)壓力容器的損傷及失效風(fēng)險(xiǎn)增加。為提高其穩(wěn)定運(yùn)行能力,需要定期進(jìn)行超聲波測(cè)厚等無(wú)損檢測(cè)技術(shù)指導(dǎo)維修或更換,確保設(shè)備穩(wěn)定運(yùn)行[1]。隨著計(jì)算機(jī)及通信技術(shù)進(jìn)步,特種設(shè)備檢驗(yàn)檢測(cè)行業(yè)迎來(lái)轉(zhuǎn)型升級(jí)的關(guān)鍵期。人工智能在機(jī)器學(xué)習(xí)、知識(shí)圖譜、人機(jī)交互等技術(shù)上不斷突破,具有廣闊的研究及應(yīng)用前景[2]。本文基于壓力容器設(shè)備檢測(cè)的歷史數(shù)據(jù),結(jié)合XGBoost、LightGBM、Random Forest等機(jī)器學(xué)習(xí)算法構(gòu)建預(yù)測(cè)模型,實(shí)現(xiàn)容器壁厚或減薄率的精準(zhǔn)預(yù)測(cè),提升設(shè)備運(yùn)維的智能化水平。研究結(jié)果對(duì)機(jī)器學(xué)習(xí)預(yù)測(cè)算法的應(yīng)用及不同類型容器壁厚的準(zhǔn)確評(píng)估具有指導(dǎo)意義。
1 數(shù)據(jù)處理及準(zhǔn)備
1.1 數(shù)據(jù)來(lái)源及數(shù)據(jù)文件解析
本研究主要基于同一年份不同類型的壓力容器設(shè)備年度檢驗(yàn)數(shù)據(jù),通過(guò)數(shù)據(jù)清洗及處理,引進(jìn)數(shù)據(jù)統(tǒng)計(jì)和分析技術(shù),并結(jié)合機(jī)器學(xué)習(xí)智能算法,完成容器設(shè)備壁厚的預(yù)測(cè)工作。其中,對(duì)Excel格式數(shù)據(jù)文件進(jìn)行解析,獲取用于訓(xùn)練的數(shù)據(jù),運(yùn)用Python的工具Pandas讀入Excel格式文件,將處理后的數(shù)據(jù)保存為csv格式并進(jìn)行數(shù)據(jù)引入。
1.2 數(shù)據(jù)預(yù)處理及數(shù)據(jù)特征工程
基于壓力容器的基礎(chǔ)數(shù)據(jù)信息進(jìn)行預(yù)處理,避免因數(shù)據(jù)未處理而導(dǎo)致數(shù)據(jù)信息紊亂、缺失、數(shù)據(jù)的邏輯不符等影響數(shù)據(jù)分析的問(wèn)題,主要包括數(shù)據(jù)清洗、數(shù)據(jù)歸一化等。采用正則表達(dá)式并制定判定規(guī)則,對(duì)數(shù)據(jù)進(jìn)行清洗及特征構(gòu)建,保證數(shù)據(jù)信息的一致性,提高建模的收斂速率和精度。對(duì)需要使用的特征進(jìn)行篩選,利用頻率統(tǒng)計(jì)篩選包括信息量過(guò)少、數(shù)據(jù)缺失量較大特征及取值單一的特征,當(dāng)樣本空值特征占比大于30%時(shí),去除該樣本數(shù)據(jù)。
針對(duì)模型訓(xùn)練和測(cè)試開(kāi)展的數(shù)據(jù)特征工程主要包括以下3個(gè)方面的內(nèi)容。1)直接特征?!肮ぷ鳒囟取保捎谜齽t方式對(duì)溫度的數(shù)值進(jìn)行提取及標(biāo)準(zhǔn)處理。針對(duì)含管程與殼程的換熱類設(shè)備進(jìn)行組合及劃分,提取溫度的個(gè)數(shù),針對(duì)“常溫”等具有含義的內(nèi)容,將其轉(zhuǎn)換為數(shù)據(jù);“工作壓力”,與工作溫度特征提取流程一致,對(duì)“量綱”進(jìn)行處理,例如統(tǒng)一壓力單位量級(jí);“腐蝕余量”,分析其數(shù)據(jù)模式并取數(shù)字中最小值作為特征;“設(shè)計(jì)壽命”,運(yùn)用3sigma原理進(jìn)行過(guò)濾;“公稱容積”、“內(nèi)徑”,直接提取各值;“制造日期”、“投產(chǎn)日期”,統(tǒng)一為年月格式,“投產(chǎn)月數(shù)”為“投產(chǎn)日期”減去“制造日期”,經(jīng)Excel對(duì)日期進(jìn)行特征處理及提取。2)類別型特征。篩選可進(jìn)行onehot的特征,例如殼體材質(zhì)、容器類型、油田群、系統(tǒng)名稱,對(duì)取值進(jìn)行規(guī)范化處理,即對(duì)描述同一內(nèi)容而使用了不同表達(dá)的特征值進(jìn)行處理,并對(duì)數(shù)量過(guò)少的類型用“其他”代替。3)檢測(cè)數(shù)據(jù)處理。針對(duì)“厚度”進(jìn)行數(shù)據(jù)處理,設(shè)置代碼通過(guò)厚度計(jì)算的方式獲得“減薄量”,即名義厚度減去實(shí)測(cè)厚度。
2 預(yù)測(cè)模型的建立
2.1 基于機(jī)器學(xué)習(xí)算法構(gòu)建預(yù)測(cè)模型
結(jié)合機(jī)器學(xué)習(xí)算法模型的應(yīng)用及要求,其運(yùn)行機(jī)制主要基于檢驗(yàn)數(shù)據(jù)的格式和數(shù)據(jù)結(jié)構(gòu),對(duì)預(yù)測(cè)模型進(jìn)行設(shè)計(jì)、訓(xùn)練和測(cè)試等,以達(dá)到設(shè)備壁厚預(yù)測(cè)的目標(biāo)。綜合考慮數(shù)據(jù)類型、模型效果和運(yùn)行效率,選擇機(jī)器學(xué)習(xí)中的XGBoost、LightGBM、Random Forest集成模型[3-5]。其中,LightGBM主要基于決策樹(shù)學(xué)習(xí)算法,其分支為測(cè)試的輸出,葉節(jié)點(diǎn)為各個(gè)類別,按葉子(leaf-wise)生長(zhǎng)的策略,即按照最大分裂增益為葉子節(jié)點(diǎn)進(jìn)行分裂計(jì)算,每個(gè)樣本通過(guò)變量進(jìn)行樹(shù)結(jié)構(gòu)的映射;XGBoost采用極端層次增強(qiáng)方法,基于梯度增強(qiáng)決策樹(shù),以優(yōu)化目標(biāo)函數(shù)值為主的改進(jìn)算法,每棵樹(shù)(函數(shù))逐次添加,樹(shù)與樹(shù)之間串行,可在同一級(jí)結(jié)點(diǎn)并聯(lián),分離結(jié)點(diǎn)的增益以多線程方式并行;Random Forest為集成學(xué)習(xí)算法,參數(shù)以強(qiáng)學(xué)習(xí)器最大迭代次數(shù)、隨機(jī)發(fā)生器種子數(shù)、最大特征數(shù)等為主,經(jīng)抽樣集成多顆決策樹(shù)優(yōu)化模型,基于多個(gè)決策樹(shù)模型的融合,提高其擬合能力。
在選擇對(duì)應(yīng)的集成模型架構(gòu)后,針對(duì)同一數(shù)據(jù)集樣本進(jìn)行劃分,隨機(jī)選取上述結(jié)構(gòu)化及處理后的數(shù)據(jù)中的80%作為訓(xùn)練集,20%作為測(cè)試集。以容器測(cè)厚作為模型預(yù)測(cè)目標(biāo),其他基礎(chǔ)特征作為模型輸入,模型提取特征后分別進(jìn)行訓(xùn)練和測(cè)試,結(jié)合模型預(yù)測(cè)精度的評(píng)估結(jié)果進(jìn)行優(yōu)化,達(dá)到精度要求后保存最優(yōu)模型,以此實(shí)現(xiàn)容器設(shè)備壁厚的機(jī)器學(xué)習(xí)回歸預(yù)測(cè)模型的構(gòu)建。
2.2 模型預(yù)測(cè)性能評(píng)估
本研究主要采用評(píng)估模型的預(yù)測(cè)性能方法,包括均方誤差mse、平均絕對(duì)誤差mae、平均相對(duì)誤差mre、決策系數(shù)r2、皮爾遜相關(guān)系數(shù)pearson。對(duì)結(jié)果進(jìn)行處理后,采用適用于分類任務(wù)的評(píng)價(jià)指標(biāo),包括準(zhǔn)確率accuracy、精準(zhǔn)率precision、召回率recall、精準(zhǔn)率與召回率的調(diào)和均值f1、正例排在負(fù)例前的概率auc等評(píng)估模型整體的預(yù)測(cè)趨勢(shì),以全方位評(píng)估模型效果。經(jīng)過(guò)對(duì)3種模型的訓(xùn)練及結(jié)果驗(yàn)證,計(jì)算各個(gè)模型的均方根誤差損失,在運(yùn)行效率滿足的條件下,選擇損失得分較小的模型進(jìn)行應(yīng)用。
對(duì)各設(shè)備測(cè)量部位不同測(cè)厚電位的減薄量進(jìn)行匯總統(tǒng)計(jì),以減薄量的均值作為預(yù)測(cè)特征值。通過(guò)分類指標(biāo)對(duì)預(yù)測(cè)模型進(jìn)行評(píng)估,不同預(yù)測(cè)模型的評(píng)價(jià)結(jié)果值見(jiàn)表1。經(jīng)比對(duì),綜合分析XGBoost模型的均方誤差、平均絕對(duì)誤差評(píng)價(jià)指標(biāo)值相對(duì)較小,r2較接近1,表明XGBoost模型的預(yù)測(cè)性能較優(yōu),選用XGBoost模型進(jìn)行進(jìn)一步調(diào)參優(yōu)化。
2.3 XGBoost模型優(yōu)化
為提高模型的準(zhǔn)確性,對(duì)該機(jī)器學(xué)習(xí)模型進(jìn)行調(diào)優(yōu),并降低過(guò)擬合,使模型預(yù)測(cè)性能最大化。對(duì)learning_rate(學(xué)習(xí)率)、max_depth(數(shù)的最大深度)、min_child_weights(最小葉子節(jié)點(diǎn)樣本權(quán)重)、num_leaves(決策樹(shù)葉子數(shù)量)等進(jìn)行調(diào)整,提高準(zhǔn)確率,其他參數(shù)為默認(rèn)值。經(jīng)模型調(diào)參后,XGBoost模型的mse最小值為0.7491,此時(shí)的模型預(yù)測(cè)性能達(dá)到最優(yōu),即對(duì)應(yīng)的最優(yōu)參數(shù)如下:max_depth=9,min_child_weight=1,n_estimators=200,colsample_bytree=0.7,learning_rate=0.07。
對(duì)優(yōu)選的模型參數(shù)進(jìn)行K折交叉驗(yàn)證,以進(jìn)一步對(duì)模型參數(shù)進(jìn)行調(diào)優(yōu),主要將數(shù)據(jù)集分割為K個(gè)子集,經(jīng)K-1折作為訓(xùn)練數(shù)據(jù),對(duì)模型進(jìn)行訓(xùn)練后,對(duì)數(shù)據(jù)的剩余1折做驗(yàn)證,使各樣本均有一次機(jī)會(huì)進(jìn)行驗(yàn)證。如圖1所示,表現(xiàn)了10折交叉驗(yàn)證結(jié)果,相關(guān)評(píng)價(jià)指標(biāo)的查準(zhǔn)率(Precision)為70%~80%,查全率(Recall)為50%~60%,F(xiàn)1-Score為70%~75%。整體來(lái)說(shuō),相關(guān)指標(biāo)較高并且較穩(wěn)定,驗(yàn)證XGBoost模型能夠用于容器類設(shè)備減薄情況的預(yù)測(cè)。
2.4 結(jié)果與分析
2.4.1 容器厚度及預(yù)測(cè)差異的影響分析
不同類型容器的厚度差異較大,部分厚度較大的容器其誤差相對(duì)較大,圖2展示了不同厚度組別所對(duì)應(yīng)統(tǒng)計(jì)的減薄量均值情況。由圖2可知,厚度越大的分組所出現(xiàn)增厚的可能性越大(減薄量為負(fù)值表示增厚)。查看減薄量差異較大的樣本數(shù)據(jù)部分,減薄量預(yù)測(cè)值或真實(shí)值過(guò)大均會(huì)造成誤差偏大的情況。
同時(shí),對(duì)厚度差異過(guò)大的樣本中存在不合理的數(shù)值進(jìn)行篩選,并刪除平均測(cè)量厚度小于1的樣本數(shù)據(jù),處理后經(jīng)10折交叉驗(yàn)證,并對(duì)比前后結(jié)果,如圖3中XGBoost(去除異常)顯示,mse明顯降低。
此外,當(dāng)容器厚度大于43時(shí),減薄量數(shù)值變化明顯,通過(guò)去除厚度過(guò)大的容器,保留99分位數(shù)(43)以內(nèi)的厚度樣本,并對(duì)數(shù)據(jù)集進(jìn)行預(yù)測(cè),結(jié)果顯示mse指標(biāo)略有提升。為了避免出現(xiàn)預(yù)測(cè)值過(guò)大的可能,刪除真實(shí)減薄值過(guò)大的樣本,以降低偏差,經(jīng)篩選發(fā)現(xiàn)數(shù)據(jù)中僅有1條數(shù)據(jù)減薄量大于5并達(dá)10以上,將其刪除后,預(yù)測(cè)結(jié)果mse有所提升(如圖3所示)。
2.4.2 厚度分段建模及效果分析
由于隨著容器厚度增加,減薄量方差變大,考慮厚度較大的容器樣本可能會(huì)對(duì)較小厚度樣本的預(yù)測(cè)產(chǎn)生負(fù)面影響,因此選用容器厚度為43以內(nèi)的數(shù)據(jù)樣本進(jìn)行容器厚度分段建模,即通過(guò)選擇50分位數(shù)(12),對(duì)厚度小于12和大于等于12的樣本分別建模。分析得知,厚度小于12時(shí),建模進(jìn)行預(yù)測(cè)后的mse指標(biāo)值約為0.336,當(dāng)厚度大于12時(shí),預(yù)測(cè)指標(biāo)mse變大,約為0.685。由此表明,厚度大的樣本對(duì)厚度小的樣本的預(yù)測(cè)可能產(chǎn)生干擾。
2.4.3 特征優(yōu)化
由于厚度分組后對(duì)模型的預(yù)測(cè)結(jié)果影響較大,因此在特征中增加“設(shè)計(jì)厚度”。將增加“設(shè)計(jì)厚度”特征后預(yù)測(cè)模型的評(píng)價(jià)指標(biāo)值(mse2)與原結(jié)果(mse1)進(jìn)行對(duì)比,見(jiàn)表2。
經(jīng)對(duì)比以上結(jié)果可知,一方面,增加設(shè)計(jì)厚度特征后各組中的mse結(jié)果大多數(shù)呈下降的趨勢(shì),表明模型預(yù)測(cè)效果有所提升。另一方面,各項(xiàng)措施趨勢(shì)基本與原有試驗(yàn)結(jié)果一致,驗(yàn)證預(yù)測(cè)效果提升并非隨機(jī)。因此,增加“設(shè)計(jì)厚度”特征后,對(duì)比分析評(píng)價(jià)指標(biāo),其預(yù)測(cè)性能獲得了相對(duì)全面的提升。
2.4.4 結(jié)果分析
經(jīng)比對(duì),使用該XGBoost模型對(duì)容器設(shè)備減薄的預(yù)測(cè)值與真實(shí)值進(jìn)行誤差分析(如圖4所示),根據(jù)預(yù)測(cè)誤差的分布情況得知,該XGBoost模型預(yù)測(cè)的誤差符合正態(tài)分布,獲得的模型可用于相關(guān)場(chǎng)景的預(yù)測(cè)并有較好的效果。
3 結(jié)語(yǔ)
本文基于海上壓力容器超聲測(cè)厚檢測(cè)檢驗(yàn)數(shù)據(jù)集,選取設(shè)備對(duì)象的基礎(chǔ)數(shù)據(jù)及檢測(cè)數(shù)據(jù)特征進(jìn)行數(shù)據(jù)處理,使用XGBoost機(jī)器學(xué)習(xí)算法建立容器類設(shè)備壁厚預(yù)測(cè)模型,運(yùn)用評(píng)價(jià)指標(biāo)對(duì)模型預(yù)測(cè)性能進(jìn)行分析評(píng)估,并對(duì)模型進(jìn)行優(yōu)化調(diào)參。結(jié)果表明,本文測(cè)得XGBoost算法比另外2種機(jī)器學(xué)習(xí)模型的預(yù)測(cè)性能更高,模型經(jīng)調(diào)參優(yōu)化后,準(zhǔn)確率及查準(zhǔn)率均有提升。通過(guò)分析容器本身的厚度以及預(yù)測(cè)減薄量的差異等情況對(duì)模型預(yù)測(cè)效果產(chǎn)生偏差的影響,分別對(duì)容器厚度進(jìn)行分段模型預(yù)測(cè),厚度小的模型的預(yù)測(cè)效果比厚度大的模型好,并且采用對(duì)厚度預(yù)測(cè)特征的數(shù)據(jù)處理及設(shè)計(jì)厚度特征的增加的方式,方差減小,預(yù)測(cè)效果全面提升。該模型用于容器類設(shè)備壁厚的預(yù)測(cè)誤差符合正態(tài)分布,具有較好的應(yīng)用效果。本文模型后續(xù)將嘗試積累更多不同類型容器數(shù)據(jù),并對(duì)介質(zhì)進(jìn)行分類及采集,擴(kuò)展應(yīng)用范圍,對(duì)XGBoost模型進(jìn)行進(jìn)一步更新訓(xùn)練,并嘗試引入神經(jīng)網(wǎng)絡(luò)算法對(duì)容器類設(shè)備壁厚進(jìn)行預(yù)測(cè)及優(yōu)化。
參考文獻(xiàn)
[1]紀(jì)玉磊.探究海上壓力容器腐蝕檢測(cè)技術(shù)[J].中國(guó)石油和化工標(biāo)準(zhǔn)與質(zhì)量,2023,43(1):57-59.
[2]李奇,牟善軍,姜巍巍,等.海上石油平臺(tái)定量風(fēng)險(xiǎn)評(píng)估[J].中國(guó)海洋平臺(tái),2007,22(6):38.
[3]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.
[4]BREIMAN L.Randomforests[J].Machine learning,2001,45(1):5-32.
[5]CHEN T,HE T,BENESTY M,etal.Xgboost:extreme"gradient boosting[J].R package version 0.4-2,2015,1(4):1-4.