范國棟 李博涵
基于機器學(xué)習(xí)的工業(yè)機械設(shè)備故障預(yù)測方法
范國棟 李博涵
(重慶交通大學(xué)機電與車輛工程學(xué)院,重慶 400074)
為提高工業(yè)生產(chǎn)效率和安全性,研究基于機器學(xué)習(xí)的工業(yè)機械設(shè)備故障預(yù)測方法。首先,利用斯皮爾曼等級相關(guān)系數(shù)分析工業(yè)機械設(shè)備故障特征之間的相關(guān)性,并過濾冗余特征;然后,采用隨機森林算法篩選影響工業(yè)機械設(shè)備故障的3個核心特征;最后,基于邏輯回歸、樸素貝葉斯、XGBoost、決策樹等機器學(xué)習(xí)算法分別建立工業(yè)機械設(shè)備的故障預(yù)測模型和故障類型預(yù)測模型。經(jīng)實驗驗證,基于XGBoost算法構(gòu)建的工業(yè)機械設(shè)備故障預(yù)測模型和決策樹訓(xùn)練出來的工業(yè)機械設(shè)備故障類型預(yù)測模型具有較高的準確性。該方法具有實際的應(yīng)用價值,可有效地預(yù)測不同工業(yè)機械設(shè)備的故障類型,為工業(yè)安全生產(chǎn)提供技術(shù)支持。
機器學(xué)習(xí);工業(yè)機械設(shè)備;故障預(yù)測;斯皮爾曼相關(guān)性分析;隨機森林算法;預(yù)測模型
工業(yè)機械設(shè)備故障的突發(fā)性和不可預(yù)見性,會影響生產(chǎn)效率和生產(chǎn)成本。通過對工業(yè)機械設(shè)備進行預(yù)測性維護,可減少故障損失、提高生產(chǎn)效率、降低生產(chǎn)成本。傳統(tǒng)的工業(yè)機械設(shè)備故障預(yù)測大多通過專業(yè)的傳感器進行監(jiān)測和分析,如高海軍[1]利用電氣類機械設(shè)備運行過程中產(chǎn)生的異常聲音和表面溫度升高進行故障診斷;張益沛[2]利用振動監(jiān)測儀和溫度傳感器等,提高旋轉(zhuǎn)類機械設(shè)備的故障檢測效率;馬梁[3]采用狀態(tài)檢測和故障診斷平臺對煤礦機電設(shè)備進行故障預(yù)測。以上方法主要基于聲發(fā)射、熱成像、振動分析、超聲波檢測等技術(shù),存在成本高、動態(tài)響應(yīng)差等問題。
隨著人工智能技術(shù)的不斷進步,越來越多的學(xué)者將其應(yīng)用于工業(yè)機械設(shè)備故障預(yù)測領(lǐng)域。李玉吉等[4]利用機器學(xué)習(xí)算法診斷煤礦汽車機械設(shè)備的故障,實驗結(jié)果表明,故障診斷的準確性和效率都優(yōu)于傳統(tǒng)方法。
本文基于機器學(xué)習(xí)技術(shù),利用工業(yè)機械設(shè)備作業(yè)的信息數(shù)據(jù)進行故障預(yù)測和故障類型診斷,不僅能提高設(shè)備的安全性和可靠性,還能實現(xiàn)更精準的故障預(yù)測和診斷。
本文使用的數(shù)據(jù)集是由某行業(yè)協(xié)會提供的工業(yè)機械設(shè)備故障預(yù)測數(shù)據(jù)集和工業(yè)機械設(shè)備故障類型預(yù)測數(shù)據(jù)集。工業(yè)機械設(shè)備故障預(yù)測數(shù)據(jù)集主要包括機器編碼(工業(yè)機器人型號、電動機序列號等)、統(tǒng)一規(guī)范代碼、機器質(zhì)量等級(機械、電氣、液壓等機器的性能指標和品質(zhì)等級)、廠房室溫(整個廠房內(nèi)的平均溫度,在數(shù)據(jù)集中用室溫(K)表示)、設(shè)備室溫(設(shè)備存放和工作的環(huán)境溫度,在數(shù)據(jù)集中用室溫(K).1表示)、轉(zhuǎn)速、扭矩、使用時長、是否發(fā)生故障、具體故障類型等10個數(shù)據(jù)標簽。其中,機器編碼、廠房室溫、設(shè)備室溫、轉(zhuǎn)速、扭矩、使用時長6個數(shù)據(jù)標簽是連續(xù)變量;統(tǒng)一規(guī)范代碼、機器質(zhì)量等級、是否發(fā)生故障、具體故障類型4個數(shù)據(jù)標簽是離散變量。因為機器編碼和統(tǒng)一規(guī)范代碼這2個數(shù)據(jù)標簽與設(shè)備故障無關(guān),所以排除在設(shè)備故障預(yù)測的相關(guān)變量之外[5]。
利用統(tǒng)計分析軟件(SPSS、Excel等)可了解連續(xù)變量的數(shù)據(jù)分布和集中程度。箱型圖可清晰地展示數(shù)據(jù)的分布情況,包括中位數(shù)、四分位數(shù)、極值和異常值等信息。利用箱型圖對廠房室溫、設(shè)備室溫、轉(zhuǎn)速、扭矩的異常值進行可視化處理,分別如圖1~ 4所示。
圖1 廠房室溫異常值箱型圖
圖2 設(shè)備室溫異常值箱型圖
圖3 轉(zhuǎn)速異常值箱型圖
圖4 扭矩異常值箱型圖
由圖1~4可知,轉(zhuǎn)速和扭矩的個別異常值超出了箱型圖下界。通過分析設(shè)備的運行狀態(tài)和性能,進一步判斷這些異常值是因為不同機械設(shè)備的轉(zhuǎn)速和扭矩存在差異而導(dǎo)致的,因此不刪除這些異常值。
機器質(zhì)量等級(L級、M級、H級)是離散數(shù)據(jù),采用文字描述表示。然而,機器學(xué)習(xí)模型在訓(xùn)練和預(yù)測過程中,只能處理連續(xù)數(shù)據(jù)。因此,需將離散數(shù)據(jù)轉(zhuǎn)換為連續(xù)數(shù)據(jù)。本文采用獨熱編碼技術(shù),將離散數(shù)據(jù)轉(zhuǎn)換為二元數(shù)據(jù),即用0、1、2分別替換L級、M級、H級,轉(zhuǎn)換后的數(shù)據(jù)如表1所示。
表1 機器質(zhì)量等級離散數(shù)據(jù)轉(zhuǎn)換為連續(xù)數(shù)據(jù)
本文使用的數(shù)據(jù)集包含了9 000條工業(yè)機械設(shè)備的信息,其中無故障和有故障的工業(yè)機械設(shè)備信息分別有8 697條和303條。無故障的工業(yè)機械設(shè)備信息數(shù)量遠多于有故障的工業(yè)機械設(shè)備信息數(shù)量,導(dǎo)致訓(xùn)練后的模型偏差較大。
利用合成少數(shù)類過采樣技術(shù)(synthetic minority oversampling technique, SMOTE)算法,通過樣本合成的方法,生成與原始樣本相似的新樣本,達到擴充數(shù)據(jù)集的目的。利用SMOTE算法的過采樣方法,將有故障和無故障的工業(yè)機械設(shè)備信息數(shù)量均衡化,提升預(yù)測模型的準確性。均衡和擴充后的數(shù)據(jù)集中,無故障和有故障的工業(yè)機械設(shè)備信息數(shù)量均為6 300條。
斯皮爾曼相關(guān)性分析是一種非參數(shù)檢驗方法,用于評估兩個連續(xù)變量之間的相關(guān)性。通過熱力圖,可直觀地看出變量之間的相關(guān)性指數(shù),顏色越深表示相關(guān)性越強,顏色越淺表示相關(guān)性越弱。對均衡和擴充后的無故障和有故障的工業(yè)機械設(shè)備信息進行相關(guān)變量影響因素的可視化處理,如圖5所示。
圖5 是否故障熱力圖
由圖5可知:室溫(K)(廠房室溫)和室溫(K).1(設(shè)備室溫)的相關(guān)性指數(shù)為0.84;轉(zhuǎn)速和扭矩的相關(guān)性指數(shù)為?0.92,說明它們之間的相關(guān)性較強,刪除室溫(K)(廠房室溫)和扭矩這2個變量,以避免信息冗余和多重共線性的問題。
根據(jù)每個變量在隨機森林中對模型預(yù)測結(jié)果的影響程度,得出變量的重要性評分[6]如圖6所示。
由圖6可知,機器質(zhì)量等級變量對工業(yè)機械設(shè)備是否發(fā)生故障的影響較低,對該變量進行刪除處理。
通過對廠房室溫、設(shè)備室溫、扭矩、轉(zhuǎn)速、使用時長和機器質(zhì)量等級等變量進行斯皮爾曼相關(guān)性分析和隨機森林重要性評分后,本文選擇室溫(K).1(設(shè)備室溫)、轉(zhuǎn)速、使用時長3個變量為預(yù)測工業(yè)機械設(shè)備故障的指標。
圖6 是否故障重要性評分
工業(yè)機械設(shè)備故障類型預(yù)測數(shù)據(jù)集主要包括扭矩扳手故障(torque wrench fault, TWF)、高頻設(shè)備故障(high-frequency device fault, HDF)、電源故障(power supply fault, PWF)、規(guī)格超標故障(oversized specification fault, OSF)、隨機非重復(fù)故障(random non-repetitive fault, RNF)等5種故障類型。為預(yù)測工業(yè)機械設(shè)備故障類型,需刪除沒有故障的機械設(shè)備信息,保留有故障的機械設(shè)備信息,并將離散的具體故障類型轉(zhuǎn)換為連續(xù)數(shù)據(jù),即用0、1、2、3、4分別替換TWF、HDF、PWF、OSF、RNF。通過斯皮爾曼相關(guān)性分析和隨機森林重要性評分,選出與故障類型預(yù)測相關(guān)的變量,如圖7、圖8所示。
圖7 具體故障類型熱力圖
圖8 故障類型重要性評分
由圖7可知,室溫(K)(廠房室溫)和室溫(K).1(設(shè)備室溫)的相關(guān)性較高,刪除室溫(K)(廠房室溫)。
由圖8可知,機器質(zhì)量等級變量對工業(yè)機械設(shè)備故障類型預(yù)測的影響程度最小[7],對其進行刪除處理。
將工業(yè)機械設(shè)備故障預(yù)測數(shù)據(jù)集按1:1的比例隨機劃分為訓(xùn)練集和測試集。其中,訓(xùn)練集用于故障預(yù)測模型的訓(xùn)練和優(yōu)化;測試集用于評估故障預(yù)測模型的性能和泛化能力。采用交叉驗證的方法進行多次實驗,以減少隨機誤差,提高模型的穩(wěn)定性。利用隨機森林、XGBoost、邏輯回歸和樸素貝葉斯模型對故障預(yù)測模型進行性能評估。
利用訓(xùn)練好的模型進行預(yù)測,采用準確率、精確率、召回率和F1值等4個指標來評價模型的預(yù)測性能[7]。混淆矩陣可直觀地表現(xiàn)預(yù)測模型的誤差。隨機森林、XGBoost、邏輯回歸和樸素貝葉斯模型的混淆矩陣分別如圖9~12所示,評價指標如表2所示。
圖9 隨機森林混淆矩陣
圖10 XGBoost混淆矩陣
圖11 邏輯回歸混淆矩陣
圖12 樸素貝葉斯混淆矩陣
表2 4個模型的評價指標
ROC曲線下面積(area under curve, AUC)是評估分類器性能的一個指標,取值范圍為0.5~1,指標數(shù)值越接近1,說明分類器的性能越好。根據(jù)4個模型的混淆矩陣繪制ROC曲線,可直觀地看出模型效果,如圖13所示。
圖13 4個模型的ROC曲線
由圖13、表2可知,XGBoost訓(xùn)練出來的故障預(yù)測模型準確率、精確率、召回率、F1值較高,AUC值也最高,說明該模型的預(yù)測效果最好[8]。
工業(yè)機械設(shè)備故障類型預(yù)測數(shù)據(jù)集按1:1的比例隨機劃分為訓(xùn)練集和測試集。工業(yè)機械設(shè)備故障類型預(yù)測模型的性能評估利用決策樹、梯度提升樹、支持向量機等模型,采用準確率、精確率、召回率和F1值作為評價指標。
決策樹、梯度提升樹、支持向量機3個模型的混淆矩陣分別如圖14~16所示,評價指標如表3所示。
圖14 決策樹混淆矩陣
圖15 梯度提升樹混淆矩陣
圖16 支持向量機混淆矩陣
表3 3個模型的評價指標表
由表3可知,由決策樹訓(xùn)練出來的故障類型預(yù)測模型的準確率、精確率、召回率、F1值最高,說明該模型預(yù)測故障類型的效果最好[9]。
對基于決策樹算法構(gòu)建的故障類型預(yù)測模型進行調(diào)參時,易出現(xiàn)過擬合現(xiàn)象。因此,需先選擇合適的正則化參數(shù),本文通過交叉驗證的方法確定了正則化參數(shù)為0.07,再定義超參數(shù)搜索范圍。本文定義max_depth(表示決策樹的最大深度)范圍為1~10,min_samples_split(表示節(jié)點在分裂之前所需的最小樣本數(shù))范圍為2~10,min_samples_leaf(表示葉節(jié)點上的最小樣本數(shù))范圍為1~5,max_features(表示在每個節(jié)點中考慮的最大特征數(shù))范圍為1~10。將預(yù)測結(jié)果進行比較,具體結(jié)果如表4所示。
由表4可以看出,基于決策樹算法構(gòu)建的故障類型預(yù)測模型調(diào)參后,其性能指標均有所提升。調(diào)整和優(yōu)化基于決策樹算法構(gòu)建的故障類型預(yù)測模型,能夠提高模型的識別準確率、泛化能力和穩(wěn)定性,降低誤差率和資源占用率。
本文基于機器學(xué)習(xí)算法建立了工業(yè)機械設(shè)備故障的預(yù)測模型和類型預(yù)測模型,具有較高的準確性,可為工業(yè)機械維護部門提供有效的參考。然而,本研究還存在不足之處:首先,只考慮了室溫、轉(zhuǎn)速、使用時長等少量特征,對其他可能影響工業(yè)機械設(shè)備故障的特征,如濕度、負載等沒有進行探究;其次,僅針對單一類型的工業(yè)機械設(shè)備故障進行預(yù)測,對于不同類型的機械設(shè)備模型還需進一步探究[10];最后,該研究可擴展到工業(yè)互聯(lián)網(wǎng)領(lǐng)域,使各種工業(yè)設(shè)備實現(xiàn)數(shù)據(jù)的共享和交互,為工業(yè)設(shè)備的智能維護提供更多的可能性。
[1] 高海軍.化工電氣常見故障分析及處理方法[C].//中國機電一體化技術(shù)應(yīng)用協(xié)會.第七屆全國石油和化工電氣技術(shù)大會論文集.[出版者不詳],2023:193-195.
[2] 張益沛.旋轉(zhuǎn)機械故障診斷技術(shù)在煉鋼設(shè)備中的運用分析[J].冶金與材料,2023,43(1):71-73.
[3] 馬梁.煤礦機電設(shè)備實時監(jiān)測故障診斷技術(shù)研究應(yīng)用[J].煤炭科技,2023,44(1):64-68.
[4] 李玉吉,曹旭輝,王江宏,等.基于機器學(xué)習(xí)算法的煤礦汽車機械設(shè)備故障診斷模型[J].能源與環(huán)保,2021,43(10):241-245.
[5] 盛建龍,喬宇,王平,等.基于LOF-SMOTE算法的地下水影響下礦山巖溶塌陷風險預(yù)測研究[J].有色金屬科學(xué)與工程,2023,14(3):372-380;399.
[6] 張文濤,龔振宇,令凡琳,等.基于隨機森林算法的盾構(gòu)改良渣土滲透系數(shù)預(yù)測及工程應(yīng)用[J].隧道建設(shè)(中英文), 2022, 42(11):1863-1870.
[7] 劉偲,劉道星.XGBoost算法在塔式起重機傳感器故障診斷中的應(yīng)用[J].建設(shè)機械技術(shù)與管理,2022,35(5):115-117.
[8] 陳天鍇,王貴勇,申立中,等.基于GBDT算法的柴油機性能預(yù)測[J].車用發(fā)動機,2022(5):51-58.
[9] 蔣琳,徐猛.基于樸素貝葉斯分類的交通樞紐內(nèi)移動時間估計——以北京南站為例[C]//中國科學(xué)技術(shù)協(xié)會,交通運輸部,中國工程院,湖北省人民政府.2022世界交通運輸大會(WTC2022)論文集(運輸規(guī)劃與交叉學(xué)科篇).人民交通出版社股份有限公司,2022:556-562.
[10] 任利娟.滾動軸承性能退化評估與剩余壽命預(yù)測[D].濟南:山東大學(xué),2019.
Fault Prediction Method of Industrial Machinery Equipment Based on Machine Learning
FAN Guodong LI Bohan
(School of Electromechanical and Vehicle Engineering, Chongqing Traffic University, Chongqing 400074, China)
To improve industrial production efficiency and safety, a machine learning based fault prediction method for industrial machinery and equipment is studied. Firstly, the Spearman rank correlation coefficient is used to analyze the correlation between fault features of industrial machinery equipment, and redundant features are filtered; Then, the random forest algorithm is used to screen the three core features that affect the faults of industrial machinery and equipment; Finally, based on machine learning algorithms such as logistic regression, naive Bayes, XGBoost, and decision tree, a fault prediction model and a fault type prediction model for industrial machinery equipment are established. Through experimental verification, the industrial machinery equipment fault prediction model constructed based on XGBoost algorithm and the industrial machinery equipment fault type prediction model trained from decision trees have high accuracy. This method has practical application value and can effectively predict the fault types of different industrial machinery and equipment, providing technical support for industrial safety production.
machine learning; industrial machinery and equipment; fault prediction; Spearman correlation analysis; random forest algorithm; prediction model
TP399
A
1674-2605(2023)04-0003-07
10.3969/j.issn.1674-2605.2023.04.003
范國棟,男,1998年生,碩士研究生,主要研究方向:大數(shù)據(jù)分析與人工智能。E-mail: 1009569161@qq.com
李博涵,男,1999年生,碩士研究生,主要研究方向:數(shù)據(jù)挖掘與人工智能。E-mail: 290444608@qq.com
:范國棟,李博涵.基于機器學(xué)習(xí)的工業(yè)機械設(shè)備故障預(yù)測方法[J].自動化與信息工程,2023,44(4):13-18;50.
FAN Guodong, LI Bohan. Fault prediction method of industrial machinery equipment based on machine learning[J]. Automation & Information Engineering, 2023,44(4):13-18;50.