• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于半監(jiān)督隨機森林分類算法的齒輪故障診斷

      2020-12-29 13:49:36魏永合尹際雄馬步芳
      沈陽理工大學學報 2020年4期
      關鍵詞:分類器齒輪標簽

      魏永合,尹際雄,馬步芳

      (1.沈陽理工大學 機械工程學院,沈陽 110159;2.航宇救生裝備有限公司,湖北 襄陽 441003)

      齒輪作為機械設備中用作連接和傳遞動力的關鍵部件,其健康程度決定了整個設備運行的安全性和可靠性。實際數(shù)據(jù)分析表明,齒輪箱故障中由于齒輪引起的故障比例為60%[1]。齒輪最常見的故障形式有斷齒、裂紋、磨損、點蝕等,同時齒輪的運行狀態(tài)好壞與齒輪振動信號有著重要聯(lián)系。目前,在處理復雜的故障振動信號方面,傳統(tǒng)的時域、頻域和時頻分析方法判別效率較低、實時性差,已不能滿足要求。針對此情況,將時域和頻域指標與判別函數(shù)相結合,利用機器學習算法對樣本數(shù)據(jù)進行訓練,得到不同故障的特征及故障數(shù)據(jù)的模式識別模型,其識別率和準確率都大幅提升[2]。其中基于神經(jīng)網(wǎng)絡的方法應用較廣,但其結構的選擇、收斂速度較慢等都制約著診斷結果的準確性。支持向量機采用結構風險最小化的原理,適用于小樣本數(shù)據(jù)。但在實際工業(yè)應用中,往往獲取的訓練樣本數(shù)量較大,當處理這些數(shù)據(jù)量較大的輸入數(shù)據(jù)時,支持向量機表現(xiàn)出相對較差的診斷性能。隨機森林[3]作為其中的一種也在不斷發(fā)展,其實現(xiàn)過程簡單,能很好的解決數(shù)據(jù)量較大的問題,且在訓練樣本有所缺失的情況下也能達到良好的預測準確度,既能處理離散數(shù)據(jù)也能處理連續(xù)數(shù)據(jù),與其他機器學習算法相比有著明顯優(yōu)勢[4]。

      在機器學習和故障類別識別方面,依據(jù)訓練樣本是否有類別標簽,可以把算法大致分為三類:監(jiān)督學習、無監(jiān)督學習和半監(jiān)督學習[5]。傳統(tǒng)的監(jiān)督學習首先需要利用相關領域知識對輸入的故障樣本給出類別標簽,通常需要大量標簽數(shù)據(jù);當有標簽數(shù)據(jù)過少時,會存在過擬合現(xiàn)象,模型泛化能力較差;通常在對故障類型進行分類時要求具有較高相關領域的專業(yè)知識,需要付出大量的人力物力,還會出現(xiàn)瓶頸以及標簽錯誤等問題。無監(jiān)督學習的訓練樣本由于缺少專家先驗知識,導致其算法性能低于有監(jiān)督學習。半監(jiān)督學習既可利用有標記數(shù)據(jù)還可利用無標記數(shù)據(jù),在少量帶標簽數(shù)據(jù)的基礎上,利用大量低廉的無標記數(shù)據(jù)訓練模型,對分類器性能的提升卓有成效[6]。杜利敏[7]在半監(jiān)督學習框架下,提出了一種針對不平衡數(shù)據(jù)的半監(jiān)督分類算法,并改進該算法將其應用到無線電信號識別當中,有效解決了訓練樣本標簽數(shù)據(jù)不足及分類不平衡的問題。石凱[8]針對傳統(tǒng)互聯(lián)網(wǎng)入侵檢測系統(tǒng)中缺少大量有標記數(shù)據(jù)的問題,提出了一種基于半監(jiān)督和特征選擇的入侵檢測方法,提高了檢測準確率。

      針對齒輪故障振動信號的非平穩(wěn)、非線性特點以及有標簽故障樣本稀缺的問題,本文提出一種基于半監(jiān)督隨機森林分類算法的齒輪故障診斷方法;首先在利用變分模態(tài)分解算法(VMD)[9]對采集到的齒輪信號進行信號預處理的基礎上,結合隨機森林的特征重要性選擇方法,根據(jù)相關性強弱刪除冗余特征,篩選出敏感特征,以提高模式識別分類準確率。

      1 改進的半監(jiān)督學習自訓練算法

      1.1 傳統(tǒng)的自訓練算法

      自訓練模型的優(yōu)點在于其自身是一種算法框架,任何一種有監(jiān)督學習分類算法都可以通過引入無標簽數(shù)據(jù)進行訓練,同時不需要對有監(jiān)督分類算法的內(nèi)部算法流程做任何調(diào)整。具體步驟如下:首先輸入少量有標簽數(shù)據(jù)訓練模型得到初始分類器;再利用得到的分類器對大量無標簽數(shù)據(jù)進行類別標記,將置信度較高的無標簽數(shù)據(jù)扣除并放入訓練集,再次訓練分類器;重復上一步驟,直到滿足預定的停止條件。

      由上述可知,自訓練模型有一個很大的缺點,在迭代過程中,如果未標注的數(shù)據(jù)預測類別錯誤,就會在后續(xù)的迭代過程中造成誤差積累[4]。

      1.2 改進的自訓練算法

      針對上述問題,本文采用重復標記無標簽數(shù)據(jù)優(yōu)化自訓練算法。具體計算步驟如下。

      式中:L表示有標簽數(shù)據(jù);xi表示i第個樣本數(shù)據(jù);yi表示第i個樣本的類別標簽;U表示無標簽數(shù)據(jù);l表示有標簽數(shù)據(jù)總數(shù);u表示無標簽數(shù)據(jù)總數(shù)。

      1)利用有標簽數(shù)據(jù)L訓練初始分類器。

      2)用分類器預測U得到偽標簽數(shù)據(jù),從中挑選出滿足閾值的高置信度數(shù)據(jù)樣本加入訓練集。用擴充后訓練集訓練分類器,不減少無標簽數(shù)據(jù)。

      3)重復步驟2),直到滿足預設的停止條件。

      其中本文分類器選擇隨機森林,每次迭代從中取出滿足條件的數(shù)據(jù),無標簽數(shù)據(jù)量不變。算法流程圖如圖1所示。

      圖1 改進的自訓練算法流程圖

      2 基于隨機森林和改進自訓練方法的齒輪故障診斷模型

      2.1 隨機森林算法基本原理

      隨機森林(random forest,RF)是由Leo Breiman提出的一種包含多個弱分類器的組合學習算法[3]。隨機森林算法秉承了Bagging的思想,以構建單一決策樹為基礎,引入兩個隨機屬性;其基本原理是利用多棵決策樹對樣本進行訓練并預測,其中每棵樹的輸入數(shù)據(jù)是隨機子集,每棵樹構建所需的特征從全體特征中隨機選取,最后用票選法選擇最可能的分類結果。隨機森林具有擬合速度快,方便處理大規(guī)模數(shù)據(jù)、易于實現(xiàn)、可以避免過擬合等優(yōu)點。

      隨機森林是典型的機器學習算法之一,具體流程如下。

      (1)用有放回的抽樣方法從樣本集中選取n個樣本作為一個訓練集。

      (2)利用訓練集產(chǎn)生一棵決策樹,在決策樹的每一個節(jié)點隨機不重復的選擇d個特征,通過這些特征劃分訓練集,搜尋最合適的劃分特征(可用基尼指數(shù)、信息增益或信息增益比判別)。

      (3)重復步驟(1)到步驟(2)共f次,f即為隨機森林中決策樹的個數(shù)。

      (4)根據(jù)得到的隨機森林預測測試數(shù)據(jù),最終通過票選法獲得結果。

      2.2 特征重要性度量

      隨機森林的一個重要特性是給出特征重要性評分,計算某個特征的重要性,可以此來進行特征選擇,剔除冗余特征。RF的基本思想是:計算每個特征對隨機森林中每棵樹的重要性,對特征之間的重要性進行比較、排序。特征重要性通常用基尼指數(shù)或袋外數(shù)據(jù)誤差率作為評價指標來衡量[9]。

      2.3 齒輪故障診斷模型

      本文提出的基于隨機森林和改進自訓練方法的齒輪故障診斷模型如圖2所示。

      圖2 基于半監(jiān)督隨機森林分類算法的齒輪故障診斷模型

      基于半監(jiān)督隨機森林分類算法的齒輪故障診斷模型主要包含以下幾個步驟。

      (1)齒輪產(chǎn)生的信號是由多個信號分量組合而成的復雜信號,其中夾雜著由自身及周圍環(huán)境引起的大量噪聲信號。齒輪故障診斷模型首先將原始振動信號通過VMD分解為一系列頻率從低到高的本征模態(tài)函數(shù)(Intrinsic mode Function,IMF)[10],各個分量包含了不同頻率的齒輪故障信息。利用相關系數(shù)法求得原始信號和各模態(tài)分量之間的相關系數(shù)[9],包含原始信號有效特征信息越多的分量,相關系數(shù)就越大,根據(jù)結果進行排序,選擇前H個模態(tài)分量進行特征提取。

      (2)對相關性較高的前H個IMF進行傳統(tǒng)時頻域的信號分析,提取m個時域特征和n個頻域特征,其中時域特征包括i個有量綱特征和j個無量綱特征,共提取m+n個混合域特征[11],即樣本維數(shù)為m+n的初始特征集合。

      (3)利用隨機森林的特征重要性評分,計算初始特征集合中每個特征在所有特征變量中的重要性,并按降序排序,評分越高表示該特征越重要。根據(jù)基尼指數(shù)和袋外誤差率,選擇前p個特征作為新的敏感特征集合。

      (4)選取不同比例的標記數(shù)據(jù)和未標記數(shù)據(jù),利用改進的半監(jiān)督自訓練算法結合隨機森林算法,訓練得到最終分類器,對測試數(shù)據(jù)進行模式識別。通過實驗數(shù)據(jù)驗證該方法的有效性。

      3 實驗驗證及結果分析

      3.1 齒輪原始信號的采集

      本文選用旋轉機械振動分析及故障診斷實驗平臺系統(tǒng),模擬齒輪正常狀態(tài)、齒面點蝕、齒面磨損及齒根斷齒三種故障狀態(tài)。該平臺齒輪箱輸入軸小齒輪齒數(shù)為z1=55,輸出軸大齒輪齒數(shù)為z2=75,齒輪模數(shù)m=2。實驗中設定電機轉速為750r/min,采樣頻率為2560Hz,采樣點數(shù)為2048。計算得到小齒輪轉頻為12.5Hz,大齒輪轉頻為9.17Hz,嚙合頻率為687.5Hz。利用加速度傳感器采集四種狀態(tài)下相對應的振動信號,傳感器安裝在輸出軸軸承端蓋上。

      3.2 特征提取與特征選擇

      在進行特征提取之前,通常要對輸入數(shù)據(jù)進行歸一化處理,目的是為了消除指標之間的量綱影響,以解決數(shù)據(jù)指標之間的可比性,使得各指標處于同一數(shù)量級。利用VMD將預處理后的信號分解為多個本征模態(tài)函數(shù),分解層數(shù)k=8,懲罰因子α=1700。以齒面點蝕故障為例,圖3為齒面點蝕狀態(tài)下的振動信號,時域波形圖如圖3a所示,振動信號的VMD分解結果如圖3b所示。分解結果的好壞并不能單從時域圖中看出,結合圖4振動信號VMD的分解頻譜圖可以看出,VMD可將故障信號的頻率實現(xiàn)自適應分解為8個模態(tài)分量,有效提取齒輪故障特征信息,抑制了模態(tài)混疊現(xiàn)象。

      圖3 齒面點蝕故障狀態(tài)下振動信號

      圖4 齒面點蝕故障狀態(tài)下振動信號VMD分解頻譜圖

      根據(jù)皮爾遜相關系數(shù)法,通過計算得到各模態(tài)分量和原始信號的相關性,如圖5所示,剔除相關系數(shù)小于0.3的偽分量。選用齒輪的第1~4階模態(tài)分量進行信號重構,這樣保留了原始信號的敏感信息,去除噪聲對信號的影響。利用傳統(tǒng)時頻域的信號處理方法,從重構后的各階模態(tài)分量中提取出11個時域特征、3個頻域特征、3個能量特征。此時,特征提取后得到由17個特征指標構成的高維樣本空間。

      圖5 VMD分解后的本征模態(tài)分量相關系數(shù)圖

      由于直接使用提取出的17個特征構成的高維樣本空間難以得到滿意的故障診斷結果,因此需要進行近一步的特征選擇。研究證明隨機森林算法對異常值和噪聲有很強的容忍度,適合處理維數(shù)較高的數(shù)據(jù),去除相關性較低的特征進行特征篩選[12]。本文利用隨機森林的特征重要性評分特性,對特征提取后的高維數(shù)據(jù)進行特征選擇,保留前6個特征,部分數(shù)據(jù)如表1所示。結合模式識別方法通過實驗驗證其有效性。

      表1 部分齒輪點蝕故障的樣本特征向量

      3.3 故障診斷

      半監(jiān)督學習算法能夠有效利用未標記數(shù)據(jù)中蘊含的大量數(shù)據(jù)分布等信息,而本文利用改進后的半監(jiān)督學習自訓練算法可有效避免誤差積累的缺陷。隨機森林算法則通過引入兩個隨機性,使其具有較強的抗噪聲干擾能力,預測能力強方差小、不易陷入過擬合、適合處理維度較高的數(shù)據(jù)等優(yōu)點。與半監(jiān)督學習算法相結合可以獲得分類結果更準確、表現(xiàn)更穩(wěn)定的故障診斷模型[4]。

      在進行特征選擇后,對輸出齒輪狀態(tài)進行編碼,編碼1、2、3、4分別代表齒輪正常狀態(tài)、齒面點蝕、齒面磨損和齒根斷齒。從四種齒輪運行狀態(tài)中分別選取750個樣本數(shù)據(jù),樣本總數(shù)為3000個。隨機將數(shù)據(jù)集分為訓練集和測試集,其中訓練集占比90%,測試集占比10%。為測試半監(jiān)督學習中有標簽數(shù)據(jù)和無標簽數(shù)據(jù)不同比例對分類器的影響,把訓練集中的少量數(shù)據(jù)作為初始化分類器的標記樣本,剩余部分去除標記作為無標記樣本,實驗中設定標記樣本與未標記樣本的三種比例分別為1∶8、2∶7、4∶5,依次測試不同分配情況下分類器的分類精度,并與改進前的自訓練分類器進行對比研究。

      3.4 實驗結果

      圖6為標記樣本與未標記樣本的三種不同比例下迭代次數(shù)與準確率的關系曲線。

      從圖6a可以看出,隨著迭代次數(shù)的增加,改進后的模型準確率變化較為穩(wěn)定。圖6b反映了改進后有特征選擇的模型具有較高的準確率。圖6c所示,隨著未標記數(shù)據(jù)的加入,改進前的模型準確率有明顯下降趨勢。以上實驗結果表明,改進后的自訓練算法對有標簽數(shù)據(jù)的需求程度較低,無標簽數(shù)據(jù)的比例變化對其分類準確率影響較小,一定程度上解決了半監(jiān)督學習中誤差積累的問題以及齒輪故障振動信號中有標簽樣本稀缺的問題。

      圖6 不同標記比例下迭代次數(shù)與準確率的關系曲線圖

      為驗證隨機森林進行特征選擇能有效提高模型的預測準確率,結合改進后的半監(jiān)督自訓練算法,對特征篩選前后的分類準確率進行比較。根據(jù)訓練樣本中標記和未標記數(shù)據(jù)不同比例,進行了三次比較,表2是比較結果。

      表2 特征選擇與算法改進前后相結合的測試準確率 %

      由表2可以看出,改進后的自訓練算法結合隨機森林進行特征選擇后準確率提高了7%~14%;當訓練樣本中標記數(shù)據(jù)與未標記數(shù)據(jù)比例為1∶8時,利用改進后的算法結合特征選擇后測試準確率提升較大,為13.38%。

      4 結束語

      提出了一種基于半監(jiān)督隨機森林分類算法的齒輪故障診斷模型。通過迭代訓練不斷加入高置信度樣本擴充訓練樣本,在解決了半監(jiān)督學習中誤差積累問題的同時提高了分類器的泛化性能,與傳統(tǒng)的自訓練算法相比精度提高7%~14%左右。最后通過改進的半監(jiān)督學習自訓練算法結合隨機森林分類算法進行模式識別,利用大量無標簽數(shù)據(jù),規(guī)避其他半監(jiān)督學習算法中常見的誤差積累問題,達到較高的故障診斷精度。

      猜你喜歡
      分類器齒輪標簽
      東升齒輪
      你找到齒輪了嗎?
      異性齒輪大賞
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      BP-GA光照分類器在車道線識別中的應用
      電子測試(2018年1期)2018-04-18 11:52:35
      齒輪傳動
      加權空-譜與最近鄰分類器相結合的高光譜圖像分類
      結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      標簽化傷害了誰
      仙游县| 三台县| 栾川县| 阳高县| 仁寿县| 金坛市| 嘉黎县| 邮箱| 托里县| 祁连县| 上高县| 滁州市| 宁津县| 常山县| 滁州市| 宝清县| 南木林县| 昌邑市| 甘德县| 虹口区| 江安县| 东光县| 新宁县| 安国市| 鄯善县| 黄冈市| 乌拉特中旗| 仪征市| 同心县| 迭部县| 申扎县| 五寨县| 蒙自县| 南郑县| 巫山县| 静乐县| 抚松县| 阿坝县| 巨鹿县| 耿马| 北安市|