• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于PCA和隨機森林的故障趨勢預(yù)測方法研究

    2018-03-08 08:51:02王梓杰周新志
    計算機測量與控制 2018年2期
    關(guān)鍵詞:降維決策樹趨勢

    王梓杰,周新志,2,寧 芊,2

    (1.四川大學(xué) 電子信息學(xué)院,成都 610065;2.電子信息控制重點實驗室,成都 610036)

    0 引言

    現(xiàn)代工業(yè)科技在信息化技術(shù)發(fā)展下,航天、通信和工業(yè)等各領(lǐng)域工程系統(tǒng)日趨龐大復(fù)雜,考慮到復(fù)雜系統(tǒng)的可靠性、安全性和經(jīng)濟性,以診斷與預(yù)測技術(shù)為核心的PHM[1-2](故障預(yù)測和健康管理系統(tǒng))技術(shù)成為設(shè)備與系統(tǒng)保障的重要基礎(chǔ)和技術(shù)支撐。PHM主要包括故障診斷、故障預(yù)測和健康管理三個核心部分,其中故障診斷預(yù)測又可以分為故障分類[3]和趨勢預(yù)測[4]等方向,目前的故障趨勢預(yù)測主要通過傳感器提取機械部件的時間序列物理量進行分析診斷,這些時間序列往往是非線性的,對于這類問題,常常用機器學(xué)習(xí)算法解決。文獻(xiàn)[5]等基于神經(jīng)網(wǎng)絡(luò)信息融合對舵面系統(tǒng)故障趨勢進行預(yù)測,但是神經(jīng)網(wǎng)絡(luò)在趨勢預(yù)測中收斂速度緩慢[6-7],同時網(wǎng)絡(luò)的運算和結(jié)構(gòu)參數(shù)依靠經(jīng)驗設(shè)置,調(diào)參優(yōu)化缺乏理論指導(dǎo);文獻(xiàn)[8]等人使用HMM/SVM串聯(lián)結(jié)構(gòu)模型進行聯(lián)合預(yù)測,取得優(yōu)于任一單一算法的故障預(yù)測效果;文獻(xiàn)[9]等人提出一種基于ARMA的趨勢預(yù)測方法,但是容易出現(xiàn)調(diào)參復(fù)雜的問題。在實際的故障趨勢預(yù)測中,往往具有多組物理量[10],同時針對每一組時間序列的非線性數(shù)據(jù),都可以提取很多頻域和時域特征量用于趨勢預(yù)測和故障分類[11],而在將特征量輸入算法作為趨勢預(yù)測前,為了減少運算量提高精度,往往需要去除特征量中的冗余和干擾性的數(shù)據(jù),這些數(shù)據(jù)無法準(zhǔn)確反映趨勢并且有重負(fù)數(shù)據(jù)冗余,因此在預(yù)測之前對數(shù)據(jù)進行降維預(yù)處理在某些應(yīng)用場景下能顯著提高預(yù)測精度,例如PCA、KPCA等特征降維與特征融合方法[12]。而隨機森林算法[13](Random forest)是利用多棵樹對樣本進行訓(xùn)練并預(yù)測的一種算法,它既可以應(yīng)用在分類問題中,也可以用來做回歸分析。隨機森林相對于傳統(tǒng)的決策樹算法,具有不剪枝也能避免數(shù)據(jù)過擬合的特點,同時具備很快的訓(xùn)練速度,并且參數(shù)調(diào)整簡單,在默認(rèn)參數(shù)下往往就能夠具備較好的回歸預(yù)測效果。文中使用軸承退化過程的實驗數(shù)據(jù),選取BP(back propagation)神經(jīng)網(wǎng)絡(luò)模型作為參照模型進行趨勢回歸效果比較。

    1 特征提取與PCA降維處理

    在機械軸承故障趨勢預(yù)測中,由于環(huán)境噪聲和設(shè)備的工況因素,傳感器采集到的數(shù)據(jù)一般帶有噪聲,對這些時間序列物理量直接進行處理受噪聲干擾較大得到的預(yù)測精度不高;在趨勢預(yù)測中,機械的退化與故障反映在時序波形中有時并不能及時反映故障的開始時間,而是存在一定的時移;因此對傳感器采集到的數(shù)據(jù)進行時域和頻域的特征提取,本文所使用的數(shù)據(jù)集為,并且在不清楚不同特征量對于趨勢預(yù)測的貢獻(xiàn)率和相關(guān)度的情況下進行趨勢預(yù)測往往得到的結(jié)果并不理想,因此在沒有足夠物理含義和先驗知識的情況下,需要采取方法對特征量進行降維處理。

    主成分分析[14](Principal Component Analysis,后文簡稱為PCA)是最常用的線性降維方法,對于原有的高維特征數(shù)據(jù),利用坐標(biāo)變換的思想,通過線性關(guān)系的投影,將高維的數(shù)據(jù)映射到低維的數(shù)據(jù)空間中表示,數(shù)據(jù)的對應(yīng)關(guān)系并非簡單的將原有高維數(shù)據(jù)進行信息量的刪減,而是在高維向低維的坐標(biāo)映射中對相關(guān)性特征量進行了整合,得到之前特征量的協(xié)方差矩陣,這里的特征量是一個經(jīng)過重構(gòu)的全新正交特征量。一方面去除原始數(shù)據(jù)中各維度數(shù)據(jù)間的線性關(guān)系對于最終分類或者預(yù)測算法的精度影響,另一方面,在樣本數(shù)據(jù)不多,但是數(shù)據(jù)本身維度卻相對較高的情況下提高算法分類或者預(yù)測的精度。得到低維度的特征量后,保留占據(jù)絕大多數(shù)影響的特征量,能在保留住較多的原數(shù)據(jù)點的特性的同時進一步降低特征數(shù)據(jù)的維度。PCA的計算過程中不需要人為的設(shè)定參數(shù)或是根據(jù)任何經(jīng)驗?zāi)P蛯τ嬎氵M行干預(yù),最后的結(jié)果只與數(shù)據(jù)相關(guān)。但是,如果用戶對觀測對象有一定的先驗知識,掌握了數(shù)據(jù)的一些特征,卻無法通過參數(shù)化等方法對處理過程進行干預(yù),可能會得不到預(yù)期的效果。是丟失原始數(shù)據(jù)信息最少的一種線性降維方式。因為PCA相對于其他的降維方法,對于原始數(shù)據(jù)的信息和關(guān)聯(lián)性丟失較少。設(shè)定一個PCA的執(zhí)行步驟如下:

    1)構(gòu)建m*n階的變量矩陣,其中m為樣本數(shù)量,n為原始數(shù)據(jù)的維數(shù);

    2)將m*n階的變量矩陣X的每一行,即原始數(shù)據(jù)的一個屬性,進行數(shù)據(jù)的歸一化處理;

    3)求出協(xié)方差矩陣C,并對其特征值和特征向量進行求解;

    4) 將特征值從大到小進行排序,選擇其中最大的k個,然后將其對應(yīng)的k個特征向量分別作為列向量組成特征矩陣M;

    5)即可以求得原n維的原始高維數(shù)據(jù)降維到k維后的數(shù)據(jù)Y=XM。

    矩陣Y是由數(shù)據(jù)協(xié)方差矩陣前k個最大的特征值對應(yīng)的特征向量作為列向量構(gòu)成的。這些特征向量形成一組正交基并且最好地保留了數(shù)據(jù)中的信息。

    2 決策樹與隨機森林算法

    2.1 決策樹

    相較于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)和貝葉斯算法,決策樹是以實例為基礎(chǔ)的算法,通過不斷的對樣本歸納學(xué)習(xí)從而對分類以及預(yù)測等問題進行概率計算。決策樹本身的構(gòu)造并不需要相關(guān)樣本數(shù)據(jù)領(lǐng)域的先驗知識或者參數(shù)設(shè)置,因此,決策樹很適用于探索性的應(yīng)用。決策樹本身是一個樹結(jié)構(gòu)(可以是二叉樹或非二叉樹)。它表示對象屬性和對象值之間的一種映射,樹中的每一個節(jié)點表示對象屬性的判斷條件,其分支表示符合節(jié)點條件的對象。樹的葉子節(jié)點表示對象所屬的預(yù)測結(jié)果。使用決策樹進行決策的過程就是從根節(jié)點開始,測試待分類和待遇測項中相應(yīng)的特征屬性和特征值,并按照其值選擇輸出分支,將葉子節(jié)點存放的類別作為決策結(jié)果。構(gòu)造決策樹的關(guān)鍵步驟是分裂屬性。所謂分裂屬性就是在某個節(jié)點處按照某一特征屬性的不同劃分構(gòu)造不同的分支,其目標(biāo)是讓一個分裂子集中待分類項屬于同一類別。

    在此基礎(chǔ)上J.Ross Quinlan于1986年提出ID3算法,采用信息增益最大的特征;Breiman等人于1984年提出CART算法利用基尼指數(shù)最小化準(zhǔn)則進行特征選擇;J.Ross Quinlan于1993年提出C4.5算法,采用信息增益比選擇特征。

    2.2 隨機森林

    隨機森林(Random Forest)是Leo Breiman和Adele Cutler在2001年提出的一個新的組合分類器算法,在此之后,Deitterich在模型中引入了隨即節(jié)點優(yōu)化的思想,對隨機森里進行了進一步完善,運用了Leo Breiman的“套袋”思想構(gòu)建了控制方差的決策樹集合。隨機森林算法利用多個CART(Classification And Regression Tree)作為元分類器,用套袋算法制造有差異的訓(xùn)練樣本集,同時在構(gòu)建單棵樹時,隨機地選擇特征對內(nèi)部節(jié)點進行屬性分裂。因此隨機森林能較好容忍噪聲,并且具有較好的分類性能。實際應(yīng)用中隨機森林作為一種多功能的機器學(xué)習(xí)算法,除了執(zhí)行回歸、分類的任務(wù),同時也用于處理缺失值、異常值以及其他數(shù)據(jù)探索中,作為一種降維手段。通常隨機森林通過以下步驟運作:

    1)我們設(shè)定一個樣本個數(shù)為N的樣本集,M表示變量的數(shù)目;

    2)每個節(jié)點都將隨機選擇m(m

    3)從樣本集(N個樣本)中以可放回取樣的方式,取樣N次,形成一組訓(xùn)練集(即bootstrap取樣)。并使用這棵樹預(yù)測剩余類別并評估其誤差。

    4)對于每一個節(jié)點,隨機選擇m個基于此點上的變量。根據(jù)這m個變量,計算其最佳的分裂點。

    5)每棵決策樹都最大可能地進行生長而不進行剪枝(Pruning),通過對所有的決策樹進行加總來預(yù)測新的數(shù)據(jù)。

    圖1 原始數(shù)據(jù)振動幅值圖

    3 基于隨機森林的故障趨勢預(yù)測

    3.1 實驗數(shù)據(jù)

    本次針對隨機森林算法在軸承診斷中的應(yīng)用,選擇美國辛辛那提大學(xué)智能系統(tǒng)維護中心提供的滾動軸承全壽命周期加速軸承性能退化實驗數(shù)據(jù)進行趨勢預(yù)測實驗。該數(shù)據(jù)為提取的加速度時間序列,采樣的時間間隔是10 min,采樣頻率是20 kHz,采樣點數(shù)為20480個,實驗數(shù)據(jù)記錄了從軸承完好到發(fā)生故障的全壽命周期過程,總共984條數(shù)據(jù),本文截取其中后期從正常運行工況到具備退化趨勢的一段數(shù)據(jù)進行實驗,圖1是軸承運行后期的第700條數(shù)據(jù)的振動信號幅值圖。

    3.2 特征提取與PCA降維

    由于原始數(shù)據(jù)點數(shù)較多,且具有一定的噪聲干擾,需要對原始數(shù)據(jù)進行壓縮處理,提取特征量進行分析預(yù)測。參考文獻(xiàn)(KPCA),從每一節(jié)數(shù)據(jù)中提取10個頻域特征量和15個時域特征量,共計25個特征量進行主成分分析,其中時域特征量如時域均值趨勢如圖2,頻域均方根值如圖3所示。

    圖2 時域均值趨勢

    圖3 頻域均方根值

    對數(shù)據(jù)的趨勢分析得到:從500點開始,數(shù)值呈現(xiàn)上升趨勢,物理上的表現(xiàn)即反映軸承產(chǎn)生性能退化,并且在700點位置左右有第一個波峰。在所有25個特征值里,反映軸承實際退化趨勢的有18個,為了降低數(shù)據(jù)冗余,提高預(yù)測精度,選取了這18個特征量進行PCA主成分分析對高維特征量進行降維,經(jīng)過主成分分析得到前四個分量的貢獻(xiàn)率如表1所示,其中分量1的貢獻(xiàn)率超過95%,為96.3334%,依照PCA中選取貢獻(xiàn)率位85%以上的特征分量的原則,選擇貢獻(xiàn)率最高的分量作為隨機森林預(yù)測效果的實驗數(shù)據(jù)。

    表1 部分特征分量貢獻(xiàn)率 %

    3.3 實驗方案及結(jié)果分析

    3.3.1 隨機森林預(yù)測模型構(gòu)建

    根據(jù)所采用的實驗數(shù)據(jù)和隨機森林的輸入輸出和結(jié)構(gòu),首先確定訓(xùn)練集和預(yù)測數(shù)據(jù),參考數(shù)據(jù)分析結(jié)果,將PCA降維處理后得到的984個數(shù)據(jù)點中能正確反映軸承故障退化趨勢的數(shù)據(jù)段中,701~900數(shù)據(jù)點作為訓(xùn)練集,901~920數(shù)據(jù)點作為預(yù)測數(shù)據(jù),并建立訓(xùn)練集的訓(xùn)練樣本特征空間S=[X,Y],其中X為訓(xùn)練集樣本空間如下:

    (1)

    (2)

    X的列數(shù)為26,為預(yù)測的步長,試驗中分別選擇10、15、20、25和30作為步長,實驗結(jié)果顯示當(dāng)步長為25時隨機森林預(yù)測模型具備最佳的預(yù)測效果,因此預(yù)測步長為25。隨機森林的樹的數(shù)量選定100~1000,以100為步長步進,得到的結(jié)果為樹的數(shù)量設(shè)定為500時具有較好的預(yù)測精度。mtry設(shè)置為25,其他參數(shù)設(shè)置為默認(rèn)值。

    3.3.2 實驗結(jié)果分析

    為了驗證本文采用的隨機森林的預(yù)測效果,選取BP神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進行預(yù)測比較兩者的預(yù)測精度。選用R方和RMSE以及MSE作為衡量預(yù)測值和實際值擬合優(yōu)度的標(biāo)準(zhǔn),圖4為原始數(shù)據(jù)點、隨機森林預(yù)測數(shù)據(jù)點和BP神經(jīng)網(wǎng)絡(luò)預(yù)測數(shù)據(jù)點對比圖。

    圖4 隨機森林與BP神經(jīng)網(wǎng)絡(luò)對比圖

    從圖4可以看到,神經(jīng)網(wǎng)絡(luò)在較為平緩的部分預(yù)測值就出現(xiàn)了較大的偏差,并且有明顯的預(yù)測延遲的情況,而隨機森林的預(yù)測趨勢不但在較為平緩的地方和實際值一致,并且很好的反映了真實值在出現(xiàn)較大波峰時的趨勢情況,不僅實際反映退化趨勢,同時具備精度較高的預(yù)測數(shù)值。表2為隨機森林算法和BP神經(jīng)網(wǎng)絡(luò)算法預(yù)測效果的RMSE值、R方值以及MSE值的比較結(jié)果。可以看到隨機森林模型的R方值為0.9257,相比BP神經(jīng)網(wǎng)絡(luò)模型的0.8077提高了14.6%;RMSE值相對于神經(jīng)網(wǎng)絡(luò),降低了55%;隨機森林模型的MSEMSE值相較于BP神經(jīng)網(wǎng)絡(luò)的MSE值要小一個數(shù)量級。

    表2 算法預(yù)測結(jié)果參數(shù)比較

    4 結(jié)語

    提出了一種PCA-隨機森林算法用于提高機械故障診斷的趨勢預(yù)測精度。分析了PCA降維與隨機森林算法的建模,使用實際的軸承故障數(shù)據(jù)進行了趨勢預(yù)測實驗驗證,并取用BP神經(jīng)網(wǎng)絡(luò)模型作為參照組,來對比隨機森林模型的預(yù)測效果,使用R方和RMSE以及MSE作為預(yù)測趨勢的精度評價指標(biāo),根據(jù)實驗結(jié)果,BP神經(jīng)網(wǎng)絡(luò)在軸承趨勢預(yù)測中精度相對較低,并且不能很好的反映軸承退化趨勢;隨機森林模型相對具備更高的預(yù)測精度,用時擬合效果較好。然而隨著使用的樹的數(shù)量增加,如本文中在精度較高的情況下,設(shè)置樹的數(shù)量為500棵,在較大的數(shù)據(jù)處理下,會對計算機造成比一般算法更大的計算壓力,預(yù)測時間也會顯著增加,后期將對隨機森林的其他參數(shù)進行改進提高運算速度以及趨勢預(yù)測精度。

    [1] 王曉勇. 故障預(yù)測和健康管理(PHM)及其應(yīng)用[J]. 中國電子商務(wù),2013(3):120-120.

    [2] 劉恩朋,楊占才,靳小波. 國外故障預(yù)測與健康管理系統(tǒng)開發(fā)平臺綜述[J]. 測控技術(shù),2014,33(9):1-4.

    [3] 曾聲奎,Pecht M G,吳際. 故障預(yù)測與健康管理(PHM)技術(shù)的現(xiàn)狀與發(fā)展[J]. 航空學(xué)報,2005,26(5):626-632.

    [4] 續(xù)媛君,潘宏俠. 設(shè)備故障趨勢預(yù)測的分析與應(yīng)用[J]. 振動、測試與診斷,2006,26(4):305-308.

    [5] 李 斌,章衛(wèi)國,寧東方,等. 基于神經(jīng)網(wǎng)絡(luò)技術(shù)的飛機舵面故障趨勢預(yù)測研究[J]. 系統(tǒng)仿真學(xué)報,2008(21):5840-5842.

    [6] Feng Z,Chu F,Song X. Application of general regression neural network to vibration trend prediction of Rotating machinery[M]. Advances in Neural Networks - ISNN 2004. Springer Berlin Heidelberg,2004:367-371.

    [7] Hajnayeb A,Ghasemloonia A,Khadem S E,et al. Application and comparison of an ANN-based feature selection method and the genetic algorithm in gearbox fault diagnosis[J]. Expert Systems with Applications,2011,38(8):10205-10209.

    [8] 謝松汕,許寶杰,吳國新,等. 基于 HMM/SVM 的風(fēng)電設(shè)備故障趨勢預(yù)測方法研究[J]. 計算機測量與控制,2014,22(1):39-41.

    [9] 李 波,趙 潔,郭 晉. 設(shè)備故障評估新指標(biāo)及基于ARMA的預(yù)測系統(tǒng)[J]. 系統(tǒng)工程與電子技術(shù),2011,33(1):98-101.

    [10] Rauber T W,Boldt F D A,Varej?o F M. Heterogeneous Feature Models and Feature Selection Applied to Bearing Fault Diagnosis[J]. IEEE Transactions on Industrial Electronics,2015,62(1):637-646.

    [11] 李 兵,張培林,任國全,等. 基于互信息的滾動軸承故障特征選擇方法[J]. 測試技術(shù)學(xué)報,2009,23(2):183-188.

    [12] 張 恒,趙榮珍. 故障特征選擇與特征信息融合的加權(quán)KPCA方法研究[J]. 振動與沖擊,2014,33(9):89-93.

    [13] Surhone L M,Tennoe M T,Henssonow S F,et al. Random Forest[J]. Machine Learning,2010,45(1):5-32.

    [14] Tipping M E,Bishop C M. Probabilistic Principal Component Analysis[J]. Journal of the Royal Statistical Society,2010,61(3):611-622.

    [15] Quinlan J R. Induction on decision tree[J]. Machine Learning,1986,1(1):81-106.

    猜你喜歡
    降維決策樹趨勢
    Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
    趨勢
    降維打擊
    海峽姐妹(2019年12期)2020-01-14 03:24:40
    一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
    決策樹和隨機森林方法在管理決策中的應(yīng)用
    電子制作(2018年16期)2018-09-26 03:27:06
    初秋唇妝趨勢
    Coco薇(2017年9期)2017-09-07 21:23:49
    基于決策樹的出租車乘客出行目的識別
    SPINEXPO?2017春夏流行趨勢
    趨勢
    汽車科技(2015年1期)2015-02-28 12:14:44
    基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
    永登县| 九江市| 江津市| 祁东县| 社会| 双峰县| 海兴县| 溧水县| 西和县| 蒙城县| 西峡县| 香港| 新沂市| 汉源县| 安阳县| 无棣县| 清徐县| 沙河市| 垣曲县| 新兴县| 四子王旗| 永宁县| 赫章县| 阳曲县| 陵川县| 明溪县| 巫山县| 武安市| 从江县| 平阴县| 米脂县| 灌南县| 福海县| 吉林省| 苍梧县| 于田县| 涟源市| 武山县| 桐乡市| 商都县| 内黄县|