李長(zhǎng)偉,雷文平,董辛?xí)F,李永耀
(1.鄭州大學(xué)機(jī)械工程學(xué)院振動(dòng)工程研究所,河南鄭州 450001)(2.鄭州恩普特科技股份有限公司,河南鄭州 450001)
在基于軸承振動(dòng)信號(hào)的故障診斷方法中,大多數(shù)是基于知識(shí)規(guī)則的,發(fā)展得也較為成熟。但這些診斷方法依然存在一些難以克服的缺點(diǎn),比如知識(shí)的獲取較為困難,知識(shí)規(guī)則庫(kù)的維護(hù)較為復(fù)雜等。為了解決這些問題,引入CBR技術(shù)。CBR是運(yùn)用歷史上發(fā)生過的事情來解決新出現(xiàn)的問題、理解新情況的一種新興人工智能方法學(xué),是不同于基于知識(shí)推理的一種學(xué)習(xí)模式[1]。CBR比較擅于解決知識(shí)缺乏、不便建立模型、存有大量規(guī)則之外的結(jié)構(gòu)化或者半結(jié)構(gòu)化的問題。因此利用CBR方法做軸承故障診斷具有較高的應(yīng)用價(jià)值,并且CBR系統(tǒng)解決問題的能力也會(huì)隨著案例庫(kù)的擴(kuò)展而提升,具有較好的成長(zhǎng)性。
作為CBR技術(shù)核心模塊的案例庫(kù),對(duì)故障診斷結(jié)果有著決定性的影響,為了獲得較好的案例庫(kù)模塊,則需要對(duì)其進(jìn)行優(yōu)化。案例庫(kù)主要是由各個(gè)子案例組成,案例庫(kù)的優(yōu)化即是對(duì)子案例的優(yōu)化,子案例主要有其屬性特征來表征,則最終的優(yōu)化目標(biāo)即是對(duì)屬性特征的優(yōu)化。
在屬性特征優(yōu)化方面,文獻(xiàn)[2]采用Filter 結(jié)合Wrapper 的特征選擇方法解決特征冗余問題,雖然結(jié)合了兩者的優(yōu)點(diǎn),但計(jì)算過程繁瑣,耗時(shí)較長(zhǎng);文獻(xiàn)[3]在特征選取中提出了一種CFS 方法,該方法擁有Filter 和Wrapper 的優(yōu)點(diǎn),不僅計(jì)算速度快而且還適用于離散型和連續(xù)型數(shù)據(jù);文獻(xiàn)[4]在CBR系統(tǒng)中采用GA算法實(shí)現(xiàn)了特征權(quán)重優(yōu)化問題,并取得了一定的效果;文獻(xiàn)[5]在語音的識(shí)別系統(tǒng)中運(yùn)用GA?CFS 方法解決特征約減問題,并證明了其可行性。因此,這里在案例推理軸承故障診斷中引入了GA?CFS方法,并利用XJTU?SY 滾動(dòng)軸承加速壽命試驗(yàn)數(shù)據(jù)驗(yàn)證了該方法的可行性[6]。
CBR 是將新出現(xiàn)的問題稱作目標(biāo)案例,而將歷史上出現(xiàn)的問題稱作源案例。CBR先是將已經(jīng)解決過的目標(biāo)案例化作源案例,再轉(zhuǎn)過來由源案例指引新的案例求解的一種方法。Kolodner在1983年領(lǐng)導(dǎo)研發(fā)了基于案例推理的CYRUS系統(tǒng),隨后在不同領(lǐng)域又產(chǎn)生了PROTOS、HYPO 以及CABARET 等基于案例推理的應(yīng)用系統(tǒng)。目前CBR過程主要分為4個(gè)階段:案例的檢索、復(fù)用、修改和保存[7]。當(dāng)有新案例產(chǎn)生時(shí),基本過程,如圖1 所示。首先,要求出案例的特征;其次,在已經(jīng)利用GA?CFS方法構(gòu)建好的案例庫(kù)中使用KNN 算法計(jì)算源案例與目標(biāo)案例之間的相似性,根據(jù)兩者之間的相似度啟用案例的重用或修改或保存機(jī)制,最終得到源案例的解。
圖1 基本流程Fig.1 Basic Process
CFS是一種關(guān)于屬性子集價(jià)值的啟發(fā)式評(píng)價(jià)算法,該算法用于評(píng)估特征子集的價(jià)值或優(yōu)點(diǎn),考慮了單個(gè)特征與預(yù)測(cè)類別標(biāo)簽之間相互關(guān)聯(lián)度。CFS的核心思想有兩個(gè)方面[3]:(1)優(yōu)良特征子集與類別標(biāo)簽高度相關(guān);(2)優(yōu)良特征子集的屬性特征彼此之間不相關(guān)。該方法計(jì)算速度快,不僅適用于離散型的數(shù)據(jù)還適用于連續(xù)型的數(shù)據(jù),其屬性子集評(píng)價(jià)函數(shù)如下:
式中:r(f,c)—各個(gè)屬性特征f與類別c之間的相關(guān)系數(shù);N—的是樣本總數(shù)。屬性特征彼此之間相關(guān)性系數(shù)也適用式(2)。r(f,c)的絕對(duì)值越大,說明f和c的相關(guān)程度越好,當(dāng)r(f,c)的絕對(duì)值接近于0,則認(rèn)為f和c之間相關(guān)性弱或者完全無關(guān)。
在1961 年Johns 首次將K近鄰算法使用在分類問題中,在1967年文獻(xiàn)[8]提出K近鄰算法,該方法簡(jiǎn)單有效,也是應(yīng)用較為廣泛的模式識(shí)別算法之一。該算法的原理是:假設(shè)已經(jīng)存在一個(gè)案例集,當(dāng)有新案例時(shí),在該已有案例集中找到與新案例相似性最大或者距離最小的K個(gè)案例,若這K個(gè)案例中的多數(shù)均屬于某個(gè)類別,就把該新案例歸為該類別。
對(duì)案例推理技術(shù)來說,KNN算法的重要性在于以下幾方面:
(1)該算法是基于距離的相似性計(jì)算方法,簡(jiǎn)單易于實(shí)現(xiàn),且具有較好的分類性能;(2)該算法給出了案例與空間之間的映射關(guān)系;(3)該技術(shù)和其他技術(shù)融合的能力非常強(qiáng)。
遺傳算法是一種搜索方法,該方法仿照了自然界的自然選擇和自然遺傳機(jī)制[9]。該方法首先通過計(jì)算當(dāng)前群體的最適應(yīng)值,再根據(jù)該值生成新一代群體,通過這樣的方法不斷的壓縮搜索空間,進(jìn)而找到或者近似找到搜索目標(biāo)。
篩選過程,如圖2所示。
圖2 遺傳算法基本流程Fig.2 Basic Process of Genetic Algorithm
具體步驟如下[10]:
(1)將參數(shù)特征進(jìn)行編碼,染色體長(zhǎng)度等于屬性特征個(gè)數(shù),染色體基因?yàn)?時(shí)表示選中該屬性特征,染色體基因?yàn)?時(shí)表示未選中該屬性特征;
(2)定義適應(yīng)函數(shù),引入CFS方法,將CFS的計(jì)算結(jié)果作為適應(yīng)值;
(3)設(shè)定遺傳策略,分為設(shè)定群體大小,選擇、雜交和變異三個(gè)遺傳算子,確定變異概率和雜交概率等,根據(jù)經(jīng)驗(yàn)設(shè)置以上參數(shù)的取值范圍:群體規(guī)模(20~200)、雜交概率(0.6~1.0)、變異概率(0.005~0.1)、選擇策略為輪盤賭方式;
(4)設(shè)置初始化群體,隨機(jī)生成一個(gè)初始種群,種群規(guī)模一般設(shè)定在(100~200)之間,并且以最大迭代次數(shù)作為停止條件;
(5)計(jì)算每個(gè)個(gè)體適應(yīng)值;
(6)按照遺傳策略,對(duì)群體進(jìn)行遺傳操作,生成新一代群體;
(7)判斷是否滿足要求,或者達(dá)到預(yù)定迭代次數(shù),否則就返回(6),重復(fù)操作,直到滿足要求為止。
經(jīng)過GA?CFS初步篩選后得到了一組優(yōu)良屬性子集,現(xiàn)需要求解各個(gè)屬性子集中的特征權(quán)重,并從該組屬性子集其中選出符合要求的子集,實(shí)現(xiàn)過程為:利用GA算法實(shí)現(xiàn)特征子集的權(quán)重計(jì)算和選擇,GA步驟同1.4,不同之處為:(1)染色體的基因編碼采用(0~1)之間的浮點(diǎn)數(shù),表示特征權(quán)重大??;(2)采用軸承的診斷準(zhǔn)確率為適應(yīng)度值,該準(zhǔn)確率是由加權(quán)后的KNN算法得出。最后依據(jù)屬性子集的診斷準(zhǔn)確率得出符合要求的屬性子集。
利用XJTU?SY滾動(dòng)軸承加速壽命試驗(yàn)數(shù)據(jù)建立案例庫(kù)驗(yàn)證這里的方法。該數(shù)據(jù)包含了3種工況下15個(gè)滾動(dòng)軸承的全壽命周期振動(dòng)信號(hào),試驗(yàn)滾動(dòng)軸承型號(hào)LDKUER204,采樣頻率25.6kHz,采樣間隔1min,采樣點(diǎn)數(shù)32768。CBR的案例庫(kù)中含有1680個(gè)軸承案例,其中包含外圈故障案例751個(gè)、內(nèi)圈故障案例167個(gè)、保持架故障案例247個(gè)、內(nèi)圈故障和外圈故障共存的案例18個(gè)和四個(gè)部位故障共存的案例297個(gè),以及正常案例200個(gè)。利用文獻(xiàn)[11]中的全矢譜技術(shù)融合這些雙通道數(shù)據(jù),得到融合后的時(shí)域振動(dòng)數(shù)據(jù)和主振矢數(shù)據(jù)。
在已選擇的1680個(gè)案例中,分別在時(shí)域振動(dòng)信號(hào)和主振矢中提取9個(gè)時(shí)域特征和11個(gè)頻域特征[2]。此20個(gè)特征的排列順序依次是峰值、均方根值、峭度、波形因子、脈沖指標(biāo)、裕度指標(biāo)、峰值因子、絕對(duì)均值、標(biāo)準(zhǔn)差、轉(zhuǎn)頻幅值、頻域峰值、頻域均值、頻域標(biāo)準(zhǔn)差、頻域均方根值、頻域峭度、頻域波形因子、頻域脈沖指標(biāo)、頻域裕度指標(biāo)、頻域峰值因子、頻域重心,即特征序號(hào)從(1~20)。
在已選擇的20個(gè)特征中必定存在特征冗余,這些特征與分類標(biāo)簽相關(guān)性差,可能存在反作用,降低分類準(zhǔn)確率。依照上文20個(gè)屬性特征的排列順序,求出在屬性特征個(gè)數(shù)依次累加時(shí)所對(duì)應(yīng)的準(zhǔn)確率。如圖3所示,可以看到含有不同個(gè)數(shù)特征時(shí)準(zhǔn)確率有高有低,充分說明該組屬性特征存在冗余性,需要對(duì)其進(jìn)行優(yōu)化處理。采用GA?CFS方法對(duì)屬性特征進(jìn)行粗選,其中種群規(guī)模為100,交叉和變異概率分別為0.9、0.1,最大停止迭代次數(shù)200。經(jīng)過計(jì)算得到一組屬性特征子集及其與類別標(biāo)簽的適應(yīng)度值。每迭代一次得到一個(gè)最優(yōu)特征子集,被選中的特征在圖4中用“*”表示,未選中的特征用空白表示,每一代篩選出的屬性子集所對(duì)應(yīng)的適應(yīng)值,如圖5所示。從所篩選出的第23代到200代的特征子集的適應(yīng)度值保持穩(wěn)定不變,因此選擇前24代特征子集,如圖4所示。其中不相同的特征子集共有7個(gè),分別是第1、2、4、5、6、7、23代特征子集。該組特征子集中的關(guān)鍵特征存在差異性,也說明了構(gòu)成案例庫(kù)的各個(gè)案例存在差異性,且特征之間也并非相互獨(dú)立。
圖3 特征個(gè)數(shù)所對(duì)應(yīng)的正確率Fig.3 The Correct Rate Corresponding to the Number of Features
圖4 特征子集篩選Fig.4 Feature Subset Screening
圖5 特征子集與其適應(yīng)度值Fig.5 Feature Subset and its Fitness Value
針對(duì)初選的7個(gè)特征子集的權(quán)重問題,選擇GA算法,采用診斷準(zhǔn)確率作為適應(yīng)值,對(duì)特征子集做進(jìn)一步篩選,其中最大迭代次數(shù)為200,種群規(guī)模為100,交叉和變異概率分別為0.9、0.1。對(duì)每個(gè)子集的診斷正確率求解10次,然后求取平均正確率,最終結(jié)果,如表1所示。在未匹配權(quán)重時(shí),經(jīng)過特征約減后的診斷正確率不僅高于原始子集的正確率,而且特征個(gè)數(shù)減少至一半以下;在匹配權(quán)重之后,各個(gè)子集的平均診斷正確率均超過93%。說明在分類計(jì)算中進(jìn)行特征約減和匹配特征權(quán)重不僅可以較大程度的降低計(jì)算時(shí)間,而且可以顯著提高診斷正確率。關(guān)于特征子集的選擇,根據(jù)表1對(duì)比情況,按照計(jì)算時(shí)間和準(zhǔn)確率的實(shí)際需求確定。這里在案例庫(kù)構(gòu)建中選擇第23代屬性特征子集,準(zhǔn)確率為0.9373,且特征個(gè)數(shù)最少。其包含7個(gè)屬性,分別是波形因子、峰值因子、轉(zhuǎn)頻幅值、頻域均值、頻域波形因子、頻域脈沖指標(biāo)、頻域峰值因子。
表1 屬性特征子集正確率對(duì)比Tab.1 Comparison of Attribute Feature Subset Correctness
這里采用mycbr 建模平臺(tái)搭建案例推理的故障診斷系統(tǒng)。按照GA?CFS和加權(quán)KNN方法,把選好的7個(gè)關(guān)鍵特征及權(quán)重錄入系統(tǒng)的屬性設(shè)置界面,屬性值設(shè)置為true,其他屬性值設(shè)置為false,并選擇歐氏距離作為相似性計(jì)算方法,如圖6所示。
圖6 特征選擇和權(quán)重匹Fig.6 Feature Selection and Weight Matching
然后將這1680個(gè)案例錄入到案例庫(kù)中。當(dāng)有新案例時(shí),求出目其關(guān)鍵特征,填入檢索界面,如圖7所示。即可以求解出新案例與源案例的相似性,根據(jù)相似性是否超過預(yù)設(shè)的閾值,即可判斷是否啟用案例重用、修改或者存儲(chǔ)機(jī)制,得出新案例的解。
圖7 案例檢索Fig.7 Case Retrieval
這里提出了一種GA?CFS結(jié)合案例推理的軸承故障診斷方法,設(shè)計(jì)了GA、CFS和KNN特征選擇策略,并運(yùn)用XJTU?SY滾動(dòng)軸承加速壽命試驗(yàn)數(shù)據(jù)搭建診斷系統(tǒng)。該方法不僅獲取故障知識(shí)容易,而且優(yōu)化后的特征子集冗余性低。此外,通過GA加權(quán)的方式提高了KNN算法的診斷準(zhǔn)確率。最終通過實(shí)驗(yàn)驗(yàn)證,分類準(zhǔn)確率超過了93%,證明了該方法的可行性。