許海燕,寇慶康,謝迎娟,朱俊,李敏
(河海大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇常州 213022)
光纖傳感系統(tǒng)廣泛用于油氣長輸管道、隧道安全監(jiān)測、大型結(jié)構(gòu)安全監(jiān)測、周邊安全等諸多領(lǐng)域[1-5]。光纖傳感信號(hào)識(shí)別在實(shí)時(shí)監(jiān)測、異常報(bào)警等多個(gè)方面起關(guān)鍵作用,其工作性能直接決定了整個(gè)監(jiān)測系統(tǒng)的性能,因此,能否快速、準(zhǔn)確地進(jìn)行識(shí)別分類對(duì)于保障維護(hù)各個(gè)領(lǐng)域的安全和減少設(shè)備損壞造成的成本損失而言具有重要意義。
經(jīng)過光纖傳感系統(tǒng)提取的特征向量代表了光纖振動(dòng)信號(hào)的特征,提取算法的有效性直接影響事件識(shí)別結(jié)果的準(zhǔn)確性。因此,根據(jù)特征提取算法,獲得有效的特征參數(shù),對(duì)提高識(shí)別率尤為關(guān)鍵。國內(nèi)外學(xué)者已經(jīng)在這方面做出大量研究。LI Junchan 等提出了一種基于相關(guān)向量機(jī)的光纖振動(dòng)傳感器模式識(shí)別方法[6]。首先對(duì)初始振動(dòng)信號(hào)進(jìn)行小波去噪預(yù)處理,然后利用小波分解算法得到各級(jí)分解系數(shù),構(gòu)建特征向量,最后利用相關(guān)向量機(jī)作為分類器進(jìn)行分類識(shí)別。但是基于小波分解的特征提取方法由于信號(hào)的特征容易受到高斯噪聲的影響,在小波分解處理過程中存在模糊提取和線性穩(wěn)態(tài)的缺陷。WANG Liang 等提出基于門限過零率和稀疏編碼器的算法提取光纖振動(dòng)信號(hào)的兩級(jí)特征[7]。第一級(jí)特征提取過零率特征,以識(shí)別振動(dòng)是否發(fā)生,通過第一級(jí)特征提取,降低光纖振動(dòng)信號(hào)數(shù)據(jù)的維數(shù)。在發(fā)生振動(dòng)的情況下,采用稀疏自編碼神經(jīng)網(wǎng)絡(luò)算法提取振動(dòng)信號(hào)的高維特征。但是采用神經(jīng)網(wǎng)絡(luò)算法需要大量數(shù)據(jù)進(jìn)行訓(xùn)練。LIU Kun 等提出并論證了一種基于混合特征提取算法和組合分類器的識(shí)別方案[8]。提取過零率、樣本熵、小波包能量熵、峰度和多尺度置換熵組合為混合特征向量,然后采用一種支持向量機(jī)和徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)相結(jié)合的分類器進(jìn)行識(shí)別分類。但是多種特征提取方案會(huì)增加特征提取過程的時(shí)間成本。
近年來,借鑒聽覺感知機(jī)理的Mel 頻率倒譜系數(shù)(Mel-frequency Cepstral Coefficients,MFCC)特征提取方法在振動(dòng)信號(hào)特征提取中得到了廣泛的應(yīng)用,其算法簡單,能有效提取出高度可識(shí)別的特征信息,并取得良好的分類效果。 MFCC 特征提取方法可以對(duì)光纖傳感系統(tǒng)采集到的振動(dòng)信號(hào)進(jìn)行特征提取,進(jìn)而對(duì)模式進(jìn)行預(yù)測,從而識(shí)別干擾信號(hào)[9]。使用MFCC 特征提取算法時(shí),提取的特征向量存在維數(shù)高、向量冗余的問題。當(dāng)它被送到分類器進(jìn)行訓(xùn)練和識(shí)別時(shí),不僅會(huì)增加時(shí)間成本,還會(huì)降低識(shí)別準(zhǔn)確率[10]。因此,如何實(shí)現(xiàn)對(duì)MFCC 特征向量的有效降維是提高光纖傳感振動(dòng)信號(hào)實(shí)時(shí)性和準(zhǔn)確性的關(guān)鍵。
目前已知的降維技術(shù)分為兩類:一類是基于原始特征向量進(jìn)行選擇,另一類是從原始特征中重新提取特征[11]。主成分分析(Principal Component Analysis,PCA)被廣泛用于降低MFCC 特征向量的維數(shù)。通過從原始特征向量中重新提取特征向量,實(shí)現(xiàn)了MFCC 特征向量的特征降維,可以提高識(shí)別和分類[12]。但是,由于主成分分析方法是從原始特征向量中重新提取特征矩陣,對(duì)原始特征向量的各個(gè)特征維度的意義具有一定的模糊性,方差小的非主成分也可能包含不同的信息。對(duì)后續(xù)的識(shí)別和分類會(huì)產(chǎn)生一定的影響。
針對(duì)上述問題,本文提出了一種基于補(bǔ)償距離估計(jì)技術(shù)(Compensation Distance Estimation Technology,CDET)的特征提取方法,采用對(duì)特征向量類內(nèi)離散性和類間離散性聯(lián)合評(píng)估的方式,對(duì)特征矩陣的不同維度進(jìn)行特征評(píng)分,通過在原有特征向量矩陣中刪減低評(píng)分冗余向量進(jìn)行特征降維,從而解決冗余向量對(duì)分類的影響以及特征提取維數(shù)過多造成的運(yùn)算復(fù)雜問題。
本文提出一種基于補(bǔ)償距離估計(jì)的特征提取方法。通過該算法可以解決特征向量維數(shù)過多導(dǎo)致的復(fù)雜運(yùn)算問題?;谘a(bǔ)償距離估計(jì)的特征提取算法可以優(yōu)化特征向量矩陣,減少影響分類精度的冗余向量。采用基于聽覺感知機(jī)理的MFCC 算法進(jìn)行初次特征提取,并制定特征篩選策略,采用補(bǔ)償距離估計(jì)技術(shù)降低特征維數(shù),解決MFCC 提取的特征矩陣維數(shù)過多的問題,提高光纖傳感信號(hào)識(shí)別的有效性和實(shí)時(shí)性。MFCC 特征提取算法流程如下:
輸入:{Xc,n|1 ≤c≤C,1 ≤n≤Nc}
輸出:{C(n),D(n),D2(n)}
MFCC 特征提取方法是語音識(shí)別、故障識(shí)別和光纖信號(hào)識(shí)別中常用的一種特征提取方法[13-15]。 MFCC將信號(hào)頻率轉(zhuǎn)換為Mel 頻率,設(shè)置等距Mel 頻率,再轉(zhuǎn)換為頻率,得到Mel 頻率濾波器,然后將每個(gè)帶通濾波器的輸出信號(hào)能量作為信號(hào)的基本特征[16]。MFCC 特征提取算法的輸入為不同類型的光纖振動(dòng)信號(hào)樣本,根據(jù)算法流程得到MFCC 系數(shù)與差分系數(shù)組合矩陣的輸出。MFCC 向量的三維圖如圖1。
圖1 MFCC 三維特征圖Fig.1 MFCC 3 dimension feature map
補(bǔ)償距離估計(jì)技術(shù)(CDET)基于特征篩選策略,通過求取特征類別之間的類間距與特征的類內(nèi)距,根據(jù)其比值獲得特征評(píng)分,去掉評(píng)分低的冗余特征維度從而達(dá)到降維的目的。詳細(xì)步驟如下:
設(shè)有C個(gè)模式類集合為
式中,fc,n,k為第C個(gè)模式類下第n個(gè)樣本第k個(gè)特征;Nc為c類模式下的樣本總數(shù);K為每個(gè)樣本特征數(shù)目。
在每類模式下,有Nc個(gè)樣本,因此共有Nc個(gè)樣本,則有個(gè)特征,特征集定義為{fc,n,k}。
補(bǔ)償距離評(píng)估技術(shù)實(shí)現(xiàn)步驟具體如下:
1)計(jì)算相同條件樣本的平均距離
平均化dc,k得到平均類內(nèi)距
2)定義并計(jì)算的方差因子
3)計(jì)算不同條件樣本之間的平均距離
計(jì)算不同條件樣本之間的平均類間距離
4)定義并計(jì)算的方差因子
5)定義和計(jì)算補(bǔ)償因子為
6)計(jì)算和的比值并乘以補(bǔ)償因子
將gk歸一化,得到距離評(píng)價(jià)標(biāo)準(zhǔn)
7)設(shè)閾值為N,根據(jù)評(píng)分值確定閾值內(nèi)的特征數(shù),選擇在閾值范圍內(nèi)的L個(gè)特征,將k維降至L維。
實(shí)驗(yàn)所用的光纖信號(hào)數(shù)據(jù)來源于實(shí)驗(yàn)室光纖傳感信號(hào)采集系統(tǒng)采集的三種信號(hào)種類,分別是晃動(dòng)、輕敲、重敲,三種信號(hào)的時(shí)域圖如圖2。經(jīng)過預(yù)處理與端點(diǎn)檢測,將信號(hào)分割。實(shí)驗(yàn)使用三類信號(hào)共210 個(gè)樣本,每類使用50 個(gè)樣本,共150 個(gè)樣本作為訓(xùn)練集;每類使用20 個(gè)樣本,共60 個(gè)樣本作為測試集。其中,樣本的采樣頻率為10 kHz。
圖2 三種信號(hào)時(shí)域圖Fig.2 Time domain diagram of three kinds of signals
為了驗(yàn)證提出的MFCC 優(yōu)化方法的有效性,實(shí)驗(yàn)中將采用支持向量機(jī)(SVM)的方法驗(yàn)證MFCC 特征向量優(yōu)化前與優(yōu)化后的整個(gè)處理系統(tǒng)對(duì)三類信號(hào)分類識(shí)別的準(zhǔn)確率,如表1。經(jīng)過SVM 的分類準(zhǔn)確率結(jié)果為與人工標(biāo)注比較獲得。實(shí)驗(yàn)流程可描述為3 個(gè)步驟:
1)MFCC 特征向量提?。簩?duì)每個(gè)光纖振動(dòng)信號(hào)樣本加窗分幀并做FFT,然后將信號(hào)變換到Mel 頻率刻度下,最后通過倒譜分析得到MFCC 向量。
2)特征降維:特征降維技術(shù)主要分為兩類,一類是通過選擇原有特征向量,刪減冗余向量,例如本文所提出的補(bǔ)償距離估計(jì)算法;另一類是通過從現(xiàn)有特征重新提取特征來降低維度,例如作為對(duì)比實(shí)驗(yàn)方法的主成分分析。
3)SVM 識(shí)別分類:將MFCC 特征向量或者經(jīng)過降維方法處理的特征向量輸入訓(xùn)練好的SVM 分類器進(jìn)行識(shí)別,標(biāo)識(shí)結(jié)果與識(shí)別結(jié)果比對(duì),計(jì)算正確率并輸出。
采用本文提出的對(duì)MFCC 向量進(jìn)行CDET 特征評(píng)分算法,評(píng)分結(jié)果如圖3,從圖中可以發(fā)現(xiàn)1 維、41 維、78 維的評(píng)分結(jié)果最高,根據(jù)評(píng)分圖可以選擇高評(píng)分維度,通過刪減低評(píng)分維度即冗余向量進(jìn)行特征降維優(yōu)化。為了便于觀察并選擇合理降維維度,設(shè)置了閾值N,不同閾值下的維度分布如表2,隨著閾值的增大,高評(píng)分維度相應(yīng)減少。在SVM 分類實(shí)驗(yàn)中對(duì)于降維維度的選擇根據(jù)不同閾值下的特征維度進(jìn)行分類實(shí)驗(yàn)。
圖3 CDET 評(píng)分表Fig.3 CDET-score chart
表2 不同閾值下特征維度Table 2 Characteristic dimensions at different thresholds
采用SVM 分類器識(shí)別三類光纖振動(dòng)信號(hào)的結(jié)果如圖4。從圖4 可以看出,使用CDET 降維到18 維、24維、30 維時(shí),分類效果最好,保留了有用特征向量,對(duì)所有冗余向量進(jìn)行刪減,此時(shí)的特征評(píng)分范圍為0.45 到0.55 之間;而PCA 在15 維、18 維、24 維時(shí)降維效果最好,根據(jù)PCA 的原理符合低緯度時(shí)降維分類效果更好的情況。在10 維與15 維時(shí),使用PCA 降維處理的分類效果要優(yōu)于使用CDET 降維處理的分類效果,因?yàn)镻CA 是通過對(duì)原有特征向量集成產(chǎn)生的新的特征向量,而CDET 是在原有特征向量上選擇高評(píng)分特征向量,刪減冗余向量,當(dāng)刪減過多時(shí),會(huì)造成非冗余特征向量的損失。隨著特征維數(shù)的增加,使用PCA 降維處理的分類效果逐漸下降,甚至低于未經(jīng)過降維處理的分類效果,而使用CDET 降維處理的分類效果僅僅下降了1.5%,保持穩(wěn)定。
圖4 三類信號(hào)不同降維維度下的分類準(zhǔn)確率Fig.4 Classification accuracy under different dimensionality reduction dimensions of three kinds of signals
在傳統(tǒng)的MFCC 特征提取方法的基礎(chǔ)上使用CDET 降維處理,識(shí)別正確率與未做優(yōu)化前相比有所提升,平均識(shí)別正確率較傳統(tǒng)MFCC 方法提升了3%左右。
對(duì)應(yīng)圖4 不同維度下的分類結(jié)果,圖5 顯示了不同維度下的時(shí)間成本。計(jì)算降維優(yōu)化時(shí)間和分類時(shí)間。降維優(yōu)化的時(shí)間成本是直接根據(jù)訓(xùn)練樣本的CDET 得分圖提取特征向量所需的時(shí)間,不同維度下的降維優(yōu)化時(shí)間可以保持在0.5 s 左右。沒有降維優(yōu)化的MFCC 特征向量需要2.2 s 才能通過SVM 分類器進(jìn)行分類。經(jīng)過降維優(yōu)化后,SVM 分類器對(duì)MFCC 特征向量分類的時(shí)間隨著維數(shù)的增加而增加,總的時(shí)間消耗也隨著維數(shù)的增加而增加。在61 維中,時(shí)間成本等于沒有降維優(yōu)化的時(shí)間成本。結(jié)合不同維度的分類結(jié)果和時(shí)間成本,在低維度上可以提高分類結(jié)果,降低時(shí)間成本。
圖5 時(shí)間消耗曲線Fig.5 Time consumption curve
為了進(jìn)一步對(duì)兩種方法做出比較,通過驗(yàn)證不同信噪比下MFCC 特征向量的優(yōu)化效果比較兩種方法的抗噪性能。實(shí)驗(yàn)中將高斯白噪聲以0 dB、5 dB、10 dB、15 dB、20 dB 的信噪比疊加到三種光纖振動(dòng)信號(hào)中,對(duì)SVM 分類器識(shí)別正確率進(jìn)行對(duì)比,測量優(yōu)化方法的抗噪性能。圖6 為疊加不同信噪比噪聲的CDET 評(píng)分圖,隨著信噪比減小,噪聲比例增大,觀察評(píng)分圖可以發(fā)現(xiàn)高評(píng)分特征向量減少,特征向量的中間評(píng)分值增多,表明特征向量辨識(shí)度減小。
圖6 不同信噪比下CDET 評(píng)分圖Fig.6 CDET-score chart under different signal-to-noise ratio
疊加噪聲后測試的分類正確率結(jié)果如表3,參考分類實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果,選擇最優(yōu)分類結(jié)果時(shí)的維度進(jìn)行疊加噪聲的實(shí)驗(yàn),不同維度的分類準(zhǔn)確率與差值結(jié)果如圖7。從表3 的結(jié)果可以發(fā)現(xiàn),在同一信噪比的情況下,隨著維數(shù)的增多,基于CDET 優(yōu)化的MFCC 特征向量通過SVM 分類準(zhǔn)確率增加,說明在存在噪聲的情況下,由于特征辨識(shí)度下降,從而需要的特征向量維數(shù)增多。從圖7 的結(jié)果可以看出,隨著信噪比的降低,傳統(tǒng)MFCC 特征向量在SVM 分類器中的分類結(jié)果正確率也隨著下降,這是由于噪聲的增加掩蓋了原有的信號(hào)特征;基于PCA 和CDET 降維的MFCC 特征向量在使用SVM 分類時(shí),隨著信噪比減小,分類結(jié)果正確率雖然也隨著下降,但是下降幅度不是很大。從圖7 可以發(fā)現(xiàn)在相同信噪比下,使用降維處理的特征向量比傳統(tǒng)MFCC 特征向量在使用SVM 分類時(shí)對(duì)于分類結(jié)果有著提升效果,在18 維時(shí),PCA 的性能優(yōu)于CDET 的性能,根據(jù)差值圖可以發(fā)現(xiàn),隨著信噪比的減小,差值逐漸接近;在24 維與30 維時(shí)CDET 的性能要優(yōu)于PCA的性能,此時(shí)根據(jù)差值圖可以發(fā)現(xiàn),隨著信噪比的減小,差值逐漸增大,這表明CDET 在低信噪比時(shí)有更優(yōu)性能。補(bǔ)償距離估計(jì)技術(shù)是根據(jù)特征向量的類間距離與類內(nèi)距離的比值進(jìn)行評(píng)估,雖然疊加噪聲會(huì)對(duì)信號(hào)產(chǎn)生影響,但是通過刪減冗余向量而降低疊加噪聲產(chǎn)生的影響,基于CDET 的特征提取方法會(huì)對(duì)特征辨識(shí)度高的特征向量進(jìn)行提取,因此基于CDET 的特征提取方法具備一定的抗噪性能。
表3 不同信噪比下的分類精度Table 3 Classification accuracy under different signal-to-noise ratio
圖7 不同信噪比下的準(zhǔn)確率與差值圖Fig.7 Accuracy and accuracy difference under different signal-to-noise ratio
本文針對(duì)光纖傳感振動(dòng)信號(hào)易被噪聲淹沒,特征弱且難以表征等問題進(jìn)行研究,提出了一種基于補(bǔ)償距離估計(jì)技術(shù)的特征提取方法,以實(shí)現(xiàn)對(duì)光纖傳感振動(dòng)信號(hào)的有效識(shí)別。該方法在從光纖振動(dòng)信號(hào)中借鑒人類聽覺認(rèn)知機(jī)理,提取MFCC 特征向量的基礎(chǔ)上,并利用CDET 對(duì)特征進(jìn)行評(píng)估和優(yōu)化。在光纖傳感振動(dòng)信號(hào)識(shí)別中,該算法較傳統(tǒng)MFCC 特征提取方法而言,通過刪減冗余信息,突出有效性強(qiáng)、貢獻(xiàn)率大的特征向量,解決維數(shù)過多導(dǎo)致的復(fù)雜運(yùn)算問題并提高分類準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,該方法提高了光纖傳感振動(dòng)信號(hào)模式識(shí)別的有效性和實(shí)時(shí)性,對(duì)比PCA 降維處理方法而言,低維度時(shí)性能相同,隨著維數(shù)的增多,CDET 的性能更加穩(wěn)定。通過本文所提方法能夠有效提高光纖振動(dòng)信號(hào)的MFCC 特征向量在SVM 分類器中的識(shí)別正確率,提升分類系統(tǒng)性能,且算法具備一定的抗噪性能。