• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      水下聲目標的梅爾倒譜系數智能分類方法

      2019-05-22 09:39:16張少康田德艷
      應用聲學 2019年2期
      關鍵詞:梅爾特征提取分類

      張少康 田德艷

      (1 海軍潛艇學院 青島 266000)

      (2 青島海洋科學與技術試點國家實驗室 青島 266000)

      0 引言

      傳統(tǒng)水下聲目標識別分類方法需要人工提取具有可推廣性、泛化能力強的特征數據,其過程繁瑣復雜,專業(yè)性強,需要人的參與,識別分類過程具有較強的人機交互特性。近幾年,隨著浮標潛標、水下滑翔機、AUV、UUV 等水下無人潛航器的發(fā)展,基于水下無人移動平臺的聲學探測體系正在不斷建立完善。水下聲目標識別分類是水聲探測的“瓶頸”,同時也是關鍵技術之一。未來水下無人聲學探測預警體系要求潛航器本身具備水下聲目標識別分類能力,而傳統(tǒng)水下聲目標識別分類方法已無法滿足此要求,因此研究智能化水下聲目標識別分類方法具有重要意義。

      一直以來,特征向量提取方法都是水下聲目標識別分類的研究重點,基于聽覺特征的水下聲目標特征提取方法是研究熱點之一,其中,基于語音識別方法提取梅爾倒譜系數(Mel frequency cepstrum coefficient, MFCC)進行水下聲目標識別是常用的方法之一。如文獻[1]介紹了差分梅爾頻率倒譜系數的概念和相應的特征提取方法,對水下目標進行了基于MFCC 特征提取方法仿真研究和實驗分析;文獻[2]將MFCC 特征應用于船舶和鯨類水下聲信號的特征提取中,提取了船舶和鯨類聲信號的MFCC 特征,通過高斯混合模型對提取的MFCC特征進行訓練和識別分類,討論MFCC維數變化和不同MFCC 特征組合對識別分類性能的影響;另外文獻[3–5]也進行了MFCC 特征提取相關方面的研究工作,并取得了一定的研究成果。近幾年來,以深度學習為代表的人工智能算法發(fā)展迅速,深度學習是人工神經網絡的發(fā)展,于2006年被提出[6],目前已發(fā)展出自編碼器(Auto encode, AE)[7]、深度置信網絡(Deep belief networks,DBN)[8]、卷積神經網絡(Convolutional neural network,CNN)[9?10]、循環(huán)神經網絡(Recurrent neural networks, RNN)[11?13]、生成對抗網絡(Generative adversarial network, GAN)[14?15]及其相關變種等多種模型,在各個領域得到廣泛的應用,其中,長短時記憶(Long short-term memory, LSTM)網絡在語音識別領域應用效果顯著。

      深度學習具備從大量數據中自動學習特征的能力,但其在水下聲信號識別分類領域的應用目前還處于起步階段。區(qū)別于語音識別,水下聲信號識別分類具有樣本量少、數據獲取困難等特點,因此有必要首先對其進行特征提取。從當前研究情況來看,采用MFCC特征提取方法對水下聲目標信號進行特征提取和識別分類被證明為一種行之有效的手段,但上述方法均采用了傳統(tǒng)的BP 神經網絡或支持向量機(Support vector regression, SVM)模型作為分類器,相比之下,深度學習方法更具有挖掘深層次數據特征的能力,并更好地解決了模型訓練過程中的梯度彌散和數據規(guī)模問題。另外,當前研究均針對水面艦船等有人平臺的水聲目標識別分類問題,而非未來水下無人平臺。

      未來水下無人平臺進行水下目標識別分類的主要任務是能夠正確區(qū)分水面、水下兩類目標。因此,本文以此為研究目的,通過對水上、水下兩類水聲目標信號進行分析,提取MFCC 特征向量,作為樣本有監(jiān)督預訓練長短時記憶網絡模型,采用訓練好的分類模型,對實際水聲信號進行預測分類,驗證了模型的有效性。

      1 MFCC水下聲目標特征提取與智能識別分類

      1.1 MFCC水下聲目標特征提取

      MFCC 特征提取最早應用于語音識別,是一種有效的特征提取方法,其特征提取過程如圖1所示[1]。

      圖1 MFCC 特征提取過程Fig.1 Feature extraction process of MFCC

      (1)分幀

      分幀是語音信號分析中常用的處理過程,由于目標噪聲信號本質上是非平穩(wěn)過程,具有時變特性,因此通常對信號作分幀處理進行短時分析,提取幀特征參數,最后由若干幀特征參數共同組成訓練樣本特征向量。為保持每幀信號之間的連續(xù)性,幀與幀之間存在交疊,稱為“幀移”,本文每幀長度取25 ms,幀移取10 ms。

      (2)求能量譜

      通過快速傅里葉變換得到幀信號頻譜,進而得到信號能量譜,其公式可表述為

      其中,x(n)為輸入幀信號,X(f)為輸入幀信號頻譜。

      (3)濾波

      將求得的能量譜通過梅爾濾波器組,其公式可表述為

      其中,N為各幀信號總點數,Hm(f)梅爾濾波器組系數。

      (4)對數運算

      將濾波后的能量譜作對數運算,其公式可表述為

      (5)求倒譜

      將上述對數能量譜求離散余弦變換,即可得到MFCC參數,其公式表述如下:

      其中,n=1,2,··· ,p,p為MFCC階數,M為濾波器個數。

      通常MFCC參數只表述信號的靜態(tài)特征,而差分梅爾頻率倒譜系數則表征信號的動態(tài)特征。一階差分及二階差分梅爾倒譜系數計算過程分別如下所示:

      其中,C(n)為第n幀MFCC 系數,D(n)為第n幀一階差分梅爾頻率倒譜系數,D′(n)為第n幀二階差分梅爾頻率倒譜系數。上述三者共同構成幀特征向量,即

      1.2 長短時記憶(LSTM)模型

      圖2 LSTM 基本結構單元Fig.2 Basic structural unit of LSTM

      長短時記憶(LSTM)網絡[12]是循環(huán)神經網絡(RNN)的改進形式,其基本單元被稱為記憶塊,由一個中心節(jié)點和3個門控單元組成。中心節(jié)點通常被稱為記憶細胞,用以存儲當前網絡狀態(tài),3 個門控單元分別被稱作輸入門、輸出門和遺忘門,用以控制記憶塊內的信息流動。在前向傳播過程中,輸入門用以控制輸入到記憶細胞的信息流,輸出門用以控制記憶細胞到網絡其他結構單元的信息流;在反向傳播過程中,輸入門用以控制迭代誤差流出記憶細胞,輸出門用以控制迭代誤差流入記憶細胞。而遺忘門則用以控制記憶細胞內部的循環(huán)狀態(tài),決定信息的取舍或遺忘。通過這種門控機制,LSTM網絡得以控制單元內的信息流動,使其具備了保存長時間信息的能力,即“記憶”能力,并使其在訓練過程中能夠防止內部梯度受外部干擾,避免了梯度彌散和梯度爆炸問題,其基本結構單元如圖2所示[16]。

      設單個LSTM記憶塊的輸入向量為xt,輸出向量為yt,前向傳播公式可表述為[17]

      (1)長期記憶單元Ct更新過程

      其中,ft代表遺忘門,it代表輸入門。在每一個時刻,遺忘門會控制上一時刻記憶的遺忘程度,而輸入門則控制新記憶寫入長期記憶的程度。ft、it、都是與上一時刻的短期記憶ht?1和當前時刻輸入xt相關的函數,其中,σ是sigmoid 函數,取值范圍[0,1],tanh 函數取值范圍[?1,1]。另外,式(8)~(10)中Wf、Wi、Wc分別為遺忘門、輸入門及Ct更新過程的權重參數,bf、bi、bc分別為這三個過程對應的偏置參數。

      (2)短期記憶單元ht更新過程

      其中,ot表示輸出門,控制著短期記憶如何受長期記憶影響,式(12)~(13)中Wo、bo分別為輸出門的權重和偏置參數。

      1.3 MFCC特征智能識別分類

      由于門控機制的作用,使LSTM 細胞單元具備“記憶”能力,因此常被用來處理帶有時間序列性質的問題,如語音識別、自然語言處理等。水下聲目標信號同樣帶有時間序列特性,另外,經分幀處理獲取的MFCC 特征數據之間存在時空連續(xù)性。因此,本文將獲取的噪聲信號MFCC 特征數據作為LSTM輸入向量,通過有監(jiān)督預訓練LSTM 模型,得到網絡模型參數最優(yōu)解并保存,用以對未知類別噪聲信號進行識別分類,其流程圖如圖3所示。

      圖3 MFCC 智能識別分類流程圖Fig.3 Intelligent recognition process of MFCC

      對水下聲目標信號樣本作分幀處理,依據公式(1)~(7)MFCC 特征提取過程,獲取各幀包含36個特征參數的MFCC 特征向量Tn,這36 個特征參數由12 個MFCC 參數、12 個一階差分梅爾頻率倒譜系數和12 個二階差分梅爾頻率倒譜系數共同組成;按各幀時間先后順序,生成各樣本MFCC 特征數據D作為LSTM網絡輸入向量,

      其中,m為幀數。

      基于MFCC 特征的智能識別分類方法主要包括數據預處理、模型訓練、預測分類幾個功能模塊。

      通過前期數據預處理過程,獲取目標噪聲的MFCC 特征向量,采用基于時間的反向傳播(Back propagation trough time, BPTT)算法,對LSTM網絡展開訓練,通過逐步減小模型輸出與理論輸出誤差,得到網絡模型參數最優(yōu)解,最終訓練好的網絡模型可用于對未知目標噪聲的識別分類。該識別分類過程全程不需要人的參與,通過對水下無人平臺加裝具備MFCC 特征提取及LSTM 識別分類能力的信號處理設備,將聲學傳感器實時獲取的水下聲信號進行MFCC 特征提取,獲取初始特征向量,作為LSTM 預測分類模型的輸入,經模型的預測分類過程,可實時獲取所探測目標的類別屬性。

      2 模型驗證

      為驗證上述模型的有效性,本文使用實際水下聲目標信號進行了驗證。其中,訓練樣本時長為1 s,經分幀后獲取MFCC特征參數維數為3861,幀長設置為25 ms,幀移為10 ms。本文僅針對水面、水下兩類目標進行分類,屬于二分類問題,深度學習模型采用LSTM 網絡,其相關參數設置如表1所示。

      表1 網絡相關參數Table1 Related parameters of the network

      圖4 訓練數據分類效果圖Fig.4 Classification of Training data

      模型訓練數據庫包含各種已知類別的艦船輻射噪聲數據近1600條,按1 s 時長進行處理,MFCC特征數據作為LSTM 識別分類模型的樣本庫數據,樣本總數為65284,其中水面目標樣本數42375,水下目標樣本數22909。為驗證模型的有效性,避免因單次結果導致的錯誤結論,本文采用交叉驗證的方式獲取訓練樣本集,即從樣本庫中隨機選取一定比例樣本生成多組訓練集,通過綜合分析多組訓練集條件下的模型結果得到可靠結論,本文該比例為4/5。同時,為避免訓練樣本出現(xiàn)有偏性估計問題,在抽取訓練樣本時,兩類目標訓練樣本數同樣滿足此比例,即隨機抽取水面目標、水下目標各4/5的樣本組成訓練集,最終測試結果如表2所示。圖4為模型訓練完成后,各組訓練數據分類效果圖。

      表2 測試結果Table2 Test results

      由上述結果可以看出,該水下目標識別分類方法在本文所采用幾組測試集條件下,對水面目標的識別分類正確率在86%以上,對水下目標的識別分類正確率在87%以上,說明本文提出的基于MFCC的水下目標識別分類方法是可行的。另外,識別分類過程僅需要輸入水下聲目標聲壓數據,其間數據處理、分類識別都不經人工干預,因此該方法可應用于水下無人平臺對水下目標進行智能化識別分類。

      3 結論

      本文針對未來水下無人平臺智能化識別分類水下目標的需求,提出了一種基于梅爾倒譜系數特征和長短時記憶網絡的水下聲目標智能識別分類方法,該方法通過提取水下聲目標的MFCC特征系數作為深度學習模型輸入向量,有監(jiān)督訓練LSTM模型,以實現(xiàn)對未知目標噪聲進行識別分類。經驗證表明,該模型能夠有效地區(qū)分水面和水下兩類目標,且具備一定的智能識別分類能力。

      猜你喜歡
      梅爾特征提取分類
      基于梅爾頻譜分離和LSCNet的聲學場景分類方法
      分類算一算
      分類討論求坐標
      女詩人梅爾詩集《十二背后》三人談
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      數據分析中的分類討論
      教你一招:數的分類
      Bagging RCSP腦電特征提取算法
      基于MED和循環(huán)域解調的多故障特征提取
      盲人探險家觸摸世界之巔
      黨員文摘(2014年10期)2014-10-14 23:50:35
      新巴尔虎右旗| 阳西县| 上饶县| 兰考县| 同仁县| 新巴尔虎左旗| 汶川县| 北流市| 民勤县| 泽普县| 枣强县| 全椒县| 阿坝县| 太原市| 逊克县| 桂林市| 北票市| 宜春市| 应城市| 什邡市| 平谷区| 亳州市| 尉氏县| 曲麻莱县| 余江县| 肥东县| 富源县| 景谷| 麻江县| 南宁市| 达孜县| 永平县| 噶尔县| 法库县| 平泉县| 新野县| 泰宁县| 三江| 临城县| 鹤峰县| 榆林市|