戴本堯
摘要:直接從音頻的原始波形學習聲學模型具有挑戰(zhàn)性。當前基于音頻的原始波形的模型一般使用很少的卷積層,可能不足以構(gòu)建抽象的可區(qū)分性特征。在這項工作中,我們提出了一個非常深的卷積神經(jīng)網(wǎng)絡(VGCNN),這個網(wǎng)絡模型直接使用時域波形作為輸入。我們的VGCNN有多達34個卷積層,有效從音頻原始序列中(例如,大小為32000的音頻原始序列)提取了抽象的可區(qū)分性特征。我們的網(wǎng)絡是全卷積網(wǎng)絡,不使用全連接層和下采樣層,以最大化的保留原始特征并且降低參數(shù)量。我們用一個在第一卷積層中的大的感受野來提取長時時序,隨后的各層卷積中的卷積核是非常小的感受野以便控制模型大小。實驗證明我們提出的具有18個卷積層的CNN,在環(huán)境聲音識別任務絕對精度超過目前主流模型15%。
關(guān)鍵詞:原始音頻波形;人工智能;深度學習
中圖分類號:TP37 文獻標識碼:A
文章編號:1009-3044(2019)09-0130-03
1 簡介
聲學建模傳統(tǒng)上分為兩部分:1)設計音頻數(shù)據(jù)的特征表示;2)建立一個合適的預測模型。然而,往往需要大量的時間和經(jīng)驗來找到能夠正確代表音頻數(shù)據(jù)的合適特征。隨著深度學習的發(fā)展,深度神經(jīng)網(wǎng)絡已經(jīng)實現(xiàn)了在圖像識別,圖像分割領(lǐng)域中從原始圖像中提取特征,從而不需要人工手動設計特征。比如文獻[1]設計了一個人工神經(jīng)網(wǎng)絡應用于圖像識別任務,該卷積神經(jīng)網(wǎng)絡直接從原始的圖像中提取抽象的高級特征表示,通過實驗結(jié)果驗證卷積神經(jīng)網(wǎng)絡應用在手寫數(shù)字識別和人臉識別問題上的可行性,并與現(xiàn)有的其他分類識別方法進行比較,發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡準確率較高。目前在圖像識別中性能最好的為CNN模型,因為這些模型的基本構(gòu)建塊是卷積層提取的特征可以在空間上或像素或時域保持特征不變。在計算機視覺領(lǐng)域,CNN已經(jīng)取得了很好的成績,甚至超過了人類的表現(xiàn),如物體識別和面部識別。最近的研究已將CNN應用于音頻任務等作為環(huán)境聲音識別和語音識別,并發(fā)現(xiàn)CNN僅在原始波形下表現(xiàn)良好。比如,CNN可以自動提取出像log-mel[2]這樣的音頻特征。這些研究中,大多數(shù)網(wǎng)絡較淺,例如只有兩個卷積層。在我們的工作中,我們提出研究非常深的卷積網(wǎng)絡最多34個卷積層,直接使用時間序列波形作為輸入。我們的深度網(wǎng)絡高效優(yōu)化了時間序列(例如,長度為32000的向量),這是處理原始音頻波形所必需的。我們在卷積層中使用非常小的感受野以便控制模型的參數(shù)。但是,在第一層使用一個大的感受野開提取長時時序特征。我們的模型是全卷積網(wǎng)絡,沒有全連接層和池化層,以最大化的保留原始特征并且降低參數(shù)量,并且其可以應用于變化長度的音頻。通過應用歸一化,殘差學習的策略,我們克服了訓練非常深的模型中梯度消失的問題,同時保持很低的模型復雜度。在環(huán)境聲音識別任務[3],我們的實驗表明深層網(wǎng)絡提高了網(wǎng)絡的性能,我們提出的具有18個卷積層的CNN,絕對精度超過目前主流模型15%。
2 超深層環(huán)境聲音識別卷積網(wǎng)絡的結(jié)構(gòu)
圖1列出了我們提出的VGCNN [4]。我們的VGCNN結(jié)構(gòu)以原始波形作為輸入時間序列波形,表示為一個長的1D向量,而不是手動設計的頻譜圖。CNN結(jié)構(gòu)的關(guān)鍵設計是深層架構(gòu)。為了構(gòu)建非常深的網(wǎng)絡,除了第一個1D卷積層外,我們使用非常小的3*3卷積核。這減少了每個卷積核參數(shù)的數(shù)量,并控制模型大小和計算成本。此外,我們使用整流線性單元激活函數(shù)(ReLU)用于降低計算成本。大多數(shù)深卷積網(wǎng)絡分類使用2個或更多全連接層用于提取可區(qū)分性的高維特征,導致非常多的參數(shù)。我們假設大部分特征提取都發(fā)生在卷積層面,并可以提取足夠區(qū)分性的特征,從而不需要全連接層。因此,我們的網(wǎng)絡采用全卷積設計。我們使用單個全局平均池化層而不是全連接層,其可減少每個高層特征圖譜圖的維度。通過刪除全連接層,網(wǎng)絡模型被強制執(zhí)行學習卷積層中的良好的高級特征表示。批量標準化是我們采用稱為批處理的輔助層歸一化(BN)[5],減輕了消失梯度,深度學習中的常見問題是優(yōu)化網(wǎng)絡的深層架構(gòu)。批量標準化使得可能的訓練非常深的網(wǎng)絡(M18,M34-res)我們每層卷積層的輸出上加入ReLU非線性激活函數(shù)和歸一化層。另外我們采取殘差網(wǎng)絡的方式設計卷積網(wǎng)絡。殘差網(wǎng)絡[6]是最近的一個提出了深度學習框架,以便進行非常深層的網(wǎng)絡訓練。通常對于一個卷積層, x的映射為H(x)(x是輸入)。在殘差網(wǎng)絡框架中,我們將映射改為F(x)= H(x)+x,這稱為殘差映射。通過跳過某些卷積層實現(xiàn)網(wǎng)絡深度的減少。
圖1 我們提出的CNN模型的架構(gòu)
2.1 實驗細節(jié)
我們使用包含10個環(huán)境的UrbanSound8k數(shù)據(jù)集,該數(shù)據(jù)集包含城市地區(qū)的聲音,如鉆孔,汽車喇叭,和孩子們玩耍。 數(shù)據(jù)集由8732個音頻剪輯組成,每個剪輯4秒或更短,總計9.7小時。 我們使用官方的第10個數(shù)據(jù)文件夾作為我們的測試集,其余9個數(shù)據(jù)文件夾用于訓練。對于輸入音頻波形,每個音頻波形文件是下采樣到8kHz并歸一化為0均值和1方差。為了鄭嘉訓練樣本,我們將訓練數(shù)據(jù)進行了數(shù)據(jù)增強。
我們使用Adam[7]優(yōu)化器訓練VGCNN模型,Adam是隨機梯度下降的一種變體,可以自適應地調(diào)整步長。運行模型100-400個和訓練周期直到收斂。該模型中的權(quán)重從頭開始初始化,沒有采用任何預訓練模型[8]。我們使用高斯分布初始化來避免梯度爆炸或梯度消失。所有權(quán)重參數(shù)都是采用系數(shù)0.0001的L2正則化。 我們的模型在Tensorflow[9]中訓練,硬件設備為配備了Titan X GPU的機器。
其他模型:為了幫助分析,我們訓練了一些變體模型,如表1中的模型。這些模型比原始模型參數(shù)更多。
2.2 實驗結(jié)果和分析
表2顯示了模型的測試精度和訓練時間。與其他型號相比,我們首先注意到M3表現(xiàn)非常糟糕,表明2層CNN不足以從聲音識別的原始波形中提取具有區(qū)分力的特征。M3-big為M3的變體,多50%的卷積核和2.5倍的卷積核參數(shù),沒有顯著提高性能(表3b),表明淺層模型提取特征的能力有限,即使使用更大的模型,也能不能較好的捕獲時間序列輸入。
更深的網(wǎng)絡(M5,M11,M18,M34-res)基本上提高性能,即測試精度提高了。表明增加M5,M11和M18的網(wǎng)絡深度增強了模型提取特征的能力。我們最好的模型M18達到71.68%的準確率,M11為69.07%(1.8M參數(shù))。通過使用非常深的卷積架構(gòu),M18的表現(xiàn)優(yōu)于M3,高達15.56%絕對準確率,表明更深層的卷積模型使用波形顯著改善聲學建模。此外,通過在初始階段使用積極的下采樣層,非常深的網(wǎng)絡可以高效的地訓練,即當我們使用步幅1而不是4時。M11的第一個卷積層,我們觀察到在10小時訓練后測試精度較低(67.37%),而測試精度為68.42%,M18在2小時內(nèi)到達。有趣的是,如果性能隨著深度的提高而提高,M18測試精度為71.68%,而M34-res僅達到63.47%測試精度,這是由于過度擬合的原因。我們觀察到了通過殘差學習我們沒有解決過擬合的問題,像M34-res和M34-res這樣的網(wǎng)絡訓練準確率高達99.21%,而M18訓練精度為96.72%。我們還觀察到M11網(wǎng)絡的剩余變體(此處未顯示)達到更高的訓練精度,但測試精度更低(比M11要低0.17%)。我們認為我們的數(shù)據(jù)集太小了,所以非常深的網(wǎng)絡引起了過擬合問題[11]。訓練M34-res沒有進一步的提升。盡管如此,M34-res仍然優(yōu)于M3和M5。
我們將全卷積網(wǎng)絡與卷積網(wǎng)絡進行比較,發(fā)現(xiàn)使用全連接層(FC)的常規(guī)網(wǎng)絡用于分類。表4顯示全連接層[10]增加參數(shù)數(shù)量導致增加訓練時間。但是,全連接層不會提高測試精度。在M3-fc和M11-fc的情況下,額外的全連接層會導致較低的測試精度(即較差的泛化)。我們認為我們的網(wǎng)絡設計缺乏全連接層,將高層特征學習推向卷積層,導致迫使卷積層學習對特征有利的信息。
3 結(jié)論
在這項工作中,我們提出了非常深的卷積神經(jīng)網(wǎng)絡可以直接對聲波輸入進行操作。我們的網(wǎng)絡,最多34個卷積層,得益于批量歸一化,殘差的組合,我們的模型取得了較好的性能。我們的結(jié)果顯示,一個深度網(wǎng)絡有18個卷積層優(yōu)于具有2個卷積層的網(wǎng)絡,絕對準確率達到71.8%。
參考文獻:
[1] 許可. 卷積神經(jīng)網(wǎng)絡在圖像識別上的應用的研究[D]. 浙江大學, 2012.
[2] Lee Y K, O. W. Kwon. A phase-dependent a priori SNR estimator in the logmel spectral domain for speech enhancement.IEEE International Conference on Consumer Electronics IEEE,2011:413-414.
[3] 李勇. 新型MFCC和波動模型相結(jié)合的二層環(huán)境聲音識別[J].計算機工程與應用 47.30(2011):132-135.
[4] 周飛燕, 金林鵬, 董軍. 卷積神經(jīng)網(wǎng)絡研究綜述[J].計算機學報,2017,40(6):1229-1251.
[5] 邱爽等.自歸一化卷積神經(jīng)網(wǎng)絡的人臉識別方法[J].云南大學學報(自然科學版) ,2018(4).
[6] 曹川, 張紅英.基于改進殘差網(wǎng)絡的人臉識別算法[J]." 傳感器與微系統(tǒng),2018(8).
[7] Kingma, Diederik P, J. Ba.Adam: A Method for Stochastic Optimization. Computer Science,2014.
[8] 曹大有, 胥帥.基于TensorFlow預訓練模型快速、精準的圖像分類器[J]." 漢江師范學院學報,2017,37(3).
[9] Abadi, Martin.Tensor Flow: learning functions at scale." Acm Sigplan Notices,2016,51(9):1.
[10] Senior, Andrew, I. Lopez-Moreno. "Improving DNN speaker independence with I-vector inputs.IEEE International Conference on Acoustics, Speech and Signal Processing IEEE,2014:225-229.
[11] 李祚泳, 彭荔紅.BP網(wǎng)絡過擬合現(xiàn)象滿足的不確定關(guān)系新的改進式[J].紅外與毫米波學報,2002,21(4):293-296.
【通聯(lián)編輯:唐一東】