楊禮強,王攀,王杰
(1.重慶大學(xué)機械與運載工程學(xué)院,重慶 400044;2.作業(yè)幫教育科技(北京)有限公司,北京 100085)
聲品質(zhì)是一款汽車脫穎而出、吸引消費者的重要因素之一,其科學(xué)高效的評價是汽車噪聲、振動與 聲 振 粗 糙 度(Noise、Vibration、Harshness,NVH)性能開發(fā)設(shè)計的關(guān)鍵。通過建立聲品質(zhì)客觀評價模型來替代專家評審團做出符合人類主觀感受的評價和分類,可以克服聽音試驗評價的缺點,有效節(jié)省成本和時間。
國內(nèi)外研究者根據(jù)不同類型的汽車噪聲,如車內(nèi)噪聲、汽車關(guān)門聲、發(fā)動機噪聲、汽車加速噪聲等,從多元線性回歸、支持向量機、BP神經(jīng)網(wǎng)絡(luò)和小波神經(jīng)網(wǎng)絡(luò)等方法中選用一種來構(gòu)建聲品質(zhì)評價模型,這些方法都用到了物理聲學(xué)指標和客觀心理聲學(xué)參數(shù),高度依賴于大量的、復(fù)雜的聲學(xué)理論和經(jīng)驗知識。前3種方法通常在響度、尖銳度、粗糙度、波動度、A計權(quán)聲壓級、AI指數(shù)、主沖擊時間、低頻延續(xù)時間、抖動度、峰值頻率、語音清晰度和言語干擾級等聲學(xué)參數(shù)中,選用多個參數(shù)對噪聲樣本做預(yù)處理。基于小波神經(jīng)網(wǎng)絡(luò)法,有的研究者引用維格納-威爾分布的時頻分析方法,建立聲品質(zhì)參量SQP-RW,以此參量輸入小波神經(jīng)網(wǎng)絡(luò)來預(yù)測汽車聲品質(zhì);有的研究者為加快聲品質(zhì)評價模型的計算速度,使用噪聲信號的能量、均值和標準差對響度、尖銳度、粗糙度、聲調(diào)做出預(yù)測,采用這4個參數(shù)對噪聲樣本做預(yù)處理。
采用深度學(xué)習(xí)法建立車內(nèi)聲品質(zhì)評價模型不僅不需要高度依賴于復(fù)雜的聲學(xué)理論和經(jīng)驗知識,還可以提取某些可能的未知深層次特征,使最終的聲品質(zhì)評價模型具有理想的預(yù)測準確度。首先使用對數(shù)梅爾頻譜和時頻遮掩相結(jié)合的方法對噪聲樣本做預(yù)處理;然后建立CNN和LSTM相融合的特征提取模塊,以及使用全連接和Softmax輸出單元組合搭建分類器模塊;最后借助混合輸入得到大量樣本對所建立的評價模型進行訓(xùn)練,使其具備理想的精度。
汽車行駛過程中會產(chǎn)生發(fā)動機噪聲、輪胎噪聲和風(fēng)振噪聲等,各種噪聲經(jīng)過不同的途徑傳遞到車內(nèi),在較為封閉的空間內(nèi)互相疊加和反射形成了車內(nèi)噪聲。車輛型號、車速以及乘坐位置等因素都會影響駕乘者坐在車內(nèi)的聲音舒適性,這些因素在設(shè)計車內(nèi)噪聲采集試驗時起到了指導(dǎo)性作用。
為保證車內(nèi)噪聲能夠被真實有效地記錄到聲音樣本中,在進行噪聲采集試驗前對整車的各個系統(tǒng)進行了嚴格的檢查,確保了各系統(tǒng)都處于正常工作狀態(tài)且無異響。車內(nèi)噪聲采集試驗場地是平滑干燥、無雜物、往來車輛少的硬地路面,周圍沒有高層建筑物,試驗當天氣溫為16~22℃,沿測試路線于1.2 m高度測得風(fēng)速為1.7~2.0 m/s,滿足GB/T 18697—2002《聲學(xué)-汽車車內(nèi)噪聲測量方法》規(guī)定的測試環(huán)境。依據(jù)國標對傳聲器的安裝要求,將傳聲器安裝在座椅頭枕靠近駕駛員和后排乘員左右耳的位置,且傳聲器以最大靈敏度的方向水平指向行駛方向,調(diào)節(jié)駕駛員座椅的靠背,使其處于垂直位置。傳聲器在車內(nèi)的安裝位置如圖1所示。
圖1 傳聲器的車內(nèi)安裝位置
當車輛按照預(yù)設(shè)的速度勻速穩(wěn)定行駛時開始采集車內(nèi)噪聲信號,且此時變速器擋位均處于最高擋位。最終獲得5輛不同品牌乘用車在60、80、100、120 km/h車速下的車內(nèi)不同位置噪聲樣本。
主觀評價試驗組織了25位來自振動噪聲領(lǐng)域的研究者進行聽音試驗,其年齡分布在22~45周歲之間,平均年齡為28歲。使用類別判斷法作為主觀評價方法,并對評審團進行聲品質(zhì)的知識培訓(xùn)以及正式試驗前的聽音訓(xùn)練。使用煩躁度作為評價試驗的聲品質(zhì)指標,參考韓國現(xiàn)代公司提出的等級劃分法,將評價指標由低到高分為很差(0~0.2)、差(0.2~0.4)、合格(0.4~0.6)、良好(0.6~0.8)和很好(0.8~1)5個等級供評審員選擇。評價試驗在具有良好隔聲效果的實驗室內(nèi)進行,回放設(shè)備采用高保真解碼器與某品牌高保真耳機組合,回放軟件使用Simcenter Testlab軟件下的Jury Testing模塊。評分結(jié)束后使用皮爾遜相關(guān)分析法對評價分值進行檢驗,剔除相關(guān)系數(shù)低于0.6的3位評價者的主觀評分,最終獲得37個合格的噪聲樣本主觀評價。
5類噪聲樣本的柱狀圖,如圖2所示。由圖可知,各類噪聲樣本的數(shù)量不一致,其中“很好”的噪聲樣本數(shù)量最少,為了平衡各類噪聲樣本的數(shù)量以及增加訓(xùn)練樣本數(shù)量,對噪聲樣本的長度進行切割,每個訓(xùn)練樣本長度為4 s。
圖2 各類噪聲樣本的數(shù)量
基于CNN和LSTM融合特征提取的車內(nèi)聲品質(zhì)評價模型的網(wǎng)絡(luò)結(jié)構(gòu),如圖3所示,由預(yù)處理層、CNN層、LSTM層和分類器組成,噪聲樣本首先經(jīng)過對數(shù)梅爾頻譜和時頻遮掩的預(yù)處理,其次進入標準卷積網(wǎng)絡(luò)和空洞卷積網(wǎng)絡(luò),接著把得到的三維數(shù)組扁平展開成一維數(shù)組進入LSTM網(wǎng)絡(luò),之后進入分類器獲得預(yù)測概率值序列,最終輸出最大概率值所對應(yīng)的噪聲樣本評價等級。
圖3 車內(nèi)聲品質(zhì)評價模型的網(wǎng)絡(luò)結(jié)構(gòu)
對噪聲樣本做預(yù)處理是為了把噪聲樣本的一維波形數(shù)據(jù)轉(zhuǎn)換為高維數(shù)據(jù),以及增強數(shù)據(jù)的特征,以助于CNN和LSTM提取其中深層次特征。本文采用對數(shù)梅爾頻譜和時頻遮掩相結(jié)合的方法對噪聲樣本做預(yù)處理,如圖4所示。
圖4 車內(nèi)聲品質(zhì)評價模型的預(yù)處理過程
2.1.1 對數(shù)梅爾頻譜
梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)能夠獲取音頻數(shù)據(jù)中符合人耳對聲音感受的頻率信息,有助于在深度學(xué)習(xí)中進行卷積操作和特征提取。MFCC的提取主要包括梅爾濾波和倒譜分析,后者由于刪除了信息和破壞空間信息,不適用于深度學(xué)習(xí)。省略倒譜分析之后便得到對數(shù)梅爾頻譜,其提取流程為:輸入噪聲樣本,先進行預(yù)加重、分幀和加窗,然后做短時傅里葉變換得到功率譜,之后使用梅爾濾波器濾波,再取對數(shù)便得到對數(shù)梅爾頻譜,圖4 b即為對數(shù)梅爾頻譜。梅爾頻率與物理頻率的轉(zhuǎn)換公式如式(1)所示。
式中:為梅爾頻率,Hz;為物理頻率,Hz。
2.1.2 時頻遮掩
時頻遮掩是一種數(shù)據(jù)增強的方法,通過故意使用受損數(shù)據(jù)來防止模型過擬合,有助于訓(xùn)練出更簡單的網(wǎng)絡(luò),加快網(wǎng)絡(luò)的收斂速度。它包括頻率遮掩和時間遮掩兩個部分,具體操作是把對數(shù)梅爾頻譜指定的時間區(qū)間、頻率區(qū)間內(nèi)的數(shù)值變?yōu)榱阒担鐖D4 c所示。
CNN是深度學(xué)習(xí)的一類網(wǎng)絡(luò)結(jié)構(gòu),多用于圖像、語音和視頻等的分類和識別,它通常由標準卷積或空洞卷積、激活和池化構(gòu)成,有時為了防止模型出現(xiàn)過擬合和加快訓(xùn)練速度,在卷積和激活之間會使用批量歸一化,如圖5所示。
圖5 CNN層的網(wǎng)絡(luò)結(jié)構(gòu)
2.2.1 標準卷積與空洞卷積
卷積的過程是以時頻遮掩后的對數(shù)梅爾頻譜為輸入,將卷積核在頻譜上掃描,累加對應(yīng)項相乘得到輸出,如式(2)所示。
式中:()為輸入;()為卷積核;()為輸出;為步長。
空洞卷積在標準卷積中添加零值來擴大卷積核尺寸,使其獲得更大的感受野,從而更好地提取特征??斩淳矸e的尺寸由膨脹系數(shù)(Dilation Factor,DF)來調(diào)整,膨脹系數(shù)為在卷積核相鄰參數(shù)中填充(DF-1)個0??蓪藴示矸e看作是膨脹系數(shù)為1的特殊空洞卷積??斩淳矸e的輸出定義為:
式中:、分別為輸入特征圖的長和寬;(,)為該特征圖上(,)位置的特征值;DF為膨脹系數(shù);(,)為該特征圖經(jīng)過空洞卷積后的輸出。本文的CNN采用一個標準卷積和一個膨脹系數(shù)為2的空洞卷積的組合。
2.2.2 批量歸一化、激活函數(shù)和平均池化
批量歸一化是數(shù)據(jù)預(yù)處理中的常用操作,可以統(tǒng)一各特征值的量綱,加快梯度的下降速度,從而縮短尋找最優(yōu)值的時間。
激活函數(shù)的作用是給網(wǎng)絡(luò)引入非線性特性,增強模型的泛化能力。常用的激活函數(shù)有Sigmoid函數(shù)、Tanh函數(shù)和ReLU函數(shù),本文模型中CNN和全連接的激活函數(shù)均使用ReLU函數(shù),長短時記憶網(wǎng)絡(luò)的細胞狀態(tài)激活函數(shù)使用Tanh函數(shù),門激活函數(shù)使用Sigmoid函數(shù)。
池化是對上一個特征圖進行一次數(shù)據(jù)過濾以減少網(wǎng)絡(luò)參數(shù),包括平均池化、最大池化和全局池化,由于平均池化可以保留較多的信息,使提取的特征更完整,所以標準卷積和空洞卷積都采用平均池化,其運算過程為:首先,設(shè)置特征圖上的窗口尺寸和步長,然后在特征圖周圍添加零值,這一步在深度學(xué)習(xí)中稱為“padding”,接著計算特征圖窗口內(nèi)所有數(shù)值的平均值,這個平均值作為下一個特征圖的數(shù)值,窗口從左到右、從上至下按預(yù)設(shè)的步長滑動,直至歷遍整個特征圖。
長短時記憶網(wǎng)絡(luò)屬于深度學(xué)習(xí)中循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種網(wǎng)絡(luò)結(jié)構(gòu),多用于機器翻譯、天氣預(yù)測和音頻識別等具有時序特征的識別和分類任務(wù)。LSTM使用3種門決定細胞狀態(tài)中信息通過的比例,分別為遺忘門、輸入門和輸出門,如圖6所示。
圖6 LSTM層的網(wǎng)絡(luò)結(jié)構(gòu)
遺忘門決定細胞狀態(tài)遺忘信息,其計算公式為:
式中:x為輸入門;h為上一時刻狀態(tài);f為遺忘門;、分別為遺忘門的權(quán)重和偏置項。
輸入門決定增加信息到細胞狀態(tài),其公式為:
更新細胞狀態(tài):
輸出門決定輸出什么信息,其計算公式為:
式中:h為最終的輸出狀態(tài)信息;、分別為輸出門的權(quán)重和偏置項。
如圖7所示,模型的分類器由兩個全連接和1個Softmax輸出單元構(gòu)成,第1個和第2個全連接的神經(jīng)元數(shù)量分別為30個和5個,分類器最后輸出噪聲樣本被預(yù)測為5個評價等級的各個概率值,模型最終輸出的是最大概率值所對應(yīng)的評價等級。
圖7 分類器的網(wǎng)絡(luò)結(jié)構(gòu)
2.4.1 全連接和隨機失活
深度學(xué)習(xí)模型的分類器通常使用兩個全連接,第1個全連接用于進一步提取輸入數(shù)據(jù)的特征,第2個全連接則用于縮小最終的輸出大小,其神經(jīng)元數(shù)量與模型的分類數(shù)量相等。每個全連接后面也需要使用激活函數(shù)來引入非線性特性。
隨機失活就是按設(shè)定的概率隨機去掉網(wǎng)絡(luò)當中的一些神經(jīng)元,可降低模型對網(wǎng)絡(luò)中某些神經(jīng)元的依賴性,增強模型的泛化能力,同時可減少訓(xùn)練過程中的運算量,有效防止過擬合和加快訓(xùn)練速度。本文在兩個全連接之間使用1個失活概率設(shè)置為0.5的隨機失活。
2.4.2 損失函數(shù)
損失函數(shù)用于評估預(yù)測值與真實值之間的差距,網(wǎng)絡(luò)反向傳播計算的目標就是使損失函數(shù)達到全局最小值,使預(yù)測值最接近真實值。本文的聲品質(zhì)評價任務(wù)屬于多分類任務(wù),選用分類交叉熵作為損失函數(shù),如式(10)所示。
式中:為種類數(shù)量;為樣本評價等級向量,如果類別是,則y=1,否則等于0;p為神經(jīng)網(wǎng)絡(luò)的輸出,指預(yù)測類別為的概率,由選定的輸出單元計算得出。
2.4.3 Softmax輸出單元
Softmax函數(shù)是一種常用于多分類任務(wù)的輸出單元,能表示個不同類別的概率分布,其計算公式為:
式中:y為車內(nèi)噪聲樣本被分類為第類的概率;x和x為Softmax單元的輸入,即第2個全連接的個輸出。由于上文將車內(nèi)噪聲分為5個評價等級,所以值為5。
本文的車內(nèi)聲品質(zhì)評價模型是在Matlab Deep Network Designer環(huán)境下建立的,首先使用訓(xùn)練集尋找模型的最佳網(wǎng)絡(luò)參數(shù),然后應(yīng)用驗證集檢驗每次迭代訓(xùn)練后模型的預(yù)測準確度,訓(xùn)練全部結(jié)束后使用測試集評估模型的性能。深度學(xué)習(xí)模型的訓(xùn)練不僅需要大量的樣本,而且超參數(shù)的選擇對最終訓(xùn)練出來的模型性能產(chǎn)生重要的作用?;煜仃囀巧疃葘W(xué)習(xí)中常用于測試模型性能的方法,可以直觀地看出各類別和全部類別的預(yù)測結(jié)果。
3.1.1 混合輸入和超參數(shù)
混合輸入通過對同一數(shù)據(jù)集的兩個樣本和目標值進行插值獲得更多的樣本,從而克服因樣本數(shù)量少而導(dǎo)致訓(xùn)練過程中出現(xiàn)過擬合的缺點,理論上通過這種方法可獲得無窮多個樣本。本文使用混合輸入獲取訓(xùn)練集和驗證集,圖4 a為通過混合輸入獲得的噪聲樣本波形圖。
優(yōu)化器、學(xué)習(xí)率、L2正則化系數(shù)、最小批次數(shù)量、訓(xùn)練集和驗證集的樣本數(shù)量等超參數(shù)對模型最終的預(yù)測準確度具有非常重要的影響??晒┻x擇的優(yōu)化器有SGDM、RMSProp和Adam,由于Adam訓(xùn)練速度較快、收斂性更好,所以選擇Adam作為優(yōu)化器,與之相對應(yīng)的學(xué)習(xí)率通常使用0.001。L2正則化是一種有效防止過擬合的方法,它在權(quán)重的損失函數(shù)后面添加1個懲罰項,懲罰項前面的系數(shù)就是L2正則化系數(shù),也稱為權(quán)重衰減系數(shù)。最小批次是訓(xùn)練集的子集,用于每次迭代中評估損失函數(shù)的梯度并更新權(quán)重。訓(xùn)練集用于更新模型的網(wǎng)絡(luò)參數(shù),訓(xùn)練集的樣本數(shù)量太少,容易導(dǎo)致訓(xùn)練出來的模型過于簡單而出現(xiàn)欠擬合現(xiàn)象,訓(xùn)練集的樣本數(shù)量太多,又會使模型過于復(fù)雜而出現(xiàn)過擬合現(xiàn)象,所以需要選擇合適的訓(xùn)練集樣本數(shù)量。驗證集用于評估不同網(wǎng)絡(luò)參數(shù)下模型的性能,根據(jù)模型在驗證集上的效果選擇是否停止訓(xùn)練,它的數(shù)量需要與訓(xùn)練集保持一定的比例,一般選擇3∶7或2∶8的比例,本文選擇后者的比例。表1列舉了超參數(shù)的選取情況。
表1 超參數(shù)的選擇
3.1.2 模型的訓(xùn)練結(jié)果
如圖8所示,在共12輪的訓(xùn)練過程中,訓(xùn)練損失曲線除了在第11輪時有所回升,總體上穩(wěn)定下降,最終模型的訓(xùn)練損失下降至0.728;訓(xùn)練準確度曲線在1~3輪快速上升,3~6輪經(jīng)過大幅下降后大幅回升,6~12輪以較小的波動幅度緩慢上升,訓(xùn)練準確度曲線總體上呈現(xiàn)波動上升的趨勢,最終模型的訓(xùn)練準確度達到了96.88%。訓(xùn)練損失和訓(xùn)練準確度的最后結(jié)果說明評價模型使用訓(xùn)練集學(xué)習(xí)到了理想的網(wǎng)絡(luò)參數(shù),使模型預(yù)測的2 160個訓(xùn)練樣本評價等級與真實評價等級總體上大致接近,同時也反映了CNN和LSTM共同提取到了噪聲的深層次特征,使分類器能對大部分噪聲樣本做出正確的分類。
圖8 訓(xùn)練準確度與訓(xùn)練損失曲線
對模型的驗證分為兩個部分,第1個部分使用555個噪聲樣本作為驗證集對模型進行驗證,考察其總體準確度;第2個部分基于混淆矩陣的方法,使用30個樣本作為測試集查看模型對每一類樣本的分類精度。
第1部分驗證的結(jié)果如圖9所示,在0~12輪過程中驗證損失穩(wěn)定下降,最終降至0.681;驗證準確度在第3輪之前快速上升,之后緩慢爬升,在第8輪后波動變化,驗證準確度基本保持不變,70明模型的性能基本穩(wěn)定下來了,最終的驗證準確度為93.69%。
圖9 驗證準確度與驗證損失曲線
第2部分驗證的結(jié)果如圖10所示,從長度為4 s的真實噪聲樣本集中,每一類隨機挑選6個,總共30個噪聲樣本作為測試集輸入已訓(xùn)練好的評價模型,獲得預(yù)測評價等級與真實評價等級組成的混淆矩陣?;煜仃嚨男写眍A(yù)測評價等級,列代表真實評價等級,對角線上的數(shù)字和百分比為各類噪聲樣本預(yù)測正確的樣本數(shù)量和預(yù)測準確度,非對角線上的數(shù)字和百分比則是分類錯誤的樣本數(shù)量和預(yù)測偏差度。從混淆矩陣可以看出,有1個真實評價等級為“差”的噪聲樣本被分類為“很差”,有3個真實評價等級為“良好”的噪聲樣本被分類為“很好”,這4個噪聲樣本均被分類于相鄰的評價等級,與真實評價等級差距不大,其余的噪聲樣本均被正確分類,表明模型對“很差”、“合格”和“很好”樣本預(yù)測準確度最高。
圖10 評價模型的混淆矩陣
總體來說,評價模型的預(yù)測結(jié)果與主觀評價結(jié)果有著很高的吻合度,能夠用于車內(nèi)噪聲的聲品質(zhì)評價。
本文基于深度學(xué)習(xí)法建立了車內(nèi)聲品質(zhì)評價模型,該模型由預(yù)處理層、CNN層、LSTM層和分類器組成。通過研究得出以下結(jié)論:
(1)使用對數(shù)梅爾頻譜的方法把一維的波形噪聲變換成二維的頻譜,同時使用時頻遮掩法增強數(shù)據(jù)的特征,為模型的CNN層、LSTM層和分類器提供更多、更強的特征信息。
(2)評價模型在訓(xùn)練集的訓(xùn)練之下獲得了96.88%的訓(xùn)練準確度,說明模型已獲得理想的網(wǎng)絡(luò)參數(shù),使模型對大部分樣本的評價等級預(yù)測正確。
(3)在驗證集的檢驗下,評價模型的驗證準確度為93.69%,使用測試集對評價模型進行評估,發(fā)現(xiàn)評價模型的預(yù)測結(jié)果與主觀評價結(jié)果具有很高的吻合度,證明基于CNN和LSTM融合特征提取的車內(nèi)聲品質(zhì)模型具有足夠的精度,可用于車內(nèi)聲品質(zhì)的評價。