胡正豪 翟 昊 姜兆禎 周川川
(陸軍炮兵防空兵學(xué)院信息工程系 合肥 230031)
現(xiàn)實生活中,身份識別技術(shù)在很多行業(yè)已經(jīng)廣泛推廣開來,成為一個產(chǎn)業(yè)智能發(fā)展的標志,其中大多數(shù)使用的都是人臉識別[1]、指紋掌紋識別[2]或者語音識別[3]等單一的識別技術(shù),但是在光照、噪聲等惡劣條件下,單一的模態(tài)識別容易引起誤判,造成不可估量的損失。
目前,社會上也有對多模態(tài)融合識別的研究[4~5],比如匹配層融合、決策層融合;但是,基于音視頻特征層的融合識別研究甚少,主要因為特征融合的難度較大,不同模態(tài)不同維度不易融合。針對此類情況,本文提出一種將聲音匹配值作為特征值與人臉圖像主成分提取特征融合進行支持向量機分類的算法。首先,提取聲音訓(xùn)練信號的梅爾特征值構(gòu)建高斯混合模型[6],然后利用測試語音獲取匹配值,進行歸一化處理,結(jié)果作為語音特征值;然后將人臉圖像依次進行小波變換、主成分分析獲得特征值;最后,將兩個特征值進行融合,得到整體特征向量,放入支持向量機進行分類識別。通過實驗證明,該方法取得了較理想的實驗結(jié)果,對于單一噪聲的影響具有較高的抗噪能力,并且在一定條件下,具有更高的識別率。
語音特征的提取方式有許多[7~8],但是考慮要與圖像特征相融合,本文采用的方法是基于Mel頻率倒譜系數(shù)的高斯混合模型得分歸一化作為語音特征。經(jīng)過多次實驗檢驗,未進行歸一化的數(shù)據(jù)不能進行SVM的分類識別,更不能進行融合。具體方法如下。
1)將語音訓(xùn)練信號進行預(yù)處理后,通過20維的Mel三角濾波器組進行濾波,Mel頻率轉(zhuǎn)換公式可表示為
2)進行DCT(離散余弦)變換,得到MFCC特征參數(shù),并計算一階差分得ΔMFCC,組成混合特征參數(shù)[MFCC,ΔMFCC]。
3)利用混合特征參數(shù)構(gòu)建16階GMM(高斯混合模型)模型庫Mi(i=1,2,3…n,n為說話人類別數(shù))。
4)提取測試語音特征代入模型庫計算匹配分數(shù),可得Sn={s1,s2,s3…sn}(n為模型數(shù))。
5)對所得匹配分數(shù)采用Min-Max方法進行歸一化處理
6)對所有測試語音進行以上方法處理,最終得到所有測試語音的分數(shù)集合,即所求得語音特征數(shù)組 Ym×n。
人臉識別技術(shù)[9]已經(jīng)廣泛應(yīng)用于人們生活當(dāng)中,相應(yīng)的算法也非常成熟。本文采用經(jīng)典的小波與PCA相結(jié)合的方法[10~11]提取人臉面部特征,得到數(shù)組Fm×k(m為測試樣數(shù),k為PCA降低維度),用于下步的數(shù)據(jù)融合。具體流程如圖1。
圖1 人臉特征提取流程圖
小波是指一種能量在時域非常集中的波,與傅里葉波一樣屬于正交波。它的多分辨分解能力可以通過低通與高通濾波器將圖片信息一層一層分解剝離開來,從而可以獲得原始圖像在水平和垂直方向上的低頻分量LL、水平方向上的低頻和垂直方向上的高頻LH、水平方向上的高頻和垂直方向上的低頻HL以及水平和垂直方向上的高頻分量HH。在本文中使用的是二維小波變換的一級水平和垂直方向上的低頻分量LL。
PCA(Principal Component Analysis)是一種常用的數(shù)據(jù)分析方法,可以將原始數(shù)據(jù)變換為一組各維度線性無關(guān)的表示,提取數(shù)據(jù)的主要特征分量。它的算法步驟可表示如下。
假設(shè)總共有m張p*q大小的照片,則:
1)將所有圖片信息整理成p*q行m列矩陣Xp*q×m={x1,x2,x3…xm}。
2)將X的每一行進行零均值化,即減去這一行的均值μ。
3)求出協(xié)方差矩陣
4)求出協(xié)方差矩陣的特征值λi及對應(yīng)的特征向量vi。
5)將特征向量按對應(yīng)特征值大小從左往右排列,取前k個特征向量組成矩陣P。
6)Y=XP即為降維后得到的k維特征矩陣。
為了得到特征融合的最佳效果,特征的融合方法至關(guān)重要。本文將以上提取得到的語音特征矩陣Ym×n與人臉特征矩陣Fm×k分別進行了串聯(lián)和并聯(lián)兩種融合方式[12],求得特征融合矩陣Rm×h(h大小由融合方法與特征維度決定),再進行支持向量機的訓(xùn)練識別,計算識別率。
支持向量機[13](Support Vector Machine)主要是建立一個最優(yōu)決策的超平面,使得該平面兩側(cè)距離平面最近的兩類樣本之間的距離最大化,從而對分類問題提供良好的泛化能力,其本質(zhì)上屬于線性分類器。為了更好地應(yīng)用于非線性樣本的分類,根據(jù)cover定理:將復(fù)雜的模式分類問題非線性地投射到高維度空間中可能是線性可分的,因此只要特征維度足夠高,在高維空間中將以較高的概率線性可分。因此,研究人員通過設(shè)計非線性的核函數(shù),將原特征向量投影到更高維空間,實現(xiàn)支持向量機對非線性樣本的分類處理。目前常用的核函數(shù)主要有:
1)多項式核函數(shù)
2)徑向基核函數(shù)
3)Sigmoid核函數(shù)
本文實驗主要在Spyder編譯環(huán)境下使用Py?thon3語言完成的,并利用了內(nèi)部的sklearn庫函數(shù)完成了相應(yīng)數(shù)據(jù)的處理。人臉圖片來自O(shè)RL數(shù)據(jù)庫,共有400張,40個人各10張不同角度的照片組成。聲音數(shù)據(jù)來自40名工作人員,每個人10段不同文本的語音,總共400段語音,與圖片樣本相對應(yīng),由電腦Audacity軟件以單聲道16kHz頻率錄制完成。在實驗時,采用十折交叉驗證法[14](將數(shù)據(jù)隨機分為10組,9組作為訓(xùn)練,1組作為識別,共進行10次)對數(shù)據(jù)集分開訓(xùn)練測試,最后,計算得到識別率。
人臉數(shù)據(jù)不做處理,PCA降維至8維(經(jīng)過多次實驗測得,降至8維時效果最好),聲音數(shù)據(jù)加以信噪比10~30的白噪聲(如圖2(a)、(b),信噪比為10的數(shù)據(jù)對比),對比串聯(lián)、并聯(lián)兩種特征融合方式,支持向量機采用多項式核函數(shù)進行試驗,Voice結(jié)果如圖2(c)所示。
圖2 聲音噪聲實驗結(jié)果
由圖1(c)可見,隨聲音信噪比的提高,聲音識別率不斷提高,兩種方式融合后的識別率也會有所提高,并且在信噪比低時,高于任意一種單模態(tài)識別率。當(dāng)信噪比提升到27時,聲音識別率大幅高于圖像識別率,特征融合下的識別率受圖像特征的影響,會比聲音識別率略低,但也僅次之。由此可得,對于聲音噪聲的影響,兩種方法融合后具有非常強的抗噪性。
對比兩種融合方法,串聯(lián)融合后的識別率會略高于并聯(lián)融合后的識別率,但并不明顯,主要原因是特征串聯(lián)融合后維度升高,兩種特征在更高維的空間中更加易于聚集分類,但是影響并不大。
人臉數(shù)據(jù)加以0~0.5比例椒鹽噪聲(如圖3(a)(b),噪聲比例為0.1的對比),PCA降維至8維,聲音數(shù)據(jù)不做處理,采用串聯(lián)特征融合方式,支持向量機采用多項式核函數(shù)進行試驗,結(jié)果如圖3(c)所示。
圖3 圖像噪聲實驗結(jié)果
由圖3(c)可以看出,在沒有聲音噪聲的情況下,聲音識別的準確率非常高,受其影響,融合后的識別率也一直比圖像識別率要高。隨圖像噪聲不斷增強,圖像的識別率逐漸降低,兩種特征融合后的識別率也會隨之降低,但一直在0.92以上。由此可得,在圖像噪聲條件下,兩種融合方法具有較強的抗噪性和穩(wěn)定性。
對比兩種融合方法,會發(fā)現(xiàn)具有相同的變化趨勢,都受圖像特征的影響而降低。另外,同樣會發(fā)現(xiàn)串聯(lián)融合的識別率會略高于并聯(lián)融合的識別率。
分別采用徑向基核函數(shù)與Sigmoid核函數(shù)進行以上實驗進行對比,結(jié)果圖4所示。
圖4 不同核函數(shù)實驗結(jié)果
由圖4可以看出:在該兩種特征條件下,使用徑向基核函數(shù)的支持向量機對所有特征的分類識別效果要優(yōu)于多項式核函數(shù)。且在任何一種噪聲環(huán)境下,融合算法識別率都能達到0.96以上。采用Sigmoid核函數(shù)的支持向量機對數(shù)據(jù)的分類,會導(dǎo)致融合特征受聲音特征的影響較大,聲音識別率低時,融合識別率也會很低,尤其是并聯(lián)后的特征,識別率出現(xiàn)大幅降低;融合特征也會受到圖像特征的影響,圖像噪聲增強時,識別率出現(xiàn)一定的下降,串聯(lián)特征效果優(yōu)于并聯(lián)特征的效果。
在本文算法提取的特征下,對比三種核函數(shù)的效果,可以得到,徑向基核函數(shù)的分類識別效果最好,Sigmoid核函數(shù)的支持向量機整體分類識別效果要低于另外兩種核函數(shù)的效果,
本文針對單一模態(tài)身份識別率易受噪聲影響的問題,提出將語音與聲音特征進行融合的方法,并結(jié)合理論進行了實驗驗證。經(jīng)實驗證明,在本文選取的兩種特征下,串聯(lián)融合效果要比并聯(lián)融合效果好一點,同時也存在缺點:由于維度較高,占用存儲內(nèi)存會增大,分類識別時間會較長。但在當(dāng)今硬件設(shè)備下,該影響并不會構(gòu)成應(yīng)用上的矛盾。同時也驗證了在該特征下,徑向基核函數(shù)的分類識別效果要優(yōu)于多項式核函數(shù)與Sigmoid核函數(shù)。最后,身份特征融合的方法具有較強的抗噪性,并且識別率也較高,可以滿足實際的需要,具有一定的實用價值。