張瑛杰,彭亞雄
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽 550025)
近些年來,利用生物特征信息來實(shí)現(xiàn)身份認(rèn)證的技術(shù)由于克服了傳統(tǒng)身份認(rèn)證技術(shù)的缺點(diǎn)而變得越來越普及[1]。但就目前而言,已有的生物特征身份識別技術(shù)大都是基于單一生物特征的。眾所周知,每一種生物特征形態(tài)都有它本身的優(yōu)缺點(diǎn),也不存在一種最優(yōu)的生物特征能滿足所有的需求。單生物特征認(rèn)證技術(shù)主要有以下局限性:(1)不確定性。采集到的數(shù)據(jù)受噪聲影響使得識別結(jié)果可能不可靠,并且每一種生物特征在辨識能力方面都有它理論上的極限值;(2)非普遍性。一些用戶可能缺失某種生物特征或其某種生物特征受損傷;(3)安全性。冒充者可能冒充合法用戶來攻擊生物識別系統(tǒng)[2]。為解決上述問題,近年來,基于多生物特征融合的身份認(rèn)證技術(shù)逐漸興起,融合系統(tǒng)由于利用了不同生物特征之間的互補(bǔ)信息,克服了單生物特征認(rèn)證系統(tǒng)的缺點(diǎn),提高了身份認(rèn)證的安全性和準(zhǔn)確性[3]。
本文選擇人臉和聲紋兩種特征進(jìn)行融合,首先這些生物特征是與生俱來的,具備唯一性且不易被復(fù)制。其次,這些特征易采集且采集隱蔽性較強(qiáng),采集設(shè)備成本低。
人臉識別技術(shù)是指通過計(jì)算機(jī)技術(shù)對人臉的視覺特征信息進(jìn)行提取,然后根據(jù)特征信息進(jìn)行身份識別。目前常用的人臉識別算法有:基于幾何特征的方法、基于局部特征的方法、基于機(jī)器學(xué)習(xí)的方法和基于子空間的方法等[4]。人臉識別的基本過程包括圖像預(yù)處理、特征提取與選擇、特征識別這幾個(gè)階段[5]。完整的人臉識別過程如圖1所示。
本文人臉識別算法通過局部二值模式[6](Local Binary Pattern,LBP)算法來實(shí)現(xiàn)。LBP算法用于人臉識別的優(yōu)勢在于它可以準(zhǔn)確地描述圖片的局部紋理,一般圖像識別中,僅使用全局特征是不夠的,獲得的識別率較低,更多的時(shí)候,表征一副圖像的特征也缺少不了局部特征。本文使用的LBP算法就是這樣一種表征局部特征的方法。
圖1 人臉識別基本過程
LBP算法記錄中心像素點(diǎn)與鄰域像素點(diǎn)的比對信息,并與閾值做比較。將得到的結(jié)果以二進(jìn)制形式寫入原位置,作為該點(diǎn)的值
(1)
其中,(xc,yc)代表中心元素,它的像素值為ic,ip, 代表鄰域內(nèi)其他像素的值。s(x)是符號函數(shù),定義為
(2)
在識別時(shí),先將所有圖片統(tǒng)一成一定的尺寸,再將圖片劃分為塊即子區(qū)域,并在子區(qū)域內(nèi)根據(jù)LBP值統(tǒng)計(jì)其直方圖,以直方圖作為其判別特征。本文利用卡方統(tǒng)計(jì)量來度量兩個(gè)LBP特征之間的距離,公式為
(3)
其中,S和M分別為兩個(gè)直方圖特征向量。
聲紋識別(Voiceprint Recognition,VR),又稱說話人識別(Speaker Recognit-ion,SR),是一種根據(jù)語音波形中反映的說話人生理和行為特征的語音參數(shù),自動識別說話人身份的技術(shù)[7]。其目的是從語音信號中提取出代表著說話人個(gè)人身份的個(gè)性信息,從而實(shí)現(xiàn)說話人身份的識別。聲紋識別的基本過程如圖2所示。
圖2 聲紋識別基本過程
本文采用經(jīng)典MFCC算法來獲得語音的各特征參數(shù),梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC)是一種聽覺感知頻域倒譜參數(shù),由于MFCC參數(shù)能夠從人耳對聲音頻率的高低的非線性心理感覺的角度反映短時(shí)幅度譜的特征[8],因此無論在聲紋識別領(lǐng)域,還是在語音識別領(lǐng)域都有廣泛的應(yīng)用。
由于說話人系統(tǒng)是以概率模型為基礎(chǔ)的,所以如何對其表示就在于似然函數(shù)的表達(dá)。GMM[9]模型是統(tǒng)計(jì)概率模型,其能通過對說話人特征分布的有效統(tǒng)計(jì)來區(qū)分說話人,其統(tǒng)計(jì)參量能有效的表示說話人的特征。GMM的似然函數(shù)定義如下
(4)
其中,M是高斯混合分布的維數(shù),即高斯混合模型中單高斯分布的個(gè)數(shù),wi是第i個(gè)高斯分布的權(quán)重,并滿足
(5)
gi(x)是期望為μi,協(xié)方差為∑i的高斯混合概率密度函數(shù)
(6)
GMM模型易于理解、計(jì)算量較小,并且對語音沒有文本相關(guān)的要求,但GMM系統(tǒng)需要充足的語音來訓(xùn)練模型,通常情況下,登錄的說話人語音長度有限,不能覆蓋整個(gè)聲學(xué)空間[10]。針對這種情況,本文采用GMM-UBM模型。通用背景模型(Universal Background Model,UBM)實(shí)際是一個(gè)由大量說話人通過采集大量語音信號進(jìn)行訓(xùn)練得到的模型,使用該模型來表征說話人無關(guān)的特征空間。對于單個(gè)說話人個(gè)體的模型,就是說話人自身的GMM模型來自適應(yīng)UBM而得到的模型。這樣,說話人語音所覆蓋的發(fā)音情況可用自身的語音建立模型,而沒有覆蓋到的發(fā)音情況可以用說話人無關(guān)的特征分布來近似表達(dá),通過這種方法涵蓋了所有的發(fā)音情況,提升了系統(tǒng)性能。經(jīng)過特征提取和建模,識別時(shí)在未知說話人的模型中,得到似然概率最大的模型對應(yīng)的說話人即為識別結(jié)果
x=arg{max[L(X|λs)]}
(7)
信息融合又稱數(shù)據(jù)融合,也可稱為傳感器信息融合,其主要目的就是融合多個(gè)信息源來提高系統(tǒng)性能[11]。
目前,多生物特征融合方法主要分為3種:特征層融合、匹配層融合、決策層融合[12]。特征層融合是指采集到的不同生物特征的數(shù)據(jù)經(jīng)過前端處理后提取特征描述向量,然后將這些低維特征向量通過某種方法融合成新的高維特征向量。特征層融合的好處是可以最大限度的利用豐富的特征信息,但也存在著各特征向量不兼容難以直接進(jìn)行融合的缺點(diǎn)。匹配層融合是不同匹配得分的一種整合,每個(gè)匹配得分都是單生物特征的一個(gè)識別結(jié)果,并且這些匹配過程都是相互獨(dú)立的。這些匹配得分通過某種融合算法得出最終的判決結(jié)果。決策層融合是最高層次的整合,它的輸入是單生物特征識別的邏輯輸出,通過某些邏輯規(guī)則這些邏輯輸出最終融合成一個(gè)識別結(jié)果。
本文采用的生物特征為語音和人臉圖像,特征之間不具有很強(qiáng)的關(guān)聯(lián)性,如果直接在特征層進(jìn)行融合,不僅處理起來非常復(fù)雜且達(dá)不到好的效果。因此本文選擇在匹配層進(jìn)行融合,圖 3為融合的基本流程。
圖3 融合基本流程
為了對提出的方法進(jìn)行分析和評價(jià),本文選取了昆士蘭大學(xué)的Vidtimit多模態(tài)數(shù)據(jù)庫進(jìn)行測試。該數(shù)據(jù)庫包含43人的面部視頻和與之相關(guān)的語音,是從事多模態(tài)音視頻融合研究的一個(gè)典型數(shù)據(jù)庫。視頻序列最終被保存為分辨率512×384的jpg格式,語音則保存為單聲道,量化精度為16 bit,采樣率為32 kHz的wav格式。本文將該庫中一張人臉圖像和一段語音作為一個(gè)記錄, 因此該庫包含43人共430個(gè)記錄,每人10個(gè)記錄, 每個(gè)記錄包含一張人臉圖像和一段語音。
(8)
圖4是經(jīng)過測試后得到的接收特性曲線。表1是單生物特征認(rèn)證和融合后的認(rèn)證算法等錯(cuò)誤率(Equal Error Rate,EER)比較。通過比較可以得知,本文的融合方法使整個(gè)系統(tǒng)等錯(cuò)誤率降低到0.97%,相比聲紋識別和人臉識別兩種方法分別下降了2.15%和0.96%。實(shí)驗(yàn)結(jié)果表明,相比單生物特征的方法,本文所用融合算法在認(rèn)證性能上有了明顯提高,證明了本文采用的融合算法的有效性和可行性。
圖4 單生物特征方法與融合方法ROC特性比較
表1 單生物特征方法與融合方法等錯(cuò)誤率比較
本文提出了一種基于最小最大概率機(jī)的多生物特征融合算法。實(shí)驗(yàn)結(jié)果表明, 本文的多生物特征融合認(rèn)證方法比單生物特征方法在性能上有了明顯改善,等錯(cuò)誤率明顯降低,證明了該融合算法的有效性。
參考文獻(xiàn)
[1] 王骕,胡浩基,于慧敏.基于數(shù)字水印的人臉與聲紋融合識別算法[J].浙江大學(xué)學(xué)報(bào):工學(xué)版,2015,49(1):6-14.
[2] 李雨凇.基于支持向量機(jī)的多生物特征融合技術(shù)研究[D].無錫:江南大學(xué),2011.
[3] 李彥明.多通道生物認(rèn)證關(guān)鍵技術(shù)的研究[D].蘭州:蘭州理工大學(xué),2014.
[4] 陳倩.多生物特征融合身份識別研究[D].杭州:浙江大學(xué),2007.
[5] 黃華盛,楊阿慶.基于PCA算法的人臉識別[J].電子科技,2015,28(8):98-101.
[6] Ahonen T,Hadid A,Pietikainen M.Face description with local binary patterns:application to face recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(12):2037-2041.
[7] 蔡蓮紅,賈珈,鄭方.言語信息處理的進(jìn)展[J].中文信息學(xué)報(bào),2011,25(6):137-141.
[8] 常飛,喬欣,張申.基于MFCC特征提取的故障預(yù)測與評價(jià)方法[J].計(jì)算機(jī)應(yīng)用研究,2015,32(6):1716-1719.
[9] Reynolds D,Quatieri T,Dunn R.Speaker verification using adapted gaussian mixture models[J].Digital Signal Processing,2000,10(13):19-41.
[10] 王軍.復(fù)雜環(huán)境下說話人確認(rèn)魯棒性研究[D].北京:清華大學(xué),2015.
[11] 周新科,鄔艷艷.數(shù)據(jù)融合方法在醫(yī)療案例檢索中的應(yīng)用[J].電子科技,2017,30(3):45-48.
[12] 李彥明.基于確認(rèn)模式的多通道生物認(rèn)證技術(shù)研究[J].甘肅科技,2014,30(9):35-37.
[13] Lanckriet G,Ghaoui L,Jordan M,et al.Minimax probability machine[C].California:Proceedings of Advances in Neural Information Processing Systems,2002.
[14] 王曉初,王士同,包芳.基于數(shù)據(jù)分布一致性最小最大概率機(jī)[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(16):79-84.
[15] 王婧,彭亞雄,賀松.基于指紋和聲紋的身份認(rèn)證技術(shù)研究[J].微型機(jī)與應(yīng)用,2016,35(8):51-52.