黃 亮,潘 平,周 超
(貴州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽 550025)(*通信作者電子郵箱panping_17@163.com)
基于量子隧穿效應(yīng)的說話人真?zhèn)舞b別方法
黃 亮,潘 平*,周 超
(貴州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽 550025)(*通信作者電子郵箱panping_17@163.com)
針對語音信號的非結(jié)構(gòu)化特點(diǎn),提出了一種基于量子隧穿效應(yīng)的說話人真?zhèn)舞b別方法。以量子隧穿效應(yīng)為理論依據(jù),首先,在分析語音信號分幀的量子特性基礎(chǔ)上,將每一幀語音信號看作一個量子態(tài),實(shí)現(xiàn)算法的量子化;然后,利用勢壘能分離能量的特性,通過構(gòu)建勢壘組以提取信號的能量譜特征,并以此作為特征參數(shù);最后,通過高斯混合模型(GMM)進(jìn)行語音信號建模,完成說話人的真?zhèn)舞b別。仿真結(jié)果表明,相對于傳統(tǒng)方法,利用量子隧穿效應(yīng)理論實(shí)現(xiàn)說話人鑒別可以有效降低算法的復(fù)雜度,提高識別的識別率和可靠性,為量子信息理論和說話人真?zhèn)舞b別方法提供了新的研究途徑。
說話人;真?zhèn)舞b別;量子隧穿效應(yīng);高斯混合模型
隨著以語音信號為代表的數(shù)字多媒體技術(shù)對現(xiàn)代社會越來越強(qiáng)的影響,說話人真?zhèn)舞b別已經(jīng)成為了當(dāng)下研究的熱點(diǎn)之一。20世紀(jì)70年代后期,矢量量化(Vector Quantization, VQ)[1]作為一種新的數(shù)據(jù)壓縮和編碼技術(shù)廣泛用于說話人識別等領(lǐng)域。到了80年代,隱馬爾可夫模型(Hidden Markov Model, HMM)[2-3]和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)[4]在說話人識別領(lǐng)域的成功應(yīng)用,使得說話人識別技術(shù)可以應(yīng)用于大詞匯量、連續(xù)語音和非特定人等困難條件。1995年,Reynolds等[5]利用高斯混合模型提出了一種說話人身份識別方法;2006年,郭春霞[6]使用Mel頻率倒譜系數(shù)技術(shù)(Mel Frequency Cepstrum Coefficient, MFCC)研究了說話人識別系統(tǒng);2013年,潘平等[7]研究了隨機(jī)共振在語音真實(shí)性檢測方面的應(yīng)用。
然而,到目前為止關(guān)于語音的量子理論及其應(yīng)用研究仍然處于起步探索階段,許多研究只能從某個應(yīng)用或原始理論的局部觀點(diǎn)出發(fā),并未認(rèn)識到這一理論的內(nèi)涵。本文提出一種基于量子隧穿理論的說話人真?zhèn)舞b別方法,旨在探索量子隧穿理論的應(yīng)用。以說話人非結(jié)構(gòu)化數(shù)據(jù)為特例,來解決目前基于非結(jié)構(gòu)化數(shù)據(jù)特征提取所面臨的基于小數(shù)據(jù)樣本下的因果關(guān)系的局限性,為大數(shù)據(jù)下的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的特征提取提供一種可行的研究途徑,為大數(shù)據(jù)分析技術(shù)提供一種基于微觀解釋的宏觀預(yù)測機(jī)理提供一種解決方案。仿真結(jié)果表明,這種方法在降低算法復(fù)雜度和時間復(fù)雜度的同時,可獲得預(yù)期的結(jié)果。
對于一個允許散射態(tài)和束縛態(tài)[8]的有限方勢壘:
(1)
其中v0是勢壘的高度,即勢能,可根據(jù)需要進(jìn)行相應(yīng)的設(shè)置。由于語音信號的能量(或功率譜密度)恒大于零,因此,本算法僅考慮散射態(tài)(E>0)。
圖1 矩形勢壘
(2)
如果入射波來自于左邊,右邊沒有其他入射波的干擾,則通解為:
(3)
(4)
利用其中的兩個方程消去積分常數(shù)C和D,就可以得到A和F的關(guān)系式:
(5)
定義:對于某個特定的勢壘,透射波的概率幅與入射波概率幅之比,稱為該波通過該勢壘的隧穿系數(shù),即有:
(6)
量子隧穿系數(shù)表征了一列波通過某一勢壘的概率,由此式(6)可見,隧穿系數(shù)T是能量E的函數(shù),它們之間的關(guān)系如圖2。
圖2表明,能量越大的粒子,透射過勢壘的概率就越大,即波的穿透能力越強(qiáng);若粒子的能量足夠大,透射系數(shù)T就越接近1,實(shí)現(xiàn)完全隧穿。若假設(shè)一個閾值T0=0.95,并設(shè)波的透射系數(shù)T>T0,根據(jù)式(6),可以得到一組確定的、對應(yīng)能量值ne0(圖中虛線右側(cè)的所有離散值),其中e0是這個勢壘所允許完全透射的最低能量。并根據(jù)德布羅意波公式e0=hf0和抽樣定理可將每個抽樣頻率與能量對應(yīng)。因?yàn)?,對抽樣后的功率譜的譜線值理解為在單位抽樣時間內(nèi)所消耗的能量值。因此,對于每一離散的譜線值就對應(yīng)為一確定的頻率。
圖2 能量函數(shù)與隧穿系數(shù)的關(guān)系
語音信號通常服從兩種分布:較短語音信號服從Gauss分布;較長語音信號Laplace分布。同一說話人,由于自身生物特性結(jié)構(gòu)等因素的印象,對于同樣的語言內(nèi)容(單字、短語或長句等),發(fā)音頻率相同或在誤差允許的范圍內(nèi)相似。對于不同的說話人,一方面發(fā)出的聲音信號存在差異,這種差異就表現(xiàn)為頻率特征上的差異,可由處于不同穩(wěn)定的量子態(tài)進(jìn)行描述;另一方面,不同的語音信號,當(dāng)對其進(jìn)行分幀處理后,由于每幀的時間很短,約為20 ms左右,服從Gauss分布。因此,每一分幀語音信號可視為一個包含一組頻率特征的量子波函數(shù)。不同的頻率,通過相同勢壘,其隧穿系數(shù)不同,所對應(yīng)的隧穿后的頻率不同。如果設(shè)置一組勢壘,讓每一個勢壘有唯一的一個頻率透射,即可構(gòu)建一組特征向量(模式),這些特征都是非負(fù)的,且組成了一個隨機(jī)向量,因此可直接用正實(shí)數(shù)向量(高斯向量)表征,而無需再用酉高斯向量表示。根據(jù)向量中元素按擬合,降維成二維概率密度函數(shù)作為模式,通過最大似然估計,能實(shí)現(xiàn)說話人的識別。
根據(jù)文獻(xiàn)[10]的方法,利用本特征提取算法,獲得每一個勢壘的Gauss分布函數(shù)。由于有n個勢壘,線性疊加仍然為Gauss分布。因此,可以得到分布函數(shù),如式(7):
(7)
其中:μ表示通過勢壘的平均值,σ表示通過勢壘的標(biāo)準(zhǔn)差。
根據(jù)上述思想,并依據(jù)人耳對頻率的響應(yīng)特征[11-12],構(gòu)造基于72階的量子勢壘,這類似于構(gòu)建72階特征頻率濾波,簡易模型如圖3所示,這個模型本身就隱含了一組頻率特征向量。
圖3 量子勢壘
根據(jù)前面的分析,構(gòu)造一組特征向量(頻率)為:
fn=A′π2(a0+0.000 34n)2+B′π(1+0.09n)v0+C′;
n=0,1,2,…
(8)
其中:n為勢壘的序號;a0和v0為初始勢壘的寬度和高度;根據(jù)參數(shù)估計的一般理論,A′、B′和C′為訓(xùn)練參數(shù);若設(shè)an=a0+0.000 34n和vn=(1+0.09n)v0分別是第n個勢壘的寬度和高度。若說話人最低頻率為55 Hz,則通過式(8)可以計算出每個勢壘對應(yīng)的頻率值。并假設(shè)透射系數(shù)閾值T0=0.95,則在歸一化后,初始勢壘v0的寬度和高度為a0=0.001和v0=1.2。
由于一幀語音信號本質(zhì)上是微觀粒子的集體行為的表現(xiàn),是平衡的隨機(jī)信號,可視為一個定態(tài)。因此,對于一幀語音信號的量子波函數(shù),根據(jù)量子理論解釋為描述了粒子出現(xiàn)在確定地點(diǎn)的概率,但也可解釋為獲得特定能量En的概率。由于語音信號本質(zhì)上是隨機(jī)的和不確定的[13],對語音信號的采樣就如同對量子波函數(shù)進(jìn)行了測量,使之坍縮為確定的功率譜密度和與之對應(yīng)的頻率。根據(jù)以上分析,為了實(shí)現(xiàn)語音信號的特征提取,本實(shí)驗(yàn)構(gòu)造了如圖4所示的特征參數(shù)提取模型。
圖4 基于量子隧穿效應(yīng)的說話人特征參數(shù)提取模型
模型中,端點(diǎn)檢測的目的是去除不屬于語音信號的部分;預(yù)加重處理是保證高頻信號的完整性;信號分幀的目的是為了讓信號盡可能地平穩(wěn)以保證信號的定態(tài)特性,幀長為15 ms,幀移為5 ms;當(dāng)每幀語音通過勢壘組后,可獲得一個參數(shù),這個參數(shù)就是量化后的穿透能力,意味著這幀信號能透射過多少個勢壘,可以用來作為特征參數(shù);在識別部分,根據(jù)薛定諤方程的解形式,為每個說話人構(gòu)建一個波函數(shù)(二維概率密度函數(shù)),這個波函數(shù)就表征了說話人的模式。
為了驗(yàn)證這種方法的有效性,仿真實(shí)驗(yàn)選取了18個說話人為實(shí)驗(yàn)對象,每個人分別錄取6段語音,包括單詞、短語、短句和長句。語音信號的采樣頻率為8 000 Hz。所提取的參數(shù)服從波函數(shù)解的分布。通過均值和標(biāo)準(zhǔn)差就可以為每個說話人構(gòu)建一個概率密度函數(shù)。每一幀有36個觀測值,假設(shè)有n幀,總觀測值構(gòu)成可得每個人的正態(tài)分布曲線。仿真結(jié)果如圖5和圖6,通過對向量求均值和方差,如表1所示。
對比圖5與圖6的各對應(yīng)子圖,(a)和(b)顯示了同一說話人的特征,(c)和(d)為不同的人在不同時間(間隔1個月)的特征。很明顯,由于每個人的特征不同,曲線并不相同(注意縱軸的單位不同)。具體數(shù)據(jù)如表1所示。
由表1可清晰地看到,在語音內(nèi)容相同的情況下,不同的人具有不同的參數(shù)值,同一個人的前后兩次的參數(shù)變化并不大;而不同人說相同內(nèi)容時,參數(shù)值相差很大。
圖7和圖8的各對應(yīng)子圖顯示了自同一個說話人的四段不同語音內(nèi)容,但參數(shù)值卻十分相近,擬合的曲線也十分一致。詳細(xì)結(jié)果如表2所示。
在表2中,選取了兩個實(shí)驗(yàn)對象。來自同一個人的參數(shù)非常接近,除了第2個人的第5段語音,可以作為奇異數(shù)據(jù)處理。這些參數(shù)值可以用作訓(xùn)練數(shù)據(jù)來為每個說話人構(gòu)造一個唯一的概率密度函數(shù)。一方面,由于模型去除了經(jīng)典特征提取模型中的離散傅里葉變換,大大降低了算法的復(fù)雜度。與MFCC相比,若MFCC采用24階濾波器組,即特征參數(shù)為24維,那么,在識別部分需要將高維向量降維才能作出判別。在本模型中,雖然采用72個勢壘組,維度比MFCC高,可獲得更多的信息,從表面上看,似乎增加了計算的復(fù)雜度。事實(shí)上,由于在特征提取中已嵌入了自動降維處理,可直接輸出二維特征密度函數(shù),因此大大降低了識別部分的難度與計算的復(fù)雜性。
另一方面,由于將分幀后的語音幀直接視為量子態(tài),無需作量子化處理。因此,在同一個經(jīng)典計算機(jī)上,本實(shí)驗(yàn)利用Matlab做了大量的仿真實(shí)驗(yàn),通過對MFCC進(jìn)行了相關(guān)的運(yùn)算速度比較,如表3所示,結(jié)果顯示出本方法的優(yōu)勢。
表1 不同說話人相同語音內(nèi)容的實(shí)驗(yàn)結(jié)果
表2 同一人不同語音內(nèi)容的實(shí)驗(yàn)結(jié)果
表3 識別算法運(yùn)算時間的比較
本文提出了一種基于量子理論的說話人真?zhèn)巫R別方法,利用量子勢壘組提取說話人特征參數(shù),利用量子隨機(jī)理論處理隨機(jī)信號。由于每個人的均值和方差不同,所以分布曲線不同,因此可以通過對曲線的識別區(qū)分說話人。在經(jīng)典計算機(jī)上的仿真結(jié)果表明,在同樣的時間內(nèi),這種方法大大地降低了算法的復(fù)雜度,將語音信號的穿透能力量化,并以此為特征參數(shù),雖然特征數(shù)增加了,但是通過向量構(gòu)造出二維說話人特征曲線,同時省略了識別算法,從而大大降低了說話人識別系統(tǒng)的復(fù)雜度。這種方法將為說話人識別,特別是特征參數(shù)的提取提供了一種新的研究途徑,為非結(jié)構(gòu)化數(shù)據(jù)的聚類研究提供了一種新方法。
圖5 不同說話人同一語音內(nèi)容的頻數(shù)直方圖
圖6 不同說話人同一語音內(nèi)容的曲線擬合圖
圖7 同一說話人不同語音內(nèi)容的頻數(shù)直方圖
圖8 同一說話人不同語音內(nèi)容的曲線擬合圖
References)
[1] HUANG J, SCHULTHEISS P M. Block quantization of correlated Gaussian random variables [J]. IEEE Transactions on Communication Systems, 1963, 11(3): 289-296.
[2] LEVINSON S E, RABINER L R, SONDHI M M. An introduction to the application of the theory of probabilistic functions of a Markov process to automatic speech recognition [J]. Bell System Technical Journal, 1983, 62(4): 1035-1074.
[3] RABINER L R. A tutorial on hidden Markov models, selected applications in speech recognition [J]. Proceedings of the IEEE, 1989, 77(2): 257-286.
[4] WAIBEL A, HANAZAWA T, HINTON G, et al. Phoneme recognition using time-delay neural networks [J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1989, 37(3): 328-339.
[5] REYNOLDS D A, ROSE R C. Robust text-independent speaker identification using Guassian mixture speaker models [J]. IEEE Transactions on Speech and Audio Processing, 1995, 3(1): 72-83.
[6] 郭春霞.基于MFCC的說話人識別系統(tǒng)研究[D].西安:西安電子科技大學(xué), 2006.(GUO C X. The study of speaker recognition system based on MFCC [D]. Xi’an: Xidian University, 2006.)
[7] 潘平,羅輝,李換雙. 基于隨機(jī)共振的語音真實(shí)性檢測方法[J].計算機(jī)工程,2013,39(5):277-279.(PAN P, LUO H, LI H S. Voice authenticity detection method based on stochastic resonance [J] . Computer Engineering, 2013, 39(5): 277-279.)
[8] GRIFFITHS D J. Introduction to Quantum Mechanics [M]. 北京:機(jī)械工業(yè)出版社, 2012.(GRIFFITHS D J. Introduction to Quantum Mechanics [M]. Beijing: China Machine Press, 2012.)
[9] 田庚,潘平,劉琦.基于量子遂穿效應(yīng)的數(shù)字錄音資料真實(shí)性鑒別[J].電腦知識與技術(shù),2016,12(6):197-200.(TIAN G, PAN P, LIU Q. The authenticity of digital recording data identification based on quantum tunnelling effect [J]. Computer Knowledge and Technology, 2016, 12(6): 197-200.)
[10] 余華,方棣棠,李樹青,等.基于正態(tài)分布假設(shè)的非特定人語音識別[EB/OL]. [2017- 01- 06]. http://cpfd.cnki.com.cn/Article/CPFDTOTAL-SEER199410001045.htm.(YU H, FANG D T, LI S Q, et al. Speech recognition based on normal distribution hypothesis [EB/OL]. [2017- 01- 06]. http://cpfd.cnki.com.cn/Article/CPFDTOTAL-SEER199410001045.htm.)[11] 何朝霞,潘平,羅輝.基于非線性共振的說話人特征提取研究與仿真[J].科學(xué)技術(shù)與工程,2012,12(25):6507-6510.(HE Z X, PAN P, LUO H. Research and emulation of speaker feature parameter extraction based on nonlinear resonances [J]. Science Technology and Engineering, 2012, 12(25): 6507-6510.)
[12] 潘平,何朝霞.基于duffing隨機(jī)共振的說話人特征提取方法[J].計算機(jī)工程與應(yīng)用,2012,48(35):123-125.(PAN P, HE Z X. Method of speaker feature parameter extraction based on duffing stochastic resonance [J]. Computer Engineering and Applications, 2012, 48(35): 123-125.)
[13] 趙力.語音信號處理[M].北京:機(jī)械工業(yè)出版社,2003:26-30.(ZHAO L. Speech Signal Processing [M]. Beijing: China Machine Press, 2003: 26-30.)
Speakerauthenticationmethodbasedonquantumtunnelingeffect
HUANG Liang, PAN Ping*, ZHOU Chao
(CollegeofComputerScienceandTechnology,GuizhouUniversity,GuiyangGuizhou550025,China)
Aiming at the unstructured characteristics of speech signal, a method of speaker authentication based on quantum tunneling effect was proposed. Based on quantum tunneling effect, the quantum properties of speech signal framing analyzed, and each speech signal frame was regarded as a quantum state, and the quantization of the algorithm was realized. And then the potential barrier was used to separate the energy characteristics. The barrier group was constructed to extract the energy spectrum characteristics of the signal and used it as the characteristic parameter. The speech signal modeling was finally carried out by the Gaussian Mixture Model (GMM) to complete the authentication of the speaker. The simulation results show that compared with the traditional method, the use of quantum tunneling theory to achieve speaker identification can reduce the complexity of algorithm effectively, improve the discrimination and provide a new direction for speaker authentication and quantum information theory.
speaker; authentication; quantum tunneling effect; Gaussian Mixture Model (GMM)
2017- 03- 08;
2017- 07- 05。
貴州省科學(xué)技術(shù)基金資助項目(黔科合J字[2012]2132號);貴州省教育廳自然科學(xué)研究項目(黔教合KY字(2015)367號);貴州大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院研究生創(chuàng)新基金資助項目(院創(chuàng)201703)。
黃亮(1993—),男,四川資陽人,碩士研究生,主要研究方向:信息與通信系統(tǒng)安全; 潘平(1962—),男(苗族),貴州貴陽人,副教授,主要研究方向:信息安全、語音信號處理; 周超(1994—),男(穿青人),貴州貴陽人,碩士研究生,主要研究方向:信息與通信系統(tǒng)安全。
1001- 9081(2017)09- 2617- 04
10.11772/j.issn.1001- 9081.2017.09.2617
TN912.34
A
This work is partially supported by the Guizhou Provincial Science and Technology Fund ([2012]2132), the Natural Science Research Project of Education Department of Guizhou Province ((2015)367), the Graduate Innovation Fund of College of Computer Science and Technology, Guizhou University (201703).
HUANGLiang, born in 1993, M.S. candidate. His research interests include security of information and communication system.
PANPing, born in 1962, associate professor. His research interests include information security, audio signal processing.
ZHOUChao, born in 1994, M.S. candidate. His research interests include security of information and communication system.