郭曉麗 程遠(yuǎn)
摘 要:最近幾年,說(shuō)話人識(shí)別技術(shù)正在不斷發(fā)展。在身份確認(rèn)關(guān)聯(lián)的領(lǐng)域內(nèi),它凸顯了重要的作用。保障現(xiàn)場(chǎng)安全,防止身份不明的人員進(jìn)入。夜間時(shí)段無(wú)人值守,也要配有自動(dòng)辨識(shí)這樣的體系。它能通過(guò)判別聲音頻譜,辨別出說(shuō)話人。自動(dòng)管控特有的工廠系統(tǒng),在真實(shí)運(yùn)用之中應(yīng)當(dāng)搭配最優(yōu)的軟硬件,慎重辨別身份。
關(guān)鍵詞:說(shuō)話人識(shí)別技術(shù);工廠自動(dòng)控制系統(tǒng);具體應(yīng)用
中圖分類號(hào):TN912.34 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-8937(2015)08-0050-02
說(shuō)話人識(shí)別體系采納實(shí)時(shí)端點(diǎn)這樣的測(cè)定算法、基于幀的可行算法。它采納MFCC特有的參數(shù),當(dāng)成可辨識(shí)的參數(shù)。選取矢量量化、模板匹配這樣的識(shí)別計(jì)算。通過(guò)測(cè)試可知,說(shuō)話人辨識(shí)特有的技術(shù)框架,提升了原有的識(shí)別水準(zhǔn),保障了自動(dòng)化架構(gòu)之下的工廠安全。與此同時(shí),也便于平日操作,提升運(yùn)行效率。
1 概要的識(shí)別流程
說(shuō)話人識(shí)別,是數(shù)字處理特有的語(yǔ)音處理。這種識(shí)別方式與語(yǔ)音識(shí)別很近似,都是根據(jù)接納的某一語(yǔ)音,予以信號(hào)辨識(shí);在這以后,提煉出有關(guān)的特征,并建構(gòu)辨識(shí)必備模型。說(shuō)話人識(shí)別、近似特性的語(yǔ)音識(shí)別,還是帶有差異的。具體而言,說(shuō)話人識(shí)別預(yù)設(shè)的側(cè)重點(diǎn),并非辨識(shí)語(yǔ)義內(nèi)涵,而是從原有的信號(hào)以內(nèi)提煉出個(gè)體特性。
說(shuō)話人識(shí)別細(xì)分的層面,包含主體辨認(rèn)、主體確認(rèn)。說(shuō)話人特有的辨認(rèn)步驟,是把沒(méi)能標(biāo)識(shí)出來(lái)的語(yǔ)句,設(shè)定成若干主體范疇之中的某一主體,帶有選擇的特性;主體確認(rèn)依托的步驟,是根據(jù)擬定好的語(yǔ)句,判別是否相符。這種確認(rèn)程序,只包含雙重可能:肯定及否定。
說(shuō)話人識(shí)別這一體系包含初始的認(rèn)知時(shí)段和后續(xù)的識(shí)別時(shí)段。在認(rèn)知時(shí)段,根據(jù)發(fā)聲語(yǔ)句,建構(gòu)精準(zhǔn)特性的模型、參量特有的參考集。在后續(xù)的識(shí)別時(shí)段,通過(guò)語(yǔ)音特有的導(dǎo)出參量,來(lái)比對(duì)預(yù)設(shè)的參量集,或者設(shè)定好的模板。說(shuō)話人確認(rèn)這樣的體系,把輸入過(guò)來(lái)的語(yǔ)音參量,比對(duì)特有的個(gè)體語(yǔ)音。若二者比對(duì)得來(lái)的差值沒(méi)能超出預(yù)設(shè)的閾值,則應(yīng)能確認(rèn),否則予以否認(rèn)。
2 自動(dòng)控制運(yùn)用
體系架構(gòu)之內(nèi)的工控機(jī),被設(shè)定成工廠布設(shè)的上位機(jī)。它依托著PCI特有的總線,接納現(xiàn)場(chǎng)傳遞過(guò)來(lái)的電話語(yǔ)音,并輸入接納的這類信號(hào)。工控機(jī)調(diào)配著數(shù)據(jù)庫(kù)、電話報(bào)警特有的界面、控制特性的界面。它能辨識(shí)進(jìn)到場(chǎng)地之中的操作主體,辨識(shí)語(yǔ)音屬性,接受遠(yuǎn)程特性的指令。PLC及場(chǎng)地架構(gòu)的RS232,能夠互通信息。自動(dòng)控制細(xì)分出來(lái)的現(xiàn)場(chǎng)控制,接納了開啟指令,可以依循設(shè)定好的邏輯,自動(dòng)管控開關(guān),并管控變頻器。
PLC接納傳感數(shù)據(jù)發(fā)給上位機(jī),上位機(jī)辨識(shí)下位機(jī)供應(yīng)過(guò)來(lái)的這些數(shù)值,然后預(yù)設(shè)反饋指令。說(shuō)話人識(shí)別特性的板塊,包含擬定好的授權(quán)驗(yàn)證、擬定命令輸入。在這之中,DSP是辨識(shí)模塊特有的中心部分,能夠提煉關(guān)涉的特征參數(shù)、匹配多重模板,同時(shí)辨識(shí)有關(guān)的判決。DSP凸顯的優(yōu)勢(shì),是計(jì)算速率很快、內(nèi)存量被拓展、數(shù)值交換特有的速率也快。它能創(chuàng)設(shè)復(fù)雜架構(gòu)下的算法,搭配DSP特性的芯片,完成識(shí)別運(yùn)算。
3 識(shí)別之中的端點(diǎn)測(cè)定
端點(diǎn)測(cè)定特有的方式,是識(shí)別體系架構(gòu)中的前端處理。端點(diǎn)檢測(cè)特有的精準(zhǔn)性,密切關(guān)涉識(shí)別之中的精準(zhǔn)性。例如:給出10個(gè)特有的英語(yǔ)數(shù)字,在識(shí)別測(cè)定之中,端點(diǎn)誤差若超出了50 ms,那么對(duì)應(yīng)著的識(shí)別率,就會(huì)限縮20%。說(shuō)話人識(shí)別特有的框架,創(chuàng)設(shè)了基于幀的、實(shí)時(shí)端點(diǎn)查驗(yàn)依托的方式,以便測(cè)算端點(diǎn)。
首先,根據(jù)語(yǔ)音特有的能量狀態(tài)、過(guò)零率變更的總傾向,予以簡(jiǎn)單測(cè)定。這樣做,能夠辨識(shí)語(yǔ)音固有的始末點(diǎn)范疇,提煉頻譜特性。
其次,F(xiàn)FT解析得來(lái)的頻譜結(jié)果,包含多頻段特有的布設(shè)特征。根據(jù)這一特性,可以判別元輔音。
再次,明晰了元輔音、對(duì)應(yīng)著的濁音以后,采納前后拓展這樣的搜索路徑,辨識(shí)端點(diǎn)特有的幀。端點(diǎn)檢定預(yù)設(shè)的這類算法,根據(jù)語(yǔ)音固有的根本特性,隨時(shí)測(cè)定端點(diǎn)。它適應(yīng)變更著的環(huán)境,排除了干擾,提升測(cè)定之中的精準(zhǔn)層級(jí)。
4 辨識(shí)語(yǔ)音特性
4.1 提煉主體特性
說(shuō)話人獨(dú)有的語(yǔ)音特性,關(guān)聯(lián)著更廣范疇的心理狀態(tài)、個(gè)體生理發(fā)音。為此,個(gè)體表征的語(yǔ)音特性,帶有動(dòng)態(tài)變更的傾向。這種特性涵蓋了某一范疇的語(yǔ)音譜、多聲道凸顯的特性;與此同時(shí),還包含帶有超音段這樣的特性、個(gè)體聲門狀態(tài)。說(shuō)話人固有的語(yǔ)音,很難被直接顯示。為此,采納語(yǔ)音提煉這一方式,來(lái)辨識(shí)語(yǔ)音特征。
搜索得來(lái)的信號(hào),包含語(yǔ)音特性、主體個(gè)體范疇的若干特性。這些交織特性,表征了復(fù)雜形式。特性提取依托的步驟,是采納明晰的語(yǔ)音特征,以便解析信號(hào)。這樣做,就舍掉了本源的信息內(nèi)容,存留了獨(dú)有的個(gè)體特性。從信息論看,語(yǔ)音辨識(shí)關(guān)涉的參數(shù)影響,是信息壓縮這一總流程。
4.2 線性預(yù)測(cè)解析
線性預(yù)測(cè)特有的解析技術(shù),也即LP這一技術(shù),是參數(shù)提煉這一領(lǐng)域以內(nèi)的廣泛技術(shù)。布設(shè)的應(yīng)用系統(tǒng)也慣用這一技術(shù)提煉出明晰的倒譜參數(shù)。傳統(tǒng)框架內(nèi)的預(yù)測(cè)模型,帶有單純數(shù)學(xué)特性,沒(méi)能考量聽覺(jué)特有的處理途徑。Mel特有的感知預(yù)測(cè),能夠判別倒譜系數(shù),它建構(gòu)在感知的根基之上。在某一層級(jí)內(nèi),它仿照了肌體特有的處理途徑,是依憑聽覺(jué)體系,推導(dǎo)得來(lái)的聲學(xué)特性。
聽覺(jué)機(jī)理調(diào)研表征著:若設(shè)定好的頻率近似,音調(diào)同時(shí)發(fā)聲,則耳朵只能辨識(shí)這樣的一個(gè)音調(diào)。臨界帶寬預(yù)設(shè)的邊界,是主觀特有的突變界限。具體而言,若音調(diào)潛藏著頻率差,沒(méi)能超出這樣的臨界,則耳朵會(huì)混同它們,被看成屏蔽效應(yīng)。采納Mel特有的刻度,以便度量這一帶寬。
4.3 具體運(yùn)算步驟
識(shí)別系統(tǒng)范疇內(nèi),MFCC特有的運(yùn)用正在逐漸推廣。具體而言,它先對(duì)整合得來(lái)的語(yǔ)音信號(hào),予以分幀處理,把每一幀以內(nèi)的語(yǔ)音,變更成FFT頻域。在這以后,它會(huì)依循設(shè)定好的刻度,采納三角架構(gòu)內(nèi)的濾波器,予以卷積運(yùn)算。最后,對(duì)于濾波器布設(shè)的輸出構(gòu)成、設(shè)定好的對(duì)數(shù)能量,采納離散態(tài)勢(shì)下的余弦變換,以明晰語(yǔ)音特征。
5 辨識(shí)匹配模式
說(shuō)話人識(shí)別包含模板匹配、隱含特性的模型、人工建構(gòu)起來(lái)的神經(jīng)元網(wǎng)絡(luò)。細(xì)化框架內(nèi)的識(shí)別計(jì)算,預(yù)設(shè)了動(dòng)態(tài)特性的時(shí)間規(guī)整、對(duì)應(yīng)矢量量化。動(dòng)態(tài)特性的規(guī)整,也即DTW,是典型范疇的特定人算法。它規(guī)避了自然狀態(tài)之下的語(yǔ)速差別,采納時(shí)間規(guī)整,匹配了模板表征的特性序列、語(yǔ)音的這一序列。比對(duì)二者的失真,得到辨識(shí)根據(jù)。
矢量量化特有的辨識(shí)方式也被廣泛采納。這種新式技術(shù),規(guī)避了語(yǔ)音分段。它被設(shè)定成數(shù)據(jù)壓縮依憑的主要途徑,縮減了存留著的總數(shù)據(jù)量。矢量量化關(guān)涉的分類特征,也能判別真實(shí)的主體,提升判別的準(zhǔn)確概率。
6 結(jié) 語(yǔ)
工控特性的上位機(jī),包含說(shuō)話識(shí)別特有的細(xì)化模塊。工控機(jī)管控著建構(gòu)的數(shù)據(jù)庫(kù)、提供明晰的界面;根據(jù)精準(zhǔn)參數(shù),設(shè)定電話報(bào)警。自動(dòng)辨識(shí)說(shuō)話人,可識(shí)別現(xiàn)場(chǎng)以內(nèi)的操作主體、電話語(yǔ)音特有的真實(shí)性,還能接納遠(yuǎn)程管控范疇內(nèi)的一切指令。布設(shè)的工控機(jī)銜接著PLC及預(yù)設(shè)的通信接口。PLC架構(gòu)以內(nèi)的現(xiàn)場(chǎng)控制,能夠接納上位機(jī)擬定好的開啟指令。除此以外,電話語(yǔ)音銜接著的識(shí)別模塊,還安設(shè)了語(yǔ)音卡,便利電話操作。
參考文獻(xiàn):
[1] 覃愛娜,韓華.說(shuō)話人識(shí)別技術(shù)及其在工廠自動(dòng)控制系統(tǒng)中的應(yīng)用[J].長(zhǎng)沙電力學(xué)院學(xué)報(bào)(自然科學(xué)版),2013,(2).
[2] 雷鵬.工廠自動(dòng)控制系統(tǒng)的說(shuō)話人識(shí)別模塊實(shí)現(xiàn)[J].電聲技術(shù),2012,(10).
[3] 楊海燕,楊斌,景新幸.說(shuō)話人識(shí)別技術(shù)在智能家居中的應(yīng)用[J].電聲技術(shù),2014,(5).