陳扶明 李 盛 安 強(qiáng) 張自啟 王健琪*
①(第四軍醫(yī)大學(xué)生物醫(yī)學(xué)工程學(xué)院 西安 710032)
②(西京學(xué)院控制工程學(xué)院 西安 710123)
生物雷達(dá)語音信號探測技術(shù)研究進(jìn)展
陳扶明①李 盛②安 強(qiáng)①張自啟①王健琪*①
①(第四軍醫(yī)大學(xué)生物醫(yī)學(xué)工程學(xué)院 西安 710032)
②(西京學(xué)院控制工程學(xué)院 西安 710123)
語音信號的獲取對人類進(jìn)行交流具有重要意義。生物雷達(dá)技術(shù)具有非接觸、非侵入、安全、方向性好、靈敏度高、抗干擾能力強(qiáng),并具有一定穿透性等多種優(yōu)點,在語音信號探測領(lǐng)域具有重要應(yīng)用前景。該文首先回顧了語音探測技術(shù)的發(fā)展歷程,然后綜述了生物雷達(dá)語音探測技術(shù)的研究現(xiàn)狀,給出了生物雷達(dá)探測語音信號的基本原理,并對3種不同體制的生物雷達(dá)語音探測系統(tǒng)性能進(jìn)行了對比闡述。最后對生物雷達(dá)語音信號探測技術(shù)的應(yīng)用前景進(jìn)行了展望。
生物雷達(dá);語音探測;語音信號;聲學(xué)傳感器
語音信號是人體重要的生理信號之一,也是人類進(jìn)行交流必不可少的信息交流手段。因此,研究語音信號的有效探測技術(shù)具有重要意義。目前,語音信號的探測技術(shù)按聲波的傳播媒介可分為空氣傳導(dǎo)和非空氣傳導(dǎo)技術(shù)兩類。空氣傳導(dǎo)探測技術(shù)的主要代表是傳統(tǒng)麥克風(fēng)傳感器,其原理是語音信號的振動傳遞到麥克風(fēng)振膜上,將變動的壓力波轉(zhuǎn)換為電信號而獲取語音信號的裝置,已被廣泛應(yīng)用于人類生活的諸多領(lǐng)域。然而,該探測技術(shù)極易受到周圍環(huán)境噪聲和聲音噪聲的干擾,而且該語音探測技術(shù)的探測距離較短。接觸式非空氣傳導(dǎo)探測技術(shù)以喉部送話器為代表,它將喉部送話器緊貼使用者的喉部,使用者說話時聲帶振動,引起喉部送話器電壓發(fā)聲變化,使得振動信號轉(zhuǎn)換為語音信號。該探測技術(shù)的優(yōu)點在于空氣傳導(dǎo)的聲波對其無影響,因此,該類探測裝置具有較強(qiáng)的抗噪聲干擾能力。然而,像喉部送話器等非空氣傳導(dǎo)探測技術(shù)需要緊貼人體皮膚,往往使人體活動受到限制且舒適度較低。激光多普勒語音探測技術(shù)作為非接觸式非空氣傳導(dǎo)語音探測技術(shù),已有學(xué)者將此方法成功應(yīng)用語音探測中。雖然激光、紅外等光學(xué)語音探測傳感器能夠?qū)崿F(xiàn)遠(yuǎn)距離無接觸探測,但是這類光學(xué)傳感器極易受溫度、氣候等環(huán)境因素影響。以上語音探測技術(shù)各自的缺點制約了人體語音信號的獲取。
近年來,一種新的非接觸式的生命探測技術(shù)逐漸得到廣泛重視,該探測技術(shù)不受環(huán)境溫度、氣候等條件的影響,能夠非接觸、非侵入、安全、高靈敏度、高方向性的探測遠(yuǎn)距離物體微動信號。國內(nèi)外學(xué)者稱該技術(shù)為“生物雷達(dá)”。生物雷達(dá)技術(shù)自提出以來,已在人體生命體征呼吸、心跳等檢測方面得到了廣泛應(yīng)用,并取得了較好的成果。而將其應(yīng)用于語音信號探測是一項較新的研究。
2.1 空氣傳導(dǎo)式語音探測技術(shù)
早在1857年,法國發(fā)明家斯科特發(fā)明了一種語音描記器,第1次將聲音記錄到固定的媒介中,該裝置的發(fā)明成為了傳統(tǒng)語音探測技術(shù)麥克風(fēng)傳感器發(fā)展的開端。1925年,貝爾實驗室中的E.C.Wente等人研究出第1支電容式麥克風(fēng)[1],它有足夠的靈敏度與頻寬可將各種聲音轉(zhuǎn)換成電氣訊號,該麥克風(fēng)成了當(dāng)時實用可行的原始電氣錄音設(shè)備。在這之后,很多學(xué)者開始致力于麥克風(fēng)語音探測裝置的研究,電動式,壓電、壓敏電阻式,接觸式等麥克風(fēng)語音探測技術(shù)應(yīng)運(yùn)而生[2];例如,1983年Royer等利用硅微機(jī)械加工技術(shù)研制了一種壓電式麥克風(fēng)[3],該麥克風(fēng)具有較高的靈敏度和較寬的頻率范圍。1997年,Pedersen等用新材料聚酰亞胺研制了一種硅電容式麥克風(fēng)[4]。2001年,Kronast等研制了一種高度敏感的氮化硅膜的硅電容式麥克風(fēng)[5]。
麥克風(fēng)語音探測技術(shù)經(jīng)過不斷的發(fā)展,無論在設(shè)計還是探測性能方面都得到了很大發(fā)展,并且已廣泛應(yīng)用于人類生活各個方面。然而,麥克風(fēng)語音探測技術(shù)在獲取有用信號的同時,大量聲學(xué)噪聲往往也被捕獲,這些噪聲信號極大地降低了語音信號的質(zhì)量。因此,周圍環(huán)境噪聲干擾在一定程度上限制了靠空氣傳導(dǎo)的語音探測技術(shù)的發(fā)展。
2.2 非空氣傳導(dǎo)接觸式語音探測技術(shù)
1986年,Ingalls發(fā)明了一種名為喉部送話器的語音探測裝置,并申請了專利[6]。該非空氣傳導(dǎo)的接觸式語音探測技術(shù)主要是將喉部送話器緊貼人體喉部,當(dāng)人體發(fā)音時聲帶的振動會引起喉部皮膚振動,該振動信號傳遞到喉部送話器后,喉部送話器可將該振動信號轉(zhuǎn)化為電信號,即得到語音信號。喉部送話器語音探測技術(shù)不受空氣傳導(dǎo)噪聲的影響,具有較強(qiáng)的抗噪聲干擾能力。因此,在飛機(jī)、坦克等環(huán)境噪聲較大的場合得到了廣泛應(yīng)用。為了提高在強(qiáng)噪聲環(huán)境下的語音識別能力,Shahina等用喉部送話器進(jìn)行了語音識別研究,實驗結(jié)果表明基于喉部送話器的語音識別系統(tǒng)在強(qiáng)噪聲環(huán)境下具有較好的識別效果[7]。
另一類非空氣傳導(dǎo)的接觸式語音探測典型裝置是骨傳導(dǎo)麥克風(fēng)[8]。骨傳導(dǎo)麥克風(fēng)是將聲帶的振動經(jīng)過顱骨傳輸給麥克風(fēng),從而獲得語音信號。該探測技術(shù)的優(yōu)點在于聲波信號的采集與現(xiàn)場周圍的環(huán)境噪聲毫無關(guān)系,因此,可以有效獲取高質(zhì)量語音信號。1986年,Hough等人研制了一種骨傳導(dǎo)助聽器設(shè)備,用于克服由于內(nèi)耳損傷、病變等造成的聲音傳導(dǎo)機(jī)制受阻造成的聽力損失[9]。2013年,張杰將骨傳導(dǎo)聽說技術(shù)應(yīng)用于煤礦應(yīng)急救援,提高了煤礦應(yīng)急救援的安全性和可靠性[10]。
以上研究表明,喉部送話器和骨傳導(dǎo)麥克風(fēng)等非空氣傳導(dǎo)的接觸式語音探測技術(shù)具有較強(qiáng)的抗環(huán)境噪聲干擾能力,在強(qiáng)噪聲環(huán)境下具有較好的應(yīng)用前景。然而,這類語音探測裝置常常佩戴于人體喉部或者頭部,需要與人體直接接觸,極大地限制了人體的自由活動,而且長時間佩戴會影響人體舒適度,此外,該類裝置在一些特殊場合會增加人們的緊張情緒。
2.3 非空氣傳導(dǎo)非接觸式語音探測技術(shù)
近年來,一種非空氣傳導(dǎo)非接觸式的光學(xué)探測技術(shù)得到了發(fā)展,這類探測技術(shù)能夠克服靠空氣傳導(dǎo)和非空氣傳導(dǎo)接觸式語音探測技術(shù)的缺點,具有遠(yuǎn)距離、抗干擾、非接觸式探測等優(yōu)點,已有學(xué)者將其應(yīng)用于語音信號的檢測。2006年,Li等人將激光多普勒測振儀(LDV)應(yīng)用于語音信號探測,并利用維納濾波對激光語音信號進(jìn)行了增強(qiáng)[11]。2011年,Avargel等人利用激光多普勒測振儀進(jìn)行了語音探測實驗研究,實驗結(jié)果表明當(dāng)激光波束對準(zhǔn)人體喉部時,該語音探測裝置可以探測到頻率上限為1.5~2.0 kHz的語音信號[12]。尚建華等人在聲源前放置一塊玻璃,進(jìn)行了利用激光多普勒測振儀探測由聲源振動引起玻璃振動的聲音信號實驗,實驗結(jié)果表明:該探測技術(shù)可以獲得25 m以外的語音信號[13]。
以上研究表明光學(xué)語音探測技術(shù)能夠有效探測到遠(yuǎn)距離的語音信號。然而,這類語音探測技術(shù)存在光路對準(zhǔn)困難,易受溫度等環(huán)境條件影響[14],而且這類光學(xué)材料往往價格昂貴,往往難以獲得[15],此外,使用激光危險性較大,當(dāng)激光輸出功率在5 mW以上時,已處于激光安全等級的3a級[16]。這些不足在一定程度上阻礙了光學(xué)語音探測技術(shù)的發(fā)展。因此,迫切需要研制一種更新的語音探測技術(shù),能夠克服上述語音探測技術(shù)存在的缺點,且可以有效獲得語音信號的探測方法。
基于生物雷達(dá)的非接觸信號探測技術(shù)以電磁波為探測媒介,當(dāng)電磁波到達(dá)人體時,經(jīng)人體生理活動引起的體表微動調(diào)制,引起電磁波相位、頻率發(fā)聲改變,通過對接收的雷達(dá)回波信號進(jìn)行解調(diào),即可獲得人體生理信號。1971年Caro等首次利用連續(xù)波體制雷達(dá)監(jiān)測人體呼吸[17],自此廣大研究者開始將其應(yīng)用人體生命體征的監(jiān)測[18–21]。此外,將生物雷達(dá)應(yīng)用于語音信號探測作為一種新技術(shù)也得到很多研究者的關(guān)注。
據(jù)文獻(xiàn)報道,將生物雷達(dá)應(yīng)用于語音信號探測研究的開端是1996年,中國東南大學(xué)黎宗文等首次利用40 GHz毫米波雷達(dá)成功探測到自由空間人體語音信號[15]。同時他提出60 GHz或者90 GHz等更高頻的毫米波將在語音信號獲取方面優(yōu)于40 GHz毫米波雷達(dá)。然而并沒有從根本上回答該技術(shù)探測語音的原理,后續(xù)也無更新報道。
1994年,McEwan研制出一種低功率電磁波(ElectroMagnetic Wave, EMW)雷達(dá)傳感器,并申請了發(fā)明專利[22],該雷達(dá)具有低功耗、非侵入性、安全、快速、便攜、低成本等優(yōu)點。1996年Holzrichter等將該EM雷達(dá)傳感器應(yīng)用于語音的編碼、識別及合成[23]。1997年,該課題組又將該EM雷達(dá)傳感器應(yīng)用于人體發(fā)聲器官的測量[24]。在此項研究中,他們用一個工作頻率為2.3 GHz,輸出功率為毫瓦級的EM雷達(dá)傳感器測量人體發(fā)音時聲帶、嘴唇、下巴、舌頭等聲道組織的運(yùn)動。并與電聲門圖(Electroglottography)測量結(jié)果進(jìn)行了對比實驗,實驗發(fā)現(xiàn)EM雷達(dá)傳感器和電聲門圖測量結(jié)果具有一致性。此外,該研究還說明EM傳感器在語音識別、合成、診斷等與語音相關(guān)的研究方面具有重要的應(yīng)用前景。1999年,Burnett等人用EM雷達(dá)傳感器檢測人體發(fā)聲時氣管后壁組織的運(yùn)動[25]。他們用雷達(dá)探測的氣管后壁組織運(yùn)動信號確定聲道的聲音激勵函數(shù),從而計算出準(zhǔn)確的基音信息。用獲取的激勵函數(shù)和錄制的音頻信號確定聲道振動的傳遞函數(shù)。研究表明由此確定的傳遞函數(shù)可以作為新的特征向量提高語音識別器和合成器的性能。此外,由于EM雷達(dá)傳感器在檢測聲門運(yùn)動方面具有較好的應(yīng)用前景,Burnett等命名這種EM雷達(dá)傳感器為GEMS(Glottal Electromagnetic Micropower Sensors)。2000年,該研究組將GEMS信號和聲音信號相結(jié)合有效去除了聲音信號中的噪聲[26]。Titze等人通過實驗對比發(fā)現(xiàn)將EM雷達(dá)傳感器放置于靠近人體喉部附近時,EM雷達(dá)傳感器測量的振動信號與電聲門圖具有較高的相似性[27]。2002年,Staderini等人用超寬譜(Ultra WideBand, UWB)雷達(dá)對人體心臟運(yùn)動、人體發(fā)聲功能等進(jìn)行了評估和監(jiān)測[28]。為了進(jìn)一步驗證EM雷達(dá)傳感器所測量發(fā)聲器官振動的信號源,2005年,Holzrichter通過一組特殊實驗驗證了EM雷達(dá)傳感器所探測的發(fā)聲器官的振動源主要是聲帶[29]。
2009年,Ahmed和Wallace等人用UWB雷達(dá)對唇、舌頭、聲門等器官的位置和運(yùn)動進(jìn)行探測,并通過實驗說明了超寬譜語音感知技術(shù)在語音合成、語音識別等研究中的有效性[30]。
2010年,臺灣國立中正大學(xué)張盛富教授課題組,用發(fā)射頻率為925 MHz的零差拍連續(xù)波雷達(dá)探測人體說話時聲帶振動信號。在實驗中,雷達(dá)與麥克風(fēng)同步采集人體聲帶振動信號,實驗結(jié)果表明,該雷達(dá)能夠有效探測人體說話時聲帶振動信號[31]。
以上研究表明生物雷達(dá)技術(shù)在聲道發(fā)音器官測量方面得到了廣泛的應(yīng)用,并取得了一定的研究成果。除此之外,有學(xué)者將生物雷達(dá)技術(shù)應(yīng)用于語音增強(qiáng)、語音端點檢測以及聲音信號的測量。2004年Hu用GEMS和聲音傳感器同步采集語音信號,然后用聲門相關(guān)性(Glottis CORRelation, GCORR)方法對單聲道的語音信號進(jìn)行增強(qiáng),實驗結(jié)果表明GCORR能夠有效增強(qiáng)低信噪比時的語音信號[32]。2005年,該研究小組用一種聲音多普勒雷達(dá)有效區(qū)分了人體語音的發(fā)聲段和靜默段[33],實驗表明該雷達(dá)可以有效提高語音端點檢測性能。然而,文獻(xiàn)對該聲音多普勒雷達(dá)系統(tǒng)未做詳細(xì)的闡述。2006年,Quatieri等人將多傳感器(GEMS、骨傳導(dǎo)麥克風(fēng)、生理麥克風(fēng)、EGG)信息融合,有效地提高了語音編碼器在強(qiáng)噪聲環(huán)境下的可懂度[34]。2005年,Anderson研究組將GEMS應(yīng)用于線性語音編碼器(Mixed Excitation Linear Prediction, MELP)的語音增強(qiáng)[35]。Xiao等人用一種低功率的Ka波段多普勒雷達(dá)探測人體呼吸和心跳信號,并取得較好的效果,此外,他們通過改變?yōu)V波電路對聲音信號進(jìn)行了探測實驗,實驗表明該雷達(dá)可以檢測到100 Hz的聲音信號[36]。
以上關(guān)于生物雷達(dá)探測技術(shù)的應(yīng)用研究充分說明了雷達(dá)傳感器在語音探測方面的可行性和有效性。然而這些研究的重心主要是測量人體發(fā)音器官的運(yùn)動,然而將雷達(dá)傳感器直接應(yīng)用于人體語音信號的探測未見詳細(xì)報道。
第四軍醫(yī)大學(xué)王健琪教授領(lǐng)導(dǎo)的課題組從1998年開始了連續(xù)波雷達(dá)語音探測技術(shù)的研究。該課題組于2006年研制出第1代非接觸式雷達(dá)語音探測平臺,該雷達(dá)能成功探測到自由空間人體語音信號[37]。由于第1代雷達(dá)語音探測系統(tǒng)容易因電磁耦合而產(chǎn)生信號形變,因此該體制雷達(dá)探測到的語音信號質(zhì)量較差。為解決第1代雷達(dá)語音探測系統(tǒng)存在的不足,該課題組于2007年研制了第2代雷達(dá)語音探測系統(tǒng)[38]。第2代雷達(dá)語音探測系統(tǒng)采用超外差式雙天線結(jié)構(gòu),在探測性能方面較第1代雷達(dá)語音探測系統(tǒng)有了較明顯的提高。然而,以上兩代生物雷達(dá)語音探測技術(shù)存在采集的語音信號高頻分量不充分,可懂度低等問題。文獻(xiàn)[39]提出,在生理信號探測方面,與Ka波段的雷達(dá)相比,W波段(75~110 GHz)雷達(dá)能夠在探測范圍和靈敏度兩方面提供一個最佳折衷。因此,該課題組在2013年以來,采用了一種基于94 GHz的生物雷達(dá)進(jìn)行語音探測技術(shù)的研究[40]。
假設(shè)連續(xù)波雷達(dá)發(fā)射天線發(fā)射的單頻信號為:
其中,A是發(fā)射信號振動幅度,f0是發(fā)射信號的頻率,θ1是初始相位。當(dāng)發(fā)射信號到達(dá)與其距離為d0的人體喉部時,由d0引起的回波信號相位變化為θ2,經(jīng)人體喉部振動x(t)調(diào)制引起回波信號相位變化為4πx(t)/λ0,則接收天線接收的回波信號可表示為:
其中,λ0=c/f0, c是光速,K是發(fā)射信號振動幅度的衰減系數(shù)。雷達(dá)回波信號與發(fā)射信號進(jìn)行混頻:
經(jīng)低通濾波、濾除直流后可得基帶信號為:
其中,Δθ是由發(fā)射信號與喉部距離d0產(chǎn)生的相位偏移。當(dāng)人體喉部微動所引起的位移x(t)遠(yuǎn)小于雷達(dá)波長時,且Δθ是π/2奇數(shù)倍時,基帶信號可以表示為:
此時,人體喉部振動的信息即包含于解調(diào)后基帶信號中,通過處理即可獲得語音信號。
5.1 生物雷達(dá)語音探測系統(tǒng)
人體發(fā)聲時喉部振動幅度為毫米級,由式(5)可知當(dāng)雷達(dá)波的波長較短時,才能夠有效的解調(diào)出語音信號,又根據(jù)文獻(xiàn)[15]的實驗研究啟示,本課題組研制了毫米波體制雷達(dá)進(jìn)行語音探測技術(shù)研究。毫米波雷達(dá)即波長為1~10 mm電磁波,毫米波雷達(dá)具有分辨率高、抗干擾能力強(qiáng)以及方向性好等優(yōu)點。然而,毫米波在空氣中傳播會受到水蒸氣H2O和氧分子O2吸收和散射,從而造成電磁波的衰減。這些氣體分子對某些頻率的毫米波吸收較多而造成雷達(dá)波衰減的現(xiàn)象,稱為在該頻率的“吸收峰”。因此,在這些“吸收峰”附近頻段的毫米波會嚴(yán)重衰減。在這些“吸收峰”頻段內(nèi)存在衰減為極小值的頻段,我們稱這些極小值頻段為毫米波的“大氣窗口”,這些窗口的中心頻率有35 GHz, 94 GHz, 140 GHz和220 GHz[41]。
本課題組于2006年研制出第1代非接觸式語音探測平臺。生物雷達(dá)語音探測技術(shù)的主要組成部分是雷達(dá)收發(fā)前端系統(tǒng),雷達(dá)收發(fā)前端系統(tǒng)體制和工作模式不同,語音信號的獲取能力也不同。第1代實驗平臺為零差拍體制[37],發(fā)射頻率為34 GHz的連續(xù)波雷達(dá),其收發(fā)前端框圖如圖1所示。
圖1 零差拍雷達(dá)系統(tǒng)收發(fā)前端框圖Fig. 1 Block diagram of transceiver front-end for the homodyne radar system
當(dāng)壓控振蕩器(VCO)產(chǎn)生正弦連續(xù)波信號,經(jīng)定向耦合器將該信號分為兩路,一路作為輻射輸出信號,一路作為本振信號。輻射輸出信號經(jīng)環(huán)形器和調(diào)配器輸送至天線。發(fā)射信號到達(dá)人體喉部,經(jīng)反射由天線接收。接收信號經(jīng)調(diào)配器和環(huán)形器后送入混頻器并與本振信號進(jìn)行差拍形成差拍信號,差拍信號經(jīng)后端系統(tǒng)處理后獲得語音信號。
該雷達(dá)系統(tǒng)工作參數(shù)如表1所示。
表1 零差拍雷達(dá)系統(tǒng)工作參數(shù)Tab. 1 Working parameters of the homodyne radar system
基于零差拍體制雷達(dá)的收發(fā)前端系統(tǒng)容易受定向耦合器、環(huán)形器、調(diào)配器等的影響。且該體制語音探測系統(tǒng)采用單天線作為接發(fā)天線,因此,發(fā)射信號和接收信號無法被環(huán)形器完全隔離,此時部分發(fā)射信號會進(jìn)入接收機(jī),從而影響語音探測質(zhì)量。
針對第1代雷達(dá)語音探測系統(tǒng)的缺點。2007年,本課題組研制了第2臺雷達(dá)語音探測技術(shù)。該實驗平臺為超外差連體制[38],發(fā)射頻率為35.5 GHz。該雷達(dá)收發(fā)前端框圖如圖2所示。
圖2 超外差雷達(dá)系統(tǒng)收發(fā)前端框圖Fig. 2 Block diagram of transceiver front-end for the superheterodyne radar system
該超外差體制雷達(dá)前端收發(fā)系統(tǒng)主要由壓控振蕩器、晶振源、上變頻器、下變頻器、混頻器、功分器、中頻放大器、低噪聲放大器、接收天線和發(fā)射天線構(gòu)成。在發(fā)射端,首先由壓控振動器(VCO)產(chǎn)生頻率為34.5 GHz的正弦信號,與晶振源產(chǎn)生的1 GHz的信號進(jìn)行上變頻得到35.5 GHz信號,經(jīng)過濾波電路將其注入發(fā)聲機(jī)通過發(fā)射天線發(fā)射出工作頻率為35.5 GHz的電磁波。在接收端,當(dāng)電磁波經(jīng)人體喉部皮膚振動反射,接收天線接收到帶有語音信號的回波信號,經(jīng)低噪聲放大器(LNA)放大,然后與VCO產(chǎn)生的34.5 GHz的正弦波信號進(jìn)行下變頻,而后經(jīng)中頻放大器放大與晶振源產(chǎn)生的1 GHz信號進(jìn)行混頻,經(jīng)計算機(jī)處理、D/A和A/D轉(zhuǎn)化得到語音信號。
超外差體制雷達(dá)系統(tǒng)發(fā)射模塊頻率源不是直接傳送至射頻發(fā)射單元,而是采用超外差方式,通過上變頻器將34.5 GHz 的高穩(wěn)定性、低噪聲VCO與1 GHz的晶振輸出信號混頻產(chǎn)生所需的35.5 GHz射頻頻率,并采用功率調(diào)整器將源發(fā)射功率提高到100 mW以上,提升了系統(tǒng)探測語音信號的能力。
該雷達(dá)系統(tǒng)工作參數(shù)如表2所示。
表2 超外差雷達(dá)系統(tǒng)工作參數(shù)Tab. 2 Working parameters of the superheterodyne radar system
以上兩種體制雷達(dá)為語音探測提供了廣闊的研究思路。然而,以上兩代生物雷達(dá)語音探測技術(shù)存在采集的語音信號高頻分量不充分,可懂度低等問題。因此,本課題組自2013年開始,將一種發(fā)射頻率為94 GHz的生物雷達(dá)應(yīng)用于語音信號探測[40]。其收發(fā)前端框圖如圖3所示。
圖3 94 GHz雷達(dá)系統(tǒng)收發(fā)前端框圖Fig. 3 Block diagram of transceiver front-end for the 94 GHz radar system
該94 GHz生物雷達(dá)收發(fā)前端系統(tǒng)的主要由介質(zhì)振蕩器、倍頻器、帶通濾波器、鎖頻放大器、平衡混頻器、低噪聲放大器、功率放大器和功分器以及收發(fā)天線組成。系統(tǒng)工作的基本原理如下:由介質(zhì)振蕩器發(fā)射出頻率為7.23 GHz的本振信號,經(jīng)功率放大器和功分器后注入發(fā)射和接收模塊,在發(fā)射模塊,經(jīng)倍頻器(×13)倍頻后得到94 GHz的高頻信號,然后被發(fā)射天線發(fā)出,經(jīng)人體喉部微動調(diào)制將信號反射。在接收模塊,介質(zhì)振蕩器發(fā)射的7.23 GHz本振信號經(jīng)倍頻器(×12)倍頻后得到86.7 GHz的高頻信號,此高頻信號與接收天線接收的高頻信號進(jìn)行混頻得到7.23 GHz的中頻信號。然后將得到的中頻信號經(jīng)低噪聲放大器放大后與本振信號混頻,得到I和Q兩路輸出經(jīng)A/D采集后進(jìn)入電腦,即可獲得語音信號。
該雷達(dá)系統(tǒng)收發(fā)前端工作參數(shù)如表3所示。
表3 94 GHz生物雷達(dá)系統(tǒng)工作參數(shù)Tab. 3 Working parameters of the 94 GHz radar system
5.2 生物雷達(dá)語音探測性能對比分析
為對比分析上述3種體制生物雷達(dá)語音探測系統(tǒng)的探測性能,采用一名男性對象在安靜的環(huán)境下用耳麥進(jìn)行錄音,錄音語句為“第四軍醫(yī)大學(xué)”,為了保證在相同實驗環(huán)境,相同距離,聲源發(fā)音的一致性,利用體積為15 cm×12 cm×20 cm的音箱播放錄音語句,并在聲源距采集系統(tǒng)2 m和10 m處與麥克風(fēng)同步采集語音信號。實驗中,聲源需要與采集系統(tǒng)的天線中心保持同等高度,并用激光筆調(diào)整雷達(dá)天線的方向,使其中心對準(zhǔn)聲源。
圖4是4種語音探測系統(tǒng)采集的2 m處語音信號的時域波形和語譜圖。其中圖4(a),圖4(e)是麥克風(fēng)語音信號,圖4(b),圖4(f)是零差拍雷達(dá)語音信號,圖4(c),圖4(g)是超外差雷達(dá)語音信號,圖4(d),圖4(h)是94 GHz雷達(dá)語音信號。由圖4可以看出,4種語音探測技術(shù)都可有效探測到2 m處的語音信號。此外,從時域波形和語譜圖都可以觀察到麥克風(fēng)采集的語音信號包含大量的噪聲,語音信號信噪比較低。相比麥克風(fēng)語音信號,雷達(dá)語音信號所含噪聲較小。由此可以看出,生物雷達(dá)語音探測技術(shù)相比麥克風(fēng)語音探測技術(shù)具有較強(qiáng)的抗聲學(xué)噪聲干擾能力。
圖5是4種語音探測系統(tǒng)采集的10 m處的語音信號的時域波形和語譜圖。其中圖5(a),圖5(e)是麥克風(fēng)語音信號,圖5(b),圖5(f)是零差拍雷達(dá)語音信號,圖5(c),圖5(g)是超外差雷達(dá)語音信號,圖5(d),圖5(h)是94 GHz雷達(dá)語音信號。圖4和圖5對比發(fā)現(xiàn),隨著探測距離的增加,4種語音探測系統(tǒng)都丟失了部分高頻分量,但是仍然可以獲取到語音信號。同時,還可以看出,94 GHz雷達(dá)所含的噪聲信號相對于34 GHz兩種體制生物雷達(dá)明顯較小。這是由于94 GHz雷達(dá)的波束角為1°,而34 GHz生物雷達(dá)的波束角為9°。也就是說94 GHz雷達(dá)具有更強(qiáng)的方向性,因此其抗周圍聲學(xué)噪聲干擾較強(qiáng)。此外,由于發(fā)射頻率越高,回波信號的相位變化越大,所探測的微動信號的靈敏度越高。圖4與圖5的結(jié)果還顯示出超外差語音探測雷達(dá)所含噪聲較零差拍雷達(dá)較小,這是由于超外差體制雷達(dá)接收器可以減小直流偏置和1/f 噪聲的影響。
圖4 2 m處語音信號的4種時域波形和語譜圖Fig. 4 The waveforms and the spectrograms of a speech material (2 m)
圖5 10 m處語音信號的4種時域波形和語譜圖Fig. 5 The waveforms and the spectrograms of a speech material (10 m)
綜上所述,生物雷達(dá)語音探測技術(shù)具有較強(qiáng)的抗聲學(xué)噪聲干擾的能力,能夠非接觸有效地探測遠(yuǎn)距離語音信號。
生物雷達(dá)技術(shù)已在災(zāi)害救援、城市反恐以及臨床生命體征監(jiān)測等場合得到應(yīng)用,而將生物雷達(dá)技術(shù)應(yīng)用于語音探測領(lǐng)域仍是一項較新的研究。生物雷達(dá)語音探測技術(shù)為語音信號的獲取提供了一種新途徑,該探測技術(shù)在一定程度上彌補(bǔ)了麥克風(fēng)等傳統(tǒng)語音探測技術(shù)的缺點,具有探測距離遠(yuǎn)、方向性好、抗聲學(xué)噪聲干擾能力強(qiáng)等優(yōu)點。
生物雷達(dá)語音探測是涉及生物雷達(dá)、人體語音及微弱信號檢測等多個學(xué)科的前沿交叉研究領(lǐng)域。生物雷達(dá)技術(shù)在語音探測方面的研究主要有2個方面:一是語音信號的探測;二是發(fā)音器官振動信號的檢測。從國內(nèi)外研究進(jìn)展來看,目前用生物雷達(dá)進(jìn)行語音信號探測及發(fā)音器官振動信號的接觸檢測方面的研究已取得一定成果。然而,在發(fā)音器官振動信號的非接觸檢測方面的研究還未見文獻(xiàn)報道。因此,利用生物雷達(dá)語音探測技術(shù)進(jìn)一步研究發(fā)音器官振動信號的非接觸檢測具有重要意義。此外,生物雷達(dá)語音探測技術(shù)在發(fā)音器官的疾病診斷、嗓音檢測、語音識別、語音合成、語音編碼等領(lǐng)域具有重要的應(yīng)用前景。
[1]Wente E C. A condenser transmitter as a uniformly sensitive instrument for the absolute measurement of sound intensity[J]. Physical Review, 1917, 10(1): 39.
[2]Scheeper P R, Van der Donk A G H, Olthuis W, et al.. A review of silicon microphones[J]. Sensors and Actuators A: Physical, 1994, 44(1): 1–11.
[3]Royer M, Holmen J O, Wurm M A, et al.. ZnO on Si integrated acoustic sensor[J]. Sensors and Actuators, 1983, 4: 357–362.
[4]Pedersen M, Olthuis. W, and Bergveld P. A silicon condenser microphone with polyimide diaphragm and backplate[J]. Sensors and Actuators A: Physical, 1997, 63: 97–104.
[5]Kronast W, Müller B, Siedel W, et al.. Single-chip condenser microphone using porous silicon as sacrificial layer for the air gap[J]. Sensors and Actuators A: Physical, 2001, 87(3): 188–193.
[6]Wu C Y, Chen J M, and Kuo C F. Low polarization voltage and high sensitivity CMOS condenser microphone using stress relaxation design[J]. Procedia Chemistry, 2009, 1(1): 859–862.
[7]Shahina A and Yegnanarayana B. Language identification in noisy environments using throat microphone signals[C]. IEEE Proceedings of 2005 International Conference on Intelligent Sensing and Information Processing, 2005: 400–403.
[8]Santori C M. Bone conduction microphone assembly[P]. Washington, DC, US, 1974: 1974-01-22.
[9]Hough J V D, Richard G L, Barton Jr K E, et al.. Direct bone conduction hearing aid device[P]. Washington, DC, US, 1986-09-23.
[10]張杰. 骨傳導(dǎo)聽說技術(shù)在煤礦應(yīng)急救援的應(yīng)用[J]. 煤炭科學(xué)技術(shù), 2013, 41(8): 95–98. Zhang Jie. Application of bone conduction heared technology in coal mine emergency rescue[J]. Coal Science of Technology, 2013, 41(8): 95–98.
[11]Li W, Liu M, Zhu Z, et al.. LDV remote voice acquisition and enhancement[C]. IEEE 18th International Conference on Pattern Recognition, 2006, 4: 262–265.
[12]Avargel Y and Cohen I. Speech measurements using a laser Doppler vibrometer sensor: Application to speech enhancement[C]. Proceedings of the Hands-Free Speech Communication and Microphone Arrays, Edinburgh, Scotland, 2011: 109–114.
[13]Shang J, He Y, Liu D, et al.. Laser Doppler vibrometer for real-time speech-signal acquirement[J]. Chinese Optics Letters, 2009, 7(8): 732–733.
[14]Bakhtiari S, Gopalsami N, Elmer T W, et al.. Millimeter wave sensor for far-field standoff vibrometry[C]. Proceedings of the 35th Annual Review of Progress in Quantitative Nondestructive Evaluation, Chicago, IL, USA, 2008: 1641–1648.
[15]Li Z W. Millimeter wave radar for detecting the speech signal applications[J]. International Journal of Infrared and Millimeter Waves, 1996, 17(12): 2175–2183.
[16]Sharpe S M, Seals J, MacDonald A H, et al.. Non-contact vital signs monitorp[P]. Washington, DC, U.S., 1990.
[17]Caro C G and Bloice J A. Contactless apnoea detector based on radar[J]. The Lancet, 1971, 298(7731): 959–961.
[18]Chen K M, Huang Y, Zhang J, et al.. Microwave lifedetection systems for searching human subjects under earthquake rubble or behind barrier[J]. IEEE Transactions on Biomedical Engineering, 2000, 47(1): 105–114.
[19]Lohman B, Boric-Lubecke O, Lubecke V M, et al.. A digital signal processor for Doppler radar sensing of vital signs[J]. IEEE Engineering in Medicine and Biology Magazine, 2002,21(5): 161–164.
[20]王健琪, 王海濱, 荊西京, 等. 呼吸, 心率的雷達(dá)式非接觸檢測系統(tǒng)設(shè)計與研究[J]. 中國醫(yī)療器械雜志, 2001, 25(3): 132–135. Wang Jian-qi, Wang Hai-bin, Jing Xi-jing, et al.. The study on non-contact detection of breathing and heartbeat based on radar principles[J]. Chinese Journal of Medical Instrumentation, 2001, 25(3): 132–135.
[21]Wang Jianqi, Zheng Chongxun, Lu Guohua, et al.. A new method for identifying the life parameters via radar[J]. EURASIP Journal on Applied Signal Processing, 2007, 2007: 031415.
[22]McEwan T E. Ultra-wideband receiver[P]. Washington, DC: U.S., 1996-06-04.
[23]Holzrichter J F, Lea W A, McEwan T E, et al.. Speech coding, recognition, and synthesis using radar and acoustic sensors[R]. University of California Report UCRL-ID-123687, 1996.
[24]Holzrichter J F, Burnett G C, Ng L C, et al.. Speech articulator measurements using low power EM-wave sensors[J]. The Journal of the Acoustical Society of America, 1998, 103(1): 622–625.
[25]Burnett G C, Holzrichter J F, Ng L C, et al.. The use of Glottal Electromagnetic Micropower Sensors (GEMS) in determining a voiced excitation function[J]. The Journal of the Acoustical Society of America, 1999, 106(4): 2183–2184.
[26]Ng L C, Burnett G C, Holzrichter J F, et al.. Denoising of human speech using combined acoustic and EM sensor signal processing[C]. IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP’00, 2000, 1: 229–232.
[27]Titze I R, Story B H, Burnett G C, et al.. Comparison between electroglottography and electromagnetic glottography[J]. The Journal of the Acoustical Society of America, 2000, 107(1): 581–588.
[28]Staderini E M. UWB radars in medicine[J]. IEEE Aerospace and Electronic Systems Magazine, 2002, 17(1): 13–18.
[29]Holzrichter J F, Ng L C, Burke G J, et al.. Measurements of glottal structure dynamics[J]. The Journal of the Acoustical Society of America, 2005, 117(3): 1373–1385.
[30]Eid A M and Wallace J W. Ultrawideband speech sensing[J]. IEEE Antennas and Wireless Propagation Letters, 2009, 8: 1414–1417.
[31]Lin C S, Chang S F, Chang C C, et al.. Microwave human vocal vibration signal detection based on doppler radar technology[J]. IEEE Transactions on Microwave Theory and Techniques, 2010, 58(8): 2299–2306.
[32]Hu R and Anderson D V. Single acoustic-channel speech enhancement based on glottal correlation using non-acoustic sensor[C]. INTERSPEECH, 2004.
[33]Hu R and Raj B. A robust voice activity detector using an acoustic Doppler radar[C]. IEEE Workshop on Automatic Speech Recognition and Understanding, 2005: 319–324.
[34]Quatieri T F, Brady K, Messing D, et al.. Exploiting nonacoustic sensors for speech encoding[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(2): 533–544.
[35]Demiroglu C, Kamath S D, and Anderson D V. Segmentation-Based Speech Enhancement for Intelligibility Improvement in MELP Coders Using Auxiliary Sensors[C]. ICASSP (1), 2005: 797–800.
[36]Xiao Y, Lin J, Boric-Lubecke O, et al.. A Ka-band low power Doppler radar system for remote detection of cardiopulmonary motion[C]. IEEE Engineering in Medicine and Biology 27th Annual Conference, 2006: 7151–7154.
[37]劉誠睿, 王健琪, 荊西京, 等. 非接觸式語音探測系統(tǒng)[J]. 醫(yī)療衛(wèi)生裝備, 2006, 27(6): 28–29. Liu Cheng-rui, Wang Jian-qi, Jing Xi-jing, et al.. Noncontact speech detection system[J]. Chinese Medical Equipment Journal, 2006, 27(6): 28–29.
[38]Li S, Wang J Q, Niu M, et al.. Millimeter wave conduct speech enhancement based on auditory masking properties[J]. Microwave and Optical Technology Letters, 2008, 50(8): 2109–2114.
[39]Bakhtiari S, Elmer T W, Cox N M, et al.. Compact millimeter-wave sensor for remote monitoring of vital signs[J]. IEEE Transactions on Instrumentation and Measurement, 2012, 61(3): 830–841.
[40]Li S, Tian Y, Lu G, et al.. A 94-GHz millimeter-wave sensor for speech signal acquisition[J]. Sensors, 2013, 13(11): 14248–14260.
[41]蔣金, 陳長興, 周天翔, 等. 毫米波大氣窗口在臨近空間等離子體鞘套中的傳播特性[J]. 空間科學(xué)學(xué)報, 2016, 36(1): 56–62. Jiang Jin, Chen Chang-xing, Zhou Tian-xiang, et al.. Study on atmospheric window of millimeter wave propagation in near space plasma sheath[J]. Chinese Journal of Space Science, 2016, 36(1): 56–62.
Advancements in Bio-radar Speech Signal Detection Technology
Chen Fuming①Li Sheng②An Qiang①Zhang Ziqi①Wang Jianqi①
①(School of Biomedical Engineering, Fourth Military Medical University, Xi’an 710032)
②(College of Control Engineering, Xijing University, Xi’an 710123)
Speech signal acquisition is of great significance for human communication. Bio-radar technology has many advantages, such as it is noncontact, noninvasive, safe, highly directional, highly sensitivity, immune to strong acoustical disturbance and penetrable. This technology has important applications in the field of speech detection. In this paper, we first review the developmental history of speech detection technology, and then summarize the status of bio-radar speech detection technology. The basic principles of a bio-radar in detecting speech signals are given, and the performance of three types of bio-radar speech detection systems are compared in this paper. Finally, the potential applications of bio-radar speech signal detection technology are prospected. Key words: Bio-radar; Speech detection; Speech signal; Acoustic sensor
TN957.51
A
2095-283X(2016)05-0477-10
10.12000/JR16099
陳扶明, 李盛, 安強(qiáng), 等. 生物雷達(dá)語音信號探測技術(shù)研究進(jìn)展[J]. 雷達(dá)學(xué)報, 2016, 5(5): 477–486.
10.12000/JR16099.
Reference format: Chen Fuming, Li Sheng, An Qiang, et al.. Advancements in bio-radar speech signal detection technology[J]. Journal of Radars, 2016, 5(5): 477–486. DOI: 10.12000/JR16099.
2016-09-13;改回日期:2016-11-02;
2016-11-16
*通信作者:王健琪 wangjq@fmmu.edu.cn
國家自然科學(xué)基金(61327805, 61371163),陜西省工業(yè)科技攻關(guān)(2016GY-058)
陳扶明(1989–),男,甘肅人,第四軍醫(yī)大學(xué)生物醫(yī)學(xué)工程學(xué)院博士研究生,研究方向為生物雷達(dá)語音信號探測、生物雷達(dá)生理信號檢測。
E-mail: cfm5762@126.com
李 盛(1972–),男,副教授,博士,碩士生導(dǎo)師,研究方向為生命信息的獲取及處理。
E-mail: sheng@mail.xjtu.edu.cn
安 強(qiáng)(1990–),男,甘肅天水人,第四軍醫(yī)大學(xué)生物醫(yī)學(xué)工程學(xué)院博士生,研究方向為非接觸生理信號檢測和穿墻成像等。
Foundation Items: The National Natural Science Foundation of China (61327805, 61371163), The Key Industrial Science and Technology Program of Shaanxi Province, China (2016GY-058)