張瑛琪,彭大衛(wèi),李森,孫瑩,牛強(qiáng)
基于單標(biāo)簽射頻識(shí)別的唇語(yǔ)識(shí)別算法
張瑛琪,彭大衛(wèi),李森,孫瑩,牛強(qiáng)*
(中國(guó)礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116)(*通信作者電子郵箱niuq@cumt.edu.cn)
近年來(lái),有研究提出了使用多個(gè)定制且可拉伸的射頻識(shí)別(RFID)標(biāo)簽進(jìn)行語(yǔ)音識(shí)別的無(wú)線平臺(tái),但該標(biāo)簽難以精準(zhǔn)捕捉拉伸引起的大頻率偏移,而且需要探測(cè)多個(gè)標(biāo)簽,標(biāo)簽脫落或自然磨損時(shí)還須重新校準(zhǔn)。針對(duì)以上問(wèn)題,提出基于單標(biāo)簽RFID的唇語(yǔ)識(shí)別算法,將靈活、易于隱藏且沒(méi)有侵入性的單個(gè)通用RFID標(biāo)簽貼在臉上,即使用戶不發(fā)出聲音,僅依靠面部的微動(dòng)作也可進(jìn)行唇語(yǔ)識(shí)別。首先建立模型處理RFID閱讀器接收的單個(gè)標(biāo)簽隨時(shí)間和頻率響應(yīng)的接收信號(hào)強(qiáng)度(RSS)和相位變化,然后采用高斯函數(shù)對(duì)原始數(shù)據(jù)的噪點(diǎn)進(jìn)行平滑去噪預(yù)處理,再采用動(dòng)態(tài)時(shí)間規(guī)整(DTW)算法對(duì)收集到的信號(hào)特征進(jìn)行評(píng)估分析,以解決發(fā)音長(zhǎng)短不匹配的問(wèn)題;最后創(chuàng)建無(wú)線語(yǔ)音識(shí)別系統(tǒng)來(lái)識(shí)別區(qū)分與聲音相對(duì)應(yīng)的面部表情,從而達(dá)到識(shí)別唇語(yǔ)的目的。實(shí)驗(yàn)結(jié)果表明,對(duì)于識(shí)別不同用戶的200組數(shù)字信號(hào)特征,該方法的RSS準(zhǔn)確率可以達(dá)到86.5%以上。
射頻識(shí)別;唇語(yǔ)識(shí)別;單標(biāo)簽;接收信號(hào)強(qiáng)度;動(dòng)態(tài)時(shí)間規(guī)整
唇讀主要研究說(shuō)話者發(fā)音過(guò)程中口腔的變化。每個(gè)人的語(yǔ)言都有自己的特點(diǎn),言語(yǔ)過(guò)程中嘴巴的運(yùn)動(dòng)也有自己獨(dú)特的規(guī)律。這種規(guī)律包括一般特征和個(gè)體特征:一般特征指語(yǔ)音中常見(jiàn)的口腔運(yùn)動(dòng)規(guī)律,主要與語(yǔ)音內(nèi)容有關(guān),可以應(yīng)用于語(yǔ)音識(shí)別;個(gè)體特征與說(shuō)話者的生理特征和習(xí)慣有關(guān),主要用于說(shuō)話者的身份識(shí)別。早在1984年,Petajan等[1]就介紹了自動(dòng)唇讀系統(tǒng)進(jìn)行語(yǔ)音識(shí)別;1988年,在原有工作的基礎(chǔ)上,Petajan等[2]引入了矢量量化、動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)和一種新的啟發(fā)式距離測(cè)度,使語(yǔ)音識(shí)別系統(tǒng)的性能顯著提高。隨著對(duì)唇讀技術(shù)的研究,人們對(duì)嘴唇運(yùn)動(dòng)規(guī)律和生理特性的認(rèn)識(shí)也越來(lái)越深入。唇部作為人類面部最大的區(qū)域,包含著豐富的內(nèi)容和信息,包括唇形、膚色、肌膚紋理和語(yǔ)速等。唇部的運(yùn)動(dòng)可以充分反映說(shuō)話人的個(gè)性信息。其次,它可以充分結(jié)合人臉和語(yǔ)音特征,充分展示其在說(shuō)話人識(shí)別中的優(yōu)勢(shì)[3]。隨著計(jì)算機(jī)視覺(jué)、模式識(shí)別和信號(hào)處理等領(lǐng)域的技術(shù)進(jìn)步,基于射頻識(shí)別(Radio Frequency IDentification, RFID)的唇語(yǔ)識(shí)別成為可能。利用RFID進(jìn)行唇語(yǔ)識(shí)別時(shí),無(wú)需使用具有侵入性的面部傳感器,僅采用小巧且價(jià)格低廉的標(biāo)簽?;赗FID的唇語(yǔ)識(shí)別針對(duì)無(wú)法發(fā)聲的用戶也具有很好的魯棒性,且環(huán)境周圍的噪聲對(duì)實(shí)驗(yàn)影響較小。傳統(tǒng)的無(wú)線運(yùn)動(dòng)檢測(cè)更側(cè)重于手勢(shì)[4]或者身體的運(yùn)動(dòng)[5],本文提出的單標(biāo)簽RFID唇語(yǔ)識(shí)別算法可以識(shí)別到面部的微動(dòng)作,細(xì)粒度較高。
在RFID應(yīng)用中,貼上RFID標(biāo)簽的物品被密集地大規(guī)模放置。RFID標(biāo)簽是一個(gè)小型芯片,封裝在天線上。在掃描過(guò)程中,RFID閱讀器通電并發(fā)射連續(xù)波給標(biāo)簽通電;然后,標(biāo)簽通過(guò)調(diào)制反向散射信號(hào),以攜帶標(biāo)簽的信息響應(yīng)閱讀器,閱讀器則進(jìn)一步解碼信號(hào)并獲得相應(yīng)的信息[6]。由于擁有讀取速度較快、信息存儲(chǔ)量較大、應(yīng)用壽命較長(zhǎng)以及使用安全、可靠性較高等特點(diǎn),RFID被廣泛應(yīng)用于射頻門(mén)禁、電子溯源、產(chǎn)品防偽、醫(yī)療管理、交通運(yùn)輸、車牌識(shí)別以及商品銷售等領(lǐng)域。RFID系統(tǒng)包括硬件組件與軟件組件兩大部分:硬件組件包括閱讀器、射頻標(biāo)簽和網(wǎng)絡(luò)基礎(chǔ)設(shè)施等;軟件組件包括驅(qū)動(dòng)程序、RFID中間件和企業(yè)應(yīng)用軟件等。
文獻(xiàn)[7]中設(shè)計(jì)了多個(gè)定制標(biāo)簽利用RFID的方法進(jìn)行唇語(yǔ)特征識(shí)別,但該方法存在以下不足:1)所定制的標(biāo)簽天線長(zhǎng)度的變化較為敏感,即使只有1 mm的微小變化,也會(huì)使諧振頻率降低8 MHz,難以精準(zhǔn)捕捉拉伸引起的大頻率偏移;2)需要探測(cè)多個(gè)經(jīng)過(guò)特殊調(diào)整的標(biāo)簽;3)如果標(biāo)簽脫落或自然磨損,必須重新校準(zhǔn)。為了解決上述問(wèn)題,本文提出了一種采用通用單標(biāo)簽的語(yǔ)音識(shí)別方法。在系統(tǒng)正常運(yùn)行之前,需要解決幾個(gè)關(guān)鍵挑戰(zhàn):1)采用通用的RFID標(biāo)簽,該標(biāo)簽不具備可拉伸性;2)處理使用單個(gè)RFID標(biāo)簽收集到的信號(hào),并將其進(jìn)行分割,提取出信號(hào)的特征值進(jìn)行后續(xù)計(jì)算;3)標(biāo)簽的輕微移動(dòng)不應(yīng)影響實(shí)驗(yàn)的準(zhǔn)確性及魯棒性。
針對(duì)挑戰(zhàn)1),本文使用無(wú)電池供電且輕巧靈活的RFID標(biāo)簽粘貼在皮膚上,采用無(wú)需佩戴手動(dòng)輸入設(shè)備的RFID無(wú)線語(yǔ)音識(shí)別系統(tǒng),利用盡量少的標(biāo)簽識(shí)別用戶所能夠做出的與語(yǔ)音相關(guān)的嘴部動(dòng)作,并隨著時(shí)間的推移來(lái)學(xué)習(xí)這些動(dòng)作,以便識(shí)別用戶發(fā)出的不同聲音,進(jìn)而指導(dǎo)。雖然標(biāo)簽不可拉伸,但可以通過(guò)跟蹤單個(gè)標(biāo)簽隨時(shí)間的應(yīng)變來(lái)進(jìn)行識(shí)別,因?yàn)樗鼈儠?huì)根據(jù)不同的聲音以及嘴部微小的動(dòng)作產(chǎn)生不同的阻抗,這些阻抗會(huì)引起不同的相位和接收信號(hào)強(qiáng)度(Received Signal Strength, RSS),通過(guò)對(duì)這些變化的相位和RSS的處理與分析,來(lái)識(shí)別不同的語(yǔ)音。針對(duì)挑戰(zhàn)2),考慮到采集原始數(shù)據(jù)的環(huán)境具有各種噪聲,且原始數(shù)據(jù)很多時(shí)候不穩(wěn)定或有明顯波動(dòng),采用高斯函數(shù)對(duì)原始數(shù)據(jù)的噪點(diǎn)進(jìn)行平滑去噪預(yù)處理。由于每個(gè)人的發(fā)音方式、發(fā)音長(zhǎng)短各不相同,采用DTW算法對(duì)收集到的信號(hào)特征進(jìn)行“規(guī)整”對(duì)齊,解決了發(fā)音的音節(jié)長(zhǎng)短線性不一致、頻譜偏移和音強(qiáng)大小的問(wèn)題,并創(chuàng)建無(wú)線語(yǔ)音識(shí)別系統(tǒng)來(lái)識(shí)別區(qū)分與聲音相對(duì)應(yīng)的面部微表情。針對(duì)挑戰(zhàn)3),本文采用RSS替代相位進(jìn)行唇部特征值的提取。RSS對(duì)接收到的無(wú)線電信號(hào)中呈現(xiàn)的功率進(jìn)行測(cè)量,測(cè)量相對(duì)簡(jiǎn)單,而且相比相位,RSS對(duì)唇部動(dòng)作的變化較不敏感,故而標(biāo)簽的脫落之后再粘貼或面部表情導(dǎo)致的標(biāo)簽輕微移動(dòng)對(duì)實(shí)驗(yàn)結(jié)果影響不大。本文設(shè)計(jì)將薄薄的標(biāo)簽貼在用戶臉上,并使用化妝品進(jìn)行遮蓋隱藏。使用基于RFID的方法進(jìn)行評(píng)估分析,它所應(yīng)用的RFID標(biāo)簽較為靈活,且RFID相關(guān)部署較為簡(jiǎn)單,沒(méi)有受過(guò)專業(yè)訓(xùn)練的人也可以勝任。綜上,本文設(shè)計(jì)了可以通過(guò)一個(gè)小巧靈活的RFID標(biāo)簽來(lái)識(shí)別用戶(包括語(yǔ)音障礙患者)的預(yù)期語(yǔ)音系統(tǒng),主要工作包括:
1)通過(guò)處理閱讀器收集的來(lái)自不可拉伸的通用RFID標(biāo)簽的反向散射信號(hào)來(lái)進(jìn)行唇語(yǔ)識(shí)別算法研究;
2)僅檢測(cè)一個(gè)標(biāo)簽隨面部表情的信號(hào)變化并提取相關(guān)的相位和RSS特征值,利用高斯濾波和DTW等方法進(jìn)行數(shù)據(jù)的分析與處理;
3)進(jìn)行唇語(yǔ)識(shí)別實(shí)驗(yàn),對(duì)比不同標(biāo)簽角度、人臉朝向及用戶是否發(fā)聲對(duì)實(shí)驗(yàn)的影響。
文獻(xiàn)[8]將RFID標(biāo)簽進(jìn)行物理修改使其轉(zhuǎn)換為傳感器并用來(lái)監(jiān)測(cè)溫度、濕度;文獻(xiàn)[9]則利用配備傳感器的RFID標(biāo)簽監(jiān)測(cè)神經(jīng)信號(hào);文獻(xiàn)[10]的研究依賴標(biāo)簽的相位和RSS來(lái)精確跟蹤它們的位置,包括感知身體骨架、形狀和目標(biāo)成像;文獻(xiàn)[11]利用RFID標(biāo)簽通過(guò)感知標(biāo)簽芯片和天線之間的阻抗不匹配進(jìn)行手指觸摸跟蹤;文獻(xiàn)[12]利用近場(chǎng)天線的耦合效應(yīng)來(lái)區(qū)分位于RFID標(biāo)簽下的不同材料。與這些研究不同的是,本文試圖根據(jù)用戶臉上已知位置的標(biāo)簽的相位和RSS變化來(lái)識(shí)別用戶的唇語(yǔ),因此需要新的解決方案。
文獻(xiàn)[13]探索了一種視聽(tīng)融合策略,超越簡(jiǎn)單的特征拼接,提高了識(shí)別精度;基于攝像頭的唇讀解決方案,如文獻(xiàn)[14-15],需要提取獨(dú)立且有區(qū)分度的幾何特征,基于圖像、模型和運(yùn)動(dòng)的特征,較為復(fù)雜且對(duì)照明條件很敏感,而且在用戶移動(dòng)時(shí)可能無(wú)法實(shí)現(xiàn);基于音頻的輔助解決方案僅適用于用戶可以發(fā)出聲音的情況,對(duì)于不能發(fā)聲的語(yǔ)音障礙患者效果甚微;基于手語(yǔ)的輔助解決方案需要用戶熟練使用手語(yǔ),對(duì)語(yǔ)音障礙患者練習(xí)發(fā)聲用處不大;此外,多種用于言語(yǔ)感應(yīng)的面部傳感器被提出,比如在臨床環(huán)境中附在舌頭上的磁鐵[16]、腦電圖(ElectroEncephaloGram, EEG)[17]和面部肌電電極等,但這些設(shè)備具有侵入性并且需要經(jīng)過(guò)訓(xùn)練的專業(yè)醫(yī)護(hù)人員操作,對(duì)日常生活中的語(yǔ)音練習(xí)來(lái)說(shuō)較為昂貴。
文獻(xiàn)[18]中提出了基于超分辨率測(cè)試序列(Visual Geometry Group, VGG)的時(shí)空卷積神經(jīng)網(wǎng)絡(luò)用于將單詞分類。該體系結(jié)構(gòu)在一個(gè)字級(jí)數(shù)據(jù)集BBC-TV(333和500個(gè)類)上進(jìn)行了評(píng)估,結(jié)果顯示時(shí)空模型與空間體系結(jié)構(gòu)的差距約為14%;然而,該文獻(xiàn)中的唇讀模型不能處理可變的序列長(zhǎng)度,也不嘗試句子級(jí)的序列預(yù)測(cè)。文獻(xiàn)[19]中訓(xùn)練了一個(gè)用于學(xué)習(xí)預(yù)訓(xùn)練嘴特征的視聽(tīng)最大邊緣匹配模型,將其輸入到長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)中,用于在OuluVS2數(shù)據(jù)集上進(jìn)行10個(gè)短語(yǔ)分類,以及非唇讀任務(wù)。文獻(xiàn)[20]中介紹了用于唇讀的LSTM遞歸神經(jīng)網(wǎng)絡(luò),但既沒(méi)有解決句子級(jí)序列預(yù)測(cè)問(wèn)題,也沒(méi)有解決說(shuō)話人獨(dú)立性問(wèn)題,與說(shuō)話人相關(guān)的準(zhǔn)確率為79.6%。
隨著機(jī)器學(xué)習(xí)的發(fā)展,廣泛應(yīng)用于唇語(yǔ)識(shí)別的方法有隱馬爾可夫模型(Hidden Markow Model, HMM)、DTW算法、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)、深度學(xué)習(xí)(Deep Learning, DL)以及LSTM等。但目前利用深度學(xué)習(xí)進(jìn)行唇語(yǔ)識(shí)別的工作并不多,因?yàn)檫@類工作需要對(duì)幀進(jìn)行大量預(yù)處理以提取圖像特征,或進(jìn)行時(shí)間預(yù)處理以提取視頻特征(例如光流或運(yùn)動(dòng)檢測(cè))或其他類型的手工制作視覺(jué)管道。本文選擇采用DTW算法來(lái)進(jìn)行唇語(yǔ)識(shí)別。
標(biāo)簽的大小和FCC(Federal Communications Commission)讀距有很大的關(guān)系。標(biāo)簽越小,F(xiàn)CC讀距就越小,因此如果想要精準(zhǔn)地讀取數(shù)據(jù),標(biāo)簽和天線的距離需要減小;反之,標(biāo)簽越大,F(xiàn)CC讀距相對(duì)來(lái)說(shuō)就較大,但是過(guò)大的標(biāo)簽貼在用戶臉上不美觀,且更易脫落。因此,需要平衡好標(biāo)簽的大小與FCC讀距之間的關(guān)系。
當(dāng)標(biāo)簽連接到目標(biāo)時(shí),標(biāo)簽天線的阻抗會(huì)發(fā)生變化;而不同材料的目標(biāo)也會(huì)引起不同數(shù)量的阻抗變化,這種阻抗變化將導(dǎo)致從該標(biāo)簽反向散射信號(hào)的相位變化,并且還導(dǎo)致從該標(biāo)簽輻射的功率發(fā)生變化[21]。不過(guò)由于本文實(shí)驗(yàn)始終將標(biāo)簽貼在同一目標(biāo)——人臉上,因此,標(biāo)簽連接到目標(biāo)上產(chǎn)生的影響相互抵消,可忽略不計(jì)。
本文將輕量型、對(duì)皮膚友好且無(wú)電池的RFID標(biāo)簽貼在人的左(或右)臉頰上,每個(gè)標(biāo)簽都是柔韌、薄片狀的,并且由低過(guò)敏性材料制成,跟蹤單個(gè)標(biāo)簽隨時(shí)間的應(yīng)變,因?yàn)樗鼈儠?huì)因?yàn)椴煌穆曇舳冃?。?biāo)簽在人臉的位置如圖1所示。
圖1 標(biāo)簽在人臉的位置示意圖
原則上來(lái)說(shuō),標(biāo)簽的數(shù)量越多識(shí)別的精度就越高,但在多通道網(wǎng)絡(luò)中,給定的時(shí)隙中只有一個(gè)標(biāo)簽通過(guò)共享信道進(jìn)行傳輸,則傳輸成功;如果兩個(gè)或多個(gè)標(biāo)簽在同一信道上同時(shí)傳輸,就會(huì)發(fā)生沖突[22]。在RFID實(shí)際應(yīng)用中,多個(gè)標(biāo)簽共享一個(gè)公共通信信道,因此當(dāng)多個(gè)標(biāo)簽同時(shí)進(jìn)入讀寫(xiě)器的有效識(shí)別區(qū)域范圍內(nèi)傳輸時(shí),會(huì)產(chǎn)生信道征用的問(wèn)題,不同標(biāo)簽之間的信息相互影響,導(dǎo)致閱讀器不能正確識(shí)別,數(shù)據(jù)包將發(fā)生沖突并丟失。
本文進(jìn)行了多標(biāo)簽和單標(biāo)簽的對(duì)比實(shí)驗(yàn),相位和RSS結(jié)果對(duì)比如圖2、圖3,其中,圖2從上至下的四個(gè)標(biāo)簽依次位于左臉頰、嘴唇上方、嘴唇下方和右臉頰。
圖2 多標(biāo)簽的相位和RSS
圖3 單標(biāo)簽的相位和RSS
由圖2、3可以看出,單標(biāo)簽的相位和RSS的規(guī)律比多標(biāo)簽更加明顯,且多標(biāo)簽之間互相干擾會(huì)造成部分標(biāo)簽存在失讀或者是誤讀的問(wèn)題,從而導(dǎo)致數(shù)據(jù)準(zhǔn)確性下降。在本文的實(shí)驗(yàn)中,由于粘貼在臉上的標(biāo)簽較小,該標(biāo)簽的FCC讀取距離也較小,如果同時(shí)在臉上貼多個(gè)標(biāo)簽的話,標(biāo)簽之間的相互影響會(huì)干擾讀取面部表情的微小變化,因此僅采用1個(gè)RFID標(biāo)簽附著在面部皮膚表面的已知位置。
在室內(nèi)環(huán)境中,除了硬件電路施加的相位噪聲之外,多徑效應(yīng)是另外一個(gè)影響實(shí)驗(yàn)結(jié)果精確性的破壞性因素,且標(biāo)簽的方向以及用戶的移動(dòng)對(duì)實(shí)驗(yàn)也會(huì)有影響。因此可以通過(guò)控制實(shí)驗(yàn)環(huán)境等因素來(lái)抵消多徑效應(yīng)對(duì)識(shí)別的影響,并保證用戶在采集時(shí)粘貼標(biāo)簽的位置盡量一致,且在用戶發(fā)聲時(shí)標(biāo)簽被拉伸。
設(shè)置空白對(duì)照組來(lái)判斷多徑干擾對(duì)識(shí)別的影響,該對(duì)照組可以將拉伸的影響與無(wú)線電環(huán)境相關(guān)的其他方面隔離開(kāi)來(lái)。具體來(lái)說(shuō),放置固定位置的RFID標(biāo)簽,先在用戶盡量靜止的時(shí)候采集數(shù)據(jù),然后在用戶進(jìn)行唇讀時(shí)繼續(xù)采集,接著將標(biāo)簽在用戶唇讀時(shí)接收到的信號(hào)減掉用戶靜止不動(dòng)時(shí)所采集的信號(hào),以隔離標(biāo)簽位置、方向和無(wú)線電環(huán)境的影響。實(shí)驗(yàn)表明,由于唇讀時(shí)天線和標(biāo)簽的距離比較近,因此,多徑等干擾因素對(duì)識(shí)別的影響很小,可忽略不計(jì)。
本章首先介紹數(shù)據(jù)的采集方法,然后介紹高斯濾波預(yù)處理,最后著重研究了DTW算法的原理與使用。系統(tǒng)流程如圖4所示。
圖4 系統(tǒng)流程
監(jiān)控標(biāo)簽拉伸的關(guān)鍵方法是測(cè)量標(biāo)簽伸長(zhǎng)引起的阻抗變化。具體而言,當(dāng)用戶想要說(shuō)話時(shí),標(biāo)簽會(huì)隨著用戶的嘴部動(dòng)作不斷地被拉伸,其寬度和長(zhǎng)度都會(huì)相應(yīng)地發(fā)生變化,標(biāo)簽的電阻和電抗增加,這也會(huì)導(dǎo)致標(biāo)簽的共振頻率發(fā)生變化。將單個(gè)RFID標(biāo)簽貼在人臉上,當(dāng)一個(gè)人發(fā)出不同的音素聲音時(shí),該標(biāo)簽會(huì)被拉伸不同的量,從而產(chǎn)生不同的阻抗變化。采集該標(biāo)簽的所有響應(yīng),以獲得標(biāo)簽拉伸所導(dǎo)致的變化。
用戶面向天線重復(fù)數(shù)字0~9若干次,并提取每個(gè)數(shù)據(jù)的相位和RSS信息,如圖5所示。從圖5可以看出,這若干個(gè)重復(fù)的數(shù)字的相位和RSS都是有規(guī)律的,將其分割后每個(gè)數(shù)字隨機(jī)選取20組數(shù)據(jù)集,10個(gè)數(shù)字共200個(gè)數(shù)據(jù)集。
圖5 原始數(shù)據(jù)相位和RSS信息
本文對(duì)HMM、互相關(guān)和DTW算法進(jìn)行深入研究后發(fā)現(xiàn):由于語(yǔ)音序列具有時(shí)序性,互相關(guān)并不能將不同速度且不同長(zhǎng)度的語(yǔ)音序列很好地對(duì)齊,實(shí)驗(yàn)結(jié)果僅呈現(xiàn)微相關(guān)的狀態(tài);而使用HMM進(jìn)行建模需要符合隱性狀態(tài)的轉(zhuǎn)移必須滿足馬爾可夫性(即一個(gè)狀態(tài)只與前一個(gè)狀態(tài)有關(guān))這一條件,因此更適用于連續(xù)語(yǔ)音識(shí)別系統(tǒng),所以本文采用DTW算法對(duì)唇語(yǔ)識(shí)別進(jìn)行研究。
DTW是孤立詞語(yǔ)音識(shí)別中最簡(jiǎn)單有效的方法,在自動(dòng)語(yǔ)音識(shí)別中,DTW最初用于比較不同的語(yǔ)音模式。它可以在一定的約束條件下,在兩個(gè)給定的時(shí)間相關(guān)序列之間找到最佳的對(duì)齊方式,是一種用于測(cè)量?jī)蓚€(gè)可能在時(shí)間或速度上變化的序列之間的相似性的彈性測(cè)量方法,解決了模板中發(fā)音長(zhǎng)短不一的匹配問(wèn)題。
圖6 高斯預(yù)處理前后相位和RSS的對(duì)比
DTW的計(jì)算公式如下:
規(guī)整前和規(guī)整后的累積距離矩陣如圖7所示,圖8為DTW前后最優(yōu)路徑對(duì)比。
圖7 DTW累積距離矩陣
圖8 DTW前后最優(yōu)路徑對(duì)比
前端硬件:使用商品RFID Impinj R420讀卡器實(shí)現(xiàn)本文識(shí)別系統(tǒng)的原型,可以在920.625~924.375 MHz的16個(gè)頻道上跳躍。硬件組件如圖9,包括一個(gè)閱讀器、一個(gè)增益為8 dBi的定向圓極化天線和無(wú)源標(biāo)簽(閱讀器Impinj AZ-ET的尺寸是13.2 cm ×13.2 cm ×18 cm,標(biāo)簽B42的芯片為M4,天線尺寸是8 mm × 22 mm,Wet Inlay尺寸為12 mm ×26 mm)。閱讀器通過(guò)以太網(wǎng)線與上位機(jī)相連,并連續(xù)報(bào)告時(shí)間、相位和RSS讀數(shù)。實(shí)驗(yàn)中該閱讀器的工作范圍約為3 m。
圖9 硬件組件
后端實(shí)施:使用C#和Matlab語(yǔ)言進(jìn)行數(shù)據(jù)收集和處理[23]。該處理過(guò)程在配備Intel Core i7-6500U CPU和8.0 GB RAM的DELL筆記本電腦上進(jìn)行。該系統(tǒng)可以實(shí)現(xiàn)直接從RFID閱讀器中檢索相位和RSS讀數(shù)。
測(cè)試環(huán)境:測(cè)試參與者在安靜的辦公室環(huán)境下進(jìn)行測(cè)試,該環(huán)境具有豐富的多路徑:墻壁、沙發(fā)、書(shū)架和家具。實(shí)驗(yàn)場(chǎng)景部署如圖10。
圖10 實(shí)驗(yàn)場(chǎng)景部署
采用上述方法收集了5位用戶(2女3男)的1 000組數(shù)據(jù),每位用戶各200組數(shù)據(jù),各用戶的相位和RSS的準(zhǔn)確率如表1所示??梢钥闯?,根據(jù)相位測(cè)量的準(zhǔn)確率遠(yuǎn)低于根據(jù)RSS測(cè)量的準(zhǔn)確率,這是因?yàn)榕cRSS相比,相位讀數(shù)具有更好的分辨率[24],因此相位變化對(duì)面部微表情的感知更為敏感,進(jìn)而引入了更多關(guān)于面部微表情的信息,導(dǎo)致數(shù)據(jù)包含的內(nèi)容更繁雜。本文的目的僅在于識(shí)別用戶說(shuō)出的不同數(shù)字,所以本文主要采用RSS進(jìn)行數(shù)據(jù)的處理與唇語(yǔ)的識(shí)別,在日后更為精細(xì)的工作中,可能會(huì)在RSS讀數(shù)效果較差或區(qū)分度不大時(shí)采用相位進(jìn)行輔助識(shí)別。同時(shí),對(duì)于不同性別用戶的不同語(yǔ)速,本實(shí)驗(yàn)的準(zhǔn)確性也十分可觀,在未來(lái)會(huì)采集更多不同年齡段及特殊人群(如聾啞人、語(yǔ)音障礙患者等)用戶進(jìn)行數(shù)據(jù)收集并實(shí)驗(yàn),進(jìn)一步提高系統(tǒng)的準(zhǔn)確率和魯棒性。
表1 各用戶的相位和RSS準(zhǔn)確率
圖11、12顯示了用戶A和用戶B的相位和RSS混淆矩陣,可以很清晰地看到RSS的準(zhǔn)確率普遍比相位的準(zhǔn)確率高。同時(shí)經(jīng)分析得到:一個(gè)數(shù)字會(huì)被認(rèn)為是另一個(gè)數(shù)字的原因是發(fā)音時(shí)的嘴部動(dòng)作較為相近,從而使標(biāo)簽產(chǎn)生了相似的形變,導(dǎo)致信號(hào)的變化較為相似。不同的數(shù)字,根據(jù)相位和RSS的DTW距離判斷出來(lái)的結(jié)果也略有不同,不同用戶同一數(shù)字的準(zhǔn)確率也未必相同,一個(gè)可能的原因是:每個(gè)人的發(fā)音習(xí)慣不同,進(jìn)而在發(fā)聲時(shí)嘴巴張開(kāi)的角度及面部肌肉拉伸的情況也略有區(qū)別。
由圖13觀察到,當(dāng)詞匯量變大時(shí),系統(tǒng)的精確度會(huì)下降。一個(gè)可能的解決方案是使用對(duì)拉伸更為敏感的RFID芯片,這些芯片在更細(xì)粒度的離散頻率上共振,來(lái)模擬拉伸,從而更為精準(zhǔn)地識(shí)別用戶的唇語(yǔ);或者使用相位讀數(shù)更為精準(zhǔn)的感知用戶唇讀時(shí)面部的微小變化。
此外,本文繼續(xù)研究其他相關(guān)因素對(duì)實(shí)驗(yàn)的影響,包括標(biāo)簽角度、人臉相對(duì)天線朝向以及用戶是否發(fā)出聲音。具體分析如下:
1)標(biāo)簽角度的影響:本文通過(guò)重復(fù)一個(gè)單詞若干次來(lái)驗(yàn)證標(biāo)簽位于不同角度的魯棒性。標(biāo)簽角度部署如圖14,根據(jù)圖15標(biāo)簽不同角度的RSS對(duì)比分析得到,在45°時(shí),數(shù)據(jù)收集的穩(wěn)定性最差,0°其次,90°的時(shí)候效果相對(duì)較好。這是由于在45°時(shí),標(biāo)簽的方向與唇部周圍肌肉的運(yùn)動(dòng)方向大致相同,受到的拉伸最小,導(dǎo)致的形變也較小,因此本實(shí)驗(yàn)的標(biāo)簽方向選擇90°。
2)人臉相對(duì)天線朝向的影響:將標(biāo)簽貼在左臉頰,分別對(duì)臉正對(duì)天線、貼標(biāo)簽一側(cè)的臉正對(duì)天線和未貼標(biāo)簽一側(cè)的臉正對(duì)天線進(jìn)行實(shí)驗(yàn),以判斷人臉朝向?qū)?shí)驗(yàn)的影響,準(zhǔn)確率分別為88%、90%和0%??梢?jiàn)雖然平衡好了標(biāo)簽FCC讀距與標(biāo)簽大小的關(guān)系,但是在標(biāo)簽隔著人臉對(duì)著天線時(shí),由于中間遮擋物太多,收集數(shù)據(jù)較為困難,因此準(zhǔn)確率幾乎為0;當(dāng)人臉正對(duì)天線或者貼標(biāo)簽一側(cè)正對(duì)天線時(shí),效果較好。因此在實(shí)驗(yàn)及日后應(yīng)用中,應(yīng)盡量保證標(biāo)簽與天線之間沒(méi)有遮擋。
3)用戶是否發(fā)出聲音對(duì)實(shí)驗(yàn)的影響:針對(duì)同一用戶發(fā)聲和不發(fā)聲的100個(gè)樣本,測(cè)試得出的相位準(zhǔn)確率分別為90%和91%,因此可知用戶是否發(fā)聲對(duì)實(shí)驗(yàn)結(jié)果幾乎無(wú)影響,所以本文的系統(tǒng)也可以用于不能發(fā)聲的語(yǔ)音障礙患者。
圖11 用戶A的相位和RSS的混淆矩陣
圖12 用戶B的相位和RSS的混淆矩陣
圖13 不同樣本量的準(zhǔn)確率
圖14 標(biāo)簽角度部署示意圖
圖15 標(biāo)簽不同角度的RSS對(duì)比
針對(duì)現(xiàn)有RFID唇語(yǔ)識(shí)別需要探測(cè)多個(gè)經(jīng)過(guò)特殊調(diào)整的標(biāo)簽來(lái)捕捉拉伸引起的偏移以及標(biāo)簽脫落需重新校準(zhǔn)等問(wèn)題,本文提出了基于單標(biāo)簽RFID的唇語(yǔ)識(shí)別算法,使用價(jià)格低廉的單個(gè)RFID標(biāo)簽來(lái)識(shí)別用戶發(fā)聲時(shí)面部的微表情,并采用高斯的方法進(jìn)行預(yù)處理,在此基礎(chǔ)上,利用DTW算法處理收集到的相位和RSS信息,計(jì)算訓(xùn)練集和測(cè)試集之間模板匹配時(shí)最小的累計(jì)距離,保證了唇語(yǔ)識(shí)別的有效性。
本文充分利用已進(jìn)行廣泛應(yīng)用的RFID設(shè)備,根據(jù)所收集到的信號(hào)參數(shù)的變化進(jìn)行研究分析,實(shí)現(xiàn)了成本較低且準(zhǔn)確率較高的唇語(yǔ)識(shí)別。本文方法與其他唇語(yǔ)識(shí)別方法相比,不具有侵入性,利用通用RFID標(biāo)簽,降低了應(yīng)用成本,易于在實(shí)際環(huán)境中廣泛部署應(yīng)用。同時(shí),由于采用了說(shuō)話時(shí)面部表情的微動(dòng)作識(shí)別,本文方法可以很好地適用各種用戶(包括語(yǔ)音障礙患者)唇語(yǔ)識(shí)別。提高DTW算法的計(jì)算效率、進(jìn)一步完善本方法的實(shí)際部署方案和應(yīng)用模式使識(shí)別模型可以在不同的環(huán)境中快速部署應(yīng)用是下一步工作的重點(diǎn)。此外,關(guān)于利用該方法識(shí)別更多種類的詞句、進(jìn)行細(xì)粒度更高的識(shí)別、延長(zhǎng)唇語(yǔ)識(shí)別的讀取距離也值得進(jìn)一步研究。
)
[1] PETAJAN E D. Automatic lipreading to enhance speech recognition (speech reading)[D]. Champaign, IL: University of Illinois at Urbana-Champaign, 1984: 4-23.
[2] PETAJAN E, BISCHOFF B, BODOFF D, et al. An improved automatic lipreading system to enhance speech recognition[C]// Proceedings of the 1988 SIGCHI Conference on Human Factors in Computing Systems. New York: ACM, 1988: 19-25.
[3] BAI Z X, ZHANG X L. Speaker recognition based on deep learning: an overview[J]. Neural Networks, 2021, 140: 65-99.
[4] HONMA N, TODA K, TSUNEKAWA Y. DoA estimation technique of back-scattering signal from RFID for gesture recognition[C]// Proceedings of the 2015 9th European Conference on Antennas and Propagation. Piscataway:IEEE, 2015: 1-2.
[5] LIU J, CHEN X Y, CHEN S G, et al. TagSheet: sleeping posture recognition with an unobtrusive passive tag matrix[C]// Proceedings of the 2019 IEEE Conference on Computer Communications. Piscataway: IEEE, 2019: 874-882.
[6] XIE L, YIN Y F, VASILAKOS A V, et al. Managing RFID data: challenges, opportunities and solutions[J]. IEEE Communications Surveys and Tutorials, 2014, 16(3): 1294-1311.
[7] WANG J X, PAN C F, JIN H J, et al. RFID tattoo: a wireless platform for speech recognition[J]. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, 2019, 3(4): No.155.
[8] WANG J, ABARI O, KESHAV S. Challenge: RFID hacking for fun and profit[C]// Proceedings of the 24th Annual International Conference on Mobile Computing and Networking. New York: ACM, 2018: 461-470.
[9] YEAGER D J, HOLLEMAN J, PRASAD R, et al. NeuralWISP: a wirelessly powered neural interface with 1-m range[J]. IEEE Transactions on Biomedical Circuits and Systems, 2009, 3(6): 379-387.
[10] YANG L, CHEN Y K, LI X Y, et al. Tagoram: real-time tracking of mobile RFID tags to high precision using COTS devices[C]// Proceedings of the 20th Annual International Conference on Mobile Computing and Networking. New York: ACM, 2014: 237-248.
[11] PRADHAN S, CHAI E, SUNDARESAB K, et al. RIO: a pervasive RFID-based touch gesture interface[C]// Proceedings of the 23rd Annual International Conference on Mobile Computing and Networking. New York: ACM, 2017: 261-274.
[12] HA U, MA Y F, ZHONG Z X, et al. Learning food quality and safety from wireless stickers[C]// Proceedings of the 17th ACM Workshop on Hot Topics in Networks. New York: ACM, 2018: 106-112.
[13] STERPU G, SAAM C, HARTE N. Attention-based audio-visual fusion for robust automatic speech recognition[C]// Proceedings of the 20th ACM International Conference on Multimodal Interaction. New York: ACM, 2018: 111-115.
[14] AGRAWAL S, OMPRAKASH V R, RANVIJAY. Lip reading techniques: a survey[C]// Proceedings of the 2nd International Conference on Applied and Theoretical Computing and Communication Technology. Piscataway: IEEE, 2016: 753-757.
[15] ASSAEL Y M, SHILLINGFORD B, WHITESON S, et al. LipNet: sentence-level lipreading[EB/OL]. (2016-11-05)[2021-05-19]. https://arxiv.org/pdf/1611.01599v1.pdf.
[16] BEDRI A, SAHNI H, THUKRAL P, et al. Toward silent-speech control of consumer wearables[J]. Computer, 2015, 48(10):54-62.
[17] BRIGHAM K, KUMAR B V K V. Imagined speech classification with EEG signals for silent communication: a preliminary investigation into synthetic telepathy[C]// Proceedings of the 4th International Conference on Bioinformatics and Biomedical Engineering. Piscataway: IEEE, 2010: 1-4.
[18] CHUNG J S, ZISSERMAN A. Lip reading in the wild[C]// Proceedings of the 2016 Asian Conference on Computer Vision, LNIP 10112. Cham: Springer, 2017: 87-103.
[19] CHUNG J S, ZISSERMAN A. Out of time: automated lip sync in the wild[C]// Proceedings of the 2016 Asian Conference on Computer Vision, LNIP 10117. Cham: Springer, 2017: 251-263.
[20] WAND M, KOUTNíK J, SCHMIDHUBER J. Lipreading with long short-term memory[C]// Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2016: 6115-6119.
[21] DOBKIN D M. The RF in RFID: UHF RFID in Practice[M]. 2nd ed. Waltham, MA: Newnes, 2013: 306-314.
[22] COHEN K, LESHEM A. Distributed game-theoretic optimization and management of multichannel ALOHA networks[J]. IEEE/ACM Transactions on Networking, 2016, 24(3): 1718-1731.
[23] XIE B B, XIONG J, CHEN X J, et al. Tagtag: material sensing with commodity RFID[C]// Proceedings of the 17th Conference on Embedded Networked Sensor Systems. New York: ACM, 2019: 338-350.
[24] YANG L, LI Y, LIN Q Z, et al. Making sense of mechanical vibration period with sub-millisecond accuracy using backscatter signals[C]// Proceedings of the 22nd Annual International Conference on Mobile Computing and Networking. New York: ACM, 2016: 16-28.
Lip language recognition algorithm based on single-tag radio frequency identification
ZHANG Yingqi, PENG Dawei, LI Sen, SUN Ying, NIU Qiang*
(,,221116,)
In recent years, a wireless platform for speech recognition using multiple customized and stretchable Radio Frequency Identification (RFID) tags has been proposed, however, it is difficult for the tags to accurately capture large frequency shifts caused by stretching, and multiple tags need to be detected and recalibrated when the tags fall off or wear out naturally. In response to the above problems, a lip language recognition algorithm based on single-tag RFID was proposed, in which a flexible, easily concealable and non-invasive single universal RFID tag was attached to the face, allowing lip language recognition even if the user does not make a sound and relies only on facial micro-actions. Firstly, a model was established to process the
Signal Strength (RSS) and phase changes of individual tags received by an RFID reader responding over time and frequency. Then the Gaussian function was used to preprocess the noise of the original data by smoothing and denoising, and the Dynamic Time Warping (DTW) algorithm was used to evaluate and analyze the collected signal characteristics to solve the problem of pronunciation length mismatch. Finally, a wireless speech recognition system was created to recognize and distinguish the facial expressions corresponding to the voice, thus achieving the purpose of lip language recognition. Experimental results show that the accuracy of RSS can reach more than 86.5% by the proposed algorithm for identifying 200 groups of digital signal characteristics of different users.
Radio Frequency IDentification (RFID); lip language recognition; single tag; Received Signal Strength (RSS); Dynamic Time Warping (DTW)
This work is partially supported by National Natural Science Foundation of China (51674255).
ZHANG Yingqi, born in 1996, M. S. candidate. Her research interests include Internet of Things, wireless sensing.
PENG Dawei, born in 2001. His research interests include wireless sensing.
LI Sen, born in 1998. His research interests include wireless sensing.
SUN Ying, born in 2000. Her research interests include wireless sensing.
NIU Qiang, born in 1974, Ph. D., professor. His research interests include intelligent information processing, artificial intelligence, pattern recognition, machine learning, data mining.
TP391
A
1001-9081(2022)06-1762-08
10.11772/j.issn.1001-9081.2021061390
2021?08?03;
2021?08?31;
2021?10?15。
國(guó)家自然科學(xué)基金資助項(xiàng)目(51674255)。
張瑛琪(1996—),女,遼寧營(yíng)口人,碩士研究生,CCF會(huì)員,主要研究方向:物聯(lián)網(wǎng)、無(wú)線感知;彭大衛(wèi)(2001—),男,江蘇邳州人,主要研究方向:無(wú)線感知;李森(1998—),男,河南鄭州人,主要研究方向:無(wú)線感知;孫瑩(2000—),女,江蘇泰興人,主要研究方向:無(wú)線感知;牛強(qiáng)(1974—),男,遼寧沈陽(yáng)人,教授,博士,主要研究方向:智能信息處理、人工智能、模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘。