寇 贇
(西北民族大學(xué) 中國民族語言文字信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州 730030)
隨著計(jì)算機(jī)科學(xué)的不斷發(fā)展,語音生理研究逐漸成為語音學(xué)研究的一個重要方面.因此,語音生理研究及其應(yīng)用在眾多學(xué)科中得到了迅速的發(fā)展.語音生理研究的方法通常從聲音信號、圖像信號、生理信號三個方面展開討論,而圖像信號因?yàn)橛?jì)算機(jī)控制的數(shù)字成像可以達(dá)到9000幀/每秒,甚至更高,比如,可以達(dá)到反應(yīng)聲帶一個開合周期過程所需要的圖像幀數(shù),而且圖像信號比較直觀,特別是對發(fā)音生理器官的運(yùn)動能夠用圖像處理的方法模擬,從而可以應(yīng)用到教學(xué)等各個方面[1].
語音的產(chǎn)生是肺、聲帶、聲道以及唇四個生理器官協(xié)同作用而產(chǎn)生的生理運(yùn)動[2].肺的發(fā)聲功能主要是產(chǎn)生壓縮氣體,通過氣管傳送到聲音生成系統(tǒng);聲帶是伸展在喉前、后端的褶肉,通過產(chǎn)生激勵來促使音產(chǎn)生;聲道是聲門至嘴唇的所有發(fā)聲器官,也是一根具有非均勻截面的聲管;嘴唇的生理運(yùn)動便產(chǎn)生聲波[3].語音的形成流程可以概括為:空氣通過肺部呼出通過聲帶產(chǎn)生激勵進(jìn)入聲道,由嘴輻射出聲波,便產(chǎn)生了語音.本文從發(fā)音動力器官、嗓音聲源、聲道、唇形四個方面來闡述目前國內(nèi)基于圖像信號的語音生理研究的進(jìn)展.
發(fā)聲的動力是借用人類的呼吸系統(tǒng)。呼吸原本的功能是維持人類的生命,而不是產(chǎn)生語言.肺像是兩個封閉的袋子,左右對稱,由肺泡組成.從生理的角度,呼吸系統(tǒng)分為呼吸道、肺、胸腔、腹部肌肉群.
目前,用于呼吸動力研究的設(shè)備主要是氣流氣壓計(jì)和呼吸帶.氣流氣壓計(jì)可以測發(fā)音時的氣流速度、氣流量、氣壓值和聲門下壓力等.呼吸綁帶是采集胸圍或腹圍的變化來研究語音的韻律特性,可以研究不同的語言和不同文體的呼吸韻律模式.在圖像方面,孔江平教授利用MRI拍攝了肺的橫切面和剖面的實(shí)時發(fā)音運(yùn)動圖像,如圖1(左)所示,該圖為肺部呼吸運(yùn)動截取的某一幀.該幀利用小波變換對發(fā)聲動力器官肺部影像做分解重構(gòu)處理分析預(yù)處理,對處理后的圖像進(jìn)行canny算子邊緣檢測,分析結(jié)果如圖1(右)所示,產(chǎn)生的動態(tài)影像可以清晰觀察到肺部器官的運(yùn)動狀態(tài)[4-5].對發(fā)音動力器官圖像的分析研究,可以實(shí)現(xiàn)呼吸氣動態(tài)和發(fā)聲動力來源的可視化效果.另外,合適的圖像處理技術(shù)對發(fā)音動力器官圖像進(jìn)行處理,使人們可以有效地分辨出人體器官的大小和細(xì)節(jié),為后續(xù)深入研究學(xué)習(xí)提供良好的圖像素材。
圖1 MRI拍攝某一幀(左)圖1 canny算子檢測結(jié)果圖(右)
現(xiàn)代語音學(xué)將語音的產(chǎn)生分為調(diào)音和發(fā)聲兩個部分,隱藏在喉頭中的聲帶是振動器官的核心,上通咽喉下接氣管.聲帶是兩片復(fù)雜分層結(jié)構(gòu)的振動器官,兩片聲帶之間的通路叫做聲門.通過對嗓音聲源的研究,可以了解發(fā)音時的聲帶振動情況,從而能夠更好地認(rèn)識語音發(fā)聲的生理機(jī)制、語音發(fā)聲的微觀運(yùn)動、各種發(fā)聲類型的特性和語音聲學(xué)信號的關(guān)系.
最新的高速數(shù)字成像系統(tǒng)HSP (High-speed photography)可以達(dá)到每秒百萬幀的速度,采集圖像速度比聲帶振動速度快的多,該設(shè)備成像結(jié)果如圖2所示,可以觀察到聲帶的起止,非周期性振動,非常短的嗓音振動片斷和痙攣.孔江平教授在《Laryngeal Dynamics and Physiological Model》中對常見的發(fā)聲類型和漢語普通話四聲的聲帶振動方式進(jìn)行了研究,并建立了高速數(shù)字成像的分析系統(tǒng)[6].該系統(tǒng)先對聲門錄像進(jìn)行圖像處理,如圖3所示,為了處理的方便,給一幀圖像加了一個小窗口用來確定聲門的面積,經(jīng)過調(diào)節(jié)對比度和抽取聲門面積等方法最終得到動態(tài)的聲門面積.這是最簡單的過程,因?yàn)閷?shí)際的高速數(shù)字視頻會出現(xiàn)光線灰暗、抖動和漂移等現(xiàn)象,都需要進(jìn)一步處理才能得到較好的動態(tài)聲門.通過提取出視頻信號中聲門的面積,根據(jù)面積提取有用的語音參數(shù),如,基頻、共振峰、開商、速度商、振幅等,然后建立嗓音生理模型,可以合成出不同發(fā)聲類型的聲源.
圖2高速數(shù)字成像圖圖3聲門錄像圖像處理結(jié)果圖
聲道是語音生理中最重要的發(fā)音器官。聲道是從聲帶開始到嘴唇、語音產(chǎn)生傳播的管道,由聲門、喉管、會厭軟骨、咽腔、軟腭器官等器官組成,具體結(jié)構(gòu)如圖4所示.
聲道藏在人體內(nèi)部,給觀測帶來了很大的困難.目前有X光、核磁共振技術(shù)(MRI)、超聲三種主要的聲道測量方法被廣泛應(yīng)用.世界上著名的X光數(shù)據(jù)庫有英語、法語、瑞典語和日語數(shù)據(jù)庫.國內(nèi)國際惟一的漢語普通話的X光錄像由中國社會科學(xué)院語言研究所和三〇一醫(yī)院放射科聯(lián)合錄制(一九八五年七月),后由北京語言學(xué)院出版社出版,錄像帶名稱為《普通話發(fā)音器官動作特性(The articulatory movements of standard Chinese)》[7].由于 X 光錄像對軟組織成像不好,聲道邊緣比較模糊,所以對模糊邊緣的提取也是圖形圖像處理領(lǐng)域的經(jīng)典問題.通過圖像處理技術(shù)或者手動標(biāo)記的方法提取每個語音樣本的聲道邊緣曲線,如圖5所示,繪制成連續(xù)的線條圖,做成可連續(xù)播放的視頻文件,可以計(jì)算出聲道面積并合成語音,可應(yīng)用于漢語普通話語音教學(xué)等方面.
圖4人體的聲道系統(tǒng)結(jié)構(gòu)圖(引自Fitch1994)圖5 X光標(biāo)記圖
核磁共振成像技術(shù)(MRI)能夠清晰地看到聲道器官的輪廓,并且對人不會產(chǎn)生傷害和不適,因此越來越頻繁的應(yīng)用于語音生成領(lǐng)域.汪高武在《漢語普通話聲道調(diào)音模型研究》一文中主要采取圖像預(yù)處理,手工標(biāo)注與程序結(jié)合的方法減少勞動量,并將聲道分成幾個部位分別處理,該文中將聲道劃分為上下唇、硬腭、軟腭、下頜、舌、咽腔前后壁、喉腔前后壁9個部分,各用一條曲線來標(biāo)記,如圖6所示,每條曲線由若干個關(guān)鍵點(diǎn)經(jīng)過三次樣條函數(shù)插值生成,這樣可以通過移動關(guān)鍵點(diǎn)來修改整個曲線的形狀,使之與聲道邊緣盡量一致[8].宋嬋在《人體發(fā)音過程中的三維聲道幾何建?!芬晃闹袕膸缀蔚慕嵌热?gòu)建三維幾何聲道模型,使得模型更加適用于對實(shí)時性要求較高的應(yīng)用,文章對中文核磁共振數(shù)據(jù)庫中一個受試者的十個元音數(shù)據(jù)進(jìn)行研究,通過圖像預(yù)處理,并對MRI錄像進(jìn)行數(shù)據(jù)標(biāo)記,標(biāo)記如圖7所示,進(jìn)行三維網(wǎng)格量化,并使用主成分分析法和多元線性回歸法對三維數(shù)據(jù)進(jìn)行建模分析,得到發(fā)音器官的主要控制參數(shù)[9].劉杰在《三維幾何發(fā)音模型的構(gòu)建與控制》一文中采集了CBCT(錐形束 CT)的數(shù)據(jù)來補(bǔ)充骨質(zhì)結(jié)構(gòu)的信息,進(jìn)行上下顎的填補(bǔ),通過MRI采集得到的發(fā)音器官的數(shù)據(jù)庫,對構(gòu)建出的聲道模型進(jìn)而分析不同發(fā)音帶來的聲道發(fā)音器官形狀的變化規(guī)律[10].
圖6 MRI錄像聲道邊緣的提取 圖7 MRI錄像標(biāo)記的發(fā)音生理器官
另外,王宇光在《基于核磁共振成像的漢語普通話元音/i,(s)i,(sh)i/的研究》一文中利用核磁共振技術(shù)分析從聲道的形態(tài)學(xué)和聲學(xué)的角度全面分析三個元音聲道形態(tài)的差異和形態(tài)差異引起的共振峰差異,及聲道分支對于不同元音的聲學(xué)影響,利用圖像處理領(lǐng)域中的區(qū)域增長法提取出三個元音的三維聲道數(shù)據(jù),并對填充好牙齒的聲道進(jìn)行閾值分割提取出聲道的形狀和聲道對應(yīng)的面積函數(shù),如圖8所示,首先手動在聲門處選擇兩點(diǎn),如圖8(a)一條聲道線被選中了,圖8(b)是利用區(qū)域增長法結(jié)果圖,圖8(c)計(jì)算出每一層像素點(diǎn)的中點(diǎn),用一條樣條曲線來逼近這些所有被計(jì)算出來的中點(diǎn),則聲道中位線被確定下來了,圖8(d)在這條中位線上,每隔相同間隔 2 mm,在聲道中位線上做一條中心線[11].
圖8 聲道面積函數(shù)提取
超聲技術(shù)一般使用顯示組織特征的方法,測量器官的徑線,以判定其大小.言語過程中的各個發(fā)音器官的變化,都可以被該技術(shù)實(shí)時的監(jiān)測,并以圖像的形式展現(xiàn),這為認(rèn)知人類發(fā)聲時聲腔、胸腔等器官的運(yùn)動機(jī)制提供了便利.陳彧在《基于超聲波檢測的漢語普通話基礎(chǔ)元音發(fā)音的舌體運(yùn)動研究》中利用超聲波檢測技術(shù)所得到的不同發(fā)音下的舌體形態(tài)數(shù)據(jù),如圖9所示,該圖為舌頭超聲成像圖,同時結(jié)合發(fā)音過程的頭動、唇形變化數(shù)據(jù),對四名發(fā)音人漢語普通話七個基本元音/a/、/i/、/u/、//、/y/、//、//發(fā)音 S2 至 S4 階段的舌體形態(tài)及運(yùn)動方式從原始圖像觀察、數(shù)據(jù)分析、發(fā)音音系學(xué)考察和發(fā)音生理空間分布等角度進(jìn)行分析[12].
圖9 舌頭超聲成像圖
語音產(chǎn)生的聲學(xué)理論指出,唇型作為聲道與外界空氣耦合的界面,對語音的產(chǎn)生有著重要的作用,它是惟一視覺上完全可見的發(fā)音器官.目前微軟、中國科學(xué)院自動化所等研究機(jī)構(gòu)研發(fā)的Talkinghead、教學(xué)軟件、動畫片等讓唇形研究不僅從二維逐漸發(fā)展到了三維,而且唇形輪廓提取、唇形建模以及唇讀等研究領(lǐng)域在語音生理研究中也具有重要的意義.
圖10 avi唇部顯示圖(左)與唇輪廓圖(右)圖11基于運(yùn)動捕捉的三維唇形模型
唇形輪廓的準(zhǔn)確提取是唇形合成的基礎(chǔ),潘曉聲從多個領(lǐng)域?qū)Υ叫巫兓c語音之間的關(guān)系作了初步的探索,在《漢語普通話唇形協(xié)同發(fā)音及可視語音感知研究》一文中利用漢語普通話的二維唇形錄像和三維唇形運(yùn)動捕獲數(shù)據(jù),分別從言語產(chǎn)生、言語感知和言語工程這三個方面研究唇形變化與語音之間的關(guān)系,而且實(shí)現(xiàn)了基于Matlab的唇形參數(shù)提取平臺,如圖10所示,圖10(左)為唇部顯示,圖10(右)為唇輪廓圖.該平臺實(shí)現(xiàn)的主要功能包括:文件讀取,關(guān)鍵點(diǎn)標(biāo)記,文件播放及顯示,參數(shù)提取及數(shù)據(jù)存儲,考慮到邊緣檢測的局限性,該平臺采用手動標(biāo)記的方法標(biāo)記關(guān)鍵點(diǎn),得到了較理想的唇形曲線[13].
嘴部動畫是人臉動畫中極其重要、不可或缺的一環(huán),只有嘴部動畫與語音及其他神態(tài)表情要素坐標(biāo)一致,才能使人臉動畫展現(xiàn)出逼真、自然的動畫效果.因此,對唇部的建模是最為關(guān)鍵的一個環(huán)節(jié).潘曉聲利用三維運(yùn)動捕捉技術(shù)和唇形模型建模技術(shù)進(jìn)行的漢語普通話元音三維唇形動態(tài)模型的研究,如圖11所示,利用運(yùn)動捕捉技術(shù)進(jìn)行唇形上漢語元音運(yùn)動數(shù)據(jù)的采集,并對這些數(shù)據(jù)進(jìn)行處理;利用處理后的實(shí)時數(shù)據(jù)進(jìn)行漢語元音的唇形靜態(tài)模型的建立;最后用創(chuàng)建好的靜態(tài)模型導(dǎo)出唇形動態(tài)模型.由于實(shí)際舌頭和嘴唇的顏色較為接近,絕大多數(shù)算法無法精確提取出內(nèi)唇線.因此,如何正確提取唇形的內(nèi)輪廓是未來該領(lǐng)域要研究的重點(diǎn).
王安紅在《普通話語音視位系統(tǒng)初探》一文中建立一個初步的普通話視位系統(tǒng),文中基于一個小規(guī)模的普通話語音唇型參數(shù)數(shù)據(jù)庫.通過一系列統(tǒng)計(jì)分析,歸納出一套漢語普通話視位系統(tǒng)[14].劉培楨在《基于發(fā)音特征DBN模型的嘴部動畫合成》—文中提出了結(jié)合發(fā)音特征的多流動態(tài)貝葉斯網(wǎng)絡(luò)語音模型(AF_AVDBN),使得發(fā)音特征(如嘴唇、舌體和聲門/軟腭)之間可以異步,并推導(dǎo)了基于極大似然估計(jì)原理的嘴部最優(yōu)參數(shù)學(xué)習(xí)算法[15].該方法的遠(yuǎn)遠(yuǎn)由于傳統(tǒng)的方法,能夠更好地應(yīng)用于人機(jī)交互等領(lǐng)域.楊宏在《漢語發(fā)音的唇形可視化處理方法研究》以唇形為基礎(chǔ),用文本作為驅(qū)動源,研究了漢語發(fā)咅的唇形可視化處理方法,該文章利用預(yù)先錄制視頻中的視位樣本結(jié)合光流法實(shí)現(xiàn)了二維人臉唇形動畫的建模;其次在基于Waters肌肉模型的基礎(chǔ)上,提出了一種新的由參數(shù)控制的三維唇區(qū)肌肉模型,實(shí)現(xiàn)了三維人臉唇形動畫的建模,針對特定人的唇形動畫建模上取得了較好的結(jié)果[16].梁曉昀在《語音驅(qū)動三維唇形動畫算法研究》分析了漢語普通話和英語的發(fā)音規(guī)律,使用高斯混合模型算法和基于有向無環(huán)圖的支持向量機(jī)多分類算法(DAG-SVM)代替神經(jīng)網(wǎng)絡(luò)進(jìn)行音素分類,并對DAG-SVM進(jìn)行了改進(jìn);最后,利用DirectX中的三維網(wǎng)格漸變動畫技術(shù)實(shí)現(xiàn)了通用性強(qiáng)且具有真實(shí)感的三維人臉唇形動畫,與分類算法相結(jié)合,編寫了圖形界面[17].
唇讀技術(shù)擁有重大的研究價值和極為廣泛的應(yīng)用前景.近年來越來越多的唇部定位和唇動識別算法被提出,然而這些算法的研究主要局限在正面理想光照條件下,而實(shí)際的唇讀識別系統(tǒng)都將工作在光照變化的應(yīng)用環(huán)境中.因此,張宏軍在《可變光照下的唇讀識別技術(shù)研究》一文建立了光照可變的唇讀數(shù)據(jù)庫,提出了一種“三段式”唇部定位算法,來增強(qiáng)唇動特征提取算法的魯棒性[18].
本文系統(tǒng)的闡述了目前國內(nèi)基于圖像的語音生理研究進(jìn)展.語音生理研究在生物機(jī)器人、智能型語言、可視化交互教學(xué)系統(tǒng)等各個領(lǐng)域具有重要的研究價值.因此,在以下方面需要進(jìn)一步加強(qiáng):①在設(shè)備方面,比如提高核磁共振成像(MRI)設(shè)備的速度等.②在圖像處理方面,嘗試新算法,引入深度學(xué)習(xí)新技術(shù),建立新的模型.③開拓視眼,發(fā)掘新的有意義的視角,以此來幫助人們對言語產(chǎn)生的深入研究,促進(jìn)現(xiàn)代語音學(xué)的發(fā)展和進(jìn)步,進(jìn)而推動我國語音學(xué)理論和應(yīng)用研究的發(fā)展.
[1] 孔江平,論語言發(fā)聲[M].中央民族大學(xué)出版社,2001.
[2] 王士元,彭剛.語言語音與技術(shù)[M].上海:上海教育出版社,2006.
[3] 李永宏,胡阿旭,呂士良.言語產(chǎn)生的生理研究方法[J].西北民族大學(xué)學(xué)報(自然科學(xué)版),2012,(3).
[4] 孔江平,汪高武,李永宏等.漢語普通話發(fā)音教程[M].香港:香港大學(xué)教育學(xué)院出版社,2014.
[5] 譚晶晶,李永宏,孔江平.漢語普通話不同文體朗讀時的呼吸重置特征[J],清華大學(xué)學(xué)報,2008,(4).
[6] KongJiangping.Laryngeal Dynamics and Physiological Model[J],Peking University Press.2007.
[7] Li Yonghong,KongJiangping,WangGaowu,DingLijuan.Based on X-ray Mandarin Speech Physiological-Learning System.2011 International Conference on Computer,Electrical,and Systems Sciences,and Engineering.2011.4,412-415.
[8] 汪高武.漢語普通話聲道調(diào)音模型研究[D].北京大學(xué),2010.
[9] 宋嬋.人體發(fā)音過程中的三維聲道幾何建模[D].天津大學(xué),2013.
[10] 劉杰.三維幾何發(fā)音模型的構(gòu)建與控制[D].天津大學(xué),2015.
[11] 王宇光.基于核磁共振成像的漢語普通話元音/i,(s)i,(sh)i/的研究[D].天津大學(xué),2012.
[12] 陳彧.基于超聲波檢測的漢語普通話基礎(chǔ)元音發(fā)音的舌體運(yùn)動研究[D].南開大學(xué),2011.
[13] 潘曉聲.漢語普通話唇形協(xié)同發(fā)音及可視語音感知研究[D].北京大學(xué),2011.
[14] 王安紅.普通話語音視位系統(tǒng)初探[D].北京語言大學(xué),2000.
[15] 劉培楨,蔣冬梅,RAVYSE Ilse,等.基于發(fā)音特征DBN模型的嘴部動畫合成[J].科學(xué)技術(shù)與工程,2010,10(14):3335-3339.
[16] 楊宏.漢語發(fā)音的唇形可視化處理方法研究[D].湖南師范大學(xué),2013.
[17] 梁曉昀.語音驅(qū)動三維唇形動畫算法研究[D].北京理工大學(xué),2016.
[18] 張宏軍.可變光照下的唇讀識別技術(shù)研究[D].哈爾濱工業(yè)大學(xué),2016.