王健海 陳淑環(huán)
摘要:【目的/意義】傳統(tǒng)的方言語音詞典或多媒體語料庫只能聽到方言語音,不能直接觀察到發(fā)音時人臉器官動態(tài)變化的情況,無法獲得方言發(fā)音的直觀視覺印象。本文提出了一種根據(jù)惠州方言發(fā)音實時展示唇部動態(tài)變化的方法?!痉椒?過程】本文首先標注出唇部的特征點,對發(fā)音人發(fā)音時唇部特征點變動情況進行記錄,通過與普通話發(fā)音的對比,將惠州方言發(fā)音唇部變化歸納為八種基本唇形。提出通過唇形變化等效字集將惠州方言唇位變化轉(zhuǎn)換為對應的普通話發(fā)音唇位變化。在SitePal平臺上,利用普通話發(fā)音唇位可視功能模擬出惠州方言發(fā)音唇位可視效果?!窘Y(jié)果/結(jié)論】增加唇位可視效果后用戶能直接地觀察到惠州方言發(fā)音時唇位的變化情況,便于用戶模仿發(fā)音,提高了惠州方言的學習效率,為保護和傳承惠州文化提供一種新的技術手段。
關鍵詞:語音詞典;惠州方言;唇位可視;語音可視化;SitePal
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)02-0195-04
A Visualization Technology Study on the Lip-position of Huizhou Dialect pronunciation
WANG Jian-hai,CHEN Shu-huan
(School of Information Science and Technology,Huizhou University,Huizhou 516007,China)
Abstract:Traditional Dialect Voice Dictionary or multimedia corpus can only hear dialect speech but cannot be directly observed situations of dynamic changes of pronunciation in the face, unable to obtain the direct visual impression of dialect pronunciation. This paper presents a method based on Huizhou dialect pronunciationreal-timedisplay of dynamic changes of lip.This paper marks feature points of the lips, recording changes of feature points of speakers lip and comparing them with Mandarin. Lip position changes of Huizhou dialect pronunciation can be filed into eight basic lip positions. It puts forward that the corresponding lip position changes of Mandarin can be converted from lip position changes of Huizhou dialect pronunciation by lip change equivalent word set. Based on the SitePal platform, the visual effect of the lip position of Huizhou dialect pronunciation is simulated by using the visual function of Mandarin pronunciation.By increasing the visual effect of lip-position, the users directly observe the visual changes of lip position of Huizhou dialect pronunciation. It is convenient for the user to imitate the pronunciation of Huizhou dialect which improves learning efficiency of Huizhou dialect and provides a new technological means for the protection and inheritance of Huizhou culture.
Key words:pronouncing dictionary;the Huizhou dialect;lip visualization;speech visualization;SitePal
1 概述
惠州方言,又稱“惠州話”,是一種通行于以惠州市惠城區(qū)為中心的地方方言?;葜莘窖员A袅舜罅康墓艥h語成分,匯集了惠州地區(qū)人民千百年來形成的生存智慧,蘊含有豐富的內(nèi)涵,是一種不可再生的非物質(zhì)文化遺產(chǎn)。改革開放以來,惠城區(qū)經(jīng)濟日益發(fā)達、外來人口逐漸增多,在共同語和周邊方言的沖擊下,惠州方言以及其附近的各類小方言已日益式微[1]。為了搶救這一日益瀕危的方言,有學者編著有紙質(zhì)版的惠州方言詞典(語料庫)[2],但紙質(zhì)版本惠州方言詞典采用了國際音標記音,通常只能由經(jīng)過專門訓練的方言研究人員才能通過國際音標正確拼讀出方言語音,更難以理解其語義特征[3],為學習者帶來了很大的學習負荷,限制了惠州方言的傳承。隨著計算機技術介入,大規(guī)模地、系統(tǒng)地收集、存儲、處理方言語音語料成為了可能,相應的許多學者也提出了各種方言語音詞典或方言多媒體語料庫的設計方案。通過這些設計可再現(xiàn)方言真實口語語音,但讀者還是難以獲得方言發(fā)音的直觀視覺印象。也有學者為方言電子詞典(多媒體語料庫)增加了可視化的功能,但通常展現(xiàn)的是物理學語音方面的圖譜,如:張紹麒等[4]設計的方言電子詞典顯示的是語音文件的時域波形圖,李斌[5]設計的方言電子詞典通過可視化技術標注了音節(jié)邊界、峰值點、聲韻母和聲調(diào)信息。這些物理學意義上的語音圖譜內(nèi)容深奧,不直觀,一般的方言電子詞典用戶或?qū)W習者難以通過這些科學圖譜獲得方言發(fā)音的感性認知,也難以直接利用其學習方言發(fā)音。
唇位可視也稱為唇形模擬,是一種展現(xiàn)模擬發(fā)音人唇、牙、舌等部位在發(fā)音時變化情況的人臉動畫技術。借助唇形模擬學習者可以直接觀察到方言發(fā)音時唇位的變化,便于模仿,提高了方言的學習效率。唇形模擬的主流技術有基于文本驅(qū)動、基于自然語音驅(qū)動和音視頻混合驅(qū)動三種[6],以基于文本驅(qū)動的技術最為成熟,目前已有產(chǎn)品推出,如SitePal、CrazyTalk、TalkingPhoto等[7]。但現(xiàn)有產(chǎn)品的驅(qū)動語種是英語、漢語、法語、西班牙語等大語種,無法由地方方言直接驅(qū)動。
本文提出了一種根據(jù)惠州方言發(fā)音實時展示唇部動態(tài)變化的方法,將復雜的惠州方言發(fā)音唇形變化歸納為少數(shù)幾個基本唇形,通過唇形變化等效的方法,將惠州方言發(fā)音時的唇位變化轉(zhuǎn)變?yōu)榈刃У钠胀ㄔ挵l(fā)音唇位變化,并在基于文本驅(qū)動的唇形模擬平臺上實現(xiàn)出唇位可視效果。
2 惠州方言發(fā)音的唇位可視建模
為了實現(xiàn)對唇位可視的建模須對唇部進行參數(shù)化和標準化。MPEG-4是采用了基于對象編碼的方式對包括唇部的人臉可視部位進行了細致的定量描述[8],涉及人臉編碼的主要有兩個參數(shù)集:人臉定義參數(shù)集(FDP)和人臉運動參數(shù)集(FAP)。兩個參數(shù)集總共定義了84個特征點,分成臉、眼、鼻、耳、唇等若干組,覆蓋了整個人臉面部并具有較高的可移植性。
本文采用MPEG-4人臉模型規(guī)范的唇部特征點對惠州方言發(fā)音的唇部特征進行定量描述。MPEG-4參數(shù)集中對唇部共定義了18特征點,見圖1,通??煞譃?組[9]。利用18個特征點基本能滿足描述惠州方言發(fā)音時的唇形特征的需求。
第1組:外唇邊緣定義點,共2個,分別為:8.3、8.4;
第2組:內(nèi)唇邊緣定義點,共2個,分別為:2.4、 2.5;
第3組:外唇口型張合定義點,共8個,分別為:8.6、8.9、8.1、8.10、8.5、8.7、8.2、8.8;
第4組:內(nèi)唇口型張合定義點,共6個,分別為:2.7、2.2、2.6、2.8、2.3、2.9。
為了記錄惠州方言發(fā)音的真實唇部特征及其變化情況,本研究對發(fā)音人發(fā)音時的唇部變化進行了攝像記錄,并人工標注出圖像中的特征點。具體方法是,首先,用高清攝像機拍攝發(fā)音人未發(fā)音時的初始唇形,此靜態(tài)唇形影像是后續(xù)特征點標注的基礎。然后,再讓發(fā)音人逐字對照文本語料進行發(fā)音,記錄下發(fā)音人發(fā)音過程中的唇形變化過程。為了便于對唇部進行標記,可參照圖1特征點位置,對在發(fā)音人的唇部涂抹色彩標記。最后,將獲得的影像逐幀標記出唇位特征點。用同樣的方法可記錄普通話發(fā)音人發(fā)音時的唇部特征及其變化。獲得兩類發(fā)音的唇形特征點數(shù)據(jù)集后,可統(tǒng)計分析二者發(fā)音時唇形變化的區(qū)別,并尋找二者對應的匹配關系。
以往的研究發(fā)現(xiàn)人類唇部運動及唇部運動的組合可構(gòu)成發(fā)音的各類唇形,共可歸納為八種基本唇形,分別是:張唇、閉唇、圓唇、升上唇、降下唇、突唇、翹唇和收縮嘴角[10]。本研究通過對采集得到的惠州方言發(fā)音人發(fā)音唇形變化特征的數(shù)據(jù)分析發(fā)現(xiàn),惠州方言與普通話的聲母、韻母發(fā)音時的唇形變化特征均符合上述規(guī)律。更復雜的詞語或句子的發(fā)音唇形變化則可由上述八種基本口型通過排序及線性組合構(gòu)成[11]。表1,列舉了惠州方言和普通話發(fā)音時由唇形變化構(gòu)成的口型及其組合。
設,唇形變化集為:
[V={vi|i=1…8}] (1)
其中,[V]中元素分別代表八種基本唇形,分別是:張唇([v1])、閉唇([v2])、圓唇([v3])、升上唇([v4])、降下唇([v5])、突唇([v6])、翹唇([v7])和收縮嘴角([v8])八種基本唇形。
對于一個詞句的發(fā)音,其唇形變化可表示為一個由[n]項與時間先后順序相關的基本唇形有序集:
[P={s1=(vi,t1),s2=(vi,t2),…,sn=(vi,tn)}] (2)
其中,[s1,s2,…,sn]為在時間序列[ti]時刻的發(fā)音字。則發(fā)音字集可表示為:
[S={si|i=1…n}] (3)
定義1:如果兩個發(fā)音字集不完全相同,但生成的基本唇形有序集卻完全相同,則稱這兩個發(fā)音字集互為唇形變化效果等效字集,簡稱等效字集。即:
如果存在[S1≠S2],但[P1=P2],則[S1?S2]。
例如,惠州方言語句“阿爸好中意講古仔”(爸爸很喜歡講故事),發(fā)音時其基本唇形有序集為:
[PH={s1=(v5,t1),s2=(v2,t2),…,s8=(v5,t8)}]
其中,[SH={si|i=1…8}={阿,爸,好,中,意,講,古,仔}]
通過對比,上述惠州方言詞句發(fā)音唇形變化效果等效于普通話語句“阿爸好正意光古杰”。即:
[PM={s1=(v5,t1),s2=(v2,t2),…,s8=(v5,t8)}]
其中,[SM={si|i=1…8}={阿,爸,好,正,意,光,古,杰}]
根據(jù)定義1,[SH≠SM],但[PH=PM],則[SH?SM]。
即:惠州方言語句“阿爸好中意講古仔”與普通話語句“阿爸好正意光古杰”對于唇形變化效果等效,二者互為等效字集。因此,可將上述普通話語句輸入到文本驅(qū)動型的唇形模擬平臺,得到的唇形變化效果與惠州方言發(fā)音的唇形變化效果相同。
3惠州方言發(fā)音的唇位可視實現(xiàn)
惠州方言發(fā)音的唇位可視實現(xiàn)可借助現(xiàn)有的唇形模擬平臺。典型的唇形模擬平臺有SitePal、MS Agent、CrazyTalk、Talking Photo等。各唇位模擬平臺的對比見表2[12,13]。通過對比發(fā)現(xiàn),SitePal采用了Morphing動畫技術,可模擬并合成出較為真實的人臉動畫,具有豐富的Model庫并可自建Model角色,其采用Text-to-Speech引擎產(chǎn)生語音輸出,可由文本直接驅(qū)動發(fā)音,支持的語種包括漢語普通話在內(nèi),并能自動生成包括唇形動態(tài)變化在內(nèi)的人臉動畫,生成的唇形模擬自然程度比較高,具有較強的真實感。此外,SitePal生成的動畫可直接嵌入網(wǎng)頁或系統(tǒng),兼容性好,是進行唇形模擬的較為理想的平臺。
由SitePal構(gòu)建惠州方言唇形模擬的步驟是:
1)設置“Model”(角色):在SitePal的模型庫選擇Model,配置Model的臉部器官參考點。由于模擬的主要是唇形,因此參考點的配置可依據(jù)MPEG-4參數(shù)集選擇對應的唇位特征點。
2)生成等效發(fā)音字集。依據(jù)采集得到的惠州方言發(fā)音唇形變化特征的數(shù)據(jù),生成惠州方言與普通話的等效發(fā)音字集。
3)生成并優(yōu)化唇形模擬動畫。將普通話的等效發(fā)音字集輸入SitePal平臺,由平臺生成唇形模擬結(jié)果數(shù)據(jù)集并將此數(shù)據(jù)集加載在Model上,得到唇形模擬動畫。實時觀察動畫效果,并可通過微調(diào)唇位特征點位置優(yōu)化動畫效果。
4)發(fā)布唇形模擬動畫。SitePal具有網(wǎng)頁發(fā)布和本地發(fā)布等多種動畫發(fā)布功能,可嵌入宏代碼在網(wǎng)頁上發(fā)布,或直接用Swf格式播放器播放本地動畫文檔。
本文采用人工評價的方法對唇位可視效果進行了評價。評價人觀察動畫后從以下四個標準中選擇一個作為評價結(jié)果。
完美。完美是指,唇動畫連續(xù)自然,符合視覺習慣,與發(fā)音配合完美,能準確反映惠州方言的發(fā)音的唇部變化特性。
可接受。可接受是指,唇動畫連續(xù)性尚可,基本符合視覺習慣,與發(fā)音配合略有遲滯,基本能反映惠州方言發(fā)音的唇部變化特性。
一般。一般是指,唇部動畫能感覺到明星的斷續(xù)感,勉強符合視覺習慣,與發(fā)音配合有明顯的遲滯,勉強能分辨出是惠州方言發(fā)音的唇部變化特性。
不可接受。不可接受是指,唇部動畫斷續(xù)嚴重,不符合視覺習慣,與發(fā)音完全不能配合,不能分辨出是何種語言在發(fā)音。
本文安排了13名以惠州方言為母語的評測員按照上述四種評價標準對惠州方言發(fā)音的唇形模擬動畫進行評測。13個有效評價中,選擇“完美”、“可接受”、“一般”、“不可接受”的數(shù)量分別是7、4、2、0,即所占百分比分別為:53.8%、30.8%、15.4%、0%。可見,由本文方法得到的惠州發(fā)言唇形模擬動畫人工評價的結(jié)果在“完美”和“可接受”之間。唇動畫較為連續(xù)自然,符合視覺習慣,與發(fā)音配合也基本沒有遲滯。評價人反饋的主要問題是部分唇形動畫與惠州方言發(fā)音時的唇部變化不吻合。這主要是部分惠州方言的字詞缺少與普通話的等效發(fā)音字集造成的。此外,部分惠州方言發(fā)音與普通話發(fā)音的唇形在變化幅度上存在差異,例如有些發(fā)音唇張角大小差異較大。
4 結(jié)語
本文從惠州方言唇部的特征點入手,通過對惠州發(fā)言發(fā)音時唇部特征點的記錄、對比與分析,發(fā)現(xiàn)惠州方言發(fā)音時發(fā)唇變化可歸納為少數(shù)基本唇形,并可將惠州方言唇位變化通過唇形變化等效字集轉(zhuǎn)化為普通話發(fā)音唇位變化。本文利用SitePal平臺的普通話發(fā)音唇位可視功能模擬出了惠州方言發(fā)音時唇位變化的可視化效果。由人工評價結(jié)果看來,采用本文方法生成的惠州方言唇形模擬動畫效果連續(xù)自然,符合視覺習慣,發(fā)音配合良好,大部分字詞的唇形模擬與真實惠州方言發(fā)音時唇位變化吻合,效果尚屬滿意。在下一步的工作中,仍需跟蹤、分析更多的惠州方言唇部特征點,擴大基本唇形集,使得等效模型更加精確;并嘗試采用SitePal平臺支持的其他語種如英語、法語、日語、西班牙語等來生成等效字集來模擬惠州方言發(fā)音時的唇位變化。
參考文獻:
[1] 陳淑環(huán),盤文偉.惠東瀕危畬語的活力與保護[J].惠州學院學報,2013(5):15-20.
[2] 陳淑環(huán).《惠州方言詞典》評介[J].惠州學院學報(社會科學版),2008(1):118-122.
[3] 陳淑環(huán).惠州方言“腳”的語義網(wǎng)絡及其文化特征[J].惠州學院學報,2016(02):28-32+37.
[4] 張紹麒,張文峰,姜嵐,等.計算機輔助方言研究系統(tǒng)的建設與膠東方言電子語音語料庫的研制[J].魯東大學學報(哲學社會科學版),2006(3):120-123.
[5] 李斌.用Elan建設單點方言多媒體語料庫[J].方言,2012(02):178-190.
[6] UZ B, GUDUKBAY U, OZGUC B. Realistic speech animation of synthetic faces[C]//Computer Animation 98. Proceedings, 1998: 111-118.
[7] 張家華,張劍平.口型模擬技術及其在網(wǎng)絡課程中的應用探索[J].現(xiàn)代教育技術,2010,20(3):35-38.
[8] TEKALP A M, OSTERMANN J. Face and 2-D mesh animation in MPEG-4[J]. Signal Processing Image Communication,2013,15(4–5): 387-421.
[9] 劉小丹,黃翠翠,齊映雪.日語學習軟件中假名驅(qū)動口型動畫技術研究[J].電化教育研究,2011(12):76-80.
[10] MELISSA E, HACOPIAN N, LADEFOGE P. Dissection of the speech production mechanism[M]. Los Angeles: UCLA,2002.
[11] 李皓,陳艷艷,唐朝京.唇部子運動與權重函數(shù)表征的漢語動態(tài)視位[J].信號處理,2012(03):322-328.
[12] K GOVINDASAMY M. Animated pedagogical agent: a review of agent technology software in electronic learning environment[J]. Journal of Educational Multimedia and Hypermedia, 2014, 23(2): 163-188.
[13] WAI L C, SOURIN A. Setting Cyber-Instructors in cyberspace[C]//Cyberworlds (CW), 2010 International Conference on, 2010: 314-318.