何 珊,袁家斌,陸要要
1.南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京211106
2.南京航空航天大學(xué) 信息化處,南京211106
人類(lèi)語(yǔ)音互動(dòng)本質(zhì)上是多模式的,與他人交流時(shí)可以通過(guò)“聽(tīng)”和“看”來(lái)獲取信息。在干凈的聲學(xué)條件下,聽(tīng)覺(jué)方式會(huì)攜帶大多數(shù)有用的信息,并且最新的技術(shù)水平已經(jīng)能夠自動(dòng)準(zhǔn)確地記錄語(yǔ)音內(nèi)容,準(zhǔn)確率高達(dá)98%。而當(dāng)音頻通道被噪聲破壞甚至沒(méi)有聲音時(shí),視覺(jué)模態(tài)變得最有效,因?yàn)閺闹锌梢垣@得一定的語(yǔ)言特征。
唇語(yǔ)識(shí)別是融合了計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和自然語(yǔ)言識(shí)別等多種技術(shù)的一個(gè)課題,目的是解碼說(shuō)話(huà)者嘴唇運(yùn)動(dòng)生成的文本。唇語(yǔ)識(shí)別具有廣闊的應(yīng)用空間,例如嘈雜環(huán)境中的語(yǔ)音識(shí)別、公共場(chǎng)所的靜默聽(tīng)寫(xiě)、無(wú)聲影視資料處理等。由于計(jì)算機(jī)視覺(jué)任務(wù)的進(jìn)步,這種自動(dòng)化應(yīng)用是極具前景的。近年來(lái),至少在數(shù)據(jù)集定義的詞匯量有限的情況下,利用深度學(xué)習(xí)架構(gòu)訓(xùn)練得到的唇讀模型在很大程度上已經(jīng)超過(guò)了專(zhuān)業(yè)讀唇者。
幾十年來(lái),僅根據(jù)視覺(jué)特征來(lái)識(shí)別說(shuō)話(huà)者所說(shuō)的內(nèi)容一直是一項(xiàng)挑戰(zhàn),難點(diǎn)之一就是如何提取嘴唇的視覺(jué)特征,以使模型具有更好的性能。
早在1984年,Petajan等人就提出了唇語(yǔ)識(shí)別模型[1]。1988年,在原工作的基礎(chǔ)上,他們引入了矢量量化和動(dòng)態(tài)時(shí)間規(guī)整等算法[2],并提出了新的相似度測(cè)量算法,極大地提高了唇語(yǔ)識(shí)別準(zhǔn)確率。之后隨著機(jī)器學(xué)習(xí)的崛起,隱馬爾科夫模型(hidden Markov model,HMM)在語(yǔ)音識(shí)別領(lǐng)域取得了巨大成功,根據(jù)唇語(yǔ)識(shí)別和語(yǔ)音識(shí)別的相似性,出現(xiàn)了大量將HMM應(yīng)用在唇語(yǔ)識(shí)別領(lǐng)域的研究[3-6],都取得了較好的結(jié)果。
近年來(lái),由于深度學(xué)習(xí)的發(fā)展,使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)或長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)提取嘴唇特征已成為一種趨勢(shì),并且能顯著提高唇讀準(zhǔn)確率[7-10]。在模型的構(gòu)建上,通常采用以下兩種方案:一個(gè)是連接時(shí)序分類(lèi)法(connectionist temporal classification,CTC),另一個(gè)是帶有注意機(jī)制的序列到序列結(jié)構(gòu)(Seq2Seq),二者均可解決輸入輸出長(zhǎng)度不一致的情況。從單詞分類(lèi)任務(wù)[9,11-13]到在字符級(jí)別轉(zhuǎn)錄大量單詞[14],再到從靜態(tài)圖像預(yù)測(cè)音素[7]或視素[15],已經(jīng)涌現(xiàn)出許多出色的工作。LipNet 使用CNN、LSTM 和CTC 損失構(gòu)建句子級(jí)的端到端唇語(yǔ)識(shí)別網(wǎng)絡(luò)[16]。Chung 等提出的WLAS(watch,listen,attend and spell)模型具有雙重注意機(jī)制[14],可以?xún)H輸入視頻、僅輸入音頻或二者均輸入,實(shí)現(xiàn)在字符級(jí)別將開(kāi)放域視頻轉(zhuǎn)錄成大量英文詞匯。劉大運(yùn)等提出了一種雙向LSTM 和注意力機(jī)制相結(jié)合的深度學(xué)習(xí)模型[17],解決了唇語(yǔ)識(shí)別中唇部特征提取和時(shí)序關(guān)系識(shí)別存在的問(wèn)題。
馬金林等人總結(jié)了較有影響力的唇語(yǔ)識(shí)別方法及語(yǔ)料庫(kù)[18],可以看出,相比英文,中文數(shù)據(jù)集較少,識(shí)別工作較少且性能較弱。Yang等提出了一種用于開(kāi)放域中文唇語(yǔ)識(shí)別的大規(guī)模數(shù)據(jù)集,名為L(zhǎng)RW-1000,并相應(yīng)提出了一個(gè)模型DenseNet-3D[19],但是他們僅對(duì)中文進(jìn)行了單詞分類(lèi),而不能在完整的句子級(jí)別上執(zhí)行。針對(duì)句子級(jí)別的唇讀,張曉冰等構(gòu)建的CHLipNet 是一個(gè)兩步式的端到端體系結(jié)構(gòu)[20],其中使用了兩個(gè)神經(jīng)網(wǎng)絡(luò)模型分別進(jìn)行圖像到拼音的識(shí)別以及拼音到漢字的識(shí)別。Zhao等則搭建了一個(gè)三級(jí)結(jié)構(gòu)的網(wǎng)絡(luò)[21],分別用于圖像到拼音的識(shí)別、拼音到聲調(diào)的識(shí)別以及拼音加聲調(diào)到漢字的識(shí)別,且發(fā)布了第一個(gè)也是唯一公開(kāi)的句子級(jí)中文視聽(tīng)數(shù)據(jù)集CMLR。
英文和中文有很多差異,最大的不同點(diǎn)在于:英文的最小單元為單詞,而中文的最小單元是漢字,一個(gè)英文單詞是具有語(yǔ)義的,漢字則要組合起來(lái)才具有語(yǔ)義;另外,中文發(fā)音在視覺(jué)上極具混淆性,體現(xiàn)在不同的詞語(yǔ)因?yàn)橛兄嗤钠匆粜蛄?,所以共享完全相同的唇形(例如“?lián)系”和“練習(xí)”),甚至有著兩個(gè)不同拼音序列的詞語(yǔ),因?yàn)榘l(fā)音相近,亦難在唇形上進(jìn)行區(qū)分(例如“聯(lián)系”和“電擊”)。因此,在建立模型時(shí)要充分考慮到中文自身的特點(diǎn),為了最大程度上減少視覺(jué)混淆對(duì)模型性能的影響,本文先研究說(shuō)話(huà)者講話(huà)時(shí)的唇型變化與實(shí)際發(fā)音的對(duì)應(yīng)關(guān)系,對(duì)其進(jìn)行歸類(lèi),將最終得到的結(jié)果稱(chēng)為“視覺(jué)拼音”。基于此,提出一個(gè)中文句子級(jí)唇語(yǔ)識(shí)別模型CHSLR-VP,該模型是一個(gè)端到端的二級(jí)結(jié)構(gòu),整個(gè)識(shí)別過(guò)程分為視頻幀到視覺(jué)拼音序列的識(shí)別和視覺(jué)拼音序列到漢字語(yǔ)句的識(shí)別。鑒于視覺(jué)拼音是基于中文拼音得出的,將更換CHSLR-VP前半段的建模單元為拼音,比較二者在中文唇語(yǔ)識(shí)別任務(wù)上的效果。基于CMLR數(shù)據(jù)集上的實(shí)驗(yàn)表明,該模型在視覺(jué)拼音上表現(xiàn)更好,且與其他唇語(yǔ)識(shí)別方法相比,基于視覺(jué)拼音的模型性能更優(yōu)。
綜上所述,本文的貢獻(xiàn)如下:(1)根據(jù)中文發(fā)音的視覺(jué)特點(diǎn)得出“視覺(jué)拼音”,并首次將其應(yīng)用于中文唇語(yǔ)識(shí)別領(lǐng)域;(2)構(gòu)建了基于視覺(jué)拼音的中文句子級(jí)唇語(yǔ)識(shí)別模型CHSLR-VP,通過(guò)實(shí)驗(yàn)證明了視覺(jué)拼音可有效提升漢字識(shí)別準(zhǔn)確率。
漢字的發(fā)音可用拼音標(biāo)記,而拼音由音節(jié)和聲調(diào)組成,聲調(diào)代表整個(gè)音節(jié)的音高,由于本文是對(duì)無(wú)聲視頻進(jìn)行識(shí)別,故不考慮聲調(diào)。通過(guò)對(duì)中文的研究可知,漢字發(fā)音可以用1 300 多個(gè)音節(jié)進(jìn)行表示,一個(gè)音節(jié)又由聲母和韻母組成。其中,聲母是整個(gè)音節(jié)的開(kāi)頭,其余部分是韻母,聲母有23個(gè),可分為雙唇音、唇齒音、齒齦音、齦顎音、卷舌音和軟腭音,其具體發(fā)音分類(lèi)如表1所示;韻母有39個(gè),可分為單元音韻母、復(fù)韻母和鼻韻母,如表2所示。全部聲母加上一個(gè)“ng”組成輔音,單元音韻母組成元音,二者統(tǒng)稱(chēng)為音素,音素是最小的語(yǔ)音單位,依據(jù)音節(jié)里的發(fā)音動(dòng)作分析,一個(gè)動(dòng)作構(gòu)成一個(gè)音素。舉例來(lái)說(shuō),“中國(guó)”一詞由兩個(gè)音節(jié)組成,可以分解為“zh,o,ng,g,u,o”6 個(gè)音素。中文音素共32 個(gè),詳見(jiàn)表3。
表1 聲母發(fā)音分類(lèi)表Table 1 Initials’pronunciation classification table
表2 韻母發(fā)音分類(lèi)表Table 2 Finals’pronunciation classification table
表3 中文音素表Table 3 Chinese phoneme table
不同的發(fā)音部位和發(fā)音方法決定了聲音的不同,但在沒(méi)有聲音僅依據(jù)視覺(jué)判定發(fā)音時(shí),某些音素是很難進(jìn)行區(qū)分的。為了減少這種歧義,提出一個(gè)新的概念——視覺(jué)拼音,它是將視覺(jué)上相似度較高的音素進(jìn)行分組歸類(lèi)得到的,采取了如下技術(shù)手段:先將2.1節(jié)提到的視覺(jué)拼音預(yù)測(cè)模型修改成一個(gè)拼音預(yù)測(cè)模型,就是將拼音作為建模單元,把輸入的視頻幀序列預(yù)測(cè)成拼音序列;然后按照Neti等人的方法計(jì)算音素的混淆矩陣[22]。圖1顯示了6個(gè)混淆度最高的音素矩陣,橫坐標(biāo)代表預(yù)測(cè)得到的音素,縱坐標(biāo)代表實(shí)際音素,顏色越淺代表混淆度越高。
圖1 音素混淆矩陣Fig.1 Phoneme confusion matrix
僅根據(jù)混淆矩陣不足以最終確定視覺(jué)拼音,仍有以下三種情況需要考慮:(1)通過(guò)圖1可知,最不易區(qū)分的是輔音,也即是聲母部分。綜合表1,“f”作為唇齒音和“b,p,m”具有一定的視覺(jué)相似性,為了進(jìn)一步確定“f”的分類(lèi),觀察了以“f”或“b,p,m”作為聲母,韻母相同的漢字對(duì)應(yīng)的嘴唇視頻幀序列,截取了部分例子,如圖2 所示。經(jīng)過(guò)比較發(fā)現(xiàn),“f”在發(fā)音時(shí)具有“咬下唇”的特點(diǎn),而“b,p,m”則是爆破音,故“f”將單獨(dú)劃分為一類(lèi)。(2)在音節(jié)中存在“y”和“w”,它們并不是實(shí)際意義上的聲母,因?yàn)槁暷甘且粋€(gè)音節(jié)開(kāi)頭的輔音,以“y”“w”為首的音節(jié),雖然也處于開(kāi)頭的地位,但其實(shí)是元音“i”“u”的大寫(xiě)形式。按照中文拼音的拼寫(xiě)規(guī)則,當(dāng)“i”“u”獨(dú)立成音節(jié)時(shí),必須在它們的面前分別加上“y”“w”,所以視覺(jué)拼音會(huì)納入二者。(3)考慮到某些整體認(rèn)讀音節(jié)的發(fā)音與單個(gè)音素的視覺(jué)效果一樣,將這樣的音節(jié)也進(jìn)行歸類(lèi)。綜上所述,得到了如表4所示的視覺(jué)拼音字母表。
圖2 “f”與“b,p,m”發(fā)音的視覺(jué)區(qū)別舉例Fig.2 Examples of visual difference between pronunciation of“f”and“b,p,m”
表4 視覺(jué)拼音字母表Table 4 Visual pinyin alphabet
CHSLR-VP模型是一個(gè)端到端的二級(jí)結(jié)構(gòu),其中以第1章提出的視覺(jué)拼音作為中間結(jié)果,最終得到無(wú)聲視頻中嘴唇運(yùn)動(dòng)序列對(duì)應(yīng)的漢字文本。如第1章所述,視覺(jué)拼音是在嘴唇運(yùn)動(dòng)的基礎(chǔ)上得到的,可以在一定程度上減輕視覺(jué)歧義。下面將詳細(xì)分析模型的兩個(gè)預(yù)測(cè)過(guò)程及其最終的整體架構(gòu)。
視覺(jué)拼音預(yù)測(cè)模型將輸入的視頻幀序列轉(zhuǎn)為視覺(jué)拼音序列,其結(jié)構(gòu)如圖3所示。它基于帶有注意機(jī)制的Seq2Seq體系結(jié)構(gòu),主要由兩部分組成:視頻編碼器和視覺(jué)拼音解碼器。
圖3 視覺(jué)拼音預(yù)測(cè)模型Fig.3 Visual pinyin prediction model
視頻編碼器首先將視頻序列xv輸入到CNN 中以提取視覺(jué)特征,然后將特征向量輸入到GRU。編碼過(guò)程可以表示為:
視覺(jué)拼音解碼器基于GRU 生成解碼器狀態(tài)和輸出狀態(tài)向量。在預(yù)測(cè)視覺(jué)拼音序列p時(shí),在每個(gè)時(shí)間步長(zhǎng)i使用視頻編碼器的輸出來(lái)計(jì)算上下文向量。輸出字符的概率分布是由MLP 在輸出上使用softmax生成的。整個(gè)解碼過(guò)程可以通過(guò)以下等式表示:
漢字預(yù)測(cè)模型可以將視覺(jué)拼音序列轉(zhuǎn)為漢字序列。該結(jié)構(gòu)如圖4 所示,同樣是基于具有注意機(jī)制的Seq2Seq結(jié)構(gòu)。這里將編碼器和解碼器分別命名為視覺(jué)拼音編碼器和漢字解碼器。
圖4 漢字預(yù)測(cè)模型Fig.4 Chinese character prediction model
視覺(jué)拼音編碼器的操作類(lèi)似于上述視頻編碼器。當(dāng)漢字預(yù)測(cè)模型獨(dú)立工作時(shí),暫時(shí)先忽略編碼器中的注意機(jī)制。另外,由于音節(jié)的總數(shù)只有1 300 左右,而中文漢字的數(shù)量超過(guò)了90 000,甚至常用漢字也超過(guò)了3 000。為了使模型更具魯棒性,在訓(xùn)練過(guò)程中再額外引入大量的中文句子,增加的樣本取自CCTV官網(wǎng)的新聞稿。
從圖4 可以看出,視覺(jué)拼音編碼器使用了注意機(jī)制,但在漢字預(yù)測(cè)模型中并未起到作用,因?yàn)樗枰曈X(jué)拼音預(yù)測(cè)模型中視頻編碼器的輸出向量,目的是引入唇部特征來(lái)矯正視覺(jué)拼音序列,提升模型整體性能。因此,在CHSLR-VP 的訓(xùn)練過(guò)程中,將視覺(jué)拼音預(yù)測(cè)模型中視覺(jué)拼音解碼器的輸出和視頻編碼器的輸出均輸入到漢字預(yù)測(cè)模型中。至此,整個(gè)CHSLR-VP模型構(gòu)建完成,當(dāng)然,將對(duì)CHSLR-VP 進(jìn)行重新訓(xùn)練以實(shí)現(xiàn)端到端模型。所提出的CHSLR-VP的體系結(jié)構(gòu)如圖5所示。
圖5 CHSLR-VP的結(jié)構(gòu)Fig.5 Structure of CHSLR-VP
所有的實(shí)驗(yàn)均是在CMLR數(shù)據(jù)集上進(jìn)行的,該數(shù)據(jù)集由浙江大學(xué)視覺(jué)智能與模式分析小組收集,是第一個(gè)開(kāi)放式中文句子級(jí)視聽(tīng)數(shù)據(jù)集。數(shù)據(jù)內(nèi)容來(lái)自中國(guó)電視網(wǎng)站,囊括了2009 年6 月至2018 年6 月錄制的《新聞聯(lián)播》,其中包含102 072個(gè)句子,25 633個(gè)短語(yǔ)和3 517個(gè)漢字。每個(gè)句子最多不超過(guò)29 個(gè)漢字,并且不含有英文字母、阿拉伯?dāng)?shù)字或標(biāo)點(diǎn)符號(hào)。整個(gè)數(shù)據(jù)集按照7∶1∶2的比例隨機(jī)分為訓(xùn)練集,驗(yàn)證集和測(cè)試集。
視覺(jué)輸入由一系列視頻幀組成,這些視頻幀是嘴唇區(qū)域的一組三通道BMP圖像,大小為64×80像素。10層的CNN網(wǎng)絡(luò)用于從圖像中提取嘴唇特征,所獲得的512維空間特征向量構(gòu)成視頻編碼器的輸入。所有卷積內(nèi)核均為1×3×3,所有最大池化stride 均為1×2×2,最大池化僅沿圖像的寬度和長(zhǎng)度方向執(zhí)行。
對(duì)于視覺(jué)拼音,在預(yù)處理時(shí)需要改動(dòng)三個(gè)地方:“you”對(duì)應(yīng)的視覺(jué)拼音由“Iou”改為“Iu”;“wei”對(duì)應(yīng)的視覺(jué)拼音由“UeI”改為“UI”;“wen”對(duì)應(yīng)的視覺(jué)拼音由“Uen”改為“Un”。韻母中的“iou”“uei”“uen”分別對(duì)應(yīng)“you”“wei”“wen”,預(yù)處理的目的是將嘴型一致的“iu”與“iou”、“uei”與“ui”、“un”與“uen”統(tǒng)一到一個(gè)標(biāo)準(zhǔn),減少歧義。
對(duì)于文字,將對(duì)每個(gè)句子進(jìn)行分詞處理,如果該分詞出現(xiàn)20 次以上,則將它作為一個(gè)固定整體。這樣做的目的是將單個(gè)的字連接成一個(gè)有意義的整體,這在語(yǔ)言學(xué)上有一個(gè)專(zhuān)門(mén)的定義——語(yǔ)素,即指語(yǔ)言中最小的音義結(jié)合體。對(duì)于每個(gè)語(yǔ)素,都有其對(duì)應(yīng)的視覺(jué)拼音組合和拼音組合,例如“中文”對(duì)應(yīng)的視覺(jué)拼音組合為“RoNUn”,拼音組合為“zhongwen”。如此,便可減少低維度視覺(jué)拼音(16 個(gè))及拼音(26 個(gè))與高維度漢字(3 517 個(gè))之間的混淆度,視覺(jué)拼音組合及拼音組合映射成漢字詞的匹配度也就更高。最終,視覺(jué)拼音詞匯的數(shù)量為3 287,拼音詞匯的數(shù)量為3 537,漢字詞的數(shù)量為3 584。它們都包括
為了驗(yàn)證CHSLR-VP的效果,選取了4種不同的模型與之進(jìn)行比較,分別是CHSLR-PY、WAS、CHLipNet、CSSMCM,它們均為端到端唇語(yǔ)識(shí)別方法。CHSLR-PY是將CHSLR-VP的視覺(jué)拼音預(yù)測(cè)階段改成拼音預(yù)測(cè),以證明視覺(jué)拼音是否更適用于唇語(yǔ)的解讀;WAS[14]是句子級(jí)唇語(yǔ)識(shí)別領(lǐng)域經(jīng)典的方法,它將用于直接識(shí)別漢字;CHLipNet[20]和CSSMCM[21]均為和本文所提模型結(jié)構(gòu)類(lèi)似的中文句子級(jí)唇語(yǔ)識(shí)別模型,前者是二級(jí)結(jié)構(gòu)(拼音預(yù)測(cè)和漢字預(yù)測(cè)),后者是三級(jí)結(jié)構(gòu)(拼音預(yù)測(cè)、聲調(diào)預(yù)測(cè)和漢字預(yù)測(cè))。以上模型均在CMLR數(shù)據(jù)集上進(jìn)行性能比較。
在訓(xùn)練時(shí),將會(huì)通過(guò)Adam優(yōu)化器優(yōu)化真實(shí)字符轉(zhuǎn)錄與預(yù)測(cè)字符序列之間的交叉熵?fù)p失,課程學(xué)習(xí)和時(shí)間表采樣策略用來(lái)提高性能,初始學(xué)習(xí)率設(shè)置為0.000 1,如果訓(xùn)練結(jié)果在4個(gè)epochs內(nèi)仍未改善,則將初始學(xué)習(xí)率降低50%。
在評(píng)估中,測(cè)量了真實(shí)字符轉(zhuǎn)錄與預(yù)測(cè)字符序列之間的編輯距離,并通過(guò)真實(shí)長(zhǎng)度進(jìn)行歸一化。對(duì)于所有實(shí)驗(yàn),視覺(jué)拼音準(zhǔn)確率/拼音準(zhǔn)確率(PAR)和漢字準(zhǔn)確率(CAR)被用作評(píng)估指標(biāo)。PAR由1-(S+D+I)/N計(jì)算,其中S是從預(yù)測(cè)視覺(jué)拼音/拼音序列到目標(biāo)視覺(jué)拼音/拼音序列所需的替代數(shù),D是刪除數(shù),I是插入數(shù),N是目標(biāo)序列中的視覺(jué)拼音/拼音字符數(shù)量。CAR的計(jì)算方法同PAR,只是預(yù)測(cè)序列和目標(biāo)序列均為漢字語(yǔ)句。
表5確認(rèn)了視覺(jué)拼音相比于拼音更適合解析唇語(yǔ),且以視覺(jué)拼音作為媒介的CHSLR-VP 模型的預(yù)測(cè)結(jié)果(67.38%)明顯好于以拼音作為媒介的CHSLR-PY 模型(61.77%)。出現(xiàn)這種現(xiàn)象的原因是:將拼音映射成視覺(jué)拼音降低了預(yù)測(cè)維度,將視覺(jué)上易混淆的元素合并到一起,使得唇形序列與預(yù)測(cè)單元匹配度更高。因此從表6中可以看見(jiàn),單獨(dú)訓(xùn)練的視覺(jué)拼音預(yù)測(cè)模型V2VP準(zhǔn)確率(76.48%)明顯高于單獨(dú)訓(xùn)練的拼音預(yù)測(cè)模型V2PY(70.81%)。雖然在漢字預(yù)測(cè)階段前者VP2H(89.13%)略遜色于后者PY2H(90.96%),但當(dāng)兩個(gè)子模型合并成一個(gè)整體時(shí),CHSLR-VP在視覺(jué)拼音預(yù)測(cè)階段取得的優(yōu)勢(shì)足以彌補(bǔ)甚至使得最終結(jié)果超過(guò)了以拼音作為媒介的CHSLR-PY模型。
表5 不同唇語(yǔ)識(shí)別模型在數(shù)據(jù)集CMLR上的性能比較Table 5 Performance comparison of different lip reading models on CMLR dataset
表6 CHSLR-PY和CHSLR-VP的性能比較Table 6 Performance comparison between CHSLR-PY and CHSLR-VP
表5 中還顯示了CHSLR-VP 模型與其他唇語(yǔ)識(shí)別工作的對(duì)比結(jié)果。在同一數(shù)據(jù)集下,CHSLR-VP性能要優(yōu)于其他模型,可以得出視覺(jué)拼音相較于拼音和漢字,能更準(zhǔn)確地傳達(dá)視頻中蘊(yùn)含的語(yǔ)言信息,也證明了本文所構(gòu)建的這個(gè)二級(jí)結(jié)構(gòu)模型的可行性。
建立的CHSLR-VP 模型目前存在以下兩個(gè)問(wèn)題:(1)使用視覺(jué)拼音歸并了拼音,在大大提高視頻解析精度的同時(shí)也會(huì)不可避免地降低漢字預(yù)測(cè)準(zhǔn)確率。舉例來(lái)說(shuō),表7 顯示了一個(gè)用CHSLR-VP 預(yù)測(cè)得到的句子,其中錯(cuò)誤地將“理性”預(yù)測(cè)成了“提醒”,因?yàn)樗鼈兊钠匆簟發(fā)ixing”和“tixing”歸納成視覺(jué)拼音均表示為“DIJIN”,而“提醒”出現(xiàn)的頻次遠(yuǎn)遠(yuǎn)高于“理性”,故得到錯(cuò)誤的結(jié)果。(2)視頻幀解析階段,長(zhǎng)句的預(yù)測(cè)效果遠(yuǎn)好于短句,這是由Seq2Seq模型本身的特性造成的,該結(jié)構(gòu)本身就更適合解析長(zhǎng)序列。
表7 CHSLR-VP預(yù)測(cè)的句子舉例Table 7 Examples of sentences predicted by CHSLR-VP
本文基于中文發(fā)音的視覺(jué)特點(diǎn)對(duì)音素進(jìn)行相似性歸類(lèi)得到視覺(jué)拼音;然后據(jù)此提出了一個(gè)中文句子級(jí)唇語(yǔ)識(shí)別模型CHSLR-VP。通過(guò)實(shí)驗(yàn)得出結(jié)論,提出的視覺(jué)拼音運(yùn)用到唇語(yǔ)識(shí)別模型中能達(dá)到較好的效果,并證實(shí)了使用視覺(jué)拼音作為過(guò)渡過(guò)程的二級(jí)結(jié)構(gòu)的有效性。在未來(lái),希望對(duì)這項(xiàng)工作進(jìn)行一些擴(kuò)展:(1)收集更多的視聽(tīng)數(shù)據(jù)語(yǔ)料,通過(guò)更多的數(shù)據(jù)提高模型魯棒性;(2)優(yōu)化模型結(jié)構(gòu),探索更適合唇部特征提取或語(yǔ)句解析的方法以解決模型現(xiàn)存的問(wèn)題;(3)參考語(yǔ)音識(shí)別或輸入法,使其具有自動(dòng)聯(lián)想功能,提高預(yù)測(cè)語(yǔ)句的邏輯性,進(jìn)而提高模型整體的識(shí)別率。