劉婭迪 王小敏 王一迪
摘 要:社會(huì)上有這樣一個(gè)特殊的群體,有人稱之為“聾啞部落”,這就意味著他們完全被孤立在健全人控制的社會(huì)以外,他們的手語(yǔ)很少有人懂,他們的心理與健全人心理相比存在差異。本項(xiàng)目為特殊學(xué)校的聾啞人群提供專門的唇語(yǔ)產(chǎn)品,掌握唇語(yǔ)使用技能,以便他們和正常人一樣進(jìn)行交流。本項(xiàng)目還提供即時(shí)文字輸出系統(tǒng)、多語(yǔ)種系統(tǒng)等高端消費(fèi),為“耳障”人員提供幫助。項(xiàng)目在技術(shù)上具有前瞻性、可行性,從經(jīng)濟(jì)上,由于國(guó)家對(duì)特殊教育持積極的鼓勵(lì)政策,獲得政府多方面的支持,可操作性強(qiáng)。
關(guān)鍵詞:大數(shù)據(jù) 唇語(yǔ)識(shí)別 耳障
中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-9082(2019)08-0-01
一、引言及背景
第四屆世界互聯(lián)網(wǎng)大會(huì)讓人工智能再一次掀起了新的浪潮。近來(lái)人工智能的發(fā)展,從一開(kāi)始的使用鍵盤碼字,到后來(lái)的智能觸摸屏的發(fā)明、再到語(yǔ)音輸入等人機(jī)交互的發(fā)展,這些發(fā)展促使人機(jī)交互的模式向更加多元化的方向更新。如今,出現(xiàn)了一種新興的人機(jī)交互技術(shù)——唇語(yǔ)識(shí)別。唇語(yǔ)識(shí)別是指通過(guò)觀察口形變化,識(shí)別和部分識(shí)別出說(shuō)話者內(nèi)容,達(dá)到理解說(shuō)話者的意圖。
近幾十年來(lái),計(jì)算機(jī)技術(shù)得到飛速發(fā)展,但是人機(jī)交換界面依然很老套,人們?nèi)匀灰阪I盤上敲敲打打,依賴鼠標(biāo)的幫助,通過(guò)最普通的界面進(jìn)行計(jì)算機(jī)操作。這種連續(xù)敲打鍵盤不僅容易造成手腕肌腱損傷,還把使用者一直束縛在鍵盤上?;蛟S自動(dòng)語(yǔ)音識(shí)別系統(tǒng)能讓我們稍稍感到輕松一些——這種系統(tǒng)在辦公室內(nèi)的多媒體系統(tǒng),從而實(shí)現(xiàn)無(wú)聲通話。
該技術(shù)還可以被廣泛應(yīng)用于語(yǔ)音識(shí)別、身份識(shí)別、人機(jī)智能接口,以此來(lái)實(shí)現(xiàn)無(wú)聲對(duì)話、特殊教育教學(xué)、老年人、殘障人輔助以及其它場(chǎng)合的應(yīng)用,例如公安、刑偵輔助偵破等等。通過(guò)唇語(yǔ)識(shí)別,可以讓無(wú)法開(kāi)口說(shuō)話的殘障人士自由表達(dá)、讓聽(tīng)力障礙者和不少老年人更清晰地聽(tīng)懂他人;通過(guò)口型支付密碼,可以進(jìn)行移動(dòng)支付;而在軍事情報(bào)領(lǐng)域,唇語(yǔ)識(shí)別則讓遠(yuǎn)距離獲取情報(bào)成為可能。
二、特征提取與模式的概化引用
可視語(yǔ)音信息的特征提取方法可分為兩大類:基于像素的方法和基于模型的方法.。
所謂基于像素的方法,就是直接利用包含嘴的灰度級(jí)圖像或直接利用經(jīng)過(guò)若干預(yù)處理后得到的特征向量(feature vector)的一類方法.這類方法的優(yōu)點(diǎn)是所有的數(shù)據(jù)都起作用;其缺點(diǎn)是分類器的學(xué)習(xí)過(guò)程中對(duì)一般的二維或三維的平移、旋轉(zhuǎn)、放縮,或光照變化或說(shuō)話人的變化都很敏感;另一個(gè)缺點(diǎn)是,其特征向量是高維度的和高冗余度的。
所謂基于模型的方法,就是對(duì)可見(jiàn)的發(fā)音部位——主要是唇的輪廓建立一個(gè)模型,而外形的描述用一個(gè)小的參數(shù)集合。這類方法的優(yōu)點(diǎn)是重要特征被表示成低維量且通常不因平移、旋轉(zhuǎn)、放縮或光照而改變.缺點(diǎn)是獨(dú)特的模型有可能沒(méi)能包括所有相關(guān)的語(yǔ)音信息。
三、多語(yǔ)種管理系統(tǒng)
如今的唇語(yǔ)識(shí)別系統(tǒng)還不完善,比如研究領(lǐng)域僅僅局限于母語(yǔ)以及最普遍的英文。但是,對(duì)于那些擅長(zhǎng)說(shuō)方言的人而言,僅僅這兩種語(yǔ)言是無(wú)法滿足其需要的。所以,可以創(chuàng)建一套完整的“多語(yǔ)言管理系統(tǒng)”。
(1)語(yǔ)種設(shè)定及查詢功能是基于不知道對(duì)方使用何種語(yǔ)言或管理系統(tǒng)沒(méi)有該種語(yǔ)言的情況下,計(jì)算機(jī)根據(jù)前期對(duì)話,自動(dòng)搜尋,尋找最接近系統(tǒng)的對(duì)話模式(子系統(tǒng)),從而在該子系統(tǒng)下實(shí)現(xiàn)對(duì)接。
(2)語(yǔ)種預(yù)設(shè)功能,是熟知對(duì)方使用何種語(yǔ)言,進(jìn)行提前預(yù)設(shè)的管理系統(tǒng)。省去前期搜尋過(guò)程,使對(duì)話直接切入正題,實(shí)現(xiàn)實(shí)時(shí)轉(zhuǎn)換,省時(shí),得到完整的對(duì)話
(3)圖像集管理系統(tǒng)與文字關(guān)聯(lián)系統(tǒng)
圖像、語(yǔ)音、文字管理系統(tǒng)分若干個(gè)子系統(tǒng),每個(gè)子系統(tǒng)對(duì)應(yīng)一地的方言,唇形圖像與方言語(yǔ)音、文字建立輸入相應(yīng)關(guān)系。根據(jù)交流對(duì)象選取管理子系統(tǒng),比如上海話子系統(tǒng):口形輸入系統(tǒng)—口形查找、比對(duì)—文字輸出。
(4)唇形圖像存儲(chǔ)系統(tǒng),一組詞匯對(duì)應(yīng)的多個(gè)口形取參數(shù)的平均值,并設(shè)定上下閾值。每個(gè)子系統(tǒng)有添加圖像、模擬、記憶和修復(fù)功能。
添加圖像功能是增加新的圖像/唇形、語(yǔ)音。
模擬功能是對(duì)不準(zhǔn)確的輸出,進(jìn)行多次模擬,直至輸出正確為止。各自地方語(yǔ)種構(gòu)成漢字圖形/語(yǔ)音系統(tǒng),比如普通話,上海話、北京話、重慶話等。
記憶功能是對(duì)修改和添加的圖像或語(yǔ)音進(jìn)行記憶。
修復(fù)功能是對(duì)原有的圖像/唇形進(jìn)行修復(fù),糾正不正確或不準(zhǔn)確的圖形和語(yǔ)音。
(5)英語(yǔ)作為外語(yǔ)語(yǔ)種而單獨(dú)存在另一個(gè)語(yǔ)種中。
(6)借助其它語(yǔ)音軟件文字進(jìn)行校正。
四、文字輸出系統(tǒng)及應(yīng)用
選擇基于圖形管理系統(tǒng)下的子系統(tǒng)、輸出、應(yīng)用。比如對(duì)方是普通話,那么管理系統(tǒng)既是普通話子系統(tǒng),對(duì)應(yīng)的唇語(yǔ)就是普通話子系統(tǒng)。
五、結(jié)論
唇讀研究的困難在于口型和語(yǔ)音是一個(gè)一對(duì)多的對(duì)應(yīng)關(guān)系,單從口型來(lái)映射語(yǔ)音是不確定的.如果沒(méi)有其它相關(guān)知識(shí),要識(shí)別絕對(duì)是不可能的.而這些相關(guān)知識(shí),需要很多.比如,特定語(yǔ)言學(xué)、音韻學(xué)的規(guī)律,相關(guān)領(lǐng)域的專業(yè)知識(shí)背景,這些知識(shí)庫(kù)的建立和支持并不是一件容易的事.另一方面,唇讀研究不可回避的計(jì)算機(jī)視覺(jué)問(wèn)題,如光照變化、深度信息的缺乏,給唇的描述和識(shí)別帶來(lái)巨大的障礙.隨著計(jì)算機(jī)視覺(jué)、知識(shí)表達(dá)、知識(shí)推理技術(shù)的不斷發(fā)展,我們有理由相信:視覺(jué)語(yǔ)言一定會(huì)被人們完全掌握和運(yùn)用。
參考文獻(xiàn)
[1]王淵,岳振軍,賈永興.唇語(yǔ)識(shí)別中的話題相關(guān)語(yǔ)言模型研究.解放軍理工大學(xué).
[2]褚道立,唇語(yǔ)判讀.《南外學(xué)報(bào)》,1985年第2期.
[3]余健儀,基于唇動(dòng)特征的唇語(yǔ)識(shí)別技術(shù).廣東工業(yè)大學(xué).
[4]王曉鐘,潘保昌,鄭勝林.基于內(nèi)唇特征提取的唇語(yǔ)識(shí)別.廣東工業(yè)大學(xué).