馬仕瑛
摘? 要: 為使更多人了解使用少數(shù)民族語(yǔ)音產(chǎn)品,有效解決我國(guó)少數(shù)民族地區(qū)與其他區(qū)域之間的語(yǔ)言障礙問(wèn)題,促進(jìn)民族間的相互交流。通過(guò)搜集資料,以國(guó)內(nèi)基于語(yǔ)音識(shí)別技術(shù)的維吾爾語(yǔ)、蒙古語(yǔ)、藏語(yǔ)的語(yǔ)音產(chǎn)品為研究對(duì)象,梳理其開(kāi)發(fā)和應(yīng)用情況,發(fā)現(xiàn)目前開(kāi)發(fā)的相關(guān)產(chǎn)品主要集中于語(yǔ)音輸入法、語(yǔ)音翻譯軟件和轉(zhuǎn)錄產(chǎn)品三方面,在此基礎(chǔ)上,對(duì)產(chǎn)品使用產(chǎn)生的影響進(jìn)行分析,并對(duì)相關(guān)語(yǔ)音產(chǎn)品的發(fā)展前景進(jìn)行展望。
關(guān)鍵詞: 語(yǔ)音識(shí)別; 少數(shù)民族語(yǔ)音產(chǎn)品; 語(yǔ)音輸入法; 語(yǔ)音翻譯軟件; 轉(zhuǎn)錄產(chǎn)品
Abstract: In order to make more people understand and use minority speech products, effectively solve the problem of language barrier between minority areas and other regions in China, and promote the mutual communication between ethnic groups, taking the domestic speech recognition technology based Uygur, Mongolian and Tibetan speech products as the research object, through the collection of data, combing their development and application, finds out that the current development products mainly focus on three aspects: speech input method, speech translation software and transcription. According to the research, the impact of the use of products is analyzed, and the development of related speech products is prospected.
0 引言
基于智能語(yǔ)音及語(yǔ)言的人機(jī)交互技術(shù)涵蓋了寬廣的研究領(lǐng)域。其中語(yǔ)音識(shí)別、語(yǔ)音合成和自然語(yǔ)言理解在智能語(yǔ)音及語(yǔ)言交互技術(shù)中處于最為關(guān)鍵的核心位置。語(yǔ)音識(shí)別所要解決的問(wèn)題就是讓計(jì)算機(jī)能“聽(tīng)懂”人類(lèi)的語(yǔ)音,并在各種情況下準(zhǔn)確地將語(yǔ)音中所包含的文字“信息”提取出來(lái),該技術(shù)在“能聽(tīng)會(huì)說(shuō)”的計(jì)算機(jī)系統(tǒng)中扮演著重要角色。這等于給計(jì)算機(jī)系統(tǒng)賦予了聽(tīng)覺(jué)能力,不僅使其“能聽(tīng)”,還能“聽(tīng)懂”,進(jìn)而實(shí)現(xiàn)信息時(shí)代利用“語(yǔ)音”這一最自然、最便捷的途徑進(jìn)行人機(jī)交互[1]。
我國(guó)是一個(gè)多民族國(guó)家,很多少數(shù)民族地區(qū)的居民仍不會(huì)說(shuō)國(guó)家通用語(yǔ)和漢語(yǔ)方言,這使其無(wú)法在除本村鎮(zhèn)以外的場(chǎng)合進(jìn)行有效地交流及溝通,嚴(yán)重制約其辦事效率。
開(kāi)發(fā)研制基于語(yǔ)音識(shí)別技術(shù)的少數(shù)民族語(yǔ)音產(chǎn)品,目的是幫助這些不懂漢語(yǔ)的少數(shù)民族在不熟悉的環(huán)境里有效交流,從而解決這些民族地區(qū)的語(yǔ)言障礙問(wèn)題,在此基礎(chǔ)上,推動(dòng)民族地區(qū)經(jīng)濟(jì)、文化等領(lǐng)域的發(fā)展,促進(jìn)各民族團(tuán)結(jié)、融合。由于維吾爾語(yǔ)、蒙古語(yǔ)和藏語(yǔ)等為重要的中國(guó)少數(shù)民族語(yǔ)種,發(fā)展歷史相對(duì)較長(zhǎng),與其他民族相比,其語(yǔ)音識(shí)別技術(shù)研究較豐富,所以開(kāi)發(fā)語(yǔ)言產(chǎn)品是有基礎(chǔ)的。
本文梳理和歸納了基于語(yǔ)音識(shí)別技術(shù)的維吾爾語(yǔ)、蒙古語(yǔ)、藏語(yǔ)的語(yǔ)音產(chǎn)品開(kāi)發(fā)和應(yīng)用情況,在此基礎(chǔ)上分析這些語(yǔ)音產(chǎn)品開(kāi)發(fā)及其使用所產(chǎn)生的影響。
1 基于語(yǔ)音識(shí)別的維蒙藏語(yǔ)音產(chǎn)品開(kāi)發(fā)及應(yīng)用現(xiàn)狀
近年來(lái)基于語(yǔ)音識(shí)別技術(shù)的維蒙藏語(yǔ)音產(chǎn)品不斷增多,給人們的生活帶來(lái)了便利。現(xiàn)根據(jù)研發(fā)單位的不同,對(duì)這些語(yǔ)音產(chǎn)品的基本功能作簡(jiǎn)要介紹。
1.1 中國(guó)民族語(yǔ)文翻譯局
中國(guó)民族語(yǔ)文翻譯局[2]基于基礎(chǔ)語(yǔ)料采集工作,將智能翻譯系統(tǒng)與民族文語(yǔ)音識(shí)別系統(tǒng)相結(jié)合,相繼研發(fā)多款語(yǔ)音軟件。
維吾爾文語(yǔ)音輸入法,功能包括漢語(yǔ)和維吾爾語(yǔ)的文字手寫(xiě)輸入和語(yǔ)音識(shí)別輸入。
維漢智能語(yǔ)音翻譯軟件,實(shí)現(xiàn)了維吾爾語(yǔ)和漢語(yǔ)的語(yǔ)音輸入、語(yǔ)音朗讀功能和維吾爾語(yǔ)與漢語(yǔ)之間的互譯功能。
語(yǔ)音轉(zhuǎn)寫(xiě)通,采用清華靈云識(shí)別技術(shù),可實(shí)時(shí)、不間斷地把整句語(yǔ)音進(jìn)行識(shí)別,然后轉(zhuǎn)成維吾爾文、蒙古文、藏文和漢字。
民漢對(duì)話(huà)通,基于語(yǔ)音識(shí)別技術(shù),支持漢字、維吾爾文、蒙古文、藏文的語(yǔ)音錄入,并且可以進(jìn)行朗讀。
維漢智能機(jī)器人,是一套支持維漢雙語(yǔ)的智能人機(jī)交互的機(jī)器人設(shè)備,其根植入的維漢語(yǔ)言智能語(yǔ)音識(shí)別技術(shù)、自然語(yǔ)言理解技術(shù)和智能機(jī)器翻譯技術(shù),實(shí)現(xiàn)了少數(shù)民族辦事大廳的引導(dǎo),智能問(wèn)答,自助業(yè)務(wù)辦理等智能查詢(xún)功能。
1.2 捷通華聲
捷通華聲作為中國(guó)最早從事人工智能技術(shù)研究與應(yīng)用的企業(yè)之一,其始終重視少數(shù)民族語(yǔ)言的智能語(yǔ)音技術(shù)研究。
早在2005年,國(guó)內(nèi)首款靈云維漢友誼橋應(yīng)用軟件[3]公測(cè)版已經(jīng)推出。該款軟件在維吾爾語(yǔ)、漢語(yǔ)雙語(yǔ)翻譯技術(shù)的基礎(chǔ)上,采用語(yǔ)音識(shí)別和合成技術(shù),使用者所說(shuō)的話(huà)通過(guò)識(shí)別轉(zhuǎn)成文字,而后再轉(zhuǎn)化為另外一種語(yǔ)言,并由軟件進(jìn)行朗讀。
隨著技術(shù)不斷成熟,2018年,靈云智會(huì)、智錄、智聲三款智能語(yǔ)音轉(zhuǎn)錄產(chǎn)品[4]推出,分別服務(wù)于多人會(huì)議、一對(duì)一談話(huà)、單人錄入等場(chǎng)景,三款產(chǎn)品均支持維吾爾語(yǔ)、蒙古語(yǔ)、藏語(yǔ)的語(yǔ)音識(shí)別。其中,“靈云智會(huì)”是“為多人會(huì)話(huà)推出的智能語(yǔ)音轉(zhuǎn)寫(xiě)軟件,可分角色實(shí)時(shí)將發(fā)言轉(zhuǎn)為文字”,值得注意的是,其專(zhuān)門(mén)面向政法領(lǐng)域會(huì)議、庭審、審訊等場(chǎng)景推出了語(yǔ)音轉(zhuǎn)寫(xiě)方案,語(yǔ)音識(shí)別準(zhǔn)確率高達(dá)98%。“靈云智錄”應(yīng)用于一對(duì)一談話(huà)的識(shí)別。例如公安訊問(wèn)、檢察談話(huà)等場(chǎng)景,把對(duì)話(huà)內(nèi)容實(shí)時(shí)分角色記錄,擁有較快的轉(zhuǎn)寫(xiě)速度和較高的準(zhǔn)確率。“靈云智聲”是一款智能語(yǔ)音輸入法,其提供政務(wù)、醫(yī)療領(lǐng)域?qū)S谜Z(yǔ)音識(shí)別模型,應(yīng)用在政務(wù)會(huì)議材料整理、醫(yī)療電子病歷錄入等場(chǎng)景;而且其在語(yǔ)音識(shí)別有自己的云端,無(wú)需連接互聯(lián)網(wǎng),滿(mǎn)足軍政機(jī)關(guān)保密要求等。
1.3 科大訊飛
2016年,西藏大學(xué)·訊飛語(yǔ)音及語(yǔ)言聯(lián)合實(shí)驗(yàn)室發(fā)布訊飛藏語(yǔ)識(shí)別、合成和翻譯系統(tǒng)[5]。其中,三位一體藏語(yǔ)輸入法、漢藏互譯通兩產(chǎn)品均涉及藏語(yǔ)語(yǔ)音識(shí)別技術(shù)?!叭灰惑w藏語(yǔ)輸入法”是全球首款基于蜂巢輸入模型的全能藏語(yǔ)輸入軟件,集成了聯(lián)合實(shí)驗(yàn)室獨(dú)家研發(fā)的藏語(yǔ)語(yǔ)音識(shí)別技術(shù)和藏語(yǔ)手寫(xiě)識(shí)別技術(shù)成果;“漢藏互譯通”軟件集豐富的情景例句、實(shí)時(shí)語(yǔ)音識(shí)別翻譯功能于一體,提供漢藏翻譯。
1.4 騰訊公司
騰訊公司開(kāi)發(fā)了“騰訊民漢翻譯”小程序[6],目前已支持維語(yǔ)、藏語(yǔ)(衛(wèi)藏藏語(yǔ)、安多藏語(yǔ)、康巴藏語(yǔ))與中文的互譯。團(tuán)隊(duì)多年對(duì)民族語(yǔ)音、語(yǔ)言、圖像、文本進(jìn)行了大量標(biāo)注,使得該小程序相較于同行業(yè)其他產(chǎn)品,在功能上實(shí)現(xiàn)了“實(shí)時(shí)語(yǔ)音識(shí)別+標(biāo)點(diǎn)斷句+翻譯+語(yǔ)音合成”的首創(chuàng)。
1.5 相關(guān)學(xué)科研究者
開(kāi)發(fā)手機(jī)語(yǔ)音助手。迪麗尼格爾·熱夏提[7]實(shí)現(xiàn)了基于Android系統(tǒng)的維吾爾語(yǔ)語(yǔ)音助理應(yīng)用軟件,該軟件實(shí)現(xiàn)的功能有打電話(huà)、發(fā)短信、打開(kāi)應(yīng)用程序、音樂(lè)搜索等八大功能。之后,米爾阿迪力江·麥麥提、吾守爾·斯拉木等人[8]用同樣的方法開(kāi)發(fā)出維吾爾語(yǔ)手機(jī)語(yǔ)音控制軟件,實(shí)現(xiàn)了打電話(huà)、發(fā)短信、打開(kāi)應(yīng)用、新聞、天氣查詢(xún)等十大功能。
開(kāi)發(fā)在線教育網(wǎng)站。趙睿[9]開(kāi)發(fā)出藏語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng),將該系統(tǒng)應(yīng)用到遠(yuǎn)程教育中的藏族中小學(xué)語(yǔ)文教學(xué)視頻中,首先識(shí)別出音頻文件中的藏語(yǔ),然后和視頻文件整合,形成具有字幕的教學(xué)視頻。李要嬙[10]搭建了藏語(yǔ)在線教育視頻語(yǔ)音內(nèi)容識(shí)別系統(tǒng),實(shí)現(xiàn)藏語(yǔ)實(shí)時(shí)采音和語(yǔ)音識(shí)別,最終把識(shí)別結(jié)果通過(guò)藏文文字形式顯示在視頻下方,形成帶有字幕的教學(xué)視頻。
開(kāi)發(fā)智能家居領(lǐng)域。吾提庫(kù)爾·艾爾肯[11]將維吾爾語(yǔ)語(yǔ)音識(shí)別技術(shù)應(yīng)用到智能家居領(lǐng)域中,實(shí)現(xiàn)通過(guò)開(kāi)關(guān)與遙控這兩類(lèi)電器設(shè)備的控制,如:電視,熱水器等。
2 基于語(yǔ)音識(shí)別技術(shù)的少數(shù)民族語(yǔ)音產(chǎn)品影響
進(jìn)入21世紀(jì),在國(guó)家政策的扶持下,在專(zhuān)家學(xué)者和相關(guān)科技公司的努力下,眾多基于語(yǔ)音識(shí)別技術(shù)的少數(shù)民族語(yǔ)音產(chǎn)品投入實(shí)際應(yīng)用,給國(guó)家、社會(huì)以及個(gè)人都帶來(lái)了積極影響。
2.1 國(guó)家層面
對(duì)外能夠推動(dòng)國(guó)家友好交流與合作。許多少數(shù)民族語(yǔ)言與周邊國(guó)家的官方語(yǔ)言實(shí)屬同一種語(yǔ)言,通過(guò)對(duì)這些少數(shù)民族語(yǔ)言進(jìn)行語(yǔ)音識(shí)別,可以有效促進(jìn)交流,從而加強(qiáng)與沿線國(guó)家的交往與合作。
對(duì)內(nèi)有助于了解少數(shù)民族群眾較關(guān)注的話(huà)題,掌握社會(huì)輿情變化。通過(guò)使用少數(shù)民族語(yǔ)音識(shí)別系統(tǒng),政府機(jī)構(gòu)可以對(duì)使用者的關(guān)注話(huà)題和情緒變化有一定的掌握,了解民情民意,從而為政府政策的制定和調(diào)整提供參考依據(jù),從而順利推行國(guó)家政策。
2.2 社會(huì)層面
有效促進(jìn)民族之間經(jīng)濟(jì)交流、文化傳播和傳承。隨著語(yǔ)音識(shí)別技術(shù)的應(yīng)用,能夠幫助少數(shù)民族同胞與漢族民眾進(jìn)行有效地交流溝通,從而極大地方便民族間的商務(wù)、文化交流,推動(dòng)少數(shù)民族地區(qū)經(jīng)濟(jì)發(fā)展,也有利于少數(shù)民族文化傳播。
有助于保護(hù)瀕危民族語(yǔ)言與文化。語(yǔ)音識(shí)別技術(shù)的發(fā)展基礎(chǔ)之一就是需要建立語(yǔ)音識(shí)別資料庫(kù),只有收集了大量的語(yǔ)音語(yǔ)料,才能夠開(kāi)展后續(xù)的建模和構(gòu)建識(shí)別系統(tǒng)的工作。大量的語(yǔ)音語(yǔ)料的收集則對(duì)于保護(hù)、發(fā)展少數(shù)民族語(yǔ)言和文化有至關(guān)重要的作用。
促進(jìn)少數(shù)民族地區(qū)的教育發(fā)展。一些研究者經(jīng)過(guò)實(shí)證研究,發(fā)現(xiàn)語(yǔ)音識(shí)別系統(tǒng)能將視頻中的音頻信息轉(zhuǎn)換為相對(duì)應(yīng)的少數(shù)民族文字,為學(xué)習(xí)者提供輔助學(xué)習(xí)功能,促進(jìn)優(yōu)質(zhì)教育教學(xué)資源在少數(shù)民族地區(qū)傳播,推動(dòng)教育信息化進(jìn)程,從而縮小與發(fā)達(dá)地區(qū)的教育差距,有效提高少數(shù)民族地區(qū)綜合競(jìng)爭(zhēng)力[9-10]。
2.3 個(gè)人層面
提高相關(guān)單位工作人員的效率,方便辦事群眾的生活。通過(guò)語(yǔ)音識(shí)別進(jìn)行輸入和翻譯,可以解放工作人員的雙手,提高工作效率,也能幫助工作人員和少數(shù)民族群眾提高溝通效率,從而減少群眾的等待時(shí)間。
為不懂國(guó)家通用語(yǔ)言文字的少數(shù)民族殘障人士提供便利。通過(guò)字幕形式實(shí)時(shí)展現(xiàn)對(duì)話(huà),方便了聽(tīng)力障礙人士;通過(guò)語(yǔ)音輸入,不需要打字便可以錄入文字,也方便了手腳不便的殘障人士。
3 基于語(yǔ)音識(shí)別技術(shù)的少數(shù)民族語(yǔ)音產(chǎn)品發(fā)展前景
維吾爾語(yǔ)語(yǔ)音識(shí)別的研究工作開(kāi)始于20世紀(jì)90年代初,蒙古語(yǔ)和藏語(yǔ)的相關(guān)研究工作開(kāi)始于21世紀(jì)初,隨著語(yǔ)音識(shí)別技術(shù)的不斷發(fā)展,相關(guān)語(yǔ)音產(chǎn)品的數(shù)量不斷增多,在教育、醫(yī)療、司法等方面發(fā)揮著重要作用。但是目前產(chǎn)品的開(kāi)發(fā)方向主要集中于語(yǔ)音輸入法、語(yǔ)音翻譯軟件和轉(zhuǎn)錄產(chǎn)品,種類(lèi)仍較為單一,受眾多為政府、公安和法律等部門(mén)的人員,且產(chǎn)品推廣力度不夠,因此使用人數(shù)較少,受眾范圍較窄。
未來(lái),少數(shù)民族的語(yǔ)音識(shí)別技術(shù)和相關(guān)產(chǎn)品開(kāi)發(fā)定是熱門(mén)的研究領(lǐng)域,有較好的發(fā)展前景。首先,通過(guò)在真實(shí)場(chǎng)景中應(yīng)用語(yǔ)音產(chǎn)品,研究者得到的真實(shí)數(shù)據(jù)會(huì)越來(lái)越多,語(yǔ)音識(shí)別會(huì)更加準(zhǔn)確,能更好地把握用戶(hù)的需求;其次,隨著更多少數(shù)民族學(xué)者投入研究,支持彝語(yǔ)、壯語(yǔ)等少數(shù)民族語(yǔ)的語(yǔ)音產(chǎn)品也會(huì)推出;最后,新的語(yǔ)音產(chǎn)品研發(fā)將會(huì)從群眾需求出發(fā),例如:智能家居的控制、車(chē)載語(yǔ)音系統(tǒng)的開(kāi)發(fā)、公安消防報(bào)警系統(tǒng)的改良等,以提高其受教育的質(zhì)量、更好地保障其人身財(cái)產(chǎn)安全等為目的,有效擴(kuò)大受眾范圍,增強(qiáng)少數(shù)民族群眾的幸福感,從而促進(jìn)社會(huì)的和諧與進(jìn)步。
參考文獻(xiàn)(References):
[1] 李鵬飛.基于深度學(xué)習(xí)的維語(yǔ)語(yǔ)音識(shí)別研究[D].安徽大學(xué),2016.
[2] 佚名.民族語(yǔ)文信息化成果[EB/OL].中國(guó)民族語(yǔ)文翻譯局網(wǎng),http://www.mzfy.org.cn/information/i=15&comContentId=15.html,2019-07-26.
[3] 佚名. 維漢語(yǔ)音轉(zhuǎn)寫(xiě)通官方介紹[EB/OL]. PC下載網(wǎng), https://www.pcsoft.com.cn/soft/163351.html,2019-08-15.
[4] 佚名. 捷通華聲靈云智會(huì)、智錄:性?xún)r(jià)比更高的智能語(yǔ)音轉(zhuǎn)錄方案[EB/OL].國(guó)脈電子政務(wù)網(wǎng), http://www.echinagov.com/keji/250594.html,2019-08-15.
[5] 佚名. 西藏大學(xué)·訊飛語(yǔ)音及語(yǔ)言聯(lián)合實(shí)驗(yàn)室發(fā)布系列技術(shù)成果[EB/OL].西藏自治區(qū)人民政府網(wǎng), http://xizang.gov.cn/xwzx/qnyw/201611/t20161108_93128.html,2019-08-18.
[6] 佚名. 騰訊民漢翻譯踐行“科技向善”[EB/OL]. 騰訊云網(wǎng),https://cloud.tencent.com/developer/article/1454493,2019-08-16.
[7] 迪麗尼格爾·熱夏提.基于Android的維吾爾語(yǔ)語(yǔ)音助理應(yīng)用軟件的研發(fā)[D].新疆大學(xué),2014.
[8] 米爾阿迪力江·麥麥提,吾守爾·斯拉木,努爾麥麥提·尤魯瓦斯,熱依曼·吐?tīng)栠d,艾尼宛爾·托乎提.基于智能手機(jī)的維吾爾語(yǔ)語(yǔ)音控制系統(tǒng)的開(kāi)發(fā)[J].計(jì)算機(jī)應(yīng)用與軟件,2016.33(6):220-223,305
[9] 趙睿.藏語(yǔ)語(yǔ)音識(shí)別在遠(yuǎn)程教育中的應(yīng)用[D].中央民族大學(xué),2017.
[10] 李要嬙.基于主動(dòng)學(xué)習(xí)的藏語(yǔ)語(yǔ)音識(shí)別在在線教育中的應(yīng)用[D].中央民族大學(xué),2018.
[11] 吾提庫(kù)爾·艾爾肯.維吾爾語(yǔ)語(yǔ)音識(shí)別技術(shù)在智能家居中的研究與應(yīng)用[D].新疆大學(xué),2017.
[12] 張建華.基于深度學(xué)習(xí)的語(yǔ)音識(shí)別應(yīng)用研究[D].北京郵電大學(xué),2015.
[13] 孫杰,吾守爾·斯拉木,熱依曼·吐?tīng)栠d.基于CMN網(wǎng)絡(luò)的低資源柯?tīng)柨俗握Z(yǔ)識(shí)別研究[J].現(xiàn)代電子技術(shù),2018.41(24):132-136,140