王鵬鯤
摘 要 智能語(yǔ)音技術(shù)應(yīng)用于自然語(yǔ)言識(shí)別與合成處理、語(yǔ)義的分析和理解、知識(shí)工程和智能大數(shù)據(jù)處理的領(lǐng)域。文章結(jié)合對(duì)一般語(yǔ)音系統(tǒng)處理過(guò)程的理解與分析,闡述了人工智能技術(shù)(Artificial Intelligence :AI)在語(yǔ)音處理過(guò)程中的應(yīng)用,并結(jié)合小i機(jī)器人進(jìn)行了技術(shù)應(yīng)用分析,為進(jìn)一步理解并揭示智能語(yǔ)音技術(shù)與系統(tǒng)奠定基礎(chǔ)。
關(guān)鍵詞 小i機(jī)器人;智能語(yǔ)音處理;語(yǔ)音識(shí)別;語(yǔ)音合成
中圖分類(lèi)號(hào) TP3 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708(2019)230-0131-02
新世紀(jì)以來(lái),我國(guó)的人工智能技術(shù)不斷的快速發(fā)展,人工智能市場(chǎng)也在持續(xù)擴(kuò)大,在智能語(yǔ)音技術(shù)方面的專(zhuān)利數(shù)量也在持續(xù)增加?;谖覈?guó)龐大的用戶(hù)基礎(chǔ)和優(yōu)越的互聯(lián)網(wǎng)基礎(chǔ)設(shè)施,國(guó)內(nèi)本土的智能語(yǔ)音公司終將占據(jù)一定的市場(chǎng)份額[ 1 ]。而智能語(yǔ)音技術(shù)作為行業(yè)應(yīng)用中最成熟的技術(shù)之一,在智能設(shè)備與系統(tǒng)等方面都有了深入的用于與發(fā)展。
智能語(yǔ)音技術(shù)是人工智能技術(shù)中的關(guān)鍵環(huán)節(jié),所以研究智能語(yǔ)言技術(shù)非常重要。本文針對(duì)現(xiàn)實(shí)中語(yǔ)音系統(tǒng),深入闡述一般語(yǔ)音分析過(guò)程,并重點(diǎn)分析總結(jié)了當(dāng)前深受人們喜愛(ài)的小i機(jī)器人中所使用的智能語(yǔ)音處理技術(shù),為智能信息處理技術(shù)的進(jìn)一步應(yīng)用發(fā)展提供參考。
1 一般語(yǔ)音系統(tǒng)分析
1.1 語(yǔ)音系統(tǒng)原理
語(yǔ)音系統(tǒng)[ 2 ]是由兩方面組成,一方面是語(yǔ)音識(shí)別過(guò)程,另一方面語(yǔ)音合成過(guò)程。其一般的語(yǔ)音系統(tǒng)處理流程如圖1所示。
首先是語(yǔ)音識(shí)別過(guò)程,是對(duì)輸入的物理語(yǔ)音進(jìn)行特征提取,并轉(zhuǎn)換成特定的數(shù)字信號(hào)。從物理學(xué)中,可以知道聲音是一種波,也被稱(chēng)為聲波。比如MP3此類(lèi)壓縮格式的文件,展開(kāi)后就變成了不屬于壓縮的各種純波形文件,然后通過(guò)波形文件對(duì)聲音進(jìn)行處理,俗稱(chēng)的有.WAV文件,展開(kāi)后就成為了一種波形圖案,上面有很多個(gè)點(diǎn),每個(gè)點(diǎn)就是一個(gè)所謂特征,最后通過(guò)剪切來(lái)截取聲音信息。
接著是語(yǔ)音合成過(guò)程,語(yǔ)音合成也稱(chēng)為一種文語(yǔ)轉(zhuǎn)換技術(shù),能將許多不同的正確文字隨時(shí)隨地地轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語(yǔ)音表達(dá)出來(lái),這就相當(dāng)于使機(jī)器具有人的語(yǔ)音表達(dá)能力。這種表達(dá)能力是按照計(jì)算機(jī)程序規(guī)則實(shí)現(xiàn)的,難以實(shí)現(xiàn)對(duì)語(yǔ)言信息進(jìn)行選擇性回答,缺乏一定的自主性。實(shí)際上文語(yǔ)轉(zhuǎn)換系統(tǒng)需要經(jīng)過(guò)以下兩個(gè)步驟完成文語(yǔ)轉(zhuǎn)換過(guò)程。
第一步是將文字分開(kāi)形成一個(gè)個(gè)的音韻,這樣一個(gè)文字就有一組音韻。
第二步是根據(jù)已有的音韻所組成的序列生成語(yǔ)音波形,這實(shí)際上是與語(yǔ)音識(shí)別過(guò)程相反。
其中,語(yǔ)言處理是非常核心的環(huán)節(jié),主要是基于人類(lèi)本身對(duì)自然語(yǔ)言的理解,才能使計(jì)算機(jī)對(duì)語(yǔ)言有特定的理解,并對(duì)韻律進(jìn)行處理和對(duì)聲學(xué)進(jìn)行處理。通過(guò)韻律處理就合成了語(yǔ)言的音段的特征,通過(guò)聲學(xué)處理得到的結(jié)果就是實(shí)際的輸出語(yǔ)音,這樣便完成了語(yǔ)音的識(shí)別與處理,構(gòu)成一個(gè)完整的語(yǔ)音系統(tǒng)處理過(guò)程。
1.2 語(yǔ)音識(shí)別技術(shù)
語(yǔ)音識(shí)別技術(shù),也被稱(chēng)為自動(dòng)語(yǔ)音識(shí)別,語(yǔ)音識(shí)別技術(shù)應(yīng)用非常廣泛,典型的語(yǔ)音識(shí)別應(yīng)用主要包括語(yǔ)音撥號(hào)、語(yǔ)音登陸、設(shè)備控制、語(yǔ)音文檔檢索等功能,與人類(lèi)自身語(yǔ)言識(shí)別功能不同,后者可以嘗試識(shí)別不同說(shuō)話人的聲音,包括其中說(shuō)話人所表達(dá)的內(nèi)容。識(shí)別的最終目標(biāo)是將人所表達(dá)的內(nèi)容轉(zhuǎn)化為計(jì)算機(jī)中的一些二進(jìn)制編碼或者代碼或者一些字符序列。而語(yǔ)音識(shí)別是屬于典型的交叉學(xué)科,是一種典型的信息技術(shù),借助語(yǔ)音識(shí)別人們可以直接與機(jī)器交流,就像與其他人說(shuō)話一樣,直接詢(xún)問(wèn)機(jī)器人問(wèn)題,機(jī)器人會(huì)根據(jù)內(nèi)容選擇性提取并給予特定的回答。機(jī)器系統(tǒng)可以通過(guò)語(yǔ)音識(shí)別技術(shù)識(shí)別到所說(shuō)話的對(duì)象甚至說(shuō)話的內(nèi)容,并自動(dòng)生成了特定的指令,系統(tǒng)在接收到命令后自主完成要求。而語(yǔ)音識(shí)別系統(tǒng)不需要人們記住固定的口令也能被識(shí)別出來(lái)的,系統(tǒng)也不會(huì)被一些二次語(yǔ)言(比如錄音)所欺騙。實(shí)際中有微信中的語(yǔ)言登錄功能,根據(jù)音韻序列生成語(yǔ)音波形來(lái)識(shí)別聲音。
與機(jī)器進(jìn)行語(yǔ)音交流,讓機(jī)器明白你說(shuō)的是什么,然后識(shí)別指令達(dá)到目的,是語(yǔ)音分析領(lǐng)域所尋找的技術(shù)。而語(yǔ)音識(shí)別技術(shù)就是把說(shuō)出來(lái)的話通過(guò)聲波特征分析,然后對(duì)其提取并進(jìn)行存儲(chǔ),最后變成文本信息。
1.3 語(yǔ)音合成技術(shù)
從1.1的語(yǔ)音過(guò)程分析中可以知道,語(yǔ)音合成技術(shù)也叫做文語(yǔ)轉(zhuǎn)換技術(shù),就是將計(jì)算機(jī)程序生成的或者外部輸入的類(lèi)似文字這樣的語(yǔ)言信息,比如文本文檔內(nèi)容中的文字信息,按語(yǔ)音處理的方法把它轉(zhuǎn)換成語(yǔ)言進(jìn)行輸出。這里所說(shuō)的機(jī)器表達(dá)與傳統(tǒng)的聲音回放是有很大區(qū)別的。傳統(tǒng)的聲音回放是通過(guò)先前錄制聲音然后放出來(lái),比如錄音機(jī),傳統(tǒng)的方法在方便性、及時(shí)性或者存儲(chǔ)、傳輸?shù)确矫娑加泻艽蟮南拗?。而現(xiàn)在運(yùn)用這種語(yǔ)音合成技術(shù)有許多好處,可以隨時(shí)隨地的不用看也可以知道文字信息。當(dāng)然實(shí)際的文語(yǔ)轉(zhuǎn)換系統(tǒng)是非常復(fù)雜的,文字序列跟音素序列程序進(jìn)行轉(zhuǎn)換,文字的序列轉(zhuǎn)換成音韻的序列,再由系統(tǒng)根據(jù)音韻序列生成語(yǔ)音波形,這一系列轉(zhuǎn)換之前特別復(fù)雜,但該技術(shù)經(jīng)過(guò)發(fā)展已經(jīng)漸進(jìn)成熟,合成的錯(cuò)誤率已經(jīng)很低了。該技術(shù)主要依賴(lài)于應(yīng)用數(shù)字信號(hào)處理,而且必須有大量的語(yǔ)言學(xué)知識(shí)的支持,如圖1所示的語(yǔ)音數(shù)據(jù)庫(kù)和文本數(shù)據(jù)庫(kù)。
2 小i智能語(yǔ)音信息處理技術(shù)分析
小i機(jī)器人于2001年誕生[ 3 - 4 ],擁有全世界較大的智能機(jī)器人云服務(wù)平臺(tái),它的用戶(hù)在全球已經(jīng)超過(guò)2億人,而且它的服務(wù)范圍也非常大。比如可以在智能客服、智能政務(wù)、智能語(yǔ)音等領(lǐng)域進(jìn)行廣泛應(yīng)用。小i機(jī)器人是智能機(jī)器人技術(shù)的代表,作為智能機(jī)器人平臺(tái)的運(yùn)營(yíng)商,專(zhuān)注于智能交互技術(shù)的研發(fā),并在大量的商業(yè)應(yīng)用中推動(dòng)產(chǎn)業(yè)化進(jìn)程。
2.1 智能語(yǔ)音識(shí)別技術(shù)
小i機(jī)器人中所使用的智能語(yǔ)音識(shí)別技術(shù)采用了特別的算法[ 5 ],能自動(dòng)對(duì)聲音的信息進(jìn)行處理調(diào)節(jié),也就是可以直接對(duì)信息進(jìn)行處理,不需要中間特別復(fù)雜的轉(zhuǎn)換,所以其處理速度十分驚人,這樣才能給用戶(hù)提供良好服務(wù)體驗(yàn)。
智能語(yǔ)音識(shí)別技術(shù)主要是對(duì)人類(lèi)聲音的特征進(jìn)行分析,只有得到該聲音特征的樣本才能很好地進(jìn)行分析處理,才能使這門(mén)技術(shù)有一定的準(zhǔn)確性,從而大大提高了聲音識(shí)別的正確率。運(yùn)用了智能技術(shù)使得語(yǔ)音識(shí)別速度得到一個(gè)質(zhì)的提高,非常適合大規(guī)模商業(yè)化應(yīng)用。語(yǔ)音識(shí)別技術(shù)只要說(shuō)話,即可輕松完成對(duì)電子產(chǎn)品的控制以及搜索的功能,當(dāng)前一些智能手機(jī)中也提供實(shí)際可用的語(yǔ)音控制功能。
2.2 智能語(yǔ)音合成技術(shù)
小i機(jī)器人智能語(yǔ)音合成技術(shù)是將文本狀態(tài)的文字信息轉(zhuǎn)換為可聞其聲的語(yǔ)音信息處理技術(shù)[ 6 ],涉及數(shù)字信號(hào)處理技術(shù)、語(yǔ)言學(xué)等多個(gè)學(xué)科技術(shù)。典型的是在小i機(jī)器人中采用了極限元語(yǔ)音合成引擎,利用精心設(shè)計(jì)的語(yǔ)音語(yǔ)料庫(kù)進(jìn)行聲學(xué)模型和文本處理模型的訓(xùn)練,得到的模型對(duì)自然語(yǔ)音和語(yǔ)言的特性進(jìn)行深度挖,從而能夠合成清晰、自然的語(yǔ)音,接近真人發(fā)音。此系統(tǒng)實(shí)際上可以看作是一個(gè)人工智能系統(tǒng)。為了合成出準(zhǔn)確無(wú)誤的語(yǔ)言,除了依賴(lài)于各種語(yǔ)義、詞匯、語(yǔ)音學(xué)外,還必須對(duì)文字的內(nèi)容有很好的理解,這也涉及到系統(tǒng)對(duì)自然語(yǔ)言理解的問(wèn)題。
2.3 小i智能機(jī)器人關(guān)鍵技術(shù)
小i智能機(jī)器人自身就是一個(gè)完整的人工智能系統(tǒng),其關(guān)鍵技術(shù)包括領(lǐng)先的自然語(yǔ)義認(rèn)知、深度語(yǔ)義交互、語(yǔ)音識(shí)別、業(yè)界獨(dú)創(chuàng)的智能知識(shí)模型、圖像識(shí)別、先進(jìn)的人機(jī)協(xié)作學(xué)習(xí)體系、機(jī)器學(xué)習(xí)和大數(shù)據(jù)等技術(shù),為小i機(jī)器人可以直接與人對(duì)話,甚至可以與其他智能機(jī)器人對(duì)話奠定了技術(shù)基礎(chǔ)。因此小i機(jī)器人的用途是非常廣泛的,比如一些人工智能客服,在線電話客服、智能語(yǔ)音導(dǎo)航等。
3 結(jié)論
智能語(yǔ)音技術(shù)為人機(jī)交互帶來(lái)了新的發(fā)展,把人工智能應(yīng)用于語(yǔ)言處理技術(shù)上,大大提高了人們生產(chǎn)生活的方便??梢酝ㄟ^(guò)智能語(yǔ)言識(shí)別技術(shù)利用語(yǔ)音命令進(jìn)行操作,只要說(shuō)話便可控制機(jī)器按照特定目的完成任務(wù)。可以通過(guò)智能語(yǔ)言合成技術(shù)把文字換成語(yǔ)音,人們也可以使自己適應(yīng)各種各樣的語(yǔ)言識(shí)別系統(tǒng)。但是在短期內(nèi)實(shí)現(xiàn)智能機(jī)器人的自我意識(shí)是很難的,同樣智能機(jī)器人的自我意識(shí)該不該存在一直是個(gè)很大的問(wèn)題,也是該領(lǐng)域研究的挑戰(zhàn)性問(wèn)題之一,智能語(yǔ)音專(zhuān)家將會(huì)持續(xù)改進(jìn)語(yǔ)音識(shí)別系統(tǒng)。相信快速發(fā)展的信息科技技術(shù)將會(huì)推動(dòng)人工智能技術(shù)的發(fā)展,智能語(yǔ)音識(shí)別技術(shù)的應(yīng)用也將更加廣泛。
參考文獻(xiàn)
[1]劉占軍.計(jì)算機(jī)語(yǔ)音系統(tǒng)軟件的研究和開(kāi)發(fā)[J].計(jì)算機(jī)應(yīng)用,2001,21(5):67-68.
[2]陳芳,袁保宗.具有文本生成功能的智能語(yǔ)音生成系統(tǒng)[J].電子學(xué)報(bào),1997(10):5-8.
[3]史鶴幸.小i機(jī)器人——全球頂尖AI提供商[J].上海企業(yè),2018(5).
[4]呼濤.解密“中國(guó)智造”小i機(jī)器人[J].半月談,2016(5):71-73.
[5]周璐璐,鄧江洪.一種機(jī)器人智能語(yǔ)音識(shí)別算法研究[J].計(jì)算機(jī)測(cè)量與控制,2014,22(10):3267-3269.
[6]曾誰(shuí)飛,王仁波.語(yǔ)音合成技術(shù)在智能語(yǔ)音播報(bào)系統(tǒng)中的應(yīng)用探析[J].電信科學(xué),2010,26(3):64-68.