林筱松
摘要:人工智能識(shí)別與生成人類語言是人工智能研究的一大領(lǐng)域,這是一門將計(jì)算機(jī)科學(xué)與語言學(xué)結(jié)合的技術(shù)。本文對(duì)其技術(shù)要求分為語音識(shí)別與合成、自然語言的識(shí)別與生成兩大類。語音識(shí)別與合成又分別從語音識(shí)別、轉(zhuǎn)換與合成三點(diǎn)進(jìn)行詳細(xì)闡述;自然語言的識(shí)別與生成詳細(xì)介紹了自然語言處理和生成兩大技術(shù)。最后將各項(xiàng)技術(shù)有機(jī)結(jié)合并簡(jiǎn)單地介紹了它的應(yīng)用,同時(shí)對(duì)這一項(xiàng)技術(shù)在電子游戲領(lǐng)域進(jìn)行了展望。
關(guān)鍵詞:人工智能;語言識(shí)別;語言生成
1 引言
人類在這顆蔚藍(lán)的星球上已經(jīng)發(fā)展了25萬年了,人們通過自然語言進(jìn)行交流、合作,人類的發(fā)展史也是各式各樣的自然語言的發(fā)展史。20世紀(jì)以后,隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的出現(xiàn)、人工智能的快速發(fā)展,人們開始產(chǎn)生了與人工智能也用自然語言進(jìn)行交流的想法。隨著人們的不斷探索,人工智能不僅學(xué)會(huì)了識(shí)別自然語言,人工智能的自然語言合成技術(shù)也逐漸走向成熟。
人工智能要能滿足與人類交流的需求,語音識(shí)別是必不可少的,尤其是自然語言,人工智能需要準(zhǔn)確地處理自然語言,并能夠理解自然語言中所包含的意思,因此自然語言處理技術(shù)也應(yīng)運(yùn)而生。人工智能學(xué)會(huì)識(shí)別后便要進(jìn)行轉(zhuǎn)換與合成,通過語音轉(zhuǎn)換和語音合成能夠很好地創(chuàng)造出新的聲音。如果將自然語言合成的技術(shù)應(yīng)用進(jìn)去,那么人工智能也能夠使用自然語言,成功實(shí)現(xiàn)與人類交流的目的。
2 人工智能概述
人工智能是一門以研究人類智慧為主,同時(shí)開發(fā)用于模擬、延伸及發(fā)展人類智慧的新興學(xué)科。人工智能從發(fā)展階段來說分為兩大類:強(qiáng)人工智能和弱人工智能。強(qiáng)人工智能可分為類人的人工智能和非類人的人工智能[1]?!邦惾恕鳖櫭剂x就是完全和人類生活方式相同,和人一樣有自我的推理和判斷意識(shí)。而“非類人”即與人類生活方式不同,也是有自主意識(shí)。這兩者不需要人類控制,只需根據(jù)先前已設(shè)定的指令進(jìn)行自我調(diào)控。弱人工智能就是沒有自我意識(shí),不能進(jìn)行自我思考,需要人類來進(jìn)行控制。人工智能是20世紀(jì)才出現(xiàn)的新興學(xué)科,但發(fā)展速度卻快得驚人。從1936年數(shù)學(xué)家圖靈提出人工智能,到20世紀(jì)五六十年代科研人員們進(jìn)一步對(duì)人工智能這一陌生領(lǐng)域研究,再到1997年IBM公司研制的計(jì)算機(jī)“更深的藍(lán)”戰(zhàn)勝國(guó)際象棋冠軍,直至到2017年 AlphaGo以3:0完勝終結(jié)圍棋冠軍柯潔。雖然人工智能發(fā)展歷程快接近百年,但是我們?nèi)耘f處于弱人工智能時(shí)代。人工智能的迅速發(fā)展已運(yùn)用于智能檢索、模式識(shí)別、智能推理、交通運(yùn)輸、醫(yī)療服務(wù)等多種領(lǐng)域。人工智能已越來越貼近我們的生活[2]。
3 語音識(shí)別與合成
語音識(shí)別與合成是人工智能運(yùn)用的一大領(lǐng)域,可以將其分為語音識(shí)別、語音轉(zhuǎn)換和語音合成等三個(gè)領(lǐng)域。
3.1 語音識(shí)別
語音識(shí)別是一項(xiàng)幫助計(jì)算機(jī)聽懂人類語言的技術(shù)。而它實(shí)際上是通過對(duì)人類所發(fā)出的聲音先進(jìn)行接受,再根據(jù)本來就已設(shè)定好的程序進(jìn)行分析識(shí)別。語音識(shí)別始于20世紀(jì)50年代初期。1952年,貝爾實(shí)驗(yàn)室開發(fā)的Audry系統(tǒng)可識(shí)別0~9的發(fā)音;1956年普林斯頓大學(xué)RCA實(shí)驗(yàn)室開發(fā)了單音節(jié)識(shí)別系統(tǒng);1971年CMU打破了單音節(jié)識(shí)別的模式,成功研發(fā)了能識(shí)別一句話的系統(tǒng)Harpy并成功實(shí)現(xiàn)了隱馬爾科夫模型與人工神經(jīng)網(wǎng)絡(luò)的運(yùn)用;90年代語音識(shí)別進(jìn)入市場(chǎng)逐漸開始普及;21世紀(jì),語音識(shí)別嵌入芯片,各式各樣的語音識(shí)別軟件層出不窮,語音識(shí)別技術(shù)走向成熟。但語音識(shí)別仍舊有一些不盡如人意的地方。環(huán)境依賴性強(qiáng),在嘈雜的環(huán)境中,根本無法準(zhǔn)確識(shí)別;在語氣詞這些細(xì)節(jié)詞上還有所欠缺;識(shí)別速度也是一大急需被克服的難點(diǎn)。面對(duì)這些困難,應(yīng)該進(jìn)行更深入的研究,并從中探索奧秘,讓語音識(shí)別更好地服務(wù)于人類[3]。
3.2 語音轉(zhuǎn)換
語音轉(zhuǎn)換是一項(xiàng)保留原說話人語意信息,改變其個(gè)性化特征,使之具有另一個(gè)人個(gè)性化特征的技術(shù)。個(gè)性化特征并不是簡(jiǎn)單地指人類語言的音色音調(diào),它可以分成三類:音段特征,指共振峰的位置、共振峰的帶寬、頻譜傾斜、基音頻率、能量等;超音段特征,指音素的時(shí)長(zhǎng)、基音頻率(就是音調(diào))、能量等;語言特征,這個(gè)就是指各種方言、口語、口音等。語音識(shí)別還有多種應(yīng)用領(lǐng)域:在電影電視劇中,經(jīng)常會(huì)發(fā)現(xiàn)演員的聲音與現(xiàn)實(shí)生活中不一樣,但是沒差多少,這是因?yàn)榕湟魧⒙曇翡浿坪煤笸ㄟ^VC語音轉(zhuǎn)換使聲音具有演員的個(gè)性化特征。通過語音轉(zhuǎn)換將個(gè)性化特征改變,可以對(duì)說話人進(jìn)行保密。對(duì)于聲道受損的人,語音轉(zhuǎn)換在很大程度上的改善了他的語音可懂度。當(dāng)然,要實(shí)現(xiàn)語音轉(zhuǎn)換就需要經(jīng)過訓(xùn)練和轉(zhuǎn)換兩個(gè)階段。在訓(xùn)練階段計(jì)算機(jī)對(duì)原說話人的語音和目標(biāo)說話人的語音進(jìn)行分析特征提取,再對(duì)他們的結(jié)果進(jìn)行對(duì)齊,接著再進(jìn)行訓(xùn)練,最后按照語音轉(zhuǎn)換規(guī)則進(jìn)行語音轉(zhuǎn)換進(jìn)入轉(zhuǎn)換階段。在轉(zhuǎn)換階段中對(duì)原語音進(jìn)行分析特征提取,再對(duì)訓(xùn)練階段所產(chǎn)生的結(jié)果進(jìn)行語音轉(zhuǎn)換,而后進(jìn)行語音合成,最后轉(zhuǎn)換語音?,F(xiàn)在語音轉(zhuǎn)換功能并非十全十美,還是以音段轉(zhuǎn)換為主,對(duì)于超音段的研究甚至語言特征還不夠深入,所進(jìn)行的語音轉(zhuǎn)換會(huì)引入一定的雜音,引起失真。但是目前的語音轉(zhuǎn)換對(duì)于人類的作用依舊舉足輕重,計(jì)算機(jī)可以對(duì)所識(shí)別到的語音進(jìn)行更多樣式的處理與變化,使語音的功能與魅力大大增強(qiáng)。如果語音識(shí)別技術(shù)完善后,語音的未來會(huì)更加妙不可言[4]。
3.3 語音合成
語音合成是通過機(jī)械的、電子的方法產(chǎn)生人造語音的技術(shù)。語音合成已經(jīng)有兩百多年的歷史了,它使計(jì)算機(jī)有像人一樣說話的能力。語音合成是TTS結(jié)構(gòu),主要是語言處理、韻律處理和聲學(xué)處理三部分。語言處理主要是對(duì)所接收到的語音信息進(jìn)行詞句字義分析處理,同時(shí)為后兩部分作發(fā)音提示。韻律處理則是在旋律方面做修正,使語音能夠更好地展現(xiàn)它所要表達(dá)的意思。而聲學(xué)處理主要是輸出語音。計(jì)算機(jī)的語音合成就使用了輸出的功能[5]。
4 自然語言識(shí)別與生成
自然語言是指一種自然地隨著文化演化的語言,例如英語、漢語、法語等,是相對(duì)于C語言、Java語言等人造語言而言的。而要使人工智能能夠識(shí)別與生成人類語言,就要涉及到自然語言的處理與生成了。
4.1 自然語言處理
自然語言處理涉及到多種學(xué)科,也是計(jì)算機(jī)科學(xué)與人工智能這兩大領(lǐng)域的主要研究方向。它是讓人類能夠用自然語言與計(jì)算機(jī)進(jìn)行通信的一門科學(xué)。自然語言又可以分為自然語言處理資源和技術(shù)。所謂資源就是計(jì)算機(jī)可以識(shí)別自然語言的詞典,就好比我們使用的各種字典。而技術(shù)還可以根據(jù)復(fù)雜程度和難度或自然語言處理層次和深度分成基本和高級(jí)兩種?;镜淖匀徽Z言處理就是指去除詞根、去除停止詞、詞性標(biāo)注、分詞。而高級(jí)自然語言處理就實(shí)際到詞句了,例如短語識(shí)別、詞義消除、指代消除、概念抽取等。從1949年起,美國(guó)人威弗提出的機(jī)器翻譯設(shè)計(jì)方案到現(xiàn)如今自然語言處理系統(tǒng)能處理大規(guī)模的真實(shí)文本,能從自然語言文本中抽取有用的信息[6]。這整整70年的發(fā)展時(shí)間,自然語言處理仍有還未解決的難點(diǎn):對(duì)于一些多義的詞,要能準(zhǔn)確的識(shí)別它在這句話中所表達(dá)的意思;每種自然語言都有各自的語法,要在一篇文章中準(zhǔn)確地剖析這句話;遇到方言或口音,甚至語法錯(cuò)誤要能夠糾正并能識(shí)別出[7]??梢娮匀徽Z言處理這一大科學(xué)未來仍舊有很長(zhǎng)的一條路要走,要繼續(xù)深入研究與試驗(yàn)。
4.2 自然語言生成
自然語言生成是指使計(jì)算機(jī)能夠像人一樣擁有表達(dá)語言的能力的一門科學(xué)[9]。它是人工智能與計(jì)算機(jī)語言學(xué)的分支,相應(yīng)的語言生成系統(tǒng)是基于語言信息處理的計(jì)算機(jī)模型,其工作過程與自然語言分析相反,是從抽象的概念層次開始,通過選擇并執(zhí)行一定的語義和語法規(guī)則來生成文本。有了自然語言生成,計(jì)算機(jī)便擁有了“嘴巴”,可以用人類的語言和人類進(jìn)行交流[10]。
5 總結(jié)與展望
人工智能識(shí)別與生成人類語音首先人工智能需要具有語音識(shí)別和合成技術(shù)。語音識(shí)別與合成中可分為語音識(shí)別、語音轉(zhuǎn)換和語音合成三部分。語音識(shí)別就相當(dāng)于計(jì)算機(jī)的耳朵,就是計(jì)算機(jī)接受外界所傳遞給它的聲音信號(hào),計(jì)算機(jī)對(duì)其進(jìn)行處理、識(shí)別,明白聲音中所含信息。語音轉(zhuǎn)換就是將“耳朵”所接受到的信息進(jìn)行分析特征,保留原有意思而改變個(gè)性化特征,讓聲音呈現(xiàn)出更多不一樣的精彩。至于語音合成,這就好比計(jì)算機(jī)的嘴巴,計(jì)算機(jī)通過計(jì)算與數(shù)據(jù)處理,將所要表達(dá)的信息通過語音的方式向外界輸出。這三項(xiàng)技術(shù)相輔相成,就像是構(gòu)成了一個(gè)人[11]。
而人工智能為了滿足與人類交流的需求,自然語言的識(shí)別與生成這項(xiàng)技術(shù)便變得尤為重要,自然語言的識(shí)別與生成包括自然語言處理和自然語言生成兩大內(nèi)容。自然語言處理技術(shù)的加入便相當(dāng)于計(jì)算機(jī)又多學(xué)了一門語言,計(jì)算機(jī)可以經(jīng)過數(shù)據(jù)的處理分析,來“理解”所接收的自然語言所要表達(dá)的意思。而自然語言生成技術(shù),計(jì)算機(jī)可以通過它來合成自然語言,然后再向外界表達(dá),與語音合成如出一轍。計(jì)算機(jī)有這兩項(xiàng)技術(shù)便可以直接與人類用自然語言進(jìn)行交流。
在這高速發(fā)展的背景下,人工智能的發(fā)展也不例外,有了自然語言的識(shí)別與生成這一項(xiàng)偉大而又跨時(shí)代的技術(shù),人類的生活會(huì)更加便利。而等到這一技術(shù)真正成熟后,可以將這一項(xiàng)技術(shù)放入客戶端電子游戲中去,這不僅可以使玩家們更加身臨其境,與NPC“面對(duì)面”交流,還可以使他們體驗(yàn)高科技所帶來的便利,若在游戲中加入知識(shí)體系,還有一定的教育意義。當(dāng)然,不僅僅是游戲,還可以應(yīng)用于家用、醫(yī)療服務(wù)、環(huán)境保護(hù)等領(lǐng)域,有了自然語言的識(shí)別與生成這門技術(shù),人類社會(huì)會(huì)變得更加神奇與精彩。
參考文獻(xiàn):
[1]鄒蕾,張先鋒.人工智能及其發(fā)展應(yīng)用[J].信息網(wǎng)絡(luò)安全,2012 (02):11-13.
[2]本刊編輯部.人工智能概述[J].保密科學(xué)技術(shù),2017 (11):8-9.
[3]王敏妲.語音識(shí)別技術(shù)的研究與發(fā)展[J].微型機(jī)與應(yīng)用,2009,28 (23):1-2+6.
[4]李波,王成友,蔡宣平,等.語音轉(zhuǎn)換及相關(guān)技術(shù)綜述[J].通信學(xué)報(bào),2004 (05):109-118.
[5]李葵,徐海青,吳立剛,等.基于多情感說話人自適應(yīng)的情感語音合成研究[J].湘潭大學(xué)自然科學(xué)學(xué)報(bào),2018,40(04):39-44.
[6]王燦輝,張敏,馬少平.自然語言處理在信息檢索中的應(yīng)用綜述[J].中文信息學(xué)報(bào),2007 (02):35-45.
[7]徐戈,王厚峰.自然語言處理中主題模型的發(fā)展[J].計(jì)算機(jī)學(xué)報(bào),2011,34 (08):1423-1436.
[8]張建華,陳家駿.自然語言生成綜述[J].計(jì)算機(jī)應(yīng)用研究,2006 (08):1-3+13.
[9]于振龍.基于LSTM的自然語言生成技術(shù)研究與實(shí)現(xiàn)[D].北京郵電大學(xué),2018.
[10]蔣茜謙.人工智能已經(jīng)掌握人類語言了嗎[J].計(jì)算機(jī)與網(wǎng)絡(luò),2018,44 (24):16-17.
[11]李佐文,嚴(yán)玲.什么是計(jì)算話語學(xué)[J/OL].山東外語教學(xué),2018 (06):24-32.