王大鵬
(渤海大學(xué)大學(xué)外語教研部, 遼寧錦州 121013)
計(jì)算機(jī)語料庫建設(shè)是自然語言處理領(lǐng)域的核心基礎(chǔ)工作,在機(jī)器翻譯、人機(jī)對(duì)話、信息提取、語言學(xué)研究、自動(dòng)語音識(shí)別和人工智能等諸多方面起著重要作用,是一門將語言和計(jì)算機(jī)融合在一起的交叉學(xué)科。隨著計(jì)算機(jī)技術(shù)的日新月異,語料庫的建設(shè)模式也從純文本的單一模式逐步過渡到可以融合圖片、語音和圖像的多模態(tài)模式。在GPS全球定位技術(shù)商用和民用的今天,基于GPS的車載語音自動(dòng)導(dǎo)航系統(tǒng)的研究對(duì)于汽車未來的發(fā)展有著不可估量的影響,未來的汽車可以通過人類語音指令自動(dòng)駕駛、電腦自動(dòng)選擇最佳行進(jìn)路線。因此,語音導(dǎo)航系統(tǒng)的語音語料庫建設(shè)是一項(xiàng)重要的基礎(chǔ)任務(wù),它涉及到多模態(tài)語料庫的設(shè)計(jì)和構(gòu)建。
語料庫是按照一定的語言學(xué)原則,運(yùn)用隨機(jī)抽樣方法,收集自然出現(xiàn)的語言運(yùn)用文本或話語片段來建立。從其本質(zhì)上講,語料庫實(shí)際上是通過對(duì)自然語言運(yùn)用的隨機(jī)抽樣,以一定大小的語言樣本來代表某一研究中所確定的語言運(yùn)用總體(馮志偉,2008)。現(xiàn)階段的語料庫指的都是基于計(jì)算機(jī)處理或研究語言的方式。完整意義上、初具規(guī)模的計(jì)算機(jī)語料庫最早可以追溯到20世紀(jì)60、70年代,典型的實(shí)例是Brown、LOB、SSE、LLC等;80年代至今語料庫的發(fā)展有海量化的趨勢(shì),如:Cobuild、Bank of English、BNC、COCA等。但不管語料庫規(guī)模如何擴(kuò)大,從媒介上看本質(zhì)上都是純文本的語料庫;只是語料庫的文本存儲(chǔ)格式從TXT轉(zhuǎn)變?yōu)閄ML。但隨著時(shí)代和科技的發(fā)展,單一純文本的語料庫已經(jīng)不適用于研究和學(xué)習(xí)的需要;超越純文本的語音和視頻語料庫是時(shí)代發(fā)展的必然產(chǎn)物。多模態(tài)語料庫可以包括文字、聲音和圖像等多種媒介,全方位表現(xiàn)語言的多種特性。語音語料庫中的主體媒介是音頻,因此對(duì)聲音的搜集、處理、分類、標(biāo)注和存儲(chǔ)是語音語料庫需要研究和解決的問題。語音語料庫可以為語音導(dǎo)航系統(tǒng)提供實(shí)驗(yàn)語料,是語音識(shí)別與合成技術(shù)的基礎(chǔ)性研究。隨著語料庫語音學(xué)與韻律學(xué)的發(fā)展和波形拼接技術(shù)的成熟,語音語料庫的發(fā)展也進(jìn)入了相對(duì)成熟期。語音導(dǎo)航系統(tǒng)的開發(fā)和研制是科技發(fā)展的必然產(chǎn)物,具有人工智能的特色;其與GPS定位技術(shù)的結(jié)合,使其成為車載定位系統(tǒng)的最佳載體。
基于GPS的車載導(dǎo)航儀是汽車上的必備裝置,它可幫助司機(jī)辨別方向,選擇最佳行進(jìn)路線;但目前的車載導(dǎo)航儀大多是通過點(diǎn)擊電子地圖或手寫進(jìn)行操作,這樣無形中增加了操作的繁瑣性,為行車帶來安全隱患。因此,可以識(shí)別語音指令的車載語音自動(dòng)導(dǎo)航系統(tǒng)的研發(fā)就成為時(shí)代發(fā)展的必然。語料庫的設(shè)計(jì)原則是語料要具有代表性,加之音頻資源較為占用空間,因此車載語音語料庫的語音錄入源均為地理方位名詞和行車指令等專門用途詞匯,盡可能減少無關(guān)信息的錄入。用盡可能少的語音語料覆蓋即盡可能多的語音現(xiàn)象,充分利用語音識(shí)別和語音合成技術(shù)。語音語料庫采用SQL Server 2005數(shù)據(jù)庫、C/S模式,基本平臺(tái)為.NET。為了兼顧語音指令實(shí)時(shí)聯(lián)網(wǎng)查詢數(shù)據(jù),語音的錄入和輸出均采用適用DSP芯片的語音壓縮技術(shù)。語音的描述采用三音子模型為基本單位描述連續(xù)語音,這樣可更好的兼容其它語音源。具體的設(shè)計(jì)環(huán)節(jié)包括原始語料的搜集、錄音模塊和數(shù)據(jù)庫維護(hù)的設(shè)計(jì)、語音語料的標(biāo)注和后期語音壓縮。本套語音語料庫采用開放動(dòng)態(tài)語料庫的建設(shè)理念,實(shí)時(shí)交互、更新是本套語音語料庫的核心思路。本套語料庫系統(tǒng)不僅可以讀取語音語料,還可根據(jù)漢字文本自動(dòng)機(jī)讀語音以及完成用戶語音的更新錄入。因此,本套語料庫同時(shí)也開發(fā)語料庫前臺(tái)的語音輸入和輸出技術(shù)。
語音語料庫是語音數(shù)據(jù)及其標(biāo)注的集合。漢語語音語料庫近年來是我國(guó)語料庫研究的熱點(diǎn),大規(guī)模語音語料庫的一個(gè)直接應(yīng)用是文語轉(zhuǎn)換系統(tǒng)或TTS(Text to Speech), 它是利用計(jì)算機(jī)等平臺(tái)將文本信息轉(zhuǎn)變?yōu)橐纛l數(shù)據(jù),以語音的方式播放出來的技術(shù)(章森,2010)。語料搜集范圍如谷歌地圖,凱立德導(dǎo)航地圖和用戶汽車指令等。首先采用中科院漢語分詞軟件ICTCLAS對(duì)文本進(jìn)行分詞處理;然后采用TTSUU (Text to Speech Universal Utility)將文本內(nèi)容轉(zhuǎn)換為語音文件,所有語音文件都要進(jìn)行人工校驗(yàn)并進(jìn)行壓縮存儲(chǔ)。語音語料庫要想進(jìn)行檢索和批量分類等操作,需要對(duì)語料庫進(jìn)行基本的語音標(biāo)注。
圖1:C-ToBI韻律標(biāo)注層級(jí)
圖2:本套語音語料庫的總體設(shè)計(jì)框架
語音語料庫的語音標(biāo)注是最重要的核心環(huán)節(jié),漢語語音語料庫的標(biāo)注可以采用中國(guó)社會(huì)科學(xué)院研究所的C-ToBI(Tones and Break Indices)韻律標(biāo)注軟件進(jìn)行標(biāo)注。它兼容各種語言理論機(jī)制,機(jī)器可讀性好,有詳細(xì)的標(biāo)注向?qū)АKm用于朗讀語音語料庫,較之荷蘭阿姆斯特朗大學(xué)開發(fā)的Praat語音標(biāo)注軟件更適合用來標(biāo)注普通話。它對(duì)普通話的韻律標(biāo)注共分為8層:音段標(biāo)注層、聲韻層、間斷指數(shù)層、重音指數(shù)層、語句功能層、雜類層、話論層和口音層(鄒法欣,2012)(圖1)。其中口音層的設(shè)計(jì)使得這一程序更適合用于讀取和標(biāo)注普通人的話語信息。標(biāo)注完畢后,標(biāo)注文件和語音文件需要進(jìn)行對(duì)齊處理和人工校驗(yàn)來完成最終環(huán)節(jié)。
語音數(shù)據(jù)的管理采用SQL Server 2005數(shù)據(jù)庫、C/S模式,基本平臺(tái)為.NET。為了實(shí)現(xiàn)語音數(shù)據(jù)的便捷瀏覽和用語音訪問互聯(lián)網(wǎng),如用手機(jī)訪問語音導(dǎo)航網(wǎng)站,可將此語音語料庫在線化,所有數(shù)據(jù)上傳云端。語音網(wǎng)站設(shè)計(jì)采用JSP和VoiceXML,基本框架為B/S。VoiceXML是建立在XML規(guī)范基礎(chǔ)之上,用于語音瀏覽的標(biāo)記語言,是語音瀏覽技術(shù)和語音互聯(lián)網(wǎng)的核心。VoiceXML與其數(shù)據(jù)集成模型,是本課題設(shè)計(jì)的又一個(gè)核心環(huán)節(jié)。它由語音識(shí)別與合成、語音瀏覽程序和VoiceXML網(wǎng)關(guān)等若干部分組成。為了便于管理,我們?cè)O(shè)計(jì)了結(jié)合語音的圖形用戶界面(GUI/S),使語音語料庫的瀏覽和管理更加清晰明了。語音語料庫的建設(shè)為語音自動(dòng)導(dǎo)航系統(tǒng)的開發(fā)提供了必要的參照和技術(shù)支持,同時(shí)將語音語料庫在線化共享可以減少同行重復(fù)建設(shè)。云端語音語料庫網(wǎng)站的設(shè)立,可以降低移動(dòng)設(shè)備訪問的硬件門檻。本研究中語音語料庫的總體設(shè)計(jì)思路、必備條件、采用的計(jì)算機(jī)技術(shù)、項(xiàng)目目標(biāo)和難點(diǎn)思維導(dǎo)圖如下(圖2)。
車載語音自動(dòng)導(dǎo)航系統(tǒng)的開發(fā)涉及GPS定位技術(shù)、電子地圖語音讀取、語音識(shí)別、語音指令處理和語音語料庫建設(shè)等多項(xiàng)自然語言處理領(lǐng)域核心技術(shù)。語音語料庫的建立可以為車載語音自動(dòng)導(dǎo)航系統(tǒng)提供語音支持,可避免同類研究重復(fù)性建設(shè);同時(shí)也為多模態(tài)語料庫的建設(shè)積累了重要經(jīng)驗(yàn)。但研究中也存在技術(shù)難點(diǎn)和尚需改進(jìn)的地方,如:如何提高語音語料庫的標(biāo)注規(guī)范和精度,如何將語音語料庫和其他更多平臺(tái)對(duì)接,如何改善語音讀取的自然度和合成問題??傮w而言,多模態(tài)語料庫是時(shí)代發(fā)展的必然產(chǎn)物,其應(yīng)用于語言學(xué)習(xí)和教學(xué)、服務(wù)于人類民生和人工智能領(lǐng)域是大勢(shì)所趨。
[1] 馮志偉. 序言 語料庫語言學(xué)的進(jìn)展 [Z]. 2009:d9.
[2] 章森,劉磊,刁麓弘. 大規(guī)模語音語料庫及其在TTS 中應(yīng)用的幾個(gè)問題[J]. 計(jì)算機(jī)學(xué)報(bào),2010(4):687-696.
[3] 鄒法欣. 語音語料庫的設(shè)計(jì)與實(shí)現(xiàn)[D]. 桂林:廣西師范大學(xué),2012