韋 韌
(中國社會科學(xué)院 民族學(xué)與人類學(xué)研究所,北京 100081)
在語音數(shù)據(jù)庫建設(shè)方面,我國近30年的成果顯著。如中國科技大學(xué)、中國科學(xué)院聲學(xué)研究所、中國社會科學(xué)院語言研究所聯(lián)合建立了《漢語語音識別資料庫》,中國社會科學(xué)院語言所還建立了《現(xiàn)代漢語自然口語語料庫》《自然對話語料庫》《現(xiàn)代漢語方言自然口語語料庫》;中國科學(xué)院自動化所建立《旅游咨詢口語對話語料庫》和《旅館預(yù)定口語對話語料庫》;北京語言大學(xué)建立《漢語中介語語音語料庫》;香港大學(xué)和香港理工大學(xué)聯(lián)合建立《香港廣州話語音資料庫》以及臺灣建立的《高山語語音語料庫》等[1]。這一系列語料庫的建立為語言學(xué)的進(jìn)一步研究提供了大批量語料,也積累了技術(shù)經(jīng)驗(yàn),為研究成果提供了客觀依據(jù)。
與漢語方言相比,藏語語音數(shù)據(jù)庫建設(shè)方面的成果相對來說就少得多。藏語拉薩話語音聲學(xué)參數(shù)數(shù)據(jù)庫收集了733個藏語拉薩話單音節(jié),并分析歸納出4個數(shù)據(jù)群,分別是聲母(輔音)數(shù)據(jù)群、核心元音數(shù)據(jù)群、鼻音數(shù)據(jù)群和聲調(diào)數(shù)據(jù)群。數(shù)據(jù)庫還設(shè)置了三個功能,包括排序檢索功能、統(tǒng)計分析功能和繪圖功能[2]。安多藏語語音合成語料庫包含1萬個詞匯,這些詞匯是從各類電子詞典和電子文本中選擇獲取[3]。藏語單音節(jié)聲學(xué)參數(shù)數(shù)據(jù)庫收集了囊括藏語三個方言的約10萬詞條,共整理歸納出約6 000個音節(jié),并對音節(jié)進(jìn)行窮盡性錄音、標(biāo)注國際音標(biāo)、歸納音節(jié)類型。與此同時,在整理、歸納與分析音節(jié)結(jié)構(gòu)的基礎(chǔ)上,設(shè)計和建立了包含39項(xiàng)聲學(xué)參數(shù)的藏語單音節(jié)聲學(xué)參數(shù)數(shù)據(jù)庫[4]。
在藏語語音識別和語音合作研究方面,訊飛科技有限公司與西藏大學(xué)等單位合作,搭建了藏語語音識別和合成的技術(shù)框架,在書面藏文的文讀語音識別和合成方面做了大量的工作。
但是藏語語音識別的基礎(chǔ)工作還比較薄弱,尤其是在藏語方言土語語音資源建設(shè)方面,還遠(yuǎn)遠(yuǎn)不能滿足當(dāng)前語音識別的要求。
中國境內(nèi)的藏族使用藏語作為他們的民族語言,藏語的使用范圍較廣,遍布整個藏區(qū),較集中的使用地區(qū)有西藏自治區(qū)、青海省、四川省甘孜藏族自治州及阿壩藏族羌族自治州、甘肅省甘南藏族自治州、云南省迪慶藏族自治州。根據(jù)譜系分類,藏語歸屬于漢藏語系藏緬語族藏語支。藏語有三個方言,分別是衛(wèi)藏方言、安多方言和康方言。衛(wèi)藏方言的標(biāo)準(zhǔn)音是拉薩話,使用范圍在西藏自治區(qū)拉薩市以南。安多方言的使用范圍在青海省藏區(qū)、四川省阿壩藏族羌族自治州和甘肅省甘南藏族自治州??捣窖缘氖褂梅秶谖鞑刈灾螀^(qū)拉薩市以北、云南省迪慶藏族自治州、四川省甘孜藏族自治州和青海省玉樹藏族自治州。
藏語方言語圖標(biāo)注庫存儲了藏語方言的字、詞及句的文本、音頻及元數(shù)據(jù)等其他屬性信息。藏語方言語圖標(biāo)注庫依靠自然語音數(shù)據(jù),采集自然語音,并對語音進(jìn)行標(biāo)注,為語言學(xué)的本體研究和語言學(xué)信息化技術(shù)服務(wù)。藏語方言語圖標(biāo)注庫建設(shè)可以分為兩大部分:一是藏語方言數(shù)據(jù)的建設(shè),包括語料編制、語料采集、語料標(biāo)注。二是數(shù)據(jù)庫的建設(shè),包括數(shù)據(jù)庫的結(jié)構(gòu)框架設(shè)計、數(shù)據(jù)管理。具體分為以下四個階段:①數(shù)據(jù)庫設(shè)計;②語料采集;③語料標(biāo)注;④數(shù)據(jù)庫使用和維護(hù)。
語圖是在計算機(jī)上繪制輸出的語音頻譜圖,語圖能直觀表達(dá)出語音的各項(xiàng)聲學(xué)特征。語料庫是采集到的自然語言材料數(shù)據(jù)庫,原始語料需要經(jīng)過分析和處理后才能成為計算機(jī)能識別、并且能分析利用的資源。這個分析處理的過程即是標(biāo)注。
文本語料的選擇編制和語料標(biāo)注的可靠性是藏語方言語圖標(biāo)注庫構(gòu)建中的重難點(diǎn)。語料的收集途徑要求真實(shí)、客觀,收集的方法要求科學(xué)。文本語料在設(shè)計時,要充分考慮到所挑選的文本具有代表性,以保證語料庫數(shù)據(jù)可以全面囊括自然語言特征。按照這個選取標(biāo)準(zhǔn)和選取方法構(gòu)建出來的語料庫既全面又沒有冗余。語料標(biāo)注采用荷蘭語言學(xué)家開發(fā)的Praat軟件,進(jìn)行切音標(biāo)注,繪制語圖。如果只用一人進(jìn)行手工標(biāo)注,無法確保切分標(biāo)注結(jié)果的準(zhǔn)確性,如果雇傭多人進(jìn)行手工標(biāo)注,短時間內(nèi)又無法找到大批量的專業(yè)標(biāo)注人才。如果雇傭的標(biāo)注人員專業(yè)知識不扎實(shí),切分標(biāo)注結(jié)果的準(zhǔn)確性得不到保證。解決上述兩種情況的對策辦法,一是在工作開始前開展集中培訓(xùn),提高手工標(biāo)注切分人員的專業(yè)知識,以減少因人的主觀傾向性產(chǎn)生的誤差;二是增加手工標(biāo)注切分人員數(shù)量,同一語料分配給多個人同時處理后,再統(tǒng)一匯總,以保證標(biāo)注切分結(jié)果的準(zhǔn)確率。
藏語方言語圖標(biāo)注庫的建立可以系統(tǒng)地記錄保存藏語方言語音,對語料進(jìn)行科學(xué)的切音標(biāo)注,繪制出語圖。內(nèi)容上主要包括語料錄音整理、語音自動標(biāo)注、語圖標(biāo)注數(shù)據(jù)庫的建庫三個方面,在研究方法上選擇定性研究和定量研究相結(jié)合,語料的選取原則、切分、標(biāo)注與分析屬于定性研究,語料的收集、數(shù)據(jù)庫建設(shè)屬于定量研究。首先,在藏語三個方言分布區(qū)域內(nèi)依據(jù)制定好的語料選取原則,選擇多個語料數(shù)據(jù)采集點(diǎn),內(nèi)容分為字、詞、句、篇章。所采用語料從目前已建好語料庫中選取,再到各采集點(diǎn)選擇合適的發(fā)音人,采取發(fā)音人一對一地調(diào)查錄音。想要創(chuàng)建一個全面標(biāo)準(zhǔn)的藏語方言語圖標(biāo)注庫,語料的客觀性和代表性是最根本的要求。因此,調(diào)研人員需要有較強(qiáng)的調(diào)研能力,必須具有豐富的田野經(jīng)驗(yàn),熟悉語料采集的整個流程,能夠熟練操作錄音設(shè)備和電腦軟件,具有善于溝通交流的能力。調(diào)研人員還要有很強(qiáng)的專業(yè)知識,能夠快速核對語料,發(fā)現(xiàn)問題及時就地解決,以節(jié)約人力和時間成本。語料的切分、標(biāo)注通過Praat軟件完成。具體的操作步驟:①將文本語料轉(zhuǎn)寫成國際音標(biāo)。②使用軟件自帶的自動標(biāo)注功能對語料進(jìn)行初次標(biāo)注。③專業(yè)標(biāo)注人員核查,對已經(jīng)自動標(biāo)注過的語料進(jìn)行二次標(biāo)注,對標(biāo)注錯誤或不合理的地方進(jìn)行手動調(diào)整。④將所有文本語料、錄音材料和語圖標(biāo)注數(shù)據(jù)集合成數(shù)據(jù)庫系統(tǒng),以方便后續(xù)研究的調(diào)用。
為建設(shè)數(shù)據(jù)庫所開展的語料采集工作有利于保護(hù)藏語方言,并且在語音數(shù)據(jù)庫建設(shè)中提出的一些方法和理論對創(chuàng)建其他少數(shù)民族語言語音數(shù)據(jù)庫是一個有利的參考。藏語方言語音數(shù)據(jù)庫的創(chuàng)建過程中,需要運(yùn)用語言學(xué)、應(yīng)用語言學(xué)和計算機(jī)語言學(xué)學(xué)科知識,是社會科學(xué)和自然科學(xué)的交叉結(jié)合。該數(shù)據(jù)的建成不僅限于為藏語的語言學(xué)研究提供包含語音、詞匯、語法三方面的基礎(chǔ)材料,還為藏族文化、歷史地理和風(fēng)俗習(xí)慣提供了文字證據(jù)。同時,發(fā)揮了一個示范作用,推動社會科學(xué)和自然科學(xué)的交叉運(yùn)用研究。藏語方言語圖標(biāo)注庫是一種重要而必需的資源儲備,是自然語言處理工作的前提準(zhǔn)備和必要環(huán)節(jié),只有創(chuàng)建了一個全面準(zhǔn)確的熟語料數(shù)據(jù)庫,才能有效地開展藏語的語音識別與合成、藏文文本自動翻譯和人機(jī)交互技術(shù)等工作,對國家安全具有直接的應(yīng)用價值。