陳小瑩
(西藏民族大學(xué)信息工程學(xué)院,陜西咸陽(yáng) 712082)
康方言—德格話SAMPA_KT設(shè)計(jì)
陳小瑩
(西藏民族大學(xué)信息工程學(xué)院,陜西咸陽(yáng)712082)
本文通過(guò)收集整理藏語(yǔ)德格話的音系,歸納出對(duì)應(yīng)的音系特征,依據(jù)SAMPA的設(shè)計(jì)原則并參照漢語(yǔ)和藏語(yǔ)的國(guó)際音標(biāo),最終設(shè)計(jì)并實(shí)現(xiàn)了藏語(yǔ)德格話機(jī)讀音標(biāo)系統(tǒng)。藏語(yǔ)機(jī)讀音標(biāo)的設(shè)計(jì)可以為藏語(yǔ)語(yǔ)音工程的實(shí)現(xiàn)打下堅(jiān)實(shí)的基礎(chǔ),可以真正地實(shí)現(xiàn)文音轉(zhuǎn)換功能。
藏語(yǔ);德格話;機(jī)讀音標(biāo);SAMPA
1.1機(jī)讀音標(biāo)系統(tǒng)概述
機(jī)讀音標(biāo)SAMPA(Speech Assessment Methods Phonetic Alphabet)是1987-1989年間歐洲的ESPRIT(歐洲信息技術(shù)研究開(kāi)發(fā)戰(zhàn)略計(jì)劃)開(kāi)發(fā)的一種計(jì)算機(jī)可讀的音標(biāo)系統(tǒng),該系統(tǒng)采用拉丁字母、數(shù)字以及其它簡(jiǎn)單、易于輸入的鍵盤(pán)符號(hào)組合形式來(lái)替代目前國(guó)際音標(biāo)中的各種特殊符號(hào)。當(dāng)今世界上各種語(yǔ)言的語(yǔ)音數(shù)據(jù)庫(kù)都使用該符號(hào)系統(tǒng),使得計(jì)算機(jī)在輸入國(guó)際音標(biāo)時(shí)更加方便,同時(shí)也能便捷地表示出各種復(fù)雜的國(guó)際音標(biāo)符號(hào)。但是每一種語(yǔ)言的音標(biāo)都有各自的語(yǔ)言版本,不同版本之間的SAMPA表并不能完全兼容,因此SAMPA表還不能表示出所有語(yǔ)言的國(guó)際音標(biāo)。針對(duì)SAMPA表的這一缺陷不足,1995年倫敦大學(xué)的語(yǔ)言學(xué)教授提出并設(shè)計(jì)了X -SAMPA,這是一種可以代表所有國(guó)際音標(biāo)的單一代碼表,而且是在SAMPA的基礎(chǔ)上完成擴(kuò)充,并可以用ASCII字符表示國(guó)際音標(biāo)的所有符號(hào)[1]。由此,SAMPA即已成為一個(gè)在國(guó)際音標(biāo)基礎(chǔ)上可以表示世界上各種語(yǔ)言的機(jī)讀音標(biāo)系統(tǒng)。目前,SAMPA已廣泛應(yīng)用于歐洲的主要語(yǔ)種以及日語(yǔ)等東亞語(yǔ)言。國(guó)內(nèi)的漢語(yǔ)、粵方言和臺(tái)灣的“國(guó)語(yǔ)”也順應(yīng)潮流相繼設(shè)計(jì)了SAMPA方案,在一定程度上推廣了SAMPA的應(yīng)用。同時(shí),眾多語(yǔ)音工作者也開(kāi)始對(duì)SAMPA展開(kāi)研究探討,其研究成果在嗓音醫(yī)學(xué)和計(jì)算機(jī)語(yǔ)音教學(xué)等方面也獲得了諸多可觀應(yīng)用[2]。
本文在漢語(yǔ)普通話的機(jī)讀音標(biāo)設(shè)計(jì)方案的基礎(chǔ)上,設(shè)計(jì)了一套藏語(yǔ)德格話的計(jì)算機(jī)可讀的SAMPA_KT機(jī)讀音標(biāo)系統(tǒng),并實(shí)現(xiàn)了藏語(yǔ)到SAMPA_KT的轉(zhuǎn)寫(xiě)。與藏語(yǔ)的國(guó)際音標(biāo)或拉丁字符轉(zhuǎn)寫(xiě)比較,藏語(yǔ)的SAMPA_KT轉(zhuǎn)寫(xiě)具有可以方便地利用鍵盤(pán)直接鍵入SAMPA標(biāo)記、而且SAMPA_KT可以解決拉丁形式缺少的字符和添加各類(lèi)附加符號(hào)的變體等優(yōu)點(diǎn)。
1.2機(jī)讀音標(biāo)系統(tǒng)設(shè)計(jì)原則
SAMPA的設(shè)計(jì)初衷是為了使計(jì)算機(jī)在盡可能保證語(yǔ)言本身音系的基礎(chǔ)上,更為了方便地對(duì)國(guó)際音標(biāo)進(jìn)行表示和描述?;谶@一研究目的,SAMPA設(shè)定了具體原則[3]:
1)SAMPA必須遵循語(yǔ)言本身,并依據(jù)實(shí)際語(yǔ)言的國(guó)際音標(biāo)進(jìn)行設(shè)計(jì)。若在SAMPA字符中包含著國(guó)際音標(biāo)中的特殊字符,將直接使用,否則就盡量采用符合SAMPA規(guī)則的關(guān)聯(lián)符號(hào)予以代替;
2)對(duì)于相關(guān)語(yǔ)言系統(tǒng)中已經(jīng)成型的SAMPA內(nèi)帶有的一些附加符號(hào),也應(yīng)盡量采用;
3)設(shè)計(jì)時(shí),要兼顧呈現(xiàn)整體的系統(tǒng)性以及與其它語(yǔ)言的相通性。
在設(shè)計(jì)藏語(yǔ)機(jī)讀音標(biāo)系統(tǒng)時(shí),輸入的藏文字符首先要在遵循其本身國(guó)際音標(biāo)的基礎(chǔ)上,轉(zhuǎn)換成對(duì)應(yīng)的國(guó)際音標(biāo);其次,再對(duì)比漢語(yǔ)和藏語(yǔ)的國(guó)際音標(biāo)。兩者音標(biāo)一致部分若遵循X-SAMPA標(biāo)記原則,直接利用漢語(yǔ)機(jī)讀音標(biāo)系統(tǒng)SAMPA _SC來(lái)標(biāo)記藏語(yǔ)拼音;兩者國(guó)際音標(biāo)不一致部分,則采用簡(jiǎn)單化原則,利用定義的簡(jiǎn)單符號(hào)進(jìn)行標(biāo)記。不同的藏語(yǔ)方言,雖然文字相同,但是發(fā)音卻各有不同,因此不同方言區(qū)的SAMPA碼即需要進(jìn)行分別單獨(dú)設(shè)計(jì)。具體設(shè)計(jì)流程如圖1所示。
圖1 德格話單音節(jié)SAMPA_KT設(shè)計(jì)流程圖Fig.1 De Ge single syllable SAMPA_AT Design flow chart
由于漢語(yǔ)語(yǔ)音的研究已趨于成熟,而且藏語(yǔ)和漢語(yǔ)有許多相通的地方,所以藏語(yǔ)和漢語(yǔ)之間存在相似關(guān)系,藏語(yǔ)屬于漢藏語(yǔ)系,2種語(yǔ)言的親屬關(guān)系可以通過(guò)同源詞(包括部分語(yǔ)法詞)的比較得到佐證[4]。如此,即可利用成熟的漢語(yǔ)語(yǔ)音技術(shù)來(lái)推進(jìn)和拓展藏語(yǔ)語(yǔ)音研究。利用漢語(yǔ)拼音的機(jī)讀音標(biāo)SAMPA-SC來(lái)設(shè)計(jì)藏語(yǔ)拼音的機(jī)讀音標(biāo)SAMPA-KT。通過(guò)對(duì)照漢語(yǔ)和藏語(yǔ)的國(guó)際音標(biāo),發(fā)現(xiàn)漢語(yǔ)和藏語(yǔ)的國(guó)際音標(biāo)有一部分是一致的,為此以國(guó)際音標(biāo)為參照,將兩者的國(guó)際音標(biāo)一致的部分,直接利用SAMPA-SC來(lái)標(biāo)記藏語(yǔ)拼音;兩者國(guó)際音標(biāo)不一致的部分,則采用簡(jiǎn)單化原則,利用定義的簡(jiǎn)單符號(hào)進(jìn)行標(biāo)記。對(duì)輸入的藏語(yǔ)拼音字母,獲得其國(guó)際音標(biāo),然后與漢語(yǔ)拼音的國(guó)際音標(biāo)比較,相同的部分直接采用SAMPASC標(biāo)記,不同的部分則按照簡(jiǎn)化原則,利用未使用的鍵盤(pán)符號(hào)予以標(biāo)記。對(duì)于不同的藏語(yǔ)方言,雖然文字相同,但是發(fā)音并不一樣,因此根據(jù)藏語(yǔ)方言的國(guó)際音標(biāo)來(lái)設(shè)計(jì)其對(duì)應(yīng)的SAMPA,設(shè)計(jì)方法相同。
2.1聲母設(shè)計(jì)
德格縣位于四川省西部,隸屬于四川省甘孜藏族自治州,地理上位于西北部,是康巴方言區(qū)有名的文化古城,因此德格話也可認(rèn)為是康方言區(qū)比較通用的語(yǔ)言。由于康方言使用的地區(qū)大多處在交通不便的山區(qū),山川阻隔,并且與外界交流很少,這就使得學(xué)者對(duì)康方言的考察和研究相對(duì)而言遠(yuǎn)未成熟。
德格話音位系統(tǒng)中有較多的單輔音聲母,包括43個(gè)單輔音音位,其中有清濁對(duì)立的塞音、塞擦音、擦音和鼻音,還有邊音和半元音。在德格話中也存在清化鼻音的現(xiàn)象,德格話中有7個(gè)復(fù)輔音聲母,復(fù)輔音也有nc型和hc型2種。具體地,nc型是鼻音與b、d、g、dz、d?、d?組合構(gòu)成,hc型復(fù)輔音聲母為次濁復(fù)輔音hj。德格話中以元音起頭的音節(jié)都有喉塞聲母存在,但是由于不具有區(qū)分意義,通常將其歸作零聲母處理[5]。聲母轉(zhuǎn)換設(shè)計(jì)如表1所示。
表1 德格話單輔音聲母的SAMPA_KT轉(zhuǎn)換表(部分)Tab.1 De Ge single consonant initials SAMPA_KT translation table (part)
在德格話單輔音聲母SAMPA_KT設(shè)計(jì)部分,基本上采用鍵盤(pán)上可以直接輸入的符號(hào),其它難以用鍵盤(pán)輸入的國(guó)際音標(biāo),直接使用和國(guó)際音標(biāo)相近的且未使用過(guò)的鍵盤(pán)符號(hào)來(lái)標(biāo)記。并且盡可能依據(jù)國(guó)際音標(biāo),采用X-SAMPA類(lèi)似符號(hào),如此則不易引起音位混淆。在設(shè)計(jì)德格話的SAMPA_KT系統(tǒng)時(shí),只需要對(duì)尚未描述的語(yǔ)音現(xiàn)象進(jìn)行設(shè)計(jì),比如德格聲母中的喉塞音/?/需要參照X-SAMPA類(lèi)似符號(hào)設(shè)計(jì)為鍵盤(pán)上的/?/。
2.2韻母設(shè)計(jì)
德格話中有8個(gè)單元音韻母、6個(gè)鼻化韻母和11個(gè)包含塞音韻尾的韻母,合計(jì)25個(gè)韻母,德格話中不存在復(fù)合元音[6]。韻母轉(zhuǎn)換設(shè)計(jì)如表2所示。
表2 德格話輔音韻尾韻母的SAMPA_KT轉(zhuǎn)換表(部分)Tab.2 De Ge complex consonant initials SAMPA_KT translation table(part)
德格話中單元音韻母是/ɑ/的機(jī)讀音標(biāo)采用符號(hào)“/a/”表示,其余基本元音的符號(hào)設(shè)計(jì)與其它方言區(qū)基本一致。韻母中存在帶塞音韻尾的韻母同樣可分2部分進(jìn)行設(shè)計(jì),而后將對(duì)應(yīng)的方式組合即可,SAMPA_KT其它符號(hào)的轉(zhuǎn)換基本上與拉薩話相似。另外,德格話中也存在鼻化元音和長(zhǎng)元音,其SAMPA_ KT由附加符號(hào)SAMPA加上單元音SAMPA組成。復(fù)合元音的SAMPA_KT分別由對(duì)應(yīng)的單元音SAMPA組合來(lái)表示。
2.3聲調(diào)處理
康方言區(qū)聲調(diào)的分化時(shí)間較晚,且聲母和韻母簡(jiǎn)化程度也不一樣,因而只能簡(jiǎn)單劃分為2個(gè)高調(diào)類(lèi)和2個(gè)低調(diào)類(lèi)。但是聲調(diào)類(lèi)型并不穩(wěn)定,而且不同區(qū)域差異較大,所以本項(xiàng)目對(duì)此未作更多考慮。
本文選取德格話作為藏語(yǔ)康方言區(qū)的代表,通過(guò)歸納整理德格話音系特征,在遵循SAMPA的原則下,參照XSAMPA以及漢語(yǔ)成熟的SAMPA_SC系統(tǒng)完成了藏語(yǔ)德格話SAMPA_KT系統(tǒng)的設(shè)計(jì)。藏語(yǔ)機(jī)讀音標(biāo)的設(shè)計(jì)可以為藏語(yǔ)語(yǔ)音工程的實(shí)現(xiàn)奠定良好基礎(chǔ),可以真正實(shí)現(xiàn)文音轉(zhuǎn)換功能。同時(shí)也為藏語(yǔ)韻律特征研究、語(yǔ)音合成以及語(yǔ)音識(shí)別等語(yǔ)音工程領(lǐng)域研究提供科學(xué)依據(jù)。
[1]于洪志,高璐,李永宏,等.藏語(yǔ)機(jī)讀音標(biāo)SAMPA_ST的設(shè)計(jì)[J].中文信息學(xué)報(bào),2012,26(4):66-72.
[2]張家騄.漢語(yǔ)普通話機(jī)讀音標(biāo)SAMPA-SC[J].聲學(xué)學(xué)報(bào)(中文版),2009,34(1):81-86.
[3]維基百科.X-SAMPA[EB/OL].[2014-11-02].http://zh. wikipedia.org/wiki/X-SAMPA.
[4]格桑居冕.藏語(yǔ)方言概論[M].北京:民族出版社,2002.
[5]金鵬.藏語(yǔ)簡(jiǎn)志[M].北京:人民出版社,1983.
[6]胡坦.藏語(yǔ)(拉薩話)聲調(diào)研究[J].民族語(yǔ)文,1980(1):22-36.
Kang dialect words dege SAMPA_KT design
CHEN Xiaoying
(School of Information Engineering,Tibet University for Nationalities,Xianyang Shanxi 712082,China)
Through the collection of the phonetic system of the Tibetan dege,the paper sums up corresponding phonetic feature.After that,according to the principles of design of SAMPA and with reference to the international phonetic alphabet of Chinese and Tibetan,the paper furtherly designs and implements the Tibetan dege phone read phonetic system.Tibetan machine read the phonetic alphabet design can lay a solid foundation for the realization of Tibetan speech engineering,which can truly realize the text to speech function.
Tibetan;Dege dialect;machine readable phonogram;SAMPA
TP391
A
2095-2163(2016)03-0015-03
2016-04-12
西藏自治區(qū)科技廳項(xiàng)目(2015ZR-14-19)。
陳小瑩(1983-),女,碩士,實(shí)驗(yàn)師,主要研究方向:實(shí)驗(yàn)語(yǔ)音學(xué)。