陳小瑩
(西藏民族大學信息工程學院,陜西咸陽 712082)
康方言—德格話SAMPA_KT設計
陳小瑩
(西藏民族大學信息工程學院,陜西咸陽712082)
本文通過收集整理藏語德格話的音系,歸納出對應的音系特征,依據(jù)SAMPA的設計原則并參照漢語和藏語的國際音標,最終設計并實現(xiàn)了藏語德格話機讀音標系統(tǒng)。藏語機讀音標的設計可以為藏語語音工程的實現(xiàn)打下堅實的基礎,可以真正地實現(xiàn)文音轉換功能。
藏語;德格話;機讀音標;SAMPA
1.1機讀音標系統(tǒng)概述
機讀音標SAMPA(Speech Assessment Methods Phonetic Alphabet)是1987-1989年間歐洲的ESPRIT(歐洲信息技術研究開發(fā)戰(zhàn)略計劃)開發(fā)的一種計算機可讀的音標系統(tǒng),該系統(tǒng)采用拉丁字母、數(shù)字以及其它簡單、易于輸入的鍵盤符號組合形式來替代目前國際音標中的各種特殊符號。當今世界上各種語言的語音數(shù)據(jù)庫都使用該符號系統(tǒng),使得計算機在輸入國際音標時更加方便,同時也能便捷地表示出各種復雜的國際音標符號。但是每一種語言的音標都有各自的語言版本,不同版本之間的SAMPA表并不能完全兼容,因此SAMPA表還不能表示出所有語言的國際音標。針對SAMPA表的這一缺陷不足,1995年倫敦大學的語言學教授提出并設計了X -SAMPA,這是一種可以代表所有國際音標的單一代碼表,而且是在SAMPA的基礎上完成擴充,并可以用ASCII字符表示國際音標的所有符號[1]。由此,SAMPA即已成為一個在國際音標基礎上可以表示世界上各種語言的機讀音標系統(tǒng)。目前,SAMPA已廣泛應用于歐洲的主要語種以及日語等東亞語言。國內(nèi)的漢語、粵方言和臺灣的“國語”也順應潮流相繼設計了SAMPA方案,在一定程度上推廣了SAMPA的應用。同時,眾多語音工作者也開始對SAMPA展開研究探討,其研究成果在嗓音醫(yī)學和計算機語音教學等方面也獲得了諸多可觀應用[2]。
本文在漢語普通話的機讀音標設計方案的基礎上,設計了一套藏語德格話的計算機可讀的SAMPA_KT機讀音標系統(tǒng),并實現(xiàn)了藏語到SAMPA_KT的轉寫。與藏語的國際音標或拉丁字符轉寫比較,藏語的SAMPA_KT轉寫具有可以方便地利用鍵盤直接鍵入SAMPA標記、而且SAMPA_KT可以解決拉丁形式缺少的字符和添加各類附加符號的變體等優(yōu)點。
1.2機讀音標系統(tǒng)設計原則
SAMPA的設計初衷是為了使計算機在盡可能保證語言本身音系的基礎上,更為了方便地對國際音標進行表示和描述。基于這一研究目的,SAMPA設定了具體原則[3]:
1)SAMPA必須遵循語言本身,并依據(jù)實際語言的國際音標進行設計。若在SAMPA字符中包含著國際音標中的特殊字符,將直接使用,否則就盡量采用符合SAMPA規(guī)則的關聯(lián)符號予以代替;
2)對于相關語言系統(tǒng)中已經(jīng)成型的SAMPA內(nèi)帶有的一些附加符號,也應盡量采用;
3)設計時,要兼顧呈現(xiàn)整體的系統(tǒng)性以及與其它語言的相通性。
在設計藏語機讀音標系統(tǒng)時,輸入的藏文字符首先要在遵循其本身國際音標的基礎上,轉換成對應的國際音標;其次,再對比漢語和藏語的國際音標。兩者音標一致部分若遵循X-SAMPA標記原則,直接利用漢語機讀音標系統(tǒng)SAMPA _SC來標記藏語拼音;兩者國際音標不一致部分,則采用簡單化原則,利用定義的簡單符號進行標記。不同的藏語方言,雖然文字相同,但是發(fā)音卻各有不同,因此不同方言區(qū)的SAMPA碼即需要進行分別單獨設計。具體設計流程如圖1所示。
圖1 德格話單音節(jié)SAMPA_KT設計流程圖Fig.1 De Ge single syllable SAMPA_AT Design flow chart
由于漢語語音的研究已趨于成熟,而且藏語和漢語有許多相通的地方,所以藏語和漢語之間存在相似關系,藏語屬于漢藏語系,2種語言的親屬關系可以通過同源詞(包括部分語法詞)的比較得到佐證[4]。如此,即可利用成熟的漢語語音技術來推進和拓展藏語語音研究。利用漢語拼音的機讀音標SAMPA-SC來設計藏語拼音的機讀音標SAMPA-KT。通過對照漢語和藏語的國際音標,發(fā)現(xiàn)漢語和藏語的國際音標有一部分是一致的,為此以國際音標為參照,將兩者的國際音標一致的部分,直接利用SAMPA-SC來標記藏語拼音;兩者國際音標不一致的部分,則采用簡單化原則,利用定義的簡單符號進行標記。對輸入的藏語拼音字母,獲得其國際音標,然后與漢語拼音的國際音標比較,相同的部分直接采用SAMPASC標記,不同的部分則按照簡化原則,利用未使用的鍵盤符號予以標記。對于不同的藏語方言,雖然文字相同,但是發(fā)音并不一樣,因此根據(jù)藏語方言的國際音標來設計其對應的SAMPA,設計方法相同。
2.1聲母設計
德格縣位于四川省西部,隸屬于四川省甘孜藏族自治州,地理上位于西北部,是康巴方言區(qū)有名的文化古城,因此德格話也可認為是康方言區(qū)比較通用的語言。由于康方言使用的地區(qū)大多處在交通不便的山區(qū),山川阻隔,并且與外界交流很少,這就使得學者對康方言的考察和研究相對而言遠未成熟。
德格話音位系統(tǒng)中有較多的單輔音聲母,包括43個單輔音音位,其中有清濁對立的塞音、塞擦音、擦音和鼻音,還有邊音和半元音。在德格話中也存在清化鼻音的現(xiàn)象,德格話中有7個復輔音聲母,復輔音也有nc型和hc型2種。具體地,nc型是鼻音與b、d、g、dz、d?、d?組合構成,hc型復輔音聲母為次濁復輔音hj。德格話中以元音起頭的音節(jié)都有喉塞聲母存在,但是由于不具有區(qū)分意義,通常將其歸作零聲母處理[5]。聲母轉換設計如表1所示。
表1 德格話單輔音聲母的SAMPA_KT轉換表(部分)Tab.1 De Ge single consonant initials SAMPA_KT translation table (part)
在德格話單輔音聲母SAMPA_KT設計部分,基本上采用鍵盤上可以直接輸入的符號,其它難以用鍵盤輸入的國際音標,直接使用和國際音標相近的且未使用過的鍵盤符號來標記。并且盡可能依據(jù)國際音標,采用X-SAMPA類似符號,如此則不易引起音位混淆。在設計德格話的SAMPA_KT系統(tǒng)時,只需要對尚未描述的語音現(xiàn)象進行設計,比如德格聲母中的喉塞音/?/需要參照X-SAMPA類似符號設計為鍵盤上的/?/。
2.2韻母設計
德格話中有8個單元音韻母、6個鼻化韻母和11個包含塞音韻尾的韻母,合計25個韻母,德格話中不存在復合元音[6]。韻母轉換設計如表2所示。
表2 德格話輔音韻尾韻母的SAMPA_KT轉換表(部分)Tab.2 De Ge complex consonant initials SAMPA_KT translation table(part)
德格話中單元音韻母是/ɑ/的機讀音標采用符號“/a/”表示,其余基本元音的符號設計與其它方言區(qū)基本一致。韻母中存在帶塞音韻尾的韻母同樣可分2部分進行設計,而后將對應的方式組合即可,SAMPA_KT其它符號的轉換基本上與拉薩話相似。另外,德格話中也存在鼻化元音和長元音,其SAMPA_ KT由附加符號SAMPA加上單元音SAMPA組成。復合元音的SAMPA_KT分別由對應的單元音SAMPA組合來表示。
2.3聲調(diào)處理
康方言區(qū)聲調(diào)的分化時間較晚,且聲母和韻母簡化程度也不一樣,因而只能簡單劃分為2個高調(diào)類和2個低調(diào)類。但是聲調(diào)類型并不穩(wěn)定,而且不同區(qū)域差異較大,所以本項目對此未作更多考慮。
本文選取德格話作為藏語康方言區(qū)的代表,通過歸納整理德格話音系特征,在遵循SAMPA的原則下,參照XSAMPA以及漢語成熟的SAMPA_SC系統(tǒng)完成了藏語德格話SAMPA_KT系統(tǒng)的設計。藏語機讀音標的設計可以為藏語語音工程的實現(xiàn)奠定良好基礎,可以真正實現(xiàn)文音轉換功能。同時也為藏語韻律特征研究、語音合成以及語音識別等語音工程領域研究提供科學依據(jù)。
[1]于洪志,高璐,李永宏,等.藏語機讀音標SAMPA_ST的設計[J].中文信息學報,2012,26(4):66-72.
[2]張家騄.漢語普通話機讀音標SAMPA-SC[J].聲學學報(中文版),2009,34(1):81-86.
[3]維基百科.X-SAMPA[EB/OL].[2014-11-02].http://zh. wikipedia.org/wiki/X-SAMPA.
[4]格桑居冕.藏語方言概論[M].北京:民族出版社,2002.
[5]金鵬.藏語簡志[M].北京:人民出版社,1983.
[6]胡坦.藏語(拉薩話)聲調(diào)研究[J].民族語文,1980(1):22-36.
Kang dialect words dege SAMPA_KT design
CHEN Xiaoying
(School of Information Engineering,Tibet University for Nationalities,Xianyang Shanxi 712082,China)
Through the collection of the phonetic system of the Tibetan dege,the paper sums up corresponding phonetic feature.After that,according to the principles of design of SAMPA and with reference to the international phonetic alphabet of Chinese and Tibetan,the paper furtherly designs and implements the Tibetan dege phone read phonetic system.Tibetan machine read the phonetic alphabet design can lay a solid foundation for the realization of Tibetan speech engineering,which can truly realize the text to speech function.
Tibetan;Dege dialect;machine readable phonogram;SAMPA
TP391
A
2095-2163(2016)03-0015-03
2016-04-12
西藏自治區(qū)科技廳項目(2015ZR-14-19)。
陳小瑩(1983-),女,碩士,實驗師,主要研究方向:實驗語音學。