吳永娜,黃春梅
(揭陽職業(yè)技術(shù)學(xué)院信息工程系,廣東揭陽 522000)
潮汕文化歷史悠久,潮汕方言使用者眾多.潮汕方言保留了不少兩漢六朝時(shí)期的語音特點(diǎn),是中國最古老、最特殊的方言之一.隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,在潮汕方言的研究中引入中文信息處理技術(shù),是一種新的嘗試,它涉及到計(jì)算機(jī)和方言兩個(gè)領(lǐng)域的知識(shí)融合.計(jì)算機(jī)技術(shù)在文獻(xiàn)檢索、錄入、保存、各種資料的統(tǒng)計(jì)對(duì)比方面有很大的優(yōu)勢(shì),給我們帶來諸多的便利.本文建立了潮汕方言字詞數(shù)據(jù)庫檢索系統(tǒng)、潮汕方言口音數(shù)據(jù)庫、潮汕方言自動(dòng)處理軟件,讓專家學(xué)者從繁重的整理工作中解放出來,將更多的精力放在分析和解決問題上.
潮汕方言口音可以分為揭陽、汕頭、潮州、汕尾、普寧、海陸豐等,每種口音大體相同,相互間能聽懂,但各地的發(fā)音還是有所區(qū)別.系統(tǒng)以廣東省教育廳1960年9月公布的潮汕話拼音方案為標(biāo)準(zhǔn)(簡稱60方案,下同).
根據(jù)潮汕話拼音方案,潮汕話聲母共有18個(gè),見表1.
表1 潮汕方言聲母表
潮汕話常見有61個(gè)韻母,但為了全面保留潮汕語音系統(tǒng)的完整性,把不常見和管字甚少的韻母都一并收錄,共計(jì)95個(gè),見表2.
表2 潮汕方言韻母表
表2沒有按照傳統(tǒng)音韻學(xué)的方式編排,主要是針對(duì)計(jì)算機(jī)的特點(diǎn)而設(shè)計(jì)的.
潮汕話有8個(gè)聲調(diào)如表3所示.
表3 潮汕方言聲調(diào)
目前大約有80個(gè)潮汕方言字超出常規(guī)計(jì)算機(jī)的輸入范圍.由于缺少字庫支持無法輸入和顯示.這部份字在Windows平臺(tái)主要是利用eudcedit.exe自帶的造字程序來實(shí)現(xiàn)的.步驟如下:
Windows系統(tǒng)為用戶自定義字符預(yù)留了一定的編碼空間,并提供了一個(gè)制作自定義字符的程序eudcedit.exe,并確定編碼類型和代碼頁[11].EUDC中有各種不同的代碼頁,932代表日本語,936代表簡體中文,949代表韓語,950代表繁體中文,代碼頁不同,其規(guī)定的內(nèi)碼不同,在設(shè)計(jì)和規(guī)劃時(shí)必須嚴(yán)格按照其范圍編排.如下所示:
932=F040-F9FC
936=A140-A7A0,AAA1-AFFE,F8A1-FEFE
949=C9A1-C9FE,FEA1-FEFE
950=8140-8DFE,8E40-A0FE,C6A1-C8FE,FA40-FEFE
Unicode=E000-F8FF
本設(shè)計(jì)沒有采用936(簡體中文)代碼頁空間,而是采用了Unicode的規(guī)范,方便在各種系統(tǒng)上使用.潮汕方言字符的編碼空間從E001H開始,到E050H(十六進(jìn)制)結(jié)束,共80個(gè).運(yùn)行Windows自帶的造字程序,選擇Unicode代碼,然后選擇從E001H代碼開始造字,全部造完后保存為文件.
系統(tǒng)要識(shí)別使用自造字,必須修改注冊(cè)表,這部分位于KEY_LOCAL_MACHINESystemCurrent-ControlSetControlNLSCodePageEUDCCodeRange EUDCCodeRange CodePage=FromTo[,FromTo],操作系統(tǒng)不同,其位置也不同,Windows 2000、Windows Server 2003、Windows XP SP1、SP2位置相同,Windows XP SP3位置與之不同,Windows7、Windows8又有差別,這些過程比較復(fù)雜,輸入法專門附帶了一個(gè)eudc-install程序,把設(shè)計(jì)完成后的自定義字符安裝到目標(biāo)計(jì)算機(jī)上,并自動(dòng)完成對(duì)注冊(cè)表的操作和文件的操作.
輸入法軟件的設(shè)計(jì)是數(shù)字化過程中一個(gè)關(guān)鍵環(huán)節(jié).不論寫作或是整理文獻(xiàn)都要和大量的方言字打交道.我們花費(fèi)了大量的時(shí)間和精力完成了潮汕話輸入法的開發(fā),軟件可以直接按照潮汕話拼音輸入常見的單字和詞組,對(duì)文獻(xiàn)錄入、創(chuàng)作或是聊天達(dá)到實(shí)用的水平.輸入法的設(shè)計(jì)過程中,碰到的主要問題有:
潮汕地區(qū)有很多本土的字典和專業(yè)文獻(xiàn),它們大都附帶有一個(gè)聲、韻母表,從表4可以看出,四個(gè)附帶表沒有一個(gè)完全相同,表的內(nèi)容雖然沒有錯(cuò),但容易使人無所適從,非潮語區(qū)的用戶看后更是一頭霧水.隨著時(shí)間的推移,廣東省教育廳1960年發(fā)布的潮汕話拼音方案已經(jīng)跟不上時(shí)代的變化,制定一個(gè)標(biāo)準(zhǔn)聲、韻母表對(duì)推廣潮汕方言十分關(guān)鍵.普通話能夠推廣,一個(gè)重要因素就是有一個(gè)相對(duì)固定的標(biāo)準(zhǔn)聲韻母表.本系統(tǒng)采用60方案,其優(yōu)點(diǎn)是接近漢語拼音方案,容易上手.系統(tǒng)所有收集到的資料,全部以60方案進(jìn)行編碼.
表4 各字典附帶的聲母表對(duì)照
漢字信息化處理一直是個(gè)非常復(fù)雜的問題,國內(nèi)外先后出現(xiàn)了多種方案,導(dǎo)致了漢字字符編碼的混亂和兼容性問題[10].潮汕方言輸入與常規(guī)的輸入有很大的不同,很多方言字在常規(guī)輸入法中根本無法輸入和顯示.從發(fā)展方向和兼容性考慮,本系統(tǒng)采用了Unicode的編碼方案.系統(tǒng)采用海峰五筆的字庫,該字庫嚴(yán)格按照Unicode的編碼規(guī)范進(jìn)行設(shè)計(jì),具體內(nèi)容見表5.其中CJK EUDC自造區(qū)的編碼空間正好用在潮汕方言俗字的編碼上.
表5 Unicode字庫編碼范圍
輸入法由5個(gè)數(shù)據(jù)表組成:五筆單字庫、五筆詞組、潮音字庫、潮音詞組和自定義庫.潮音字庫按照<單字><方音1,方音1,…,方音n>的結(jié)構(gòu)組織,用戶輸入時(shí)由軟件自動(dòng)在各個(gè)方音中查找,就不用考慮到地區(qū)的差別,詞組文件按照<詞組><方音組1,方音組2,…,方音組n>的結(jié)構(gòu)組織,輸入時(shí)也同樣不用考慮地區(qū)的差別,只是要求軟件必須盡可能地收錄各地的發(fā)音.對(duì)于沒有收錄到的方音和詞組,則由自定義庫來解決,該庫由二部份組成,第一部份是單字,第二部份是詞組,結(jié)構(gòu)也同上,由軟件完成插入排序.
由于潮語很多是古漢字,筆劃很多,常規(guī)字體有時(shí)較難看清,所以潮汕話輸入法開創(chuàng)性地設(shè)計(jì)了輸入窗口可自由調(diào)整字體大小的技術(shù),以方便用戶.在輸入狀態(tài)下,只要按下鍵盤上的“↑”、“↓”鍵,輸入法窗口就可以實(shí)現(xiàn)放大縮小.
輸入法中專門設(shè)計(jì)了五筆單字反查潮拼拼音的功能,在輸入過程中,碰到無法用潮拼輸入時(shí),可用五筆打出該字,同時(shí)該字右邊顯示潮語拼音,對(duì)用戶學(xué)習(xí)潮汕拼音法起到輔助作用.
詞匯的收集和錄入非常繁重和耗時(shí).潮汕方言目前還沒有官方正式的詞匯收集文獻(xiàn).潮汕地區(qū)的各種詞匯專著比較少,出版時(shí)間參差不齊,詞匯量不多,最常見的是林倫倫編著的《潮汕方言熟語辭典》,該書收集的詞匯量有2 400條左右,是目前比較權(quán)威嚴(yán)謹(jǐn)?shù)闹?部份詞匯中的方言字要么留空,要么用同音字代替,除了部分至今無法考證出本字的方言字外,現(xiàn)在考證出來的方言字沒有及時(shí)收錄,而用同音字代替的現(xiàn)象比比皆是,在網(wǎng)絡(luò)上用詞混亂不堪.較少收錄俚語,事實(shí)上有些俚語詞匯更具潮汕特色.資料重疊嚴(yán)重,而且只有紙質(zhì)內(nèi)容,造成錄入困難.所以專門開發(fā)了輔助的方言字詞收集檢索系統(tǒng),見圖1.
圖1 潮汕方言字詞收集檢索系統(tǒng)
方言注音程序的設(shè)計(jì)比拼音注音要復(fù)雜得多,現(xiàn)在還不能達(dá)到百分之百的注音.拼音的注音已經(jīng)有大量的研究和可用的資料.而潮汕方言在這方面還是個(gè)空白,潮汕方言既有文讀,又有白讀,各個(gè)方言區(qū)的發(fā)音又不盡相同,所以注音復(fù)雜且速度大大受到制約,例如,“廣”字,表示地名時(shí)用“geng”,表示“廣大”時(shí)用“guang”,而“廣交會(huì)”本要用“geng”,但實(shí)際要用“guang或guêng”;又如“人”字,在“男人,工人,商人,人參,人中”發(fā)“ring”的音,但在揭陽卻發(fā)“rêng”的音,在“助人為樂,人面,負(fù)責(zé)人”中發(fā)音為“nang”;又如“齊”字文讀為“ci”,白讀為“zoi”.這些現(xiàn)象比較復(fù)雜,只有經(jīng)過長時(shí)間收集統(tǒng)計(jì)分析才能提高注音的準(zhǔn)確性.圖2是潮汕方言自動(dòng)處理軟件界面,該軟件初步實(shí)現(xiàn)了潮汕方言的分詞與自動(dòng)注音.
圖2 潮汕方言自動(dòng)處理軟件
文獻(xiàn)錄入是非常繁重的工作.把文獻(xiàn)掃描后識(shí)別其中的文字稱為OCR.目前OCR軟件大部份僅支持國家規(guī)定的常見漢字,對(duì)潮汕特有的漢字無能為力.針對(duì)收集到的潮汕單字進(jìn)行了宋體字型數(shù)據(jù)分析,提取了關(guān)鍵點(diǎn)數(shù)據(jù).主要進(jìn)行印刷體的OCR試驗(yàn),重點(diǎn)是試驗(yàn)方言俗字的識(shí)別.
語音合成具有廣泛的使用范圍.目前以揭陽方言區(qū)的讀音為試點(diǎn),編制出所有揭陽話的發(fā)音表,按發(fā)音表錄制相應(yīng)的單字發(fā)音,再根據(jù)揭陽音的變調(diào)規(guī)則實(shí)現(xiàn)了一套簡單的語音合成軟件.
方言數(shù)字化的內(nèi)容還有很多,像智能輸入、自動(dòng)分詞、機(jī)器發(fā)音、各地語音庫的建立等等,相信這些工作會(huì)方便以后的研究.
[1]林倫倫.(普通話對(duì)照)新編潮州音字典[M].汕頭:汕頭大學(xué)出版社,1997.
[2]張曉山.(普通話潮州話對(duì)照)新潮汕字典[M].廣州:廣東人民出版社,2009.
[3]殷人昆,陶永雷.數(shù)據(jù)結(jié)構(gòu)[M].北京:清華大學(xué)出版社,1999.
[4]黃維通.Visual C++面向?qū)ο笈c可視化程序設(shè)計(jì)[M].北京:清華大學(xué)出版社,2000.
[5]楊揚(yáng)發(fā).(普通話對(duì)照)潮州十八音字典[M].汕頭:汕頭大學(xué)出版社,2001.
[6]劉堯咨.說潮州話[M].廣州:華南理工大學(xué)出版社,1995.
[7]林倫倫.潮汕方言熟語辭典[M].深圳:海天出版社,1993.
[8]陳凌千.潮汕字典[M].汕頭:汕頭育新書社,1935.
[9]吳華重.(普通話對(duì)照)潮州音字典[M].廣州:廣東人民出版社,1983.
[10]徐英慧.基于Qtopia的嵌入式智能拼音輸入法設(shè)計(jì)[J].微計(jì)算機(jī)信息,2008,24(30):276-278.
[11]葉娜娜,鄧飛其,余紅明.基于Qt/Embedded技術(shù)的中文輸入法設(shè)計(jì)[J].自動(dòng)化技術(shù)與應(yīng)用,2009,28(8):26-32.