• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    潮汕方言數(shù)字化框架設(shè)計(jì)與研發(fā)

    2013-11-21 10:47:18吳永娜黃春梅
    關(guān)鍵詞:方音單字注音

    吳永娜,黃春梅

    (揭陽職業(yè)技術(shù)學(xué)院信息工程系,廣東揭陽 522000)

    潮汕文化歷史悠久,潮汕方言使用者眾多.潮汕方言保留了不少兩漢六朝時(shí)期的語音特點(diǎn),是中國最古老、最特殊的方言之一.隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,在潮汕方言的研究中引入中文信息處理技術(shù),是一種新的嘗試,它涉及到計(jì)算機(jī)和方言兩個(gè)領(lǐng)域的知識(shí)融合.計(jì)算機(jī)技術(shù)在文獻(xiàn)檢索、錄入、保存、各種資料的統(tǒng)計(jì)對(duì)比方面有很大的優(yōu)勢(shì),給我們帶來諸多的便利.本文建立了潮汕方言字詞數(shù)據(jù)庫檢索系統(tǒng)、潮汕方言口音數(shù)據(jù)庫、潮汕方言自動(dòng)處理軟件,讓專家學(xué)者從繁重的整理工作中解放出來,將更多的精力放在分析和解決問題上.

    1 潮汕方言音系

    潮汕方言口音可以分為揭陽、汕頭、潮州、汕尾、普寧、海陸豐等,每種口音大體相同,相互間能聽懂,但各地的發(fā)音還是有所區(qū)別.系統(tǒng)以廣東省教育廳1960年9月公布的潮汕話拼音方案為標(biāo)準(zhǔn)(簡稱60方案,下同).

    1.1 潮汕方言的聲母

    根據(jù)潮汕話拼音方案,潮汕話聲母共有18個(gè),見表1.

    表1 潮汕方言聲母表

    1.2 潮汕方言的韻母

    潮汕話常見有61個(gè)韻母,但為了全面保留潮汕語音系統(tǒng)的完整性,把不常見和管字甚少的韻母都一并收錄,共計(jì)95個(gè),見表2.

    表2 潮汕方言韻母表

    表2沒有按照傳統(tǒng)音韻學(xué)的方式編排,主要是針對(duì)計(jì)算機(jī)的特點(diǎn)而設(shè)計(jì)的.

    1.3 潮汕方言的聲調(diào)

    潮汕話有8個(gè)聲調(diào)如表3所示.

    表3 潮汕方言聲調(diào)

    2 方言字庫的建造和安裝

    目前大約有80個(gè)潮汕方言字超出常規(guī)計(jì)算機(jī)的輸入范圍.由于缺少字庫支持無法輸入和顯示.這部份字在Windows平臺(tái)主要是利用eudcedit.exe自帶的造字程序來實(shí)現(xiàn)的.步驟如下:

    2.1 確定方言字字符代碼

    Windows系統(tǒng)為用戶自定義字符預(yù)留了一定的編碼空間,并提供了一個(gè)制作自定義字符的程序eudcedit.exe,并確定編碼類型和代碼頁[11].EUDC中有各種不同的代碼頁,932代表日本語,936代表簡體中文,949代表韓語,950代表繁體中文,代碼頁不同,其規(guī)定的內(nèi)碼不同,在設(shè)計(jì)和規(guī)劃時(shí)必須嚴(yán)格按照其范圍編排.如下所示:

    932=F040-F9FC

    936=A140-A7A0,AAA1-AFFE,F8A1-FEFE

    949=C9A1-C9FE,FEA1-FEFE

    950=8140-8DFE,8E40-A0FE,C6A1-C8FE,FA40-FEFE

    Unicode=E000-F8FF

    本設(shè)計(jì)沒有采用936(簡體中文)代碼頁空間,而是采用了Unicode的規(guī)范,方便在各種系統(tǒng)上使用.潮汕方言字符的編碼空間從E001H開始,到E050H(十六進(jìn)制)結(jié)束,共80個(gè).運(yùn)行Windows自帶的造字程序,選擇Unicode代碼,然后選擇從E001H代碼開始造字,全部造完后保存為文件.

    2.2 修改注冊(cè)表的值

    系統(tǒng)要識(shí)別使用自造字,必須修改注冊(cè)表,這部分位于KEY_LOCAL_MACHINESystemCurrent-ControlSetControlNLSCodePageEUDCCodeRange EUDCCodeRange CodePage=FromTo[,FromTo],操作系統(tǒng)不同,其位置也不同,Windows 2000、Windows Server 2003、Windows XP SP1、SP2位置相同,Windows XP SP3位置與之不同,Windows7、Windows8又有差別,這些過程比較復(fù)雜,輸入法專門附帶了一個(gè)eudc-install程序,把設(shè)計(jì)完成后的自定義字符安裝到目標(biāo)計(jì)算機(jī)上,并自動(dòng)完成對(duì)注冊(cè)表的操作和文件的操作.

    3 輸入法的設(shè)計(jì)

    輸入法軟件的設(shè)計(jì)是數(shù)字化過程中一個(gè)關(guān)鍵環(huán)節(jié).不論寫作或是整理文獻(xiàn)都要和大量的方言字打交道.我們花費(fèi)了大量的時(shí)間和精力完成了潮汕話輸入法的開發(fā),軟件可以直接按照潮汕話拼音輸入常見的單字和詞組,對(duì)文獻(xiàn)錄入、創(chuàng)作或是聊天達(dá)到實(shí)用的水平.輸入法的設(shè)計(jì)過程中,碰到的主要問題有:

    3.1 潮拼聲母韻母的規(guī)范化

    潮汕地區(qū)有很多本土的字典和專業(yè)文獻(xiàn),它們大都附帶有一個(gè)聲、韻母表,從表4可以看出,四個(gè)附帶表沒有一個(gè)完全相同,表的內(nèi)容雖然沒有錯(cuò),但容易使人無所適從,非潮語區(qū)的用戶看后更是一頭霧水.隨著時(shí)間的推移,廣東省教育廳1960年發(fā)布的潮汕話拼音方案已經(jīng)跟不上時(shí)代的變化,制定一個(gè)標(biāo)準(zhǔn)聲、韻母表對(duì)推廣潮汕方言十分關(guān)鍵.普通話能夠推廣,一個(gè)重要因素就是有一個(gè)相對(duì)固定的標(biāo)準(zhǔn)聲韻母表.本系統(tǒng)采用60方案,其優(yōu)點(diǎn)是接近漢語拼音方案,容易上手.系統(tǒng)所有收集到的資料,全部以60方案進(jìn)行編碼.

    表4 各字典附帶的聲母表對(duì)照

    3.2 字符集編碼問題

    漢字信息化處理一直是個(gè)非常復(fù)雜的問題,國內(nèi)外先后出現(xiàn)了多種方案,導(dǎo)致了漢字字符編碼的混亂和兼容性問題[10].潮汕方言輸入與常規(guī)的輸入有很大的不同,很多方言字在常規(guī)輸入法中根本無法輸入和顯示.從發(fā)展方向和兼容性考慮,本系統(tǒng)采用了Unicode的編碼方案.系統(tǒng)采用海峰五筆的字庫,該字庫嚴(yán)格按照Unicode的編碼規(guī)范進(jìn)行設(shè)計(jì),具體內(nèi)容見表5.其中CJK EUDC自造區(qū)的編碼空間正好用在潮汕方言俗字的編碼上.

    表5 Unicode字庫編碼范圍

    3.3 主要的數(shù)據(jù)結(jié)構(gòu)

    輸入法由5個(gè)數(shù)據(jù)表組成:五筆單字庫、五筆詞組、潮音字庫、潮音詞組和自定義庫.潮音字庫按照<單字><方音1,方音1,…,方音n>的結(jié)構(gòu)組織,用戶輸入時(shí)由軟件自動(dòng)在各個(gè)方音中查找,就不用考慮到地區(qū)的差別,詞組文件按照<詞組><方音組1,方音組2,…,方音組n>的結(jié)構(gòu)組織,輸入時(shí)也同樣不用考慮地區(qū)的差別,只是要求軟件必須盡可能地收錄各地的發(fā)音.對(duì)于沒有收錄到的方音和詞組,則由自定義庫來解決,該庫由二部份組成,第一部份是單字,第二部份是詞組,結(jié)構(gòu)也同上,由軟件完成插入排序.

    3.4 人性化的設(shè)計(jì)

    由于潮語很多是古漢字,筆劃很多,常規(guī)字體有時(shí)較難看清,所以潮汕話輸入法開創(chuàng)性地設(shè)計(jì)了輸入窗口可自由調(diào)整字體大小的技術(shù),以方便用戶.在輸入狀態(tài)下,只要按下鍵盤上的“↑”、“↓”鍵,輸入法窗口就可以實(shí)現(xiàn)放大縮小.

    3.5 五筆單字反查潮拼功能

    輸入法中專門設(shè)計(jì)了五筆單字反查潮拼拼音的功能,在輸入過程中,碰到無法用潮拼輸入時(shí),可用五筆打出該字,同時(shí)該字右邊顯示潮語拼音,對(duì)用戶學(xué)習(xí)潮汕拼音法起到輔助作用.

    4 詞匯的收集與潮汕方言字詞檢索系統(tǒng)

    詞匯的收集和錄入非常繁重和耗時(shí).潮汕方言目前還沒有官方正式的詞匯收集文獻(xiàn).潮汕地區(qū)的各種詞匯專著比較少,出版時(shí)間參差不齊,詞匯量不多,最常見的是林倫倫編著的《潮汕方言熟語辭典》,該書收集的詞匯量有2 400條左右,是目前比較權(quán)威嚴(yán)謹(jǐn)?shù)闹?部份詞匯中的方言字要么留空,要么用同音字代替,除了部分至今無法考證出本字的方言字外,現(xiàn)在考證出來的方言字沒有及時(shí)收錄,而用同音字代替的現(xiàn)象比比皆是,在網(wǎng)絡(luò)上用詞混亂不堪.較少收錄俚語,事實(shí)上有些俚語詞匯更具潮汕特色.資料重疊嚴(yán)重,而且只有紙質(zhì)內(nèi)容,造成錄入困難.所以專門開發(fā)了輔助的方言字詞收集檢索系統(tǒng),見圖1.

    圖1 潮汕方言字詞收集檢索系統(tǒng)

    5 注音程序的設(shè)計(jì)

    方言注音程序的設(shè)計(jì)比拼音注音要復(fù)雜得多,現(xiàn)在還不能達(dá)到百分之百的注音.拼音的注音已經(jīng)有大量的研究和可用的資料.而潮汕方言在這方面還是個(gè)空白,潮汕方言既有文讀,又有白讀,各個(gè)方言區(qū)的發(fā)音又不盡相同,所以注音復(fù)雜且速度大大受到制約,例如,“廣”字,表示地名時(shí)用“geng”,表示“廣大”時(shí)用“guang”,而“廣交會(huì)”本要用“geng”,但實(shí)際要用“guang或guêng”;又如“人”字,在“男人,工人,商人,人參,人中”發(fā)“ring”的音,但在揭陽卻發(fā)“rêng”的音,在“助人為樂,人面,負(fù)責(zé)人”中發(fā)音為“nang”;又如“齊”字文讀為“ci”,白讀為“zoi”.這些現(xiàn)象比較復(fù)雜,只有經(jīng)過長時(shí)間收集統(tǒng)計(jì)分析才能提高注音的準(zhǔn)確性.圖2是潮汕方言自動(dòng)處理軟件界面,該軟件初步實(shí)現(xiàn)了潮汕方言的分詞與自動(dòng)注音.

    圖2 潮汕方言自動(dòng)處理軟件

    6 書籍OCR數(shù)字化與語音合成

    文獻(xiàn)錄入是非常繁重的工作.把文獻(xiàn)掃描后識(shí)別其中的文字稱為OCR.目前OCR軟件大部份僅支持國家規(guī)定的常見漢字,對(duì)潮汕特有的漢字無能為力.針對(duì)收集到的潮汕單字進(jìn)行了宋體字型數(shù)據(jù)分析,提取了關(guān)鍵點(diǎn)數(shù)據(jù).主要進(jìn)行印刷體的OCR試驗(yàn),重點(diǎn)是試驗(yàn)方言俗字的識(shí)別.

    語音合成具有廣泛的使用范圍.目前以揭陽方言區(qū)的讀音為試點(diǎn),編制出所有揭陽話的發(fā)音表,按發(fā)音表錄制相應(yīng)的單字發(fā)音,再根據(jù)揭陽音的變調(diào)規(guī)則實(shí)現(xiàn)了一套簡單的語音合成軟件.

    方言數(shù)字化的內(nèi)容還有很多,像智能輸入、自動(dòng)分詞、機(jī)器發(fā)音、各地語音庫的建立等等,相信這些工作會(huì)方便以后的研究.

    [1]林倫倫.(普通話對(duì)照)新編潮州音字典[M].汕頭:汕頭大學(xué)出版社,1997.

    [2]張曉山.(普通話潮州話對(duì)照)新潮汕字典[M].廣州:廣東人民出版社,2009.

    [3]殷人昆,陶永雷.數(shù)據(jù)結(jié)構(gòu)[M].北京:清華大學(xué)出版社,1999.

    [4]黃維通.Visual C++面向?qū)ο笈c可視化程序設(shè)計(jì)[M].北京:清華大學(xué)出版社,2000.

    [5]楊揚(yáng)發(fā).(普通話對(duì)照)潮州十八音字典[M].汕頭:汕頭大學(xué)出版社,2001.

    [6]劉堯咨.說潮州話[M].廣州:華南理工大學(xué)出版社,1995.

    [7]林倫倫.潮汕方言熟語辭典[M].深圳:海天出版社,1993.

    [8]陳凌千.潮汕字典[M].汕頭:汕頭育新書社,1935.

    [9]吳華重.(普通話對(duì)照)潮州音字典[M].廣州:廣東人民出版社,1983.

    [10]徐英慧.基于Qtopia的嵌入式智能拼音輸入法設(shè)計(jì)[J].微計(jì)算機(jī)信息,2008,24(30):276-278.

    [11]葉娜娜,鄧飛其,余紅明.基于Qt/Embedded技術(shù)的中文輸入法設(shè)計(jì)[J].自動(dòng)化技術(shù)與應(yīng)用,2009,28(8):26-32.

    猜你喜歡
    方音單字注音
    用語文方法為數(shù)字分組
    河北大名話單元音韻母、單字調(diào)及雙音節(jié)非輕聲詞連調(diào)的實(shí)驗(yàn)語音學(xué)初探
    《說文解字》注音釋義識(shí)略
    “對(duì)仗不宜分解到單字”毋庸置疑——答顧紳先生“四點(diǎn)質(zhì)疑”
    中華詩詞(2016年11期)2016-07-21 14:56:16
    鹽城方言單字調(diào)聲學(xué)實(shí)驗(yàn)研究
    《鄉(xiāng)音正誤》所載山西方音研究
    《現(xiàn)代漢語詞典》第6版注音有變化
    鄉(xiāng)村變遷與方音變化的性別模式——基于連島社區(qū)的個(gè)案研究
    《通鑒釋文》所反映的宋代單字音特殊變化
    歪打正著
    芒康县| 巫山县| 锦屏县| 荃湾区| 右玉县| 富裕县| 兰考县| 历史| 深州市| 万盛区| 信丰县| 清流县| 龙陵县| 修武县| 平舆县| 永清县| 长汀县| 定远县| 九台市| 阿克| 岑巩县| 察雅县| 晋江市| 义马市| 厦门市| 哈尔滨市| 安仁县| 东光县| 资中县| 奇台县| 湟中县| 中方县| 松阳县| 焉耆| 吴桥县| 元谋县| 龙游县| 昆明市| 翁源县| 白沙| 张家界市|