• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      藏文(含梵文)字丁自動(dòng)識別方法研究

      2015-08-28 03:11:30完么才讓
      卷宗 2015年8期
      關(guān)鍵詞:藏文元音字符

      完么才讓

      摘 要:本文以《ISO/IEC 10646藏文編碼字符集 基本集》為參考,把其中除標(biāo)點(diǎn)符號外的字符歸類到字母集、主字集和元音集三個(gè)集合,再將測試文本中的藏文字符與三個(gè)集合逐一匹配的方法,準(zhǔn)確識別(本文所講識別,非OCR圖形識別)出藏文字丁。

      關(guān)鍵詞:ISO/IEC 10646;音節(jié);字?。蛔R別

      藏文字丁的準(zhǔn)確識別是字丁頻率、信息熵計(jì)算的前提,也是音節(jié)分類的基礎(chǔ),更是藏文識別必不可少的環(huán)節(jié)。收錄至中國知網(wǎng)的關(guān)于藏文字丁的幾篇論文都未談及藏文字丁的自動(dòng)識別方法,本文從一下三個(gè)方面詳細(xì)講解藏文(含梵文)字丁的自動(dòng)識別方法。

      1 字母集、主字集和元音集

      把藏文unicode字符集中除標(biāo)點(diǎn)符號等特殊字符外的其他字符分成字母集、主字集和元音集三個(gè)集合,分別用英文標(biāo)記letter_set、main_char_set和vowels_set表示,則

      letter_set集合中的字符都無上加字,即字符上下均無main_char_set和vowels_set集合所示的空心圓圈,這類字符在實(shí)際文本中多作為字母出現(xiàn),故將這類字符收錄到字母集中。相應(yīng)地,main_char_set集合所含字符大都上有空心圈,結(jié)合時(shí),附著在前一個(gè)字符的下面,把具有這個(gè)特征的字符收集到主字集中。vowels_set集合中的字符都下附空心圓圈,表名這類字符在具體文本中充當(dāng)元音,應(yīng)收集到元音集中。這三個(gè)集合是字丁識別的前提,以下內(nèi)容中用L、M和V分別代表letter_set、main_char_set和vowels_set,Li、Mi和Vi表示對應(yīng)集合中的任意元素。

      2 藏文字丁的基本分類

      藏文字丁可分為六大類型,分別為:

      所有藏文字丁可歸類到以上六種類型。

      3 識別方法

      在有了集合的劃分和字丁的基本分類后,即可依據(jù)如下所描述的方法識別出藏文字丁。假設(shè)字符串變量Ttext存放待測試的藏文文本,字符串變量WR表示字丁。根據(jù)字符串變量的性質(zhì),Ttext[i](i=0,1,2,…,Ttext->Length)表示文本的第i個(gè)字符,則

      (1)取出第0個(gè)字符Ttext[0],放至WR,再判斷Ttext[1]屬于集合letter_set、main_char_set還是vowels_set。

      如果Ttext[1] letter_set,說明Ttext[1]是字母,則Ttext[0]單獨(dú)構(gòu)成一個(gè)字丁WR,相當(dāng)于第二節(jié)的第1類字丁,轉(zhuǎn)到步驟(4);如果Ttext[1] vowels_set,說明Ttext[1]是元音,則Ttext[0]+Ttext[1]的組合構(gòu)成新的WR,等于第二節(jié)中的第2類字丁,轉(zhuǎn)到步驟(4)。如果Ttext[1] main_char_set,則轉(zhuǎn)到步驟(2)。

      (2)判斷Ttext[2]是字母、主字還是元音。若是字母,則由Ttext[0]+Ttext[1]構(gòu)成的新字丁WR即一個(gè)字丁,相當(dāng)于第二節(jié)的第3類字丁,轉(zhuǎn)到步驟(4);若為元音,則Ttext[0]+Ttext[1]+Ttext[2]為一個(gè)字丁,即第二節(jié)的第4類字丁,轉(zhuǎn)到步驟(4);如果Ttext[2]是主字,即Ttext[2] main_char_set,則轉(zhuǎn)入步驟(3)。

      (3)判斷Ttext[3]屬于哪個(gè)集合,若Ttext[3]為字母,則Ttext[0]+Ttext[1]+Ttext[2]為一個(gè)字丁,等于第二節(jié)的第5類字丁,轉(zhuǎn)到步驟(4);若Ttext[3]為元音,則Ttext[0]+Ttext[1]+Ttext[2]+ Ttext[4]為一個(gè)字丁,相當(dāng)于第二節(jié)的第6類字丁,轉(zhuǎn)到步驟(4)。

      (4)轉(zhuǎn)到步驟(1),從識別出的字丁的下一個(gè)字符繼續(xù)判斷,直至到達(dá)文本末尾。

      用算法流程圖表示如下

      4 結(jié)語

      本文特意對字丁識別方法作了分析,除了提出一種適用于藏梵文的字丁識別算法外,第一節(jié)的三個(gè)集合和第二節(jié)對字丁的分類,對藏文的結(jié)合規(guī)律總結(jié)了一個(gè)新的歸納和分類方式。

      參考文獻(xiàn)

      [1]王維蘭,丁曉青,祁坤鈺. 藏文識別中相似字丁的區(qū)分研究.中文信息學(xué)報(bào),2002(4):61-63

      [2] 王維蘭,陳萬軍. 藏文字丁、音節(jié)頻度及其信息熵. 語音信息處理,2004(2):27-31

      [3] 桑塔,達(dá)哇彭措. 信息處理用藏文字丁統(tǒng)計(jì).科技信息,2010(29):430

      猜你喜歡
      藏文元音字符
      尋找更強(qiáng)的字符映射管理器
      元音字母和元音字母組合的拼讀規(guī)則
      元音字母和元音字母組合的拼讀規(guī)則
      西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
      布達(dá)拉(2020年3期)2020-04-13 10:00:07
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
      西夏學(xué)(2019年1期)2019-02-10 06:22:34
      消失的殖民村莊和神秘字符
      藏文音節(jié)字的頻次統(tǒng)計(jì)
      現(xiàn)代語境下的藏文報(bào)刊
      新聞傳播(2016年17期)2016-07-19 10:12:05
      成安县| 郯城县| 道孚县| 扶风县| 郯城县| 绩溪县| 五寨县| 绍兴县| 曲麻莱县| 广宗县| 陆丰市| 铜梁县| 榆林市| 六枝特区| 德昌县| 梅州市| 临朐县| 潢川县| 东乌珠穆沁旗| 南京市| 贡觉县| 谷城县| 马边| 阿鲁科尔沁旗| 孝感市| 开封县| 桃源县| 黄骅市| 北海市| 南郑县| 渝北区| 仁寿县| 宕昌县| 广昌县| 锦州市| 台州市| 九龙县| 遵义市| 新竹县| 嘉善县| 松溪县|