• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    藏文音節(jié)規(guī)則庫的建立與應(yīng)用分析

    2013-04-23 13:02:00格桑多吉扎西加高紅梅
    中文信息學(xué)報(bào) 2013年2期
    關(guān)鍵詞:藏文元音字符

    珠 杰, 歐 珠, 格桑多吉, 扎西加, 高紅梅

    (1. 西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,四川 成都 610031;2. 西藏大學(xué) 工學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系,西藏 拉薩 850000)

    1 前言

    隨著現(xiàn)代信息技術(shù)的發(fā)展和互連網(wǎng)的普及,藏文信息處理技術(shù)有了較快的進(jìn)步。從藏文的屬性統(tǒng)計(jì)工作開始[1],許多專家通過幾十年的努力,從多格局編碼的狀況[2]到統(tǒng)一編碼的時(shí)代[3],從多鍵盤布局的設(shè)計(jì)到統(tǒng)一鍵盤布局的出臺(tái)[4],解決了藏文在計(jì)算機(jī)中的輸入、輸出,并在現(xiàn)代互聯(lián)網(wǎng)上實(shí)現(xiàn)了藏文信息的共享?,F(xiàn)在不少高校和科研機(jī)構(gòu),在前人研究的基礎(chǔ)上不斷探索,開始在藏文語音識(shí)別[5]、文字識(shí)別[6-7]、分詞、詞類標(biāo)記[8]、機(jī)器翻譯[9]等領(lǐng)域著手研究,并取得了一些研究進(jìn)展。

    隨著藏文信息處理技術(shù)的進(jìn)一步發(fā)展,藏文文本處理成為藏語自然語言處理的研究?jī)?nèi)容。藏文音節(jié)作為文本組成的重要成分,對(duì)其分析是一個(gè)基礎(chǔ)性工作。根據(jù)文獻(xiàn)[10]所述,從書面藏文的信源屬性來看,藏文文本中的音節(jié)有72%的冗余度,這說明3/4的藏文字母是保證依據(jù)語法規(guī)則來組合藏文音節(jié)的,只有28%是可自由選擇的[10]。根據(jù)此特點(diǎn),本文以“預(yù)組合”的形式建立一個(gè)規(guī)則庫,并分析了在藏文信息處理研究領(lǐng)域中應(yīng)用的可能性。

    本文的結(jié)構(gòu)如下: 第2節(jié)介紹了藏文音節(jié)的結(jié)構(gòu);第3節(jié)介紹了藏文音節(jié)規(guī)則庫的建設(shè)原則、規(guī)則庫建設(shè)、組合情況統(tǒng)計(jì)、該組合音節(jié)的頻率統(tǒng)計(jì)和歧義規(guī)則的處理內(nèi)容;第4節(jié)介紹了藏文音節(jié)規(guī)則庫的應(yīng)用范圍,包括自動(dòng)拼寫藏文音節(jié)、拼寫檢查、藏文排序和信息提取等領(lǐng)域中的應(yīng)用;第5節(jié)是結(jié)論與展望。

    2 藏文的結(jié)構(gòu)

    藏文音節(jié)結(jié)構(gòu)是以基字為核心既有橫向拼寫又有縱向拼寫,前加字、基字、后加字、再后加字是橫向拼寫;上加字、基字、下加字和元音符是縱向拼寫。藏文音節(jié)結(jié)構(gòu)十分復(fù)雜,字符在音節(jié)中的特定位置可以稱為“構(gòu)造位”,根據(jù)藏文的文法,各個(gè)構(gòu)造位上出現(xiàn)的字符其性質(zhì)與數(shù)量均有一定的限制,相互之間也形成一種約束關(guān)系。

    不包括梵音撰寫藏文,藏文音節(jié)結(jié)構(gòu)中的構(gòu)造位共有 7 個(gè),例如圖1所示。

    圖1 藏文音節(jié)基本結(jié)構(gòu)

    每個(gè)構(gòu)造位在藏文字中的表示為: 1是前加位,2是上加位,3是基字位,4是下加位,5是元音位,6是后加位,7是再后加位,分別有前加字、上加字、基字、下加字、元音、后加字、再后加字來表示,在字中的位置如圖2所示。

    圖2 構(gòu)造位

    定義1: 構(gòu)造位上的字符稱為構(gòu)件,根據(jù)不同位置分別稱為前加字、上加字、基字、下加字、元音、后加字和再后加字。

    3 藏文規(guī)則庫的建立

    3.1 規(guī)則庫建立原則

    首先,根據(jù)藏語的語音理論體系,藏語語音可以分為元音和輔音。藏文的語音特性中,對(duì)于30個(gè)輔音字母進(jìn)行了字性分類,分為陽性、中性、陰性3種,其中陰性又分為準(zhǔn)陰性、極陰性、純陰性3種,共計(jì)5種字性。輔音字母中提取出來的前加字、后加字構(gòu)件又進(jìn)行了上述5種的分類。根據(jù)每個(gè)構(gòu)件的發(fā)音特性,字母組合上有很多限制,以這些限制條件為依據(jù),建立符合文法的藏文規(guī)則,本文主要依據(jù)前加字與基字、上下字與基字、疊加字符與前加字之間的組合關(guān)系來形成固定的字符串,建立藏文的規(guī)則庫。

    其次,3個(gè)上加字和4個(gè)下加字與基字組合上,有它自身的組合規(guī)律,根據(jù)這些規(guī)律建立規(guī)則庫。

    最后,選擇30個(gè)輔音字母和10個(gè)藏文數(shù)字作為規(guī)則庫的內(nèi)容之一。4個(gè)元音符號(hào)、10個(gè)后加字、2個(gè)再后加字作為動(dòng)態(tài)組合的成分。

    3.2 藏文規(guī)則庫

    定義3: 根據(jù)藏文的組合關(guān)系能夠構(gòu)成一個(gè)音節(jié)的稱為音節(jié)字符。

    定義4: 藏文30個(gè)字符為輔音字符。

    定義5: 藏文數(shù)字符號(hào)為數(shù)字字符。

    定義6: 藏文中的特殊符號(hào)為特殊字符。

    定義7: 根據(jù)藏文的組合關(guān)系能夠構(gòu)成組合字符串,但不構(gòu)成一個(gè)音節(jié)的稱為規(guī)則字符。

    根據(jù)規(guī)則庫建立的原則和“規(guī)則”的頻率統(tǒng)計(jì),建立了規(guī)則表。規(guī)則表按藏文字母、上加字與基字組合、基字與下加字組合、上加字與基字與下加字組合、前加字與基字組合的分類方式建立了1到17個(gè)規(guī)則表,如表1至17所示。表的第一列為每個(gè)規(guī)則序列,第二列為藏文音節(jié)規(guī)則,第三列為規(guī)則組合形成的音節(jié)個(gè)數(shù),第四列為每個(gè)規(guī)則的統(tǒng)計(jì)頻率。在3.3節(jié)中介紹頻率統(tǒng)計(jì)的過程。

    3.3 頻率和組合統(tǒng)計(jì)

    為了得到藏文規(guī)則庫中字符的頻率統(tǒng)計(jì),參考《藏漢大詞典》, 統(tǒng)計(jì)了每一個(gè)規(guī)則有多少種組合形式,該組合形式就是規(guī)則構(gòu)成的藏文音節(jié)個(gè)數(shù);參考《現(xiàn)代藏文頻率詞典》,統(tǒng)計(jì)每個(gè)規(guī)則組合形成的音節(jié)頻率,是規(guī)則庫中頻率數(shù)據(jù)來源的主要依據(jù)。

    表1 輔音字母規(guī)則表

    表2 高頻符號(hào)規(guī)則表

    表3 元音字母規(guī)則表

    表4 上加字規(guī)則表之“”

    續(xù)表

    表5 上加字規(guī)則表之“”

    表6 上加字規(guī)則表之“”

    表7 下加字規(guī)則表之“”

    表8 下加字規(guī)則表之“”

    表9 下加字規(guī)則表之“”

    表10 下加字規(guī)則表之“”

    續(xù)表

    表11 前加字“”匹配規(guī)則表

    表12 前加字“”匹配規(guī)則表

    續(xù)表

    表13 前加字“”匹配規(guī)則表

    表13 前加字“”匹配規(guī)則表

    序號(hào)字符音節(jié)數(shù)頻率/‰1232.44912120.338713190.73566440.0542570.386346241.08387720.203228310.96199960.0948510120.528391160.0948512130.772241310.1354814140.3522515152.059311630.2709617290.921291850.0541919130.1354920341.869652150.8535222100.4741923340.8806724231.1680725130.94835

    續(xù)表

    表15 前加字“”匹配規(guī)則表

    表16 上下疊加匹配規(guī)則表

    續(xù)表

    表17 藏文數(shù)字字符表

    藏文規(guī)則庫中的規(guī)則組合形成的音節(jié)數(shù)和頻率統(tǒng)計(jì)過程如下:

    設(shè)A為藏文音節(jié)集合,B為《藏漢大詞典》中的音節(jié)集合,Cy為《現(xiàn)代藏文頻率詞典》中的音節(jié)集合,則:

    圖3 藏文規(guī)則庫的集合關(guān)系

    其中xk為第k個(gè)規(guī)則,k為規(guī)則數(shù),公式(1)就是第k個(gè)規(guī)則的頻率統(tǒng)計(jì)結(jié)果。

    3.4 歧義規(guī)則處理

    在具體應(yīng)用中針對(duì)這14個(gè)規(guī)則需要另加判斷條件,例如判斷這14個(gè)規(guī)則后面是否跟有音節(jié)點(diǎn),若有則為一個(gè)音節(jié)而非規(guī)則;否則為規(guī)則。

    4 規(guī)則庫的應(yīng)用

    4.1 自動(dòng)拼寫藏文音節(jié)

    設(shè)基字?jǐn)U展字符集合為Trule,其元素定義如下:

    設(shè)歸并后的后加字集合為Tpostfix:

    設(shè)元音字符集合:

    根據(jù)如下的藏文文法,后加字與任何“基字”可以進(jìn)行匹配,這里的“基字”可以包含Trule集中的任何“規(guī)則”。文法如下所示:

    其笛卡爾乘積為:

    Trule×Tvowel×Tpostfix={|b∈Trule,v∈Tvowel,s∈Tpostfix}

    根據(jù)如上所述,自動(dòng)拼寫藏文音節(jié)系統(tǒng)如圖4 所示。

    通過自動(dòng)拼寫藏文音節(jié)系統(tǒng),設(shè)計(jì)算法如下:

    (1) 規(guī)則集Trule與Tvowel元音字符集進(jìn)行組合,構(gòu)成藏文音節(jié)。

    (2) 規(guī)則集Trule與Tvowel元音字符集、Tpostfix集合進(jìn)行組合,構(gòu)成藏文音節(jié)。

    經(jīng)過實(shí)驗(yàn)測(cè)試,算法的第1部分產(chǎn)生1 045個(gè)音節(jié),算法的第2部分能夠產(chǎn)生17 765個(gè)音節(jié),共計(jì)18 810個(gè)藏文音節(jié)。但是所產(chǎn)生的音節(jié)中存在一些歧義現(xiàn)象,例如:

    (4) 自動(dòng)產(chǎn)生的一些生僻音節(jié),還需要語言學(xué)家的進(jìn)一步論證。

    4.2 拼寫檢查中的應(yīng)用

    目前藏文音節(jié)校對(duì)(拼寫檢查)中,有些學(xué)者通過n-gram方法進(jìn)行研究,有些學(xué)者詞典匹配模式進(jìn)行校對(duì),但未曾見到利用規(guī)則進(jìn)行拼寫檢查的研究論文。

    藏文拼寫檢查中把一個(gè)音節(jié)拆分成三個(gè)部分,即前綴、元音和后綴。在匹配模式中由于總計(jì)只有224個(gè)規(guī)則,比1萬8千多個(gè)音節(jié)中查找和匹配簡(jiǎn)單的多。本文的拼寫檢查算法中,總體想法是一個(gè)音節(jié)的拼寫檢查歸結(jié)到局部規(guī)則的檢查,然后拓寬至整個(gè)音節(jié)的拼寫檢查,先進(jìn)行前綴部分檢查、再進(jìn)行元音和音節(jié)點(diǎn)的檢查、最后進(jìn)行后綴部分的檢查。具體算法如下:

    (1) 當(dāng)對(duì)文本進(jìn)行拼寫檢查時(shí),首先裝載文本,讀取一個(gè)音節(jié)內(nèi)容,讀取完畢結(jié)束循環(huán)。

    (2) 識(shí)別一個(gè)音節(jié),若是音節(jié)進(jìn)入(3);否則做錯(cuò)誤標(biāo)記,進(jìn)入(1)讀取下一個(gè)音節(jié)內(nèi)容。

    (3) 目標(biāo)音節(jié)與規(guī)則集Trule進(jìn)行匹配,若匹配不成功,認(rèn)為拼寫有誤,做錯(cuò)誤標(biāo)記并進(jìn)入(1)讀取一下個(gè)音節(jié)內(nèi)容;否則進(jìn)入(4)。

    (4) 后面的字符與Tvowel集合和Tpostfix集合中的元素匹配,若匹配不成功,做錯(cuò)誤標(biāo)記并進(jìn)入(1)讀取下一個(gè)音節(jié)內(nèi)容;否則拼寫正確不做標(biāo)記,進(jìn)入(1)讀取一個(gè)音節(jié)內(nèi)容。

    下面是算法的一個(gè)測(cè)試和實(shí)驗(yàn)結(jié)果的數(shù)據(jù)分析:

    語料1的測(cè)試結(jié)果:

    語料2的測(cè)試結(jié)果:

    語料3的測(cè)試結(jié)果:

    從以上3個(gè)語料的實(shí)驗(yàn)情況分析,首先,在音節(jié)識(shí)別當(dāng)中需要去除藏文符號(hào)、數(shù)字、其他語言符號(hào)的干擾,經(jīng)過預(yù)處理提取出藏文音節(jié);其次,對(duì)藏文音節(jié)進(jìn)行拼寫檢查,檢查錯(cuò)誤的拼寫情況。針對(duì)判斷失誤的31個(gè)規(guī)則需要在拼寫檢查算法中另加判斷條件,對(duì)于特殊藏文音節(jié)、梵音轉(zhuǎn)寫藏文音節(jié)需要在規(guī)則表中添加相應(yīng)的字符規(guī)則;然后,如果剔除干擾因素、不考慮梵音轉(zhuǎn)寫藏文音節(jié)和特殊藏文音節(jié),算法的檢錯(cuò)能力可以達(dá)到99.8%(1-31/18810)。

    4.3 藏文排序中的應(yīng)用

    在文獻(xiàn)[11]中,江荻等人針對(duì)藏文的規(guī)則特性,提出了了藏文排序中的字符序、構(gòu)造序概念,并設(shè)計(jì)了計(jì)算機(jī)中實(shí)現(xiàn)的排序方案。在文獻(xiàn)[12]中,Ro-bert R Chilton利用藏文規(guī)則,對(duì)藏文編碼國(guó)際標(biāo)準(zhǔn)ISO/IEC 10646字符進(jìn)行了排序。作者通過“collation element”的概念,建立一個(gè)“collation element”表,該表通過對(duì)藏文規(guī)則建立權(quán)重分級(jí)的藏文字符排序表,第一級(jí)由133個(gè)規(guī)則字符、4個(gè)元音字符和30個(gè)后置字符組成一個(gè)167個(gè)字符的排序表;第二級(jí)由9個(gè)特殊字符組成的字符表,剩余120個(gè)字符不涉及到字典序排序方法中,沒有列到權(quán)重分級(jí)列表中。作者較好地利用了藏文規(guī)則,設(shè)計(jì)了易于實(shí)現(xiàn)的排序算法。雖然需要排序的“字符”數(shù)量多了許多,但是算法簡(jiǎn)單并易于實(shí)現(xiàn),該算法在Mysql和MIMER SQL中得到了應(yīng)用。

    4.4 信息提取和文本挖掘中的應(yīng)用

    在文獻(xiàn)[13]中,利用藏文音節(jié)點(diǎn)的高頻率特點(diǎn),對(duì)藏文編碼進(jìn)行了識(shí)別,在文獻(xiàn)[14]中利用了音節(jié)點(diǎn)的上述特點(diǎn),提取藏文網(wǎng)頁中的主體信息。將來在藏文文本挖掘、Web挖掘等研究領(lǐng)域中將起到積極的作用。

    4.5 其他領(lǐng)域中的應(yīng)用

    在藏文的字庫設(shè)計(jì)、字符標(biāo)準(zhǔn)制定、語音標(biāo)注、詞典編纂等領(lǐng)域中能夠提供參考依據(jù)。

    5 結(jié)論

    本文試圖從藏文音節(jié)的特征來解決藏文信息處理中的自動(dòng)拼寫藏文音節(jié)、拼寫檢查、藏文排序等問題,并在自動(dòng)拼寫藏文音節(jié)、拼寫檢查等研究?jī)?nèi)容中提出了相應(yīng)的算法;在藏文排序、信息提取等研究?jī)?nèi)容中通過舉例來說明藏文規(guī)則庫在實(shí)際應(yīng)用中的可行性。由于本文只考慮了符合藏文文法的現(xiàn)代藏文的規(guī)則,沒有涉及梵音轉(zhuǎn)寫、符號(hào)、數(shù)字等內(nèi)容,下一步考慮更多的因素,擴(kuò)大藏文規(guī)則庫的解決問題的范圍。

    [1] 江狄,董穎紅.藏文信息處理屬性統(tǒng)計(jì)研究[J].中文信息學(xué)報(bào),1995,9(2): 37-44.

    [2] 彭壽全,黃可,張義剛.藏文綜合編碼方案的研究與實(shí)現(xiàn)[J].中文信息學(xué)報(bào),1996,10(4): 32-39.

    [3] The Unicode Consortium.The Unicode Standard 4.0[S].2004.

    [4] 國(guó)家技術(shù)監(jiān)督局. GB/T 22034-2008信息技術(shù) 藏文編碼字符集鍵盤字母數(shù)字區(qū)的布局[S].中國(guó)標(biāo)準(zhǔn)出版社,2008.

    [5] Ngodrup, Dong Cai Zhao, De Qing Drorna. Research on Tibetan Lhasa Dialect Phonetic Feature Extraction Technology Based on LDA-MFCC[C]//IEEE ICIST, 2011, 5: 369-372.

    [6] Yongzhong Li, Guang He. Research on Printed Tibetan Character Recognition Technology Based on Fractal Moments[C]//IEEE ICCSIT, 2010, 3: 57-60.

    [7] Ngodrup, Dong Cai Zhao. Research on Wooden Blocked Tibetan Character Segmentation Based on Drop Penetration Algorithm[C]//IEEE CCPR, 2010: 1-5.

    [8] 扎西加, 珠杰. 面向信息處理的藏文分詞規(guī)范研究[J]. 中文信息學(xué)報(bào), 2009, 23(4): 113-117.

    [9] Yauan Lu, Yang Liu, Qun Liu. Multilingual Machine Translation system[C]//IEEE IUCS, 2010: 401.

    [10] 江荻.中文信息處理國(guó)際會(huì)議論文集(書面藏語的熵值及相關(guān)問題)[M].北京: 清華大學(xué)出版社.1998,01.

    [11] 江荻,周季文.論藏文的序性及排序方法[J].中文信息學(xué)報(bào),2004,(2):27-31.

    [12] Robert R Chilton,Sorting Unicode Tibetan using a Multi-Weight Collation Algorithm[EB/OL]. https://collab.itc.virginia.edu/access/wiki/site/26a34146-33a6-48ce-001e-f16ce7908a6a/sorting%20tibetan.html.

    [13] 劉匯丹,芮建武,吳建.藏文網(wǎng)頁的編碼識(shí)別與轉(zhuǎn)換[C]//中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議,2006: 573-580.北京: 西苑出版社.

    [14] 珠杰,歐珠,格桑多吉.基于DOM修剪的藏文Web信息提取[J].計(jì)算機(jī)工程,2008,12(27):58-60.

    猜你喜歡
    藏文元音字符
    尋找更強(qiáng)的字符映射管理器
    元音字母和元音字母組合的拼讀規(guī)則
    元音字母和元音字母組合的拼讀規(guī)則
    西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
    布達(dá)拉(2020年3期)2020-04-13 10:00:07
    字符代表幾
    一種USB接口字符液晶控制器設(shè)計(jì)
    電子制作(2019年19期)2019-11-23 08:41:50
    黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
    西夏學(xué)(2019年1期)2019-02-10 06:22:34
    消失的殖民村莊和神秘字符
    藏文音節(jié)字的頻次統(tǒng)計(jì)
    現(xiàn)代語境下的藏文報(bào)刊
    新聞傳播(2016年17期)2016-07-19 10:12:05
    石嘴山市| 牟定县| 海林市| 青河县| 西充县| 保定市| 比如县| 镇宁| 三门县| 阜康市| 北安市| 崇州市| 甘孜| 图们市| 龙州县| 托克逊县| 宝兴县| 铁力市| 紫阳县| 赤城县| 建湖县| 耒阳市| 龙岩市| 福贡县| 正定县| 凤城市| 温州市| 太康县| 克东县| 桂平市| 崇明县| 东阳市| 山东省| 诸暨市| 治县。| 高邑县| 岚皋县| 元氏县| 井冈山市| 赤壁市| 巴青县|