• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于大規(guī)模網(wǎng)絡(luò)語料的藏文音節(jié)拼寫錯誤統(tǒng)計與分析

    2017-06-01 11:29:47劉匯丹洪錦玲諾明花
    中文信息學(xué)報 2017年2期
    關(guān)鍵詞:拼寫錯誤藏文音節(jié)

    劉匯丹,洪錦玲,諾明花,吳 健

    (中國科學(xué)院 軟件研究所,北京100190)

    基于大規(guī)模網(wǎng)絡(luò)語料的藏文音節(jié)拼寫錯誤統(tǒng)計與分析

    劉匯丹,洪錦玲,諾明花,吳 健

    (中國科學(xué)院 軟件研究所,北京100190)

    針對從互聯(lián)網(wǎng)獲取的一份包含19萬藏文網(wǎng)頁,總計427萬句、9 328萬音節(jié)字的藏文文本語料,該文按照預(yù)定的規(guī)則對其中的藏文音節(jié)拼寫錯誤情況進(jìn)行了統(tǒng)計與分析。數(shù)據(jù)顯示,在語料中出現(xiàn)的共計20 743個藏文音節(jié)中,含有拼寫錯誤的音節(jié)共有9 700個,占藏文音節(jié)總數(shù)的46.762 8%,錯誤音節(jié)在語料中共出現(xiàn)27 427次,僅占0.030 8%,說明這份語料的文本質(zhì)量是相當(dāng)高的。文中還詳細(xì)統(tǒng)計了各種不同表現(xiàn)形式的錯誤音節(jié)所占比重,并分析了導(dǎo)致拼寫錯誤的四個主要原因: 一是輸入了多余的元音符號;二是音節(jié)點或句尾空格缺失;三是同一字丁/字符存在多種表達(dá)形式;四是錯誤地使用了相似字符。

    藏文拼寫檢查;拼寫檢查;語料;統(tǒng)計;藏文信息處理;中文信息處理

    1 引言

    文本校對是自然語言處理的主要應(yīng)用領(lǐng)域之一,近些年來,已有學(xué)者在藏文文本校對或拼寫檢查方面做了一些研究,這些研究大多針對實現(xiàn)藏文文本校對工具,以及為實現(xiàn)校對工具而構(gòu)建的藏文音節(jié)規(guī)則相關(guān)知識庫等方面。針對真實文本語料庫的藏文拼寫錯誤情況的統(tǒng)計分析工作鮮有報道。本文將通過對大規(guī)模網(wǎng)絡(luò)藏文文本語料庫中拼寫錯誤情況進(jìn)行統(tǒng)計分析,一方面考察真實文本中藏文拼寫錯誤的嚴(yán)重程度,為藏文文本校對的研究提供依據(jù);另一方面考察網(wǎng)絡(luò)語料的質(zhì)量,判斷將網(wǎng)絡(luò)藏文文本作為構(gòu)建高質(zhì)量藏文文本語料庫的可靠性。

    本文接下來的部分首先介紹相關(guān)領(lǐng)域研究現(xiàn)狀,其次介紹大規(guī)模網(wǎng)絡(luò)藏文文本獲取的方法及利用這種方法獲取的語料情況,然后對這份語料中藏文音節(jié)的拼寫錯誤情況進(jìn)行統(tǒng)計與分析,最后對全文進(jìn)行總結(jié)。

    2 研究現(xiàn)狀

    有關(guān)藏文文本校對方面的研究可追溯到20世紀(jì)。1998年,扎西次仁歸納總結(jié)了藏文的拼寫規(guī)則和虛詞使用法則,根據(jù)藏文的拼寫規(guī)則、虛詞使用法則、音節(jié)庫和詞表,設(shè)計并開發(fā)了一個藏文拼寫檢查系統(tǒng),并分析了由實詞虛詞兼類、詞語組合型切分歧義等導(dǎo)致的難點問題[1]。之后,王維蘭等將藏文自動校對應(yīng)用于藏文文字識別,對單字進(jìn)行校正[2]。才讓卓瑪提出了利用詞語搭配關(guān)系表、語法規(guī)則庫進(jìn)行校對的方法[3],并對藏文語序錯誤、標(biāo)點使用錯誤、詞語搭配錯誤等情況進(jìn)行了舉例分析[4]。劉文香也對藏語音節(jié)的搭配規(guī)則等做了研究,創(chuàng)建了音節(jié)搭配規(guī)則知識庫,探索了音節(jié)查錯校對的原理、關(guān)鍵技術(shù)及可行的實現(xiàn)方法[5]。隨后提出了一種將分詞詞表模式匹配、二元詞詞鄰接矩陣和詞間音勢約束模型三種方法相結(jié)合的藏文詞校對模型[6],并在Windows 8操作系統(tǒng)平臺上實現(xiàn)了基于音節(jié)的現(xiàn)代藏文文本校對的試驗系統(tǒng)[7]。多杰卓瑪對藏文文本中的錯誤情況進(jìn)行了分析,將藏文文本的錯誤形式歸納為音節(jié)錯誤、缺字和加字的錯誤、輸入錯誤、人名錯誤、地名錯誤、江河名錯誤、知識性錯誤等類別,并提出了利用以字丁為單位的N元文法模型判斷藏文音節(jié)是否錯誤的方法[8]。關(guān)白回顧了現(xiàn)代藏文自動校對的研究現(xiàn)狀[9],分析了藏文音節(jié)字中的錯誤類型,并針對藏文音節(jié)字的特點,通過音節(jié)字預(yù)處理、字表匹配、混淆集匹配、二元接續(xù)關(guān)系、最小編輯距離法等方法對現(xiàn)代藏文音節(jié)字的自動校對進(jìn)行了詳細(xì)論述[10-11]。安見才讓提出了一種根據(jù)構(gòu)字規(guī)則進(jìn)行藏字校對的方法,實驗表明,在一段約130個字符的文本中,系統(tǒng)成功檢測出了其中的六處錯誤[12]。珠杰等人構(gòu)建了現(xiàn)代藏文音節(jié)規(guī)則庫,并分析了其在拼寫檢查等方面的應(yīng)用[13],在對實際文本的測試中發(fā)現(xiàn)該模型還需要增加對藏文數(shù)字、符號、特殊音節(jié)、梵音轉(zhuǎn)寫音節(jié)的特殊處理。洪錦玲等人綜合藏文分詞、音節(jié)拼寫、格助詞規(guī)則等多種藏文特性,提出了一種藏文詞語拼寫檢查的方法,并提出了根據(jù)錯誤詞語與詞庫詞語的編輯距離給出糾錯建議的方法,并將該方法在開源辦公套件LibreOffice 中進(jìn)行了實現(xiàn)[14]。陳小瑩等人設(shè)計實現(xiàn)了一個包括藏文文本規(guī)范化處理模塊、音節(jié)切分模塊、黏著語的分離與還原模塊和音節(jié)校對模塊四個模塊的藏文音節(jié)拼寫自動校對系統(tǒng)[15]。

    上述研究大多針對實現(xiàn)藏文文本校對工具及藏文音節(jié)規(guī)則等相關(guān)知識庫的構(gòu)建方面,只有多杰卓瑪、關(guān)白等對藏文拼寫錯誤情況進(jìn)行了歸納,但也僅限于對個別情況的舉例說明。針對真實文本語料庫的藏文拼寫錯誤情況的統(tǒng)計分析工作還未見有報道。本文將通過對大規(guī)模網(wǎng)絡(luò)藏文文本語料庫中拼寫錯誤情況進(jìn)行統(tǒng)計分析,一方面考察真實文本中藏文拼寫錯誤的嚴(yán)重程度,為藏文文本校對的研究提供依據(jù);另一方面考察網(wǎng)絡(luò)語料的質(zhì)量,確定將網(wǎng)絡(luò)藏文文本作為構(gòu)建高質(zhì)量藏文文本語料庫的可靠性。

    3 語料獲取與處理

    本節(jié)介紹大規(guī)模藏文網(wǎng)絡(luò)文本的獲取、音節(jié)切分方法和音節(jié)拼寫錯誤的判別依據(jù)等方面的內(nèi)容。

    3.1 語料來源

    根據(jù)我們之前對互聯(lián)網(wǎng)藏文文本資源分布情況的考察,我們選擇了八個新聞廣播類的藏文網(wǎng)站作為文本語料的來源,這八個網(wǎng)站的基本信息如表 1所示。八個網(wǎng)站中,中國西藏新聞網(wǎng)和新華網(wǎng)西藏頻道藏文版使用國家標(biāo)準(zhǔn)藏文編碼字符集擴(kuò)充集,人民網(wǎng)藏文版使用同元編碼,這三個網(wǎng)站的藏文文本需要做編碼轉(zhuǎn)換。其它五個網(wǎng)站均使用國際標(biāo)準(zhǔn)Unicode藏文基本集(小字符集)方案。在進(jìn)行后續(xù)處理之前,我們將獲取的語料統(tǒng)一轉(zhuǎn)換為國家標(biāo)準(zhǔn)藏文編碼字符集基本集形式(關(guān)于藏文編碼轉(zhuǎn)換技術(shù)請參考文獻(xiàn)[16-17])。編碼轉(zhuǎn)換過程使用了與“藏碼通”相同的編碼對照表和轉(zhuǎn)換算法[17]?!安卮a通”軟件在民族出版社、中國社科院民族所、西藏大學(xué)、西藏編譯局等單位使用近十年,并根據(jù)用戶反饋情況對編碼對照表進(jìn)行了反復(fù)修改,因此,轉(zhuǎn)換正確率是可以保證的。同時,我們對語料來源所屬的網(wǎng)站頻道進(jìn)行了限制,并通過網(wǎng)頁文種識別限定只取藏文網(wǎng)頁,并只抽取其中的標(biāo)題、正文等關(guān)鍵信息。以上可以最大限度地避免語料因編碼轉(zhuǎn)換導(dǎo)致的問題。

    表1 八個新聞廣播類藏文網(wǎng)站的基本信息

    續(xù)表

    3.2 語料獲取方法

    在本文中,我們采用基于正則表達(dá)式的方法從藏文網(wǎng)頁中抽取文章主題相關(guān)的信息。我們通過分析各個網(wǎng)站的頁面布局結(jié)構(gòu)來抽取網(wǎng)頁模板,根據(jù)之前相關(guān)的研究,分析藏文網(wǎng)頁的板式結(jié)構(gòu),可以發(fā)現(xiàn)文章標(biāo)題、作者、發(fā)布時間、文章正文等信息塊與其他信息塊之間的分隔標(biāo)志,甚至可以利用HTML源文件中的一些注釋信息進(jìn)行抽取[18]。可以據(jù)此構(gòu)造模板提取藏文篇章文本,舉例如下:

    ? 中國西藏新聞網(wǎng)的頁面模板為:

    .*【文章正文】.*

    ? 中國西藏網(wǎng)的頁面模板為:

    3.3 音節(jié)切分方法

    對藏文文本進(jìn)行音節(jié)切分主要依據(jù)以下切分規(guī)則。

    ? 音節(jié)點作為音節(jié)分隔標(biāo)記,切分之后附著在左邊(前邊)音節(jié)的結(jié)尾;

    ? 藏文數(shù)字和阿拉伯?dāng)?shù)字視為音節(jié)分隔標(biāo)記,切分之后分別視同藏文音節(jié)參與數(shù)據(jù)統(tǒng)計;

    ? 藏文標(biāo)點符號、英文標(biāo)點符號和漢語標(biāo)點符號視為音節(jié)分隔標(biāo)記,切分之后分別視同藏文音節(jié)參與數(shù)據(jù)統(tǒng)計;

    ? 連續(xù)的英文字母視為音節(jié)分隔標(biāo)記,切分之后視同藏文音節(jié)參與數(shù)據(jù)統(tǒng)計;

    ? 連續(xù)的漢字視為音節(jié)分隔標(biāo)記,切分之后視同藏文音節(jié)參與數(shù)據(jù)統(tǒng)計。

    根據(jù)以上規(guī)則對獲取到的網(wǎng)絡(luò)藏文文本進(jìn)行切分之后,可以統(tǒng)計各個藏文音節(jié)出現(xiàn)的頻次。在上述語料中,出現(xiàn)頻率最高的部分藏文音節(jié)如表2所示。

    表2 網(wǎng)絡(luò)語料中的藏文高頻音節(jié)表

    3.4 語料規(guī)模

    使用上述方法獲取網(wǎng)絡(luò)藏文文本語料,并進(jìn)行音節(jié)切分,統(tǒng)計數(shù)據(jù)顯示,共計19萬藏文網(wǎng)頁,語料總計427萬句、9 328萬音節(jié)字(含藏文數(shù)字、漢字、英文字母、各種標(biāo)點符號等)。詳細(xì)的統(tǒng)計數(shù)字見表3。

    表3 獲取的網(wǎng)絡(luò)藏文文本語料的規(guī)模

    4 拼寫錯誤的統(tǒng)計與分析

    4.1 藏文音節(jié)拼寫錯誤的判別依據(jù)

    在藏文音節(jié)拼寫檢查的研究中,大家常用的方法是根據(jù)藏文文法中基字、前加字、上加字、下加字、元音、后加字和再后加字之間的約束關(guān)系構(gòu)造藏文音節(jié)規(guī)則庫來判斷音節(jié)的合法性,然而,由于梵音轉(zhuǎn)寫和外來詞音譯的存在,采用這種方法構(gòu)建的規(guī)則庫總是不能完全覆蓋真實文本中所有的情況。因此,在本文中,我們根據(jù)傳統(tǒng)藏文文法構(gòu)造一些規(guī)則來判別音節(jié)是否存在拼寫錯誤,這些規(guī)則主要包括:

    ? 包含多個緊縮標(biāo)志的音節(jié)視為拼寫錯誤;

    ? 緊縮標(biāo)志出現(xiàn)在第四字丁或更靠后位置的音節(jié)視為拼寫錯誤;

    ? 包含五個或更多字丁的音節(jié)視為拼寫錯誤;

    ? 包含在國家標(biāo)準(zhǔn)藏文基本集、擴(kuò)充集A和擴(kuò)充集B以外字丁的音節(jié)視為拼寫錯誤。

    ? 前加字、上加字、基字、下加字、后加字和再后加字之間搭配不符合藏文文法約束關(guān)系的視為拼寫錯誤;

    為確保上述規(guī)則包容梵音轉(zhuǎn)寫和外來詞音譯形成的音節(jié),達(dá)到對真實語料形成完全覆蓋的目的,我們的檢測規(guī)則中充分考慮了梵音轉(zhuǎn)寫和外來詞音譯的情況。由于約束關(guān)系檢測方法不能保證百分之百的正確率,我們對被該規(guī)則判斷為存在拼寫錯誤的情況進(jìn)行了人工確認(rèn)。

    4.2 對拼寫錯誤的統(tǒng)計與分析

    本文所用語料中,共有20 743個藏文音節(jié),總出現(xiàn)頻次89 059 463次,占語料總量的95.475 2%。藏文數(shù)字共出現(xiàn)130 808次,占語料總量的0.140 2%,兩項合計占比95.615 4%,語料中另外4.384 6%是其他文種的字符串,其各自出現(xiàn)頻次和比例如表4所示。

    表4 語料中各種不同成分的頻次和比例

    續(xù)表

    根據(jù)前述規(guī)則,對語料中出現(xiàn)的所有藏文音節(jié)進(jìn)行拼寫檢查,獲得的統(tǒng)計數(shù)據(jù)如表5所示??梢钥闯?,在這些包含拼寫錯誤的音節(jié)中,大部分具有兩個或者兩個以上的表現(xiàn)形式,這主要是由于拼寫錯誤判別規(guī)則之間并不是嚴(yán)格互斥的。從表5中可以看出,在本文所用語料中,緊縮標(biāo)志位置錯誤也同時意味著緊縮標(biāo)志太多和元音太多,而緊縮標(biāo)志太多,大部分情況下也意味著元音太多。在表5的前十行顯示,很多實際上正確的音節(jié),被各種規(guī)則判斷為存在拼寫錯誤,最終是靠人工判斷為正確的,這說明傳統(tǒng)藏文文法并沒有覆蓋實際文本中所有的情況。

    表5 藏文音節(jié)拼寫錯誤情況總表

    續(xù)表

    表6列出了各種不同類型的拼寫錯誤音節(jié)的數(shù)量及其在語料中的比例。在所有的藏文音節(jié)中,拼寫正確的藏文音節(jié)共有11 043個,占53.237 2%,共出現(xiàn)89 032 036次,占99.969 2%。其中,含有前述四個緊縮標(biāo)志的音節(jié)共有1 421個,占6.850 5%,出現(xiàn)總次數(shù)為4 356 795,占4.892 0%。含有拼寫錯誤的藏文音節(jié)共有9 700個,占46.762 8%,在語料中共出現(xiàn)27 427次,占0.030 8%。錯誤形式最多的是約束關(guān)系類錯誤,共有9 365個音節(jié),占比45.147 8%,在語料中出現(xiàn)頻次累計23 726次,占比0.026 6%。其次是元音太多類錯誤,共有5 014個音節(jié),占比24.172 0%,在語料中出現(xiàn)頻次累計11 830次,占比0.013 3%。再次是字丁太多類錯誤,共有2 565個音節(jié),占比12.365 6%,在語料中出現(xiàn)頻次累計4 451次,占比0.005 0%。包含非法字丁的音節(jié)共有1 359個,占比6.551 6%,在語料中共出現(xiàn)7 418次,占比0.008 3%。緊縮標(biāo)志太多的音節(jié)共有21個,占比0.101 2%,出現(xiàn)頻次為57,占比0.000 1%。緊縮標(biāo)志位置錯誤的音節(jié)共有11個,占比0.053 0%,出現(xiàn)頻次為16,占比不足0.000 1%。

    表7和圖1顯示了不同錯誤形式在所有出錯音節(jié)中的比例。

    表6 藏文拼寫錯誤類型及其在語料中的比例

    表7 藏文拼寫錯誤類型及其比重

    續(xù)表

    在所有的出錯音節(jié)中,表現(xiàn)為約束關(guān)系錯誤的音節(jié)數(shù)量占比和頻次占比分別達(dá)到了96.546 4%和86.506 0%,占據(jù)了出錯音節(jié)的絕大部分。部分典型的拼寫錯誤音節(jié)如表8所示。這些錯誤中大部分都是因音節(jié)點或句尾空格缺失導(dǎo)致。

    表8 約束關(guān)系錯誤音節(jié)典型實例

    在所有的出錯音節(jié)中,表現(xiàn)為元音太多的音節(jié)數(shù)量占比和頻次占比分別達(dá)到了51.690 7%和43.132 7%,部分典型的拼寫錯誤音節(jié)如表9所示。

    表9 元音太多的錯誤音節(jié)典型實例

    表現(xiàn)為字丁太多的音節(jié)數(shù)量占比和頻次占比分別達(dá)到了26.443 3%和16.228 5%。部分典型的拼寫錯誤音節(jié)如表10所示。這些錯誤中,幾乎全部是因音節(jié)點和句尾空格缺失導(dǎo)致。

    表10 字丁太多的錯誤音節(jié)典型實例

    表11 含有非法字丁的錯誤音節(jié)典型實例

    續(xù)表

    含有多個緊縮標(biāo)志的音節(jié)數(shù)量占比和頻次占比分別達(dá)到了0.216 5%和0.207 8%。部分典型的拼寫錯誤音節(jié)如表12所示。這部分錯誤基本都是因為音節(jié)點缺失導(dǎo)致。

    表12 含多個緊縮標(biāo)志的錯誤音節(jié)典型實例

    緊縮標(biāo)志出現(xiàn)在第四個字丁或者更靠后位置的錯誤音節(jié)數(shù)量占比和頻次占比分別為0.113 4%和0.058 3%。部分典型的拼寫錯誤音節(jié)如表13所示。這部分錯誤基本都是因為音節(jié)點和句尾空格缺失導(dǎo)致。

    表13 緊縮標(biāo)志位置錯誤的音節(jié)典型實例

    續(xù)表

    綜合上述拼寫錯誤的各種情況,導(dǎo)致拼寫錯誤的原因主要包括四個方面: 一是輸入了多余的元音符號;二是音節(jié)點、單垂符或句尾空格缺失;三是同一字丁/字符存在多種表達(dá)形式;四是使用了錯誤的相似字符。

    5 結(jié)束語

    在本文中,我們從互聯(lián)網(wǎng)獲取了共計19萬藏文網(wǎng)頁,進(jìn)行篇章抽取之后獲得了一份總計427萬句、9 328萬音節(jié)字的藏文文本語料,按照預(yù)定的規(guī)則對其中的拼寫錯誤情況進(jìn)行了統(tǒng)計與分析。數(shù)據(jù)顯示,在所有20 743個藏文音節(jié)中,拼寫正確的藏文音節(jié)共有11 043個,占53.237 2%,在語料中共出現(xiàn)89 032 036次,占99.969 2%。含有拼寫錯誤的藏文音節(jié)共有9 700個,占46.762 8%,在語料中共出現(xiàn)27 427次,占0.030 8%,這說明這份語料的文本質(zhì)量是相當(dāng)高的。導(dǎo)致拼寫錯誤的原因主要包括四個方面: 一是輸入了多余的元音符號;二是音節(jié)點和句尾空格缺失;三是同一字丁/字符存在多種表達(dá)形式;四是使用了錯誤的相似字符。

    [1] 扎西次仁.一個藏文拼寫檢查系統(tǒng)的設(shè)計[C].1998中文信息處理國際會議論文集.1998: 371-376.

    [2] 王維蘭,丁曉青,戴玉剛等.藏文識別后處理研究[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2002,(2): 30-34.DOI: 10.3969/j.issn.1007-2489.2002.02.008.

    [3] 才讓卓瑪.藏文字自動校對系統(tǒng)初探[C].第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集.2005: 292-294.

    [4] 才讓卓瑪,才智杰.藏文文本自動校對系統(tǒng)開發(fā)研究[J].西北民族大學(xué)學(xué)報(自然科學(xué)版),2009,30(1): 25 -28.DOI: 10.3969/j.issn.1009-2102.2009.01.007.

    [5] 劉文香.藏文音節(jié)校對模型建設(shè)研究[J].西北民族大學(xué)學(xué)報(自然科學(xué)版),2009,30(2): 13-16,32. DOI: 10.3969/j.issn.1009-2102.2009.02.004.

    [6] 劉文香.藏文文本詞校對模型研究[J].西藏大學(xué)學(xué)報(自然科學(xué)版),2009,24(2): 70-74.

    [7] 劉文香.現(xiàn)代藏文文本校對設(shè)計方案研究[J].西藏大學(xué)學(xué)報(自然科學(xué)版),2012,(2): 66-69.

    [8] 多杰卓瑪.N元模型在藏文文本局部查錯中的應(yīng)用研究[J].計算機(jī)工程與科學(xué),2009,31(4): 117-119,123. DOI: 10.3969/j.issn.1007-130X.2009.04.035.

    [9] 關(guān)白,洛藏,才科扎西等.現(xiàn)代藏文自動校對現(xiàn)狀分析[J].西藏科技,2011,(8): 78-80.DOI: 10.3969/ j.issn.1004-3403.2011.08.035.

    [10] 關(guān)白.自動校對中現(xiàn)代藏文音節(jié)字研究[J].西藏大學(xué)學(xué)報(自然科學(xué)版),2011,26(1): 69-75.

    [11] 關(guān)白,才科扎西.現(xiàn)代藏文音節(jié)字自動校對研究[J].計算機(jī)工程與應(yīng)用,2012,48(29): 151-156.DOI: 10. 3778/ j.issn.1002-8331.2012.29.031.

    [12] 安見才讓.基于分段的藏字校對算法研究[J].中文信息學(xué)報,2013,27(2): 58-64.DOI: 10.3969/j.issn.10 03-0077.2013.02.009.

    [13] 珠杰,歐珠,格桑多吉等.藏文音節(jié)規(guī)則庫的建立與應(yīng)用分析[J].中文信息學(xué)報,2013,27(2): 103-112.

    [14] 洪錦玲,劉匯丹,吳健.一種在辦公套件中支持藏文拼寫檢查的方法[C].第14屆中國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集,2013: 116-122

    [15] 陳小瑩,艾金勇.藏文音節(jié)拼寫自動校對系統(tǒng)的設(shè)計[J].語文學(xué)刊,2014,(5): 31-32.

    [16] 劉匯丹,芮建武,吳健等.藏文網(wǎng)頁的編碼識別與轉(zhuǎn)換[C].中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議.2006: 573-580.

    [17] 劉匯丹,諾明花,趙維納等.藏文編碼轉(zhuǎn)換軟件“藏碼通” 的設(shè)計與實現(xiàn)[C].第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集.2010: 217-221.

    [18] 劉匯丹,諾明花,高墨赤等.面向新聞廣播網(wǎng)站的藏文文本采集和語料庫構(gòu)建[C].第14屆中國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集,2013: 85-94

    [19] 周季文.藏文拼音教材(拉薩音)[M].北京: 民族出版社,1983.

    [20] 胡書津.簡明藏文文法[M].昆明: 云南民族出版社,2000.

    [21] GB16959-1997 信息技術(shù)-信息交換用藏文編碼字符集——基本集[S]. 中國標(biāo)準(zhǔn)出版社, 1998.

    [22] GB/T 20542-2006 信息技術(shù)-藏文編碼字符集——擴(kuò)充集A [S]. 北京: 中國標(biāo)準(zhǔn)出版社, 2006.

    [23] GB/T 22238-2008 信息技術(shù)-藏文編碼字符集——擴(kuò)充集B [S]. 北京: 中國標(biāo)準(zhǔn)出版社, 2008.

    [24] ISO/IEC 10646: 2012 Information technology - Universal Coded Character Set (UCS) [S]. International Organization for Standardization, 2012.

    [25] The Unicode Standard, Version 6.1 [S]. Mountain View, CA: The Unicode Consortium, ISBN 978-1- 936213-02-3, 2012.

    Statistics and Analysis on Spell Errors of Tibetan SyllablesBased on a Large Scale Web Corpus

    LIU Huidan, HONG Jinling, NUO Minghua, WU Jian

    (Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)

    A large scale Tibetan text corpus is built, which includes 4.27 million sentences in 190 thousand documents, totaling 93 million syllables. Some predefined rules are applied to check whether there are spelling errors, detecting altogether 9 700 misspelt syllable types out of the 20 743 types of Tibetan syllables occurred in the corpus (covering 46.762 8%). But at the token level, the corpus has a very high quality, with only 27 427 misspelt syllables, roughly 0.030 8% of the total 93 million syllable tokens. Further analysis shows that there are mainly four causes leading to those spell errors: extra vowel sign(s); absence of syllable delimiter or sentence delimiter; characters which can be written in different forms; similar characters.

    Tibetan spell check; spell check; corpus; Tibetan information processing; Chinese information processing

    劉匯丹(1982—),博士,副研究員,主要研究領(lǐng)域為操作系統(tǒng)中文信息處理、多語言信息處理。E?mail:huidan@iscas.a(chǎn)c.cn洪錦玲(1981—),碩士,工程師,主要研究領(lǐng)域為多語言信息處理。E?mail:jinling@iscas.a(chǎn)c.cn諾明花(1981—),博士,助理研究員,主要研究領(lǐng)域為多語言信息處理。E?mail:nuominghua@163.com

    2014-04-23 定稿日期: 2014-11-21

    國家自然科學(xué)基金(61202219,61303165);中國科學(xué)院信息化專項(XXH12504-1-10);新聞出版重大科技工程(0610-1041BJNF 2328/23)

    1003-0077(2017)02-0061-10

    TP391

    A

    猜你喜歡
    拼寫錯誤藏文音節(jié)
    西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
    布達(dá)拉(2020年3期)2020-04-13 10:00:07
    拼拼 讀讀 寫寫
    黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
    西夏學(xué)(2019年1期)2019-02-10 06:22:34
    初中生英語詞匯學(xué)習(xí)策略探究
    贏未來(2018年1期)2018-04-20 07:11:36
    從2017年6月四級翻譯閱卷看段落翻譯中的詞匯錯誤類型
    考試周刊(2017年92期)2018-02-03 01:00:32
    藏文音節(jié)字的頻次統(tǒng)計
    現(xiàn)代語境下的藏文報刊
    新聞傳播(2016年17期)2016-07-19 10:12:05
    由wrong錯拼成worry引發(fā)的行動研究
    快樂拼音
    木管樂器“音節(jié)練習(xí)法”初探
    国产熟女午夜一区二区三区 | 亚洲av国产av综合av卡| 久久久亚洲精品成人影院| 久久久久精品久久久久真实原创| 伦理电影免费视频| 五月天丁香电影| 精品亚洲成a人片在线观看| 亚洲国产日韩一区二区| 欧美亚洲 丝袜 人妻 在线| 在线观看三级黄色| 国产片特级美女逼逼视频| 亚洲国产成人一精品久久久| 亚洲久久久国产精品| 汤姆久久久久久久影院中文字幕| 国产欧美另类精品又又久久亚洲欧美| 亚洲精品av麻豆狂野| 久久久精品区二区三区| 久久这里有精品视频免费| 中文字幕人妻丝袜制服| 少妇人妻久久综合中文| 婷婷色综合www| 久久精品国产a三级三级三级| 国产一区二区三区综合在线观看 | av免费在线看不卡| 王馨瑶露胸无遮挡在线观看| 中文字幕人妻熟人妻熟丝袜美| 国产精品一区二区三区四区免费观看| 亚洲熟女精品中文字幕| 99九九线精品视频在线观看视频| 丰满饥渴人妻一区二区三| 久久久精品免费免费高清| 免费观看av网站的网址| 国产男女内射视频| 久久人人爽人人片av| 久久这里有精品视频免费| 亚洲精品aⅴ在线观看| 最近最新中文字幕免费大全7| 日韩成人av中文字幕在线观看| 久久99热6这里只有精品| 99久久精品一区二区三区| 男女免费视频国产| 有码 亚洲区| 日韩亚洲欧美综合| 两个人免费观看高清视频| 男女免费视频国产| av天堂久久9| 最近的中文字幕免费完整| 日日啪夜夜爽| 天天影视国产精品| 天天影视国产精品| 伦理电影免费视频| 国产精品欧美亚洲77777| 国产精品女同一区二区软件| 亚洲情色 制服丝袜| 久久精品久久精品一区二区三区| 日本av手机在线免费观看| 中国国产av一级| 国产精品免费大片| 亚洲欧洲精品一区二区精品久久久 | 人妻 亚洲 视频| 人妻夜夜爽99麻豆av| xxx大片免费视频| 亚洲欧美清纯卡通| 男人添女人高潮全过程视频| 亚洲精品视频女| 亚洲精品国产色婷婷电影| 九色亚洲精品在线播放| 国产在线视频一区二区| 成人国产麻豆网| 国产精品久久久久久av不卡| 日本91视频免费播放| 国产熟女欧美一区二区| 日韩av免费高清视频| 国产亚洲精品久久久com| 国产色爽女视频免费观看| 一级毛片黄色毛片免费观看视频| 精品久久久久久久久av| 97精品久久久久久久久久精品| 国产淫语在线视频| 一区二区三区精品91| 亚洲国产精品一区三区| 久久久久久人妻| 久久久国产精品麻豆| 草草在线视频免费看| 亚洲婷婷狠狠爱综合网| 欧美一级a爱片免费观看看| 亚洲av日韩在线播放| 国产成人精品婷婷| 丰满饥渴人妻一区二区三| 伊人久久精品亚洲午夜| av免费在线看不卡| 国产精品嫩草影院av在线观看| 国产免费又黄又爽又色| 日本与韩国留学比较| 天堂8中文在线网| 韩国高清视频一区二区三区| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | h视频一区二区三区| 亚洲av国产av综合av卡| 午夜福利视频精品| 精品一区二区三卡| 最新的欧美精品一区二区| 欧美性感艳星| 91成人精品电影| 永久网站在线| 丰满乱子伦码专区| 99热这里只有精品一区| 国产成人精品久久久久久| 少妇的逼好多水| 国产视频首页在线观看| 久久人人爽人人片av| 伊人久久精品亚洲午夜| 一本—道久久a久久精品蜜桃钙片| 老司机亚洲免费影院| 日本欧美视频一区| 欧美日韩成人在线一区二区| 丝袜美足系列| 一级爰片在线观看| 久久久午夜欧美精品| 美女xxoo啪啪120秒动态图| 成人二区视频| 五月开心婷婷网| 一级毛片 在线播放| 国产片特级美女逼逼视频| 在线播放无遮挡| 久久热精品热| 欧美日韩在线观看h| 亚洲av综合色区一区| 亚洲不卡免费看| 九九爱精品视频在线观看| 女的被弄到高潮叫床怎么办| 亚洲国产欧美日韩在线播放| 91成人精品电影| 精品酒店卫生间| 亚洲精品亚洲一区二区| 日韩制服骚丝袜av| 欧美日韩视频高清一区二区三区二| 一区二区三区免费毛片| 国产精品久久久久成人av| 亚洲精品国产av蜜桃| 久久久欧美国产精品| 色94色欧美一区二区| 亚洲美女黄色视频免费看| 亚洲综合色网址| 久久精品夜色国产| 国产白丝娇喘喷水9色精品| 极品人妻少妇av视频| 国内精品宾馆在线| 日韩,欧美,国产一区二区三区| 日韩制服骚丝袜av| 一边摸一边做爽爽视频免费| 免费高清在线观看日韩| 亚洲国产精品一区三区| 一个人免费看片子| 男人操女人黄网站| 国产在视频线精品| 午夜免费观看性视频| 国产精品成人在线| 国产精品嫩草影院av在线观看| 免费看不卡的av| 最黄视频免费看| 人妻人人澡人人爽人人| 国产探花极品一区二区| 一级片'在线观看视频| 国产精品国产三级国产专区5o| 精品酒店卫生间| 欧美精品国产亚洲| 亚洲美女搞黄在线观看| 男女边摸边吃奶| 黄色毛片三级朝国网站| 赤兔流量卡办理| 国产熟女午夜一区二区三区 | 精品酒店卫生间| 最新中文字幕久久久久| av在线播放精品| freevideosex欧美| 亚洲欧美一区二区三区黑人 | 国产亚洲精品久久久com| 久久午夜福利片| 妹子高潮喷水视频| 秋霞伦理黄片| 九九在线视频观看精品| 观看av在线不卡| 亚洲精品久久午夜乱码| 三级国产精品片| 秋霞伦理黄片| 蜜臀久久99精品久久宅男| 久久人人爽人人爽人人片va| 午夜激情av网站| 少妇被粗大的猛进出69影院 | 亚洲国产欧美在线一区| 九九爱精品视频在线观看| 欧美精品一区二区大全| 91精品国产国语对白视频| 免费少妇av软件| 如日韩欧美国产精品一区二区三区 | 美女视频免费永久观看网站| 欧美精品人与动牲交sv欧美| 王馨瑶露胸无遮挡在线观看| 18+在线观看网站| 日韩不卡一区二区三区视频在线| 韩国高清视频一区二区三区| 在线看a的网站| 国产黄片视频在线免费观看| 精品一品国产午夜福利视频| 精品一区二区免费观看| 亚洲精品456在线播放app| 亚洲人成77777在线视频| 午夜久久久在线观看| 飞空精品影院首页| 蜜臀久久99精品久久宅男| 人妻人人澡人人爽人人| 黄色一级大片看看| av一本久久久久| 亚洲精品乱码久久久v下载方式| 天天躁夜夜躁狠狠久久av| 亚洲欧美日韩卡通动漫| 久久久欧美国产精品| 日本vs欧美在线观看视频| 国产成人aa在线观看| 黄色一级大片看看| 成人影院久久| 日韩视频在线欧美| 国产成人免费观看mmmm| 久热久热在线精品观看| 高清黄色对白视频在线免费看| 91在线精品国自产拍蜜月| 一级爰片在线观看| 日韩制服骚丝袜av| 国产视频内射| 我的老师免费观看完整版| 日本爱情动作片www.在线观看| 国产免费又黄又爽又色| 久久久久久伊人网av| 热re99久久精品国产66热6| 在线天堂最新版资源| 成人影院久久| 99久久精品一区二区三区| 国产一区二区在线观看av| 亚洲精品第二区| 国产高清不卡午夜福利| 欧美性感艳星| 中文字幕久久专区| 美女国产视频在线观看| a级毛色黄片| 成年美女黄网站色视频大全免费 | 国产av码专区亚洲av| 观看美女的网站| 久久婷婷青草| 18禁裸乳无遮挡动漫免费视频| 91精品国产九色| 午夜福利网站1000一区二区三区| 欧美日韩国产mv在线观看视频| 亚洲欧美成人精品一区二区| 精品午夜福利在线看| 飞空精品影院首页| 国产精品成人在线| 一边摸一边做爽爽视频免费| 久久免费观看电影| 久久久久网色| 国产免费福利视频在线观看| 最后的刺客免费高清国语| 91精品三级在线观看| 有码 亚洲区| videos熟女内射| 欧美日韩在线观看h| 国产精品一区www在线观看| 最近中文字幕2019免费版| 黄片播放在线免费| 国产又色又爽无遮挡免| 国产精品欧美亚洲77777| 精品亚洲成国产av| 国产精品秋霞免费鲁丝片| 妹子高潮喷水视频| 亚洲精品,欧美精品| 一本一本综合久久| 中文字幕人妻丝袜制服| 一本久久精品| 色94色欧美一区二区| 天堂8中文在线网| 国产av一区二区精品久久| 亚洲av.av天堂| 中文字幕亚洲精品专区| 国产精品无大码| 99久久综合免费| 成年人午夜在线观看视频| 国产亚洲最大av| 精品一区二区三区视频在线| 午夜影院在线不卡| 最近中文字幕2019免费版| 成人国语在线视频| 日韩强制内射视频| 91久久精品国产一区二区三区| 国产精品一区二区在线不卡| 国产精品99久久99久久久不卡 | 亚洲av在线观看美女高潮| 精品人妻偷拍中文字幕| xxxhd国产人妻xxx| 亚洲第一av免费看| 又大又黄又爽视频免费| 精品一区二区三区视频在线| 少妇高潮的动态图| 日韩伦理黄色片| 成人影院久久| 亚洲国产精品成人久久小说| 久久久久国产网址| 夫妻午夜视频| 日本黄色片子视频| 精品国产露脸久久av麻豆| 多毛熟女@视频| 少妇 在线观看| 成人午夜精彩视频在线观看| 永久免费av网站大全| 精品久久蜜臀av无| 黄色视频在线播放观看不卡| 亚洲精品一二三| www.色视频.com| 亚洲精品国产av成人精品| 大又大粗又爽又黄少妇毛片口| 制服诱惑二区| 午夜福利视频精品| 天堂中文最新版在线下载| 亚洲精品亚洲一区二区| 日本-黄色视频高清免费观看| 精品一区二区免费观看| 国产成人精品一,二区| 国产高清国产精品国产三级| 99热全是精品| 欧美日本中文国产一区发布| 激情五月婷婷亚洲| 乱码一卡2卡4卡精品| 一级毛片黄色毛片免费观看视频| 精品一区在线观看国产| 五月天丁香电影| 大香蕉久久网| 亚洲熟女精品中文字幕| 国产 精品1| 九九在线视频观看精品| 亚洲,一卡二卡三卡| 国产av一区二区精品久久| 亚洲av.av天堂| 国产一级毛片在线| 国产精品久久久久久久电影| 国产视频首页在线观看| 亚洲精品乱码久久久v下载方式| 大香蕉久久成人网| 欧美日韩av久久| 在线播放无遮挡| 亚洲精品色激情综合| 国产一级毛片在线| 亚洲精品第二区| 青春草视频在线免费观看| av网站免费在线观看视频| 国产片内射在线| 哪个播放器可以免费观看大片| 嫩草影院入口| 午夜视频国产福利| 欧美日韩精品成人综合77777| 插阴视频在线观看视频| 少妇精品久久久久久久| 22中文网久久字幕| 亚洲情色 制服丝袜| av在线app专区| 久久免费观看电影| 亚洲综合精品二区| 亚洲av二区三区四区| 久久99热这里只频精品6学生| 久久这里有精品视频免费| 亚洲精品乱久久久久久| 蜜桃久久精品国产亚洲av| 亚洲一区二区三区欧美精品| 亚洲精品久久午夜乱码| 久久久精品免费免费高清| 日韩伦理黄色片| 国产精品一区www在线观看| 国产男女超爽视频在线观看| 校园人妻丝袜中文字幕| 免费人成在线观看视频色| 少妇人妻久久综合中文| 久热久热在线精品观看| 2022亚洲国产成人精品| 大香蕉97超碰在线| 国产在线视频一区二区| 国产精品免费大片| 久久久久久久久久久丰满| 亚洲精品亚洲一区二区| 亚洲高清免费不卡视频| 久热这里只有精品99| 亚洲国产av影院在线观看| 国产成人aa在线观看| videosex国产| 夫妻午夜视频| av线在线观看网站| 满18在线观看网站| 美女xxoo啪啪120秒动态图| 久久国产精品男人的天堂亚洲 | 在线看a的网站| 18禁在线无遮挡免费观看视频| 精品人妻在线不人妻| 亚洲美女视频黄频| 欧美精品亚洲一区二区| 国产一区二区三区综合在线观看 | 中文精品一卡2卡3卡4更新| 香蕉精品网在线| 国产免费福利视频在线观看| 久久精品久久精品一区二区三区| 成人综合一区亚洲| 国产精品偷伦视频观看了| 日韩免费高清中文字幕av| 亚洲,欧美,日韩| 国产男人的电影天堂91| 飞空精品影院首页| 伊人亚洲综合成人网| 国产成人a∨麻豆精品| 久久这里有精品视频免费| 日韩制服骚丝袜av| 久久精品久久久久久久性| 国产成人精品久久久久久| 国产高清有码在线观看视频| 一级毛片aaaaaa免费看小| 亚洲美女视频黄频| 免费黄色在线免费观看| 高清视频免费观看一区二区| av又黄又爽大尺度在线免费看| 欧美精品亚洲一区二区| 亚洲人成77777在线视频| 色哟哟·www| 精品亚洲乱码少妇综合久久| 两个人的视频大全免费| 国产成人av激情在线播放 | 日韩成人伦理影院| 777米奇影视久久| 999精品在线视频| 欧美三级亚洲精品| 亚洲,一卡二卡三卡| 久久久欧美国产精品| 少妇丰满av| 人妻少妇偷人精品九色| 亚洲在久久综合| 免费不卡的大黄色大毛片视频在线观看| 婷婷色av中文字幕| 大陆偷拍与自拍| 狂野欧美激情性xxxx在线观看| 国产乱人偷精品视频| 婷婷色麻豆天堂久久| 九色亚洲精品在线播放| 亚洲欧美精品自产自拍| 99久久中文字幕三级久久日本| 亚洲精品日本国产第一区| 不卡视频在线观看欧美| 成人漫画全彩无遮挡| 欧美老熟妇乱子伦牲交| 97超视频在线观看视频| 精品人妻一区二区三区麻豆| 欧美bdsm另类| 如何舔出高潮| 久久精品国产自在天天线| 美女视频免费永久观看网站| av在线观看视频网站免费| 亚洲五月色婷婷综合| 亚洲av欧美aⅴ国产| 亚洲四区av| 欧美三级亚洲精品| 国产在视频线精品| 国产高清不卡午夜福利| 国产精品久久久久久av不卡| 大香蕉久久网| 嫩草影院入口| 免费av不卡在线播放| 精品国产国语对白av| 亚洲成色77777| 午夜老司机福利剧场| 国产有黄有色有爽视频| 丰满少妇做爰视频| 日本-黄色视频高清免费观看| 2021少妇久久久久久久久久久| 全区人妻精品视频| av国产精品久久久久影院| 久久av网站| 久久综合国产亚洲精品| 中国美白少妇内射xxxbb| 国产高清国产精品国产三级| 日韩一区二区视频免费看| 啦啦啦在线观看免费高清www| 日本91视频免费播放| 亚洲av成人精品一二三区| 另类精品久久| 国产极品天堂在线| 亚洲,欧美,日韩| 亚洲精品日韩在线中文字幕| 在线观看免费高清a一片| 欧美日本中文国产一区发布| 国产精品女同一区二区软件| 在线播放无遮挡| 亚洲欧洲精品一区二区精品久久久 | 激情五月婷婷亚洲| 国产日韩欧美亚洲二区| 七月丁香在线播放| 老熟女久久久| 久久精品久久久久久噜噜老黄| 亚洲国产欧美日韩在线播放| 亚洲av欧美aⅴ国产| 国产精品99久久99久久久不卡 | 国产精品秋霞免费鲁丝片| 中文字幕制服av| 亚洲精品日韩在线中文字幕| 亚洲欧美中文字幕日韩二区| 日本黄色日本黄色录像| 丰满乱子伦码专区| 精品视频人人做人人爽| 亚洲综合色网址| 日本欧美视频一区| 国产国拍精品亚洲av在线观看| 老女人水多毛片| www.色视频.com| 久久久久久人妻| 3wmmmm亚洲av在线观看| 国产精品国产三级国产专区5o| 男女免费视频国产| 午夜老司机福利剧场| 国产在线免费精品| 精品卡一卡二卡四卡免费| 成人亚洲精品一区在线观看| 一区二区三区乱码不卡18| 成年美女黄网站色视频大全免费 | 国产熟女欧美一区二区| 欧美 亚洲 国产 日韩一| 久久女婷五月综合色啪小说| 99久久综合免费| 五月开心婷婷网| 久久久久久久精品精品| 熟女av电影| 在线观看国产h片| 91精品一卡2卡3卡4卡| 国产精品免费大片| 国产精品麻豆人妻色哟哟久久| 亚洲激情五月婷婷啪啪| 国产老妇伦熟女老妇高清| 女人久久www免费人成看片| 黑人欧美特级aaaaaa片| 亚洲丝袜综合中文字幕| 2018国产大陆天天弄谢| 97在线人人人人妻| 我的女老师完整版在线观看| 久久久国产欧美日韩av| 国产欧美日韩综合在线一区二区| 国产精品蜜桃在线观看| 制服诱惑二区| 韩国av在线不卡| 亚洲精品视频女| 51国产日韩欧美| 免费观看在线日韩| 一本大道久久a久久精品| 国产精品久久久久久久电影| 春色校园在线视频观看| 欧美日本中文国产一区发布| 天美传媒精品一区二区| kizo精华| av天堂久久9| 日韩在线高清观看一区二区三区| 久久久国产一区二区| 久久久国产欧美日韩av| 国产一区二区在线观看av| 亚洲精品中文字幕在线视频| 中文欧美无线码| 久久人人爽人人片av| 欧美日韩一区二区视频在线观看视频在线| 亚洲国产最新在线播放| 天堂中文最新版在线下载| 丝袜美足系列| 国产精品一区二区三区四区免费观看| 99九九线精品视频在线观看视频| 99久久精品一区二区三区| 国产成人精品婷婷| 欧美一级a爱片免费观看看| 国产精品人妻久久久影院| 中文字幕免费在线视频6| 亚洲天堂av无毛| 另类精品久久| 26uuu在线亚洲综合色| 久久久a久久爽久久v久久| 亚州av有码| 欧美一级a爱片免费观看看| 五月玫瑰六月丁香| av专区在线播放| 免费av中文字幕在线| 亚洲精品久久成人aⅴ小说 | 男女国产视频网站| 国产不卡av网站在线观看| 亚洲精品久久午夜乱码| 伦理电影大哥的女人| 成人无遮挡网站| 国产成人精品在线电影| 亚洲国产最新在线播放| 在线天堂最新版资源| 大香蕉97超碰在线| 国产成人精品无人区| 亚洲欧美一区二区三区国产| 亚洲激情五月婷婷啪啪| 久久人人爽人人片av| 日本与韩国留学比较| 国产精品久久久久久久久免| 69精品国产乱码久久久| 嘟嘟电影网在线观看| av福利片在线| 国产一级毛片在线| 搡女人真爽免费视频火全软件| 精品人妻一区二区三区麻豆| 啦啦啦在线观看免费高清www| 少妇的逼水好多| 校园人妻丝袜中文字幕| 成人免费观看视频高清| 精品久久久精品久久久| 男女免费视频国产| 久久人人爽人人片av|