• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于大規(guī)模網(wǎng)絡(luò)語料的藏文音節(jié)拼寫錯誤統(tǒng)計與分析

    2017-06-01 11:29:47劉匯丹洪錦玲諾明花
    中文信息學(xué)報 2017年2期
    關(guān)鍵詞:拼寫錯誤藏文音節(jié)

    劉匯丹,洪錦玲,諾明花,吳 健

    (中國科學(xué)院 軟件研究所,北京100190)

    基于大規(guī)模網(wǎng)絡(luò)語料的藏文音節(jié)拼寫錯誤統(tǒng)計與分析

    劉匯丹,洪錦玲,諾明花,吳 健

    (中國科學(xué)院 軟件研究所,北京100190)

    針對從互聯(lián)網(wǎng)獲取的一份包含19萬藏文網(wǎng)頁,總計427萬句、9 328萬音節(jié)字的藏文文本語料,該文按照預(yù)定的規(guī)則對其中的藏文音節(jié)拼寫錯誤情況進(jìn)行了統(tǒng)計與分析。數(shù)據(jù)顯示,在語料中出現(xiàn)的共計20 743個藏文音節(jié)中,含有拼寫錯誤的音節(jié)共有9 700個,占藏文音節(jié)總數(shù)的46.762 8%,錯誤音節(jié)在語料中共出現(xiàn)27 427次,僅占0.030 8%,說明這份語料的文本質(zhì)量是相當(dāng)高的。文中還詳細(xì)統(tǒng)計了各種不同表現(xiàn)形式的錯誤音節(jié)所占比重,并分析了導(dǎo)致拼寫錯誤的四個主要原因: 一是輸入了多余的元音符號;二是音節(jié)點或句尾空格缺失;三是同一字丁/字符存在多種表達(dá)形式;四是錯誤地使用了相似字符。

    藏文拼寫檢查;拼寫檢查;語料;統(tǒng)計;藏文信息處理;中文信息處理

    1 引言

    文本校對是自然語言處理的主要應(yīng)用領(lǐng)域之一,近些年來,已有學(xué)者在藏文文本校對或拼寫檢查方面做了一些研究,這些研究大多針對實現(xiàn)藏文文本校對工具,以及為實現(xiàn)校對工具而構(gòu)建的藏文音節(jié)規(guī)則相關(guān)知識庫等方面。針對真實文本語料庫的藏文拼寫錯誤情況的統(tǒng)計分析工作鮮有報道。本文將通過對大規(guī)模網(wǎng)絡(luò)藏文文本語料庫中拼寫錯誤情況進(jìn)行統(tǒng)計分析,一方面考察真實文本中藏文拼寫錯誤的嚴(yán)重程度,為藏文文本校對的研究提供依據(jù);另一方面考察網(wǎng)絡(luò)語料的質(zhì)量,判斷將網(wǎng)絡(luò)藏文文本作為構(gòu)建高質(zhì)量藏文文本語料庫的可靠性。

    本文接下來的部分首先介紹相關(guān)領(lǐng)域研究現(xiàn)狀,其次介紹大規(guī)模網(wǎng)絡(luò)藏文文本獲取的方法及利用這種方法獲取的語料情況,然后對這份語料中藏文音節(jié)的拼寫錯誤情況進(jìn)行統(tǒng)計與分析,最后對全文進(jìn)行總結(jié)。

    2 研究現(xiàn)狀

    有關(guān)藏文文本校對方面的研究可追溯到20世紀(jì)。1998年,扎西次仁歸納總結(jié)了藏文的拼寫規(guī)則和虛詞使用法則,根據(jù)藏文的拼寫規(guī)則、虛詞使用法則、音節(jié)庫和詞表,設(shè)計并開發(fā)了一個藏文拼寫檢查系統(tǒng),并分析了由實詞虛詞兼類、詞語組合型切分歧義等導(dǎo)致的難點問題[1]。之后,王維蘭等將藏文自動校對應(yīng)用于藏文文字識別,對單字進(jìn)行校正[2]。才讓卓瑪提出了利用詞語搭配關(guān)系表、語法規(guī)則庫進(jìn)行校對的方法[3],并對藏文語序錯誤、標(biāo)點使用錯誤、詞語搭配錯誤等情況進(jìn)行了舉例分析[4]。劉文香也對藏語音節(jié)的搭配規(guī)則等做了研究,創(chuàng)建了音節(jié)搭配規(guī)則知識庫,探索了音節(jié)查錯校對的原理、關(guān)鍵技術(shù)及可行的實現(xiàn)方法[5]。隨后提出了一種將分詞詞表模式匹配、二元詞詞鄰接矩陣和詞間音勢約束模型三種方法相結(jié)合的藏文詞校對模型[6],并在Windows 8操作系統(tǒng)平臺上實現(xiàn)了基于音節(jié)的現(xiàn)代藏文文本校對的試驗系統(tǒng)[7]。多杰卓瑪對藏文文本中的錯誤情況進(jìn)行了分析,將藏文文本的錯誤形式歸納為音節(jié)錯誤、缺字和加字的錯誤、輸入錯誤、人名錯誤、地名錯誤、江河名錯誤、知識性錯誤等類別,并提出了利用以字丁為單位的N元文法模型判斷藏文音節(jié)是否錯誤的方法[8]。關(guān)白回顧了現(xiàn)代藏文自動校對的研究現(xiàn)狀[9],分析了藏文音節(jié)字中的錯誤類型,并針對藏文音節(jié)字的特點,通過音節(jié)字預(yù)處理、字表匹配、混淆集匹配、二元接續(xù)關(guān)系、最小編輯距離法等方法對現(xiàn)代藏文音節(jié)字的自動校對進(jìn)行了詳細(xì)論述[10-11]。安見才讓提出了一種根據(jù)構(gòu)字規(guī)則進(jìn)行藏字校對的方法,實驗表明,在一段約130個字符的文本中,系統(tǒng)成功檢測出了其中的六處錯誤[12]。珠杰等人構(gòu)建了現(xiàn)代藏文音節(jié)規(guī)則庫,并分析了其在拼寫檢查等方面的應(yīng)用[13],在對實際文本的測試中發(fā)現(xiàn)該模型還需要增加對藏文數(shù)字、符號、特殊音節(jié)、梵音轉(zhuǎn)寫音節(jié)的特殊處理。洪錦玲等人綜合藏文分詞、音節(jié)拼寫、格助詞規(guī)則等多種藏文特性,提出了一種藏文詞語拼寫檢查的方法,并提出了根據(jù)錯誤詞語與詞庫詞語的編輯距離給出糾錯建議的方法,并將該方法在開源辦公套件LibreOffice 中進(jìn)行了實現(xiàn)[14]。陳小瑩等人設(shè)計實現(xiàn)了一個包括藏文文本規(guī)范化處理模塊、音節(jié)切分模塊、黏著語的分離與還原模塊和音節(jié)校對模塊四個模塊的藏文音節(jié)拼寫自動校對系統(tǒng)[15]。

    上述研究大多針對實現(xiàn)藏文文本校對工具及藏文音節(jié)規(guī)則等相關(guān)知識庫的構(gòu)建方面,只有多杰卓瑪、關(guān)白等對藏文拼寫錯誤情況進(jìn)行了歸納,但也僅限于對個別情況的舉例說明。針對真實文本語料庫的藏文拼寫錯誤情況的統(tǒng)計分析工作還未見有報道。本文將通過對大規(guī)模網(wǎng)絡(luò)藏文文本語料庫中拼寫錯誤情況進(jìn)行統(tǒng)計分析,一方面考察真實文本中藏文拼寫錯誤的嚴(yán)重程度,為藏文文本校對的研究提供依據(jù);另一方面考察網(wǎng)絡(luò)語料的質(zhì)量,確定將網(wǎng)絡(luò)藏文文本作為構(gòu)建高質(zhì)量藏文文本語料庫的可靠性。

    3 語料獲取與處理

    本節(jié)介紹大規(guī)模藏文網(wǎng)絡(luò)文本的獲取、音節(jié)切分方法和音節(jié)拼寫錯誤的判別依據(jù)等方面的內(nèi)容。

    3.1 語料來源

    根據(jù)我們之前對互聯(lián)網(wǎng)藏文文本資源分布情況的考察,我們選擇了八個新聞廣播類的藏文網(wǎng)站作為文本語料的來源,這八個網(wǎng)站的基本信息如表 1所示。八個網(wǎng)站中,中國西藏新聞網(wǎng)和新華網(wǎng)西藏頻道藏文版使用國家標(biāo)準(zhǔn)藏文編碼字符集擴(kuò)充集,人民網(wǎng)藏文版使用同元編碼,這三個網(wǎng)站的藏文文本需要做編碼轉(zhuǎn)換。其它五個網(wǎng)站均使用國際標(biāo)準(zhǔn)Unicode藏文基本集(小字符集)方案。在進(jìn)行后續(xù)處理之前,我們將獲取的語料統(tǒng)一轉(zhuǎn)換為國家標(biāo)準(zhǔn)藏文編碼字符集基本集形式(關(guān)于藏文編碼轉(zhuǎn)換技術(shù)請參考文獻(xiàn)[16-17])。編碼轉(zhuǎn)換過程使用了與“藏碼通”相同的編碼對照表和轉(zhuǎn)換算法[17]?!安卮a通”軟件在民族出版社、中國社科院民族所、西藏大學(xué)、西藏編譯局等單位使用近十年,并根據(jù)用戶反饋情況對編碼對照表進(jìn)行了反復(fù)修改,因此,轉(zhuǎn)換正確率是可以保證的。同時,我們對語料來源所屬的網(wǎng)站頻道進(jìn)行了限制,并通過網(wǎng)頁文種識別限定只取藏文網(wǎng)頁,并只抽取其中的標(biāo)題、正文等關(guān)鍵信息。以上可以最大限度地避免語料因編碼轉(zhuǎn)換導(dǎo)致的問題。

    表1 八個新聞廣播類藏文網(wǎng)站的基本信息

    續(xù)表

    3.2 語料獲取方法

    在本文中,我們采用基于正則表達(dá)式的方法從藏文網(wǎng)頁中抽取文章主題相關(guān)的信息。我們通過分析各個網(wǎng)站的頁面布局結(jié)構(gòu)來抽取網(wǎng)頁模板,根據(jù)之前相關(guān)的研究,分析藏文網(wǎng)頁的板式結(jié)構(gòu),可以發(fā)現(xiàn)文章標(biāo)題、作者、發(fā)布時間、文章正文等信息塊與其他信息塊之間的分隔標(biāo)志,甚至可以利用HTML源文件中的一些注釋信息進(jìn)行抽取[18]。可以據(jù)此構(gòu)造模板提取藏文篇章文本,舉例如下:

    ? 中國西藏新聞網(wǎng)的頁面模板為:

    .*【文章正文】.*

    ? 中國西藏網(wǎng)的頁面模板為:

    3.3 音節(jié)切分方法

    對藏文文本進(jìn)行音節(jié)切分主要依據(jù)以下切分規(guī)則。

    ? 音節(jié)點作為音節(jié)分隔標(biāo)記,切分之后附著在左邊(前邊)音節(jié)的結(jié)尾;

    ? 藏文數(shù)字和阿拉伯?dāng)?shù)字視為音節(jié)分隔標(biāo)記,切分之后分別視同藏文音節(jié)參與數(shù)據(jù)統(tǒng)計;

    ? 藏文標(biāo)點符號、英文標(biāo)點符號和漢語標(biāo)點符號視為音節(jié)分隔標(biāo)記,切分之后分別視同藏文音節(jié)參與數(shù)據(jù)統(tǒng)計;

    ? 連續(xù)的英文字母視為音節(jié)分隔標(biāo)記,切分之后視同藏文音節(jié)參與數(shù)據(jù)統(tǒng)計;

    ? 連續(xù)的漢字視為音節(jié)分隔標(biāo)記,切分之后視同藏文音節(jié)參與數(shù)據(jù)統(tǒng)計。

    根據(jù)以上規(guī)則對獲取到的網(wǎng)絡(luò)藏文文本進(jìn)行切分之后,可以統(tǒng)計各個藏文音節(jié)出現(xiàn)的頻次。在上述語料中,出現(xiàn)頻率最高的部分藏文音節(jié)如表2所示。

    表2 網(wǎng)絡(luò)語料中的藏文高頻音節(jié)表

    3.4 語料規(guī)模

    使用上述方法獲取網(wǎng)絡(luò)藏文文本語料,并進(jìn)行音節(jié)切分,統(tǒng)計數(shù)據(jù)顯示,共計19萬藏文網(wǎng)頁,語料總計427萬句、9 328萬音節(jié)字(含藏文數(shù)字、漢字、英文字母、各種標(biāo)點符號等)。詳細(xì)的統(tǒng)計數(shù)字見表3。

    表3 獲取的網(wǎng)絡(luò)藏文文本語料的規(guī)模

    4 拼寫錯誤的統(tǒng)計與分析

    4.1 藏文音節(jié)拼寫錯誤的判別依據(jù)

    在藏文音節(jié)拼寫檢查的研究中,大家常用的方法是根據(jù)藏文文法中基字、前加字、上加字、下加字、元音、后加字和再后加字之間的約束關(guān)系構(gòu)造藏文音節(jié)規(guī)則庫來判斷音節(jié)的合法性,然而,由于梵音轉(zhuǎn)寫和外來詞音譯的存在,采用這種方法構(gòu)建的規(guī)則庫總是不能完全覆蓋真實文本中所有的情況。因此,在本文中,我們根據(jù)傳統(tǒng)藏文文法構(gòu)造一些規(guī)則來判別音節(jié)是否存在拼寫錯誤,這些規(guī)則主要包括:

    ? 包含多個緊縮標(biāo)志的音節(jié)視為拼寫錯誤;

    ? 緊縮標(biāo)志出現(xiàn)在第四字丁或更靠后位置的音節(jié)視為拼寫錯誤;

    ? 包含五個或更多字丁的音節(jié)視為拼寫錯誤;

    ? 包含在國家標(biāo)準(zhǔn)藏文基本集、擴(kuò)充集A和擴(kuò)充集B以外字丁的音節(jié)視為拼寫錯誤。

    ? 前加字、上加字、基字、下加字、后加字和再后加字之間搭配不符合藏文文法約束關(guān)系的視為拼寫錯誤;

    為確保上述規(guī)則包容梵音轉(zhuǎn)寫和外來詞音譯形成的音節(jié),達(dá)到對真實語料形成完全覆蓋的目的,我們的檢測規(guī)則中充分考慮了梵音轉(zhuǎn)寫和外來詞音譯的情況。由于約束關(guān)系檢測方法不能保證百分之百的正確率,我們對被該規(guī)則判斷為存在拼寫錯誤的情況進(jìn)行了人工確認(rèn)。

    4.2 對拼寫錯誤的統(tǒng)計與分析

    本文所用語料中,共有20 743個藏文音節(jié),總出現(xiàn)頻次89 059 463次,占語料總量的95.475 2%。藏文數(shù)字共出現(xiàn)130 808次,占語料總量的0.140 2%,兩項合計占比95.615 4%,語料中另外4.384 6%是其他文種的字符串,其各自出現(xiàn)頻次和比例如表4所示。

    表4 語料中各種不同成分的頻次和比例

    續(xù)表

    根據(jù)前述規(guī)則,對語料中出現(xiàn)的所有藏文音節(jié)進(jìn)行拼寫檢查,獲得的統(tǒng)計數(shù)據(jù)如表5所示??梢钥闯?,在這些包含拼寫錯誤的音節(jié)中,大部分具有兩個或者兩個以上的表現(xiàn)形式,這主要是由于拼寫錯誤判別規(guī)則之間并不是嚴(yán)格互斥的。從表5中可以看出,在本文所用語料中,緊縮標(biāo)志位置錯誤也同時意味著緊縮標(biāo)志太多和元音太多,而緊縮標(biāo)志太多,大部分情況下也意味著元音太多。在表5的前十行顯示,很多實際上正確的音節(jié),被各種規(guī)則判斷為存在拼寫錯誤,最終是靠人工判斷為正確的,這說明傳統(tǒng)藏文文法并沒有覆蓋實際文本中所有的情況。

    表5 藏文音節(jié)拼寫錯誤情況總表

    續(xù)表

    表6列出了各種不同類型的拼寫錯誤音節(jié)的數(shù)量及其在語料中的比例。在所有的藏文音節(jié)中,拼寫正確的藏文音節(jié)共有11 043個,占53.237 2%,共出現(xiàn)89 032 036次,占99.969 2%。其中,含有前述四個緊縮標(biāo)志的音節(jié)共有1 421個,占6.850 5%,出現(xiàn)總次數(shù)為4 356 795,占4.892 0%。含有拼寫錯誤的藏文音節(jié)共有9 700個,占46.762 8%,在語料中共出現(xiàn)27 427次,占0.030 8%。錯誤形式最多的是約束關(guān)系類錯誤,共有9 365個音節(jié),占比45.147 8%,在語料中出現(xiàn)頻次累計23 726次,占比0.026 6%。其次是元音太多類錯誤,共有5 014個音節(jié),占比24.172 0%,在語料中出現(xiàn)頻次累計11 830次,占比0.013 3%。再次是字丁太多類錯誤,共有2 565個音節(jié),占比12.365 6%,在語料中出現(xiàn)頻次累計4 451次,占比0.005 0%。包含非法字丁的音節(jié)共有1 359個,占比6.551 6%,在語料中共出現(xiàn)7 418次,占比0.008 3%。緊縮標(biāo)志太多的音節(jié)共有21個,占比0.101 2%,出現(xiàn)頻次為57,占比0.000 1%。緊縮標(biāo)志位置錯誤的音節(jié)共有11個,占比0.053 0%,出現(xiàn)頻次為16,占比不足0.000 1%。

    表7和圖1顯示了不同錯誤形式在所有出錯音節(jié)中的比例。

    表6 藏文拼寫錯誤類型及其在語料中的比例

    表7 藏文拼寫錯誤類型及其比重

    續(xù)表

    在所有的出錯音節(jié)中,表現(xiàn)為約束關(guān)系錯誤的音節(jié)數(shù)量占比和頻次占比分別達(dá)到了96.546 4%和86.506 0%,占據(jù)了出錯音節(jié)的絕大部分。部分典型的拼寫錯誤音節(jié)如表8所示。這些錯誤中大部分都是因音節(jié)點或句尾空格缺失導(dǎo)致。

    表8 約束關(guān)系錯誤音節(jié)典型實例

    在所有的出錯音節(jié)中,表現(xiàn)為元音太多的音節(jié)數(shù)量占比和頻次占比分別達(dá)到了51.690 7%和43.132 7%,部分典型的拼寫錯誤音節(jié)如表9所示。

    表9 元音太多的錯誤音節(jié)典型實例

    表現(xiàn)為字丁太多的音節(jié)數(shù)量占比和頻次占比分別達(dá)到了26.443 3%和16.228 5%。部分典型的拼寫錯誤音節(jié)如表10所示。這些錯誤中,幾乎全部是因音節(jié)點和句尾空格缺失導(dǎo)致。

    表10 字丁太多的錯誤音節(jié)典型實例

    表11 含有非法字丁的錯誤音節(jié)典型實例

    續(xù)表

    含有多個緊縮標(biāo)志的音節(jié)數(shù)量占比和頻次占比分別達(dá)到了0.216 5%和0.207 8%。部分典型的拼寫錯誤音節(jié)如表12所示。這部分錯誤基本都是因為音節(jié)點缺失導(dǎo)致。

    表12 含多個緊縮標(biāo)志的錯誤音節(jié)典型實例

    緊縮標(biāo)志出現(xiàn)在第四個字丁或者更靠后位置的錯誤音節(jié)數(shù)量占比和頻次占比分別為0.113 4%和0.058 3%。部分典型的拼寫錯誤音節(jié)如表13所示。這部分錯誤基本都是因為音節(jié)點和句尾空格缺失導(dǎo)致。

    表13 緊縮標(biāo)志位置錯誤的音節(jié)典型實例

    續(xù)表

    綜合上述拼寫錯誤的各種情況,導(dǎo)致拼寫錯誤的原因主要包括四個方面: 一是輸入了多余的元音符號;二是音節(jié)點、單垂符或句尾空格缺失;三是同一字丁/字符存在多種表達(dá)形式;四是使用了錯誤的相似字符。

    5 結(jié)束語

    在本文中,我們從互聯(lián)網(wǎng)獲取了共計19萬藏文網(wǎng)頁,進(jìn)行篇章抽取之后獲得了一份總計427萬句、9 328萬音節(jié)字的藏文文本語料,按照預(yù)定的規(guī)則對其中的拼寫錯誤情況進(jìn)行了統(tǒng)計與分析。數(shù)據(jù)顯示,在所有20 743個藏文音節(jié)中,拼寫正確的藏文音節(jié)共有11 043個,占53.237 2%,在語料中共出現(xiàn)89 032 036次,占99.969 2%。含有拼寫錯誤的藏文音節(jié)共有9 700個,占46.762 8%,在語料中共出現(xiàn)27 427次,占0.030 8%,這說明這份語料的文本質(zhì)量是相當(dāng)高的。導(dǎo)致拼寫錯誤的原因主要包括四個方面: 一是輸入了多余的元音符號;二是音節(jié)點和句尾空格缺失;三是同一字丁/字符存在多種表達(dá)形式;四是使用了錯誤的相似字符。

    [1] 扎西次仁.一個藏文拼寫檢查系統(tǒng)的設(shè)計[C].1998中文信息處理國際會議論文集.1998: 371-376.

    [2] 王維蘭,丁曉青,戴玉剛等.藏文識別后處理研究[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2002,(2): 30-34.DOI: 10.3969/j.issn.1007-2489.2002.02.008.

    [3] 才讓卓瑪.藏文字自動校對系統(tǒng)初探[C].第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集.2005: 292-294.

    [4] 才讓卓瑪,才智杰.藏文文本自動校對系統(tǒng)開發(fā)研究[J].西北民族大學(xué)學(xué)報(自然科學(xué)版),2009,30(1): 25 -28.DOI: 10.3969/j.issn.1009-2102.2009.01.007.

    [5] 劉文香.藏文音節(jié)校對模型建設(shè)研究[J].西北民族大學(xué)學(xué)報(自然科學(xué)版),2009,30(2): 13-16,32. DOI: 10.3969/j.issn.1009-2102.2009.02.004.

    [6] 劉文香.藏文文本詞校對模型研究[J].西藏大學(xué)學(xué)報(自然科學(xué)版),2009,24(2): 70-74.

    [7] 劉文香.現(xiàn)代藏文文本校對設(shè)計方案研究[J].西藏大學(xué)學(xué)報(自然科學(xué)版),2012,(2): 66-69.

    [8] 多杰卓瑪.N元模型在藏文文本局部查錯中的應(yīng)用研究[J].計算機(jī)工程與科學(xué),2009,31(4): 117-119,123. DOI: 10.3969/j.issn.1007-130X.2009.04.035.

    [9] 關(guān)白,洛藏,才科扎西等.現(xiàn)代藏文自動校對現(xiàn)狀分析[J].西藏科技,2011,(8): 78-80.DOI: 10.3969/ j.issn.1004-3403.2011.08.035.

    [10] 關(guān)白.自動校對中現(xiàn)代藏文音節(jié)字研究[J].西藏大學(xué)學(xué)報(自然科學(xué)版),2011,26(1): 69-75.

    [11] 關(guān)白,才科扎西.現(xiàn)代藏文音節(jié)字自動校對研究[J].計算機(jī)工程與應(yīng)用,2012,48(29): 151-156.DOI: 10. 3778/ j.issn.1002-8331.2012.29.031.

    [12] 安見才讓.基于分段的藏字校對算法研究[J].中文信息學(xué)報,2013,27(2): 58-64.DOI: 10.3969/j.issn.10 03-0077.2013.02.009.

    [13] 珠杰,歐珠,格桑多吉等.藏文音節(jié)規(guī)則庫的建立與應(yīng)用分析[J].中文信息學(xué)報,2013,27(2): 103-112.

    [14] 洪錦玲,劉匯丹,吳健.一種在辦公套件中支持藏文拼寫檢查的方法[C].第14屆中國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集,2013: 116-122

    [15] 陳小瑩,艾金勇.藏文音節(jié)拼寫自動校對系統(tǒng)的設(shè)計[J].語文學(xué)刊,2014,(5): 31-32.

    [16] 劉匯丹,芮建武,吳健等.藏文網(wǎng)頁的編碼識別與轉(zhuǎn)換[C].中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議.2006: 573-580.

    [17] 劉匯丹,諾明花,趙維納等.藏文編碼轉(zhuǎn)換軟件“藏碼通” 的設(shè)計與實現(xiàn)[C].第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會論文集.2010: 217-221.

    [18] 劉匯丹,諾明花,高墨赤等.面向新聞廣播網(wǎng)站的藏文文本采集和語料庫構(gòu)建[C].第14屆中國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集,2013: 85-94

    [19] 周季文.藏文拼音教材(拉薩音)[M].北京: 民族出版社,1983.

    [20] 胡書津.簡明藏文文法[M].昆明: 云南民族出版社,2000.

    [21] GB16959-1997 信息技術(shù)-信息交換用藏文編碼字符集——基本集[S]. 中國標(biāo)準(zhǔn)出版社, 1998.

    [22] GB/T 20542-2006 信息技術(shù)-藏文編碼字符集——擴(kuò)充集A [S]. 北京: 中國標(biāo)準(zhǔn)出版社, 2006.

    [23] GB/T 22238-2008 信息技術(shù)-藏文編碼字符集——擴(kuò)充集B [S]. 北京: 中國標(biāo)準(zhǔn)出版社, 2008.

    [24] ISO/IEC 10646: 2012 Information technology - Universal Coded Character Set (UCS) [S]. International Organization for Standardization, 2012.

    [25] The Unicode Standard, Version 6.1 [S]. Mountain View, CA: The Unicode Consortium, ISBN 978-1- 936213-02-3, 2012.

    Statistics and Analysis on Spell Errors of Tibetan SyllablesBased on a Large Scale Web Corpus

    LIU Huidan, HONG Jinling, NUO Minghua, WU Jian

    (Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)

    A large scale Tibetan text corpus is built, which includes 4.27 million sentences in 190 thousand documents, totaling 93 million syllables. Some predefined rules are applied to check whether there are spelling errors, detecting altogether 9 700 misspelt syllable types out of the 20 743 types of Tibetan syllables occurred in the corpus (covering 46.762 8%). But at the token level, the corpus has a very high quality, with only 27 427 misspelt syllables, roughly 0.030 8% of the total 93 million syllable tokens. Further analysis shows that there are mainly four causes leading to those spell errors: extra vowel sign(s); absence of syllable delimiter or sentence delimiter; characters which can be written in different forms; similar characters.

    Tibetan spell check; spell check; corpus; Tibetan information processing; Chinese information processing

    劉匯丹(1982—),博士,副研究員,主要研究領(lǐng)域為操作系統(tǒng)中文信息處理、多語言信息處理。E?mail:huidan@iscas.a(chǎn)c.cn洪錦玲(1981—),碩士,工程師,主要研究領(lǐng)域為多語言信息處理。E?mail:jinling@iscas.a(chǎn)c.cn諾明花(1981—),博士,助理研究員,主要研究領(lǐng)域為多語言信息處理。E?mail:nuominghua@163.com

    2014-04-23 定稿日期: 2014-11-21

    國家自然科學(xué)基金(61202219,61303165);中國科學(xué)院信息化專項(XXH12504-1-10);新聞出版重大科技工程(0610-1041BJNF 2328/23)

    1003-0077(2017)02-0061-10

    TP391

    A

    猜你喜歡
    拼寫錯誤藏文音節(jié)
    西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
    布達(dá)拉(2020年3期)2020-04-13 10:00:07
    拼拼 讀讀 寫寫
    黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
    西夏學(xué)(2019年1期)2019-02-10 06:22:34
    初中生英語詞匯學(xué)習(xí)策略探究
    贏未來(2018年1期)2018-04-20 07:11:36
    從2017年6月四級翻譯閱卷看段落翻譯中的詞匯錯誤類型
    考試周刊(2017年92期)2018-02-03 01:00:32
    藏文音節(jié)字的頻次統(tǒng)計
    現(xiàn)代語境下的藏文報刊
    新聞傳播(2016年17期)2016-07-19 10:12:05
    由wrong錯拼成worry引發(fā)的行動研究
    快樂拼音
    木管樂器“音節(jié)練習(xí)法”初探
    国内少妇人妻偷人精品xxx网站| 久久久精品免费免费高清| 久久精品国产a三级三级三级| 午夜激情福利司机影院| 特级一级黄色大片| 免费av观看视频| 欧美极品一区二区三区四区| 久热久热在线精品观看| 国模一区二区三区四区视频| 91久久精品电影网| 制服丝袜香蕉在线| 日韩视频在线欧美| 交换朋友夫妻互换小说| 大香蕉97超碰在线| 波野结衣二区三区在线| 观看免费一级毛片| 毛片一级片免费看久久久久| 麻豆国产97在线/欧美| 美女主播在线视频| 国产熟女欧美一区二区| 色视频在线一区二区三区| 亚洲精品,欧美精品| 亚洲精品视频女| 成年女人看的毛片在线观看| 伊人久久精品亚洲午夜| 青春草视频在线免费观看| 国产 精品1| 国国产精品蜜臀av免费| 草草在线视频免费看| 国产精品av视频在线免费观看| 男女国产视频网站| 国模一区二区三区四区视频| 性色av一级| 亚洲av在线观看美女高潮| 久久精品夜色国产| av女优亚洲男人天堂| 亚洲综合精品二区| 嫩草影院新地址| 国产一区二区亚洲精品在线观看| 国产男女内射视频| 日韩制服骚丝袜av| 精品国产三级普通话版| 色视频在线一区二区三区| 亚洲欧美日韩另类电影网站 | 男男h啪啪无遮挡| 韩国高清视频一区二区三区| 人妻 亚洲 视频| 你懂的网址亚洲精品在线观看| 26uuu在线亚洲综合色| 99九九线精品视频在线观看视频| 久久精品夜色国产| 一级毛片aaaaaa免费看小| 亚洲电影在线观看av| 少妇人妻久久综合中文| 久久99热这里只频精品6学生| 国产乱来视频区| 亚洲丝袜综合中文字幕| 亚洲欧美精品自产自拍| 各种免费的搞黄视频| 国模一区二区三区四区视频| 亚洲不卡免费看| 国产欧美亚洲国产| 国产 一区精品| 夫妻午夜视频| 麻豆成人午夜福利视频| 国产日韩欧美在线精品| 人体艺术视频欧美日本| 精品久久久久久电影网| 亚洲高清免费不卡视频| 99热这里只有精品一区| 亚洲国产日韩一区二区| 午夜日本视频在线| 国产亚洲午夜精品一区二区久久 | 国产 一区精品| 欧美一区二区亚洲| 久久人人爽人人片av| 成人午夜精彩视频在线观看| 寂寞人妻少妇视频99o| 七月丁香在线播放| av国产久精品久网站免费入址| 久久精品国产a三级三级三级| h日本视频在线播放| 亚洲欧美成人综合另类久久久| 亚洲aⅴ乱码一区二区在线播放| 性色av一级| 国产毛片在线视频| 免费高清在线观看视频在线观看| 亚洲最大成人av| 最近的中文字幕免费完整| 欧美变态另类bdsm刘玥| 日韩人妻高清精品专区| 有码 亚洲区| 好男人在线观看高清免费视频| 免费观看的影片在线观看| 成年av动漫网址| 国产黄片美女视频| 国产真实伦视频高清在线观看| 亚洲精品国产成人久久av| 97精品久久久久久久久久精品| 97超碰精品成人国产| 午夜福利在线在线| 我要看日韩黄色一级片| a级毛色黄片| 国产精品99久久久久久久久| 只有这里有精品99| 国产精品女同一区二区软件| 国产亚洲一区二区精品| 精品少妇黑人巨大在线播放| 精品久久久久久久久亚洲| 亚洲aⅴ乱码一区二区在线播放| 九九爱精品视频在线观看| 黄色日韩在线| 久久久久久伊人网av| 一个人观看的视频www高清免费观看| 蜜桃久久精品国产亚洲av| 老司机影院毛片| 久久久久久久久大av| 午夜福利视频1000在线观看| 青春草视频在线免费观看| 久久久久久九九精品二区国产| 久久精品综合一区二区三区| 99热这里只有是精品在线观看| 在线精品无人区一区二区三 | 精品少妇久久久久久888优播| 晚上一个人看的免费电影| 国产精品.久久久| 国内揄拍国产精品人妻在线| 精品久久久久久久末码| 日本一本二区三区精品| av网站免费在线观看视频| 男女国产视频网站| 美女视频免费永久观看网站| 大香蕉久久网| 精品一区二区免费观看| 大香蕉97超碰在线| 欧美潮喷喷水| 汤姆久久久久久久影院中文字幕| 久久久久久久精品精品| 99热这里只有精品一区| 国产老妇女一区| xxx大片免费视频| 免费黄色在线免费观看| 欧美日本视频| 亚洲成人中文字幕在线播放| 欧美激情在线99| 内地一区二区视频在线| 大陆偷拍与自拍| 爱豆传媒免费全集在线观看| 国产 精品1| 亚洲在久久综合| 国产精品秋霞免费鲁丝片| videossex国产| 精品99又大又爽又粗少妇毛片| 伊人久久精品亚洲午夜| 国产永久视频网站| 国产精品国产三级国产av玫瑰| 少妇裸体淫交视频免费看高清| 亚洲aⅴ乱码一区二区在线播放| 婷婷色综合www| 99热6这里只有精品| 久久久久久久国产电影| 在线观看一区二区三区激情| 国产精品不卡视频一区二区| 亚洲av二区三区四区| 免费高清在线观看视频在线观看| 成人国产麻豆网| 精品久久久久久久久av| 一级a做视频免费观看| 丰满少妇做爰视频| 国产精品久久久久久久久免| 国产成人freesex在线| 国产一区二区在线观看日韩| 啦啦啦中文免费视频观看日本| 亚洲不卡免费看| 永久网站在线| 国国产精品蜜臀av免费| 香蕉精品网在线| 国产av码专区亚洲av| 亚洲欧洲日产国产| 国产老妇伦熟女老妇高清| 真实男女啪啪啪动态图| 国产伦在线观看视频一区| 成人亚洲精品一区在线观看 | 亚洲色图av天堂| av播播在线观看一区| 亚洲欧洲日产国产| 最近手机中文字幕大全| 九九爱精品视频在线观看| 亚洲国产精品999| 成年女人看的毛片在线观看| 视频区图区小说| 最近中文字幕高清免费大全6| 黄色视频在线播放观看不卡| 亚洲不卡免费看| 国产淫语在线视频| 制服丝袜香蕉在线| 国产成年人精品一区二区| 午夜免费鲁丝| 韩国av在线不卡| 欧美老熟妇乱子伦牲交| 久久精品人妻少妇| 午夜激情久久久久久久| 国产亚洲精品久久久com| 国产片特级美女逼逼视频| 女的被弄到高潮叫床怎么办| 免费少妇av软件| 国产精品.久久久| 亚洲av国产av综合av卡| xxx大片免费视频| 国产在视频线精品| 国产v大片淫在线免费观看| 久久亚洲国产成人精品v| 国产免费福利视频在线观看| 在线观看一区二区三区| 亚洲最大成人av| 亚洲最大成人手机在线| 亚洲天堂国产精品一区在线| 少妇高潮的动态图| 免费人成在线观看视频色| 国产亚洲一区二区精品| 交换朋友夫妻互换小说| 亚洲精品色激情综合| 欧美日韩国产mv在线观看视频 | 春色校园在线视频观看| 亚洲国产精品专区欧美| av.在线天堂| 伦理电影大哥的女人| 纵有疾风起免费观看全集完整版| 99热网站在线观看| 啦啦啦中文免费视频观看日本| 性色av一级| 人人妻人人看人人澡| 久久热精品热| 一级毛片 在线播放| 最后的刺客免费高清国语| 午夜精品国产一区二区电影 | 国产精品国产三级国产av玫瑰| 人妻系列 视频| 成人亚洲欧美一区二区av| 国国产精品蜜臀av免费| 内地一区二区视频在线| 91午夜精品亚洲一区二区三区| 王馨瑶露胸无遮挡在线观看| 久热这里只有精品99| 精品国产三级普通话版| 最近2019中文字幕mv第一页| 老司机影院毛片| 久久ye,这里只有精品| 直男gayav资源| 亚洲精品亚洲一区二区| 最后的刺客免费高清国语| 日韩成人伦理影院| 99久久中文字幕三级久久日本| 日韩一区二区三区影片| 亚洲第一区二区三区不卡| 久久综合国产亚洲精品| 免费少妇av软件| 久久精品久久久久久噜噜老黄| 午夜爱爱视频在线播放| h日本视频在线播放| 舔av片在线| videos熟女内射| 亚洲精品,欧美精品| 在现免费观看毛片| 色综合色国产| 一级毛片电影观看| 中文在线观看免费www的网站| 黄片无遮挡物在线观看| 国产老妇伦熟女老妇高清| 久久鲁丝午夜福利片| 国产黄a三级三级三级人| 亚洲精品乱码久久久v下载方式| 亚洲av国产av综合av卡| 大香蕉97超碰在线| 黄色一级大片看看| 男女国产视频网站| 国产成人a区在线观看| 日韩中字成人| 国产成人aa在线观看| 高清午夜精品一区二区三区| 欧美日韩视频高清一区二区三区二| 精品久久久噜噜| 九九久久精品国产亚洲av麻豆| 久久人人爽人人片av| 永久网站在线| 午夜福利视频精品| 人妻一区二区av| av又黄又爽大尺度在线免费看| 欧美成人精品欧美一级黄| 亚洲av中文av极速乱| 日韩免费高清中文字幕av| 精品少妇黑人巨大在线播放| 丰满乱子伦码专区| 最近最新中文字幕大全电影3| 亚洲成人中文字幕在线播放| 最近的中文字幕免费完整| 九九在线视频观看精品| 免费大片18禁| 一级毛片aaaaaa免费看小| 我的女老师完整版在线观看| 晚上一个人看的免费电影| 日韩一本色道免费dvd| 日韩免费高清中文字幕av| 人妻制服诱惑在线中文字幕| 噜噜噜噜噜久久久久久91| 日本一本二区三区精品| 国内揄拍国产精品人妻在线| 亚洲精品中文字幕在线视频 | 国产高清三级在线| 黄片wwwwww| 建设人人有责人人尽责人人享有的 | 18禁在线无遮挡免费观看视频| 波多野结衣巨乳人妻| 国产男人的电影天堂91| 免费黄网站久久成人精品| freevideosex欧美| 国产人妻一区二区三区在| 亚洲成人av在线免费| 在现免费观看毛片| 色网站视频免费| 少妇裸体淫交视频免费看高清| 亚洲人成网站在线观看播放| 亚洲国产av新网站| 久久久色成人| 日韩一区二区视频免费看| 国产男女超爽视频在线观看| 成人国产av品久久久| 亚洲av二区三区四区| 最近最新中文字幕免费大全7| 日韩一区二区三区影片| 交换朋友夫妻互换小说| 久久久久九九精品影院| 伦理电影大哥的女人| 在线观看美女被高潮喷水网站| 可以在线观看毛片的网站| 色吧在线观看| 欧美高清性xxxxhd video| 精品人妻视频免费看| 尾随美女入室| 国产精品三级大全| tube8黄色片| 九九久久精品国产亚洲av麻豆| 婷婷色av中文字幕| 亚洲精品视频女| 中文乱码字字幕精品一区二区三区| 夫妻性生交免费视频一级片| 一区二区三区四区激情视频| 亚洲无线观看免费| 又粗又硬又长又爽又黄的视频| 在线观看人妻少妇| 亚洲av成人精品一二三区| 美女视频免费永久观看网站| 2021天堂中文幕一二区在线观| 亚洲国产色片| 亚洲欧美一区二区三区黑人 | 偷拍熟女少妇极品色| 国产免费又黄又爽又色| 一本色道久久久久久精品综合| 蜜桃久久精品国产亚洲av| 久久国产乱子免费精品| 99热这里只有是精品在线观看| 国产乱人视频| 丝袜脚勾引网站| 亚洲国产高清在线一区二区三| 男男h啪啪无遮挡| 欧美人与善性xxx| 激情 狠狠 欧美| 午夜视频国产福利| 国产亚洲午夜精品一区二区久久 | 偷拍熟女少妇极品色| 久热这里只有精品99| 亚洲国产欧美在线一区| 成年av动漫网址| 五月伊人婷婷丁香| 91精品国产九色| 免费看a级黄色片| 少妇 在线观看| 男的添女的下面高潮视频| 麻豆成人午夜福利视频| 亚洲欧美一区二区三区黑人 | 嫩草影院新地址| 国产毛片在线视频| 国产精品精品国产色婷婷| 看黄色毛片网站| 一级a做视频免费观看| 精品一区二区三卡| 自拍欧美九色日韩亚洲蝌蚪91 | 青春草国产在线视频| 亚洲成色77777| 久久久久久国产a免费观看| 天堂俺去俺来也www色官网| 中国美白少妇内射xxxbb| av免费在线看不卡| 少妇 在线观看| 岛国毛片在线播放| 国产精品一及| 熟女人妻精品中文字幕| 天天一区二区日本电影三级| 一级毛片 在线播放| 成人无遮挡网站| 夜夜爽夜夜爽视频| 国产白丝娇喘喷水9色精品| 国产免费又黄又爽又色| 精品人妻偷拍中文字幕| 97在线视频观看| 国产69精品久久久久777片| 91精品一卡2卡3卡4卡| 街头女战士在线观看网站| 国产综合精华液| 国产亚洲av片在线观看秒播厂| 在线观看av片永久免费下载| 亚洲av一区综合| av线在线观看网站| 男女啪啪激烈高潮av片| 丝袜美腿在线中文| 成人午夜精彩视频在线观看| 精品一区在线观看国产| 午夜视频国产福利| 久久精品综合一区二区三区| 亚洲丝袜综合中文字幕| 97超视频在线观看视频| 丝袜喷水一区| 中文精品一卡2卡3卡4更新| 在线观看一区二区三区激情| 777米奇影视久久| 国产色婷婷99| 少妇的逼好多水| 波多野结衣巨乳人妻| 久久久久久久午夜电影| 国产精品国产av在线观看| 久久久精品94久久精品| 在线播放无遮挡| av在线天堂中文字幕| 欧美激情国产日韩精品一区| 免费观看性生交大片5| 日韩,欧美,国产一区二区三区| 久久久久久久精品精品| 久久精品国产亚洲av天美| 26uuu在线亚洲综合色| 亚洲美女搞黄在线观看| 亚洲伊人久久精品综合| 精品亚洲乱码少妇综合久久| 国产精品一及| 国产成人精品一,二区| 久久久久久国产a免费观看| 成人欧美大片| 中国国产av一级| 欧美日本视频| 在线观看三级黄色| 国产在线一区二区三区精| 丰满人妻一区二区三区视频av| 国产色爽女视频免费观看| 啦啦啦在线观看免费高清www| 亚洲三级黄色毛片| 欧美另类一区| 日韩,欧美,国产一区二区三区| 久久韩国三级中文字幕| 国产精品久久久久久久电影| 国产精品嫩草影院av在线观看| 国产女主播在线喷水免费视频网站| 99热全是精品| 亚洲天堂av无毛| 日日啪夜夜爽| 精品午夜福利在线看| 久久久精品免费免费高清| 久久影院123| 日日啪夜夜撸| 国产亚洲一区二区精品| 视频区图区小说| 涩涩av久久男人的天堂| 男女边吃奶边做爰视频| 久久亚洲国产成人精品v| 国精品久久久久久国模美| 黄色日韩在线| 黄色视频在线播放观看不卡| 中文欧美无线码| 熟妇人妻不卡中文字幕| 日韩三级伦理在线观看| 免费看不卡的av| 69人妻影院| 人妻制服诱惑在线中文字幕| 2021少妇久久久久久久久久久| 中文字幕av成人在线电影| 国产亚洲一区二区精品| 日本wwww免费看| 最近最新中文字幕大全电影3| 丰满乱子伦码专区| 亚洲最大成人中文| 亚洲欧美清纯卡通| 岛国毛片在线播放| 国精品久久久久久国模美| 亚洲精品一二三| xxx大片免费视频| 香蕉精品网在线| 男的添女的下面高潮视频| 亚洲丝袜综合中文字幕| 91aial.com中文字幕在线观看| 最近手机中文字幕大全| 成人免费观看视频高清| 夫妻午夜视频| 高清毛片免费看| av播播在线观看一区| 欧美xxxx性猛交bbbb| 亚洲精品视频女| 日韩亚洲欧美综合| 交换朋友夫妻互换小说| 男人和女人高潮做爰伦理| 人体艺术视频欧美日本| 嫩草影院入口| 国产精品一区二区在线观看99| 91精品伊人久久大香线蕉| 人妻一区二区av| 日韩强制内射视频| 国产精品久久久久久精品古装| 亚洲精华国产精华液的使用体验| 国产精品国产三级专区第一集| 日本爱情动作片www.在线观看| 99热这里只有是精品50| 日韩欧美精品v在线| 午夜激情福利司机影院| 汤姆久久久久久久影院中文字幕| 秋霞在线观看毛片| 亚洲一区二区三区欧美精品 | 在线精品无人区一区二区三 | 卡戴珊不雅视频在线播放| 亚洲欧美日韩东京热| 青青草视频在线视频观看| 伦精品一区二区三区| 18禁在线播放成人免费| 亚洲欧美日韩东京热| 久久97久久精品| 黄色一级大片看看| 91久久精品国产一区二区成人| 九草在线视频观看| 亚洲色图综合在线观看| 大香蕉久久网| 亚洲国产精品成人综合色| 伦理电影大哥的女人| 色播亚洲综合网| 伦精品一区二区三区| 国产综合精华液| 中国美白少妇内射xxxbb| 中国国产av一级| 国产精品不卡视频一区二区| 欧美一区二区亚洲| 天天一区二区日本电影三级| 日日摸夜夜添夜夜爱| 国产毛片a区久久久久| 一二三四中文在线观看免费高清| 成人免费观看视频高清| 美女内射精品一级片tv| 欧美三级亚洲精品| 日韩亚洲欧美综合| 精品人妻偷拍中文字幕| 亚洲精品成人av观看孕妇| 免费高清在线观看视频在线观看| 成年免费大片在线观看| 五月伊人婷婷丁香| 日本一本二区三区精品| 日本爱情动作片www.在线观看| 午夜福利在线观看免费完整高清在| 青春草国产在线视频| 美女国产视频在线观看| 国产精品国产av在线观看| 亚洲国产最新在线播放| 蜜臀久久99精品久久宅男| 在线观看人妻少妇| 丰满乱子伦码专区| 人人妻人人澡人人爽人人夜夜| 乱系列少妇在线播放| 国产 一区精品| 成人美女网站在线观看视频| 午夜免费鲁丝| 三级国产精品欧美在线观看| 免费看av在线观看网站| 五月玫瑰六月丁香| 日韩国内少妇激情av| 禁无遮挡网站| 久久国产乱子免费精品| 精品一区二区三卡| 久久6这里有精品| 永久免费av网站大全| 欧美 日韩 精品 国产| 大片电影免费在线观看免费| 黄色配什么色好看| 国产精品一区www在线观看| 看非洲黑人一级黄片| 秋霞伦理黄片| 女人十人毛片免费观看3o分钟| 国产免费一级a男人的天堂| 久热久热在线精品观看| 夫妻午夜视频| 三级经典国产精品| 少妇人妻精品综合一区二区| 久久久久精品久久久久真实原创| 人妻 亚洲 视频| 好男人视频免费观看在线| 国产精品福利在线免费观看| 国产一区有黄有色的免费视频| 免费观看性生交大片5| 交换朋友夫妻互换小说| 精品亚洲乱码少妇综合久久| 青青草视频在线视频观看| 在线看a的网站| 久久精品国产亚洲av天美| 我要看日韩黄色一级片| 国内精品美女久久久久久| 欧美日韩亚洲高清精品| 精品久久国产蜜桃| av福利片在线观看| 久久久久性生活片| 成人国产av品久久久| 亚洲精品色激情综合| 亚洲最大成人中文| 国产黄色视频一区二区在线观看|