楊利潤(rùn),斯琴巴圖,錫林寶力爾
(1.內(nèi)蒙古建筑職業(yè)技術(shù)學(xué)院,呼和浩特 010070;2.內(nèi)蒙古婦女干部學(xué)校,呼和浩特 010051;3.內(nèi)蒙古廣播電視臺(tái),呼和浩特 010058)
“形對(duì)碼錯(cuò)”錯(cuò)誤是蒙古文電子文本中普遍存在的文本錯(cuò)誤[1],具體指單詞的字形雖然正確,但內(nèi)部編碼錯(cuò)誤的一類文本錯(cuò)誤。由于文字檢索、搜索引擎、文字轉(zhuǎn)語(yǔ)音等多種應(yīng)用都是通過內(nèi)部編碼識(shí)別單詞,而并非通過字形識(shí)別單詞,所以不及時(shí)處理文本中“形對(duì)碼錯(cuò)”錯(cuò)誤,會(huì)導(dǎo)致這些電子文本在應(yīng)用價(jià)值方面大打折扣。本文歸納總結(jié)了前人解決“形對(duì)碼錯(cuò)”錯(cuò)誤的主要方法,以期對(duì)后來研究者提供參考。
“形對(duì)碼錯(cuò)”錯(cuò)誤是指單詞的字形雖然正確,但其內(nèi)部編碼錯(cuò)誤的一類錯(cuò)誤。這類錯(cuò)誤主要由兩種原因引起。第一種是因?yàn)槊晒盼闹写嬖谛瓮舢惖淖帜福ň唧w為字母的變形顯現(xiàn)字符的形狀相同),使用者在通過鍵盤錄入時(shí)由于并不清楚(或不在乎)字符編碼問題,認(rèn)為字形正確即可,從而將字形正確而發(fā)音錯(cuò)誤的字母鍵入單詞中,引起“形對(duì)碼錯(cuò)”錯(cuò)誤。這種起因在沒有接受過蒙古文輸入法培訓(xùn)的使用者中普遍存在。經(jīng)過抽樣調(diào)查,首次使用蒙古文輸入法的使用者在沒有查看使用說明的情況下,都會(huì)認(rèn)為鍵盤上的“O”和“U”(目前流行的輸入法中均代表第六和第七元音)分別代表蒙古文中的第四和第五元音字母。而且,在輸入蒙古文時(shí),通過“O”和“U”也能得到第四、五元音字母的詞中和詞尾的形狀。例如,單詞“”的正確的鍵盤輸入序列應(yīng)為“yabv”,但通過錯(cuò)誤的鍵盤輸入序列“yabu”和“yabo”等都能獲得正確的字形“”。此外,使用者在使用沒有整詞或聯(lián)想功能的輸入法時(shí),由于對(duì)輸入法的控制符并不熟悉,在輸入分寫字母時(shí)濫用控制符,也會(huì)引起“形對(duì)碼錯(cuò)”。下面將由以上原因引起“形對(duì)碼錯(cuò)”的錯(cuò)誤稱為“讀音非詞”錯(cuò)誤。
第二種引起“形對(duì)碼錯(cuò)”的原因是由于應(yīng)用OCR識(shí)別紙質(zhì)文檔或?qū)⑿未a、音形碼等(非國(guó)際標(biāo)準(zhǔn)編碼)轉(zhuǎn)換為純音碼的Unicode國(guó)際標(biāo)準(zhǔn)編碼時(shí),將同形詞(多音字)的讀音選錯(cuò),從而導(dǎo)致單詞的編碼出錯(cuò)。此外,本文將“”(鍵盤輸入序列 ende)識(shí)別為“”(鍵盤輸入序列為ada)一類單詞也歸為第二類。下面將由第二種原因引起“形對(duì)碼錯(cuò)”的錯(cuò)誤稱為“同形詞替代”錯(cuò)誤。并將由第一種原因引起“形對(duì)碼錯(cuò)”的單詞,碰巧該單詞又為多音字,鍵入的讀音雖然在詞典內(nèi),但并不是想要的正確讀音的錯(cuò)誤歸為本類錯(cuò)誤。
2009年,斯·勞格勞在其文章中為了與常見非詞(字形非詞)區(qū)別,給出了“讀音非詞”的概念,并歸為非詞錯(cuò)誤[2]。本文前面在其基礎(chǔ)之上對(duì)“讀音非詞”概念做了進(jìn)一步說明。針對(duì)“讀音非詞”錯(cuò)誤的處理,先后有趙軍、斯·勞格勞、郝莉、蘇傳捷、廉冰、蔡祝元等進(jìn)行了具體的研究。
2007年,趙軍在碩士論文中提出了一種基于音節(jié)的統(tǒng)計(jì)語(yǔ)言模型的蒙古文校對(duì)方法[3],主要處理多余字母、遺漏字母和錯(cuò)錄字母等類型的文本錯(cuò)誤,并在介紹錯(cuò)錄字母的小節(jié)中專門提到“讀音非詞”(文中描述為形碼相同,內(nèi)碼不同)錯(cuò)誤可以使用其給出的2-gram模型的Viterbi算法解決。但文中只是簡(jiǎn)單說明,一筆帶過,并未通過實(shí)驗(yàn)證實(shí),也沒有給出準(zhǔn)確率等指標(biāo)。
于2009年,斯·勞格勞在“如何組織詞典數(shù)據(jù)和規(guī)則是提高‘詞典+規(guī)則’校對(duì)方法效率的關(guān)鍵所在”的思路下,提出了一種通過不確定有限自動(dòng)機(jī)組織蒙古文詞典數(shù)據(jù)和規(guī)則的方法,從而使校對(duì)速度比傳統(tǒng)方法快了將近一倍,且讀音查錯(cuò)算法的平均查準(zhǔn)率為82.86%,讀音糾錯(cuò)算法的平均準(zhǔn)確率為92.09%[2]。該方法根據(jù)不確定有限自動(dòng)機(jī)理論模型構(gòu)造了“基于字形的蒙古文詞法分析器”和“基于讀音的蒙古文詞法分析器”等兩種詞法分析器,詞法分析器中包含了“詞干詞典”和“構(gòu)形附加成分詞典”等兩種詞典。由于該方法屬于“詞典+規(guī)則”的方法,所以詞典和規(guī)則庫(kù)的規(guī)模對(duì)于“讀音非詞”錯(cuò)誤的處理至關(guān)重要。
2010年,郝莉等提出了采用貝葉斯算法校正蒙古文中讀音混淆造成的拼寫錯(cuò)誤(包括讀音非詞錯(cuò)誤)的方法,其拼寫糾錯(cuò)率可達(dá)89%以上,較好地處理了“讀音非詞”錯(cuò)誤[4]。該方法校正失敗的主要原因在于算法推薦的最佳更正詞并非是應(yīng)該被選擇的正確詞。而出現(xiàn)這種問題是因?yàn)樵摲椒ㄗ罴迅~的概率通過先驗(yàn)概率和條件概率計(jì)算得出,而先驗(yàn)概率通過對(duì)訓(xùn)練語(yǔ)料的學(xué)習(xí)獲得,條件概率是通過統(tǒng)計(jì)手工收集的語(yǔ)料獲得。因此,訓(xùn)練語(yǔ)料的規(guī)模和用于計(jì)算條件概率的語(yǔ)料對(duì)于上述方法非常重要。
蘇傳捷等在2013年的文章中,提出一種基于統(tǒng)計(jì)翻譯框架的蒙古文自動(dòng)拼寫校對(duì)方法,將拼寫校對(duì)看作是從錯(cuò)誤詞到正確詞的翻譯[5]。文中通過改進(jìn)基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯模型得到了一種拼寫校對(duì)模型,并通過3萬(wàn)詞的平行訓(xùn)練語(yǔ)料訓(xùn)練了該模型。使用該文方法可以校對(duì)“字形非詞”和“讀音非詞”,校對(duì)后正確詞的比例最高可達(dá)97.55%。此處需要注意的是該文給出的評(píng)價(jià)指標(biāo)并非是“平均準(zhǔn)確率”,而是最高可達(dá)的正確詞的比例。由于統(tǒng)計(jì)機(jī)器翻譯需要龐大的語(yǔ)料庫(kù)的支持,所以使用該方法實(shí)現(xiàn)精準(zhǔn)校對(duì)的關(guān)鍵也在語(yǔ)料庫(kù)的規(guī)模上。此外,處理龐大的語(yǔ)料資源還需要強(qiáng)大的計(jì)算能力的支持。
2014年,廉冰在其碩士論文中提出了一種基于有限自動(dòng)機(jī)的校對(duì)方法,通過該方法可以解決“讀音非詞”錯(cuò)誤,其平均準(zhǔn)確率為91.5%[6]。該方法構(gòu)造了一個(gè)包括五種自動(dòng)機(jī)的詞法分析器,并建立了一個(gè)同形字符規(guī)則庫(kù),并根據(jù)規(guī)則庫(kù),在詞法分析器上搜索需要校對(duì)的單詞,當(dāng)單詞不正確時(shí)選取同形詞糾錯(cuò)。該方法仍屬于“詞典+規(guī)則”的方法。
2019年蔡祝元在碩士論文中提出了將蒙古文正字法詞典中的單詞切分為音節(jié),在音節(jié)統(tǒng)計(jì)特征的分析基礎(chǔ)上,建立音節(jié)級(jí)4-gram模型,并結(jié)合構(gòu)詞規(guī)則和音節(jié)級(jí)4-gram模型查找非詞錯(cuò)誤(包括讀音非詞),再通過字典(蒙古文音節(jié)混淆集字典)校對(duì)非詞錯(cuò)誤的方案[7]。該方案融合了N-gram法和“詞典+規(guī)則”的方法,其查錯(cuò)召回率75.38%,查錯(cuò)準(zhǔn)確率為54.18%,文中未給出糾錯(cuò)準(zhǔn)確率具體值。
“同形詞替代”錯(cuò)誤應(yīng)歸為真詞錯(cuò)誤類。目前,在很多學(xué)者研究同形詞的文章中可以找到“同形詞替代”錯(cuò)誤的處理方法。當(dāng)然,也可以在解決真詞錯(cuò)誤的文章中找到解決方法。
2005年,張建梅在其碩士論文中,以100萬(wàn)詞級(jí)《現(xiàn)代蒙古語(yǔ)文數(shù)據(jù)庫(kù)》(以下簡(jiǎn)稱100TUM)為標(biāo)準(zhǔn)分析了同形異音詞的情況后,歸納出了同形異音詞的讀音識(shí)別條件[8]。具體為1有些同形異音詞在100TUM中,只出現(xiàn)了一種讀音,并未出現(xiàn)其他讀音時(shí),按照真實(shí)語(yǔ)料的實(shí)際情況,將該詞看作只有一種讀音的單詞處理;2有些同形異音詞,以一種讀音為主,其他讀音出現(xiàn)次數(shù)極少的,為極少出現(xiàn)的讀音設(shè)置識(shí)別條件,不符合識(shí)別條件的全部歸為主讀音;3對(duì)于出現(xiàn)多種讀音,且各種讀音的出現(xiàn)次數(shù)差距不大時(shí),給每種讀音建立搭配詞庫(kù),并使用搭配詞識(shí)別具體用哪種讀音;4根據(jù)同形詞和標(biāo)點(diǎn)符號(hào)的位置識(shí)別讀音。之后,從500萬(wàn)詞級(jí)《現(xiàn)代蒙古語(yǔ)文數(shù)據(jù)庫(kù)》(當(dāng)時(shí)大部分為生語(yǔ)料)中,選擇了出現(xiàn)頻率較高的140個(gè)同形異音詞,按照上面歸納出的讀音識(shí)別條件在122個(gè)文件上做了測(cè)試。測(cè)試的召回率為82.80%,準(zhǔn)確率為99.01%。
2010年,淑琴等在其文章中為同形詞建立了存放共現(xiàn)詞(即與同形詞在句子中經(jīng)常配對(duì)出現(xiàn)的單詞)的“共現(xiàn)庫(kù)”[9]。之后在識(shí)別同形詞的讀音時(shí),通過句子中出現(xiàn)了哪個(gè)共現(xiàn)詞來區(qū)分采用哪種讀音。當(dāng)遇到歧義不能區(qū)分讀音時(shí),為同形詞直接設(shè)置100TUM中出現(xiàn)次數(shù)最多的讀音。該方法的準(zhǔn)確率為81.7%,召回率為99.8%。該文中的同形詞概念不僅包括同形異音詞,還包括形音均相同,意義不同的單詞。所以該文提供的準(zhǔn)確率和召回率與張建梅文章中的準(zhǔn)確率和召回率不能相互比較。
2016年,哈斯等提出了使用詞匯語(yǔ)義網(wǎng)絡(luò)識(shí)別同形詞詞義的方法[10]。具體為通過計(jì)算同形詞與所在句子中的名詞在語(yǔ)義網(wǎng)中的距離判斷該同形詞的詞義。使用該方法識(shí)別同形詞詞義時(shí),最高準(zhǔn)確率達(dá)到了88.80%,最低準(zhǔn)確率為23.30%,平均準(zhǔn)確率為55.1%。通過這種方法,也可以處理“同形詞替代”錯(cuò)誤。
2017年,迎春在其碩士論文中給出了一種校對(duì)真詞錯(cuò)誤的方法,其中查錯(cuò)功能在詞語(yǔ)同現(xiàn)矩陣的基礎(chǔ)上,利用詞的二元接續(xù)關(guān)系實(shí)現(xiàn),糾錯(cuò)功能通過易混淆詞詞典及生成糾錯(cuò)建議的算法實(shí)現(xiàn)[11]。該文方法的召回率為82%,正確率為3.4%,糾錯(cuò)建議生成率為91%。
2019年蔡祝元在其碩士論文中,除了提出校對(duì)非詞錯(cuò)誤的一種方案以外,還提出了在真詞混淆集的基礎(chǔ)上結(jié)合3-gram語(yǔ)言模型和上下文語(yǔ)境實(shí)現(xiàn)蒙古文真詞錯(cuò)誤(包括同形詞替代錯(cuò)誤)的查錯(cuò)與糾錯(cuò)方案,該方案的查錯(cuò)召回率為77.78%,查錯(cuò)準(zhǔn)確率為60.87%,糾錯(cuò)率為 78.57%[7]。
“形對(duì)碼錯(cuò)”錯(cuò)誤的出現(xiàn)主要由兩種原因引起,由第一種原因引起的稱為“讀音非詞”錯(cuò)誤,由第二種原因引起的稱為“同形詞替代”錯(cuò)誤?!白x音非詞”主要由于使用者在鍵盤輸入時(shí),混淆了字母而引起?!巴卧~替代”主要由于應(yīng)用OCR識(shí)別紙質(zhì)文檔或?qū)⒎菄?guó)際標(biāo)準(zhǔn)編碼轉(zhuǎn)換為國(guó)際標(biāo)準(zhǔn)編碼時(shí)產(chǎn)生。目前,處理“讀音非詞”的研究方法主要有:基于詞典+規(guī)則的方法(包括基于有限狀態(tài)自動(dòng)機(jī)方法)、基于貝葉斯算法的方法、基于統(tǒng)計(jì)翻譯框架的方法和N-gram融合“詞典+規(guī)則”的方法等。處理“同形詞替代”的研究方法主要有:基于統(tǒng)計(jì)規(guī)則的方法(包括共現(xiàn)庫(kù)的方法)、基于語(yǔ)義網(wǎng)絡(luò)的方法、基于詞的二元接續(xù)關(guān)系算法的方法和N-gram融合上下文語(yǔ)境的方法等。由于以上文章中選取的測(cè)試數(shù)據(jù)不同,測(cè)試人員不同,提供的評(píng)價(jià)指標(biāo)不同,甚至研究范疇不同,所以不能僅僅根據(jù)其召回率和準(zhǔn)確率等判斷方法的優(yōu)劣。
上述各種方法都直接或間接依賴高質(zhì)量、大規(guī)模的語(yǔ)料庫(kù)資源,所以盡快建立高質(zhì)量、大規(guī)模,向所有研究蒙古文信息處理的人員開放的共享語(yǔ)料庫(kù)對(duì)“形對(duì)碼錯(cuò)”錯(cuò)誤的解決,對(duì)蒙古文文本自動(dòng)校對(duì)水平的提高,乃至對(duì)蒙古文信息處理整體水平的提高都尤為重要。