哈畢旦·加拿西
【摘 要】數(shù)字資源為新興時(shí)代圖書(shū)館必不可少的資源之一,而文字識(shí)別技術(shù)是建立數(shù)字資源過(guò)程中的重要環(huán)節(jié)之一。本文以新疆維吾爾自治區(qū)內(nèi)的維、哈、柯等少數(shù)民族文字為主題,提出了少數(shù)民族地區(qū)數(shù)字文獻(xiàn)事業(yè)發(fā)展的進(jìn)展和現(xiàn)狀
【關(guān)鍵詞】新疆;民族;文字識(shí)別;發(fā)展進(jìn)度
我國(guó)是多民族國(guó)家,尤其是在新疆維吾爾自治區(qū)共有13個(gè)少數(shù)民族在這富饒的土地上共同生存和繁榮發(fā)展。在我國(guó)少數(shù)民族語(yǔ)言文字政策的大力支持下,我區(qū)各民族都在使用各自的語(yǔ)言文字并通過(guò)在語(yǔ)言文字領(lǐng)域不斷引進(jìn)新興技術(shù),使各自的文字領(lǐng)域創(chuàng)造了數(shù)字化、自動(dòng)化的新的局面。本文提出的少數(shù)民族文字識(shí)別系統(tǒng)指的是使用某種數(shù)字技術(shù)把現(xiàn)存的少數(shù)民族文字編寫的紙質(zhì)文獻(xiàn)通過(guò)掃描形式先轉(zhuǎn)化為計(jì)算機(jī)能識(shí)別的標(biāo)準(zhǔn)圖像格式,再用類似于中文文字識(shí)別軟件OCR等轉(zhuǎn)換工具把以圖像格式保存的文字轉(zhuǎn)換成WINDOWS等系統(tǒng)的WORD或其他文本格式文件的過(guò)程。這些文本文件形成后根據(jù)使用者的需求會(huì)直接被使用或再進(jìn)行二次加工用PDF文件或HTML網(wǎng)頁(yè)文件等軟載體傳播并提供給讀者閱讀。文字識(shí)別系統(tǒng)為后者提供準(zhǔn)備工作和硬條件,也就是為電子圖書(shū)等數(shù)字文獻(xiàn)的形成做中轉(zhuǎn)的作用(如圖1)。介紹新疆地區(qū)少數(shù)民族文字識(shí)別系統(tǒng)之前,我們必須先了解其文字背景和特點(diǎn),首先簡(jiǎn)單介紹一下我區(qū)少數(shù)民族文字現(xiàn)狀。
一、少數(shù)民族文字基本情況
在新疆地區(qū),維吾爾族、哈薩克族、柯?tīng)柨俗巫宓葘儆谕回收Z(yǔ)系的民族現(xiàn)在都使用自己的語(yǔ)言和文字實(shí)現(xiàn)各種交流和溝通。這幾個(gè)民族使用文字的歷史原因,使用文字變化多樣化、因時(shí)代不同而使用文字不同等特點(diǎn)已經(jīng)導(dǎo)致文字的不統(tǒng)一性和不確定性。在解放前后都已經(jīng)使用過(guò)新、舊文字兩種文字表達(dá)方式。而他們現(xiàn)在用的文字是國(guó)家按有關(guān)語(yǔ)言文字的特征,在阿拉伯文字的基礎(chǔ)上模仿性創(chuàng)造出的文字表達(dá)方式,是在阿拉伯文字的基礎(chǔ)上更改并簡(jiǎn)化了部分環(huán)節(jié)后產(chǎn)生的新的字母,既有阿拉伯文字的有些特征并有自己的特點(diǎn)和不同。維吾爾文字使用32個(gè)字母,哈薩克文使用33個(gè)字母,柯?tīng)柨俗挝氖褂?0個(gè)字母(1983年版),這三種語(yǔ)言文字在各自中間也有些共同點(diǎn)和不同地方。
目前,雖然有關(guān)這些語(yǔ)言文字識(shí)別的研究有了些新的進(jìn)展,其實(shí)幅度還是不能滿足使用者對(duì)新技術(shù)的發(fā)展需求,可以說(shuō)是出于發(fā)展的初級(jí)階段。由于阿拉伯文和這些語(yǔ)言字符集上的相似性,可以借鑒阿拉伯文研究成果。但是阿拉伯文字識(shí)別的研究遠(yuǎn)遠(yuǎn)落后于拉丁文、中文等文字識(shí)別技術(shù)的研究,大部分的研究采用的是結(jié)構(gòu)化的方法。
二、少數(shù)民族文字自動(dòng)識(shí)別的特點(diǎn)
因?yàn)楦⒗淖钟胁煌c(diǎn),這些語(yǔ)言文字的識(shí)別技術(shù)也會(huì)有自己的特點(diǎn)和不同之處,簡(jiǎn)單總結(jié)為以下幾點(diǎn):
(1)形成的少數(shù)民族文字電子書(shū)籍格式不統(tǒng)一或不完善,基本以圖像格式使用,再有轉(zhuǎn)化為文本格式的電子書(shū)籍也是很少一部分。因相關(guān)文字識(shí)別技術(shù)不成熟,好多電子圖書(shū)都不是靠文字識(shí)別系統(tǒng)來(lái)轉(zhuǎn)換為電子版的。在使用掃描形成的圖像格式(*.BMP,*.JPG等文件)制作成包括PDF在內(nèi)的各種格式的資料中,轉(zhuǎn)換出的文本里不能正常顯示的字母占的比例高或者各種符號(hào)的錯(cuò)誤率較高、排版出現(xiàn)混亂等現(xiàn)象普遍存在,最后影響了整本電子文獻(xiàn)的質(zhì)量。這種現(xiàn)象的主要原因是某些字母在數(shù)字轉(zhuǎn)換過(guò)程中沒(méi)有能夠達(dá)到識(shí)別的標(biāo)準(zhǔn),部分原因來(lái)自于工作人員的疏忽和工作態(tài)度等?,F(xiàn)在,已經(jīng)以圖像形式掃描成為電子文獻(xiàn)的資源已經(jīng)開(kāi)始在社會(huì)各個(gè)領(lǐng)域使用并開(kāi)始形成數(shù)據(jù)庫(kù)。跟文本形式的電子書(shū)相比,這些圖書(shū)在實(shí)際使用中確實(shí)不易利用,顯然有很多不足之處。讀者使用時(shí)這種圖像個(gè)會(huì)的文件僅能通過(guò)輸入文本格式的文件名來(lái)查詢,而不能直接把文件內(nèi)容使用各種文本編輯工具來(lái)編輯或通過(guò) JAVA ,XML等腳本語(yǔ)言編程,對(duì)PDF或HTML等網(wǎng)頁(yè)文件內(nèi)容進(jìn)行查詢和編輯操作。
(2)因歷史種種原因?qū)е碌奈淖质褂帽尘埃嬖谝环N語(yǔ)言使用多種文字情況,識(shí)別過(guò)程比較復(fù)雜,處理一種語(yǔ)言文字需要兩種解決途徑,而且這兩種解決方式是并且(U或者AND)關(guān)系的結(jié)構(gòu)。拿維吾爾語(yǔ)和哈薩克語(yǔ)來(lái)講的話,這兩種語(yǔ)言到1965年前都使用阿拉伯文字形式的舊文字,從1965年開(kāi)始使用拉丁文字形式的新文字,而又從1982年開(kāi)始變更為以前的阿拉伯文字形式的舊文字。所以,處理這不同年代時(shí)的圖書(shū)資料時(shí),我們需要處理兩種不同文字。雖然是一種語(yǔ)言,因使用的文字不同,而且這兩種文字從結(jié)構(gòu)上有根本性區(qū)別和不同的特點(diǎn)。這顯然會(huì)要求我們準(zhǔn)備和使用兩種不同的處理技術(shù)和方案。
(3)文字識(shí)別系統(tǒng)準(zhǔn)確率不高,識(shí)別質(zhì)量低。雖然少數(shù)民族文字識(shí)別系統(tǒng)問(wèn)世已有幾年時(shí)間,軟件技術(shù)基本不成熟,實(shí)際使用中遇到的需要攻關(guān)和還未能得到全面解決的技術(shù)性問(wèn)題很多。不僅現(xiàn)有的少數(shù)民族文字識(shí)別軟件的種類和數(shù)量都少,而它們的識(shí)別率等最關(guān)鍵的技術(shù)水平也未能得到提高,還處在初級(jí)研究和充實(shí)階段,而且發(fā)展進(jìn)度也比較慢。對(duì)現(xiàn)有的少數(shù)民族文字識(shí)別軟件而言,它們的實(shí)際識(shí)別率僅僅達(dá)到10%—15%左右,根本無(wú)法滿足文字系統(tǒng)應(yīng)有的功能指標(biāo)。如果按照這個(gè)比例進(jìn)行掃描的話,整本書(shū)的大部分內(nèi)容會(huì)出現(xiàn)錯(cuò)誤而需要對(duì)其余部分進(jìn)行手工輸入,根本體現(xiàn)不出自動(dòng)化處理的優(yōu)越性,反而會(huì)浪費(fèi)人力和財(cái)力并會(huì)提高建立數(shù)字資源的成本,最終影響數(shù)字資源庫(kù)的建設(shè)步伐。其中也隱藏著使用者數(shù)量不多、市場(chǎng)發(fā)展前景不樂(lè)觀、經(jīng)濟(jì)利潤(rùn)少等幾個(gè)主要因素。不管再有多大的技術(shù)障礙或客觀因素,如果有讀者的需求和時(shí)代的要求,我們有必要組織更多的人力和財(cái)力發(fā)展文字自動(dòng)識(shí)別并攻關(guān)這些技術(shù)難關(guān)。
從技術(shù)角度來(lái)看,少數(shù)民族文字自動(dòng)識(shí)別工作中存在一下三種技術(shù)亮點(diǎn)和把關(guān)的環(huán)節(jié):
三、文字識(shí)別中的技術(shù)亮點(diǎn)
(1)形成文本文件后的文字必須符合Unicode字符標(biāo)準(zhǔn),不管使用什么字體,在編碼中必須使用Windows 系統(tǒng)無(wú)條件認(rèn)可的字符格式。這樣才能保證文本在檢索中的統(tǒng)一性,避免出現(xiàn)文字編碼不同而影響檢索結(jié)果。相反,在建立數(shù)字資源數(shù)據(jù)庫(kù)時(shí)數(shù)據(jù)不管存放到SQL或Oracle 等大型數(shù)據(jù)庫(kù)或自制數(shù)據(jù)庫(kù)里,只能找出相關(guān)文件名,而查詢?nèi)臅r(shí)會(huì)出現(xiàn)字符亂碼或顯示不正常等情況。
(2)同時(shí)需要解決并提高混合文字的識(shí)別率。因現(xiàn)存的維哈文等用的是從右到左的讀寫方式,如果在文獻(xiàn)全文中維哈文字符和拉丁文字和中文、符號(hào)和數(shù)字同時(shí)出現(xiàn)時(shí)就需要處理不同文字的不同拼寫方向問(wèn)題。這是識(shí)別某種文字的同時(shí)還需要保證其中混合的讀寫方向不同的其他文字和字符的準(zhǔn)確率。雖然這種情況在文學(xué)作品中出現(xiàn)的概率不大,在其他學(xué)科(比如學(xué)術(shù)性文章和自科類文獻(xiàn))中出現(xiàn)的概率還是不能小看的。為了實(shí)現(xiàn)文獻(xiàn)全文和電子版的融合,此項(xiàng)工作必須當(dāng)重中之重來(lái)考慮并完成。
(3)因文字自身特征,維哈文等文字有30多個(gè)主體字母的90多種字符形式,在掃描識(shí)別過(guò)程中不能忽視這些字母的變位規(guī)律。比如一個(gè)字母根據(jù)在詞語(yǔ)中的位置有四種寫法時(shí)(不包括在行尾的簡(jiǎn)寫方法)會(huì)要求文字識(shí)別軟件必須按照該字母當(dāng)時(shí)的字符形式來(lái)做出判斷。比如:哈薩克文中字母T()來(lái)舉例,該字母根據(jù)詞語(yǔ)中的位置有(如圖2)四種寫法。這種因素?zé)o意中會(huì)給文字識(shí)別的速度與準(zhǔn)確率帶來(lái)一些技術(shù)上的障礙并會(huì)影響邏輯識(shí)別的連續(xù)性。
總之,因維哈文字書(shū)寫方向?yàn)閺淖蟮接?,且各字符是在基?zhǔn)線附近相互連接的,因此,維哈文字符的識(shí)別率要比中文、英文等符號(hào)之間的存在空隙字符的識(shí)別率要低。這些少數(shù)民族手寫文字的識(shí)別主要的困難基本集中在于字符結(jié)構(gòu)簡(jiǎn)單、筆劃數(shù)少、可提取的特征較少、字符之間的相似程度極高、手寫草體的區(qū)別較大等幾個(gè)方面。對(duì)民族文獻(xiàn)信息的深入、持續(xù)建設(shè)和開(kāi)發(fā)利用仍然是擺在民族圖書(shū)館人面前的一項(xiàng)艱巨而緊迫的任務(wù)。我們必須在已有的基礎(chǔ)上,進(jìn)一步解放思想,與時(shí)俱進(jìn),求真務(wù)實(shí),急讀者所急。也相信在不久的將來(lái)會(huì)找出可靠、穩(wěn)定的解決方案和技術(shù)創(chuàng)新。
參考文獻(xiàn):
[1] 碩士研究生論文.新疆大學(xué);維文在線處理技術(shù)與實(shí)現(xiàn):瓦熱斯江·阿布都克力木[2002年6月10日]
[2]吳慰慈.圖書(shū)館學(xué)概論 ,北京:北京圖書(shū)館出版社
[3]黃梅芬.民族地區(qū)圖書(shū)館事業(yè)的發(fā)展回顧:圖書(shū)館界,[2008年第四期]
[4] 王子舟.圖書(shū)館學(xué)基礎(chǔ)教程, 武漢: 武漢大學(xué)出版社