趙生輝(西藏民族大學(xué)管理學(xué)院)
少數(shù)民族語言信息資源計算機輔助閱讀系統(tǒng)架構(gòu)設(shè)計
趙生輝
(西藏民族大學(xué)管理學(xué)院)
利用信息技術(shù)消減語言文字的差異性所帶來的溝通障礙是民族地區(qū)信息資源管理迫切需要解決的問題。在機器翻譯技術(shù)之外,計算機輔助跨語言閱讀系統(tǒng)(CARS-IRMLC)是民族地區(qū)政府公共服務(wù)機構(gòu)為只掌握了國家通用語言服務(wù)對象所特別設(shè)計的跨語言閱讀環(huán)境,該系統(tǒng)以“簡化通用語義代碼體系”作為多種少數(shù)民族語言同義語素的定位、關(guān)聯(lián)、檢索的邏輯基礎(chǔ)和語義信息轉(zhuǎn)換的邏輯中介。目前CARS-IRMLC在我國民族地區(qū)政府機關(guān)和圖書館、檔案館、博物館等公共文化機構(gòu)具有廣泛的應(yīng)用前景。
少數(shù)民族語言;信息資源共享;計算機輔助閱讀;跨語言信息檢索;機器翻譯
目前,我國正在使用的少數(shù)民族語言在80種以上,正在使用的少數(shù)民族文字在30種左右。[1]語言文字的多樣性,在造就中華民族文化豐富多彩特征的同時,也給不同民族人群之間的相互理解帶來了諸多不便。利用信息技術(shù)消減語言文字的差異性所帶來的溝通障礙,是民族學(xué)、語言學(xué)、計算機科學(xué)、信息管理等領(lǐng)域研究人員一直試圖解決的問題。
在少數(shù)民族語言文字信息處理技術(shù)領(lǐng)域,于洪志研發(fā)了藏漢雙語信息系統(tǒng);[2]戴玉剛研發(fā)了以中文為核心的多語言基礎(chǔ)資源庫;[3]丁曉青研發(fā)了少數(shù)民族文字的統(tǒng)一識別平臺;[4]塔娜等構(gòu)建了面向跨語言信息檢索的蒙漢語義詞典;[5]艾斯卡爾·艾木都拉開發(fā)了基于維吾爾語和漢語的雙語檔案信息管理系統(tǒng);[6]由國內(nèi)多家研究機構(gòu)共同參與的國家科技支撐計劃項目“少數(shù)民族語言文字信息處理共性關(guān)鍵技術(shù)研究與示范應(yīng)用”取得多項成果。[7]
在多民族語言信息資源共享技術(shù)方面,研究人員一直寄希望于少數(shù)民族語言文字機器翻譯(Machine Translation)技術(shù)的發(fā)展和成熟。然而,由于人類自然語言的復(fù)雜性,機器翻譯的效果與人們的期望和需求還有較大的差距。受到市場規(guī)模、語料庫規(guī)模、研究人員數(shù)量、經(jīng)費支持力度等多種因素的制約,目前我國少數(shù)民族語言文字機器翻譯技術(shù)整體上還處在初級階段,研究成果也僅限于部分小型實驗系統(tǒng),無法滿足廣泛應(yīng)用的需要。在機器翻譯技術(shù)之外,發(fā)展面向讀者現(xiàn)實需求的計算機輔助跨語言閱讀體系就成為一種更為經(jīng)濟(jì)和現(xiàn)實的選擇。
少數(shù)民族語言信息資源“計算機輔助跨語言閱讀”(Computer-Aided Cross-languages Reading,CACLR)系統(tǒng)是我國民族地區(qū)政府公共服務(wù)機構(gòu)為只掌握了國家通用語言服務(wù)對象所特別設(shè)計的跨語言閱讀環(huán)境。在該環(huán)境中,用戶可以用自己熟悉的國家通用語言文字作為工具,檢索由各種少數(shù)民族語言文字生成的信息資源,閱讀和理解這些信息資源的主題和內(nèi)容,并可以根據(jù)系統(tǒng)自動生成的閱讀建議,選擇進(jìn)行人工高精度翻譯、概要瀏覽或者放棄閱讀等操作。少數(shù)民族語言信息資源計算機輔助跨語言閱讀系統(tǒng)在我國民族地區(qū)政府機關(guān)和圖書館、檔案館、博物館等公共文化機構(gòu)具有廣泛的應(yīng)用前景,也適用于互聯(lián)網(wǎng)少數(shù)民族語言信息資源的跨語言輔助閱讀,實施后對我國民族團(tuán)結(jié)的戰(zhàn)略格局將產(chǎn)生深遠(yuǎn)的影響。
對于只掌握了國家通用語言文字的用戶而言,閱讀和理解少數(shù)民族語言信息資源會遇到各類困難和障礙,如:無法了解所看到的少數(shù)民族語言信息資源的主題和內(nèi)容;無法搜集到盡可能全面的同一主題、多種語言文字的信息資源;無法判斷信息資源是否符合自己的信息需求等。這些困難和障礙是用戶基于自身知識儲備無法有效解決的,只能求助于專業(yè)的翻譯人員或相關(guān)領(lǐng)域?qū)<?;在沒有找到合適的翻譯人員或者領(lǐng)域?qū)<視r,只能暫時放棄對該信息資源的閱讀。計算機輔助閱讀則為用戶提供了一種新的選擇,改善用戶在閱讀少數(shù)民族語言信息資源時的無助感,獲得更好的閱讀體驗。一般而言,少數(shù)民族語言信息資源的跨語言閱讀需求主要有以下方面。
1.1少數(shù)民族語言信息資源的跨語言檢索需求
跨語言信息檢索(Cross-LanguageInformation Retrieval)是指用戶以自己熟悉的語言文字來構(gòu)建和提交檢索提問式,系統(tǒng)據(jù)此檢索出符合用戶需求的多個語種的相關(guān)信息??缯Z言信息檢索的出現(xiàn),主要是為了應(yīng)對互聯(lián)網(wǎng)多語言信息資源共存對信息查全性的要求,使得內(nèi)容符合用戶需要的多個語種的信息資源都可以被檢索到。作為信息檢索非常重要的研究領(lǐng)域,跨語言信息檢索從20世紀(jì)90年代中期開始得到了廣泛的關(guān)注,一些商業(yè)公司已經(jīng)可以提供英語等使用較為廣泛的語言文字的多語言信息檢索服務(wù)。在我國少數(shù)民族語言信息資源閱讀過程中,用戶同樣有著跨語言信息檢索需求,如要查詢我國少數(shù)民族節(jié)日相關(guān)信息,使用藏文、蒙古文、維吾爾文作為記錄文字的信息資源都應(yīng)該被檢索到。在現(xiàn)實生活中,用戶有少數(shù)民族語言信息資源的閱讀需求時,找到可以翻譯單一語種信息資源的專業(yè)人員相對容易,但是要找到同時熟悉多種語言文字的翻譯人員就非常困難,更不要說找到同時可以看懂?dāng)?shù)十種少數(shù)民族語言文字的人了。因此,少數(shù)民族語言信息資源跨語言檢索正是發(fā)揮了計算機在信息檢索領(lǐng)域的優(yōu)勢,使用戶通過一次檢索就可以得到盡可能全面的信息檢索結(jié)果。
1.2少數(shù)民族語言信息資源的語義提示需求
少數(shù)民族語言信息資源在閱讀過程中最大的閱讀障礙是用戶對少數(shù)民族語言文字符號的語義內(nèi)涵無法識別和理解,如果計算機能夠提供相應(yīng)的語義提示功能,則可以大幅度降低跨語言閱讀的難度。“語義提示”(Semantic Cue)與文本的精確翻譯有著很大的不同,“語義提示”一般只限定在詞匯和簡單句型層面,即可以讓用戶通過提示信息了解信息資源的主題和概要內(nèi)容,很少涉及語法問題,其技術(shù)實現(xiàn)的難度因此要低一些。語義提示的方式有多種,如利用鼠標(biāo)的懸停菜單進(jìn)行語義提示,在信息文本當(dāng)中進(jìn)行語義混雜提示以及采用源語言和目標(biāo)語言的雙語對照排列進(jìn)行語義提示等。由于“語義提示”基本上相當(dāng)于源語言和目標(biāo)語言等價語素的直接翻譯,因此,語義提示信息的位置往往不符合語法規(guī)則,順序連讀往往不能準(zhǔn)確反映源語言的真實語義,但作為一種計算機輔助閱讀的手段,這種方法基本能夠滿足瀏覽和判斷主題相關(guān)性的需求,因而也是一種可以接受的解決方案。
1.3少數(shù)民族語言信息資源的閱讀建議需求
用戶在進(jìn)行少數(shù)民族語言信息資源跨語言閱讀時,只能進(jìn)行語義信息的概要瀏覽,對于各類信息資源與用戶需求的符合程度往往不能做出精確判斷。計算機輔助閱讀則可以通過需求模型的方法有效解決這一問題。如,系統(tǒng)可以允許用戶輸入若干檢索詞并給出其權(quán)重,在檢索過程中系統(tǒng)可以計算每個信息資源中相關(guān)詞匯的詞頻信息,并根據(jù)需求模型計算出符合程度指數(shù),從而可以對檢索到的所有結(jié)果按照與需求的符合程度進(jìn)行排序。基于上述的需求符合程度指數(shù),系統(tǒng)可以進(jìn)一步為用戶自動生成閱讀建議。例如非常重要的信息資源,建議用戶找專業(yè)翻譯人員進(jìn)行高精度翻譯工作,一般性信息資源則建議用戶進(jìn)行全文瀏覽,低度相關(guān)的信息資源建議用戶瀏覽標(biāo)題和元數(shù)據(jù)進(jìn)行即可。為了減少用戶尋找專業(yè)翻譯人員的難度,系統(tǒng)同時可以通過網(wǎng)絡(luò)方式提供用戶與翻譯人員進(jìn)行相關(guān)服務(wù)提交和執(zhí)行的在線平臺。
1.4少數(shù)民族語言信息資源閱讀的文化支持需求
我國少數(shù)民族文化極其豐富多彩,傳統(tǒng)語言文字當(dāng)中蘊含了大量體現(xiàn)本民族文化特征的詞匯,這些詞匯的國家通用語言詞義往往是根據(jù)少數(shù)民族詞匯的發(fā)音進(jìn)行翻譯的,即使計算機閱讀系統(tǒng)提示了其國家通用語言的詞義,用戶還是無法準(zhǔn)確理解其內(nèi)涵。因此,少數(shù)民族語言信息資源的計算機輔助閱讀系統(tǒng)應(yīng)該為用戶的這種需求提供一定程度的支持,如可以建立少數(shù)民族文化常用術(shù)語解釋列表,檢索結(jié)果當(dāng)中提供與該術(shù)語的鏈接信息,從而幫助用戶進(jìn)一步了解該術(shù)語所描述語義對象的準(zhǔn)確信息。
1.5少數(shù)民族語言信息資源的移動輔助閱讀需求
隨著我國移動通信技術(shù)的飛速發(fā)展,移動互聯(lián)網(wǎng)已經(jīng)成為用戶進(jìn)行信息交互的重要方式,隨著時間的推移其發(fā)展空間還在日益擴大,可以預(yù)見未來基于移動通信設(shè)備的少數(shù)民族語言計算機輔助閱讀模式將成為一種新的潮流。在移動互聯(lián)網(wǎng)環(huán)境下,用戶的少數(shù)民族語言信息資源管理需求可以得到全方位的支持,如用戶在圖書館看到某語種少數(shù)民族語言文獻(xiàn)后,只要進(jìn)行簡單設(shè)定,再拍照上傳,系統(tǒng)就可以識別該文獻(xiàn)的文字信息,并啟動語義提示功能給出該文獻(xiàn)詞匯的國家通用語言的語義提示信息。移動互聯(lián)網(wǎng)使得少數(shù)民族語言信息資源計算機輔助閱讀的應(yīng)用范圍得到了拓展,用戶進(jìn)行閱讀的時間地點不再是固定的某一機構(gòu),如用戶在我國民族地區(qū)看到一個使用少數(shù)民族文字記錄的地理標(biāo)記或者在某景點看到一個少數(shù)民族文字牌匾,均可以將其拍照上傳以獲得國家通用語言文字的語義提示。
上述需求中,跨語言檢索需求、語義提示需求、閱讀建議需求和文化支持需求屬于基本需求,是少數(shù)民族語言信息資源計算機輔助閱讀系統(tǒng)開發(fā)必須考慮的問題?;谝苿油ㄐ旁O(shè)備的少數(shù)民族語言信息資源計算機閱讀輔助需求屬于高級階段的需求,要在滿足前四個基本需求情況下,相關(guān)技術(shù)和方法的發(fā)展成熟后才能完全實現(xiàn),如少數(shù)民族語言文字自動識別技術(shù),少數(shù)民族語言信息資源語義信息的自動檢索和標(biāo)注技術(shù)等,因而可以認(rèn)為是一種未來的目標(biāo)模式。
少數(shù)民族語言信息資源計算機輔助閱讀的關(guān)鍵任務(wù)是研究和開發(fā)“少數(shù)民族語言信息資源計算機輔助閱讀系統(tǒng)”(CARS-IRMLC),該系統(tǒng)實現(xiàn)信息資源跨語言檢索和少數(shù)民族語言國家通用語言語義提示的主要原理是基于專門構(gòu)建的多民族語言“簡化通用語義代碼體系”(Simplified Universal Semantic Code System,SUSCS)。
2.1多語言語義轉(zhuǎn)換的主要方法
計算機輔助跨語言閱讀的關(guān)鍵是實現(xiàn)不同語種語言文字等價語素之間的語義轉(zhuǎn)換,目前在機器翻譯領(lǐng)域常用的技術(shù)手段主要有:機讀雙語詞典(Machine-Read Bilingual Dictionary)、雙語語料庫(Bilingual Corpus)、多語言敘詞表(Multilingual Thesauri)、多語言本體(Multilingual Ontology)等,這些方法主要是為實現(xiàn)語言文字的對等翻譯而設(shè)計的,需要有專門的語言學(xué)知識作為基礎(chǔ),并且要經(jīng)過長期的積累和優(yōu)化才能最終投入應(yīng)用。我國少數(shù)民族語言文字機器翻譯技術(shù)目前還處在初級階段,能夠支持機器翻譯的技術(shù)資源非常少,為了實現(xiàn)少數(shù)民族語言信息資源跨語言輔助閱讀需求,本文以各少數(shù)民族語言文字雙語詞典為基礎(chǔ),提出了一種基于通用代碼體系實現(xiàn)多語種信息語義轉(zhuǎn)換的方法。
2.2通用語義代碼的概念與功能
“通用語義代碼”是對“通用語義空間”(Universal Semantic Space)的一種形式化表述方式。這里的“通用語義空間”,是指人類社會的各種自然語言所描述的語義對象及其關(guān)系所構(gòu)成的虛擬空間,是客觀世界和思維活動各類語義對象的總和?!巴ㄓ谜Z義空間”與各種自然語言的“語義空間”之間是“表現(xiàn)”和“映射”關(guān)系:一方面,通用語義空間是一種觀念意義上的空間,它無法脫離自然語言空間而獨立存在,通用語義空間的語義對象必須通過某種具體的自然語言才能展現(xiàn)出來從而被人們所理解;另一方面,任何一種自然語言本質(zhì)上是對“通用語義空間”進(jìn)行映射的結(jié)果,相當(dāng)于以某種具體的自然語言所展現(xiàn)的“通用語義空間”視圖。從“通用語義空間”視角看來,機器翻譯方法實際上是實現(xiàn)“通用語言空間”不同語種“自然語言視圖”的切換過程。那么,如果可以用代碼表達(dá)通用語義空間的語義對象,并基于這一代碼,實現(xiàn)多個自然語言視圖當(dāng)中等價語素的語義關(guān)聯(lián),則可以非常方便地實現(xiàn)這些等價語素不同語種語義之間的切換,可以大大降低不同語種語言文字等價語素轉(zhuǎn)換的難度和執(zhí)行速度。綜上所述,“通用語義代碼”(Universal Semantic Code,USC)是一種為實現(xiàn)多語言信息交流而專門設(shè)計的人工編碼體系,該體系獨立于任何一種具體的自然語言,其存在主要是為多種自然語言同義語素的定位和關(guān)聯(lián)提供邏輯基礎(chǔ),也是多種自然語言一體化信息檢索和語義共享的邏輯中介(見圖1)。
圖1 多語言通用語義代碼的技術(shù)原理
2.3多民族語言簡化通用語言代碼體系概述
“多民族語言通用語義代碼體系”是專門針對我國多民族語言信息資源共享需求而設(shè)計的代碼體系,是實現(xiàn)我國多民族語言信息資源語義轉(zhuǎn)換的核心技術(shù)和基礎(chǔ)資源。鑒于通用語義代碼設(shè)計工作的復(fù)雜性和長期性,在研究初期可以根據(jù)需求對通用語義代碼體系進(jìn)行適度簡化,如,通用語義編碼主要針對等價詞匯和常用等價例句,原則上不對語法現(xiàn)象進(jìn)行編碼,從而大大降低了編碼體系構(gòu)建工作的難度。本文將這種經(jīng)過了適度簡化的人工編碼體系稱為“多民族語言簡化通用語義代碼體系”(Simplified Universal Semantic Code System,SUSCS)。
“通用語義代碼”本身并沒有任何特殊含義,其建構(gòu)必須以某種具體的自然語言作為語義參照對象,結(jié)合我國語言文字工作的總體規(guī)劃,多民族語言通用語義代碼體系的構(gòu)建應(yīng)當(dāng)以國家通用的漢語和規(guī)范漢字作為參照語言文字。因此,對少數(shù)民族語言信息資源進(jìn)行“簡化通用語義代碼體系”(SUSCS)的標(biāo)注,本質(zhì)上是參照國家通用語言文字進(jìn)行語義映射的過程,因而也是以國家通用語言文字為核心的多民族語言信息資源共享體系的實現(xiàn)方式。
根據(jù)現(xiàn)實需求,我國多民族語言“簡化通用語義代碼體系”擬采用開放式結(jié)構(gòu)設(shè)計,初期主要進(jìn)行國家通用語言文字和蒙古語、藏語、維吾爾語、哈薩克語、柯爾克孜語、壯語、傣語、朝鮮語等使用人口較多,具有較大社會影響力的少數(shù)民族語言文字(少數(shù)民族語言的古代文字暫不在研究范疇)的統(tǒng)一編碼,今后根據(jù)實際需要可以繼續(xù)補充其他語種的少數(shù)民族語言文字。
基于通用語義代碼的語義轉(zhuǎn)換是一種新的視角和方法,為了驗證這種方法的可行性,筆者進(jìn)行了小規(guī)模的探索性實驗。選取國家通用語言100個詞匯按照數(shù)字1~100進(jìn)行語義編碼,對藏文和蒙古文的同義詞進(jìn)行關(guān)聯(lián);分別用藏文和蒙古文的上述詞匯組成簡單句子,再進(jìn)行語義編碼標(biāo)注,最后采用國家通用語言文字關(guān)鍵詞進(jìn)行檢索,相同語義不同語言的多個文檔均可檢索到。實驗結(jié)果表明,采用簡化通用語義代碼體系進(jìn)行跨語言信息檢索在原理上是可行的。
根據(jù)少數(shù)民族語言信息資源計算機輔助閱讀的需求結(jié)構(gòu)和技術(shù)原理,少數(shù)民族語言信息資源計算機輔助閱讀系統(tǒng)(CARS-IRMLC)的體系架構(gòu)見圖2。在圖2當(dāng)中,CARS-IRMLC系統(tǒng)主要分為基礎(chǔ)代碼、預(yù)處理、閱讀輔助、信息輸出等環(huán)節(jié),每個環(huán)節(jié)又細(xì)分為多個模塊,主要研究內(nèi)容如下。
圖2 CARS-IRMLC系統(tǒng)總體架構(gòu)
3.1基礎(chǔ)代碼體系
SUCSC是少數(shù)民族語言信息資源計算機輔助閱讀系統(tǒng)建設(shè)的關(guān)鍵,決定了整個體系建設(shè)的成敗。鑒于通用語義代碼設(shè)計工作的復(fù)雜性和長期性,本項目擬根據(jù)研究需求對通用語義代碼體系進(jìn)行適度簡化,設(shè)計依據(jù)主要是國家通用語言與各語種少數(shù)民族語言的雙語詞典。參照國家通用語言文字詞典建立基本代碼體系,各少數(shù)民族語言的同義語素根據(jù)雙語詞典與通用語義代碼進(jìn)行關(guān)聯(lián),形成以國家通用語言為參照的多語言同義詞表,同時選取部分常用同義句進(jìn)行統(tǒng)一編碼,原則上不對各類語言文字語法規(guī)則進(jìn)行編碼。需要說明的是,實驗過程中所使用的“簡化通用語義代碼體系”是根據(jù)各類語言的高頻詞匯和句例制作的原型系統(tǒng),目的是驗證技術(shù)原理的可行性,在應(yīng)用和推廣之前還需要進(jìn)行大規(guī)模補充完善和持續(xù)進(jìn)化。
3.2預(yù)處理功能
預(yù)處理是實現(xiàn)少數(shù)民族語言信息資源計算機輔助閱讀的前提,主要包括技術(shù)預(yù)處理和語義標(biāo)注等工作。技術(shù)性預(yù)處理主要包括:①對以紙質(zhì)文檔存在的少數(shù)民族語言信息資源進(jìn)行數(shù)字化加工,結(jié)合文字識別技術(shù)和人工轉(zhuǎn)錄方法,將其轉(zhuǎn)換為計算機可以處理的少數(shù)民族語言文本文件;②為了保證多語種少數(shù)民族語言文字的正常顯示,需要將各語種信息資源按照GB18030信息編碼標(biāo)準(zhǔn)進(jìn)行轉(zhuǎn)換,以保證其兼容性;③為了便于進(jìn)行信息處理,需要將各種應(yīng)用軟件產(chǎn)生的文本格式統(tǒng)一轉(zhuǎn)換為TXT格式。通用語義代碼標(biāo)注是實現(xiàn)計算機輔助閱讀的基礎(chǔ)工作,主要通過三種方式完成:①自動標(biāo)注,由程序調(diào)用多語言通用語義代碼體系完成自動標(biāo)注,工作精度較低;②人工標(biāo)注,在標(biāo)注程序輔助下由人工完成對語義的精確標(biāo)注,工作速度較慢;③混合標(biāo)注,由程序完成基礎(chǔ)標(biāo)注,人工方式進(jìn)行確認(rèn)和修改。
3.3閱讀輔助功能
閱讀輔助功能是系統(tǒng)的主要建設(shè)目標(biāo),包括跨語言檢索、語義提示、用戶建議、文化支持等部分。
(1)少數(shù)民族語言信息資源跨語言信息檢索算法及實現(xiàn)。主要基于多民族語言簡化通用語義代碼體系,實現(xiàn)跨語言信息資源檢索。如,以國家通用語言文字為檢索詞,程序首先查找該檢索詞的SUSCS編碼,然后在系統(tǒng)中查找所有標(biāo)注為該編碼的信息資源,而不論其采用的是何種語言文字。
(2)少數(shù)民族語言信息資源通用語義提示功能的實現(xiàn)。國家通用語言語義提示是實現(xiàn)少數(shù)民族語言信息資源計算機輔助閱讀的主要方式,基于查詢SUSCS編碼表當(dāng)中的多語言同義語素關(guān)聯(lián)表來實現(xiàn),語義提示主要基于三種模式:①標(biāo)簽提示模式。閱讀過程中鼠標(biāo)滑過的文字以標(biāo)簽形式現(xiàn)實其國家通用語言文字語義;②混雜文本模式。文本當(dāng)中的少數(shù)民族語言詞語之后括號內(nèi)顯示其國家通用語言文字語義;③雙語對照模式。以段或篇為單位,分別顯示少數(shù)民族語言文字和國家通用語言文字語義。
(3)少數(shù)民族語言信息資源用戶需求符合程度評價與建議功能實現(xiàn)。CARS-IRMLC系統(tǒng)允許用戶輸入多個國家通用語言文字的關(guān)鍵詞并設(shè)定其詞頻閥值,在進(jìn)行跨語言檢索過程中,自動計算上述數(shù)據(jù),根據(jù)結(jié)果為用戶提供閱讀建議。系統(tǒng)可以提供的閱讀決策主要有三類:①高度符合。說明該信息資源對用戶非常重要,建議用戶將文本提交給專業(yè)的人工翻譯人員進(jìn)行高精度人工翻譯。②中度相關(guān)。說明該信息資源與用戶需求有一定關(guān)聯(lián),但是需求強度還不足以達(dá)到閥值,建議用戶逐一進(jìn)行全文瀏覽以判斷相關(guān)資源的取舍。③低度相關(guān)。說明該信息資源主題與用戶需求可能有一些聯(lián)系,建議用戶進(jìn)行標(biāo)題等元數(shù)據(jù)項的快速瀏覽以判斷其取舍。
(4)少數(shù)民族語言信息資源輔助閱讀文化支持功能的實現(xiàn)。文化支持功能是屬于在用戶了解少數(shù)民族語言信息資源通用語義提示信息的基礎(chǔ)上,為了幫助其準(zhǔn)確理解相關(guān)文化類詞匯的含義而提供的延伸性服務(wù),其實現(xiàn)方式主要是建立各少數(shù)民族語言文字特殊術(shù)語詞匯的解釋性列表,提供該詞匯與外部知識資源之間的鏈接,從而使其閱讀時可以進(jìn)行參考,幫助其理解這些術(shù)語的內(nèi)涵和性質(zhì)。
3.4用戶界面
少數(shù)民族語言信息資源計算機輔助閱讀系統(tǒng)用戶界面設(shè)計,系統(tǒng)根據(jù)用戶使用系統(tǒng)的不同情境設(shè)計三種種類的用戶界面。①文獻(xiàn)閱讀器界面。主要適用于圖書館、檔案館、博物館等文獻(xiàn)信息資源數(shù)量較多的機構(gòu)提供少數(shù)民族語言信息資源服務(wù)時使用。②網(wǎng)絡(luò)瀏覽器界面。即少數(shù)民族語言網(wǎng)絡(luò)信息資源閱讀器插件,用戶使用Internet Explore等網(wǎng)絡(luò)瀏覽軟件訪問少數(shù)民族語言文字網(wǎng)頁的時候,只要加載該插件即可進(jìn)行國家通用語言語義提示,并給出網(wǎng)頁的閱讀建議。③移動設(shè)備閱讀器界面。根據(jù)移動通信設(shè)備顯示信息的特點,設(shè)計符合用戶使用習(xí)慣的輔助閱讀界面,使用戶可以遠(yuǎn)程接受公共信息機構(gòu)的輔助閱讀服務(wù)。
CARS-IRMLC系統(tǒng)主要是針對少數(shù)民族語言信息資源跨語言輔助閱讀基本需求,基于計算機網(wǎng)絡(luò)環(huán)境而設(shè)計的。在系統(tǒng)各項關(guān)鍵技術(shù)取得突破并基本成熟之后,筆者擬基于這些技術(shù)探索基于個人移動通信設(shè)備的少數(shù)民族語言信息資源輔助閱讀系統(tǒng),用戶的移動通信設(shè)備裝載了該系統(tǒng),可以隨時隨地將看到的少數(shù)民族語言信息資源拍照并上傳到系統(tǒng),系統(tǒng)根據(jù)文字識別等技術(shù)進(jìn)行預(yù)處理并基于SUSCS進(jìn)行閱讀輔助,給用戶反饋通過國家通用語言文字語義提示并提供閱讀建議。由于該系統(tǒng)可以實現(xiàn)中國多民族語言文字的語義共享,暫定名為“中文通”。
[1]中華人民共和國國務(wù)院新聞辦公室.中國的民族政策與各民族共同繁榮發(fā)展[M].北京:人民出版社,2009,32.
[2]于洪志,王曉軍.藏漢雙語信息處理系統(tǒng)概述[J].西北民族學(xué)院學(xué)報(自然科學(xué)版),1998(1):1-4.
[3]戴玉剛,何向真.通用藏文模板設(shè)計[J].西北民族學(xué)院學(xué)報,2005(3):29-34.
[4]清華大學(xué)新聞網(wǎng).統(tǒng)一平臺少數(shù)民族文字識別系統(tǒng)在清華大學(xué)研制成功[EB/OL].[2015-02- 08].http://news.tsinghua.edu.cn/new/news.php?id=14 712.
[5]塔娜,等.面向跨語言信息檢索的蒙漢語義詞典構(gòu)建[C]//第三屆全國少數(shù)民族青年自然語言信息處理學(xué)術(shù)研討會論文集.北京:中央民族大學(xué)出版社,2002:12-15.
[6]劉登峰,艾斯卡爾·艾木都拉.維、漢多語種檔案信息管理系統(tǒng)[J].計算機工程,2008(20): 263-268.
[7]中華人民共和國科技部網(wǎng)站.信息技術(shù)領(lǐng)域“以中文為核心的多語言處理技術(shù)”重點項目[EB/OL].[2015-02-08].http://www.most.gov.cn/tztg/t2006 1001_36442.htm.
The Architecture Design of the Computer-assisted Reading System of Minority Language Information Resources
Zhao Sheng-hui
It is an urgent need to remove the communication barriers dues to language difference with the application of information technologies in information resources management in ethnic minority residence regions of China.Besides Machine Translation technology,Computer-assisted Cross-Language Reading System(CARS-IRMLC)refers to the specially designed cross-language reading environment which public service institutions of minority residence regions provided for their customers who only master national common language.CARS-IRMLC takes Simplified Semantic Code System as the logic medium for positioning,linking and retrieval of synonyms morphemes of multiple minority languages of China,as well as logic intermediary for semantic information transformation.CARS-IRMLC can be widely used in government offices,libraries,archives,museums and other public cultural institutions in minority residence regions of China.
Minority Languages of China;Information Resources Sharing;Computer-assisted Reading;Cross-language Information Retrieval;Machine Translation
G250.78
A
1005-8214(2016)10-0072-05
本文系國家社科基金項目“多民族語言信息資源跨語種共享策略研究”(項目編號:14BTQ008),中國博士后科學(xué)基金項目“多民族語言信息共享域的架構(gòu)模型與規(guī)劃方法研究”(項目編號:2014M561634),中國博士后科學(xué)基金特別資助項目“多民族語言信息資源輔助閱讀系統(tǒng)原型設(shè)計與開發(fā)研究”(項目編號:2015T80539)的階段性成果。
趙生輝(1977-),男,陜西寶雞人,西藏民族大學(xué)管理學(xué)院公共管理系副教授,研究方向:民族信息學(xué)、數(shù)字人文、電子政務(wù)等。
2016-02-03[責(zé)任編輯]菊秋芳