張彥文
(桂林電子科技大學(xué)圖書館,廣西 桂林 541004)
多語言數(shù)字圖書館是具有一種語言以上館藏資源,或者能夠提供單一語言館藏的多語言查詢訪問的數(shù)字圖書館。盡管多語言數(shù)字圖書館的大量工作還側(cè)重于可行性研究、原型系統(tǒng)開發(fā)、設(shè)計(jì)方案和建設(shè)規(guī)劃,但也已有投入運(yùn)行的多語言數(shù)字圖書館系統(tǒng)[1]。含有50 種語言的兒童文學(xué)館藏的國際兒童數(shù)字圖書館(International Children’s Digital Library,ICDL)于2006年4月投入使用。聯(lián)合國教科文組織(United Nations Educational,Scientific and Cultural Organization,UNESCO)和美國國會圖書館(United States Library of Congress)共同運(yùn)營的世界數(shù)字圖書館(World Digital Library,WDL),具有西班牙語、英語、中文、葡萄牙語、俄語、法語和阿拉伯語等7 種語言查詢功能,于2009年4月21日開始創(chuàng)建,中國國家圖書館是WDL 的合作伙伴。Europeana 是提供48個歐盟國家及許多研究機(jī)構(gòu)圖書館資源網(wǎng)絡(luò)訪問、語言種類達(dá)35 種之多的多語言數(shù)字圖書館,于2008年11月開始創(chuàng)建。由海地、阿魯巴、巴哈馬群島、伯利茲、牙買加、委內(nèi)瑞拉、波多黎各、美國佛羅里達(dá)大學(xué)等36 家單位聯(lián)合創(chuàng)建的加勒比海數(shù)字圖書館(The digital library of the Caribbean,dLOC),館藏有中文、英語、德語、法語、西班牙語、意大利語、日語、丹麥語、約魯巴語、希伯來語、阿姆哈拉語、拉丁語等語言的加勒比海文化、歷史和科研資料。在線經(jīng)濟(jì)學(xué)家(Economists Online)是由20 余家歐盟成員國大學(xué)和研究機(jī)構(gòu)聯(lián)合創(chuàng)建的專業(yè)性質(zhì)的多語言數(shù)字圖書館。它提供了英語、德語、法語和西班牙語共四種語言的查詢,館藏為具有這四種語言表述的學(xué)術(shù)論文索引、文獻(xiàn)全文和經(jīng)濟(jì)數(shù)據(jù)庫等。虛擬藝術(shù)史典藏(The Virtual Catalogue for Art History)artlibraries.net,提供多個歐洲藝術(shù)學(xué)院和研究院的書目記錄(或藝術(shù)史數(shù)據(jù)庫)的集成檢索。為了達(dá)到歐洲范圍全面合作并服務(wù)于國際藝術(shù)史團(tuán)體,合作伙伴將擴(kuò)展至英國和斯堪的納維亞半島、其他南歐和東歐的歐盟國家的科研機(jī)構(gòu)和學(xué)院。
多語言數(shù)字圖書館是數(shù)字圖書館的一種新的拓展形式。元數(shù)據(jù)記錄翻譯、多語言主題詞表、實(shí)驗(yàn)系統(tǒng)、原型系統(tǒng)開發(fā)、用戶中心研究等都是多語言數(shù)字圖書館的研究熱點(diǎn)。文章對此進(jìn)行討論。
多語言數(shù)字圖書館的重要特征在于具備兩種或兩種以上不同語言的信息查詢。為了達(dá)到此目的,需要跨越語言障礙實(shí)現(xiàn)不同語言表述下信息需求(查詢提問式)和內(nèi)容(文獻(xiàn)資料)的匹配。從跨語言信息檢索角度講,跨越語言障礙有多種方法??梢詫⑻釂柺椒g成文獻(xiàn)資料的語言,可以將文獻(xiàn)資料翻譯成提問式的語言,也可以將提問式和文獻(xiàn)資源翻譯成中介語言表述。
元數(shù)據(jù)記錄翻譯方法是多語言數(shù)字圖書館研究中提出的一種新的翻譯方法。Lee 等在開發(fā)中文、日語、韓語、英語信息資源收集的主題詞網(wǎng)關(guān)服務(wù)IPL-Asia(Internet Public Library Asia)中,將多語言表述為元數(shù)據(jù)規(guī)范Dublin Core 和IEEE LOM 記錄,元數(shù)據(jù)記錄用XML 編碼、存儲和顯示,實(shí)現(xiàn)了多語言的元數(shù)據(jù)記錄翻譯。該方法無需翻譯整個文獻(xiàn)資源,元數(shù)據(jù)記錄翻譯會提高系統(tǒng)的效率。這種方法尤其適用于僅具有條目或元數(shù)據(jù)描述的圖片和其他非文本館藏。同源詞(兩種語言共享的詞匯,如:專有名詞)匹配是解決多語言障礙另外一種方法,這種方法適合于具有相同語言字母系統(tǒng)的情形。翻譯知識對于各種翻譯方法的實(shí)現(xiàn)有非常好的助推作用,這些知識可以來自于多語言詞典、本體和機(jī)器翻譯系統(tǒng),也可以對文本語料庫進(jìn)行統(tǒng)計(jì)分析來抽取。Larson 等對加州大學(xué)圖書館的上億條編目進(jìn)行術(shù)語翻譯創(chuàng)建了一個可以定制的多語言詞典。對于多語言內(nèi)容和域符(標(biāo)題、主題詞等)的信息資源,Clinchant 和Renders 對傳統(tǒng)語言模型方法進(jìn)行擴(kuò)展,將目標(biāo)館藏文獻(xiàn)資源定義為元詞匯的一個概率分布(元詞匯是英語、法語和德語三種語言詞匯的并集),這樣每一個館藏文獻(xiàn)就對應(yīng)唯一的索引。對于某源語言的查詢提問式,通過元詞典(含源語言自身),即每一個詞匯在源語言中的概率轉(zhuǎn)移矩陣,構(gòu)造該查詢的多語言模型,進(jìn)而實(shí)現(xiàn)目標(biāo)文獻(xiàn)的多語言模型的比較。
數(shù)字圖書館系統(tǒng)的信息資源組織和管理有賴于自身的知識組織系統(tǒng),它包括分類表、主題標(biāo)目、標(biāo)準(zhǔn)檔、語義網(wǎng)絡(luò)、本體等。關(guān)鍵詞和主題詞是信息資源的重要索引詞。關(guān)鍵詞出自于書目記錄或信息資源全文,主題詞則是編目人員或主題詞專家對館藏的加注,后者提供了高質(zhì)量的信息資源訪問接入點(diǎn)。多語言主題詞表是多語言數(shù)字圖書館中創(chuàng)建和組織這些知識所必需的組織系統(tǒng)。Schiel 等定義了一個矩形多語言主題詞表,給出了其構(gòu)造的三個步驟:利用單語言詞典,抽取一個或多個文獻(xiàn)的術(shù)語,并確定抽象概念(半自動索引);生成一個或多個矩形;對已有多語言主題詞表最優(yōu)插入新的矩形。這一多語言主題詞表的半自動創(chuàng)建方法,允許用戶交互式剔除歧義。Yang 等給出了自動構(gòu)造跨語言主題詞表的一種關(guān)聯(lián)約束網(wǎng)絡(luò)方法,所得到的跨語言主題詞表可以將查詢從一種語言擴(kuò)展到其他語言,從而實(shí)施用戶跨語言搜索。此外,該跨語言主題詞表可用于建立不同語言文本分類項(xiàng)的關(guān)聯(lián)以支持跨語言文本分類。多語言主題詞表的其他相關(guān)研究工作有:Calvanese 等闡述了多語言主題詞表中的概念在查詢處理中的邏輯關(guān)系。Nikolai 等給出了多語言異構(gòu)主題詞表的一種集成框架。這些主題詞表可用于檢索中的索引和瀏覽。在醫(yī)學(xué)領(lǐng)域,Lu 等開發(fā)了醫(yī)學(xué)主題標(biāo)目MeSH 的中文翻譯,以對中文用戶提供醫(yī)學(xué)網(wǎng)站的訪問。Smits 等對能否得到復(fù)合各種結(jié)構(gòu)的單一公共本體進(jìn)行了探討,結(jié)果發(fā)現(xiàn)創(chuàng)建這樣一個結(jié)構(gòu)是不現(xiàn)實(shí)的。Sheridan 等從法律領(lǐng)域的平行語料庫自動創(chuàng)建了一個相似性主題詞表。盡管該結(jié)構(gòu)不是一個嚴(yán)格意義上的主題詞表,高度相關(guān)的多語言術(shù)語組能夠較好地?cái)U(kuò)展多語言術(shù)語的單語言查詢。Monroy 等通過一個多語言詞匯表和一個本體,實(shí)現(xiàn)了多語言信息資源的混合翻譯。
與多語言數(shù)字圖書館相關(guān)的多語言信息訪問研究的共性問題是:應(yīng)用案例評價(jià);更多語言和媒體類型的擴(kuò)展研究;實(shí)際開發(fā)中的經(jīng)驗(yàn)提升。系統(tǒng)研究人員通過構(gòu)建實(shí)驗(yàn)系統(tǒng)來研究和驗(yàn)證所建立的方法。始于1997年的文本檢索會議TREC(Text REtrieval Conference)就開始了跨語言評價(jià),專門用來研究跨語言信息檢索評價(jià)的會議是始于1999年的亞洲語言信息檢索評測會議NTCIR(NACSIS Test Collections for IR),以及2000年開始的跨語言評價(jià)論壇CLEF(Cross-Language Evaluation Forum)。CLEF使用歐盟國家語言,所開展的工作愈來愈貼近現(xiàn)實(shí)和實(shí)際。長期的評價(jià)研究獲得了大量的可供未來研究參考的科學(xué)數(shù)據(jù)。Agosti 等建議創(chuàng)建一個以所有這些數(shù)據(jù)為館藏的數(shù)字圖書館。系統(tǒng)評價(jià)對研究人員來說是個挑戰(zhàn),激勵人們開展更加專門和深入的研究。多語言數(shù)字圖書館開發(fā)團(tuán)隊(duì)更樂意于語用評價(jià),因?yàn)閹缀醪恍枰薷南到y(tǒng),研究結(jié)果就可以直接進(jìn)入應(yīng)用。
查詢提問式翻譯是跨越語言障礙的常用方法之一,也非常適合于多語言數(shù)字圖書館。Wang 等給出了一個查詢提問式翻譯系統(tǒng),該系統(tǒng)可連接到任何單語言(中文或英語)內(nèi)容數(shù)字圖書館。該系統(tǒng)通過挖掘網(wǎng)頁來翻譯詞典未出現(xiàn)的術(shù)語(新術(shù)語、專用名詞)。盡管研究人員認(rèn)為該系統(tǒng)具有非常好的應(yīng)用前景,但是目前還沒有出現(xiàn)在任何實(shí)際應(yīng)用系統(tǒng)。Bosca 和Dini 開展了另一項(xiàng)查詢提問式翻譯研究,所開發(fā)的系統(tǒng)采用多種方法來擴(kuò)展查詢提問式的術(shù)語,CLEF 測評結(jié)果表明:該系統(tǒng)表現(xiàn)出了良好性能。Clinchant 和Renders 在CLE 測評F 實(shí)驗(yàn)中力圖應(yīng)用多語言查詢提問式翻譯來獲得多語言文檔(含有一種以上語言的文檔),但是并沒有看到改善檢索結(jié)果的跡象。相關(guān)方面的研究工作還有:Braschler 和Ferro 開展了兩種翻譯方法(查詢或記錄)的選擇及其復(fù)合的可行性研究。Kanazawa 等進(jìn)行了查詢翻譯技術(shù)的實(shí)驗(yàn)研究。Yang 等對主題詞表自動構(gòu)建的兩種算法進(jìn)行了研究,并同早期技術(shù)進(jìn)行了比較。Azzopardi 等給出了一個生成模擬已知項(xiàng)查詢的模型,并開展了實(shí)驗(yàn)研究,其實(shí)驗(yàn)系統(tǒng)優(yōu)于實(shí)際人工查詢,可用于系統(tǒng)測試和用戶查詢行為模擬。
多語言數(shù)字圖書館研究的另一條途徑是對欲建立的最終系統(tǒng)開展原型研究。Smits 和Friis-Christensen 開展了不同本體集的原型實(shí)驗(yàn)研究,驗(yàn)證了方法的不可行。Larson 等利用原型系統(tǒng),基于大型圖書館藏目錄的數(shù)據(jù)挖掘,創(chuàng)建了一個多語言概念影射資源。Bamman 對將結(jié)構(gòu)信息(如:XML 標(biāo)簽、章節(jié)信息)從源文檔轉(zhuǎn)換為目標(biāo)(翻譯)文檔的一種方法進(jìn)行了測評,該方法可以達(dá)到更高準(zhǔn)確度。Ferber測評了一個基于文檔標(biāo)題自動加注主題詞的系統(tǒng),該系統(tǒng)采用了一組含有手工加注主體標(biāo)目的文檔用以確定新文檔的敘詞,結(jié)果表明了方法的可行性。
大量的多語言數(shù)字圖書館研究似乎都是從系統(tǒng)角度開展的。盡管如此,也有一些以用戶為中心的研究工作。Bilal 和Bachir 開展了國際兒童數(shù)字圖書館兒童用戶的兩方面相關(guān)研究。第一項(xiàng)研究是測評界面設(shè)計(jì);第二項(xiàng)研究是觀測兒童主體搜索,通過小組會談?wù){(diào)查研究主體信息搜索行為。Stafford 等對雙語言主題詞表界面Searchling 進(jìn)行了定性研究。通過“15個用戶執(zhí)行3 項(xiàng)結(jié)構(gòu)化任務(wù)”實(shí)驗(yàn)設(shè)計(jì),測評了系統(tǒng)對查詢表述的輔助作用。Cousins 研究了訪問門戶對用戶的影響。Clough 和Sanderson 對其跨語言圖像檢索系統(tǒng)通過兩項(xiàng)搜索任務(wù)開展了用戶實(shí)驗(yàn)研究。
多語言數(shù)字圖書館的大量研究出自歐盟,原因在于國家間的協(xié)作是歐盟的基礎(chǔ),跨語言信息交流是他們?nèi)粘I钪斜夭豢缮俚牟糠?。為此,歐盟實(shí)施了一系列的相關(guān)研究計(jì)劃。歐盟CACAO(cross-language access to catalogues and online libraries)計(jì)劃實(shí)現(xiàn)了用戶在線編目的跨語言信息檢索,用戶可以通過一種歐盟國家語言提問查詢,檢索出其他歐盟國家語言的文本資源。這一多語言體系結(jié)構(gòu)集成到了后期的歐盟數(shù)字圖書館項(xiàng)目Europeana。DELOS卓越網(wǎng)絡(luò)(DELOS Network of Excellence)計(jì)劃著力于數(shù)字圖書館的全面研究,開發(fā)了數(shù)字圖書館相關(guān)的幾乎所有技術(shù)。DelosDLM 就是其中的技術(shù)之一,它是一個支持多語言的模塊化數(shù)字圖書館管理系統(tǒng)。歐盟LAURIN 計(jì)劃創(chuàng)建了數(shù)字化多語言報(bào)紙剪貼的數(shù)字圖書館。報(bào)紙文章通過多語言詞典來搜索查詢。MultiMatch 計(jì)劃開發(fā)了一個多語言多媒體文化遺產(chǎn)的搜索引擎。Rastko 計(jì)劃實(shí)現(xiàn)了塞爾維亞文化館藏的訪問。MTIR 是一個中英文信息檢索系統(tǒng),它使用雙語言詞典和翻譯系統(tǒng)來實(shí)現(xiàn)查詢提問式翻譯。多翻譯選項(xiàng)通過術(shù)語協(xié)同出現(xiàn)信息來消除歧義。檢索出的文檔利用機(jī)器翻譯進(jìn)行翻譯。由于系統(tǒng)設(shè)計(jì)目的在于Web 用戶,機(jī)器翻譯基于網(wǎng)頁標(biāo)簽來實(shí)施。該系統(tǒng)采用了HTTP 協(xié)議,便于集成到Web 應(yīng)用,能夠?qū)崿F(xiàn)雙語言在線搜索。
SPIRIT(Syntactic and Probabilistic Indexing and Retrieval of Information in Texts)是上世紀(jì)80年代開發(fā)出的一個單語言、英語和法語雙語言系統(tǒng),目前擴(kuò)展為跨語言系統(tǒng)。該系統(tǒng)中,采用重描述規(guī)則將源語言查詢提問式表述為所有可能的目標(biāo)語言查詢提問式,通過文獻(xiàn)匯編實(shí)現(xiàn)所翻譯查詢的消歧。Eurovision 是一個跨語言圖片檢索系統(tǒng),它利用機(jī)器翻譯將查詢翻譯成英語,并用來查詢圖片的英語圖注說明。SIS-TMS 是一個詞典管理系統(tǒng),允許用戶存儲和訪問多個多語言詞典??缯Z言信息檢索有時通過多語言詞典實(shí)現(xiàn)源語言到目標(biāo)語言轉(zhuǎn)換,SIS-TMS對此就非常有用。SyDoM 是一個多語言文檔系統(tǒng),它使用多語言本體來確定文本索引中術(shù)語的選取。
多語言數(shù)字圖書館是數(shù)字圖書館的未來發(fā)展方向。作為信息資源與信息技術(shù)的融合,多語言數(shù)字圖書館研究涵蓋了多語言信息資源管理、多語言數(shù)字圖書館門戶、多語言信息檢索、多語言元數(shù)據(jù)描述、多語言問答系統(tǒng)、多語言文本挖掘、多語言信息翻譯、多語言主題詞表、多語言知識組織等諸多領(lǐng)域。這些研究工作的開展需要計(jì)算機(jī)、圖書館學(xué)、藝術(shù)學(xué)、語言學(xué)、自然語言處理、智能科學(xué)以及信息處理等多學(xué)科的支持。
多語言數(shù)字圖書館的現(xiàn)有數(shù)目還不多,但是其數(shù)量正在不斷增長。創(chuàng)建一個多語言數(shù)字圖書館往往需要不同地區(qū)、不同國家、不同組織和不同領(lǐng)域?qū)<业膮f(xié)同合作。建立和健全多語言數(shù)字圖書館系統(tǒng)創(chuàng)建中的合作機(jī)制及規(guī)范,具有非常重要的意義。
[1]Anne Diekema. Multilinguality in the Digital Library:A Review[J]. Electronic Library,2012(2):165-181.
[2]Kazuaki Kishida.Technical issues of cross-language information retrieval:a review[J]. Information Processing & Management,2005(41):433-455.
[3]吳丹,李瑞芬.跨語言信息檢索技術(shù)應(yīng)用與研究進(jìn)展[J].情報(bào)科學(xué),2006(9):1435-1440.
[4]Van Oudenaren J. Connecting the World,Responding to User Needs[J]. Information Outlook,2010(14):10-12.
[5]Lee W,Sugimoto S,Nagamori M,Sakaguchi T,Tabata K. A subject gateway in multiple languages:a prototype development and lessons learned[C]. Proceedings of the 2003 international conference on Dublin Core and metadata applications:supporting communities of discourse and practice——metadata research & applications,2003:1-10.
[6]Larson R R,Gey F,Chen A. Harvesting translingual vocabulary mappings for multilingual digital libraries[C]. Proceedings of the 2nd ACM/IEEE-CS joint conference on Digital libraries.2002.
[7]Clinchant S,Renders J-M.(2009)Multi-language models and meta-dictionary adaptation for accessing multilingual digital libraries[C]. Proceedings of the 9th Crosslanguage evaluation forum conference on Evaluating systems for multilingual and multimodal information access.2009.
[8]Schiel U,Sousa I M S F D. Interactive indexing of documents with a multilingual thesaurus[C].Effective databases for text & document management.IGI Publishing,2003.