鮑麗倩 張自然
[摘要]首先對(duì)跨語(yǔ)言信息檢索和相關(guān)技術(shù)進(jìn)行了介紹,了解當(dāng)前跨語(yǔ)言信息檢索技術(shù)的不足,然后闡述了傳統(tǒng)跨語(yǔ)言信息檢索技術(shù)在數(shù)字圖書(shū)館應(yīng)用中的局限性,并由此引出了基于本體的跨語(yǔ)言技術(shù)。最后提出了一種基于本體的數(shù)字圖書(shū)館跨語(yǔ)言信息檢索系統(tǒng),并詳細(xì)闡述了系統(tǒng)的流程,著重講述了數(shù)字圖書(shū)館跨語(yǔ)言領(lǐng)域本體的構(gòu)建。由于本體具有良好的概念層次和對(duì)邏輯推理的支持,對(duì)源語(yǔ)言和目標(biāo)語(yǔ)言進(jìn)行語(yǔ)義擴(kuò)展,提高了數(shù)字圖書(shū)館跨語(yǔ)言系統(tǒng)的檢索效率。
〔關(guān)鍵詞〕跨語(yǔ)言檢索;數(shù)字圖書(shū)館;本體
DOI:10.3969/j.issn.1008-0821.2011.07.041
〔中圖分類號(hào)〕G254.92 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2011)07-0169-04
Application of Cross-language Retrieval Based
on Ontology in the Digital LibraryBao Liqian Zhang Ziran
(Department of Information Management,Huazhong Normal University,Wuhan 430081,China)
〔Abstract〕The thesis firstly analysed the sketch and technology of cross-language information retrieval,and acquaintances the demerits of current cross-language information retrieval technology,then demonstrated limitation of traditional cross-language information retrieval technology in digital library application.Therefore raised a new cross-language technology basing on ontology.Finally put forward a cross-language information retrieval system of digital library which based on ontology,and demonstrated the procedure of the system,then emphasized on telling the construction of ontology field of digital library.Due to its own sound concept levels and logical reasoning support,it extended the semantic source language and target language,on the other hand improved the speed of Cross-language retrieval in the digital library.
〔Keywords〕cross-language information retrieval;digital library;ontology
數(shù)字圖書(shū)館為用戶提供了更方便快捷的信息資源共享,但同時(shí)語(yǔ)言障礙局限了檢索范圍,所以跨語(yǔ)言檢索技術(shù)已經(jīng)成為數(shù)字圖書(shū)館走向知識(shí)化和智能化必經(jīng)歷的關(guān)卡,如何提高跨語(yǔ)言檢索的查全率和查準(zhǔn)率成為當(dāng)務(wù)之急。
本體是計(jì)算機(jī)科學(xué)中的一種重要方法,同時(shí)也是信息檢索的重要應(yīng)用領(lǐng)域。本體能使系統(tǒng)和用戶達(dá)成語(yǔ)義層次的共享和共同理解,不僅能靈活更換語(yǔ)種進(jìn)行檢索,而且能夠克服信息檢索不能對(duì)概念關(guān)系處理的局限,從而返回用戶最為滿意的結(jié)果。已有越來(lái)越多的研究學(xué)者投入到基于本體的跨語(yǔ)言信息檢索系統(tǒng)的開(kāi)發(fā)和研制中,其中,Wang Jianqiang和D.W.Oard綜合使用雙向翻譯和同義詞進(jìn)行跨語(yǔ)言檢索的翻譯[1];吳丹、王惠臨使用中間語(yǔ)言,通過(guò)詞典翻譯對(duì)照與不同語(yǔ)種的詞匯建立鏈接關(guān)系[2];吳芳建立了一個(gè)lecene全文檢索工具和OWL本體的漢——英跨語(yǔ)言信息檢索模型[3];郝嘉樹(shù)、王惠臨、劉耀關(guān)注基于本體的跨語(yǔ)言信息檢索架構(gòu)模塊的技術(shù)流程[4]。本文則致力于研究基于本體的跨語(yǔ)言檢索在數(shù)字圖書(shū)館中的應(yīng)用,主要設(shè)計(jì)了兩個(gè)本體庫(kù),有效提高了數(shù)字圖書(shū)館跨語(yǔ)言信息檢索的性能。
1 跨語(yǔ)言信息檢索概述
1.1 跨語(yǔ)言信息檢索
跨語(yǔ)言信息檢索(CLIR,Cross-language information retrieval),是指用戶以自己所掌握的某一門(mén)語(yǔ)言構(gòu)造檢索提問(wèn)式,計(jì)算機(jī)根據(jù)用戶的檢索要求在其他不同語(yǔ)種的信息中進(jìn)行自動(dòng)搜索,得到的檢索結(jié)果包括用戶所用語(yǔ)言在內(nèi)的各種語(yǔ)種的信息??缯Z(yǔ)言檢索結(jié)合了傳統(tǒng)文本信息檢索技術(shù)和機(jī)器翻譯技術(shù),不僅可以使檢索更加容易,還可以提高查全率[5]。用戶查詢提問(wèn)式所使用的語(yǔ)言稱之為源語(yǔ)言(Source language),而系統(tǒng)提供的信息所包涵的語(yǔ)言,稱之為目標(biāo)語(yǔ)言(Target language)??缯Z(yǔ)言檢索的實(shí)質(zhì)就是實(shí)現(xiàn)這兩種語(yǔ)言的翻譯。
1.2 跨語(yǔ)言檢索基本技術(shù)方式
當(dāng)前的跨語(yǔ)言檢索技術(shù)方法大體可以分成以下4種方式:將源語(yǔ)言表示的查詢翻譯到目標(biāo)語(yǔ)言,即基于提問(wèn)式翻譯、基于文獻(xiàn)翻譯、基于中間語(yǔ)言翻譯、非翻譯?;谔釂?wèn)式翻譯是將用戶查詢請(qǐng)求翻譯成計(jì)算機(jī)提供的各種語(yǔ)言,然后對(duì)不同語(yǔ)言信息進(jìn)行查詢;基于文獻(xiàn)翻譯是將目標(biāo)語(yǔ)言描述的文獻(xiàn)翻譯成為與源語(yǔ)言相一致的形式,再通過(guò)提問(wèn)式與信息庫(kù)的匹配,完成檢索過(guò)程;基于中間語(yǔ)言翻譯是把源語(yǔ)言的查詢和目標(biāo)語(yǔ)言的文獻(xiàn)都轉(zhuǎn)換為中間語(yǔ)言,然后實(shí)現(xiàn)最終的檢索匹配[6],這種方式可以解決兩種語(yǔ)言直接翻譯的資源不存在問(wèn)題;不翻譯是將原始文檔與對(duì)應(yīng)的翻譯文檔建立聯(lián)系,構(gòu)建訓(xùn)練文檔集,然后利用SVD技術(shù)(singular Value Decomposition)對(duì)其進(jìn)行分析,獲得雙語(yǔ)文檔集的特征信息和檢索詞的映射關(guān)系,最后,以平行文檔中的語(yǔ)詞檢索出另一語(yǔ)種的相關(guān)信息[7]。
2011年7月第31卷第7期基于本體的跨語(yǔ)言信息檢索在數(shù)字圖書(shū)館中的應(yīng)用July,2011Vol.2 跨語(yǔ)言檢索技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用及其瓶頸
2.1 跨語(yǔ)言檢索在數(shù)字圖書(shū)館中的應(yīng)用
隨著Internet在世界范圍的飛速發(fā)展,數(shù)字圖書(shū)館信息資源的種類和數(shù)量也越來(lái)越多,但是網(wǎng)絡(luò)語(yǔ)言的多樣化和用戶所掌握語(yǔ)言的差異性和有限性導(dǎo)致了用戶自由獲取信息的困難。用戶經(jīng)常希望檢索到多種語(yǔ)言的文獻(xiàn)及參考文獻(xiàn)以提高查全率,其中的語(yǔ)言障礙是限制數(shù)字圖書(shū)館發(fā)展的絆腳石,所以跨語(yǔ)言技術(shù)的發(fā)展為解決數(shù)字圖書(shū)館的多語(yǔ)種問(wèn)題提供了契機(jī),數(shù)字圖書(shū)館必然要使用跨語(yǔ)言信息檢索技術(shù)來(lái)擴(kuò)大查詢范圍,提高檢索深度,提供更全面的檢索服務(wù)。
2.2 將傳統(tǒng)跨語(yǔ)言檢索技術(shù)與數(shù)字圖書(shū)館結(jié)合遇到的困難傳統(tǒng)跨語(yǔ)言檢索技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用只是基于語(yǔ)法層面上的簡(jiǎn)單匹配,一味采取詞典或其他方式進(jìn)行字符級(jí)處理,缺乏對(duì)知識(shí)的表示、處理和理解能力,缺乏必要的智能性,在運(yùn)用的過(guò)程中不可避免的會(huì)遇到以下困難:
(1)大多數(shù)情況下用戶很難通過(guò)簡(jiǎn)單的幾個(gè)關(guān)鍵詞來(lái)忠實(shí)地表達(dá)其檢索文獻(xiàn),希望能夠通過(guò)語(yǔ)義檢索,而傳統(tǒng)信息檢索技術(shù)不支持這種語(yǔ)義表達(dá)。
(2)數(shù)字圖書(shū)館中的信息資料并不是孤立的,它總是與其他概念之間存在各種各樣的聯(lián)系,用戶希望能夠搜索到與查詢領(lǐng)域相關(guān)的文獻(xiàn),以上幾種的跨語(yǔ)言信息檢索尋找的僅僅是字面本身的信息,單純的字符匹配無(wú)法提供基于概念的智能檢索,計(jì)算機(jī)無(wú)法識(shí)別其語(yǔ)義。
(3)用題名、文摘或全文中出現(xiàn)的關(guān)鍵詞來(lái)標(biāo)識(shí)文獻(xiàn)的內(nèi)容,常常不能充分揭示源信息的實(shí)質(zhì)內(nèi)涵,降低了查全率。
(4)一味的追求信息量的提高,返回大量無(wú)關(guān)信息,缺乏智能化的整理。導(dǎo)致用戶查詢得到的結(jié)果過(guò)于龐大,根本沒(méi)有時(shí)間和精力去處理檢索得到的結(jié)果,查準(zhǔn)率大大降低。
3 基于本體的數(shù)字圖書(shū)館跨語(yǔ)言信息檢索系統(tǒng)的構(gòu)建造成以上困難的實(shí)質(zhì)在于傳統(tǒng)的跨語(yǔ)言檢索技術(shù)缺乏知識(shí)處理和理解能力,本體的引入應(yīng)該說(shuō)是一個(gè)非常有效的方法。通過(guò)概念間的關(guān)系來(lái)表達(dá)概念的語(yǔ)義,可以讓機(jī)器從概念的層次來(lái)認(rèn)識(shí)和處理用戶的查詢,從而提高整個(gè)檢索系統(tǒng)的查全率和查準(zhǔn)率,消除自然語(yǔ)言理解中的歧義,明確概念涵義。
數(shù)字圖書(shū)館跨語(yǔ)言信息檢索領(lǐng)域本體的知識(shí)系統(tǒng)構(gòu)建是系統(tǒng)核心,直接關(guān)系到檢索結(jié)果的準(zhǔn)確性。領(lǐng)域本體的特征是針對(duì)特定的學(xué)科領(lǐng)域,描述了某一學(xué)科中的概念、概念的屬性、概念間的關(guān)系以及屬性和關(guān)系的約束[8]。
優(yōu)良的數(shù)字圖書(shū)館跨語(yǔ)言系統(tǒng)應(yīng)該能靈活地處理多語(yǔ)種信息,通過(guò)圍繞用戶有效地組織集成各地域的信息資源和信息服務(wù),從而方便和快捷地支持用戶檢索各類信息資源。根據(jù)這個(gè)目的本文構(gòu)思了一個(gè)數(shù)字圖書(shū)館跨語(yǔ)言檢索領(lǐng)域本體知識(shí)體系,主要包括以下幾個(gè)模塊,如圖1所示。
3.1 查詢預(yù)處理模塊
基于本體的跨語(yǔ)言檢索模型的第一步就是對(duì)用戶輸入的查詢語(yǔ)句進(jìn)行處理,詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分,英文單詞之間是以空格作為自然分界符的,先去除停用詞,然后進(jìn)行詞干化處理,并統(tǒng)計(jì)該詞的詞頻、權(quán)重等相關(guān)信息[3];若是漢語(yǔ)作為提問(wèn)詞,則采用分詞技術(shù)詞語(yǔ)之間沒(méi)有明顯的區(qū)分標(biāo)記,取出查詢中的中心詞,然后將它們傳遞給翻譯模塊。
3.2 翻譯模塊
翻譯模塊選擇的翻譯方法是基于詞典的翻譯策略。查詢語(yǔ)句經(jīng)過(guò)翻譯模塊的翻譯后,把翻譯結(jié)果和原語(yǔ)句一并傳給領(lǐng)域本體庫(kù),在本體內(nèi)查找查詢語(yǔ)句的語(yǔ)義描述,通圖1 數(shù)字圖書(shū)館跨語(yǔ)言信息檢索系統(tǒng)模型
過(guò)領(lǐng)域本體庫(kù)進(jìn)行檢索。如果沒(méi)有在語(yǔ)義模塊中找到,則直接傳遞給檢索模塊,得到檢索結(jié)果。
3.3 領(lǐng)域本體系統(tǒng)模塊
3.3.1 領(lǐng)域本體庫(kù)
構(gòu)建領(lǐng)域本體系統(tǒng)的前提是在領(lǐng)域內(nèi)構(gòu)建本體,領(lǐng)域本體一般是對(duì)某一領(lǐng)域知識(shí)體系元數(shù)據(jù)的描述。因此應(yīng)該對(duì)要?jiǎng)?chuàng)建的領(lǐng)域本體所涵蓋的領(lǐng)域有較深的理解。我們一方面可以基于領(lǐng)域內(nèi)原始資源的元數(shù)據(jù)分析和處理,另一方面可以在對(duì)該領(lǐng)域深入了解的專家的協(xié)助下完成。
本體主要包括4個(gè)建模元語(yǔ),概念或類、關(guān)系、公理和實(shí)例,我們應(yīng)盡可能全面而又系統(tǒng)的列舉領(lǐng)域中所有概念、概念的屬性以及概念間和屬性間的關(guān)系,對(duì)領(lǐng)域本體中的概念及概念間的關(guān)系進(jìn)行定義和描述,如表1所示。再建立起本體框架把列舉和劃分好的概念植入框架內(nèi)。表1 本體庫(kù)中概念之間的聯(lián)系
關(guān) 系關(guān)系描述例 子Is-A概念的泛化汽車與交通工具Kind of繼承關(guān)系學(xué)生與研究生Attribute of概念屬性關(guān)系學(xué)號(hào)與學(xué)生Instance of概念的實(shí)例關(guān)系魚(yú)與金魚(yú)
我們使用Protégé為構(gòu)建本體的工具。Protégé是斯坦福大學(xué)醫(yī)學(xué)院醫(yī)學(xué)信息研究組開(kāi)發(fā)的一個(gè)免費(fèi)、開(kāi)放源碼的本體編輯器[9],它提供了一個(gè)可以構(gòu)建領(lǐng)域本體的環(huán)境。在Protégé用建好本體之后,便要對(duì)本體進(jìn)行解析。本體解析有許多思路和工具可以使用,甚至可以自己編寫(xiě)本體解析的模塊。Jena是由HP實(shí)驗(yàn)室開(kāi)發(fā)的一套API,用于支持語(yǔ)義網(wǎng)應(yīng)用。它的功能非常強(qiáng)大,可以構(gòu)建用各種語(yǔ)言(OWL,DAML+OIL,RDFS)描述的本體模型、RDF模型[10]。更重要的是可以使用它內(nèi)置的推理機(jī)對(duì)本體進(jìn)行推理,也可以與外界的推理機(jī)連接。
3.3.2 用戶查詢請(qǐng)求的語(yǔ)義處理
由于本體有豐富的概念關(guān)系,而且有推理功能,因此可以用來(lái)進(jìn)行查詢擴(kuò)展。經(jīng)過(guò)提問(wèn)處理和翻譯過(guò)的查詢內(nèi)容與構(gòu)建的領(lǐng)域本體庫(kù)一一對(duì)應(yīng),調(diào)用和遍歷整個(gè)源語(yǔ)言本體庫(kù),找到與其對(duì)應(yīng)的本體術(shù)語(yǔ)以及相關(guān)的概念術(shù)語(yǔ),建立關(guān)系映射,找到其對(duì)應(yīng)的概念,推理出檢索請(qǐng)求中的關(guān)鍵詞的精確語(yǔ)義,然后映射到目標(biāo)語(yǔ)言本體庫(kù),完成語(yǔ)義匹配。然后通過(guò)本體模型推理出與用戶查詢?cè)~語(yǔ)義相關(guān)的類,也就是用戶要查找的相關(guān)概念,確定該領(lǐng)域的概念和概念之間的聯(lián)系,再對(duì)其進(jìn)行語(yǔ)義化擴(kuò)展和推理,挖掘隱含信息, 解決信息孤島問(wèn)題。
3.4 數(shù)字圖書(shū)館資源本體系統(tǒng)模塊
3.4.1 數(shù)字圖書(shū)館資源本體庫(kù)
數(shù)字圖書(shū)館的館藏是基于知識(shí)的組織,不可缺少的要使用定義規(guī)范語(yǔ)義之間相互聯(lián)系的“領(lǐng)域本體”,但是圖書(shū)館的資源本體庫(kù)又不同于領(lǐng)域本體庫(kù),因?yàn)樗畜w現(xiàn)的是數(shù)字圖書(shū)館的文獻(xiàn)資源特點(diǎn),是多個(gè)領(lǐng)域本體的集成。這里可以采用本體學(xué)習(xí)的方式創(chuàng)建,首先要從現(xiàn)有的數(shù)字圖書(shū)館的文獻(xiàn)信息中收取學(xué)科概念的術(shù)語(yǔ)選項(xiàng),采用信息抽取技術(shù)來(lái)確定概念之間的語(yǔ)義關(guān)系,在概念及其相互關(guān)系基礎(chǔ)上構(gòu)建本體。其中上下位關(guān)系是最主要的語(yǔ)義關(guān)系,首先是獲取抽象程度高、涵義比較寬的概念,再尋找分別位于這些概念下級(jí)的較為具體的概念,由此形成樹(shù)狀或?qū)哟谓Y(jié)構(gòu),概念在層次結(jié)構(gòu)中體現(xiàn)了語(yǔ)義分類的屬性,根據(jù)概念之間的語(yǔ)義關(guān)系構(gòu)建出概念分類層次關(guān)系。所有的文獻(xiàn)信息都依據(jù)這種體系集成。
3.4.2 圖書(shū)館資源本體庫(kù)的語(yǔ)義處理
對(duì)數(shù)字圖書(shū)館中的資源本體庫(kù)加工處理,以RDF/XML為描述模型對(duì)無(wú)結(jié)構(gòu)或半結(jié)構(gòu)的數(shù)據(jù)進(jìn)行語(yǔ)義標(biāo)注,形成機(jī)器可以理解的語(yǔ)義元數(shù)據(jù),元數(shù)據(jù)包括:數(shù)據(jù)基本屬性和數(shù)據(jù)擴(kuò)展屬性,包括類型、背景等信息。
從數(shù)字資源中抽取關(guān)鍵詞匯,根據(jù)詞頻為關(guān)鍵詞賦權(quán)值。計(jì)算抽取關(guān)鍵詞與本體中概念的相似度,相似程度大者將其權(quán)值和文獻(xiàn)一同標(biāo)注在本體語(yǔ)義旁,則文獻(xiàn)屬于該本體。由于數(shù)字資源具有多樣性、多領(lǐng)域性,必然要涉及到多個(gè)領(lǐng)域本體,因此在對(duì)數(shù)字圖書(shū)館數(shù)字資源進(jìn)行語(yǔ)義標(biāo)注時(shí),除了利用數(shù)字資源本體庫(kù)外,還可以應(yīng)用其他成熟的本體進(jìn)行標(biāo)注,如WordNet、HowNet、中國(guó)百科全書(shū)、BNC語(yǔ)料、RFC文檔等等。將實(shí)例與本體聯(lián)系起來(lái),通過(guò)分析實(shí)例,總結(jié)出實(shí)例的結(jié)構(gòu),將文獻(xiàn)的隱含信息表示出來(lái)。
3.5 語(yǔ)義檢索模塊
完成語(yǔ)義擴(kuò)展后,系統(tǒng)進(jìn)入語(yǔ)義檢索模塊。把處理過(guò)的文獻(xiàn)信息和查詢擴(kuò)展的查詢概念進(jìn)行領(lǐng)域、術(shù)語(yǔ)匹配。匹配的過(guò)程中不僅要考慮數(shù)據(jù)本身,還有同義、近義、上位、下位等信息,得到檢索結(jié)果后,再按照查詢信息與檢索信息的相似度與將滿足條件的檢索結(jié)果進(jìn)行加權(quán)結(jié)合處理后輸出最終檢索結(jié)果,并以良好的界面形式返回給檢索用戶。
4 結(jié) 語(yǔ)
本論文提出了基于本體的數(shù)字圖書(shū)館跨語(yǔ)言信息檢索系統(tǒng),其中包括5個(gè)模塊和2個(gè)本體庫(kù),但這只是簡(jiǎn)單構(gòu)想,如今圖書(shū)館跨語(yǔ)言檢索體系還不健全,許多工作還停留在理論層面,在以下幾個(gè)方面還有待進(jìn)一步的研究:比如可以考慮通過(guò)數(shù)據(jù)挖掘進(jìn)行自動(dòng)化或半自動(dòng)化處理以減少人工創(chuàng)建本體的壓力;把用戶的個(gè)性化因素加入本體建設(shè)中,針對(duì)不同的特點(diǎn)和偏好進(jìn)行檢索。相信隨著研究的深入,各類技術(shù)不斷的跟進(jìn),本體在跨語(yǔ)言檢索中的應(yīng)用會(huì)越來(lái)越普遍,在數(shù)字圖書(shū)館中的應(yīng)用也更加實(shí)用化。
參考文獻(xiàn)
[1]Wang J,Oard D W.Combining bidirectional translations and synonymy for cross-language information retrieval[A].Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C].2006:202-209.
[2]吳丹,王惠臨.本體在跨語(yǔ)言信息檢索中的應(yīng)用機(jī)制研究[J].圖書(shū)情報(bào)工作,2006,50(9):10-13.
[3]吳芳.基于本體的跨語(yǔ)言全文檢索模型的研究[D].北京:北京郵電大學(xué),2005,(5):27-28.
[4]郝嘉樹(shù),王惠臨,劉耀.基于本體的跨語(yǔ)言信息檢索模型和關(guān)鍵技術(shù)研究[J].情報(bào)科學(xué),2009,27(2):271-275.
[5]夏立新,金燕,方志.信息檢索原理與技術(shù)[M].北京:科學(xué)出版社,2009,(7):287-296.
[6]黃國(guó)斌.基于中間語(yǔ)義的跨語(yǔ)言信息檢索研究[D].江西:.江西師范大學(xué),2008,(7):32-36.
[7]任成梅.跨語(yǔ)言信息檢索的發(fā)展與展望[J].圖書(shū)館學(xué)研究,2006,(4):80-81.
[8]王佐,王茜,李鵬.基于Ontology的多主體知識(shí)檢索模型[J].情報(bào)雜志,2006,(6):77.
[9]welcome to Protégé[OL].http:∥protege.stanford.edu/overview,2011-05-11.
[10]HP releases new version of leading Semantic Web developers toolkit[EB].http:∥www.hpl.hp.com/news/2004/jan-mar/jena2.1.html?jumpid=regzR1002zUSEN,2011-05-11.
注:“本文中所涉及到的圖表、公式、注解等請(qǐng)以PDF格式閱讀”