駱 舒,鄧 麗
(1.中國傳媒大學外國語學院,北京 100024;2.《現(xiàn)代教育報》新聞部,北京 100053)
重塑圖書館生存和發(fā)展的環(huán)境、推動圖書資料自身變革是云計算環(huán)境下圖書館未來發(fā)展的趨勢。云計算是分布式處理(Distributed Computing)、并行處理(Parallel Computing)和網(wǎng)格計算(Grid Computing)技術的發(fā)展,從本質上講,云計算是指用戶終端通過遠程連接,獲取存儲、計算、數(shù)據(jù)庫等資源。作為一種IT基礎設施與服務的交付和使用模式,將會深刻地影響未來互聯(lián)網(wǎng)的運作和服務模式,同時為傳統(tǒng)圖書館和數(shù)字圖書館未來的發(fā)展提供全方位的指導和啟發(fā),也為傳統(tǒng)圖書館提供了一種新的運營模式,圖書館的云時代即將到來。
云計算環(huán)境下實現(xiàn)語義檢索的首要條件是有豐富的領域本體,且為分布式的[1]。因此,構建本體的方法是當前本體研究中的熱點問題。由于本體的構建多是面向特定領域,如果沒有好的方法路線指導,就難以在不同領域本體的構建中保持一致,也不利于本體的規(guī)?;鸵?guī)范建設。因此,本體構建方法的研究對于本體的應用起著至關重要的作用。本文提出的面向云計算圖書資料管理的本體構建技術旨在解決上述問題。
隨著云計算技術的深入開發(fā)和實踐,其在圖書館的應用也會逐步深入發(fā)展,并逐漸進入實踐和理論相互促進、共同發(fā)展的階段。
1.1.1 圖書館生存和發(fā)展環(huán)境發(fā)生變革
云計算將改變圖書館的上游產業(yè)——出版發(fā)行服務商對于數(shù)據(jù)信息知識的組織、整合和提供方式,使其與圖書館的界線更為模糊,職能更為復雜,知識產權需要進一步明確甚至是重新確定“游戲規(guī)則”。云計算作用于文化的內在機制,將逐步滲透到物質文化、制度文化,最后到觀念文化,圖書館將處在一個全新的文化生態(tài)中,人們對圖書館的需求、觀念、應用、評價方式等也將隨之改變。圖書館將要經歷從量變到質變的過程,通過這個嬗變過程,資源的配置將逐步實現(xiàn)優(yōu)化,圖書館的理念和政策也會相應地進行調整。
1.1.2 圖書資料資源實現(xiàn)更廣泛地共享
云計算簡化了IT架構的實施,給人們提供了一種理想的方式,即IT應用可以像水電煤氣等公用設施一樣,實時定制,隨時取用,按需付費。云計算為圖書館提供了高效率、低成本、安全高、競爭力強的技術?!霸拼尜A”是解決龐大數(shù)字資源的存儲和知識信息劇增與單個圖書館館藏能力不足這一矛盾的有效途徑;云計算為圖書館用戶提供信息服務泛在平臺;提高了圖書館信息資源的安全性;云計算提高圖書館信息服務資源的利用率;構建本地化、標準化、低成本、自適應的云解決方案,實現(xiàn)共享。
1.1.3 圖書資料管理業(yè)務流程將被再造
圖書資料管理應用云計算是一項戰(zhàn)略選擇,尤其是在IT基礎設施領域,圖書館和資料室一旦選擇了云計算,就需要對原有信息系統(tǒng)的管理與服務進行重新部署,包括整個圖書館機構與流程、IT部門人員數(shù)量與結構、圖書館對于云計算服務的質量檢測與控制手段等。由于現(xiàn)代圖書館的業(yè)務流程除了實體圖書館的服務端(指借閱、流通與參考咨詢工作)外,其余幾乎完全建立在計算機和網(wǎng)絡基礎之上,如果整個IT架構向“云”中遷移,傳統(tǒng)的業(yè)務流程將被逐一拆解,然后組合、外包、虛擬化。
1.1.4 圖書資料服務范圍更為寬廣
首先是軟件服務,即各類軟件應用。采用本地安裝形式的圖書館自動化系統(tǒng)、辦公自動化系統(tǒng)等,都以一種網(wǎng)絡服務的形式提供;其次是云存儲服務。大量的數(shù)字資源,不論是自建的還是購買的,都可以存放于“云”上,而不再需要“鏡像”于本地;第三,中心圖書館作為“云”提供商,提供本地數(shù)據(jù)中心或者其他業(yè)務支持;第四,平臺服務。大型圖書館引入“云”設施,利用商用的云計算解決方案,架構滿足本地或局部應用的“私有云”平臺;第五,互聯(lián)網(wǎng)整合服務。圖書館作為一種服務中介,需要整合多家平臺和資源,利用各類公共云,實現(xiàn)不同“云”之間的互操作,拾遺補缺,向讀者提供更專指、貼心的服務。
云時代的數(shù)字圖書館是個分布在異構環(huán)境中的知識體系,解決分布式網(wǎng)絡環(huán)境下系統(tǒng)或資源間的互操作問題是其核心技術?!爱悩嫛笔侵赶到y(tǒng)或資源在結構上的不同,互操作是指系統(tǒng)或資源之間的兼容性或關聯(lián)關系。萬維網(wǎng)是目前最大的開放分布式網(wǎng)絡,可以看成由無數(shù)三層結構應用組成的大型資源庫群(repositories)。這些資源庫群是徹底異構的,從數(shù)據(jù)結構、操作系統(tǒng)到數(shù)據(jù)庫系統(tǒng)、應用系統(tǒng),從命名方式到數(shù)據(jù)格式、結構模型用戶界面,都有可能完全不同。從某種意義上來講,就是將信息科學、網(wǎng)絡技術與管理思想相融合的知識管理技術,其核心是基于分布式本體的知識元數(shù)據(jù)的應用。
圖書資料管理服務在云時代面臨的一個巨大挑戰(zhàn)是如何深入到更細小的知識單元(如數(shù)據(jù)),進行組織、整理、“策管”(Curator)和服務,而不局限于電子書、期刊文章、技術報告等。這一直是高校圖書館近年來研究的熱點和核心內容,被認為是圖書館學和圖書館行業(yè)的核心競爭力。新的技術架構(包括關聯(lián)數(shù)據(jù)、知識組織、云平臺和移動技術等)讓虛擬圖書館逐漸走向后臺,隱形于各類網(wǎng)絡服務中,不一定要直接面向讀者,而是作為一種基礎服務(包括數(shù)據(jù)服務),成為賽百空間的基礎設施之一。這種新的存在形式,真正能夠體現(xiàn)數(shù)字圖書館的價值,特別是能夠對科研、教育和醫(yī)藥衛(wèi)生等方面提供持續(xù)的支持。
元數(shù)據(jù)提供了數(shù)字圖書館的語義基礎,使資源有了基本的微觀結構,但是元數(shù)據(jù)并不能完全解決信息系統(tǒng)的語義異構問題,包括資源采用不同元數(shù)據(jù)方案所造成的微觀結構的異構問題,以及資源對象之間存在的復雜的關聯(lián)關系,本體在某種程度上可以看成是“元”元數(shù)據(jù),信息系統(tǒng)中不同實體對象可能采用不同的元數(shù)據(jù)方案,不同的實體對象之間的關聯(lián)關系非常復雜,本體能夠對這些情況進行很好地描述,從而為信息的組織、管理、檢索以及查詢提供模型和方法。
從本體的概念來看,它的本質要求包括概念化、形式化、明確、共享、重用等特征,可以說工程性是本體建設的天然屬性。出于對各自學科領域和具體工程的不同考慮,構建本體的過程各不相同。目前還沒有一套標準的本體構建方法。一般認為,Gruber在1995年提出的5條規(guī)則是比較有影響的:
(1)明確性和客觀性:本體應該用自然語言對術語給出明確客觀的語義定義。
(2)完整性:所給出的定義是完整的,能表達特定術語的含義。
(3)一致性:知識推理產生的結論與術語本身的含義不會產生矛盾。
(4)最大單向可擴展性:向本體中添加通用或專用的術語時,通常不需要修改己有的內容。
(5)最少約束:對待建模對象應該盡可能少列出限定約束條件。
目前大家公認在構建領域本體的過程中,需要領域專家的參與和協(xié)作。領域內的術語解釋一般是領域專家運用自然語言給出的,不利于計算機運算和存儲,而明確、清晰地表示這些術語和概念是決定最終構造出本體的基礎。本文以高校圖書和音像資料管理為背景,采用知識網(wǎng)絡圖來表示語義之間的聯(lián)系,利用基于知識網(wǎng)絡圖的分布式本體構建方法,使得在語義表達上更加清楚,很好地解決了云環(huán)境下語義檢索的問題。
知識網(wǎng)絡圖是一種屬于語義網(wǎng)絡范疇的知識表示方法,它使用節(jié)點表示概念,使用有向弧表示概念之間的關系。這種本體構建方法基本思想是每個詞的詞義可以由稱作“字圖”的知識圖來表示,進而通過合并“字圖”組成“短語圖”,再通過合并“短語圖”組成“語句圖”,最后通過合并“語句圖”組成“篇章圖”。這種思路和人們理解過程相似,因而構造出的本體也更為直觀。在自然語言處理過程中,知識表示是其中的核心問題,知識網(wǎng)絡圖作為一種語義網(wǎng)絡范疇的概念圖,是一種更為一般的知識表示方法,用這種方法作為本體構造的知識表示方法,消除語義表示的不確定性[2]。
設C為概念的集合,T為關系類型的集合,G= <N,A,ln,la> 是知識圖,其中:N 表示節(jié)點的集合;A表示弧的集合;ln表示節(jié)點集到概念集的映射,即ln:N→C;la表示弧集到關系類型集的映射,即 la:A→T。
傳統(tǒng)的本體創(chuàng)建方法主要依靠小部分專家的力量,在適應網(wǎng)絡信息的動態(tài)性、復雜性上存在缺陷,云計算和Web2.0技術能夠為本體建立和演化提供豐富的語料庫和概念語義信息,建立知識網(wǎng)絡圖,從而為本體的建立提供強大的支持[3]。系統(tǒng)允許用戶在線收藏,并與他人共享網(wǎng)絡書簽,同時也允許用戶使用任意選取的關鍵詞對書簽進行標注、分類,形成初步的知識網(wǎng)絡圖。與傳統(tǒng)的知識網(wǎng)絡圖本體構建方法相比,面向云計算的分布式本體構建具有回饋性,即具有很強的社群性和協(xié)作性。由于知識網(wǎng)絡圖的構建是基于關鍵詞標簽分類的公開共享,任何用戶都能通過觀察其他用戶如何標注同一資源和某一個標簽被用于哪些資源,自由修改自己所提交的標簽,使用戶之間形成“異步反饋”,自動形成一種半結構化的知識網(wǎng)絡圖,如圖1所示。
圖1 基于知識網(wǎng)絡圖的分布式領域本體構建
正是基于上述特點,該方法幫助人們半自動搭建領域本體,再由專家利用TOVE評價法或Meth本體方法建立完整的知識網(wǎng)絡圖,完成領域本體的構建[4]。
本文以中國傳媒大學圖書、音像和檔案管理為例,建立面向高校圖書資料管理的領域本體框架。高校圖書資料的資源不論是虛擬的還是實在的,不論涉及單個還是多個信息系統(tǒng),其涉及的實體類型往往不可能是單一的,這些類型之間往往具有復雜的關系,因此很難運用一套平面的元數(shù)據(jù)方案進行數(shù)據(jù)組織。例如涉及美國總統(tǒng)奧巴馬的相關圖書、音像資料有《奧巴馬演說詞選》、《像奧巴馬一樣說英語:奧巴馬演講集》等,分別有譯林出版社2011年、人民日報出版社2009年、世界知識出版社2009年、東方出版社2008年、社會科學文獻出版社2008年等數(shù)十家出版社,幾十個版本,并且還有翻譯手稿、有聲讀物、衍生電影、聲像資料、精彩畫冊等相關資料,以及奧巴馬及其相關親友、團隊的資料等,這些信息不論是否存在于分布的信息庫中,都應該通過一定的方法進行有效的映射和描述,但通過現(xiàn)有的平面的元數(shù)據(jù)方法顯然是無法實現(xiàn)的,但是利用本體模型(例如ABC本體模型,見圖2所示 )能清晰、準確地揭示這些資源對象的各類屬性及相互關系,這種描述方式對音像出版物等多媒體資源所涉及的復雜責任關系和版權關系特別有幫助。知識本體模型原本就是對領域知識的歸納和形式化,目的在于共享和重用,因此特別適合作為信息模型對知識系統(tǒng)進行描述、表達和呈現(xiàn)。
圖2 ABC本體模型描述有關奧巴馬的圖書音像作品
如果我們把圖書分類法看成一種基本的簡單的知識本體,一個書目數(shù)據(jù)庫就可以按照分類法的層次結構組織成一棵龐大的“樹”,每一片“葉子”就是一本書。這樣可以形成一個簡單的、一維的知識導航地圖。當我們同時采用分類主題詞表或其它分面分類方法對資源的內容從不同的“本體”角度進行揭示,整個資源庫就有了多維的導航機制。同時,通過不同知識本體的映射可以動態(tài)建立從一個信息庫到另一個信息庫的語義連接,這種連接并非預先設立的,而是“后組”的。如果有本體注冊服務中間件或代理進行自動地翻譯、映射服務,就能從很大程度上解決知識的跨庫提取、動態(tài)瀏覽展示以及異構系統(tǒng)的動態(tài)勾連等問題,徹底解決高校圖書音像異構信息檢索的目標[5]。
高校數(shù)字圖書館系統(tǒng)的架構基于云計算的圖書館公共模塊之上,由四層構成,自下而上分別是格式適配層、業(yè)務管理層、業(yè)務應用層和門戶展現(xiàn)層。格式適配層將圖書資源中各種格式的數(shù)字圖書轉換為終端可支持的格式,如:HTML、TXT、JPG、CAJ、PDF等,也包含 avi、mpg等多媒體格式,采用通用編解碼庫自適應適配;業(yè)務管理層包括欄目策劃、內容策劃、頁面定制、排行策略、熱門推薦、關聯(lián)推薦、產品上架、終端適配等,其中終端適配主要維護終端型號之間的對應關系;業(yè)務應用層是用戶登錄站點后可以進行的一些操作和應用的集合,主要包括在線閱讀、用戶下載、個人空間、流媒體播放等功能;門戶展現(xiàn)層通過各種有線/無線訪問方式提供閱讀業(yè)務,針對不同用戶群為用戶提供不同的訪問方式。
該系統(tǒng)采用規(guī)范的接口和協(xié)議,保證系統(tǒng)各組成部分的協(xié)同一致,具備可兼容、易移植的系統(tǒng)平臺。對外接口具有很強的開放性,支持與運營商之間的連接。數(shù)字圖書館的云計算服務提供商目前主要有IBM、思科和OCLC,其中OCLC已經試水華盛頓大學、加州大學等校園圖書資料管理。本系統(tǒng)采用兼容IBM和OCLC云計算資源接口模式,并支持與運營商之間的連接,以實現(xiàn)鑒權或計費功能。
上述系統(tǒng)中的查詢請求是基于知識本體的應用實現(xiàn)的,并基于查詢處理中介或代理的幫助,查詢提問式可以智能地處理成復合不同資源集合的規(guī)范詞或者表達式形式,自動分發(fā)到不同的資源站點進行查詢,同時還可以對返回結果進行基于本體的排序處理,將最終結果返回給用戶。
本文在校園網(wǎng)建立的上述試驗系統(tǒng)中測試了KACTUS法、TOVE法和分布式知識網(wǎng)絡圖法,對準確率和搜索效率進行了比較,結果如表1所示。
表1 實驗結果對比
此處采用的方法經過370位讀者對關鍵詞“奧巴馬”進行標注,并由3名專家使用TOVE法建立知識本體,搜索時使用了云計算數(shù)字圖書管理實驗系統(tǒng)。實驗結果表明,本方法準確率較傳統(tǒng)方法有所提升,在云計算服務環(huán)境下搜索效率也較高。
本文在探索云時代高校圖書資料管理新模式的基礎上,提出一種面向云計算圖書資料管理的本體構建方法,并以高校圖書、音像和檔案管理為例,建立了面向高校圖書資料管理的領域本體框架。實驗結果表明,該方法在云計算服務條件下具有良好的準確率和搜索效率。隨著云計算、移動通信、知識組織等技術在圖書管理中應用的不斷深入,知識本體的創(chuàng)建、使用、互操作和評價越來越受到重視,也必將在圖書館建設中發(fā)揮更重要的作用。
[1]陳 琨,張 蕾.基于知識圖的領域本體構建方法[J].計算機應用,2011,(6):1164 -1170.
[2]Sean Bechhofer,Ian Horrocks,Carole Goble,Robert Stevens.OILEd:a Reason-able Ontology Editor for the Semantic Web[C]. Proceedings of KI2001, Joint German/Austrian conference on Artificial Intelligence,September 19 -21,Vienna.Springer- Verlag LNAI Vol.2174,pp 396 -408.2001.
[3]房 巍,李萬龍.基于本體的圖書智能檢索系統(tǒng)的建模與應用研究[J].長春理工大學學報,2006,(2):72-75.
[4]樊小輝,石晨光.本體構建研究綜述[J].艦船電子工程,2011,(6):15 -18.
[5]劉 楠,王俊彪,蔣建軍.基于總線式集成框架的本體構建及映射研究[J].航空計算技術,2011,(2):87-92.