摘要:[目的/意義]隨著以BIBFRAME為代表的語(yǔ)義書目模型不斷完善,書目數(shù)據(jù)面臨著從MARC向語(yǔ)義化書目的轉(zhuǎn)型。本文探索了基于語(yǔ)義化書目數(shù)據(jù)的聯(lián)合目錄構(gòu)建模式。[方法/過(guò)程]首先分析傳統(tǒng)聯(lián)合目錄的建設(shè)模式,認(rèn)為傳統(tǒng)聯(lián)合目錄建構(gòu)方法在語(yǔ)義網(wǎng)環(huán)境下有一定借鑒意義;其次在分析BIBFRAME 2.0書目信息表示形式的基礎(chǔ)上,提出3種語(yǔ)義聯(lián)合目錄構(gòu)建模式:集中式語(yǔ)義聯(lián)合目錄、分布式語(yǔ)義聯(lián)合目錄和集中與分布相結(jié)合的語(yǔ)義聯(lián)合目錄;最后利用Jena Fuseki+Apache HTTP服務(wù)器搭建實(shí)驗(yàn)平臺(tái),對(duì)語(yǔ)義聯(lián)合目錄的互操作模式進(jìn)行測(cè)試。[結(jié)果/結(jié)論]實(shí)驗(yàn)結(jié)果顯示,本研究提出的3種語(yǔ)義聯(lián)合目錄建設(shè)方法在實(shí)踐上具有可行性,可為圖書情報(bào)部門的語(yǔ)義化書目數(shù)據(jù)互操作和跨庫(kù)檢索系統(tǒng)的實(shí)現(xiàn)提供有益參考。
關(guān)鍵詞:聯(lián)合目錄 BIBFRAME 語(yǔ)義網(wǎng) 關(guān)聯(lián)數(shù)據(jù)
分類號(hào):G257.22
引用格式:林澤斐. 語(yǔ)義聯(lián)合目錄:基于BIBFRAME 2.0的聯(lián)合目錄建構(gòu)[J/OL]. 知識(shí)管理論壇, 2016, 1(6): 440-448[引用日期]. http://www.kmf.ac.cn/p/1/77/.
自1966年美國(guó)國(guó)會(huì)圖書館制定機(jī)讀目錄規(guī)范以來(lái),MARC已成為書目數(shù)據(jù)的主流交換格式,同時(shí)也是當(dāng)前聯(lián)合目錄構(gòu)建的基石。盡管MARC在圖書情報(bào)領(lǐng)域得到了廣泛應(yīng)用,但學(xué)術(shù)界長(zhǎng)期存在著對(duì)MARC的批評(píng),如L. Andresen認(rèn)為MARC缺乏靈活性,導(dǎo)致對(duì)資源的附加描述成為本地系統(tǒng)和聯(lián)機(jī)系統(tǒng)交流的障礙[1];G. Alemu等認(rèn)為MARC在設(shè)計(jì)之初是面向文獻(xiàn)的,這使得MARC難以描述非文獻(xiàn)實(shí)體之間的關(guān)系[2];R. Tennant在著名的MARC Must Die一文中則指出MARC的使用囿于圖書館領(lǐng)域,且MARC數(shù)據(jù)過(guò)于平面化,難以表達(dá)實(shí)體間的等級(jí)關(guān)系[3]。
在近20年時(shí)間里,美國(guó)國(guó)會(huì)圖書館、OCLC等組織對(duì)MARC進(jìn)行了諸多改進(jìn),發(fā)展出MARC21、MARCXML等格式;在RDA發(fā)布后,圖書館界也迅速對(duì)MARC21中的相關(guān)字段進(jìn)行了增補(bǔ)和修改,以便與RDA保持一致。然而從整體上看,MARC以文檔為中心的設(shè)計(jì)思想已成為自身發(fā)展的禁錮,簡(jiǎn)單地將MARC字段映射為XML也并無(wú)法充分揭示文獻(xiàn)所涉及的實(shí)體與關(guān)系。針對(duì)MARC存在的缺陷,圖書館界開始探索利用關(guān)聯(lián)數(shù)據(jù)進(jìn)行書目元數(shù)據(jù)的描述,試圖建立更加開放、有足夠伸縮性,且能夠溶入語(yǔ)義網(wǎng)環(huán)境的文獻(xiàn)數(shù)據(jù)交換標(biāo)準(zhǔn)。以BIBFRAME(Bibliographic Framework)為代表的語(yǔ)義書目模型,正是圖書館界在替代MARC道路上邁出的重要一步。雖然BIBFRAME仍在完善過(guò)程中,但鑒于國(guó)會(huì)圖書館在書目數(shù)據(jù)領(lǐng)域的影響力,BIBFRAME將不可避免地對(duì)未來(lái)的聯(lián)合目錄構(gòu)建形式產(chǎn)生重要影響。
1 BIBFRAME及其研究概況
BIBFRAME即書目框架,是美國(guó)國(guó)會(huì)圖書館聯(lián)合以語(yǔ)義網(wǎng)技術(shù)見長(zhǎng)的數(shù)據(jù)服務(wù)公司Zepheira共同研發(fā)的書目數(shù)據(jù)模型,旨在使用關(guān)聯(lián)數(shù)據(jù)對(duì)書目數(shù)據(jù)進(jìn)行描述,從而實(shí)現(xiàn)對(duì)MARC的替代。國(guó)會(huì)圖書館于2012年底發(fā)布了BIBFRAME草案,并于2014年公布了BIBFRAME正式版本。BIBFRAME正式發(fā)布后,國(guó)會(huì)圖書館根據(jù)BIBFRAME應(yīng)用過(guò)程中的反饋,于2016年4月發(fā)布了經(jīng)修改后的BIBFRAME 2.0模型和詞匯表。
在BIBFRAME 1.0模型中,包括子類和子屬性在內(nèi),共包含53個(gè)類及289個(gè)屬性[4],其中Work、Instance、Authority和Annotation四個(gè)類為BIBFRAME的核心類:作品(Work)用于反映作品的概念實(shí)質(zhì);實(shí)例(Instance)反映了作品的物理載體表現(xiàn)形式,一個(gè)作品可以有多個(gè)對(duì)應(yīng)的實(shí)例,但一個(gè)實(shí)例只有一個(gè)對(duì)應(yīng)的作品;規(guī)范(Authority)實(shí)現(xiàn)了與作品和實(shí)例相關(guān)的人物、組織、事件、主題的規(guī)范控制;注釋(Annotation)則提供有關(guān)作品和實(shí)例相關(guān)的描述信息(如封面、描述、評(píng)論、館藏等)。
BIBFRAME 2.0對(duì)BIBFRAME 1.0的體系結(jié)構(gòu)進(jìn)行了優(yōu)化。包括子類和子屬性在內(nèi),BIBFRAME 2.0共設(shè)置了140個(gè)類及165個(gè)屬性[5]。BIBFRAME 2.0中屬性減少而類增加的主要原因在于:BIBFRAME 1.0中,對(duì)于一種資源的多種類型,使用多個(gè)屬性來(lái)表示,如表示不同類型Identifiers(標(biāo)識(shí)符)的屬性包括bf:isbn、bf:issn、bf:lccn等;而在BIBFRAME 2.0中,相關(guān)標(biāo)識(shí)符均使用bf:identifiedBy屬性表示,標(biāo)識(shí)符的類型則反映為bf:Isbn、bf:Issn、bf:Lccn等多個(gè)類。
BIBFRAME 2.0的另一重要變化是將4個(gè)核心類簡(jiǎn)化為3個(gè):Work、Instance和Item。其中Work、Instance類的含義與1.0版相同;Item(館藏項(xiàng))類代表一個(gè)實(shí)例的館藏復(fù)本(可以為實(shí)體館藏或電子館藏),并反映了諸如館藏位置、條碼號(hào)、索書號(hào)等與館藏復(fù)本相關(guān)的信息,其內(nèi)涵與BIBFRAME 1.0中Annotation類的Helditem子類相似。圖1是采用RDF/Turtle格式進(jìn)行形式化表述的BIBFRAME 2.0館藏書目數(shù)據(jù)片段。該數(shù)據(jù)包含一個(gè)作品(bf:Work)、一個(gè)作品的實(shí)例(bf:Instance)和該實(shí)例的館藏項(xiàng)(bf:Item),并分別定義了題名(bf:title)、作者(bf:contributor)、ISBN號(hào)(bf:Isbn)、所在圖書館(bf:heldBy)和條碼號(hào)(bf:Barcode)等數(shù)據(jù)項(xiàng)。
BIBFRAME出現(xiàn)后,部分國(guó)外機(jī)構(gòu)和學(xué)者開展了相關(guān)試驗(yàn)與研究。截至2016年4月,共有7個(gè)機(jī)構(gòu)(美國(guó)國(guó)會(huì)圖書館、不列顛圖書館、德國(guó)國(guó)家圖書館、普林斯頓大學(xué)圖書館、喬治·華盛頓大學(xué)圖書館、美國(guó)國(guó)家醫(yī)學(xué)圖書館、OCLC)在BIBFRAME項(xiàng)目平臺(tái)中發(fā)布了書目測(cè)試數(shù)據(jù)集[6]。歐洲數(shù)字圖書館(Europeana)項(xiàng)目的研究人員探索了歐洲數(shù)據(jù)模型(Europeana Data Model,EDM)與BIBFRAME的映射關(guān)系[7]??的螤柎髮W(xué)圖書館、哈佛大學(xué)圖書館和斯坦福大學(xué)圖書館的合作項(xiàng)目Linked Data for Libraries(LD4L)則試圖通過(guò)整合包括BIBFRAME、VIVO、VIAF和ISNI在內(nèi)的關(guān)聯(lián)數(shù)據(jù)集,創(chuàng)建一個(gè)面向?qū)W術(shù)資源的語(yǔ)義信息存儲(chǔ)模型[8]。
我國(guó)圖書館學(xué)界對(duì)BIBFRAME的研究始于2014年。劉煒、夏翠娟率先撰文對(duì)BIBFRAME的體系結(jié)構(gòu)、特性和應(yīng)用領(lǐng)域進(jìn)行了探討[9]。筆者通過(guò)對(duì)中文數(shù)據(jù)庫(kù)進(jìn)行檢索發(fā)現(xiàn),截至2016年4月,我國(guó)針對(duì)BIBFRAME的學(xué)術(shù)論文共有11篇,研究主要著眼于3個(gè)方面:一是BIBFRAME的體系架構(gòu)和應(yīng)用領(lǐng)域;二是MARC(CNMARC、MARC21)向BIBFRAME轉(zhuǎn)換路徑;三是BIBFRAME與FRBR、RDA、Shema.org等相關(guān)模型和規(guī)則的比較研究。目前國(guó)內(nèi)有關(guān)BIBFRAME的應(yīng)用研究還較為缺乏,夏翠娟等的《基于書目框架(BIBFRAME)的家譜本體設(shè)計(jì)》一文是唯一對(duì)BIBFRAME在具體應(yīng)用領(lǐng)域進(jìn)行研究的論述[10],有關(guān)基于BIBFRAME模型的聯(lián)合目錄構(gòu)建模式未見有研究涉足。
2 傳統(tǒng)聯(lián)合目錄建設(shè)模式分析
聯(lián)合目錄(union catalogs)在聯(lián)合檢索、聯(lián)機(jī)編目、館際互借等館際資源共建共享業(yè)務(wù)中具有重要作用。聯(lián)合目錄最早始于1898年普魯士10所大學(xué)圖書館編制的《柏林印刷本目錄》,隨后在美國(guó)國(guó)會(huì)圖書館等機(jī)構(gòu)的推動(dòng)下,逐步發(fā)展出卡片式聯(lián)合目錄、縮微膠片式聯(lián)合目錄、光盤版聯(lián)合目錄和聯(lián)機(jī)目錄等多種形式[11],其中聯(lián)機(jī)目錄是當(dāng)前聯(lián)合目錄建設(shè)的主流形式。從體系結(jié)構(gòu)上看,傳統(tǒng)聯(lián)機(jī)目錄總體可分為兩種類型:集中式聯(lián)機(jī)聯(lián)合目錄和分散式聯(lián)機(jī)聯(lián)合目錄。
2.1 集中式聯(lián)機(jī)聯(lián)合目錄
集中式聯(lián)機(jī)聯(lián)合目錄的典型特征為存在一個(gè)中央書目數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)通過(guò)一定機(jī)制與成員館書目數(shù)據(jù)實(shí)現(xiàn)同步更新。集中式聯(lián)合目錄實(shí)現(xiàn)的關(guān)鍵在于中央數(shù)據(jù)庫(kù)與成員館的數(shù)據(jù)同步機(jī)制。當(dāng)前聯(lián)機(jī)目錄的建設(shè)實(shí)踐主要基于人工批量同步和元數(shù)據(jù)收割兩種形式。如我國(guó)臺(tái)灣地區(qū)的“全國(guó)圖書書目資訊網(wǎng)”(NBINet)即是前者的代表。根據(jù)NBINet的《書目網(wǎng)絡(luò)合作辦法》,NBINet成員館須定期或不定期向臺(tái)灣“國(guó)家圖書館”寄送CMARK、USMARK或MARK21格式的檔案,“國(guó)家圖書館”則負(fù)責(zé)將成員館的MARC數(shù)據(jù)導(dǎo)入NBINet數(shù)據(jù)庫(kù)[12]。CALIS聯(lián)合目錄數(shù)據(jù)庫(kù)也采用了集中式數(shù)據(jù)庫(kù)結(jié)構(gòu),在管理中心和地區(qū)中心建立8個(gè)聯(lián)合目錄數(shù)據(jù)庫(kù),通過(guò)“增量復(fù)制”技術(shù)(互為“鏡像”)使8個(gè)聯(lián)合目錄數(shù)據(jù)庫(kù)中的書目記錄保持準(zhǔn)同步[11]。基于元數(shù)據(jù)收割的聯(lián)機(jī)目錄多采用OAI-PMH 協(xié)議。
OAI-PMH定義了兩類角色:數(shù)據(jù)提供者(data prodiver)和服務(wù)提供者(service provider)。數(shù)據(jù)提供者將一個(gè)或多個(gè)書目數(shù)據(jù)倉(cāng)儲(chǔ)以O(shè)AI協(xié)議進(jìn)行發(fā)布,服務(wù)提供者則使用支持OAI協(xié)議的客戶端對(duì)OAI倉(cāng)儲(chǔ)進(jìn)行定期收割。當(dāng)前在openarchives.org中公布的數(shù)據(jù)提供者已達(dá)3 014個(gè)[13]。國(guó)內(nèi)的CALIS高校學(xué)位論文數(shù)據(jù)庫(kù)和中國(guó)科學(xué)院聯(lián)合機(jī)構(gòu)知識(shí)庫(kù)也采用了成員館分散建庫(kù)、中心館利用OAI-PMH集中收割的建設(shè)模式[14]。
2.2 分布式聯(lián)機(jī)聯(lián)合目錄
分布式聯(lián)機(jī)聯(lián)合目錄由不同文獻(xiàn)機(jī)構(gòu)維護(hù)各自的書目數(shù)據(jù)庫(kù),書目檢索方通過(guò)聯(lián)邦檢索的形式向多個(gè)文獻(xiàn)機(jī)構(gòu)廣播檢索請(qǐng)求,并將返回的檢索結(jié)果進(jìn)行匯總。當(dāng)前主流的分布式聯(lián)機(jī)目錄大多基于Z39.50協(xié)議,即檢索客戶端將檢索請(qǐng)求轉(zhuǎn)換為Z39.50協(xié)議的應(yīng)用協(xié)議數(shù)據(jù)單元(APDU)后廣播至多個(gè)支持Z39.50協(xié)議的服務(wù)器。服務(wù)器對(duì)APDU解碼后,轉(zhuǎn)換成自身系統(tǒng)的檢索請(qǐng)求進(jìn)行查詢。查詢完成后,使用相同的方法將檢索結(jié)果返回給檢索客戶端。如香港科技大學(xué)的《香港大學(xué)圖書館聯(lián)合目錄》就利用Z39.50實(shí)現(xiàn)了包括8所香港大學(xué)和16個(gè)國(guó)外機(jī)構(gòu)在內(nèi)的文獻(xiàn)資源分布式檢索[15]。
3 聯(lián)合目錄的語(yǔ)義化構(gòu)建
語(yǔ)義網(wǎng)是T. Berners-Lee于1998年所提出的概念,其目標(biāo)是為萬(wàn)維網(wǎng)中的文檔添加可理解的語(yǔ)義;2006年,T. Berners-Lee在語(yǔ)義網(wǎng)的基礎(chǔ)上提出了關(guān)聯(lián)數(shù)據(jù)(linked data)一詞,試圖利用Web實(shí)現(xiàn)對(duì)RDF數(shù)據(jù)的相互關(guān)聯(lián),最終形成數(shù)據(jù)之網(wǎng)(Web of Data)。語(yǔ)義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)的概念提出后,圖書館界也在不斷探索書目數(shù)據(jù)語(yǔ)義化的策略。目前圖書館界的數(shù)據(jù)語(yǔ)義化嘗試主要集中在兩個(gè)方面:一是詞表和分類表數(shù)據(jù)的語(yǔ)義化,如美國(guó)國(guó)會(huì)圖書館已將《美國(guó)國(guó)會(huì)圖書館標(biāo)題詞表》(Library of Congress Subject Headings)進(jìn)行語(yǔ)義化描述(基于SKOS)后以關(guān)聯(lián)數(shù)據(jù)形式發(fā)布在Web上,臺(tái)灣“國(guó)家圖書館”也已完成了主題詞表的SKOS化和中文圖書分類法的語(yǔ)義化轉(zhuǎn)換,并將其應(yīng)用于其編目系統(tǒng)[16];二是書目數(shù)據(jù)集的語(yǔ)義化,如大英圖書館將英國(guó)國(guó)家書目(BNB)從MARC21格式轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù)的RDF/XML格式,并通過(guò)Web提供數(shù)據(jù)集的下載;德國(guó)柏林自由大學(xué)和漢諾威大學(xué)的研究者則利用D2R服務(wù)器將著名的計(jì)算機(jī)科技文獻(xiàn)書目數(shù)據(jù)庫(kù)DBLP發(fā)布為關(guān)聯(lián)數(shù)據(jù)[17]。
近年來(lái),隨著關(guān)聯(lián)數(shù)據(jù)在圖書情報(bào)領(lǐng)域應(yīng)用的深化,部分機(jī)構(gòu)已開始嘗試實(shí)現(xiàn)聯(lián)合目錄的語(yǔ)義化構(gòu)建。最早將聯(lián)合目錄以語(yǔ)義化形式發(fā)布的機(jī)構(gòu)為瑞典國(guó)家圖書館,該館于2008年嘗試將瑞典聯(lián)合目錄(Swedish Union Catalogue)發(fā)布為關(guān)聯(lián)數(shù)據(jù)[18]。作為全球最大聯(lián)機(jī)目錄,OCLC的WorldCat數(shù)據(jù)庫(kù)自2012年開始將一批被廣泛收藏的作品通過(guò)Schema.org詞匯表加以描述,并以關(guān)聯(lián)數(shù)據(jù)的形式進(jìn)行發(fā)布,目前已發(fā)布書目數(shù)據(jù)1.97億條[19]。
從當(dāng)前語(yǔ)義化聯(lián)合目錄的建設(shè)實(shí)踐上看,主流構(gòu)建方式為將機(jī)構(gòu)原先擁有的MARC數(shù)據(jù)內(nèi)容進(jìn)行語(yǔ)義網(wǎng)轉(zhuǎn)換,通過(guò)機(jī)構(gòu)自身所編制的書目本體對(duì)書目進(jìn)行語(yǔ)義化描述,最終以Turtle、RDF/XML、RDFa等RDF形式化表示進(jìn)行發(fā)布。這種語(yǔ)義化聯(lián)合目錄構(gòu)建方式的不足之處是無(wú)法實(shí)現(xiàn)原生的語(yǔ)義聯(lián)合目錄構(gòu)建;聯(lián)合目錄與成員館之間缺乏語(yǔ)義化的數(shù)據(jù)互操作,導(dǎo)致語(yǔ)義書目數(shù)據(jù)同步的滯后性;同時(shí)也缺乏基于以BIBFRAME為代表的標(biāo)準(zhǔn)化語(yǔ)義書目數(shù)據(jù)格式的聯(lián)合目錄構(gòu)建實(shí)踐。因此,如何構(gòu)建BIBFRAME作為標(biāo)準(zhǔn)的書目數(shù)據(jù)載體并能夠?qū)崿F(xiàn)原生語(yǔ)義化互操作的聯(lián)合目錄,是書目數(shù)據(jù)語(yǔ)義化過(guò)程中亟待解決的問(wèn)題。
4 基于BIBFRAME 2.0的語(yǔ)義聯(lián)合目錄體系結(jié)構(gòu)
如前所述,傳統(tǒng)聯(lián)機(jī)目錄可采用集中式和分散式兩種建構(gòu)策略。筆者認(rèn)為,傳統(tǒng)聯(lián)機(jī)目錄的建構(gòu)方法在語(yǔ)義網(wǎng)環(huán)境下有一定借鑒意義,但不可簡(jiǎn)單套用。構(gòu)建基于BIBFRAME 2.0的語(yǔ)義聯(lián)合目錄,可利用BIBFRAME的開放性及跨域關(guān)聯(lián)特性,并借鑒傳統(tǒng)聯(lián)機(jī)目錄中OAI收割機(jī)制及基于Z39.50的廣播式查詢機(jī)制,采用集中式、分布式和集中與分布相結(jié)合3種構(gòu)建模式。
4.1 集中式語(yǔ)義聯(lián)機(jī)目錄
集中式語(yǔ)義聯(lián)合目錄的特征為存在一個(gè)中心語(yǔ)義數(shù)據(jù)倉(cāng)儲(chǔ)。如圖2所示,中心語(yǔ)義數(shù)據(jù)倉(cāng)儲(chǔ)中存放有多個(gè)數(shù)據(jù)集,分別用于存儲(chǔ)使用BIBFRAME 2.0表示的作品、實(shí)例和館藏項(xiàng)三元組以及各成員館、書庫(kù)、作者的URI命名等規(guī)范數(shù)據(jù)。所有數(shù)據(jù)集使用帶有訪問(wèn)權(quán)限控制的SPARQL端點(diǎn)(Endpoint)將數(shù)據(jù)開放給成員館。各成員館亦分別維護(hù)一份本地BIBFRAME數(shù)據(jù)倉(cāng)儲(chǔ),同樣使用SPARQL端點(diǎn)將數(shù)據(jù)開放給中心倉(cāng)儲(chǔ)。
集中式語(yǔ)義聯(lián)合目錄實(shí)現(xiàn)的關(guān)鍵在于中心倉(cāng)儲(chǔ)數(shù)據(jù)集與成員館本地?cái)?shù)據(jù)集的同步機(jī)制。數(shù)據(jù)集同步可采用兩種形式:
(1)批量同步。即中心系統(tǒng)輪詢成員館的SPARQL端點(diǎn),定期將本地書目倉(cāng)儲(chǔ)的數(shù)據(jù)收割至中心倉(cāng)儲(chǔ)。批量同步方式是OAI-PMH收割在語(yǔ)義網(wǎng)環(huán)境下的替代。
(2)增量同步。增量同步將語(yǔ)義聯(lián)合目錄構(gòu)建與聯(lián)機(jī)編目相結(jié)合,其運(yùn)作流程為:成員館獲得新館藏資源時(shí),首先查詢本地倉(cāng)儲(chǔ)是否有相應(yīng)作品、實(shí)例和館藏信息,若無(wú)則通過(guò)HTTPPOST方法將SPARQL請(qǐng)求發(fā)送至中心倉(cāng)儲(chǔ)的SPARQL端點(diǎn)進(jìn)行檢索。若中心倉(cāng)儲(chǔ)已存在該資源的相應(yīng)數(shù)據(jù),則成員館將其套錄至本地倉(cāng)儲(chǔ)中;否則,成員館完成相關(guān)數(shù)據(jù)的原始編目并同步存儲(chǔ)至本地和中心倉(cāng)儲(chǔ)。為防止數(shù)據(jù)更新后導(dǎo)致的不一致,可在中心系統(tǒng)和本地系統(tǒng)間建立Pingback機(jī)制,若中心倉(cāng)儲(chǔ)中的數(shù)據(jù)發(fā)生了修改,則各成員館本地系統(tǒng)將收到相應(yīng)書目的更新通知。增量同步的優(yōu)勢(shì)在于可有效防止元數(shù)據(jù)的重復(fù)建設(shè),因此特別適合作品(Work)和實(shí)例(Instance)等共性較強(qiáng)的數(shù)據(jù)的同步。
4.2 分布式語(yǔ)義聯(lián)合目錄
分布式語(yǔ)義聯(lián)合目錄不設(shè)置中心語(yǔ)義數(shù)據(jù)倉(cāng)儲(chǔ),而是將BIBFRAME數(shù)據(jù)分散存儲(chǔ)于不同機(jī)構(gòu)中。各機(jī)構(gòu)分別承擔(dān)自身收藏的所有書目的作品、實(shí)例及館藏項(xiàng)數(shù)據(jù)的建設(shè),并將BIBFRAME數(shù)據(jù)以SPARQL端點(diǎn)的形式向外部開放。
當(dāng)聯(lián)合目錄收到用戶檢索請(qǐng)求時(shí),可分別向各成員館發(fā)送SPARQL查詢請(qǐng)求,再將響應(yīng)的結(jié)果集進(jìn)行合并,也可利用SPARQL的聯(lián)邦查詢(federated query)機(jī)制,一次性對(duì)指定機(jī)構(gòu)的書目進(jìn)行聯(lián)邦查詢,并將檢索結(jié)果進(jìn)行去重后提供給用戶。圖3為一段SPARQL查詢實(shí)例,該實(shí)例通過(guò)聯(lián)邦檢索方式查詢了指定ISBN號(hào)的圖書實(shí)例在兩館中各自的館藏復(fù)本量。
分布式語(yǔ)義聯(lián)合目錄無(wú)需成員館對(duì)系統(tǒng)架構(gòu)作較大調(diào)整,也無(wú)需部署專用的同步終端軟件,因此較適合松散型圖書館聯(lián)盟成員間的資源整合。其缺點(diǎn)是不同成員間缺乏協(xié)調(diào)機(jī)制,可能存在對(duì)同一作品和實(shí)例數(shù)據(jù)的重復(fù)建設(shè),并由此產(chǎn)生數(shù)據(jù)去重過(guò)程中的取舍問(wèn)題。
4.3 集中與分布相結(jié)合的語(yǔ)義聯(lián)合目錄
集中與分布相結(jié)合的語(yǔ)義聯(lián)合目錄綜合了前兩者的特性。在這一模式下,作品、實(shí)例和命名規(guī)范等共性較強(qiáng)的數(shù)據(jù)采用集中式管理;館藏項(xiàng)等個(gè)性較強(qiáng)的數(shù)據(jù)采用分布式管理(見圖4)。其優(yōu)點(diǎn)在于通過(guò)作品和實(shí)例數(shù)據(jù)的集中管理可以減少資源的重復(fù)建設(shè),同時(shí)通過(guò)分布式的采集館藏項(xiàng)數(shù)據(jù)可以盡可能擴(kuò)大檢索的成員館范圍。
5 實(shí)驗(yàn)測(cè)評(píng)
為驗(yàn)證上述語(yǔ)義聯(lián)合目錄構(gòu)建方法的有效性,筆者使用Jena Fuseki+Apache HTTP Server搭建實(shí)驗(yàn)平臺(tái),進(jìn)行了相關(guān)測(cè)試。Fuseki是Apache基金會(huì)開發(fā)的開源語(yǔ)義網(wǎng)框架Jena中的一個(gè)SPARQL服務(wù)器,其內(nèi)置了TDB三元組存儲(chǔ)器,同時(shí)提供支持HTTP REST架構(gòu)的SPARQL端點(diǎn)(Endpoint)服務(wù)。
Fuseki服務(wù)器自帶有基于Apache Shiro框架的權(quán)限控制機(jī)制[20],但經(jīng)筆者測(cè)試,其權(quán)限控制主要針對(duì)三元組數(shù)據(jù)集管理系統(tǒng),并未覆蓋SPARQL端點(diǎn)服務(wù),這使得SPARQL端點(diǎn)暴露在外,存在一定的數(shù)據(jù)安全隱患。為解決這一問(wèn)題,筆者利用Apache HTTP Server的反向代理機(jī)制構(gòu)建了反向代理服務(wù)器指向Fuseki服務(wù)器的URL,并針對(duì)該反向代理設(shè)置了AuthType Basic權(quán)限限制,從而將SPARQL端點(diǎn)覆蓋在鑒權(quán)范圍內(nèi)。
針對(duì)集中式語(yǔ)義聯(lián)合目錄的館際互操作問(wèn)題,筆者按上述權(quán)限控制方案在局域網(wǎng)中搭建了兩臺(tái)部署有Fuseki+Apache HTTP Server的服務(wù)器,用于模擬中心倉(cāng)儲(chǔ)和本地倉(cāng)儲(chǔ),并在中心倉(cāng)儲(chǔ)服務(wù)器中建立了名為center的數(shù)據(jù)集(Dataset),在本地倉(cāng)儲(chǔ)服務(wù)器中建立了名為local的數(shù)據(jù)集,兩數(shù)據(jù)集中均建立了名為work、instance、item的3個(gè)具名圖(Named Graph),用于分類保存用于測(cè)試的BIBFRAME 2.0 RDF數(shù)據(jù)。
Jena ARQ是Jena所包含的SPARQL查詢引擎,提供了包括基本SPARQL查詢、聯(lián)邦查詢及SPARQL更新在內(nèi)的一系列API。筆者利用Jena ARQ API實(shí)現(xiàn)了對(duì)遠(yuǎn)端語(yǔ)義書目倉(cāng)儲(chǔ)的查詢和修改,進(jìn)而可完成數(shù)據(jù)批量下載、套錄等一系列操作。圖5為書目數(shù)據(jù)讀寫操作的關(guān)鍵代碼(其中admin和pw為鑒權(quán)信息,http://192.168.1.2/center/sparql和http://192.168.1.2/center/update分別為經(jīng)反向代理包裝后的中心倉(cāng)儲(chǔ)的查詢和修改SPARQL端點(diǎn)):
為驗(yàn)證分布式語(yǔ)義聯(lián)合目錄互操作的可靠性,筆者使用Java程序自動(dòng)生成了1 000條BIBFRAME作品測(cè)試數(shù)據(jù),每部作品數(shù)據(jù)各生成10條相關(guān)實(shí)例,每部實(shí)例各生成10個(gè)相關(guān)館藏項(xiàng),共計(jì)10萬(wàn)條館藏?cái)?shù)據(jù),并將上述數(shù)據(jù)分散存放于廣域網(wǎng)中的3臺(tái)計(jì)算機(jī)中(其中2臺(tái)位于Chinanet,1臺(tái)位于Cernet)。此后,筆者以Chinanet中的另一主機(jī)充當(dāng)聯(lián)合目錄服務(wù)器對(duì)上述3臺(tái)計(jì)算機(jī)進(jìn)行SPARQL查詢,以聯(lián)邦檢索方式查詢特定作品的所有館藏信息。實(shí)驗(yàn)結(jié)果顯示,10次針對(duì)不同作品的查詢均得到正確的查詢結(jié)果,取得返回結(jié)果所用的平均耗時(shí)為1.2秒,但實(shí)驗(yàn)也發(fā)現(xiàn)基于SPARQL聯(lián)邦查詢獲取數(shù)據(jù)存在一定的“木桶效應(yīng)”,即一旦某一節(jié)點(diǎn)連接時(shí)延過(guò)長(zhǎng)或斷開連接,將導(dǎo)致聯(lián)合目錄查詢超時(shí)。因此,筆者認(rèn)為基于聯(lián)邦檢索方式實(shí)現(xiàn)的分布式語(yǔ)義聯(lián)合目錄主要適用于網(wǎng)絡(luò)時(shí)延較短、成員館節(jié)點(diǎn)數(shù)量較少的應(yīng)用場(chǎng)景。在網(wǎng)絡(luò)時(shí)延不確定或需要大規(guī)模分布式查詢的應(yīng)用場(chǎng)景中,通過(guò)前述Jena ARQ API分別查詢成員館SPARQL端點(diǎn),再進(jìn)行數(shù)據(jù)合并的方式應(yīng)更為理想。
6 總結(jié)與展望
基于BIBFRAME 2.0的語(yǔ)義聯(lián)合目錄相比傳統(tǒng)聯(lián)合目錄相比,主要優(yōu)勢(shì)在于:
(1)實(shí)現(xiàn)了書目信息內(nèi)容揭示和館藏?cái)?shù)據(jù)的分離。在BIBFRAME模型中,作品數(shù)據(jù)屬于抽象內(nèi)容,實(shí)例和館藏?cái)?shù)據(jù)屬于載體表現(xiàn),在描述時(shí)分開描述。在語(yǔ)義聯(lián)機(jī)目錄中,作品、作品實(shí)例和館藏項(xiàng)三元組可以分別存儲(chǔ)于不同數(shù)據(jù)集中,由不同機(jī)構(gòu)或部門負(fù)責(zé)維護(hù),用戶在聯(lián)機(jī)檢索時(shí)再整合多個(gè)數(shù)據(jù)集的內(nèi)容進(jìn)行查詢。
(2)提高了書目數(shù)據(jù)的開放性和關(guān)聯(lián)程度。在語(yǔ)義網(wǎng)中,使用HTTP URI作為實(shí)體的標(biāo)識(shí)符。在BIBFRAME書目數(shù)據(jù)中,任何與圖書有關(guān)的實(shí)體(如作者、出版商、圖書館、地區(qū))均可使用URI進(jìn)行標(biāo)識(shí)。這有助于打破傳統(tǒng)圖書館的封閉系統(tǒng)與萬(wàn)維網(wǎng)之間的藩籬,便于實(shí)現(xiàn)書目數(shù)據(jù)和其他開放數(shù)據(jù)集之間的混搭。
針對(duì)BIBFRAME 2.0出現(xiàn)后書目數(shù)據(jù)語(yǔ)義化的發(fā)展,本研究在分析傳統(tǒng)聯(lián)合目錄構(gòu)建機(jī)制的基礎(chǔ)上提出了3種語(yǔ)義聯(lián)合目錄的構(gòu)建模式,即集中式語(yǔ)義聯(lián)合目錄、分布式語(yǔ)義聯(lián)合目錄以及集中與分布相結(jié)合的建設(shè)模式,通過(guò)語(yǔ)義聯(lián)合目錄的構(gòu)建,可實(shí)現(xiàn)館際間語(yǔ)義書目數(shù)據(jù)的聯(lián)合查詢,進(jìn)而可為基于BIBFRAME的語(yǔ)義聯(lián)機(jī)編目和館際互借等館際協(xié)作提供基礎(chǔ)。
為驗(yàn)證語(yǔ)義聯(lián)合目錄構(gòu)建方法的有效性,本研究開展了基于BIBFRAME和語(yǔ)義倉(cāng)儲(chǔ)的館際互操作實(shí)驗(yàn)。由實(shí)驗(yàn)結(jié)果可知,本研究提出的語(yǔ)義聯(lián)合目錄建設(shè)方法在實(shí)踐中具有可行性。在本研究中,主要以自動(dòng)生成的書目數(shù)據(jù)作為測(cè)試資源,未將大批量MARC數(shù)據(jù)轉(zhuǎn)換后進(jìn)行測(cè)試,同時(shí)也缺乏對(duì)大量成員館節(jié)點(diǎn)在跨區(qū)域網(wǎng)絡(luò)環(huán)境下構(gòu)建聯(lián)合目錄的測(cè)試。在后續(xù)研究中,筆者將對(duì)CNMARC向BIBFRAME 2.0的轉(zhuǎn)換機(jī)制進(jìn)行探索,同時(shí)對(duì)跨區(qū)域多節(jié)點(diǎn)環(huán)境下的語(yǔ)義聯(lián)合目錄應(yīng)用予以關(guān)注和測(cè)試。
參考文獻(xiàn):
[1] ANDRESEN L. After MARC-what then[J]. Library hi tech, 2004, 22(1): 40-51.
[2] ALEMU G, Stevens B, Ross P, et al. Linked data for libraries: benefits of a conceptual shift from library specific record structures to RDF-based data models[J]. New library world, 2012, 113(11/12): 549-570.
[3] TENNANT R. MARC must die[J]. Library journal, 2002, 127(17): 26-28.
[4] Library of Congress. BIBFRAME vocabulary[EB/OL]. [2016-04-10]. http: //bibframe.org/vocab-list.
[5] Library of Congress. BIBFRAME 2. 0 vocabulary[EB/OL]. [2016-04-15]. http: //id.loc.gov/ontologies/bibframe.html.
[6] Library of Congress. BIBFRAME Implementation & testing[EB/OL]. [2016-04-10]. http://www.loc.gov/bibframe/implementation.
[7] Zapounidou S, Sfakakis M, Papatheodorou C. Library data integration: towards BIBFRAME mapping to EDM[C]//Closs S, Studer R, Garoufallou E, et al. Metadata and Semantics Research. Berlin: Springer International Publishing, 2014: 262-273.
[8] LD4L Project team. Project description [EB/OL]. [2016-04-30]. https://www.ld4l.org/description.
[9] 劉煒, 夏翠娟. 書目數(shù)據(jù)新格式BIBFRAME及其應(yīng)用[J]. 大學(xué)圖書館學(xué)報(bào), 2014(1): 5-13.
[10] 夏翠娟, 劉煒, 張磊,等. 基于書目框架(BIBFRAME)的家譜本體設(shè)計(jì)[J]. 圖書館論壇, 2014(11): 5-19.
[11] 盧共平, 汪善建. 歐美國(guó)家聯(lián)合目錄的進(jìn)展與我國(guó)虛擬聯(lián)合目錄的發(fā)展思路[J]. 圖書情報(bào)工作, 2002, 46(10): 84-87.
[12] NBINet. 全國(guó)圖書書目資訊網(wǎng)合作編目要點(diǎn)[EB/OL]. [2016-04-30]. http: //nbinet.ncl.edu.tw/content.aspx?t=m&id=95.
[13] Open Archives Initiative. Registered data providers[EB/OL]. [2016-04-30]. http://www.openarchives.org/Register/BrowseSites.
[14] 姚曉娜, 祝忠明, 盧利農(nóng),等. 機(jī)構(gòu)知識(shí)庫(kù)OAI互操作數(shù)據(jù)同步策略研究[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2014(3): 14-18.
[15] Hong Kong University of Science and Technology Library. Z39. 50 union catalogs [EB/OL]. [2016-05-03]. http://ustlib.ust.hk:211/z39m.
[16] 臺(tái)灣“國(guó)家圖書館”. “國(guó)家圖書館”鏈接資源系統(tǒng)開放使用[EB/OL]. [2016-10-23]. http://catweb.ncl.edu.tw/portal_d2_page.php?button_num=d2&cnt_id=301.
[17] 歐石燕.語(yǔ)義網(wǎng)的主要功能及其在數(shù)字圖書館中的應(yīng)用[J]. 數(shù)字圖書館論壇, 2014(3): 2-10.
[18] Martin M. Making a library catalogue part of the semantic Web[EB/OL]. [2016-05-15]. http://dcpapers.dublincore.org/pubs/article/view/927/923.
[19] OCLC. Data strategy and linked data[EB/OL]. [2016-05-03]. http://www.oclc.org/data.en.html.
[20] Apache Software Foundation. Security in Fuseki2[EB/OL]. [2016-05-15]. https://jena.apache.org/documentation/fuseki2/fuseki-security.html.
Semantic Union Catalogs: The Construction of Union Catalogs Based on BIBFRAME 2.0
Lin Zefei
College of Social Development, Fujian Normal University, Fuzhou 350013
Abstract: [Purpose/significance] With the continuous improvement of bibliographic description models such as BIBFRAME, bibliographic data are facing the transition from MARC to the semantic bibliography. This paper explores the construction model of semantic union catalogs. [Method/process] The author analyzed the construction model of tranditional union catalogs firstly, and considered that its pattern had reference significance for semantic union catalogs but should not be simply copied. Then, the authors analyzed the bibliographic description method of BIBFRAME 2.0, and proposed three construction models of semantic union catalogs: the centralized semantic union catalogs, the distributed semantic union catalogs and the combination of these two methods. Finally, the authors built an experimental platform based on Jena Fuseki and Apache HTTP server, and tested the interoperated method of semantic union catalogs. [Result/conclusion] The experimental results show that the three methods proposed in this paper are feasible in practice, and can provide useful references for the semantic bibliographic data interoperability and the cross-database retrieval system of the library and information department.
Keywords: union catalogs BIBFRAME Semantic Web linked data
知識(shí)管理論壇2016年6期