楊敏
(重慶工程職業(yè)技術(shù)學(xué)院圖書(shū)館 重慶 402260)
關(guān)聯(lián)數(shù)據(jù)在圖書(shū)館中的應(yīng)用研究
楊敏
(重慶工程職業(yè)技術(shù)學(xué)院圖書(shū)館 重慶 402260)
關(guān)聯(lián)數(shù)據(jù)在圖書(shū)館領(lǐng)域具有廣泛的應(yīng)用前景,是圖書(shū)館語(yǔ)義網(wǎng)建設(shè)中的關(guān)鍵性技術(shù)。文章介紹了目前關(guān)聯(lián)數(shù)據(jù)在圖書(shū)館中4個(gè)方面的應(yīng)用:書(shū)目記錄關(guān)聯(lián)數(shù)據(jù)化、實(shí)現(xiàn)語(yǔ)義檢索服務(wù)、擴(kuò)展知識(shí)發(fā)現(xiàn)服務(wù)、跨機(jī)構(gòu)的數(shù)據(jù)的開(kāi)放與復(fù)用以及其在用戶接口、法律許可、質(zhì)量評(píng)價(jià)方面面臨的挑戰(zhàn)。
關(guān)聯(lián)數(shù)據(jù);圖書(shū)館;語(yǔ)義網(wǎng)
2006年Tim Berners-Lee在《關(guān)聯(lián)數(shù)據(jù)筆記》中提出了Linked Data這一概念,他提出關(guān)聯(lián)數(shù)據(jù)就是將一箱箱數(shù)據(jù)通過(guò)開(kāi)放標(biāo)準(zhǔn)關(guān)聯(lián)在一起,從而萌發(fā)出很多新事物和新應(yīng)用。作為語(yǔ)義網(wǎng)構(gòu)建的關(guān)鍵性技術(shù)之一,關(guān)聯(lián)數(shù)據(jù)通過(guò)可鏈接的URI來(lái)實(shí)現(xiàn)數(shù)據(jù)的語(yǔ)義標(biāo)注,并將實(shí)際語(yǔ)義相關(guān)的數(shù)據(jù)連接起來(lái),以此來(lái)構(gòu)建一個(gè)可供計(jì)算機(jī)理解的結(jié)構(gòu)化和語(yǔ)義化的數(shù)據(jù)網(wǎng)絡(luò)。
關(guān)聯(lián)數(shù)據(jù)自提出以來(lái),得到諸多學(xué)科領(lǐng)域的廣泛關(guān)注,目前已成為計(jì)算機(jī)科學(xué)、信息管理、圖書(shū)情報(bào)等領(lǐng)域的研究熱點(diǎn)。圖書(shū)館是數(shù)據(jù)的發(fā)布者,同時(shí)也是數(shù)據(jù)的消費(fèi)者。關(guān)聯(lián)數(shù)據(jù)一方面可以作為跨網(wǎng)域數(shù)據(jù)整合的通用API(Application Programming Interface,應(yīng)用程序編程接口),重用或整合其他來(lái)源的數(shù)據(jù);另一方面可提供“可信網(wǎng)絡(luò)”的語(yǔ)義要素,保障整合數(shù)據(jù)網(wǎng)絡(luò)的可信度。國(guó)外圖書(shū)館界已對(duì)關(guān)聯(lián)數(shù)據(jù)的應(yīng)用作了諸多有益探索。如2008年美國(guó)國(guó)會(huì)圖書(shū)館和瑞典國(guó)家圖書(shū)館分別將LCSH(Library of Congress Subject Headings,美國(guó)國(guó)會(huì)圖書(shū)館標(biāo)題表)和瑞典全國(guó)聯(lián)合目錄LIBRIS以關(guān)聯(lián)數(shù)據(jù)框架的形式在網(wǎng)上發(fā)布,并通過(guò)URI(Uniform Resource Identifier,統(tǒng)一資源標(biāo)識(shí)符)實(shí)現(xiàn)了LIBRIS的瑞典語(yǔ)主題詞與LCSH之間的關(guān)聯(lián)。
圖書(shū)館的數(shù)據(jù)成千上萬(wàn),并且有不同的類(lèi)型,基本可分為基本數(shù)據(jù)與服務(wù)數(shù)據(jù)兩大類(lèi)。基本數(shù)據(jù)包括[1]:①受控詞匯,如標(biāo)題表、敘詞表等;②規(guī)范文檔,如人名、地名規(guī)范數(shù)據(jù)記錄等;③書(shū)目數(shù)據(jù),如瑞典聯(lián)合目錄等;④館藏單位,如瑞典各圖書(shū)館等。服務(wù)數(shù)據(jù)包括:①不同項(xiàng)目和活動(dòng)建立的網(wǎng)頁(yè);②整合數(shù)據(jù);③跨行業(yè)、機(jī)構(gòu)、數(shù)據(jù)源的數(shù)字資源等。
如此多的數(shù)據(jù)究竟哪種數(shù)據(jù)適合用來(lái)發(fā)布為關(guān)聯(lián)數(shù)據(jù)呢?Corey Harper 2008年給出了以下建議:圖書(shū)館數(shù)據(jù)工作中的任何“資源”都應(yīng)該在整個(gè)流程中盡早得到URI,這些URI都能提供有用的RDF(Resource Description Framework,資源描述框架)信息,并且這種URI都是能使用HTTP來(lái)訪問(wèn)的。
W3C圖書(shū)館關(guān)聯(lián)數(shù)據(jù)(Library Linked Data)孵化小組收集了圖書(shū)館關(guān)聯(lián)數(shù)據(jù)的用例并探索關(guān)鍵問(wèn)題,于2011年10月發(fā)布系列報(bào)告[2]。在報(bào)告中將收集到的58個(gè)用例分為書(shū)目數(shù)據(jù)、規(guī)范控制、詞匯匹配、檔案數(shù)據(jù)、參考引文、數(shù)字對(duì)象、文獻(xiàn)集、社會(huì)性應(yīng)用8個(gè)類(lèi)別。從用例數(shù)量上看,書(shū)目數(shù)據(jù)是最多的一類(lèi),這也是最容易實(shí)現(xiàn)的一部分。因此在構(gòu)建關(guān)聯(lián)數(shù)據(jù)之初,書(shū)目數(shù)據(jù)成為大多數(shù)圖書(shū)館的首要選擇。書(shū)目數(shù)據(jù)的主要應(yīng)用目標(biāo)包括:建立數(shù)據(jù)描述元素的語(yǔ)義標(biāo)準(zhǔn);通過(guò)關(guān)聯(lián)數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)記錄的去重與統(tǒng)一化;使用標(biāo)準(zhǔn)化書(shū)目術(shù)語(yǔ)來(lái)標(biāo)注網(wǎng)絡(luò)資源;多個(gè)數(shù)據(jù)提供商提供集成化元數(shù)據(jù)搜索界面;不同形式的信息集和服務(wù)(查詢限定與擴(kuò)展、提醒服務(wù)等);書(shū)目記錄的標(biāo)注,等等。
關(guān)聯(lián)數(shù)據(jù)在圖書(shū)館的應(yīng)用極大挖掘了原有信息資源的價(jià)值,進(jìn)一步深化了知識(shí)發(fā)現(xiàn)服務(wù),同時(shí)提供了圖書(shū)館資源與外部機(jī)構(gòu)資源互聯(lián)互通的可能。目前,圖書(shū)館領(lǐng)域展開(kāi)的關(guān)聯(lián)數(shù)據(jù)應(yīng)用主要體現(xiàn)在以下4個(gè)方面:
(1)書(shū)目記錄關(guān)聯(lián)數(shù)據(jù)化
關(guān)聯(lián)數(shù)據(jù)這一概念提出不久,一些歐美國(guó)家的圖書(shū)館就開(kāi)始嘗試采用RDF和關(guān)聯(lián)數(shù)據(jù)來(lái)對(duì)本館的數(shù)據(jù)資源進(jìn)行改造,并取得了顯著成效。其中書(shū)目數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)化即以關(guān)聯(lián)數(shù)據(jù)形式來(lái)發(fā)布書(shū)目數(shù)據(jù)。技術(shù)上來(lái)講是指使用URI命名書(shū)目數(shù)據(jù),通過(guò)HTTP、URI定位鏈接書(shū)目數(shù)據(jù),即通過(guò)賦予主題詞、出版社、個(gè)人名稱等各書(shū)目數(shù)據(jù)唯一的名稱標(biāo)識(shí)URI,將有語(yǔ)義關(guān)聯(lián)的URI鏈接起來(lái),并建立其與主題規(guī)范、出版項(xiàng)、個(gè)人名稱規(guī)范等的關(guān)聯(lián)鏈接,形成書(shū)目數(shù)據(jù)語(yǔ)義網(wǎng),從而便于用戶從一條書(shū)目記錄能擴(kuò)展檢索到更多的相關(guān)信息[3]。
2008年瑞典國(guó)家圖書(shū)館將LIBRIS中的書(shū)目數(shù)據(jù)、人名、地名等規(guī)范文檔記錄以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布,并將其與DBPedia①相關(guān)聯(lián)。LIBRIS的關(guān)聯(lián)數(shù)據(jù)化為圖書(shū)館界開(kāi)展關(guān)聯(lián)數(shù)據(jù)應(yīng)用提供了寶貴的經(jīng)驗(yàn)和思路。
美國(guó)國(guó)會(huì)圖書(shū)館將LCSH以關(guān)聯(lián)數(shù)據(jù)形式在網(wǎng)上發(fā)布,并與瑞典國(guó)家圖書(shū)館合作實(shí)現(xiàn)了LIBRIS的瑞典語(yǔ)主題詞與LCSH之間的關(guān)聯(lián)。
2010年德國(guó)國(guó)家圖書(shū)館建立和完善了PND(個(gè)人名稱規(guī)范)和SWD(主題詞規(guī)范),并建立其與Wikipedia、DBPedia和VIAF[4]的鏈接,通過(guò)OAI-PMH(Open Archive Initiative for Protocol Meta-data Harvesting,開(kāi)放文檔先導(dǎo)—元數(shù)據(jù)收割協(xié)議)和SRU(Search and Retrieve via URL)訪問(wèn)數(shù)據(jù)的方法,完善了URI/URL模式,從而實(shí)現(xiàn)了將這些數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)。
2012年西班牙圖書(shū)館將館內(nèi)書(shū)目記錄、個(gè)人、題名及主題等規(guī)范記錄轉(zhuǎn)化為RDF三元組,并將其與DBPedia、德國(guó)、瑞典的國(guó)家圖書(shū)館目錄相關(guān)聯(lián)。
國(guó)內(nèi)圖書(shū)館目前尚未開(kāi)展真正意義上的將書(shū)目數(shù)據(jù)關(guān)聯(lián)數(shù)據(jù)化的實(shí)踐。作為國(guó)內(nèi)研究關(guān)聯(lián)數(shù)據(jù)的先驅(qū),2008年,劉煒題為“語(yǔ)義操作與關(guān)聯(lián)數(shù)據(jù)”的報(bào)告引起了國(guó)內(nèi)圖書(shū)館界對(duì)關(guān)聯(lián)數(shù)據(jù)在圖書(shū)館實(shí)際工作中應(yīng)用的關(guān)注。隨后,2010年,“圖書(shū)館前沿技術(shù)論壇”將主題定為“關(guān)聯(lián)數(shù)據(jù)與書(shū)目數(shù)據(jù)的未來(lái)”[5],專門(mén)探討了相關(guān)方面的問(wèn)題。國(guó)內(nèi)一些館藏書(shū)目記錄雖然能提供責(zé)任者、主題詞、出版社等鏈接,但相較而言較為簡(jiǎn)單,并不能算真正意義上的關(guān)聯(lián)數(shù)據(jù)化。
將圖書(shū)館的書(shū)目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)還僅僅只是圖書(shū)館數(shù)據(jù)資源關(guān)聯(lián)數(shù)據(jù)化的初始階段,圖書(shū)館也不應(yīng)僅僅只滿足于實(shí)現(xiàn)書(shū)目數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)化。圖書(shū)館的數(shù)據(jù)資源類(lèi)型多種多樣,一些服務(wù)類(lèi)型的數(shù)據(jù)同樣具有很高的價(jià)值,并且往往實(shí)現(xiàn)這些服務(wù)數(shù)據(jù)的關(guān)聯(lián)化將更有助于提升用戶的體驗(yàn)。
(2)實(shí)現(xiàn)語(yǔ)義檢索服務(wù)
關(guān)聯(lián)數(shù)據(jù)的發(fā)展為語(yǔ)義網(wǎng)的構(gòu)建提供了新的方向和技術(shù)手段。通過(guò)關(guān)聯(lián)數(shù)據(jù)技術(shù)可建立實(shí)體之間的語(yǔ)義鏈接來(lái)支持用戶的語(yǔ)義檢索。從發(fā)展現(xiàn)狀和趨勢(shì)來(lái)看,關(guān)聯(lián)數(shù)據(jù)技術(shù)作為語(yǔ)義網(wǎng)實(shí)現(xiàn)的一種技術(shù)手段已經(jīng)得到眾多社區(qū)、機(jī)構(gòu)和政府部門(mén)的廣泛支持。
作為歐洲國(guó)家圖書(shū)館的數(shù)字資源門(mén)戶的Europeana采用 SKOS(Simple Knowledge OrganizationSystem,簡(jiǎn)單知識(shí)組織系統(tǒng))等元數(shù)據(jù)模式聚合了圖書(shū)、視頻等圖書(shū)館對(duì)象的元數(shù)據(jù),數(shù)據(jù)間互操作性極強(qiáng)。目前,Europeana正在開(kāi)發(fā)語(yǔ)義檢索服務(wù),通過(guò)在Europeana之上引入語(yǔ)義層,以實(shí)現(xiàn)在對(duì)象之間建立語(yǔ)義鏈接[6]。
(3)擴(kuò)展知識(shí)發(fā)現(xiàn)服務(wù)
知識(shí)發(fā)現(xiàn)是人類(lèi)知識(shí)活動(dòng)的最終目標(biāo)。進(jìn)入網(wǎng)絡(luò)時(shí)代,人類(lèi)知識(shí)工作的基礎(chǔ)是網(wǎng)絡(luò)環(huán)境;知識(shí)發(fā)現(xiàn)的工具是相應(yīng)的網(wǎng)絡(luò)技術(shù)與工具;知識(shí)發(fā)現(xiàn)的對(duì)象是網(wǎng)絡(luò)中的數(shù)據(jù);知識(shí)發(fā)現(xiàn)的結(jié)果是找到有用的數(shù)據(jù)組織為有效的信息,繼而將有效的信息,組織為人們感興趣的、新穎的、有效的知識(shí)。關(guān)聯(lián)數(shù)據(jù)是語(yǔ)義網(wǎng)的最佳實(shí)踐,促進(jìn)了語(yǔ)義網(wǎng)的發(fā)展和演進(jìn)。隨著關(guān)聯(lián)數(shù)據(jù)的理論、原則、方法和技術(shù)的發(fā)展,消費(fèi)和使用關(guān)聯(lián)數(shù)據(jù)的各類(lèi)工具也不斷研發(fā)和完善起來(lái)。在此基礎(chǔ)上,關(guān)聯(lián)數(shù)據(jù)得以迅速發(fā)展和廣泛應(yīng)用,語(yǔ)義網(wǎng)得以進(jìn)一步實(shí)現(xiàn),資源極大豐富起來(lái)。李楠在博士論文中構(gòu)建了關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)模型[7]。
圖書(shū)館利用關(guān)聯(lián)數(shù)據(jù)方法和技術(shù)可將本館資源和外部資源組織成為一個(gè)有效的網(wǎng)絡(luò),有利于挖掘資源之間原先不那么明顯但實(shí)際密切相關(guān)的聯(lián)系,從而促進(jìn)用戶的知識(shí)發(fā)現(xiàn)。圖書(shū)館可利用現(xiàn)有的一些關(guān)聯(lián)數(shù)據(jù)倉(cāng)儲(chǔ)庫(kù)和搜索引擎來(lái)擴(kuò)展和深化自身的知識(shí)發(fā)現(xiàn)服務(wù)。
(4)跨機(jī)構(gòu)的數(shù)據(jù)的開(kāi)放與復(fù)用
關(guān)聯(lián)數(shù)據(jù)是結(jié)構(gòu)化和語(yǔ)義化的,可以實(shí)現(xiàn)不同機(jī)構(gòu)間數(shù)據(jù)的開(kāi)放與復(fù)用。如圖書(shū)館可利用出版社的一些圖書(shū)數(shù)據(jù),減輕自身的工作量,并可將自身數(shù)據(jù)與檔案館、博物館、互聯(lián)網(wǎng)上的數(shù)據(jù)關(guān)聯(lián)起來(lái),從而擴(kuò)展自身資源的范圍,同時(shí)也可將其與其他圖書(shū)館進(jìn)行互聯(lián),共享數(shù)據(jù)。
英國(guó)哈德斯菲爾德大學(xué)圖書(shū)館在開(kāi)放數(shù)據(jù)共享許可協(xié)議下向其他圖書(shū)館共享了本館的流通數(shù)據(jù)和薦購(gòu)數(shù)據(jù),為他館了解讀者借閱傾向、館藏資源建設(shè)等提供有益借鑒。
盡管已經(jīng)取得了不小的進(jìn)展,但是圖書(shū)館界在應(yīng)用關(guān)聯(lián)數(shù)據(jù)時(shí)仍面臨著諸多考驗(yàn),表現(xiàn)在以下幾個(gè)方面:
(1)用戶接口問(wèn)題
關(guān)聯(lián)數(shù)據(jù)可以使圖書(shū)館為用戶提供訪問(wèn)廣泛的、分散的、異質(zhì)的數(shù)據(jù)資源的統(tǒng)一接口。圖書(shū)館采用現(xiàn)有的關(guān)聯(lián)數(shù)據(jù)搜索引擎雖然可以使用戶在不同數(shù)據(jù)對(duì)象間跳轉(zhuǎn)瀏覽,但在導(dǎo)航和結(jié)果顯示上還存在著諸多不足,可能會(huì)造成數(shù)據(jù)迷航,增加用戶負(fù)擔(dān)。特別是面對(duì)海量的網(wǎng)頁(yè)數(shù)據(jù),如何使關(guān)聯(lián)數(shù)據(jù)的應(yīng)用接口更加人性化是一個(gè)極具挑戰(zhàn)的問(wèn)題。
因此,圖書(shū)館在構(gòu)建關(guān)聯(lián)數(shù)據(jù)之初就應(yīng)充分了解本館用戶的信息需求,從以文件為中心的瀏覽的服務(wù)模式轉(zhuǎn)變?yōu)橐詫?shí)體為中心的瀏覽,完善關(guān)聯(lián)數(shù)據(jù)搜索引擎的導(dǎo)航和頁(yè)面布局,向用戶提供最精準(zhǔn)、最全面的數(shù)據(jù)資源。
(2)法律許可問(wèn)題
關(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)了不同數(shù)據(jù)源之間的互聯(lián)互通,極大地提升了數(shù)據(jù)的利用率,但也面臨著一些風(fēng)險(xiǎn),如侵犯他人的隱私、違反知識(shí)產(chǎn)權(quán)等。在關(guān)聯(lián)數(shù)據(jù)的構(gòu)建過(guò)程中需要技術(shù)手段和法律方面的綜合考量。
目前,國(guó)際上制定了一些與關(guān)聯(lián)數(shù)據(jù)開(kāi)放有關(guān)的協(xié)議,代表性的有3種:開(kāi)放數(shù)據(jù)公用、關(guān)聯(lián)協(xié)議及創(chuàng)作公用。這些協(xié)議明確了數(shù)據(jù)生產(chǎn)者和消費(fèi)者在獲取、傳播、利用、再生產(chǎn)數(shù)據(jù)時(shí)的權(quán)利和義務(wù),目的是在法律許可的范圍內(nèi)實(shí)現(xiàn)數(shù)據(jù)的再利用。圖書(shū)館在整合關(guān)聯(lián)館外數(shù)據(jù)時(shí),需根據(jù)這些協(xié)議深入研究,規(guī)避法律風(fēng)險(xiǎn)。
(3)質(zhì)量評(píng)價(jià)問(wèn)題
圖書(shū)館采用關(guān)聯(lián)數(shù)據(jù)等新技術(shù)的根本目的是向用戶提供最需要或最合適的數(shù)據(jù)。因此圖書(shū)館需要對(duì)關(guān)聯(lián)數(shù)據(jù)網(wǎng)中的數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),確保將完整、可靠、有效的信息呈現(xiàn)給用戶。但是目前的關(guān)聯(lián)數(shù)據(jù)技術(shù)提供數(shù)據(jù)構(gòu)建和檢索方法,并不提供數(shù)據(jù)評(píng)價(jià)方法。傳統(tǒng)的信息檢索評(píng)價(jià)方法如PageRank算法、HITS、VSM 等,不宜于直接應(yīng)用于語(yǔ)義網(wǎng)的質(zhì)量評(píng)價(jià)。圖書(shū)館在進(jìn)行關(guān)聯(lián)數(shù)據(jù)構(gòu)建時(shí),要適當(dāng)對(duì)數(shù)據(jù)對(duì)象進(jìn)行評(píng)價(jià),確保數(shù)據(jù)質(zhì)量。
注釋:
①DBpedia是一個(gè)很特殊的語(yǔ)義網(wǎng)應(yīng)用范例,它從維基百科(Wikipedia)的詞條里擷取出結(jié)構(gòu)化的資料,以強(qiáng)化維基百科的搜尋功能,并將其他資料集連結(jié)至維基百科。
[1]曾蕾.關(guān)聯(lián)的圖書(shū)館數(shù)據(jù)[EB/OL].[2016-02-20].http://wenku.baidu.com/link?url=lMmotBMbRlaSFcH_ndX-rSmbMBl18Fd WzGnzgfs6JFTVCIk81oDJkKtB3cLFs0cTSewDWRlSIHhrKdbXagP6vHUN1wQ5kIWbU-DI-zB-aei.
[2]Daniel Vila Suero, Universidad Politécnica de Madrid,ES. Use-CaseReport[EB/OL].[2016-03-15].http://www.w3.org/ 2005/Incubator/lld /wiki /UseCaseReport.
[3]張海玲.圖書(shū)館書(shū)目數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)化研究:以德國(guó)國(guó)家圖書(shū)館為例[J].圖書(shū)館論壇,2013(1):120-125.
[4]VIAF[EB/OL].[2016-09-01].http://www.viaf.it.
[5]劉煒.關(guān)聯(lián)數(shù)據(jù):概念、技術(shù)及應(yīng)用展望[J].大學(xué)圖書(shū)館學(xué)報(bào),2011(2):5-12.
[6]黃永文.關(guān)聯(lián)數(shù)據(jù)在圖書(shū)館中的應(yīng)用研究綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2010(5):1-7.
[7]李楠.基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)研究[D].北京:中國(guó)農(nóng)業(yè)科學(xué)院,2012.
Research on the Application of Linked Data in Libraries
Linked data have broad application prospects in the library field.It's the key technology of semantic web construction in libraries.This paper introduces four aspects of application of linked data in the libraries at present:bibliographical record linked datamation,realization of semantic retrieval,expansion of knowledge discovery,openness of inter-agency data and the reuse as well as challenges in the user interface,legal permission and quality evaluation.
linked data;library;semantic web
G250.7
A
楊敏(1989—),女,助教,重慶工程職業(yè)技術(shù)學(xué)院圖書(shū)館。
2016-09-06