(武漢大學(xué)信息管理學(xué)院 湖北武漢 430072)
書目數(shù)據(jù)語義化是指基于規(guī)范的概念模型,顯性地、以機器可讀的方式表達書目實體及其屬性特征和關(guān)聯(lián)關(guān)系,序化書目實體之間和屬性之間的關(guān)系,并提供基于語義關(guān)系的、統(tǒng)一的存取方式?!?〕目前,書目數(shù)據(jù)的主要功能仍然局限于為用戶查找相關(guān)信息,機器無法理解這些書目數(shù)據(jù)。并且,傳統(tǒng)書目數(shù)據(jù)的組織是基于MARC的一維、線性的組織方式,只提供元數(shù)據(jù)描述,以某一屬性特征作為索引點和檢索點,不區(qū)分信息對象的實體層次和相互的關(guān)聯(lián)關(guān)系,書目數(shù)據(jù)的語義化程度較低,〔2〕主要表現(xiàn)在以下幾個方面:第一,書目記錄內(nèi)部隱藏著大量有價值、高質(zhì)量的數(shù)據(jù),如個人名稱、主題、地點等,它們沒有獨立的標(biāo)識,也缺乏結(jié)構(gòu)化的描述,沒有得到充分揭示、重用。第二,書目數(shù)據(jù)是封閉的,沒有實現(xiàn)與外部信息或數(shù)據(jù)的融合。第三,雖然部分圖書館OPAC系統(tǒng)提供了按語種、載體形態(tài)、年代、主題等集中同一信息對象,基于書目層次關(guān)系的瀏覽與檢索,但沒能區(qū)分實體層次及其關(guān)系,也沒有揭示實體層次之間各種衍生和變化關(guān)系,缺乏形式化的語義信息表達手段。
2006年,Tim Berners-Lee在萬維網(wǎng)體系架構(gòu)筆記《關(guān)聯(lián)數(shù)據(jù)筆記》中提出了關(guān)聯(lián)數(shù)據(jù)這一概念,它要求采用RDF數(shù)據(jù)模型組織資源,利用URI命名數(shù)據(jù)實體,發(fā)布和部署實例數(shù)據(jù)和類數(shù)據(jù),通過HTTP協(xié)議揭示并獲取這些數(shù)據(jù),同時它強調(diào)數(shù)據(jù)的相互關(guān)聯(lián)和有益于人機理解的語境信息?!?〕關(guān)聯(lián)數(shù)據(jù)在實現(xiàn)書目數(shù)據(jù)語義化中具有以下兩個方面的優(yōu)勢:第一,URI標(biāo)識與復(fù)用。關(guān)聯(lián)數(shù)據(jù)利用URI標(biāo)識不同的實體對象,可以是責(zé)任者、出版者、主題、評論等,使書目數(shù)據(jù)的顆粒化程度更加細化、結(jié)構(gòu)化和語義化,并可以跨領(lǐng)域的得到更廣泛的參引。第二,RDF鏈接機制。關(guān)聯(lián)數(shù)據(jù)采用RDF模型即“資源-屬性-屬性值”的形式表達書目實體及其間的關(guān)系,通過RDF鏈接,不僅實現(xiàn)了書目實體之間和屬性之間的關(guān)系顯性化和語義化,而且擴展了書目數(shù)據(jù)的信息,為用戶提供超越圖書館的資源和訪問服務(wù)。本研究的目的是構(gòu)建一個基于關(guān)聯(lián)數(shù)據(jù)的書目數(shù)據(jù)語義化框架,并以武漢大學(xué)圖書館一定數(shù)量的書目數(shù)據(jù)為例,采用選定的技術(shù)和工具對該框架進行實現(xiàn)。
筆者提出了一個基于關(guān)聯(lián)數(shù)據(jù)的層次化的書目數(shù)據(jù)語義化框架,將書目數(shù)據(jù)的描述、組織、發(fā)布和應(yīng)用劃分為四個層次(見圖1)。該框架基于概念模型對圖書館的書目數(shù)據(jù)進行語義化描述與組織,采用關(guān)聯(lián)數(shù)據(jù)原則〔4〕發(fā)布數(shù)據(jù),提供統(tǒng)一存取方式,實現(xiàn)了書目數(shù)據(jù)的關(guān)聯(lián)化和語義化。
圖1 基于關(guān)聯(lián)數(shù)據(jù)的書目數(shù)據(jù)語義化框架
數(shù)據(jù)層分為本地數(shù)據(jù)源和外部數(shù)據(jù)源兩大部分。本地數(shù)據(jù)源主要指圖書館書目記錄。每條記錄中包含著幾百個字段,揭示了書目信息的各個方面。本研究抽取記錄中能夠反映文獻內(nèi)容并與其它記錄區(qū)分的字段,如題名、ISBN、責(zé)任者等,書目數(shù)據(jù)中沒有描述各個字段的詳細信息。外部數(shù)據(jù)源可以提供如責(zé)任者、主題、評論等的詳細信息。本研究通過手工抽取Wiki、百度百科等網(wǎng)站中的相關(guān)數(shù)據(jù)并結(jié)構(gòu)化處理,實現(xiàn)與書目數(shù)據(jù)的關(guān)聯(lián)。
數(shù)據(jù)層中抽取的數(shù)據(jù)語義缺乏明確的、形式化的定義,機器無法直接進行理解和處理,需要在數(shù)據(jù)的基礎(chǔ)上構(gòu)建某種機制,實現(xiàn)其關(guān)聯(lián)化和語義化,這就是語義聚合層的作用。概念模型是將圖書館資源描述與組織以文獻為中心轉(zhuǎn)向以概念/對象為中心的實體分層思路,本體、書目記錄的功能需求(Functional Requirements for Bibliographic Records,簡稱FRBR)模型〔5〕等遵循面向?qū)ο蠓椒ǎ敲嫦驁D書館資源的概念框架。1997年IFLA提出了應(yīng)用實體-關(guān)系模型來構(gòu)建概念框架的FRBR模型,它將書目記錄涉及的實體分為三組:作品及其各類物化實體(作品-表達-表現(xiàn)-單件)、與文獻生產(chǎn)、發(fā)行、收藏以及流通有關(guān)的人或團體(個人、家族和機構(gòu)團體)和主題類實體(概念、實體、事件、地點等)。FRBR以作品、內(nèi)容表達、載體表現(xiàn)逐層聚集書目,將文獻形態(tài)進行分面分類,打破了傳統(tǒng)書目記錄概念的平面性和單一性,揭示出同一作品不同實體之間的關(guān)系以及不同作品實體之間的關(guān)系。
在應(yīng)用層可以實現(xiàn)對關(guān)聯(lián)數(shù)據(jù)的統(tǒng)一瀏覽和檢索以及其他的應(yīng)用和服務(wù)。既可以通過Web瀏覽器實現(xiàn)HTML網(wǎng)頁瀏覽與導(dǎo)航,也可以利用關(guān)聯(lián)數(shù)據(jù)瀏覽器,如Tabulator、Marble等,通過RDF鏈接在數(shù)據(jù)源之間進行瀏覽。通過SPARQL端點可以實現(xiàn)動態(tài)分面查詢和語義關(guān)系查詢,也可以利用對象之間和屬性之間的關(guān)系實現(xiàn)復(fù)雜智能查詢。另外,關(guān)聯(lián)化的書目數(shù)據(jù)成為數(shù)據(jù)網(wǎng)絡(luò)的一部分,可以向其他的應(yīng)用提供數(shù)據(jù)服務(wù),也可以在關(guān)聯(lián)數(shù)據(jù)之上構(gòu)建新的Web應(yīng)用。
本實驗的實驗平臺如表1所示。選取武漢大學(xué)圖書館有關(guān)的書目,并從Wiki、百度百科、豆瓣中抽取責(zé)任者、評論等相關(guān)詳細信息。然后按照FRBR模型劃分書目層次,提取實體之間、實體與屬性之間的語義關(guān)系,并利用SQL Server構(gòu)建書目數(shù)據(jù)的關(guān)系數(shù)據(jù)庫(注:命名為Bibliography)及相關(guān)數(shù)據(jù)表。最后利用開源軟件D2R將關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),并提供HTML、RDF及SPARQL等方式訪問。
表1 實驗的操作環(huán)境和工具
3.1.1 數(shù)據(jù)的抽取
在武漢大學(xué)圖書館OPAC系統(tǒng)中檢索《安徒生童話》的書目數(shù)據(jù),選取不同版本的10條記錄。抽取記錄中的數(shù)據(jù)主要包括題名、ISBN、責(zé)任者、出版者、摘要、主題等。從豆瓣、Wiki和百度百科中抽取書評和責(zé)任者包括代表作、出生與死亡日期等的相關(guān)詳細信息。
3.1.2 基于FRBR的數(shù)據(jù)資源聚合
參照FRBR概念模型聚合抽取的書目數(shù)據(jù)相關(guān)信息,以作品為中心,為每一個作品建立一條主干記錄和分支記錄,分支記錄主要揭示同一作品的不同內(nèi)容表達和載體表現(xiàn)等內(nèi)容,從而形成立體的、網(wǎng)狀的書目數(shù)據(jù)。根據(jù)上文中抽取的書目信息,應(yīng)用FRBR概念模型形成了 Aggregate Work、Single Work、Author三個實體,這些實體分別對應(yīng)為數(shù)據(jù)庫中的各個數(shù)據(jù)表,實體的屬性對應(yīng)為表中的各列,實體之間的關(guān)系即為表間關(guān)系。
3.1.3 關(guān)系數(shù)據(jù)庫的創(chuàng)建
正如閨蜜所說,男人一旦有了出息,就算自己不出去尋花覓柳,一些鶯鶯燕燕的誘惑也會主動找上門來,防不勝防。
啟動SQL Server 2005,建立Bibliography數(shù)據(jù)庫。在Bibliography數(shù)據(jù)庫中依次建立Aggregate Work表、Single Work表、Author表,分別為 Aggregate Work(Work_ID,Title,Subject)、Single Work(SWork_ID,Title,ISBN,IS_Part_of,Author,Translator,Publisher,Date_of_Publish,Language,Abstract,Subject,Comment,CLC)、Author(Author_ID,Name,Sex,nationality,Date_of_Birth,Place_of_Birth,Date_of_Death,Place_of_Death,Masterpiece1,Masterpiece2,Masterpiece3)。分別為各個表設(shè)置相應(yīng)的主鍵和外鍵。
3.2.1 D2R的結(jié)構(gòu)及其語義映射機制
D2R是一個將關(guān)系型數(shù)據(jù)庫發(fā)布為關(guān)聯(lián)數(shù)據(jù)的開源軟件,支持將主流關(guān)系型數(shù)據(jù)庫如 Microsoft SQL Server、Microsoft Access、MySQL、Oracle等中的數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)。目前使用D2R進行關(guān)聯(lián)數(shù)據(jù)發(fā)布的應(yīng)用有:Berlin DBLP Bibliography Server、Hannover DBLP Bibliography Server 等?!?〕D2R Server的體系結(jié)構(gòu)〔8〕如圖2所示。
圖2 D2R的體系結(jié)構(gòu)圖
D2R主要包括以下三個部分:D2R服務(wù)器(D2R Server),是一個HTTP Server,其主要功能是提供查詢RDF數(shù)據(jù)的訪問接口,以供上層的RDF瀏覽器、SPARQL查詢客戶端以及傳統(tǒng)的HTML瀏覽器調(diào)用。D2RQ引擎(D2RQ Engine),主要功能是使用可定制的D2RQ Mapping文件將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)換成RDF格式。D2RQ映射語言(D2RQ Mapping Language),主要功能是定義將關(guān)系型數(shù)據(jù)轉(zhuǎn)換成RDF格式的映射規(guī)則。
將關(guān)系型數(shù)據(jù)庫的二維組織模式轉(zhuǎn)換為RDF三元組的表達,其中包括數(shù)據(jù)結(jié)構(gòu)、約束條件轉(zhuǎn)換為本體的概念語義和規(guī)則語義,需要構(gòu)建關(guān)系型數(shù)據(jù)庫模式與RDF的Schema的映射。D2R語義模式映射機制主要是構(gòu)建映射規(guī)則,生成映射文件,基于映射文件實現(xiàn)模式的轉(zhuǎn)換。映射文件的作用是在訪問關(guān)系型數(shù)據(jù)庫是將RDF數(shù)據(jù)查詢語言SPARQL轉(zhuǎn)換為關(guān)系數(shù)據(jù)庫的SQL查詢,并將查詢結(jié)果轉(zhuǎn)換為RDF三元組?!?〕
3.2.2 基于映射文件的關(guān)系數(shù)據(jù)庫語義模式轉(zhuǎn)換
D2R Server提供基于映射文件將關(guān)系數(shù)據(jù)庫發(fā)布為RDF三元組的機制,在本實驗中,是通過執(zhí)行D2R生成映射文件的執(zhí)行腳本-generate.bat來實現(xiàn)。具體的編碼如下:
其中,-u表示數(shù)據(jù)庫用戶名;-p是數(shù)據(jù)庫的登錄密碼;-d是數(shù)據(jù)庫的驅(qū)動類名稱,不同數(shù)據(jù)庫驅(qū)動格式不同,本實驗是以SQL Server為例;-o是輸出的映射文件名稱;最后一個參數(shù)設(shè)置了所映射的SQL Server數(shù)據(jù)庫的路徑和名稱。
通過運行該腳本,生成映射文件Bib.n3。基于該映射文件,可以實現(xiàn)關(guān)聯(lián)數(shù)據(jù)的瀏覽與查詢服務(wù)。本實驗中生成的映射文件Bib.n3如下(截取文件中部分代碼):
其中,d2rq:ClassMap代表OWL Ontology或者是 RDFS Schema中的一個或一組相似的類,它與關(guān)系數(shù)據(jù)庫中的一個數(shù)據(jù)表相映射,〔10〕包括 d2rq:UriPattern、d2rq:Class 等屬性。d2rq:UriPattern用來指導(dǎo)生成實例化資源的真實URI,由關(guān)系數(shù)據(jù)庫表名和對應(yīng)的主鍵組成。d2rq:Class表示該d2rq:ClassMap所對應(yīng)的實體類,其取值可以來自O(shè)WL Ontology或者是RDFS Schema,也可以自定義新的類。d2rq:Property-Bridge表示OWL Ontology或者是RDFS Schema中類的屬性,與關(guān)系數(shù)據(jù)庫中數(shù)據(jù)表的某一列相映射。
3.2.3 構(gòu)建與外部數(shù)據(jù)集的關(guān)聯(lián)
關(guān)系數(shù)據(jù)庫中的書目數(shù)據(jù)與外部資源之間存在著一些聯(lián)系,在將其轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù)的過程中,需要對這些關(guān)系進行創(chuàng)建和關(guān)聯(lián)。映射文件僅顯示數(shù)據(jù)間基于主鍵和外鍵引用的關(guān)系,沒有表現(xiàn)出數(shù)據(jù)間存在更為豐富和復(fù)雜的關(guān)系,可以手動修改映射文件,以展現(xiàn)數(shù)據(jù)資源之間更為豐富的語義關(guān)系。
在D2RQ中可以通過類映射的d2rq:constantValue,為某個資源的屬性關(guān)聯(lián)一個常量,實現(xiàn)與某些常量的關(guān)聯(lián)。例如,在本實驗中,為Author表增加一個DBpedia的作者概念的參見,編碼如下:
圖3 D2R的服務(wù)首頁
在D2R的DOS路徑下,執(zhí)行D2R-Server.bat腳本,運行生成的映射文件Bib.n3,啟動關(guān)聯(lián)數(shù)據(jù)發(fā)布服務(wù)。在瀏覽器中輸入訪問地址http://localhost:2020,顯示出D2R的運行入口界面(如圖3),圖中顯示出發(fā)布的具有語義關(guān)聯(lián)的書目數(shù)據(jù)資源,提供了HTML瀏覽、RDF瀏覽和SPARQL端點查詢3類服務(wù)入口。
圖4 聚合各個作品的關(guān)聯(lián)數(shù)據(jù)發(fā)布圖
進入HTML View,可以看到3個數(shù)據(jù)表分別映射為不同的實體類。進入Aggregate Work類中,可以看到其所關(guān)聯(lián)的具體作品資源,即Single Work類中的10個作品(如圖4),體現(xiàn)出FRBR作品聚合的特點??梢詥螕舾鱾€作品,進一步瀏覽其屬性特征。
在Author類中,可以看到 Author數(shù)據(jù)表中各個列如Country、Work等被映射為資源的屬性特征(如圖5),其中Name和Country的屬性值通過 http://depedia.org/resource/Anderson Hans Christian 和 http://depedia.org/resource/Denmark實現(xiàn)了與外部數(shù)據(jù)集DBpedia的鏈接。
圖5 Author類的詳細信息
本文嘗試了將關(guān)聯(lián)數(shù)據(jù)應(yīng)用于書目數(shù)據(jù)以解決傳統(tǒng)書目數(shù)據(jù)語義化程度低的問題,并提出了一個基于關(guān)聯(lián)數(shù)據(jù)的書目數(shù)據(jù)語義化框架。該框架具有4個層次,數(shù)據(jù)層、語義聚合層、數(shù)據(jù)關(guān)聯(lián)層、應(yīng)用層,其核心是書目數(shù)據(jù)的語義化和關(guān)聯(lián)化的構(gòu)建。最后,以武漢大學(xué)圖書館一定數(shù)量的書目數(shù)據(jù)為例,使用開源軟件D2R對該框架進行了實現(xiàn)。但本研究中仍然存在著一定的缺陷,即書目記錄中有價值的數(shù)據(jù)和外部數(shù)據(jù)的抽取及與其他數(shù)據(jù)集關(guān)聯(lián)采用的是手工方式,若進行大規(guī)模的數(shù)據(jù)抽取和關(guān)聯(lián)則需要一定的技術(shù)和算法支持。
關(guān)聯(lián)數(shù)據(jù)的一致化語義描述方法(RDFS/OWL)和統(tǒng)一存取機制(SPARQL)對書目數(shù)據(jù)語義化與關(guān)聯(lián)化提供了一種輕量級的實現(xiàn)方式。2011年,巴斯大學(xué)UKOLN研究組開展了“關(guān)聯(lián)開放 Copac Archives Hub項目”〔12〕,力圖探索書目資源內(nèi)容間的語義關(guān)聯(lián)。英國劍橋大學(xué)實施了“開放書目項目”〔13〕,研究基于現(xiàn)有語義工具、標(biāo)準(zhǔn)提交書目元數(shù)據(jù)語料庫作為開放關(guān)聯(lián)數(shù)據(jù)。隨著關(guān)聯(lián)書目數(shù)據(jù)理論研究與實踐活動的不斷深入,相信書目數(shù)據(jù)將以語義化、關(guān)聯(lián)化的形式為用戶提供各種應(yīng)用和服務(wù)。
1.Martin M.Making a library catalogue part of the semantic web.In:Proceeding of the 2008 International Conference on Dublin Core and Metadata Applications.2008:146-152
2.白海燕,喬曉東.基于本體和關(guān)聯(lián)數(shù)據(jù)的書目組織語義化研究.現(xiàn)代圖書情報技術(shù),2010(9):18-27
3.Linked Data.〔2013-04-23〕.http://linkeddata.org/
4.Linked Data.〔2013-04-24〕.http://www.w3.org/DesignIssues/LinkedData.html
5.國際圖聯(lián)書目記錄的功能需求研究組著.王紹平等譯.書目記錄的功能需求最終報告.德國慕尼黑:紹爾出版社,1998:14-54
6.夏翠娟等.關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù)及其實現(xiàn)-以Drupal為例.中國圖書館學(xué)報,2012(1):49-57
7.RDF Vocabulary Description Language 1.0:RDF Schema.〔2013-04-27〕.http://www.w3.org/TR/rdf-schema/
8.The D2RQ Platform.〔2013-05-04〕.http://d2rq.org/
9.Christian B,Richard C.D2R Server-Publishing Relational Databases on the Semantic Web.In:Poster at the 5th International Semantic Web Conference,2006
10.The D2RQ Mapping Language.〔2013-05-04〕.http://d2rq.org/d2rq-language
11.白海燕,梁冰.利用D2R實現(xiàn)關(guān)系數(shù)據(jù)庫與關(guān)聯(lián)數(shù)據(jù)的語義模式映射.現(xiàn)代圖書情報技術(shù),2011(Z1):1-7
12.Linked Open Copac Archives Hub.〔2013-05-05〕.http://www.jisc.a(chǎn)c.uk/whatwedo/programmes/inf11/jiscexpo/locah.a(chǎn)spx
13.Open Bibliography.〔2013-05-05〕.http://www.jisc.a(chǎn)c.uk/whatwedo/programmes/inf11/jiscexpo/jiscopenbib.a(chǎn)spx