丁 楠 (浙江大學圖書館 浙江杭州 310028)
潘有能 (浙江大學公共管理學院信息資源管理系 浙江杭州 310028)
關聯(lián)數(shù)據可被視為語義網的一種實現(xiàn)方式,它使得來自于不同來源的數(shù)據相互關聯(lián),從而促進了萬維網的發(fā)展。關聯(lián)數(shù)據的出現(xiàn)不僅對當前的超文本網絡進行了擴展,同時也對當前網絡上紛繁混亂的信息資源進行甄別、選擇和定位。[1]隨著大量的數(shù)據集被轉換為關聯(lián)數(shù)據,建構在其基礎上的應用技術也隨之出現(xiàn),聚合技術(Mashup)就是其中最為重要的一種。目前已有的信息聚合技術主要面向傳統(tǒng)的萬維網,而基于關聯(lián)數(shù)據的信息聚合技術主要面向語義網,關注的焦點在信息本身而不是承載信息的頁面或是信息的訪問接口API,聚合的對象直接深入到細粒度級的具有語義信息的實體。
圖書館擁有多年累積的高質量數(shù)據,包含大量值得揭示和參照復用的有價值的內容實體,但是這些內容實體都隱藏在書目記錄內部,缺乏獨立標識和結構化描述,挖掘其相互之間的隱含關系需要大量的人力,[2]更難以和外部數(shù)據源建立實體級別的鏈接?;陉P聯(lián)數(shù)據的信息聚合技術可以幫助圖書館和全球數(shù)據網絡建立鏈接,拓展圖書館的資源和服務,使圖書館和其它相關領域的數(shù)據和應用進行協(xié)同,從而提升圖書館的價值。
關聯(lián)數(shù)據是國際互聯(lián)網協(xié)會(W3C)推薦的一種用來發(fā)布和聯(lián)接各類數(shù)據、信息和知識的標準,它希望在現(xiàn)有的萬維網基礎上,建立一個映射所有自然、社會和精神世界的數(shù)據網絡,通過對事物及其相互關系進行機器可讀的描述,使互聯(lián)網進化為一個富含語義的、互聯(lián)互通的知識海洋,從而使任何人都能夠借助整個互聯(lián)網在更大范圍內,準確、高效、可靠地查找、分享、利用這些相互關聯(lián)的信息和知識。[3]
關聯(lián)數(shù)據采用RDF(資源描述框架)數(shù)據模型,利用URI(統(tǒng)一資源標識符)命名數(shù)據實體,并在網絡上發(fā)布,從而可以通過HTTP協(xié)議揭示并獲取這些數(shù)據,同時強調數(shù)據的相互聯(lián)系以及有助于人和計算機理解數(shù)據的語境信息。[4]
關聯(lián)數(shù)據可以在不同來源的數(shù)據之間創(chuàng)建鏈接。這些數(shù)據源可能是兩個處于不同地理位置的機構所維護的數(shù)據庫,也可能是一個機構內的無法在數(shù)據層面上進行互操作的不同系統(tǒng)。關聯(lián)數(shù)據可鏈接至其它外部數(shù)據集,同樣也可被來自外部數(shù)據集的數(shù)據所鏈接,從而形成關聯(lián)數(shù)據網絡。
關聯(lián)數(shù)據網絡和當前的超文本網絡有所不同,超文本網絡是通過超鏈接將HTML文件連接起來,但關聯(lián)數(shù)據并非是簡單地連接這些文件,而是使用RDF形成鏈接世界上任何事物的網絡,也即數(shù)據網絡,數(shù)據網絡可被定義為由網上數(shù)據描述世界上所有實體的網絡。
作為信息收集、組織與處理的專門機構,圖書館的MARC數(shù)據,規(guī)范記錄,主題標目等資源都可以發(fā)布為關聯(lián)數(shù)據。在國外,瑞典國家圖書館早在2008年便將瑞典聯(lián)合目錄(LIBRIS)發(fā)布為關聯(lián)數(shù)據。LIBRIS共包含約600萬條書目記錄,2000萬條館藏記錄及20萬條規(guī)范記錄,為超過170家大學圖書館、公共圖書館、博物館和檔案館提供編目服務。LIBRIS是世界上第一個被整體發(fā)布為關聯(lián)數(shù)據的聯(lián)合目錄或國家圖書館目錄,在發(fā)布關聯(lián)數(shù)據的過程中,LIBRIS使用的詞匯表并沒有僅限于圖書館學領域,而是一個包含了DC、SKOS、FOAF和Bibliontology的一個混合體。[5]此外,美國國會圖書館、德國國家圖書館、法國國家圖書館、OCLC等國際、國家級的書目數(shù)據或規(guī)范數(shù)據也紛紛開放了關聯(lián)數(shù)據服務。
關聯(lián)數(shù)據也為圖書館的資源發(fā)現(xiàn)服務提供了一種新的途徑,通過將圖書館的資源和外部信息源連接起來,可以增強和擴展圖書館的資源發(fā)現(xiàn)平臺。近年來,Library Thing、Syndetic Solutions等系統(tǒng)已能為圖書館提供圖書的目次、封面和評論的外部鏈接,但仍局限于書目層次上的信息,且需事先指定外部信息源并了解其接口以便編程訪問,對大部分圖書館來說技術實現(xiàn)上存在一定的難度。而關聯(lián)數(shù)據允許圖書館關聯(lián)到外部海量的結構化數(shù)據中,并不局限于資源本身,還可以擴充地點、人員等信息。[6]
信息聚合是指將來自于多個分布的、異構的信息源中的內容整合在一起,以便于用戶瀏覽、檢索及利用。早期,一個網站或網絡應用中的信息通常只來自于本地存儲,而聚合是從多個分散的源獲取信息。目前信息聚合的方法主要有兩種:
(1)網頁層面的簡單聚合。即通過RSS把來自于不同站點的網頁信息聚合在一起,從而實現(xiàn)在一個網站或應用系統(tǒng)中可以同時看到多個網站的內容,常見的RSS閱讀器就是這種形式的聚合。
(2)Web API層面的信息聚合。其信息源不僅限于RSS,也可以通過各種Web API(網絡應用程序接口)來獲取,如通過Google Maps API獲取地圖信息通過YouTube API獲取視頻信息、通過Amazon API獲取商品信息等。目前,大部分的聚合應用都是基于Web API的,每天都有新的聚合應用被開發(fā)出來,又有新的API隨時發(fā)布到網上,為用戶提供各式各樣的應用。但在另一方面,無論是API的創(chuàng)建還是使用都不是一件容易的事情,需要花費大量的時間。
和傳統(tǒng)的信息聚合方法相比,關聯(lián)數(shù)據技術提供了一種靈活且易實現(xiàn)的聚合方法,用戶只需要關心信息本身,而不需要擔心各個數(shù)據源的API如何使用。對圖書館來說,通過信息聚合將外部資源和本館資源整合到一起,為用戶提供多角度、全方位、可視化的訪問和了解信息的途徑,可以擴展資源范圍,改進用戶服務,從而提升圖書館的價值(見圖1)。
圖1 基于關聯(lián)數(shù)據的圖書館信息聚合模型
數(shù)據層可分為本地數(shù)據源和外部數(shù)據源兩大部分,其中本地數(shù)據源是指圖書館自身所擁有的書目、詞表和數(shù)字資源等,外地數(shù)據源即鏈接到關聯(lián)數(shù)據網絡中的各種數(shù)據集,這些數(shù)據集原先可能以關系型數(shù)據庫、電子表格、Web網站等多種形式存放,因此必須采取不同的方法轉換成關聯(lián)數(shù)據。
(1)關系型數(shù)據庫。目前已有很多開放的工具用于將關系型數(shù)據庫發(fā)布為關聯(lián)數(shù)據,如D2RServer、Triplify等,用于表達關聯(lián)數(shù)據中的實體的詞匯表可以自行構建,也可以使用目前已有的本體或詞匯表中的詞匯,例如用于表述人名的foaf:name,用于表述資源標題的dc:title,用于表述經緯度的geo:lat和geo:long等等,這些本體或詞匯表可以通過Swoogle和Sindice等工具來查找。
(2)電子表格。在許多組織中,大量的數(shù)據以電子表格的形式通過Email進行傳遞。甚至連美國政府早期的開放數(shù)據網站recovery.gov中的數(shù)據都是以電子表格的形式發(fā)布的。目前已有不少工具可將電子表格形式的數(shù)據轉換成RDF,例如 Anzo for Excel和Topbraid Composer能將Excel表格轉換為RDF數(shù)據,而XLWrap除了Excel,還能轉換OpenDocument和CSV格式的文檔。
(3)XML。XML文檔可以直接發(fā)布到Web上,為了便于他人使用,最好簡要說明一下XML文檔的內容以及文檔之間的關系。當然,也可以用XSLT或ASP、JSP等腳本語言編寫一個簡單的腳本,將XML文檔轉換為RDF。
(4)Web網站。對于Web網站的頁面,可以采用RDFa技術改變產生頁面的腳本語言,使得這些頁面所含的數(shù)據可以被其他人重新抽取并發(fā)布為關聯(lián)數(shù)據。另外一種可選的方法就是為每個Web頁面都編寫一個平行的包含RDF/XML格式數(shù)據的頁面。[7]
在聚合層中,圖書館通過統(tǒng)一的規(guī)范訪問關聯(lián)數(shù)據網絡,并將其和本館資源進行詞表或本體上的映射,自動或半自動地進行實體識別,最終形成集成數(shù)據以便下一步應用。
(1)數(shù)據訪問。數(shù)據訪問的基本方法是解析關聯(lián)數(shù)據集提供的HTTP URI,獲取以RDF模型描述的對象信息。也有一些數(shù)據集提供RDF包供下載,或支持SPARQL遠程查詢,SPARQL是一種用于RDF的查詢語言,2008年成為W3C推薦標準。此外,Sindice、Falcons等關聯(lián)數(shù)據搜索引擎也提供了訪問他們從網絡上獲取到的數(shù)據的接口。
(2)本體映射。基于關聯(lián)數(shù)據的信息聚合是指將來自于多個不同的關聯(lián)數(shù)據集中的信息集成起來并進行整合,這些數(shù)據集經常使用不同的本體來描述同一領域的信息。雖然FOAF、SKOS、Dublin Core等通用本體在一些數(shù)據集中也得到了應用,但出于種種原因,大部分的數(shù)據集還是在使用自行設計的領域本體或應用本體,甚至根本就沒有使用本體,而只是附加了一個簡單的數(shù)據說明。因此,不同數(shù)據集之間的本體映射成為信息聚合的主要研究內容之一。
通用本體之間的映射比較容易實現(xiàn),只需比較用于表示本體概念的字符串是否相同即可。領域本體或應用本體之間的映射是當前本體與語義網領域的研究熱點之一,主要方法包括基于名稱的技術、基于結構的技術和基于語義的技術等。引入外部知識也是一種值得關注的方法,因為和傳統(tǒng)的本體匹配環(huán)境不同,關聯(lián)數(shù)據環(huán)境天然具有鏈接到外部知識庫并將其作為參照或背景知識的能力。外部知識庫可分為通用知識庫(或稱為世界知識,如Wordnet等)和領域知識庫(如UMLS等),這些知識庫一般將其所有概念組織為樹狀結構,可通過計算一個概念到另一個概念的距離,結合概念所處層次和概念的疏密程度來計算概念間的相似度。
對于沒有使用本體的數(shù)據集,可考慮對其所含的實例數(shù)據進行統(tǒng)計分析,找出可能指向同一實體的數(shù)據記錄并聚類,從而將其隱含的語義信息顯性化,實現(xiàn)數(shù)據集之間的映射。
(3)實體識別。關聯(lián)數(shù)據集之間的本體映射為信息聚合打下了基礎,而在不同的數(shù)據集中指向同一實體的實例數(shù)據之間建立關聯(lián)則是信息聚合的重點。本體映射在概念之間建立了關聯(lián),相同的概念一定擁有相似的實例,但具體哪些實例描述的是同一個實體依然未知。單純的基于實例名稱的比較將產生較多的誤匹配,例如人名、地名等。數(shù)據關聯(lián)的核心在于為每個實例產生一個唯一的標識,這些標識可能本身就存在,例如用于標識圖書的ISBN號,用于標識期刊的ISSN號等。也可以將該實例的多個屬性值相結合以生成唯一標識,如姓名加籍貫加出生日期,論文題名加作者加期刊名等。在無法生成唯一標識的情況下,則可通過屬性值之間相似度的計算在實例之間建立關聯(lián),同時,為了提高關聯(lián)的準確度,可以采用一些屬性來排除關聯(lián),例如性別屬性:即使姓名和機構名稱相同,但性別不同的個體之間不能建立關聯(lián)。
本體映射與實體識別之間存在互補關系,本體映射是實體識別的基礎,同時實體識別的結果又可用于本體映射的評價與改進,二者的迭代使用可提高信息聚合的質量。
在信息聚合的基礎上,圖書館可以對原有的應用進行拓展,或是開發(fā)新的應用。目前,許多圖書館通過實施資源發(fā)現(xiàn)服務擴展其目錄檢索界面,展示更多的館藏信息,使用戶可以瀏覽動態(tài)更新的結果,但由于它主要是通過主題標目和MARC記錄里的數(shù)據來實現(xiàn),具有一定的局限性。而關聯(lián)數(shù)據可以為擴展書目信息提供結構化的集成數(shù)據,為用戶提供新的資源發(fā)現(xiàn)和訪問服務。
隨著數(shù)據的保存、交換和再利用受到越來越多的重視,并從最初的科學實驗數(shù)據擴大到地理數(shù)據、統(tǒng)計數(shù)據等,圖書館開始幫助研究者保存、管理他們創(chuàng)建的數(shù)據,并提供給社會使用。關聯(lián)數(shù)據可以使圖書館在數(shù)據融合方面發(fā)揮更大的作用,通過對地點、名詞、題名和概念等的匹配和映射,在數(shù)據對象之間建立語義鏈接,從而為用戶提供更有意義的檢索結果。
此外,圖書館越來越多地參與了學術交流過程中不同階段的活動,例如提供研究資料、幫助研究者發(fā)現(xiàn)其研究成果的引文影響力等。在此過程中,圖書館需要考慮系統(tǒng)的互操作性,而關聯(lián)數(shù)據能在這方面提供很好的支持。[8]
雖然關聯(lián)數(shù)據概念的提出至今不過5年時間,但由于其本身所具有的開放、易用和可擴展特點,使其得到了迅速的發(fā)展。目前,僅LOD中的數(shù)據就已經超過了250億條,并正以指數(shù)速度增長,構建了龐大的數(shù)據網絡?;陉P聯(lián)數(shù)據的信息聚合可以把圖書館的資源和外部的數(shù)據網絡相互連接起來,增強和擴展其資源發(fā)現(xiàn)平臺,更好的保存、管理和利用研究者創(chuàng)建的數(shù)據,促進學術交流。當然,本文僅提出了一個在理論上可行的基于關聯(lián)數(shù)據的圖書館信息聚合模型,可能會有新的問題在系統(tǒng)實施過程中出現(xiàn)并得到解決,從而積累更多的經驗,提升圖書館在關聯(lián)數(shù)據研究、應用中的地位和作用。
[1]Christian Bizer,Tom Heath,Tim Berners-Lee.Linked data-the story so far[J].International Journal on Semantic Web and Information Systems,2009,5(3):1-22.
[2][3]劉煒.關聯(lián)數(shù)據:概念、技術及應用展望[J].大學圖書館學報,2011,29(2):5-12
[4]Structured Dynamics LLC.Linked Data FAQ[EB/OL].[2010-03-06].http://structureddynamics.com/linked_da ta.html.
[5]Anders S?derb?ck,Martin Malmsten.LIBRIS-Linked Library Data[J].Nodalities,2008,(5):19-20.
[6][8]黃永文.關聯(lián)數(shù)據在圖書館中的應用研究綜述[J].現(xiàn)代圖書情報技術,2010,29(5):1-7.
[7]Tim Berners-Lee.Putting Government Data online[EB/OL].[2010-12-06].http://www.w3.org/DesignIssues/Gov Data.html.