許 磊 夏翠娟 劉 煒 張 磊
關(guān)聯(lián)數(shù)據(jù)URI設計規(guī)范探討*
許 磊 夏翠娟 劉 煒 張 磊
統(tǒng)一資源標識符(URI)是互聯(lián)網(wǎng)領(lǐng)域重要的基礎(chǔ)技術(shù)之一,是在網(wǎng)絡虛擬空間標識和定位事物的基本方式。作為統(tǒng)一資源定位符(URL)的上位概念,URI在形式和功能上規(guī)范了互聯(lián)網(wǎng)資源標識體系,為基于概念和模擬真實世界的關(guān)聯(lián)數(shù)據(jù)應用提供了基本的標識和解析技術(shù)。當前業(yè)界關(guān)聯(lián)數(shù)據(jù)應用正處于起步階段,亟需引介推廣重要的技術(shù)規(guī)范并交流相關(guān)實踐。本文遵照萬維網(wǎng)協(xié)會(W3C)有關(guān)URI設計原則的推薦規(guī)范,從URI的類型、設計原則和模式等三個方面介紹國外關(guān)聯(lián)數(shù)據(jù)URI設計的最佳實踐。最后結(jié)合上海圖書館的實踐,設計關(guān)聯(lián)數(shù)據(jù)應用的URI應用規(guī)范,以供同行參考。圖2。表8。參考文獻21。
URI設計規(guī)范 統(tǒng)一標識符 關(guān)聯(lián)數(shù)據(jù)
名稱通常是事物最重要的屬性。古希臘哲學家巴門尼德認為,事物沒有名稱就可以被認為是不存在的。互聯(lián)網(wǎng)上的資源正是如此。萬維網(wǎng)協(xié)會(World Wide Web Consortium,W3C)將網(wǎng)絡資源定義為:“任何用URI標識的對象”[1],這就是說網(wǎng)絡上任何資源,其唯一且必需的屬性是URI,即統(tǒng)一資源標識符(Uniform Resource Identifier)。有了URI的資源就是網(wǎng)絡“公民”,就能夠被管理、存儲、跟蹤、調(diào)用,進行生命周期管理;沒有URI的資源就不是一種網(wǎng)上的獨立存在,必須附屬于其它具有URI的資源。網(wǎng)頁是萬維網(wǎng)上的一種常見資源,其URI就是URL(Uniform Resource Locator,統(tǒng)一資源定位符)。萬維網(wǎng)發(fā)明人蒂姆·伯納斯-李于2006年提出“關(guān)聯(lián)數(shù)據(jù)”概念,推動萬維網(wǎng)由文獻的Web向數(shù)據(jù)的Web發(fā)展,關(guān)聯(lián)數(shù)據(jù)四原則中第一條即“使用URI命名事物”[2]。
URI是一組按照特定語法規(guī)范構(gòu)成的字符串,為網(wǎng)絡資源的標識提供了一種簡單和可擴展的方法[3]。URI作為網(wǎng)絡中對象的唯一標識符,經(jīng)其標識的地址可以獲得關(guān)于被標識對象的有用信息,并可關(guān)聯(lián)到其他相關(guān)資源。URI的特點體現(xiàn)在“統(tǒng)一”“資源”和“標識符”三個方面[3,4]。“統(tǒng)一”保證了不同類型的資源標識符可以采用統(tǒng)一的使用方式,并為新的資源類型提供統(tǒng)一的標識框架;也保證了這些不同類型的資源標識符在相同的語法規(guī)范下有統(tǒng)一的語義解釋,并允許在不同的環(huán)境下重用。“資源”是指能夠被標識的任何對象,不只限于網(wǎng)絡文檔和數(shù)字內(nèi)容,也包括現(xiàn)實世界的物理實體和抽象概念?!皹俗R符”是一個對象可以引用的名稱。URI使對象能夠?qū)崿F(xiàn)標識和定位、訪問與獲取、參引和規(guī)范控制等目標。
URI設計是關(guān)聯(lián)數(shù)據(jù)應用過程中至關(guān)重要的一環(huán),合理的URI設計模式,是數(shù)據(jù)得到更好地組織和管理、傳輸和交換、共享和重用的保障。
2.1 標識和定位
URI的本質(zhì)是一種標識符。所謂標識符,是指對象的名稱標識,是特定背景下資源的明確指向。標識符的基本功能就是對資源進行標識,即對資源的命名和區(qū)分。如ISBN用7501309086與7544130967標識了兩本同名但不同內(nèi)容的書。在一個開放式的網(wǎng)絡世界中,使用全球唯一的URI對實體對象進行標識,可以有效地對不同名稱的相同對象,以及相同名稱的不同對象進行命名和區(qū)分。
URI可以進一步地分為統(tǒng)一資源定位符(URL)、統(tǒng)一名稱(URN)或兩者的結(jié)合[3]。ISBN號就只是一個URN,而telnet://192.0.2.16:80/則是一個URL。在語義網(wǎng)語境下,URI可被視為定位符,不僅可以標識一個資源,而且能夠提供該資源的定位信息。
2.2 訪問與獲取
嚴格意義上,URI本身并不總是提供資源的訪問信息,它只對資源標識提供保障。同樣地,在語義網(wǎng)語境下,URI同時作為統(tǒng)一名稱和定位符而存在,它不僅命名了該資源,還提供了定位該資源的主要訪問機制。如http://www.ietf.org/rfc/ rfc3986.txt,不僅標識定位RFC3986這份文檔資源,也可以通過HTTP協(xié)議進行訪問并獲取相關(guān)內(nèi)容。
2.3 參引
參引是指為了獲取引用資源的相關(guān)信息,在萬維網(wǎng)上查找URI的過程[5]??蓞⒁腢RI提供了使用任何網(wǎng)絡傳輸協(xié)議獲取被標識資源的表示形式的信息檢索機制。如,傳統(tǒng)網(wǎng)頁檢索中,對URL的參引可以直接返回HTML頁面。而在關(guān)聯(lián)數(shù)據(jù)環(huán)境中,對URI的參引可以返回HTML、XML或JSON等形式。因此,參引一個URI,將指向一個資源的描述,這個描述中可能會有更多的URI鏈接,同時這些URI也是可參引的,最終個體資源互相關(guān)聯(lián)形成一個數(shù)據(jù)網(wǎng)。
2.4 規(guī)范控制
規(guī)范控制是圖書館編目工作中的重要一環(huán),通過建立規(guī)范檢索點保障書目系統(tǒng)中重要屬性描述的一致性,滿足用戶查找、識別、提供情境、證明、選擇和探索等需求。傳統(tǒng)的規(guī)范控制工作是運用信息資源標目法,確定人名、團體、地名、題名、主題等檢索點及其規(guī)范形式,同時建立和維護規(guī)范文檔的過程[6]。但隨著信息爆炸和載體類型的多樣化,嚴格的規(guī)范控制工作對于人工來說已不堪承受。
規(guī)范控制的本質(zhì)是實現(xiàn)基于概念的描述和匹配,即利用表征概念體系的符號體系構(gòu)建一個概念空間。而以RDF為基礎(chǔ)的關(guān)聯(lián)數(shù)據(jù)技術(shù),其目的正是構(gòu)建概念化的知識空間[7]。URI標識的實體概念將獨立于其表示形式,各種語言或符號的表達都可以作為標簽屬性。URI就是傳統(tǒng)的標目,任何形式的符號在檢索和顯示中都將具有相同的優(yōu)先級。而概念之間的語義關(guān)系,也可以通過RDFS、SKOS、OWL等編碼模式得到清晰的描述。另外,URI可以標識任何對象,也就是說書目數(shù)據(jù)中的任何屬性都是可控制的,傳統(tǒng)意義上的規(guī)范數(shù)據(jù)將得到極大的豐富。在元數(shù)據(jù)生產(chǎn)過程中,規(guī)范控制也將無處不在。
在關(guān)聯(lián)數(shù)據(jù)實踐中,為每一個對象分配唯一標識符URI至關(guān)重要。URI確保了被標識對象的識別、定位、參引、重用和規(guī)范控制。因此,設計一個“酷”的URI成為必須?!翱帷盪RI不僅為人機提供描述,同時也應該簡潔、穩(wěn)定和易于管理[8]。為此,政府部門、圖書館和W3C等機構(gòu)團體都對URI設計原則和模式進行了研究。
3.1 URI標識資源類型
URI標識的對象不僅有傳統(tǒng)的網(wǎng)絡資源,如網(wǎng)頁、圖片、視頻等;也包括了人、團體、作品、時間、概念等非網(wǎng)絡資源,相對于網(wǎng)絡信息資源,這些“真實世界的事物”統(tǒng)稱為非信息資源[9]。由于標識對象類型的不同,因而在后續(xù)的設計模式與技術(shù)實現(xiàn)環(huán)節(jié)會有不同的處理方式。因此,在制定URI設計原則時,首先需要對URI類型進行區(qū)分。
按照被標識對象的類型,URI可以簡單分為信息資源URI(Resource URI)和非信息資源URI(Thing URI)。但在實踐過程中,由于數(shù)據(jù)類型的多樣性,URI類型會進一步地細分。Sonya Abbas和Adegboyega Ojo就綜合已有的URI設計實踐將URI分為了6種類型:事物URI(Thing URI),概念URI(Concept URI),資源URI(Resource URI),表達URI(Representation URI),分層URI(Hierarchical URI)和本體URI(Onto URI)[10]。其中,概念URI標識的對象主要是抽象的概念、主題;表達URI是與內(nèi)容協(xié)商機制有關(guān)的URI,具體內(nèi)容將在3.3中加以說明;分層URI更多的是出于結(jié)構(gòu)角度而非標識對象類型角度分類,表示了URI的層次結(jié)構(gòu)。
具體到圖書館領(lǐng)域,W3C圖書館關(guān)聯(lián)數(shù)據(jù)孵化小組根據(jù)數(shù)據(jù)的使用特性將圖書館數(shù)據(jù)分為三類:數(shù)據(jù)集、元素集和屬性值詞匯。數(shù)據(jù)集是結(jié)構(gòu)化元數(shù)據(jù)的集合,用來描述實體,主要即為書目數(shù)據(jù)集。元素集定義了描述實體的類和屬性,如FRBR、BIBFRAME等。屬性值詞匯定義元數(shù)據(jù)記錄中資源(如主題、藝術(shù)類型、作者)元素的屬性值范圍,如LCSH、VIAF、DDC等[11]。
3.2 政府及機構(gòu)URI設計原則與應用
作為關(guān)聯(lián)數(shù)據(jù)最主要的推動者,W3C在2008年即發(fā)布了有關(guān) URI實施的指導性文件 Cool URIs for the Semantic Web[8]。2011年,W3C又發(fā)布了政府關(guān)聯(lián)數(shù)據(jù)URI設計的最佳實踐,提出了3條基本原則:使用HTTP URIs,提供至少一種機讀格式和不使用變量字符串,以及URI穩(wěn)定性和國際化的要求[12]。
2007年,歐盟空間信息基礎(chǔ)設施建設(INSPIRE)2007/2/EC指令提出“擁有通用結(jié)構(gòu)的空間對象標識符在各國系統(tǒng)間的映射可以確?;ゲ僮餍浴保?3],從政策方面闡述了URI設計原則和模式的必要性,推動歐盟成員國制定國家層面的設計原則。2012年“歐洲公共機構(gòu)互操作性解決方案”(InteroperabilitySolutionsforEuropean Public Administrations,ISA)發(fā)布了由Phil Archer等人編寫的關(guān)于永久性URI的研究報告[14]。該報告從URI格式、設計原則和管理三個方面對歐盟機構(gòu)及其成員國、國際性組織和文化遺產(chǎn)領(lǐng)域進行了調(diào)研。在此基礎(chǔ)上,Phil Archer提出了URI的建議模式和原則。其URI模式為http://{domain}/{type}/{concept}/{reference},基地址{domain}由服務器地址和政府類型組成,如education.data.gov.uk;{type}是表明被標識對象類型的詞匯,如id表示非信息資源,doc表示信息資源,def表示本體概念,set表示數(shù)據(jù)集;{concept}表示具體對象集合,如 person、road、school等;{reference}表示標識符。URI設計原則共10條,具體內(nèi)容見表1。
表1 歐盟ISA的URI設計原則[15]
2009年,英國發(fā)布了政府部門URI設計原則Designing URI Sets for the UK Public Sector,并于2014發(fā)布新版的URI Patterns[15]。英國政府關(guān)聯(lián)數(shù)據(jù)的URI類型除有非信息資源URI、信息資源URI、規(guī)范詞表URI(包含規(guī)范數(shù)據(jù)、取值詞表和本體)和數(shù)據(jù)集URI外,還定義了URI集 URI(URI set URI)。它提供了關(guān)于URI集合的管理元數(shù)據(jù)信息,如URI集的時空信息、主題范圍、出處、數(shù)據(jù)質(zhì)量等。在其他機構(gòu)復用 URI時,URI集URI能夠提供背景信息,保證數(shù)據(jù)的權(quán)威性和可追朔性。英國政府各類型URI的模式見表2。
表2 英國政府開放數(shù)據(jù)URI模式[15]
在參考英國政府2009年的實踐后,澳大利亞政府于2014年發(fā)布了自己的URI設計原則[16]。澳大利亞政府關(guān)聯(lián)數(shù)據(jù)將URI分為數(shù)據(jù)集URI、非信息資源URI、信息資源URI和本體URI等4種類型,同時從數(shù)據(jù)集URIs、域名結(jié)構(gòu)、URI模式、URIs發(fā)布和URI命名約定等5個角度規(guī)定了多達40條的原則,并將其分為必須、不可以、應該、不應該、建議、可以和可選各種等級。其中“必須”原則就有12條,如必須使用HTTP URI,至少提供一種機讀格式和人工可讀的HTML,URI的基地址是data.gov.au等。同英國的URI集URI類似,澳大利亞在原則 5—7中,以“應該”等級規(guī)定了為數(shù)據(jù)集URI提供出處、質(zhì)量等元數(shù)據(jù)信息,并“建議”使用數(shù)據(jù)目錄詞表(DCAT)。澳大利亞政府關(guān)聯(lián)數(shù)據(jù)建議的 URI模式見表3。
表3 澳大利亞政府開放數(shù)據(jù)的URI模式[16]
3.3 圖書館URI設計原則與應用
在圖書館領(lǐng)域,雖沒有發(fā)布單獨的URI設計文檔,但在URI設計中都遵循了Cool URI的基本原則和統(tǒng)一的模式。2011年,大英圖書館將其書目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),其標識的對象有人、團體、家族、主題、事件、書目等。英國國家書目數(shù)據(jù)(The British National Bibliography,BNB)的URI按照非信息資源、信息資源、規(guī)范詞表和本體分為了4類[17]。在BNB的URI設計中,將人、團體、家族和地點同時作為非信息資源和主題概念進行處理,兩者的 URI采用不同的模式,并使用foaf:focus進行關(guān)聯(lián),具體內(nèi)容見表4。
表4 大英圖書館URI模式
美國國會圖書館(Library of Congress,LC)于2009年將其規(guī)范數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),截至目前,其關(guān)聯(lián)數(shù)據(jù)詞表已經(jīng)包括規(guī)范部分、保存詞匯表、MARC代碼和取值詞表與代碼表4大類共54種[18]。LC的URI類型分為規(guī)范數(shù)據(jù)URI、取值詞表URI以及本體URI。URI模式是http:// id.loc.gov/{type}/{concept}/{reference},其中type的取值有authorities、vocabulary和ontologies,Concept取值有 subjects、relators、preservation、roles等。
法國國家圖書館(Bibliothèque Nationale De France,BNF)在2011年將責任者、主題和作品發(fā)布為關(guān)聯(lián)數(shù)據(jù)。BNF的URI類型分為了非信息資源URI(包含規(guī)范數(shù)據(jù)URI)、本體URI和取值詞表URI[19]。非信息資源URI模式為http://data.bnf.fr/ark:/12148/{reference},本體URI是http://data.bnf.fr/ontology/bnf-onto/,取值詞表URI是http://data.bnf.fr/vocabulary/{type}/{reference}。其他圖書館,如德國國家圖書館、日本國會圖書館的URI設計模式基本相同[20]。表5對部分圖書館關(guān)聯(lián)數(shù)據(jù)項目的 URI類型進行了統(tǒng)計。
表5 圖書館關(guān)聯(lián)數(shù)據(jù)項目URI類型統(tǒng)計
參考已有的設計原則和Sonya Abbas、Adegboyega Ojo的URI設計模式,上海圖書館確定其URI設計原則為:無變量、穩(wěn)定性、使用 HTTP URI、可讀性和國際化。
4.1 無變量
無變量即為保持URI的穩(wěn)定和可靠,在URI字符串中應避免使用文件擴展名、所有權(quán)信息、版本信息等變量內(nèi)容,避免包含主題詞、自動增量,避免與具體時間的技術(shù)捆綁。如 http://example.com/people/v01/123456、http://example.com/ people/123456.rdf就不是“酷”的URI。
URI一般由三部分組成:訪問資源的命名機制,存放資源的主機名和資源自身的名稱或路徑。接下來就是兩個可選部分,以“?”開頭的查詢字符串和以“#”開頭的片段標識。其中,查詢部分是沒有結(jié)構(gòu)的字符串,其語法、語義取決于具體的應用,沒有統(tǒng)一規(guī)定。因此,此部分不應出現(xiàn)在URI的構(gòu)成中,即避免與具體的技術(shù)捆綁。
4.2 穩(wěn)定性
研究發(fā)現(xiàn)學術(shù)出版物的URL在發(fā)布7—10年后,有一半會失效[21]。圖書館作為人類文化知識的保存和傳播中心,在發(fā)布數(shù)據(jù)時,應該為標識對象分配穩(wěn)定長久的URI,以確保資源長久地可獲取和重用。因此在URI設計中應遵循一致的表達、統(tǒng)一的模式,并復用已有的內(nèi)部標識符。如美國國會圖書館的 URI統(tǒng)一模式為 http:// id.loc.gov/{type}/{concept}/{內(nèi)部標識符},“魯迅”的URI是http://id.loc.gov/authorities/names/ n50047988,n50047988即為LC/NACO的內(nèi)部標識符。
4.3 使用HTTP URI
URI語法[3]規(guī)定其以表示資源訪問協(xié)議的[schema:]開頭,常見的有http、ftp、mailto、file等。依據(jù)關(guān)聯(lián)數(shù)據(jù)四原則[2],選用HTTP作為URI的訪問協(xié)議。HTTP作為主流的網(wǎng)絡傳輸協(xié)議,保證了最廣泛的工具和系統(tǒng)可以訪問。任何資源均可由 URI標識。因此,當客戶端參引 HTTP URI時,需要根據(jù)所標識對象的類型和表示形式支持303轉(zhuǎn)向和內(nèi)容協(xié)商機制。
4.3.1 支持303轉(zhuǎn)向
由上文已知,URI標識的對象可簡單地分為非信息資源和信息資源。當參引信息資源URI時,服務器端直接返回請求的網(wǎng)頁。而非信息資源URI不可以被直接參引,服務器會返回303 See Other的狀態(tài)碼給客戶端,表示“這是一個非信息資源,因此無法為您提供資源本身,但可以為您提供一些鏈接,幫助您獲得更多相關(guān)信息”。這個過程就是303重定向。
另外,非信息資源URI有兩種形式,Hash URI和Slash URI。Hash URI一般用于小型的相對穩(wěn)定的數(shù)據(jù)集,在參引Hash URI時,HTTP客戶端通過剝離#后面的部分而返回整個URI,以達到類似于303重定向的效果[5,8];Slash則適用于大型的、經(jīng)常進行更新的數(shù)據(jù)集。澳大利亞政府URI文檔中建議,當關(guān)聯(lián)數(shù)據(jù)發(fā)布機構(gòu)對域名、web服務器擁有控制權(quán),并且數(shù)據(jù)集中的實體數(shù)量較多時使用Slash URI,否則使用Hash URI[16],如圖1所示。
圖1 Hash URI和Slash URI的選擇流程[16]
4.3.2 內(nèi)容協(xié)商
一個URI標識的資源可以有不同的表示形式,如HTML、RDF、PDF等格式,或不同的語種。因此,當客戶端參引URI時,服務器端需要根據(jù)其發(fā)送請求的HTTP報頭返回合適的表示形式。圖2顯示了參引非信息資源URI時303重定向和內(nèi)容協(xié)商的結(jié)合。
圖2 303重定向與內(nèi)容協(xié)商[5]
如參引法國國家圖書館“維克多·雨果”的URI http://data.bnf.fr/ark:/12148/cb11907966z,就會303重定向到http://data.bnf.fr/11907966/ victor_hugo/,并根據(jù)HTTP報頭進行內(nèi)容協(xié)商返回合適的格式[19]: http://data.bnf.fr/11907966/victor_hugo/fr.html http://data.bnf.fr/11907966/victor_hugo/en.html http://data.bnf.fr/11907966/victor_hugo/rdf.xml http://data.bnf.fr/11907966/victor_hugo/rdf.n3
4.4 可讀性
URI作為標識對象實體的一組字符串,在保障唯一性和穩(wěn)定性的前提下,需要簡短易記、利于人讀、同時盡量使用小寫字母(本體中的類名除外),以便于管理和使用。
4.5 國際化
URI的使用是全網(wǎng)域的,為了便于URI的復用和解析,應使用UTF8編碼,不使用特殊字符,如漢字、下劃線等。
在設計URI模式時,首先需要考慮本館的數(shù)據(jù)類型,據(jù)此進行URI類型的劃分。再根據(jù)URI設計原則,制定適合的URI模式。
上海圖書館關(guān)聯(lián)數(shù)據(jù)項目包括了家譜數(shù)據(jù)、盛宣懷檔案數(shù)據(jù)和書目數(shù)據(jù),以及本體、實體數(shù)據(jù)、規(guī)范數(shù)據(jù)和取值詞表等。因此,該館將URI分為6種類型:數(shù)據(jù)集URI、本體URI、規(guī)范詞表URI、取值詞表URI、非信息資源URI和信息資源URI。數(shù)據(jù)集URI是用于特定資源的URI,如家譜數(shù)據(jù)集URI;規(guī)范詞表URI主要標識對象為主題、分類等;取值詞表URI主要標識對象為責任方式、版本類型、裝訂方式等取值詞匯;非信息資源URI,即標識人、地、時、團體等實體對象的URI;信息資源URI則標識作品、實例、單件等對象。
5.1 總體設計模式
根據(jù)上文調(diào)研結(jié)果,在URI設計模式中,一般將要標識的對象分為本體詞表、規(guī)范詞表、非信息資源、信息資源、取值詞表等類型。根據(jù)URI設計的5條原則,上海圖書館的URI模式由域名(domain)、要標識的對象所屬的類型詞(type)、本體中的概念(concept)或取值詞表中的術(shù)語所屬的類型詞(termtype)、內(nèi)部唯一標識符四個部分組成:http://{domain}/{type}/[concept][termtype]/{IRI}。各部分內(nèi)容如下。
(1)domain=Base URI+[dataset prefix]。當所發(fā)布的數(shù)據(jù)為諸如機構(gòu)、地名、時間等通用的規(guī)范數(shù)據(jù)時,dataset prefix省略,詳見表6。
(2)type的取值詳見表7。
(3)concept或type。concept取本體中的類名,type為自定義的類型詞。如,edition表示版本取值詞表,person表示非信息資源的人,work表示信息資源的作品。
(4)IRI,系統(tǒng)唯一內(nèi)部標識符。由于上海圖書館歷史數(shù)據(jù)的規(guī)范控制不完善,資源與實體沒有統(tǒng)一的內(nèi)部標識符。因此,在新發(fā)布的關(guān)聯(lián)數(shù)據(jù)中,為每一個對象重新分配了系統(tǒng)唯一標識符。根據(jù)數(shù)據(jù)的不同,IRI分為兩種類型,一種是標識本體、規(guī)范數(shù)據(jù)和取值詞表,另一種是信息資源和實體。前者使用術(shù)語的英文或拼音形式,后者使用16位隨機符號,由26個小寫字母和1至9數(shù)字的混合。這即遵循了無變量和國際性的URI設計原則,也保證了IRI有足夠的冗余量。
表6 上海圖書館URI模式domain示例
表7 上海圖書館URI設計模式中的標識對象所屬類型詞(type)定義列表
5.2 數(shù)據(jù)集的URI設計模式
數(shù)據(jù)集URI主要標識對象是特定數(shù)據(jù)集,如家譜數(shù)據(jù)集、名人檔案數(shù)據(jù)集、書目數(shù)據(jù)集等。URI模式為http://data.library.sh.cn/{dataset}/。dataset是數(shù)據(jù)集類型詞匯,如家譜數(shù)據(jù)集URI為http://data.library.sh.cn/jp/。
5.3 本體詞表的URI設計模式
本體URI作為一種非信息資源URI,有Hash和Slash兩種形式。而上海圖書館的本體詞表,包括家譜本體、書目本體、檔案本體等,將共用一個域名。該本體詞表將是一個不斷更新和進化的大型詞表。另外,作為該本體詞表基礎(chǔ)的BIBFRAME使用了Slash形式。因此,上海圖書館的本體URI使用 Slash,模式為:http://{domain}/ ontology/[class][property]。其中,Class是首字母大寫的類名,如http://www.library.sh.cn/ontology/ Person;Property是首字母小寫的屬性名,如http://www.library.sh.cn/ontology/name。
5.4 規(guī)范數(shù)據(jù)的URI設計模式
規(guī)范數(shù)據(jù)URI主要標識對象是主題和分類。URI模式為:http://{domain}/authority/{termtype}/{term}。Type是主題分類的類型,如FDC表示四部分類法,LGJ表示劉國鈞分類法。Term是主題分類術(shù)語,如”jing”表示四部分類法中的“經(jīng)”。完整的URI模式如:http://data.library.sh.cn/authority/ FDC/jing。
5.5 信息資源的URI設計模式
信息資源URI主要標識對象是作品、實例、單件等。URI模式為:http://{domain}/resource/{concept}/{IRI}。其中,Concept表示資源類型,如work表示作品,item表示單件;IRI為16位字母和數(shù)字隨機組合的內(nèi)部唯一標識符,如http:// data.library.sh.cn/jp/resource/work/ullep7uwac4n 8cbt標識了題名為“敖氏支修家譜”的家譜作品。
5.6 非信息資源的URI設計模式
非信息資源URI主要標識對象是人、地、時等。URI模式與信息資源 URI相同,如 http:// data.library.sh.cn/entity/person/mwe1ui6bww62a4 l7標識了姓名為“敖開甫”的實體人。
5.7 取值詞表的URI設計模式
取值詞表的URI主要標識的對象是屬性的取值,屬性的取值范圍限定在一個特定的詞匯列表。根據(jù)取值詞表的適用范圍,上海圖書館將取值詞表分為通用取值詞表和專用取值詞表。前者如版本類型的取值詞表包括“石印本”“木活字本”“鉛印本”等,裝訂方式的取值詞表包括“經(jīng)折裝”“蝴蝶裝”“散葉”等;后者如先祖類型為家譜專用取值詞表,其取值詞表包括“始祖”“始遷祖”等。
上海圖書館的取值詞表URI模式為:http://{domain}/vocab/{termtype}/{term}。通用取值詞表的 doamin為 BaseURI,專用取值詞表為BaseURI+dataset prefix。termtype表示取值詞表的類型,如 ancestor表示先祖,edition表示版本。term為取值詞的拼音全拼,中間用中劃線分隔。如,先祖類型的取值詞“始遷祖”的URI為http:// data.library.sh.cn/jp/vocab/ancestor/shi-qian-zu,裝訂方式的取值詞“經(jīng)折裝”的 URI為 http:// data.library.sh.cn/vocab/binding/jing-zhe-zhuang。
表8列舉了按照URI設計規(guī)范上海圖書館家譜關(guān)聯(lián)數(shù)據(jù)中各類型資源URI的設計模式。
表8 上海圖書館家譜URI設計模式
隨著關(guān)聯(lián)數(shù)據(jù)在圖書館、檔案館等文化遺產(chǎn)機構(gòu)的廣泛應用,將會有更多的文化遺產(chǎn)資源與實體數(shù)據(jù)鏈接到關(guān)聯(lián)開放數(shù)據(jù)的云圖之中。URI作為其基礎(chǔ)技術(shù)之一,是標識世間萬物的重要手段。永久穩(wěn)定的URI,保證了被標識對象的可訪問和重用,這符合圖書館的目標和職責。因此,圖書館在實施關(guān)聯(lián)數(shù)據(jù)項目時,可參考國內(nèi)外關(guān)聯(lián)數(shù)據(jù)應用中URI設計模式所遵循的總體框架和最佳實踐,再根據(jù)實際需求制定適合本館的URI設計模式,保證項目實施的一致性和穩(wěn)定性,促進資源的全網(wǎng)域共享和融合。
1劉煒.關(guān)聯(lián)數(shù)據(jù):概念、技術(shù)及應用展望[J].大學圖書館學報,2011(2).
2Berners-Lee,T.Linked Data[EB/OL].[2016-02-22].http://www.w3.org/DesignIssues/ LinkedData.html.
3Uniform Resource Identifier(URI):Generic Syntax[EB/OL].[2016-02-22].http://www. ietf.org/rfc/rfc3986.txt.
4孫坦,等.國家圖書館數(shù)字資源唯一標識符規(guī)范和應用指南[M].北京:國家圖書館出版社,2010:37.
5Chris Bizer,et al.How to Publish Linked Data on the Web[EB/OL].[2016-02-22].http:// wifo5-03.informatik.uni-mannheim.de/bizer/ pub/LinkedDataTutorial/#relationaldata.
6萬愛雯,周建清.圖書館資源建設與編目工作研究[M].北京:當代中國出版社,2013:108.
7劉煒,等.萬維網(wǎng)時代的規(guī)范控制[J].中國圖書館學報,2015(3).
8Leo Sauermann,Richard Cyganiak.Cool URIs for the Semantic Web[EB/OL].[2016-02-22].http://www.w3.org/TR/cooluris/.
9Rhys Lewis.Dereferencing HTTP URIs[EB/ OL].[2015-09-03].http://www.w3.org/ 2001/tag/doc/httpRange-14/2007-05-31/HttpRange-14#sec-information-resources.
10Sonya Abbas,Adegboyega Ojo.Applying Design Patterns in URI Strategies-Naming in Linked Geospatial Data Infrastructure[J/OL].[2015-09-03].http://ieeexplore.ieee.org/stamp/ stamp.jsp?tp=&arnumber=6758863.
11圖書館關(guān)聯(lián)數(shù)據(jù)孵化小組:數(shù)據(jù)集、屬性值詞匯及元數(shù)據(jù)元素集[EB/OL].[2015-09-03].http://iskocn.org/lld/LLD_Datasets_ Report_zh.html.
12223 Best Practices URI[EB/OL].[2015-09-03].http://www.w3.org/2011/gld/wiki/223_ Best_Practices_URI_Construction.
13INSPIRE Directive(2007/2/EC)[EB/OL].[2015-09-03].http://eur-lex.europa.eu/ LexUriServ/LexUriServ.do?uri=OJ:L:2007:108:0001:0014:EN:PDF.
14Phil Archer,et al.Study on persistent URIs, with identification of best practices and recommendations on the topic for the MSs and the EC[EB/OL].[2015-09-03].http://philarcher. org/diary/2013/uripersistence/.
15Stuart Williams.URI Patterns[EB/OL].[2015 -09-03].https://github.com/UKGovLD/URI -patterns-core/blob/master/URI%20Patterns. md#reference.URISetsV1.
16Australian Government Linked Data Working Group.URI Guidelines for publishing linked datasets on data.gov.auv0.1[EB/OL].[2015-09-03].https://github.com/AGLDWG/TR/ wiki/URI-Guidelines-for-publishing-linkeddatasets-on-data.gov.au-v0.1.
17British Library URI patterns[EB/OL].[2015-09-06].http://www.bl.uk/bibliographic/pdfs/ british_library_uri_patterns.pdf.
18編目精靈.LC關(guān)聯(lián)數(shù)據(jù)服務:數(shù)據(jù)集現(xiàn)狀(2015)[EB/OL].[2015-09-06].http:// catwizard.net/posts/20150825140838.html.
19French National Library,Semantic Web and Data Model[EB/OL].[2015-09-06].http:// data.bnf.fr/en/semanticweb.
20小河塵.URI設計模式[EB/OL].[2015-09-06].http://1drv.ms/1XsAHEw.
21ANDS Guides.Persistent Identifiers[EB/OL].[2015-09-06].http://ands.org.au/guides/ persistent-identifiers-working.html.
(許磊 館員 上海圖書館,夏翠娟 高級工程師 上海圖書館,劉煒 研究員 上海圖書館副館長,張磊 高級工程師 上海圖書館)
URI Design Patterns in the Context of Linked Data
Xu Lei Xia Cuijuan Liu Wei Zhang Lei
As one of the basic technologies of the semantic web,Uniform Resource Identifier(URI)is a crucial approach to identify resources on the internet.Different from the common Uniform Resource Locator(URL),URI is a generic concept to regulate the internet resource identification system and provide basic identification and resolving methods for linked data technology.The linked data applications have just started in its infancy. So it is necessary to promote the implementation of related technical specifications and to exchange relevant practices.Three aspects of URI design best practices in abroad,including URI types,design principles and patterns,are introduced in accordance with the related URI design principles of World Wide Web Consortium(W3C).Finally,this paper gives an explicit explanation as the best practice of URI guidelines for the linked open data applications in Shanghai Library.2 figs.8 tabs.21 refs.
URI Patterns;Unique Identifier;Linked Data
2016-08-26
* 本文系國家哲學社會科學基金青年項目“W3C的RDB2RDF標準規(guī)范在關(guān)聯(lián)數(shù)據(jù)服務構(gòu)建中的應用”(項目編號:13CTQ008)的研究成果之一。