□劉 煒
關(guān)聯(lián)數(shù)據(jù):概念、技術(shù)及應(yīng)用展望
□劉 煒
概述了關(guān)聯(lián)數(shù)據(jù)概念的提出、基本內(nèi)涵、技術(shù)實(shí)現(xiàn)和當(dāng)前國(guó)內(nèi)外的研究應(yīng)用狀況,對(duì)其在圖書(shū)館行業(yè)的應(yīng)用作了簡(jiǎn)要介紹,點(diǎn)評(píng)了國(guó)內(nèi)該領(lǐng)域的研究開(kāi)發(fā)情況,重點(diǎn)闡述了對(duì)于圖書(shū)館在Web上發(fā)布書(shū)目數(shù)據(jù)和規(guī)范數(shù)據(jù)的重要意義,認(rèn)為關(guān)聯(lián)數(shù)據(jù)與網(wǎng)絡(luò)時(shí)代的圖書(shū)情報(bào)工作關(guān)系密切,是互聯(lián)網(wǎng)發(fā)展到語(yǔ)義網(wǎng)時(shí)代,對(duì)網(wǎng)上資源和數(shù)字對(duì)象進(jìn)行“編目”和“規(guī)范控制”的基礎(chǔ)性技術(shù),是數(shù)字圖書(shū)館進(jìn)行信息資源發(fā)布和服務(wù)的核心技術(shù)之一。最后作者呼吁我國(guó)圖書(shū)情報(bào)界重視這一技術(shù),及早投入一定的資源和人力進(jìn)行研究開(kāi)發(fā)和應(yīng)用推廣,使圖書(shū)館大量的權(quán)威數(shù)據(jù)在互聯(lián)網(wǎng)上占據(jù)一席之地。
關(guān)聯(lián)數(shù)據(jù) Linked Data 規(guī)范控制 語(yǔ)義網(wǎng)
哲學(xué)家波普爾的心中存在一個(gè)超然世外、遺世獨(dú)立的知識(shí)世界,負(fù)載卻不依賴于具體的物質(zhì)世界,依靠卻不附屬于個(gè)體的精神世界。這個(gè)世界總體上依賴于信息網(wǎng)絡(luò)和各類載體而存在,具體上卻不依附于任何個(gè)體的硬件設(shè)施;理解或解讀這個(gè)世界需要人類大腦的參與,但它卻有其自身的發(fā)展規(guī)律。遺憾的是在波普爾1994年去世前,這個(gè)世界還沒(méi)有像現(xiàn)在這么具體、形象和幾乎就要實(shí)現(xiàn)。這就是語(yǔ)義網(wǎng)的世界。
試想,如果每一本書(shū)都有一個(gè)獨(dú)立的網(wǎng)址,每一個(gè)作者都有一條可以公開(kāi)訪問(wèn)的記錄,每個(gè)刊物、出版社,每個(gè)主題詞、每個(gè)分類號(hào)……每個(gè)“知識(shí)點(diǎn)”,在網(wǎng)絡(luò)中都有一個(gè)唯一標(biāo)識(shí),所有這些“資源”之間的關(guān)系都能從其標(biāo)識(shí)所指引的地址里找到詳盡的說(shuō)明;甚至萬(wàn)事萬(wàn)物,不論是自然的、社會(huì)的或精神的,都有一個(gè)標(biāo)識(shí)符,都建立起豐富的關(guān)聯(lián),計(jì)算機(jī)能夠自動(dòng)通過(guò)網(wǎng)絡(luò)推理和挖掘知識(shí),那將是一個(gè)多么有序的知識(shí)世界!
“關(guān)聯(lián)數(shù)據(jù)”所提出的技術(shù)架構(gòu),為實(shí)現(xiàn)這個(gè)有序的知識(shí)世界帶來(lái)了曙光。
關(guān)聯(lián)數(shù)據(jù)是國(guó)際互聯(lián)網(wǎng)協(xié)會(huì)(W3C)推薦的一種規(guī)范,用來(lái)發(fā)布和聯(lián)接各類數(shù)據(jù)、信息和知識(shí),它希望在現(xiàn)有的萬(wàn)維網(wǎng)基礎(chǔ)上,建立一個(gè)映射所有自然、社會(huì)和精神世界的數(shù)據(jù)網(wǎng)絡(luò),通過(guò)對(duì)大千世界萬(wàn)事萬(wàn)物及其相互之間關(guān)系進(jìn)行機(jī)器可讀的描述,使互聯(lián)網(wǎng)進(jìn)化為一個(gè)富含語(yǔ)義的、互聯(lián)互通的知識(shí)海洋,從而使任何人都能夠借助整個(gè)互聯(lián)網(wǎng)的計(jì)算設(shè)施和運(yùn)算能力,在更大范圍內(nèi),準(zhǔn)確、高效、可靠地查找、分享、利用這些相互關(guān)聯(lián)的信息和知識(shí)。
從技術(shù)上看,關(guān)聯(lián)數(shù)據(jù)是在萬(wàn)維網(wǎng)上發(fā)布任何“資源”的一種方式。語(yǔ)義萬(wàn)維網(wǎng)將資源定義為“任何有URI標(biāo)識(shí)的東西”,分為信息資源和非信息資源兩類,信息資源用以表達(dá)任何信息,通常以某種編碼的文件形式而存在;非信息資源用以指代大千世界中的各類實(shí)體對(duì)象,可以是自然界、人類社會(huì)以及人類意識(shí)所創(chuàng)造的精神世界(概念、觀念、抽象實(shí)體等)的所有對(duì)象。
關(guān)聯(lián)數(shù)據(jù)通過(guò)HT TP URI方式表示和存取“資源”。如果這個(gè)資源是信息資源,則可以直接通過(guò)傳統(tǒng)的Web方式獲取;如果是非信息資源,則鏈接到一個(gè)以RDF/XML編碼的、用以指代該“非信息資源”的數(shù)據(jù)文件,而不是其他任何格式的文檔。這個(gè)RDF/XML編碼的文件包含了關(guān)于這個(gè)“非信息資源”的元數(shù)據(jù)描述和與其他相關(guān)實(shí)體對(duì)象的關(guān)聯(lián)關(guān)系描述。對(duì)象之間的關(guān)聯(lián)關(guān)系通??梢杂帽倔w語(yǔ)言來(lái)編碼,許多領(lǐng)域應(yīng)用的知識(shí)體系都有規(guī)范的、可重用的本體,可用來(lái)建立實(shí)體對(duì)象之間的關(guān)聯(lián)關(guān)系。
關(guān)聯(lián)數(shù)據(jù)的 URI除了能夠在萬(wàn)維網(wǎng)范圍內(nèi)唯一標(biāo)識(shí)資源對(duì)象之外,還能起到定位的作用,從而能夠用以“關(guān)聯(lián)”數(shù)據(jù)。具體的關(guān)聯(lián)是依靠RDF文件中的大量資源鏈接來(lái)實(shí)現(xiàn)的,這些鏈接不僅決定了數(shù)據(jù)的語(yǔ)義,也通過(guò)“屬性”而關(guān)聯(lián)到其所能鏈接到的、大量的相關(guān)資源實(shí)體。這些“屬性”本身也是資源,也應(yīng)該有唯一標(biāo)識(shí)符 URI加以定義和描述,我們通常所稱的“元數(shù)據(jù)方案”就是這類屬性的集合,規(guī)定了所需進(jìn)行描述的語(yǔ)義及其相互關(guān)系,其本身就可以看成是描述某些特定對(duì)象的本體。
關(guān)聯(lián)數(shù)據(jù)的發(fā)明人蒂姆·伯納斯-李(Tim Berners-Lee)為關(guān)聯(lián)數(shù)據(jù)總結(jié)了四個(gè)原則,很好地概括了上述關(guān)聯(lián)數(shù)據(jù)的諸多特性:
(1)使用URI作為任何事物的標(biāo)識(shí)名稱,不僅是標(biāo)識(shí)文檔;
(2)使用 HT TP URI,使任何人都可以參引①注:這里的“參引”(dereference),意指“為了獲取引用資源的相關(guān)信息,在萬(wàn)維網(wǎng)上查找U RI的過(guò)程”。下同。(dereference)這一全局唯一的名稱;
(3)當(dāng)有人訪問(wèn)名稱時(shí),以RDF形式提供有用的信息;
(4)盡可能提供鏈接,指向其他的URI,以使人們發(fā)現(xiàn)更多的相關(guān)信息。
其中第三和第四點(diǎn)要求RDF文件包含有用信息以及盡可能多的URI,這就要求關(guān)聯(lián)數(shù)據(jù)的RDF文件盡可能不使用“空白節(jié)點(diǎn)(blank nodes)”和少使用普通“文字(literal)”。在這里,“空白節(jié)點(diǎn)”是沒(méi)有全局ID的本地資源(沒(méi)有定義命名域的 URI,如ISBN,DOI),“文字”指一個(gè)字串值(可以有類型以及語(yǔ)言屬性),由于這兩種描述方式都不能用來(lái)指代“資源”,因此過(guò)多地使用“空白節(jié)點(diǎn)”和“文字”不能起到數(shù)據(jù)(即資源)關(guān)聯(lián)的作用,實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)的目的。
總之,可以認(rèn)為關(guān)聯(lián)數(shù)據(jù)是一組最佳實(shí)踐的集合,它采用RDF數(shù)據(jù)模型,利用URI(統(tǒng)一資源標(biāo)識(shí)符)命名數(shù)據(jù)實(shí)體,來(lái)發(fā)布和部署實(shí)例數(shù)據(jù)和類數(shù)據(jù),從而可以通過(guò) HTT P協(xié)議揭示并獲取這些數(shù)據(jù),同時(shí)它強(qiáng)調(diào)數(shù)據(jù)的相互關(guān)聯(lián)、相互聯(lián)系和有益于人機(jī)理解的語(yǔ)境信息。
關(guān)聯(lián)數(shù)據(jù)可以看成是語(yǔ)義萬(wàn)維網(wǎng)的一種簡(jiǎn)化實(shí)現(xiàn),作為一種語(yǔ)義信息的編碼、發(fā)布和利用方式,它的作用是基礎(chǔ)性的和多方面的。從目前的研究開(kāi)發(fā)項(xiàng)目來(lái)看,對(duì)關(guān)聯(lián)數(shù)據(jù)的應(yīng)用主要體現(xiàn)了兩個(gè)方面的作用:一、提供“可信網(wǎng)絡(luò)”的語(yǔ)義要素;二、作為跨網(wǎng)域數(shù)據(jù)整合的通用API。它最終是為了用戶更準(zhǔn)確地、從更大范圍、適時(shí)適地(just-in-time和just-incase)地獲取信息而服務(wù)的,但最終用戶無(wú)需知道這些服務(wù)背后的技術(shù)細(xì)節(jié),因此關(guān)聯(lián)數(shù)據(jù)的“用戶”,目前還主要是指圖書(shū)館、網(wǎng)站、信息提供商之類的機(jī)構(gòu)組織,常被稱為“信息中介”。
“可信網(wǎng)絡(luò)”意為其信息資源的來(lái)源可追蹤或可通過(guò)一定算法計(jì)算其“信度”的網(wǎng)絡(luò)。關(guān)聯(lián)數(shù)據(jù)的技術(shù)架構(gòu)不僅提供了信息資源可以追蹤來(lái)源(具有URI)的RDF語(yǔ)義描述,而且為各類對(duì)象實(shí)體以及所涉及的大量概念術(shù)語(yǔ)提供了規(guī)范控制。例如對(duì)每個(gè)作品、表達(dá)、表現(xiàn),或作者、機(jī)構(gòu)、家庭等實(shí)體提供一個(gè)唯一的URI參引,或?qū)γ總€(gè)主題、概念、術(shù)語(yǔ)、事件、分類詞或?qū)傩栽~等,提供一個(gè)唯一的出處。這實(shí)際上就是傳統(tǒng)圖書(shū)館學(xué)中“書(shū)目控制”(又稱權(quán)威控制)的擴(kuò)展:當(dāng)人們提及某一實(shí)體,或某一概念術(shù)語(yǔ)時(shí),系統(tǒng)能夠給予自動(dòng)的歸并或參照。這種機(jī)制,就是規(guī)范控制。規(guī)范控制的結(jié)果,就是信息在一定程度上更加可信。
若要進(jìn)行跨網(wǎng)域的數(shù)據(jù)整合,關(guān)聯(lián)數(shù)據(jù)把API(應(yīng)用程序接口)統(tǒng)一為HT TP一種,只不過(guò)經(jīng)過(guò)了簡(jiǎn)單的擴(kuò)展而已(指Hash或Slash方式轉(zhuǎn)發(fā))。也就是說(shuō)關(guān)聯(lián)數(shù)據(jù)對(duì)數(shù)據(jù)訪問(wèn)方式進(jìn)行了標(biāo)準(zhǔn)化,用戶或代理無(wú)需知道某具體關(guān)聯(lián)數(shù)據(jù)發(fā)布網(wǎng)站的體系架構(gòu)、存儲(chǔ)方式等任何技術(shù)細(xì)節(jié),只要知道Web服務(wù)器地址,都可以直接用SPARQL進(jìn)行訪問(wèn)。
據(jù)此,目前的關(guān)聯(lián)數(shù)據(jù)應(yīng)用系統(tǒng)的開(kāi)發(fā),基本上也可分為兩類:“關(guān)聯(lián)數(shù)據(jù)倉(cāng)儲(chǔ)系統(tǒng)”和“關(guān)聯(lián)數(shù)據(jù)服務(wù)系統(tǒng)”。前者關(guān)心的是將數(shù)據(jù)發(fā)布為面向網(wǎng)絡(luò)的關(guān)聯(lián)數(shù)據(jù)倉(cāng)儲(chǔ),后者關(guān)注不同倉(cāng)儲(chǔ)的整合應(yīng)用和互操作。當(dāng)然,這兩者也不是截然分開(kāi)的,某些應(yīng)用兼而有之,是這兩者的聯(lián)合。
目前把各類數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)是一個(gè)熱點(diǎn),圖書(shū)館行業(yè)在這方面已成為先鋒,不僅將本行業(yè)歷久彌新的各類概念體系受控詞表發(fā)布出來(lái)(即將各類知識(shí)組織體系發(fā)布成SKOS),越來(lái)越多的元數(shù)據(jù)方案、本體,乃至圖書(shū)館傳統(tǒng)的各類規(guī)范檔(如書(shū)目記錄、人名、地名、機(jī)構(gòu)名等)都在探索以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布,而且在發(fā)布過(guò)程中探索了領(lǐng)域本體(如FRBR)的應(yīng)用。下一步我們可以期待,重點(diǎn)將會(huì)逐漸轉(zhuǎn)移到跨應(yīng)用的語(yǔ)義整合服務(wù),例如各類術(shù)語(yǔ)體系或元數(shù)據(jù)的映射等。
當(dāng)然,關(guān)聯(lián)數(shù)據(jù)也不是萬(wàn)能的,它最大的敵人就是封閉,無(wú)法對(duì)封閉系統(tǒng)中的資源進(jìn)行整合。目前圖書(shū)館購(gòu)買(mǎi)或租用的大量資源庫(kù)需要遠(yuǎn)程訪問(wèn)才能獲得,如果這些資源庫(kù)不提供一定的開(kāi)放接口,關(guān)聯(lián)數(shù)據(jù)就無(wú)計(jì)可施,最多利用本體和術(shù)語(yǔ)規(guī)范的關(guān)聯(lián)數(shù)據(jù),從服務(wù)整合的角度,提供一定的資源導(dǎo)航或術(shù)語(yǔ)規(guī)范的支持。
總之,關(guān)聯(lián)數(shù)據(jù)相比于語(yǔ)義萬(wàn)維網(wǎng)技術(shù)來(lái)說(shuō),其實(shí)現(xiàn)更加簡(jiǎn)單,但背后同樣有數(shù)學(xué)和邏輯學(xué)的支持,具有規(guī)范性和可靠性。作為一種數(shù)據(jù)發(fā)布技術(shù),由于支持了語(yǔ)義描述,同時(shí)提供標(biāo)準(zhǔn)的服務(wù)接口,有效地提高了數(shù)據(jù)的可查找性和可重用性,其影響力正在日益顯現(xiàn),潛力十分巨大,已成為影響互聯(lián)網(wǎng)基礎(chǔ)結(jié)構(gòu)的關(guān)鍵技術(shù)之一。
關(guān)聯(lián)數(shù)據(jù)是建立在Web技術(shù)之上的,Web技術(shù)主要涉及三個(gè)內(nèi)容:HT TP、URL和HTML。
·HTTP是服務(wù)器操作的指令,規(guī)定了遇到各種請(qǐng)求(如GET/PUT/POST/DELETE)服務(wù)器如何響應(yīng),怎么處理;
·HTML是存儲(chǔ)在服務(wù)器端的網(wǎng)頁(yè)文件,將根據(jù)請(qǐng)求傳送給瀏覽器,HTML的標(biāo)準(zhǔn)規(guī)定了文件的結(jié)構(gòu),允許包含豐富的超文本鏈接,并能嵌套各類其他文件格式,如果瀏覽器一端有相應(yīng)的資源或程序就能夠調(diào)用或運(yùn)行。正是由于H TML,使整個(gè)萬(wàn)維網(wǎng)上布滿了相互鏈接的文件,成為一個(gè)巨大的、不斷膨脹的文件宇宙,這就是為什么說(shuō)目前的萬(wàn)維網(wǎng)是文件的萬(wàn)維網(wǎng)(Web of Documents)的原因。
·URL本來(lái)是作為在這個(gè)文件宇宙中定位具體的文件而用的,后來(lái)演變成兼具名稱作用,從而連同URN一起,統(tǒng)一作為URI的子類。
關(guān)聯(lián)數(shù)據(jù)把上面三個(gè)技術(shù)作了進(jìn)一步的限定和擴(kuò)展,用URI同時(shí)解決命名和定位問(wèn)題。在具體實(shí)現(xiàn)URI命名和定位時(shí),由于該名稱有永久性和易實(shí)現(xiàn)的要求,路徑作為某個(gè)資源名稱的一部分,不允許隨意發(fā)生改變,并且在不同的軟硬件平臺(tái)和技術(shù)環(huán)境下都需要能夠正確編碼,這就需要作為關(guān)聯(lián)數(shù)據(jù)標(biāo)識(shí)的URI符合CoolURI規(guī)范。
同時(shí)對(duì)于同一個(gè)對(duì)象,必須允許有不同的描述與表達(dá)方式,例如對(duì)于“http://www.kevenlw.name/about/index.php” 中 關(guān) 于 kevenlw 的FOAF①FOAF是個(gè)人信息描述的一種 RDF格式,參見(jiàn):http://www.foaf-project.org/。描述,既要有html文件(php可以認(rèn)為是動(dòng)態(tài)生成的html文件),通過(guò)瀏覽器顯示給人看,又要有rdf文件描述kevenlw的各種性狀屬性以便機(jī)器獲取相關(guān)元數(shù)據(jù)信息,如foaf文件:http://www.kevenlw.name/kevenfoaf.rdf。這兩個(gè)文件其實(shí)描述的是同一個(gè)“東西”,因此不應(yīng)該有不同的ID標(biāo)識(shí)(注意:在這里是兩個(gè)不同的URI,這是不規(guī)范的),必須在一個(gè)URI中區(qū)分這兩類數(shù)據(jù),同時(shí)讓服務(wù)器有一種機(jī)制,能夠自動(dòng)地根據(jù)請(qǐng)求方的不同,傳送不同格式的數(shù)據(jù)。
關(guān)聯(lián)數(shù)據(jù)的具體實(shí)現(xiàn)方式解釋如下:
一、對(duì)于來(lái)自客戶端的對(duì)任何非信息資源的所有URI“參引”請(qǐng)求,均采用HTT P協(xié)議中的“內(nèi)容協(xié)商”規(guī)則,返回其所請(qǐng)求的信息資源描述文件(對(duì)于非信息資源的請(qǐng)求是無(wú)法返回具體實(shí)物對(duì)象的,只能以描述該對(duì)象的代碼文件代替)。一般信息資源描述文件有兩類:即如果請(qǐng)求來(lái)自于普通瀏覽器(頭信息中包含text/html請(qǐng)求,其他MIME文件類型,如圖像文件、音視頻文件等,可歸入此類),則 返回HTML文件的網(wǎng)頁(yè);如果請(qǐng)求為application/rdf+xml,則返回負(fù)責(zé)該對(duì)象語(yǔ)義描述的RDF文件。
二、具體的“內(nèi)容協(xié)商”方式,通常有兩種方案達(dá)成:
(1)采用 HT TP協(xié)議的303指令重定向功能(如圖1所示②示意圖來(lái)自BBC關(guān)聯(lián)數(shù)據(jù)項(xiàng)目報(bào)告,原圖地址:http://www.bbc.co.uk/blogs/radiolabs/s5/linked-data/ui/images/slash303conneg.png。)。客戶端(瀏覽器)的URI請(qǐng)求由于不存在“東西”(非信息資源),服務(wù)器就會(huì)發(fā)送一個(gè)303See Other給客戶端,再由客戶端根據(jù)重定向規(guī)則發(fā)送請(qǐng)求,具體根據(jù)客戶端是H TML瀏覽器還是支持RDF的瀏覽器,決定HT TP文件頭請(qǐng)求何種類型的文件(HTML或者RDF)。
該過(guò)程的具體流程如圖2所示③原圖來(lái)自參考文獻(xiàn)14,地址:http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/deref-ont-uri-rdf.png:
圖1 HTTP協(xié)議303指令重定向示意圖
圖2 HTTP協(xié)議303指令重定向流程示意圖
圖3 采用“#”進(jìn)行“內(nèi)容協(xié)商”定位資源描述的示意圖
URI重定向通常采用以下慣例:
(2)采用帶“#”號(hào)(hash)的 URI方式(如圖 3所示①示意圖來(lái)自BBC關(guān)聯(lián)數(shù)據(jù)項(xiàng)目報(bào)告,原圖地址:http://www.bbc.co.uk/blogs/radiolabs/s5/linked-data/ui/images/hashconneg.png。)。“#”號(hào)前面的 URI能夠便于瀏覽器進(jìn)行解析定位,而與后面帶“#”號(hào)的片段標(biāo)識(shí)符共同用來(lái)標(biāo)識(shí)非信息資源,該片段標(biāo)識(shí)符同時(shí)起到了類似于重定向的功能,允許支持RDF的瀏覽器參引到信息資源文件(在這里是靜態(tài)的RDF文件)的所需位置。這種方式要求該片段標(biāo)識(shí)符必須在RDF文件中是唯一的,且整個(gè)RDF文件不可過(guò)大,否則非常影響查詢效率。
采用“#”號(hào)方式作為URI的例子如:
由于關(guān)聯(lián)數(shù)據(jù)從技術(shù)上看只是一種簡(jiǎn)單的數(shù)據(jù)發(fā)布規(guī)范,規(guī)模較小的應(yīng)用只需要對(duì)現(xiàn)有的Web服務(wù)器軟件進(jìn)行一定的設(shè)置,設(shè)定好資源對(duì)象的URI命名規(guī)范(以如上所述的各種方式),并將這些資源的RDF描述以靜態(tài)文件的形式發(fā)布出來(lái)。對(duì)于海量數(shù)據(jù)倉(cāng)儲(chǔ),則后臺(tái)必須有支持關(guān)聯(lián)數(shù)據(jù)規(guī)范發(fā)布方式的數(shù)據(jù)庫(kù)管理平臺(tái),目前開(kāi)源軟件已經(jīng)有著名的內(nèi)容管理平臺(tái)Drupal②參見(jiàn):http://drupal.org/全面支持關(guān)聯(lián)數(shù)據(jù),Ruby on Rails③參見(jiàn):http://www.rubyonrails.org/據(jù)說(shuō)也已開(kāi)發(fā)了完整的支持模塊。另一個(gè)做法是利用關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)的管理功能,編制映射文件,實(shí)時(shí)地將數(shù)據(jù)表、行、列、值映射為RDF數(shù)據(jù)中的類、屬性、資源、屬性值(文本與連接)等。這種方式通常被稱為D2R方式,即從數(shù)據(jù)庫(kù)到RDF數(shù)據(jù)轉(zhuǎn)換的方式。這樣等于在原有的Web數(shù)據(jù)庫(kù)三層應(yīng)用架構(gòu)基礎(chǔ)上增加了語(yǔ)義構(gòu)建層(即生成RDF數(shù)據(jù)以供SPARQL查詢),大大簡(jiǎn)化了語(yǔ)義內(nèi)容的構(gòu)建難度,發(fā)布速度快,但也帶來(lái)了語(yǔ)義標(biāo)注一致性差、質(zhì)量不高的問(wèn)題。目前LOD④參見(jiàn):http://linkeddata.org/(即開(kāi)放關(guān)聯(lián)數(shù)據(jù)LOD:Linked Open Data)中有很多大型數(shù)據(jù)集都采用了這種方式發(fā)布。關(guān)于關(guān)聯(lián)數(shù)據(jù)發(fā)布的詳細(xì)解釋,可以參考 Chris Bizer、Richard Cyganiak和Tom Heath合著的How to Publish Linked Data on the Web一文⑤參見(jiàn):Chris Bizer,Richard Cyganiak,Tom Heath.How to Publish Linked Data on the Web.[2011-01-18].http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/。
2006年7月蒂姆·伯納斯-李提出關(guān)聯(lián)數(shù)據(jù),由于其主要是一套應(yīng)用規(guī)范,而不是難度很高的技術(shù)開(kāi)發(fā),很快成為互聯(lián)網(wǎng)研究和應(yīng)用的一個(gè)熱點(diǎn)領(lǐng)域。在2007年開(kāi)放關(guān)聯(lián)數(shù)據(jù)運(yùn)動(dòng)的推動(dòng)下,不久便出現(xiàn)一大批實(shí)驗(yàn)性的應(yīng)用,表示關(guān)聯(lián)數(shù)據(jù)應(yīng)用范圍的云圖不斷增大①參見(jiàn):http://richard.cyganiak.de/2007/10/lod/,關(guān)聯(lián)的開(kāi)放數(shù)據(jù)呈幾何級(jí)數(shù)飛速增長(zhǎng),截止2010年11月,LOD中的數(shù)據(jù)集合已有100多個(gè),其中RDF三元組數(shù)據(jù)已達(dá)131億。其內(nèi)容也逐步擴(kuò)展,從早期的地理信息、生命科學(xué)數(shù)據(jù)、百科詞條等,發(fā)展到目前涉及媒體、出版、政府信息、圖形圖像等,幾乎無(wú)所不包。
除了關(guān)聯(lián)數(shù)據(jù)專題會(huì)議之外,2007年以來(lái)幾乎每個(gè)互聯(lián)網(wǎng)國(guó)際會(huì)議都以關(guān)聯(lián)數(shù)據(jù)作為主題或最重要的分主題,如全球互聯(lián)網(wǎng)大會(huì)(WWW)、語(yǔ)義萬(wàn)維網(wǎng)年會(huì)(ISWC)、AAAI年會(huì)、DCMI國(guó)際元數(shù)據(jù)年會(huì)等。自從W3C的2007年年會(huì)(即WWW2007)之后,關(guān)聯(lián)數(shù)據(jù)就開(kāi)始作為一個(gè)專門(mén)的分會(huì)場(chǎng)——LDOW:Linked Data On the Web,于每年召開(kāi)。該會(huì)議已成為關(guān)聯(lián)數(shù)據(jù)領(lǐng)域最重要的會(huì)議,會(huì)上所探討的主題代表了最新的研究和開(kāi)發(fā)動(dòng)向,目前已從最初的關(guān)聯(lián)數(shù)據(jù)的發(fā)布和瀏覽,到關(guān)聯(lián)數(shù)據(jù)的應(yīng)用架構(gòu)、關(guān)聯(lián)算法、Web數(shù)據(jù)融合、關(guān)聯(lián)數(shù)據(jù)的消費(fèi)和關(guān)聯(lián)服務(wù)等諸多方面。
關(guān)聯(lián)數(shù)據(jù)領(lǐng)域的一個(gè)鮮明特點(diǎn)是邊研究邊應(yīng)用,在實(shí)踐中不斷得到檢驗(yàn)和完善。目前涌現(xiàn)出一批非常知名的應(yīng)用,如美國(guó)和英國(guó)政府的政府信息、英國(guó)廣播公司(BBC)、紐約時(shí)報(bào)、路透社、百思買(mǎi)等。
以下以BBC為例,簡(jiǎn)要介紹關(guān)聯(lián)數(shù)據(jù)對(duì)于組織機(jī)構(gòu)內(nèi)部數(shù)字資產(chǎn)管理和利用所帶來(lái)的變化。
BBC是世界上最大的廣播電視公司之一,創(chuàng)立于1920年,目前有32種語(yǔ)言的國(guó)際服務(wù),8個(gè)全國(guó)電視頻道,1個(gè)高清頻道,大量的地方頻道,10個(gè)國(guó)家電臺(tái),40多個(gè)地方電臺(tái)等,積累了難以想象的資料和素材,管理、發(fā)現(xiàn)和重用這些資源都是巨大的挑戰(zhàn),更別說(shuō)開(kāi)放出來(lái)給公眾使用。
BBC矢志成為業(yè)界翹楚。它的網(wǎng)站bbc.co.uk開(kāi)設(shè)于1994年,是同行業(yè)中最早的網(wǎng)站,語(yǔ)義網(wǎng)技術(shù)使它燃起了新的希望,它希望建立先進(jìn)的語(yǔ)義媒體庫(kù),不僅利用網(wǎng)站進(jìn)行節(jié)目推廣,而且可以發(fā)布、推送、組織和存檔節(jié)目,支持知識(shí)搜索,使其積累的大量?jī)?nèi)容成為儲(chǔ)存人類記憶的腦庫(kù)。于是它利用關(guān)聯(lián)數(shù)據(jù)技術(shù),給每個(gè)節(jié)目(每一集)都建立了自己專屬的網(wǎng)頁(yè)和靜態(tài)地址(CoolURL),每個(gè)知識(shí)單元都有自己的結(jié)構(gòu)化描述和永久地址,而且每個(gè)網(wǎng)頁(yè)都可以由所有這些知識(shí)單元根據(jù)模版自動(dòng)生成,同時(shí)以同樣的方法建立了455465位藝術(shù)家的信息,682473個(gè)播出節(jié)目,7851093個(gè)音軌,以及31112個(gè)Labels的完整資料。BBC還采用了鼓勵(lì)用戶貢獻(xiàn)信息和糾錯(cuò)的機(jī)制,用戶的參與使信息庫(kù)的完整性和準(zhǔn)確性不斷得到提高。BBC認(rèn)為關(guān)聯(lián)數(shù)據(jù)技術(shù)使其網(wǎng)站和數(shù)據(jù)的可用性得到大大增強(qiáng),用戶的體驗(yàn)得到巨大提升,搜索引擎的查詢效果得到優(yōu)化,資源的可查找性、可點(diǎn)擊性和可傳播性都得到很大提高?,F(xiàn)在BBC的整個(gè)網(wǎng)站同時(shí)又是一個(gè)API平臺(tái),它采用了RESTful發(fā)布,與Web無(wú)縫集成,保證了鏈接的永久性和數(shù)據(jù)的開(kāi)放性,并且其系統(tǒng)的各組成部分松散耦合,互有聯(lián)系卻互不干擾,整個(gè)系統(tǒng)進(jìn)入可持續(xù)發(fā)展的良性軌道。
自從2008年瑞典國(guó)家圖書(shū)館首家以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布了LIBRIS國(guó)家書(shū)目,并將其中的數(shù)據(jù)與DBPedia相關(guān)聯(lián)之后,到2010年,已有逾20個(gè)圖書(shū)館的關(guān)聯(lián)數(shù)據(jù)集②來(lái)自Ross Singer2010年Code4Lib報(bào)告http://code4lib.org/conference/2010/singer中的圖書(shū)館關(guān)聯(lián)數(shù)據(jù)云圖。。
圖4 2010年已有的圖書(shū)館領(lǐng)域關(guān)聯(lián)數(shù)據(jù)集
其中至少有以下5個(gè)國(guó)際、國(guó)家級(jí)的書(shū)目數(shù)據(jù)/規(guī)范數(shù)據(jù)開(kāi)放了關(guān)聯(lián)數(shù)據(jù)服務(wù):
·美國(guó)國(guó)會(huì)圖書(shū)館及其主題標(biāo)目(LCSH)(id.loc.gov)
·德國(guó)國(guó)家圖書(shū)館的聯(lián)合權(quán)威檔(Gemeinsame Normdatei)(d-nb.info/gnd/)
·法國(guó)國(guó)家圖書(shū)館(BnF)的RAMEAU主題標(biāo)目(stitch.cs.vu.nl/rameau/)
·OCLC的杜威分類法及國(guó)際虛擬權(quán)威檔(VIAF)(dewey.info/和viaf.org/)
·匈牙利國(guó)家圖書(shū)館的目錄和敘詞表(oszkdk.oszk.hu/resource/DRJ/404)
另外DC元數(shù)據(jù)、應(yīng)用了FRBR的RDA詞表、BIBO書(shū)目本體(http://bibliontology.com/)、SKOS知識(shí)組織編碼模式和OAI-ORE對(duì)象重用和交換模型都可作為數(shù)據(jù)關(guān)聯(lián)的語(yǔ)義工具。
目前這類詞表和KOS已經(jīng)如雨后春筍一般涌現(xiàn)出來(lái)。較著名的有:
·STW經(jīng)濟(jì)學(xué)敘詞表(zbw.eu/stw)
·社會(huì)科學(xué)敘詞表(lod.gesis.org)
·GEMET環(huán)境敘詞表(eionet.europa.eu/gemet)
·Agrovoc(聯(lián)合國(guó)糧農(nóng)組織敘詞表)(aims.fao.org/)
·紐約時(shí)報(bào)主題標(biāo)目(data.nytimes.com/)
·科學(xué)出版物詞表(dblp.rkbexplorer.com)
因?yàn)橛辛巳绱诉M(jìn)展,Antoine把2010年稱為圖書(shū)館關(guān)聯(lián)數(shù)據(jù)元年①參見(jiàn):http://talis-linkeddata-libraries.s3.amazonaws.com/I-saac-LLD10.pdf slide 6:“2010,Year 1of Library Linked Data”。。
圖書(shū)館行業(yè)所具有的經(jīng)年累積的高質(zhì)量數(shù)據(jù),包含了大量的、值得揭示和參照復(fù)用的內(nèi)容實(shí)體,只是這些東西都隱藏在書(shū)目記錄內(nèi)部,沒(méi)有獨(dú)立標(biāo)識(shí),也缺乏結(jié)構(gòu)化描述,特別是其相互之間的隱含關(guān)系尤其值得揭示,但工作量浩大,必須開(kāi)發(fā)一定的規(guī)則算法,由機(jī)器進(jìn)行批處理。
IFLA也注意到了關(guān)聯(lián)數(shù)據(jù)與圖書(shū)館的密切聯(lián)系,于2010年6月發(fā)布了《關(guān)聯(lián)數(shù)據(jù)與圖書(shū)館》的專題報(bào)告[1],由德國(guó)國(guó)家圖書(shū)館的Jan Hannemann和Jürgen Kett執(zhí)筆。文章介紹了德國(guó)國(guó)家圖書(shū)館在應(yīng)用關(guān)聯(lián)數(shù)據(jù)技術(shù)方面的進(jìn)展,包括三個(gè)具體的實(shí)例:德國(guó)作家Bertolt Brecht的規(guī)范數(shù)據(jù)、國(guó)際圖聯(lián)(IFLA)海牙總部的機(jī)構(gòu)規(guī)范數(shù)據(jù)和主題“Führungskraft” (英語(yǔ) :“Executive”)的標(biāo)目 ,探討了關(guān)聯(lián)數(shù)據(jù)對(duì)于圖書(shū)館的意義和應(yīng)用前景,對(duì)于全球圖書(shū)館如何互通互聯(lián)數(shù)據(jù)、并在此基礎(chǔ)上探索新的服務(wù)內(nèi)容和方式,進(jìn)行了全面深入的思考。
由于圖書(shū)館行業(yè)有著獨(dú)特的“規(guī)范控制”經(jīng)驗(yàn)和長(zhǎng)期積累的數(shù)據(jù)優(yōu)勢(shì),萬(wàn)維網(wǎng)協(xié)會(huì)W3C專門(mén)成立了“圖書(shū)館關(guān)聯(lián)數(shù)據(jù)孵化小組(Library Linked Data Incubator Group)”②參見(jiàn):http://www.w3.org/2005/Incubator/lld/,由 DCMI的元老 Thomas Baker領(lǐng)銜,匯集語(yǔ)義網(wǎng)、特別是關(guān)聯(lián)數(shù)據(jù)方面的高手,集思廣益,充分挖掘現(xiàn)有圖書(shū)館領(lǐng)域的相關(guān)專業(yè)知識(shí),如元數(shù)據(jù)模型、元數(shù)據(jù)模式、標(biāo)準(zhǔn)和協(xié)議等,重新定義需求、編制指南、開(kāi)發(fā)新的標(biāo)準(zhǔn),鼓勵(lì)圖書(shū)館界將它們的各類數(shù)據(jù)和規(guī)范檔以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布到互聯(lián)網(wǎng)上,提高圖書(shū)館數(shù)據(jù)在萬(wàn)維網(wǎng)上的互操作性,使圖書(shū)館行業(yè)成為萬(wàn)維網(wǎng)上最重要的語(yǔ)義數(shù)據(jù)提供者,并探索和尋求與其他相關(guān)領(lǐng)域的數(shù)據(jù)和應(yīng)用進(jìn)行協(xié)同的可能性。
孵化小組目前已完成了約50多個(gè)用例(Use Cases)的收集和編寫(xiě)③參加:http://www.w3.org/2005/Incubator/lld/wiki/UseCases,內(nèi)容涉及書(shū)目數(shù)據(jù)、規(guī)范控制、詞表發(fā)布、檔案和異構(gòu)數(shù)據(jù)、參考引文、數(shù)字對(duì)象、資源集合、社會(huì)性應(yīng)用等各個(gè)方面,還在不斷增加,涵蓋非常廣泛,幾乎包括了圖書(shū)館行業(yè)數(shù)據(jù)可能想到的所有方面。
盡管已經(jīng)取得了不小的進(jìn)展,圖書(shū)館界應(yīng)用關(guān)聯(lián)數(shù)據(jù)的困難也十分明顯,主要表現(xiàn)在以下4個(gè)方面:一是缺乏可資利用的、公認(rèn)的術(shù)語(yǔ)詞表,各類KOS、本體尚未經(jīng)過(guò)嚴(yán)格的編碼應(yīng)用檢驗(yàn),而且目前也不夠用、不統(tǒng)一;二是缺乏成熟的方法和可以立即上手的工具;三是數(shù)據(jù)的版權(quán)屬性不明朗,有時(shí)可能有法律風(fēng)險(xiǎn);四是做這個(gè)事情還是缺乏經(jīng)驗(yàn),需求掌握也不是很充分,為什么做?有什么用?能不能達(dá)到預(yù)期目的?還都是未知數(shù)。
國(guó)內(nèi)最早引介關(guān)聯(lián)數(shù)據(jù),應(yīng)該是2008年12月在上海召開(kāi)的“數(shù)字環(huán)境下圖書(shū)館前沿問(wèn)題研討班”上,劉煒?biāo)鞯摹罢Z(yǔ)義互操作與關(guān)聯(lián)數(shù)據(jù)”介紹①參見(jiàn):http://www.lib.sjtu.edu.cn/adls/download/12-18/1218AM-C2.pdf,當(dāng)時(shí)是為了宣傳次年在韓國(guó)召開(kāi)的DC-2009國(guó)際元數(shù)據(jù)會(huì)議主題,希望國(guó)內(nèi)同行關(guān)注這一新的技術(shù)動(dòng)向。美國(guó)著名圖書(shū)情報(bào)學(xué)家曾蕾教授在同一個(gè)會(huì)上所作的題為“術(shù)語(yǔ)注冊(cè)和網(wǎng)絡(luò)服務(wù)系統(tǒng)當(dāng)前技術(shù)和應(yīng)用”②參見(jiàn):http://www.lib.sjtu.edu.cn/adls/download/12-17/1217PM-A7.pdf的報(bào)告,更為詳細(xì)地介紹了關(guān)聯(lián)數(shù)據(jù)技術(shù)及其應(yīng)用現(xiàn)狀。隨后曾蕾教授前往中國(guó)國(guó)家圖書(shū)館和中國(guó)人民大學(xué)圖書(shū)館,又作了兩場(chǎng)同題報(bào)告,傳播了正在國(guó)外興起的“關(guān)聯(lián)數(shù)據(jù)”研究和應(yīng)用。
關(guān)聯(lián)數(shù)據(jù)與元數(shù)據(jù)具有天然的聯(lián)系,從某種程度上可以說(shuō)關(guān)聯(lián)數(shù)據(jù)是元數(shù)據(jù)語(yǔ)義表達(dá)和實(shí)現(xiàn)其功能需求的最佳方式,就像業(yè)界普遍認(rèn)為RDF是當(dāng)然的“元數(shù)據(jù)格式”一樣,RDF作為一種數(shù)據(jù)表達(dá)方式(三元組),其在Web上開(kāi)放發(fā)布的最簡(jiǎn)單便捷的形式,就是“關(guān)聯(lián)數(shù)據(jù)”的一整套被稱為“最佳實(shí)踐”的規(guī)范。盡管這些說(shuō)法可能不是非常嚴(yán)格準(zhǔn)確,但還是從某種程度上揭示了這些概念之間的關(guān)系。
DCMI的國(guó)際元數(shù)據(jù)年會(huì)從2008年柏林會(huì)議就有大量的關(guān)聯(lián)數(shù)據(jù)討論,這時(shí)已經(jīng)經(jīng)歷了國(guó)外2007年關(guān)聯(lián)數(shù)據(jù)的持續(xù)升溫。在美國(guó)雪城大學(xué)秦健教授的推薦下,劉煒為《現(xiàn)代圖書(shū)情報(bào)技術(shù)》組織了一個(gè)DC-2008年會(huì)會(huì)議錄中有關(guān)語(yǔ)義網(wǎng)應(yīng)用的翻譯文章專輯,其中有兩篇涉及關(guān)聯(lián)數(shù)據(jù),分別介紹了瑞典國(guó)家圖書(shū)館以關(guān)聯(lián)數(shù)據(jù)形式發(fā)布書(shū)目數(shù)據(jù)[2],以及美國(guó)國(guó)會(huì)圖書(shū)館主題標(biāo)目的關(guān)聯(lián)數(shù)據(jù)應(yīng)用[3]。這兩個(gè)應(yīng)用可以說(shuō)是圖書(shū)館行業(yè)在這一領(lǐng)域應(yīng)用的先驅(qū)和樣板。
由武漢華中科技大學(xué)主辦的2009年“數(shù)字環(huán)境下圖書(shū)館前沿問(wèn)題研討班”③參見(jiàn):http://202.114.9.60/dl6/又一次涉及了關(guān)聯(lián)數(shù)據(jù)主題。這次會(huì)議上由于有曾蕾教授的強(qiáng)烈推薦,引起了大家對(duì)關(guān)聯(lián)數(shù)據(jù)的高度重視和強(qiáng)烈興趣,開(kāi)始認(rèn)識(shí)到這是代表發(fā)展方向的一個(gè)技術(shù)領(lǐng)域,將對(duì)未來(lái)的網(wǎng)絡(luò)信息資源組織和應(yīng)用產(chǎn)生重大影響。這次會(huì)議上曾蕾和劉煒?lè)謩e作了“關(guān)聯(lián)的圖書(shū)館數(shù)據(jù)”④參見(jiàn):http://202.114.9.60/dl6/pdf/26.pdf和“關(guān)聯(lián)數(shù)據(jù):意義及其實(shí)現(xiàn)”⑤參見(jiàn):http://202.114.9.60/dl6/pdf/24.pdf的報(bào)告。
2010年8月上海市圖書(shū)館學(xué)會(huì)在普陀區(qū)圖書(shū)館召開(kāi)了一年一度的“圖書(shū)館前沿技術(shù)論壇”,主題定為“關(guān)聯(lián)數(shù)據(jù)與書(shū)目數(shù)據(jù)的未來(lái)”⑥參見(jiàn):http://www.libnet.sh.cn/tsgxh/list/list.aspx?id=6604,參加會(huì)議交流的除了上海市在該領(lǐng)域從事研究開(kāi)發(fā)的一些專業(yè)人員之外,遠(yuǎn)在大洋彼岸的曾蕾教授也通過(guò)遠(yuǎn)程會(huì)議系統(tǒng)為會(huì)議作了第一個(gè)報(bào)告,會(huì)議特別邀請(qǐng)了新西蘭奧克蘭大學(xué)圖書(shū)館的資深技術(shù)專家林海青先生、中國(guó)科技信息研究所的白海燕女士和嘉興學(xué)院的黃田青先生,一共進(jìn)行了8場(chǎng)專題報(bào)告⑦參見(jiàn):http://www.kevenlw.name/archives/2199,最后還進(jìn)行了討論和互動(dòng),全國(guó)各地約有近20位對(duì)關(guān)聯(lián)數(shù)據(jù)感興趣或正在從事研究的同行也參與了網(wǎng)絡(luò)直播和交流。上海圖書(shū)館學(xué)會(huì)學(xué)術(shù)委員會(huì)主任范并思教授在開(kāi)幕致辭和閉幕總結(jié)中對(duì)這次會(huì)議給予了高度評(píng)價(jià)。
從國(guó)內(nèi)見(jiàn)諸專業(yè)刊物的文章來(lái)看,關(guān)聯(lián)數(shù)據(jù)的研究尚不普及。除了上面提到的兩篇翻譯文章之外,總共只有不超過(guò)10篇論文,其中有兩篇是綜述文章,黃永文的綜述[4]主要側(cè)重圖書(shū)館應(yīng)用的角度,沈志宏、張曉林的綜述[5]則從技術(shù)發(fā)展所提供的可能性角度,介紹得更為全面系統(tǒng)。
其他文章也都較為詳盡地介紹了關(guān)聯(lián)數(shù)據(jù)技術(shù)的內(nèi)容和發(fā)展[6][7]以及國(guó)外有關(guān)項(xiàng)目的應(yīng)用開(kāi)發(fā)情況[8],白海燕[9][10]和范煒、鄒慶的論文[11]涉及了項(xiàng)目開(kāi)發(fā)和技術(shù)實(shí)現(xiàn)。這些論文的作者單位也反映出國(guó)內(nèi)對(duì)關(guān)聯(lián)數(shù)據(jù)感興趣的機(jī)構(gòu)集中在中國(guó)科技信息研究所、中科院文獻(xiàn)情報(bào)中心等少數(shù)幾家。另外已經(jīng)有兩篇學(xué)位論文涉及了這一主題[12][13]。
中國(guó)科技信息研究所是國(guó)內(nèi)較早跟蹤關(guān)聯(lián)數(shù)據(jù)技術(shù),并積極探索其應(yīng)用可能性的單位,曾經(jīng)有多個(gè)項(xiàng)目與此有關(guān),最早的項(xiàng)目可以追溯到2008年在國(guó)家科技圖書(shū)文獻(xiàn)中心立項(xiàng)的“NSTL聯(lián)合目錄的分層組織與關(guān)聯(lián)構(gòu)建”,該項(xiàng)目主要探討了FRBR在NSTL應(yīng)用的可能性,提出了NSTL書(shū)目本體,并在DC-2009上發(fā)表了一篇短文(掛圖Poster)。后來(lái)該所又立項(xiàng)了“基于關(guān)聯(lián)數(shù)據(jù)的信息組織深度序化”,并成功申請(qǐng)2010年度國(guó)家社科基金項(xiàng)目“圖書(shū)館資源組織語(yǔ)義化研究”,全面研究了關(guān)聯(lián)數(shù)據(jù)的實(shí)現(xiàn)技術(shù),并進(jìn)行了基本開(kāi)發(fā)試驗(yàn)。目前基于上述成果又開(kāi)展了資源整合和服務(wù)整合的研究開(kāi)發(fā),分別立項(xiàng)了“基于關(guān)聯(lián)數(shù)據(jù)的服務(wù)融合與資源擴(kuò)展”和“基于DOI的科研資源整合研究”等項(xiàng)目,該所在十二五規(guī)劃中也打算基于關(guān)聯(lián)數(shù)據(jù)技術(shù),全面調(diào)研關(guān)聯(lián)數(shù)據(jù)在NSTL服務(wù)系統(tǒng)中的應(yīng)用場(chǎng)景,探討利用該技術(shù)進(jìn)行知識(shí)組織系統(tǒng)的構(gòu)建、知識(shí)關(guān)系抽取、海量文獻(xiàn)自動(dòng)標(biāo)引、檢索結(jié)果的擴(kuò)展、異類資源整合檢索、多維分面信息資源的組織與檢索、數(shù)據(jù)融合與混搭等前沿領(lǐng)域應(yīng)用的可能性。
關(guān)聯(lián)數(shù)據(jù)是一項(xiàng)與圖書(shū)情報(bào)工作密切相關(guān)的技術(shù),是互聯(lián)網(wǎng)發(fā)展到語(yǔ)義網(wǎng)時(shí)代、提供對(duì)任何網(wǎng)上資源和數(shù)字對(duì)象進(jìn)行“編目”和“規(guī)范控制”的基礎(chǔ)性技術(shù),是數(shù)字圖書(shū)館進(jìn)行信息資源發(fā)布和服務(wù)的核心技術(shù)之一??赡茑笥诩夹g(shù)障礙,我國(guó)圖書(shū)情報(bào)界還沒(méi)有充分認(rèn)識(shí)到這一點(diǎn),甚至還沒(méi)有引起一些大型的、肩負(fù)指引行業(yè)發(fā)展方向的機(jī)構(gòu)的充分重視,未能投入足夠的人力和資源進(jìn)行跟蹤研究和開(kāi)發(fā)試驗(yàn)。目前僅有的一些研究由于缺乏必要的交流而很難達(dá)成一致理解,甚至無(wú)法避免謬誤和彎路。關(guān)聯(lián)數(shù)據(jù)從技術(shù)上看是非常簡(jiǎn)單的,但要應(yīng)用得好,必須要有領(lǐng)域?qū)<?、?nèi)容管理專家和網(wǎng)絡(luò)應(yīng)用開(kāi)發(fā)人員共同參與,仔細(xì)調(diào)研需求,同時(shí)需要對(duì)于標(biāo)準(zhǔn)規(guī)范有深刻的理解,在模型和架構(gòu)方面達(dá)成一致,即使可以邊摸索實(shí)踐邊服務(wù)推廣,也需要有一個(gè)基本的研究團(tuán)隊(duì)和交流環(huán)境,這些是制約目前國(guó)內(nèi)關(guān)聯(lián)數(shù)據(jù)研發(fā)和應(yīng)用的主要問(wèn)題。希望通過(guò)本文的回顧、總結(jié)和呼吁,能夠使大家認(rèn)識(shí)到關(guān)聯(lián)數(shù)據(jù)的價(jià)值、內(nèi)涵和意義,并引起一些相關(guān)機(jī)構(gòu)和專家的重視。
1 Jan Hannemann,Jürgen Kett.Linked Data and Libraries.[2011-01-18].http://www.ifla.org/files/hq/papers/ifla76/149-hannemann-en.pdf
2 Martin M almsten.將圖書(shū)館目錄納入語(yǔ)義萬(wàn)維網(wǎng).李靜雯譯.現(xiàn)代圖書(shū)情報(bào)技術(shù),2009,3(3):2-8
3 Ed Summers,Antoine Isaac,Clay Redding,Dan K rech.LCSH,SKOS和關(guān)聯(lián)數(shù)據(jù).姚小樂(lè)、劉煒譯.現(xiàn)代圖書(shū)情報(bào)技術(shù),2009(3):8-14
4 黃永文.關(guān)聯(lián)數(shù)據(jù)在圖書(shū)館中的應(yīng)用研究綜述.現(xiàn)代圖書(shū)情報(bào)技術(shù),2010(5):1-7
5 沈志宏,張曉林.關(guān)聯(lián)數(shù)據(jù)及其應(yīng)用現(xiàn)狀綜述.現(xiàn)代圖書(shū)情報(bào)技術(shù),2010(11):1-9
6 黃永文.關(guān)聯(lián)數(shù)據(jù)驅(qū)動(dòng)的Web應(yīng)用研究.圖書(shū)館雜志,2010(7):55-59
7 李亞婷,曹潔,彭洋,鮑瑩.Web環(huán)境下關(guān)聯(lián)數(shù)據(jù)的應(yīng)用.情報(bào)理論與實(shí)踐,2010(11):122-125
8 白海燕.關(guān)聯(lián)數(shù)據(jù)及DBpedia實(shí)例分析.現(xiàn)代圖書(shū)情報(bào)技術(shù),2010(3):33-39
9 白海燕,朱禮軍.關(guān)聯(lián)數(shù)據(jù)的自動(dòng)關(guān)聯(lián)構(gòu)建研究.現(xiàn)代圖書(shū)情報(bào)技術(shù),2010,26(2):44-49
10 白海燕,喬曉東.基于本體和關(guān)聯(lián)數(shù)據(jù)的書(shū)目組織語(yǔ)義化研究.現(xiàn)代圖書(shū)情報(bào)技術(shù),2010.9.18-27
11 范煒,鄒慶.詞表資源關(guān)聯(lián)化.情報(bào)理論與實(shí)踐.2010(5):21-25
12 寧小敏.語(yǔ)義關(guān)聯(lián)數(shù)據(jù)模型及其檢索機(jī)制的研究[博士學(xué)位論文].武漢:華中科技大學(xué),2008
13 婁秀明.用關(guān)聯(lián)數(shù)據(jù)技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)知識(shí)組織系統(tǒng)的研究[碩士論文].上海:華東師范大學(xué),2010
Overview on Linked Data:Concept,Technology and Implementation
Liu Wei
The paper outlined the initiation of Linked Data,introduced its concept,implementation and current status of applications at home and abroad,and put emphasis on its deployment in library and information area.It also foresaw the impact on the library information services through the Web,and reviewed the related research and development in China.It concluded that,with the help of Linked data,it will be brought back the authority control to the Web at a certain level as bibliographical data and authority files in legacy library system transformed and uploaded onto the Web.Chinese librarianship has the responsibilities to catch up with the new achievement of the development of linked data technology.
Linked Data;Authority Control;Semantic Web;Bibliographic Record
上海圖書(shū)館,上海,200031
2011年2月8日
大學(xué)圖書(shū)館學(xué)報(bào)2011年2期