董杰
摘要:[目的/意義]關(guān)聯(lián)開(kāi)放數(shù)據(jù)(LOD)已廣泛應(yīng)用于很多產(chǎn)業(yè)、非營(yíng)利性組織和政府。圖書檔案館是LOD技術(shù)的早期使用者之一,這也促進(jìn)了LOD技術(shù)的發(fā)展,德國(guó)是圖書檔案館業(yè)非常發(fā)達(dá)的國(guó)家,有很多LOD應(yīng)用于圖書檔案館中的成功案例。[方法/過(guò)程]采用文獻(xiàn)調(diào)研、網(wǎng)絡(luò)調(diào)查、內(nèi)容分析法,分析LOD技術(shù)在德國(guó)圖書檔案館中成功應(yīng)用的案例。[結(jié)果/結(jié)論]案例揭示了在計(jì)算機(jī)科學(xué)領(lǐng)域,如人工智能、數(shù)據(jù)庫(kù)和圖書檔案館研究課題之間的關(guān)系??偨Y(jié)了德國(guó)的實(shí)踐經(jīng)驗(yàn),為我國(guó)發(fā)展相關(guān)的實(shí)踐提供更多的參考。
關(guān)鍵詞:關(guān)聯(lián)開(kāi)放數(shù)據(jù) LOD 德國(guó) 圖書館 檔案館 應(yīng)用
分類號(hào):G250
1 引言
德國(guó)有8 000多家公立圖書檔案館,其中約一半為州立、市立圖書檔案館,一半為教會(huì)圖書檔案館,還有私立圖書檔案館10 000多家,平均約4 000多人就有一家圖書檔案館。可見(jiàn),德國(guó)是圖書檔案館業(yè)發(fā)達(dá)國(guó)家之一[1]。
越來(lái)越多的國(guó)家和國(guó)際組織更加重視數(shù)字圖書檔案館之間的合作。越來(lái)越多的用戶將數(shù)據(jù)發(fā)布到網(wǎng)絡(luò)上,形成了全球性的數(shù)據(jù)網(wǎng)絡(luò)(Web of Data)。與文檔網(wǎng)絡(luò)相比,結(jié)構(gòu)化的數(shù)據(jù)網(wǎng)絡(luò)形成了更加復(fù)雜的關(guān)系網(wǎng),更容易檢索Web數(shù)據(jù),人和機(jī)器也更容易理解這些數(shù)據(jù)。2017年2月[2],W3C項(xiàng)目發(fā)布了新的關(guān)聯(lián)開(kāi)放數(shù)據(jù)云圖(Linked Open Data Cloud, LOD Cloud),見(jiàn)圖1,建立了新的視覺(jué)模型,開(kāi)放關(guān)聯(lián)數(shù)據(jù)集的數(shù)量增長(zhǎng)了數(shù)十倍達(dá)到了幾百個(gè),內(nèi)容包含了出版物、跨領(lǐng)域、媒體、語(yǔ)言學(xué)、地理、用戶生成內(nèi)容、政府、環(huán)境、生命科學(xué)和社交網(wǎng)絡(luò)等多個(gè)領(lǐng)域。LOD將多個(gè)領(lǐng)域關(guān)聯(lián)開(kāi)放數(shù)據(jù)資源集成為一個(gè)可視化的互聯(lián)網(wǎng)絡(luò)。從情報(bào)學(xué)的角度分析,這是在引證、合著等知識(shí)網(wǎng)絡(luò)后的新的網(wǎng)絡(luò)型態(tài)[3]。
近年來(lái),數(shù)字圖書檔案館進(jìn)一步促進(jìn)信息資源共享,而數(shù)字圖書檔案館面臨的問(wèn)題是如何提供對(duì)大量數(shù)據(jù)訪問(wèn)的服務(wù),這些數(shù)據(jù)是隱藏的、不可訪問(wèn)的,并且存儲(chǔ)在數(shù)據(jù)豎井中。隨著Web對(duì)異構(gòu)數(shù)據(jù)訪問(wèn)技術(shù)的發(fā)展,LOD可以實(shí)現(xiàn)對(duì)元數(shù)據(jù)的發(fā)布,這將使圖書檔案館的館藏資源能夠以可持續(xù)的方式被搜索、鏈接和訪問(wèn)[4]。另一方面,LOD是運(yùn)用語(yǔ)義技術(shù)發(fā)布和共享信息的最佳方法,并且可以訪問(wèn)大量的異構(gòu)數(shù)據(jù),這可以激發(fā)更多應(yīng)用程序的開(kāi)發(fā)。LOD可以幫助數(shù)字圖書檔案館擺脫數(shù)據(jù)豎井,將其數(shù)據(jù)發(fā)布成為結(jié)構(gòu)化數(shù)據(jù);并為圖書檔案館帶來(lái)很多應(yīng)用價(jià)值[2]。
2 德國(guó)數(shù)字圖書檔案館的成功案例
德國(guó)數(shù)字圖書檔案館的成功案例描述了數(shù)字圖書檔案館在信息供應(yīng)方面的不同需求,并總結(jié)了相關(guān)數(shù)據(jù)技術(shù)是如何滿足這些需求的。此外,明確了LOD技術(shù)在數(shù)字圖書檔案館應(yīng)用中的主要優(yōu)勢(shì)。
2.1 關(guān)聯(lián)數(shù)據(jù)價(jià)值鏈的成功應(yīng)用
德國(guó)數(shù)字圖書檔案館的研究項(xiàng)目將公開(kāi)可用數(shù)據(jù)轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù)。絕大多數(shù)的數(shù)據(jù)都是由研究機(jī)構(gòu)產(chǎn)生的。將關(guān)聯(lián)數(shù)據(jù)價(jià)值鏈(見(jiàn)圖2)引入到商業(yè)工程師的模型中,可以使成功商業(yè)案例概念化,確定角色的分配、組合和參與,但所選擇的數(shù)據(jù)及其轉(zhuǎn)換過(guò)程可能存在固有的風(fēng)險(xiǎn),例如:使用權(quán)限、隱私策略、數(shù)據(jù)可用性和角色激勵(lì)、數(shù)據(jù)質(zhì)量和可信度、數(shù)據(jù)來(lái)源、透明數(shù)據(jù)轉(zhuǎn)換和互連等。
德國(guó)萊布尼茨經(jīng)濟(jì)信息中心(Leibniz Information Centre for Economics,ZBW)將關(guān)聯(lián)數(shù)據(jù)價(jià)值鏈應(yīng)用到BBC3的現(xiàn)有業(yè)務(wù)案例中,并在此過(guò)程中對(duì)潛在的風(fēng)險(xiǎn)進(jìn)行了測(cè)試。總的來(lái)說(shuō),關(guān)聯(lián)數(shù)據(jù)價(jià)值鏈有助于識(shí)別和分類潛在的風(fēng)險(xiǎn),這些風(fēng)險(xiǎn)可由相應(yīng)的工程師來(lái)處理,而且還建立了能清晰了解完整關(guān)聯(lián)數(shù)據(jù)生成周期的方法。這個(gè)模型易于在其他學(xué)科中應(yīng)用,如數(shù)字圖書檔案館、生命科學(xué)和媒體等,有助于關(guān)聯(lián)數(shù)據(jù)的發(fā)布,并可指出可能出現(xiàn)的潛在問(wèn)題,這些問(wèn)題可能出現(xiàn)在數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)間鏈接過(guò)程中[5]。
2.2 LOD技術(shù)在數(shù)字期刊中檢索作者信息的應(yīng)用
LOD技術(shù)在數(shù)字期刊中的應(yīng)用價(jià)值之一是可以通過(guò)關(guān)聯(lián)數(shù)據(jù)來(lái)實(shí)現(xiàn)現(xiàn)實(shí)世界作者與數(shù)字期刊中作者的聯(lián)系。在ZBW數(shù)字環(huán)境分析系統(tǒng)中,在處理與人有關(guān)的信息時(shí)面臨的問(wèn)題是作者姓名識(shí)別和消除歧義。分析系統(tǒng)在個(gè)人資料中找到相關(guān)的個(gè)人信息,如專業(yè)知識(shí),對(duì)社交媒體的影響以及出版物的數(shù)量等?;贚OD的分析系統(tǒng)可以在組織和機(jī)構(gòu)的人員分配等方面發(fā)揮至關(guān)重要的作用。因此,找到有關(guān)作者的正確信息對(duì)于提高數(shù)字期刊的整體可見(jiàn)性和效率至關(guān)重要[6]。
在LOD的基礎(chǔ)上,德國(guó)科學(xué)家開(kāi)發(fā)了CAF-SIAL平臺(tái),見(jiàn)圖3,可以搜索并提供來(lái)自關(guān)聯(lián)數(shù)據(jù)人員信息(http://cafsial.lod-mania.com)。CAF-SIAL平臺(tái)運(yùn)用一組啟發(fā)式技術(shù),將一個(gè)人的相關(guān)信息從DBpedia中識(shí)別出來(lái),通過(guò)對(duì)“URI”技術(shù)應(yīng)用一個(gè)“關(guān)鍵字”來(lái)提取。這個(gè)提取的信息被進(jìn)一步過(guò)濾,并集成到一個(gè)概念聚合框架下,這個(gè)框架隨后被呈現(xiàn)為一個(gè)概要文件[7]。
在圖書檔案館環(huán)境中,DBpedia和DBLP體現(xiàn)了應(yīng)用程序的實(shí)用性,進(jìn)一步擴(kuò)展了數(shù)字期刊作者與LOD的相關(guān)語(yǔ)義資源之間的聯(lián)系。通過(guò)該應(yīng)用程序能夠識(shí)別、消除歧義,檢索和構(gòu)造有關(guān)來(lái)自這些數(shù)據(jù)集的作者的相關(guān)信息。該系統(tǒng)構(gòu)建了一個(gè)全面的作者資料庫(kù),可以提供作者信息(個(gè)人和專業(yè)信息),并列出他的學(xué)術(shù)成果(http://dblp.l3s.de/d2r/)。
這類系統(tǒng)可以應(yīng)用在更廣泛的學(xué)術(shù)交流領(lǐng)域中。搜索的主體可以擴(kuò)展到集成的權(quán)限文件,如德國(guó)國(guó)家圖書檔案館的綜合授權(quán)文件(GND)(http://www.dnb.de/EN/gnd)和虛擬國(guó)際權(quán)威文件(VIAF)(https://viaf.org/),以獲得更多完整的結(jié)果。權(quán)限文件所包含的關(guān)鍵詞和描述符在編目過(guò)程中被分配給一個(gè)出版物,這樣可以進(jìn)一步簡(jiǎn)化搜索和檢索過(guò)程。
2.3 LOD技術(shù)在關(guān)聯(lián)數(shù)據(jù)發(fā)布的應(yīng)用
在過(guò)去的幾年里,LOD對(duì)的數(shù)據(jù)的開(kāi)放起到了重大作用,并已成為最重要的類庫(kù)應(yīng)用程序之一。這些存儲(chǔ)庫(kù)是用于收集、發(fā)布、傳播和存檔數(shù)字科學(xué)內(nèi)容的系統(tǒng)。在數(shù)字圖書檔案館的應(yīng)用方面,EconStor可以使存儲(chǔ)庫(kù)中的科學(xué)論文的元數(shù)據(jù)以機(jī)器可讀的方式提供給讀者(http://econstor.eu)。EconStor是德國(guó)國(guó)家經(jīng)濟(jì)圖書檔案館的開(kāi)放訪問(wèn)服務(wù)器,為出版經(jīng)濟(jì)學(xué)研究論文提供了平臺(tái)。EconStor目前提供近100個(gè)機(jī)構(gòu)的科學(xué)論文以及超過(guò)8萬(wàn)份完整的文本文件的全文訪問(wèn)[8]。
D2RQ框架可以將關(guān)系數(shù)據(jù)集轉(zhuǎn)換為可理解的語(yǔ)句,并將EconStor存儲(chǔ)庫(kù)數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)(http://d2rq.org/)(見(jiàn)圖4),步驟如下:第一步,將開(kāi)放存儲(chǔ)庫(kù)作為關(guān)系數(shù)據(jù)庫(kù);第二步,通過(guò)使用詞匯表,將出版物和作者映射到D2R服務(wù)器轉(zhuǎn)換為映射文件;最后,存儲(chǔ)庫(kù)數(shù)據(jù)通過(guò)使用D2R服務(wù)器進(jìn)行轉(zhuǎn)換,并將其作為關(guān)聯(lián)數(shù)據(jù)和SPARQL端點(diǎn)進(jìn)行查詢(http://linkeddata.econstor.eu/beta/snorql/.)。存儲(chǔ)庫(kù)的內(nèi)容可以直接作為關(guān)聯(lián)開(kāi)放數(shù)據(jù)發(fā)布,并且能夠關(guān)聯(lián)到有價(jià)值的外部數(shù)據(jù)集,從而使存儲(chǔ)庫(kù)中的數(shù)據(jù)能夠上下文關(guān)聯(lián)并有意義。通過(guò)將EconStor作為關(guān)聯(lián)數(shù)據(jù)庫(kù)發(fā)布實(shí)現(xiàn)了以下預(yù)期目標(biāo):通過(guò)將科學(xué)論文發(fā)表在語(yǔ)義網(wǎng)上,從而使當(dāng)前研究成果能夠出版和傳播;成功地使典型的存儲(chǔ)庫(kù)系統(tǒng)(如DSpace)轉(zhuǎn)變成語(yǔ)義Web開(kāi)放內(nèi)容,并將其集成到關(guān)聯(lián)數(shù)據(jù)流中;通過(guò)SPARQL查詢模式,使查詢分布式的研究信息成為可能,如可以查詢2012年之后由歐洲研究機(jī)構(gòu)出版的所有關(guān)于金融危機(jī)的文章。
將EconStor作為關(guān)聯(lián)數(shù)據(jù)發(fā)布,對(duì)mashup應(yīng)用程序(這些應(yīng)用程序可以從不同的相關(guān)關(guān)聯(lián)數(shù)據(jù)存儲(chǔ)中對(duì)數(shù)據(jù)進(jìn)行管理)的開(kāi)發(fā)帶來(lái)了潛在的影響。從軟件工程的角度來(lái)看,該研究提供了將存儲(chǔ)庫(kù)的內(nèi)容發(fā)布為關(guān)聯(lián)開(kāi)放數(shù)據(jù)的方法。因此,圖書檔案館員、倉(cāng)庫(kù)管理員和軟件開(kāi)發(fā)人員對(duì)此都產(chǎn)生了極大的興趣。
3 圖書檔案館科學(xué)中LOD的研究
3.1 實(shí)體解析
“實(shí)體解析”指的是識(shí)別兩種關(guān)聯(lián)開(kāi)放數(shù)據(jù)中的資源是否指向同一個(gè)真實(shí)世界中的實(shí)體。這是一項(xiàng)具有挑戰(zhàn)性的任務(wù),因?yàn)橘Y源沒(méi)有自己的身份,其意義僅通過(guò)語(yǔ)義描述和連接資源的屬性來(lái)定義,解決這個(gè)問(wèn)題的一種方法是通過(guò)手動(dòng)調(diào)整。德國(guó)國(guó)家圖書檔案館的綜合管理局文件包含與DBpedia等相關(guān)的作者信息[9]。然而,手動(dòng)調(diào)整非常耗費(fèi)人力,并且不可能實(shí)現(xiàn)大型數(shù)據(jù)集的合并。如DBpedia數(shù)據(jù)庫(kù)中包含364 000個(gè)數(shù)據(jù),德國(guó)國(guó)家圖書管理局?jǐn)?shù)據(jù)庫(kù)中包含1 797 911個(gè)數(shù)據(jù),國(guó)會(huì)圖書館數(shù)據(jù)庫(kù)中包含3 800 000個(gè)數(shù)據(jù),虛擬國(guó)際權(quán)威檔案(VIAF)大約有1 000萬(wàn)個(gè)數(shù)據(jù)(VIAF組合了不同國(guó)家圖書檔案館的多個(gè)名稱權(quán)限文件),這些數(shù)據(jù)庫(kù)都非常龐大,因此,僅通過(guò)姓名、合作者、職稱和地點(diǎn)對(duì)其進(jìn)行實(shí)體解析通常是不夠的[10]。
3.2 模式匹配
模式匹配與實(shí)體解析所面臨的問(wèn)題相似。鏈接開(kāi)放數(shù)據(jù)的目標(biāo)是通過(guò)參考其他現(xiàn)有詞匯的概念來(lái)定義和發(fā)布自有詞匯。然而,不同詞匯的整合以及他們所描述的數(shù)據(jù)都是很重要的,即使是具有類似模式的數(shù)據(jù)庫(kù)也是如此。在運(yùn)用模式集成來(lái)改進(jìn)圖書檔案館服務(wù)的過(guò)程中對(duì)模式匹配質(zhì)量要求是非常高的[11]。因此,通過(guò)人工調(diào)整敘詞表的方法來(lái)對(duì)不同作品進(jìn)行模式匹配。如ZBW對(duì)經(jīng)濟(jì)學(xué)詞典STW(http://zbw.eu/stw/versions/latest/about)與其他詞典(如社會(huì)科學(xué)中的TheSoz,http://lod.gesis.org/pubby/page/thesoz/)在2004-2005年期間手動(dòng)創(chuàng)建了數(shù)千個(gè)映射。為了描述映射,關(guān)鍵字之間的關(guān)系通常用簡(jiǎn)單知識(shí)組織系統(tǒng)(SKOS)詞匯來(lái)描述(http://www.w3.org/2004/02/skos/)。由于敘詞表通常有幾千甚至一萬(wàn)個(gè)主題詞和相應(yīng)的同義詞,需要用自動(dòng)的方法進(jìn)行模式匹配,因此,2012年ZBW啟動(dòng)了比對(duì)評(píng)估計(jì)劃(OAEI)。OAEI旨在比較不同的模式匹配技術(shù),并就本體匹配方法的評(píng)估達(dá)成共識(shí)(http://oaei.ontologymatching.org/)。
3.3 分布式數(shù)據(jù)管理
LOD數(shù)據(jù)是是分布式數(shù)據(jù),其中VIAF是一個(gè)很好的例子,其中有十幾個(gè)國(guó)際組織合作構(gòu)建分布式圖書檔案館資源網(wǎng)絡(luò),不僅有出版商,還包括個(gè)人和組織。為了訪問(wèn)分布的數(shù)據(jù),需要應(yīng)用聯(lián)合查詢技術(shù),并且搜索出數(shù)據(jù)源信息及信息存儲(chǔ)形式。
在語(yǔ)義Web中,研究人員已經(jīng)開(kāi)發(fā)了各種不同的技術(shù),如用于關(guān)聯(lián)打開(kāi)分布式數(shù)據(jù)的查詢技術(shù)、用于對(duì)關(guān)聯(lián)開(kāi)放數(shù)據(jù)進(jìn)行流處理的技術(shù)以及用于搜索服務(wù)數(shù)據(jù)和數(shù)據(jù)源的技術(shù)。然而,到目前為止,還不清楚哪種方法最適合訪問(wèn)分布式數(shù)據(jù)[12]。
此外,在提供圖書檔案館搜索服務(wù)時(shí),還需要考慮搜索結(jié)果排名,以便滿足用戶的查找需求。像網(wǎng)絡(luò)搜索一樣,用戶也認(rèn)為搜索結(jié)果中第一個(gè)鏈接比其他鏈接更重要或更相關(guān)。為了應(yīng)對(duì)這一問(wèn)題,ZBW的DFG(German Research Foundation,德國(guó)研究基金會(huì))項(xiàng)目開(kāi)發(fā)的LibRank實(shí)現(xiàn)了這一目標(biāo)(http://www.librank.info/)。
3.4 自動(dòng)索引
與數(shù)據(jù)庫(kù)社區(qū)的索引概念相反,在圖書檔案館中,索引是指為科學(xué)出版物、檔案等文件分類標(biāo)出多個(gè)標(biāo)簽。索引的一種方法是手工標(biāo)記,德國(guó)科學(xué)家使用STW標(biāo)記了超過(guò)160萬(wàn)份經(jīng)濟(jì)學(xué)出版物。這些出版物每篇平均標(biāo)注了5個(gè)STW主題詞。另外,運(yùn)用發(fā)布服務(wù)器EconStor實(shí)現(xiàn)了STW和其他敘詞表的作者和關(guān)鍵詞的自動(dòng)發(fā)布。
此外,德國(guó)國(guó)家圖書檔案館每年出版的電子出版物數(shù)量顯著增加,需要采用自動(dòng)化的索引文獻(xiàn)方法。為此開(kāi)發(fā)了用于PDF分類的自動(dòng)化方法。如德國(guó)國(guó)家圖書檔案館的PETRUS項(xiàng)目使用支持向量機(jī)對(duì)100個(gè)類別(Sach-gruppen)進(jìn)行分類。DFG資助的項(xiàng)目GERHARD在20世紀(jì)90年代研究了自動(dòng)索引科學(xué)Web內(nèi)容的方法。
研究人員運(yùn)用十進(jìn)制分類法(UDC)將約100萬(wàn)個(gè)文檔自動(dòng)編入索引中。UDC索引使用3種語(yǔ)言(德語(yǔ)、英語(yǔ)、法語(yǔ))。使用Oracle關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)可以進(jìn)行全文索引(ConText)??茖W(xué)文獻(xiàn)的自動(dòng)化索引迄今為止仍然是非?;钴S的研究領(lǐng)域[10]。
在最近的ZBW項(xiàng)目中正在進(jìn)行應(yīng)用關(guān)聯(lián)開(kāi)放數(shù)據(jù)自動(dòng)索引科學(xué)文檔的工作。運(yùn)用kNN分類器、實(shí)體檢測(cè)和HITS算法來(lái)評(píng)估STW對(duì)特定文檔的匹配性。ZBW開(kāi)發(fā)應(yīng)用自動(dòng)分度實(shí)驗(yàn)的優(yōu)點(diǎn)是不需要昂貴的培訓(xùn)[13]。
雖然多數(shù)人認(rèn)為術(shù)語(yǔ)“自動(dòng)索引”過(guò)程中是沒(méi)有人的參與的,但上述技術(shù)需要人為干預(yù)才能準(zhǔn)確運(yùn)行。事實(shí)上,在運(yùn)行過(guò)程中需要圖書檔案專業(yè)人員運(yùn)用專業(yè)知識(shí)不斷監(jiān)測(cè)自動(dòng)索引主題詞的質(zhì)量,使其能正確反映主題。
3.5 索引非文本內(nèi)容
除了PDF格式的科學(xué)出版物和圖書檔案館索引的網(wǎng)站等文字內(nèi)容外,還有大量的非文字內(nèi)容,如社交媒體和視聽(tīng)材料。這些材料包括傳統(tǒng)科學(xué)內(nèi)容的映射、社會(huì)媒體資料,還有研究數(shù)據(jù),ZBW在歐盟項(xiàng)目EEXCESS中解決了這些非文本內(nèi)容的索引問(wèn)題(http://eexcess.eu/)。這個(gè)想法是將結(jié)構(gòu)化科學(xué)內(nèi)容(元數(shù)據(jù)、全文本、段落、引文和其他內(nèi)容)與社交媒體渠道中的非正式和臨時(shí)內(nèi)容進(jìn)行自動(dòng)結(jié)合,以便關(guān)聯(lián)主題、對(duì)象(文本和非文本資源)以及用戶。在實(shí)體解析、多種模式索引以及跨媒體檢索內(nèi)容方面也存在了一些問(wèn)題。
為了解決多模式檢索的問(wèn)題,ZBW開(kāi)發(fā)了一種新渠道,以便更好地理解包含在科學(xué)出版物中的圖表。該渠道通過(guò)不同方法(如數(shù)據(jù)挖掘和計(jì)算機(jī)視覺(jué)等技術(shù)的組合)從圖表中自動(dòng)提取多項(xiàng)文本信息。這允許對(duì)信息圖表進(jìn)行文本搜索,并將其與科學(xué)出版物的文本內(nèi)容相結(jié)合[14]。
3.6 數(shù)據(jù)出處
虛擬國(guó)際權(quán)威文件(Virtual International Authority File,VIAF)可以使書目記錄在跨組織、跨境、跨語(yǔ)言中檢索。通過(guò)匹配和鏈接開(kāi)放權(quán)限的文件可以降低成本并增加授權(quán)文件的實(shí)用性。然而,在跨境、跨語(yǔ)言的情況下,出現(xiàn)了新的問(wèn)題:如何跟蹤數(shù)據(jù)/元數(shù)據(jù)(重新)使用?圖書檔案館A使用圖書檔案館B的(部分)記錄時(shí)如何參考元數(shù)據(jù)?如何評(píng)估合并到系統(tǒng)中的數(shù)據(jù)/元數(shù)據(jù)的可信度?
為了解決跟蹤數(shù)據(jù)來(lái)源的問(wèn)題,圖書檔案科學(xué)界開(kāi)發(fā)了用于描述圖書檔案館資源的復(fù)雜模型。FRBR模型可以描述同一圖書檔案館資源的不同變體,如同一本書的不同印刷本,或不同的語(yǔ)言翻譯版本(http://www.ifla.org/publications/functional-requirements-for-bib liographic-records)。因此,它不僅適用于書籍,也適用于任何資源。另外,RDA模型可以描述任何種類的內(nèi)容,包括在線媒體。RDA還允許將信息來(lái)源附加到不同的數(shù)據(jù)上(http://www.rda-jsc.org/rda.html)。Europeana數(shù)據(jù)模型可以查詢創(chuàng)建元數(shù)據(jù)記錄的人員和資源本身的來(lái)源(http://www.europeana.eu/portal/)。
然而,仍然缺少一種能可靠驗(yàn)證元數(shù)據(jù)來(lái)源的方法。由A. Kasten等人開(kāi)發(fā)的數(shù)字簽名圖形數(shù)據(jù)的框架可以用來(lái)跟蹤元數(shù)據(jù)的來(lái)源。它用數(shù)字簽名來(lái)標(biāo)記圖形并將數(shù)據(jù)與網(wǎng)絡(luò)上的簽名一起發(fā)布,例如關(guān)聯(lián)打開(kāi)數(shù)據(jù)。這可以跟蹤元數(shù)據(jù)的來(lái)源,建立一個(gè)“信任網(wǎng)絡(luò)”[15]。
此外,像語(yǔ)義搜索引擎Sig.ma這樣的應(yīng)用程序能夠?yàn)長(zhǎng)OD的實(shí)體搜索提供支持,并根據(jù)來(lái)源提供過(guò)濾結(jié)果。不幸地是,該項(xiàng)目已經(jīng)終止[16]。
表1總結(jié)了LOD技術(shù)在德國(guó)數(shù)字圖書檔案館的具體應(yīng)用及其缺陷,揭示了在圖書檔案館研究領(lǐng)域LOD技術(shù)進(jìn)一步的研究方向。
4 德國(guó)成功經(jīng)驗(yàn)對(duì)我國(guó)的啟示
數(shù)字化信息的收集、儲(chǔ)存、應(yīng)用及長(zhǎng)久保存等諸多問(wèn)題與數(shù)字技術(shù)與網(wǎng)絡(luò)技術(shù)的發(fā)展密不可分。因此,德國(guó)圖書檔案館從 1998 年起參加了歐盟創(chuàng)建的 “歐洲網(wǎng)絡(luò)化繳存圖書館”等多個(gè)項(xiàng)目的工作,主要研究數(shù)字資源保存和應(yīng)用等技術(shù)問(wèn)題,構(gòu)建基礎(chǔ)的網(wǎng)絡(luò)平臺(tái),開(kāi)發(fā)多媒體傳輸技術(shù)等系統(tǒng),研究遷移和仿真信息再現(xiàn)技術(shù)等。至今,德國(guó)圖書檔案館基于LOD技術(shù)開(kāi)發(fā)出的很多技術(shù)都具有普適性和應(yīng)用性。其中一些技術(shù)甚至為世界數(shù)字圖書檔案館的發(fā)展做出了積極的貢獻(xiàn)。推行科學(xué)技術(shù)精神的德國(guó)品質(zhì)也在圖書檔案館的技術(shù)領(lǐng)域表現(xiàn)出來(lái),其LOD技術(shù)在圖書檔案館的應(yīng)用在國(guó)際上也具有極其重要的地位。
隨著LOD中數(shù)據(jù)集的快速增長(zhǎng), LOD技術(shù)在圖書檔案館信息服務(wù)中的應(yīng)用也越來(lái)越廣泛。LOD在我國(guó)的圖書檔案館應(yīng)用中還存在著一些不足,一些研究還局限于理論層面,沒(méi)有真正地成為我國(guó)圖書檔案館中可操作的應(yīng)用技術(shù),而這些技術(shù)可為將來(lái)的數(shù)字圖書檔案館應(yīng)用提供基本技術(shù)支持,且應(yīng)用廣泛。通過(guò)對(duì)基于LOD技術(shù)在德國(guó)圖書檔案館的應(yīng)用的比較(見(jiàn)表1),可為圖書檔案館中的很多實(shí)踐工作指明進(jìn)一步的研究方向。在我國(guó),將LOD技術(shù)引入圖書檔案館已經(jīng)迫在眉睫,通過(guò)學(xué)習(xí)德國(guó)的經(jīng)驗(yàn),基于已有的條件搭建基于 LOD 的關(guān)聯(lián)應(yīng)用平臺(tái),在實(shí)踐中應(yīng)用已有的方法和工具解決相關(guān)問(wèn)題。圖書檔案館利用這些新技術(shù)將會(huì)產(chǎn)生新的服務(wù)。
參考文獻(xiàn):
[1] 王永丹. 德國(guó)公共圖書館服務(wù)初探[J]. 圖書館理論與實(shí)踐, 2016(2): 8-11.
[2] BERNERS-LEE T. Linked-data design issues. W3C design issue document[EB/OL]. [2017-01-20]. http://www.w3.org/DesignIssue/LinkedData.html.
[3] 夏立新, 譚熒. LOD的網(wǎng)絡(luò)結(jié)構(gòu)分析與可視化[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2016(1): 65-72.
[4] HEATH T, BIZER C. Linked data: evolving the web into a global data space[M]//Synthesis Lectures on the Semantic Web: theory and technology. San Rafael: Morgan and Claypool, 2011: 1-136.
[5] LATIF A, SAEED A U, HO¨FLER P, et al. The linked data value chain: a lightweight model for business engineers[C]// 5th international conference on semantic systems. Graz: Graz Technical University Press, 2009: 568-575.
[6] LATIF A, AFZAL M T, HELIC D, et al. Discovery and construction of authors profile from linked data (a case study for open digital journal) [C]//CEUR workshop proceedings. Raleigh: LDOW, 2010: 628.
[7] LATIF A, AFZAL M T, HOFLER P, et al. Turning keywords into URIs: simplified user interfaces for exploring linked data[C]// Proceedings of the 2nd international conference on interaction sciences: information technology, culture and human. Seoul: Int. Conf. Interaction Sciences, 2009: 76–81.
[8] LATIF A, BORST T, TOCHTERMANN K. Exposing data from an open access repository for economics as linked data[J]. D-Lib magazine, 2014, 20(9): 9-10.
[9] HALPIN H, PRESUTTI V. An ontology of resources: solving the identity crisis[C]//European semantic Web conference. Heraklion: Lecture notes in computer science, 2009: 521–534.
[10] NEUBERT J, TOCHTERMANN K. Linked library data: offering a backbone for the semantic web[C]// Third knowledge technology week. Kajang: CCIS, 2011: 37–45.
[11] WICK M L, ROHANIMANESH K, SCHULTZ K, et al. A unified approach for schema matching, coreference and canonicalization[C]//Proceeding of the 14th ACM SIGKDD, international conference on knowledge discovery and data mining. New York: ACM, 2008: 722–730.
[12] KONRATH M, GOTTRON T, STAAB S, et al. Schemex—efficient construction of a data catalogue by stream-based indexing of linked data[J]. Journal of Web semantics: preprint server, 2012(16): 52-58.
[13] PETERS I, SCHERP A, TOCHTERMANN K. Science 2.0 and libraries: convergence of two sides of the same coin at ZBW Leibniz Information Centre for Economics[J]. IEEE STC social networking, 2015, 3(1): 149-157.
[14] BOSCHEN F, SCHERP A. Multi-oriented text extraction from information graphics[C]// Symposium on document engineering (DocEng). Lausanne: ACM, 2015.
[15] KASTEN A, SCHERP A, SCHAUB P. A framework for iterative signing of graph data on the web[C]// The semantic Web: trends and challenges proceedings. ESWC 2014. Lecture Notes in Computer Science. Anissaras: Springer, 2014: 146–160.
[16] TUMMARELLO G, CYGANIAK R, CATASTA M, et al. Sig.ma: live views on the Web of data[J]. Web Semantics, 2010, 8(4): 355–364.