宋琳琳,莊玉芳
隨著搜索引擎的出現(xiàn)和網(wǎng)絡(luò)資源的激增,人們獲取信息資源的途徑日益豐富,聯(lián)機(jī)計(jì)算機(jī)圖書館中心(Online Computer Library Center,OCLC)2005 年發(fā)布的《圖書館和信息資源認(rèn)知》(Perceptions of Libraries and Information Resources)[1]指出,搜索引擎已成為用戶獲取信息的首選途徑。與此同時,圖書館傳統(tǒng)館藏資源卻因?yàn)镸ARC格式書目數(shù)據(jù)的封閉性、靜態(tài)性等[2]特點(diǎn)而無法被圖書館OPAC以外的系統(tǒng)發(fā)現(xiàn)和獲取。為增強(qiáng)用戶對館藏書目數(shù)據(jù)的利用,圖書館及相關(guān)機(jī)構(gòu)開始面向更廣泛的網(wǎng)絡(luò)開展關(guān)聯(lián)數(shù)據(jù)研究和實(shí)踐。
OCLC 開發(fā)的關(guān)聯(lián)書目數(shù)據(jù)模型——The OCLC Schema Model(OCLC Model/OCLC 模型)是影響力較大的研究成果,它以主要搜索引擎支持的結(jié)構(gòu)化數(shù)據(jù)標(biāo)記(詞表)Schema.org 為基礎(chǔ),幫助圖書館實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián),增強(qiáng)圖書館資源在網(wǎng)絡(luò)中的識別度[3]。OCLC將Schema.org應(yīng)用于WorldCat,令其網(wǎng)絡(luò)訪問量在6個月內(nèi)(2014年5-10月)增長65%[4],其中發(fā)揮主要作用的是整合、族性關(guān)聯(lián)、網(wǎng)絡(luò)鏈接和實(shí)體標(biāo)識符;采用Schema.org的圖書館編目,可以與規(guī)范數(shù)據(jù)集鏈接,增加數(shù)據(jù)質(zhì)量;提供一種更具指向性、只需點(diǎn)擊鏈接就可以編目的方式,使編目工作從記錄管理走向?qū)嶓w管理;可與RDA 協(xié)調(diào)一致。具體應(yīng)用中,OCLC Research 已通過內(nèi)部研究資源“WorldCat 提升計(jì)劃”關(guān)聯(lián)利用LSCSH、VIAF、FAST 等規(guī)范數(shù)據(jù)集;通過“WORKS”項(xiàng)目整合了DDC、MeSH、LCTGM、GTT、GMGPC、GSAFD等詞表。OCLC以這兩個項(xiàng)目為中心,關(guān)聯(lián)OCLC 外部研究系統(tǒng),如“Kindred Works”“Fiction-Finder”“Identities”“Classify”,并提供產(chǎn)品服務(wù)“WorldCat Linked Data”“WorldCat Entities”。OCLC 所構(gòu)建的關(guān)聯(lián)數(shù)據(jù)資源和平臺為圖書館關(guān)聯(lián)數(shù)據(jù)化,尤其是采用OCLC模型的圖書館資源建設(shè)提供了強(qiáng)大支撐。因此,OCLC模型是一種不可忽視的關(guān)聯(lián)數(shù)據(jù)建設(shè)路徑。
美國國會圖書館(Library of Congress,LC)作為應(yīng)用最廣的編目格式MARC的創(chuàng)建者和維護(hù)者,為適應(yīng)以FRBR為基礎(chǔ)的新編目規(guī)則RDA,將圖書館資源推向更廣泛的關(guān)聯(lián)數(shù)據(jù)環(huán)境,2011 年發(fā)布將取代MARC21 以適應(yīng)更廣泛社區(qū)和用戶需求的書目框架轉(zhuǎn)變聲明[5],2012年底發(fā)布BIBFRAME1.0版本,希望將其作為下一代編目格式標(biāo)準(zhǔn)[6]。自BIBFRAME發(fā)布起,OCLC就致力于關(guān)聯(lián)書目數(shù)據(jù)模型與BIBFRAME間的關(guān)聯(lián)與互操作研究,希望增強(qiáng)二者的兼容性。
反觀我國圖書館界,自2008年開始的關(guān)聯(lián)數(shù)據(jù)研究主要圍繞兩個方面展開:一是語義網(wǎng)環(huán)境下書目數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)化,二是關(guān)聯(lián)數(shù)據(jù)的查詢與服務(wù)[7]。筆者對近5年上述兩個研究主題發(fā)表的論文進(jìn)行綜述后發(fā)現(xiàn),在書目數(shù)據(jù)關(guān)聯(lián)化方面,研究側(cè)重于關(guān)聯(lián)數(shù)據(jù)集的發(fā)布和關(guān)聯(lián)書目數(shù)據(jù)模型開發(fā)[8-10],但尚未開發(fā)出較為成熟的通用關(guān)聯(lián)書目數(shù)據(jù)模型;當(dāng)前較理想的通用模型是BIBFRAME,一些學(xué)者和圖書館機(jī)構(gòu)已經(jīng)開展CNMARC 和 BIBFRAME 之間的轉(zhuǎn)換 研究[11-12]。在關(guān)聯(lián)數(shù)據(jù)查詢與服務(wù)方面,研究集中于關(guān)聯(lián)書目數(shù)據(jù)可視化處理[13-14],但還沒有可行的利用搜索引擎促進(jìn)關(guān)聯(lián)書目數(shù)據(jù)被發(fā)現(xiàn)的研究或?qū)嵺`。因此,詳細(xì)介紹以發(fā)現(xiàn)為目的的OCLC模型,并對OCLC 模型與BIBFRAME 之間的兼容性進(jìn)行梳理,以期對今后研究具有一定的借鑒意義。
1997年OCLC加入W3C,展開“如何在互聯(lián)網(wǎng)上更好表示圖書館書目數(shù)據(jù)”的討論。2011年Bing、Google、Yahoo!共同提出Schema.org,作為主要搜索引擎支持的結(jié)構(gòu)化數(shù)據(jù)標(biāo)記通用詞表。一直關(guān)注搜索引擎發(fā)展的OCLC專家看到以Schema.org為基礎(chǔ)建立關(guān)聯(lián)書目數(shù)據(jù)模型的可能性,加之OCLC在關(guān)聯(lián)數(shù)據(jù)方面的研究已取得一定成果,如2011年OCLC發(fā)布FAST,為關(guān)聯(lián)數(shù)據(jù)環(huán)境提供受控的主題詞表,于是OCLC決定開展以Schema.org為基礎(chǔ)的關(guān)聯(lián)書目數(shù)據(jù)模型的研究和試驗(yàn),希望直接以網(wǎng)絡(luò)搜索引擎可理解的格式發(fā)布圖書館書目數(shù)據(jù),促使圖書館資源在更廣泛的網(wǎng)絡(luò)中被搜索引擎發(fā)現(xiàn)。
Schema.org 并不是為圖書館而設(shè)計(jì)的,Schema.org詞表對圖書館專業(yè)領(lǐng)域的描述程度較淺顯,且允許在更適合使用URI 的地方使用文本字符串。因此,起初許多圖書館專家對Schema.org 能否支持關(guān)聯(lián)書目數(shù)據(jù)的描述持懷疑態(tài)度。OCLC研究人員最初也認(rèn)為,該詞匯表似乎過于側(cè)重商業(yè)產(chǎn)品,僅與圖書館的書目描述需求部分重疊[15]76-77,具體表現(xiàn)為:首先,Schema.org沒有FRBR第一組實(shí)體(即作品、內(nèi)容表達(dá)、載體表現(xiàn)和單件)的概念表示。其次,在Schema.org中,內(nèi)容和載體之間也沒有明確的區(qū)別。此外,還存在一些問題,如創(chuàng)作作品之間的關(guān)系很少被定義、沒有收藏或系列的概念、沒有關(guān)于圖書館和提供或接收圖書資源的組織(如大學(xué)、出版商、數(shù)據(jù)服務(wù)提供商)的事務(wù)模型[16]。
不過,在完成對Schema.org 的初步測試后,OCLC的關(guān)聯(lián)數(shù)據(jù)專家和圖書館技術(shù)專家發(fā)現(xiàn),對圖書館館藏書目描述而言,Schema.org本體定義了一個合理、一致的概念模型,它包含的類和屬性,如創(chuàng)作作品、個人、作者、導(dǎo)演、地點(diǎn)、組織、出版者、版權(quán)日期、書籍、ISBN,適用于描述基本的圖書館館藏書目資源。此外,Schema.org本體中的概念可以以多種形式序列化,并與語義網(wǎng)所倡導(dǎo)的建模理念相兼容[16]。
2012年OCLC以WorldCat為試驗(yàn)基地,將WorldCat 上約 3 億條 MARC 書目記錄用 OCLC的Schema草案模型表達(dá),使用RDFa序列化并發(fā)布成關(guān)聯(lián)書目數(shù)據(jù)。該實(shí)驗(yàn)證明Schema.org幾乎可以覆蓋WorldCat 中所有類型的書目資源,但不足以滿足圖書館的全部細(xì)節(jié)描述需求。
2012年,Schema書目擴(kuò)展小組(W3C Schema Bib Extended Community Group)在OCLC的推動及W3C(萬聯(lián)網(wǎng)聯(lián)盟)支持下,集合圖書館員、出版商和集成圖書館系統(tǒng)供應(yīng)商等代表展開研究,贊同OCLC關(guān)于Schema.org的看法,認(rèn)可Schema.org 在圖書館傳統(tǒng)書目數(shù)據(jù)向關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)換過程中的重要性[15]79-80。該小組的目標(biāo)是研究Schema.org標(biāo)記,使其更適合于描述書目信息,提高以Schema.org 標(biāo)記的書目數(shù)據(jù)的共享性,研究成果主要為Schema.org擴(kuò)展詞表,同時就擴(kuò)展詞匯征詢W3C意見[17]。
2013年OCLC發(fā)布關(guān)聯(lián)書目數(shù)據(jù)模型——“OCLC模型”,為Schema.org中的術(shù)語賦予了對應(yīng)FRBR第一組實(shí)體4個概念的意義,因此比OCLC草案模型更符合FRBR第一組實(shí)體的層次結(jié)構(gòu)。也是從2013年起,OCLC展開在公開獲取的數(shù)據(jù)集(如FAST、VIAF)中進(jìn)行關(guān)聯(lián)數(shù)據(jù)的實(shí)驗(yàn),如將VIAF中的數(shù)據(jù)以Schema.org所定義的類(如個人、組織、創(chuàng)作作品、題名等)重新發(fā)布,并以“作品”和“內(nèi)容表達(dá)”聚類。2014年OCLC為WorldCat發(fā)布的關(guān)聯(lián)數(shù)據(jù)更新了URI,這些URI 來自最新發(fā)布的WorldCat 作品數(shù)據(jù)集,該數(shù)據(jù)集使用FRBR 驅(qū)動的聚合和數(shù)據(jù)挖掘算法,以相似內(nèi)容聚合規(guī)范文檔和WorldCat書目記錄。事實(shí)證明,Schema.org對個人、組織、創(chuàng)作作品、地點(diǎn)、主題等概念的定義足以作為VIAF和FAST中關(guān)聯(lián)數(shù)據(jù)的URI的現(xiàn)實(shí)參照。
OCLC關(guān)聯(lián)書目數(shù)據(jù)模型主要利用Schema.org 的“創(chuàng)作作品”(CreativeWork)本體。為使其適合關(guān)聯(lián)書目數(shù)據(jù)描述,OCLC通過試驗(yàn)收集反饋意見,不斷完善模型。
2012年6月,OCLC發(fā)布第一代關(guān)聯(lián)書目數(shù)據(jù)草案模型[15]79,試圖從圖書館角度解決Schema.org 在圖書館資源描述中存在的問題,最終以一個圖書館擴(kuò)展詞表“Library”來彌補(bǔ)這方面的不足?!癓ibrary”擴(kuò)展詞表使OCLC 草案模型得以區(qū)分作為內(nèi)容的對象和作為載體的對象,它增加了表示文獻(xiàn)類型的類(如“Archive Material”“Newspaper”“Periodical”),增加了對象屬性(如“has carrier”“place of publication”),以及數(shù)據(jù)屬性(如“holdings count”“oclcnum”)[15]80-83。不過,“Library”擴(kuò)展詞表雖然基于Schema.org開發(fā),但尚未形成一套完整的術(shù)語體系,它缺少一些必要的術(shù)語且匹配了一些不準(zhǔn)確的術(shù)語,在書目描述的表達(dá)能力上仍存在不足。
OCLC草案模型證明了Schema.org幾乎可以滿足圖書館書目資源描述的基本需求。OCLC也強(qiáng)調(diào)該模型的試驗(yàn)意義,并征求反饋意見。OCLC草案模型發(fā)布后不久成立的Schema書目擴(kuò)展小組,就Schema.org在圖書館資源描述中存在的問題,使用Schema.org中定義的術(shù)語人工編制一組語句,開始進(jìn)行建模。該小組發(fā)現(xiàn)Schema.org原有實(shí)體已成功覆蓋圖書館的許多資源描述,揭示了本體中存在的不足、不一致或術(shù)語不準(zhǔn)確。在W3C管理的郵件列表(如“public-schemabibex”)[18]上, 該小組討論Schema.org 修訂問題,向 Schema.org 提出提案且取得了較理想的成果[15]80-81。
2013年OCLC發(fā)布關(guān)聯(lián)書目數(shù)據(jù)模型——“OCLC 模型”。此前OCLC 草案模型主要通過“Library”擴(kuò)展詞表來提高Schema.org 描述圖書館資源的適用性。而OCLC 模型則采用了Schema書目擴(kuò)展小組提出的建議,即為已有的Schema.org概念賦予圖書館專業(yè)人員所理解的意義,只在完全必要時才提出擴(kuò)展。例如,在館藏事務(wù)的建模中,最初研究人員的想法是提出圖書館專用的類與屬性,后來發(fā)現(xiàn)可以通過對Schema.org原有術(shù)語的含義作出調(diào)整以滿足圖書館的使用,如Schema.org的“Offer”類,除具有出售的含義,還可以包含出借或共享的含義,這樣就可最大限度地使用Schema.org原有術(shù)語來滿足圖書館描述需求。此后,剩下的就是一些具體工作,如用新屬性來描述書架號、索取號等圖書館特定的事項(xiàng)。由于Schema.org本體的類和屬性鏈既有層次結(jié)構(gòu)又有靈活性,對類和屬性分配的要求較為寬松,因此,OCLC模型可以相對容易地對Schema.org進(jìn)行優(yōu)化。
2.2.1 集成GoodRelations本體
隨著Schema.org發(fā)展,詞匯表中逐漸加入第三方開發(fā)的本體,其中某些本體的關(guān)注點(diǎn)與圖書館利益一致,如電子商務(wù)本體GoodRelations。專業(yè)人員對其進(jìn)行評估后,發(fā)現(xiàn)該本體中的某些詞匯不僅適合描述圖書館館藏,而且相比于圖書館專業(yè)繁復(fù)的文本描述標(biāo)準(zhǔn),更容易被通用搜索引擎搜索和理解。因此,OCLC 模型增加了GoodRelations 本體,以提供一種方法來表示FRBR第一組層次結(jié)構(gòu)中的一些概念,使OCLC模型不必提出大量的新詞匯表就足以對許多圖書館資源和事務(wù)進(jìn)行豐富而細(xì)致的描述。
圖1 Schema.org中“Creative Work”本體和新增的“GoodRealtions”本體[16]
如圖 1 所示,“CreativeWork”“Product”層次結(jié)構(gòu)中的多個繼承有助于區(qū)分作為內(nèi)容的作品和作為對象的作品,是OCLC 作品模型的基礎(chǔ) 。 在 引 入 GoodRelations 后 ,“schema:CreativeWork”和“schema:Product”之間產(chǎn)生一些冗余,對象的多類型繼承也帶來一些本體認(rèn)識上的困難。比如,“bgn:toy”有兩個父類 “schema: CreativeWork” 和 “schema:Product”[19],于是“bgn:toy”可以從兩個角度解釋,作為“schema:CreativeWork”的子類,它可以被理解為一種類似于圖書或電影的體裁或資源類型,但作為“schema:Product”的子類時,“bgn:toy”卻可以理解為一個在真實(shí)世界中可以被買賣、借出和使用的物體[20],“schema:CreativeWork”和“schema:Product”之間的冗余需要進(jìn)一步精簡。
2.2.2 對應(yīng)FRBR第一組實(shí)體的層次結(jié)構(gòu)
OCLC模型的設(shè)計(jì)充分利用Schema.org對類型分配的靈活性,為“CreativeWork”本體中的實(shí)體賦予了圖書館領(lǐng)域的意義,并與Good Relations本體中的實(shí)體結(jié)合,以表示FRBR第一組實(shí)體的4 個概念?!皊chema:CreativeWork”類對應(yīng)FRBR第一組實(shí)體的“作品”或“內(nèi)容表達(dá)”,并通過最佳實(shí)踐的約定來選擇“schema:CreativeWork”分別與“作品”或“內(nèi)容表達(dá)”相關(guān)聯(lián)的屬性,當(dāng)屬性包括創(chuàng)作者、題名、主題或體裁時,“schema:CreativeWork”對應(yīng)的是FRBR作品(見圖2,#bundle2);當(dāng)屬性包括版權(quán)日期和類型時,“schema:CreativeWork”相當(dāng)于FRBR的“內(nèi)容表達(dá)”(見圖2,#bundle4)。不過,由于最佳實(shí)踐約定幾乎不足以確定如此重要的概念,OCLC和Schema書目擴(kuò)展小組成員研究替代方案。更現(xiàn)實(shí)的做法或許是承認(rèn)標(biāo)記為“schema:CreativeWork”的類對 FRBR“作品”和包含更多細(xì)節(jié)的“內(nèi)容表達(dá)”的描述始終是模糊的。在實(shí)際操作中,OCLC 作品模型只將不同語言的翻譯作品作為FRBR“內(nèi)容表達(dá)”層的描述對象,見圖3。
圖2 FRBR第一組實(shí)體層次在OCLC模型中的具體表現(xiàn)[16]
圖3 FRBR第一組實(shí)體與OCLC作品模型的類的對應(yīng)關(guān)系[21]
“schema:Creative Work”和“schema:ProductModel”對應(yīng)FRBR 的“載體表現(xiàn)”,“schema:CreativeWork”和“schema:Individual Product”對應(yīng)FRBR 的“單件”。如圖2 所示,# bundle5 中為描述對象分配“schema:Movie”和“schema:ProductModle”類,對應(yīng)于FRBR的“載體表現(xiàn)”;#bundle7中為 描 述 對 象 分 配“schema:Book”和“schema:IndividualProduct”類,對應(yīng)FRBR 的“單件”。在一些情況下,只需要為 描述對象分配“schema:Creative Work”和“schema:Product”其中一個本體下的類即可。比如,當(dāng)作品的物理表現(xiàn)未知或無關(guān)緊要時,則只需分配“schema:CreativeWork”表示“載體表現(xiàn)”或“單件”。
2.2.3 提高模型的層次結(jié)構(gòu)表現(xiàn)能力
盡管 Schema.org 的“Thing-Creative Work-Book”層次結(jié)構(gòu)定義了一個“類和屬性鏈”,但該鏈中的所有類和所有屬性都是可以自由選擇的,子類可以繼承一個或多個父類的屬性,甚至可以向上移動。因此,該層次結(jié)構(gòu)實(shí)際上形成了一個類型松散的描述標(biāo)識符集,可以自由構(gòu)建有關(guān)資源或詳或略的陳述。圖 4 是 Schema.org“CreativeWork”本體的部分層次結(jié)構(gòu),其子類如“schema:Book”除了擁有“schema:bookEdition”等自身屬性外,還可以繼承父類“schema:Creative-Work” 的 “schema: author” “schema:About”等屬性。
圖4 “創(chuàng)作作品(CreativeWork)”的層次結(jié)構(gòu)
OCLC 模型新增了一些必要的屬性,如“schemap:hasInstance”“schemap:isInstance Of”“schemap:CommonEndeavor”;“schemap:hasInstance”“schemap:isInstanceOf”用于定義同一個層次結(jié)構(gòu)中實(shí)體之間的關(guān)系,而“schemap:CommonEndeavor”則用于定義不同層次結(jié)構(gòu)中實(shí)體之間的關(guān)系(見圖2)。但后來并沒有將OCLC 模型最初提出的這3 個屬性納入“schema:命名空間”,現(xiàn)在使用“schema:exampleOfWork”和“schema:workExample”屬性來表示相似的意思(見圖3),即作品的例子、實(shí)例、實(shí)現(xiàn)或衍生[22]。
雖然Schema.org具有一定的潛力,可以支持詳細(xì)程度相當(dāng)于DC 元數(shù)據(jù)的描述,但Schema.org的設(shè)計(jì)者從未打算將其作為一個覆蓋所有領(lǐng)域的本體,而是將Schema.org作為一個起點(diǎn),或者說一個框架,然后在此基礎(chǔ)之上附加各領(lǐng)域更詳細(xì)的本體。因此,在OCLC 以Schema.org作為關(guān)聯(lián)書目數(shù)據(jù)模型基礎(chǔ)的研究中,術(shù)語詞表的研究起到重要的補(bǔ)充作用。
Schema.org是通用搜索引擎支持的網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)標(biāo)記通用詞表,在OCLC關(guān)聯(lián)書目數(shù)據(jù)模型中,它為圖書館書目描述提供了豐富的詞匯基礎(chǔ)。Schema.org詞表中最重要的類、子類和屬性由“Schema:”命名空間中定義的術(shù)語表示。OCLC關(guān)聯(lián)書目數(shù)據(jù)模型主要利用Schema.org 詞表的“schema:CreativeWrok”本體(見圖4),它是“Schema:Thing”包含的子類之一,包含F(xiàn)RBR作品和載體表現(xiàn)描述中經(jīng)常用到的屬性,如“schema:publisher”“schema:datePublished”“schema: typicalAgeRange”“schema:inLanguage”“schema:about”[15]77。在OCLC 關(guān)聯(lián)書目數(shù)據(jù)模型研究過程中,一些擴(kuò)展術(shù)語陸續(xù)加入到Schema.org 正式詞表 。 比 如 , Schema.org 采 納 了 Schema 書目擴(kuò)展小對期刊引文結(jié)構(gòu)部分提出的改進(jìn)建議,為“schema:PublicationIssue”類添加屬性“schema:issueNumber”,為“schema:Publication Volume”類添加屬性“schema:volumeNumber”[15]81。此外,為擴(kuò)展 OCLC 模型的資源描述類型,同時盡量使用Schema.org中原有實(shí)體,一些“Creative Work”本體以外的 Schema.org 術(shù) 語 也 進(jìn) 入 OCLC 模 型 的Schema.org詞表,如“schema:VidelGame”。
3.2.1 “Library”擴(kuò)展詞表
“Library”是OCLC 草案模型中定義的關(guān)于格式和內(nèi)容類型的擴(kuò)展詞表,目的是填補(bǔ)Schema.org 在書目描述方面的空白。作為一種小型本體草案,它在描述中添加了如“OCLCnumber”和“Holding”這樣的術(shù)語,是OCLC草案模型中非常重要的一部分。不過,正如OCLC在發(fā)布初始草案時所說,第一代OCLC關(guān)聯(lián)書目數(shù)據(jù)模型更多是試驗(yàn)性的,意在接受反饋,OCLC不打算將該詞表作為永久性的詞表。在進(jìn)一步研究中,Schema 書目擴(kuò)展小組提出“盡量為Schema.org原有實(shí)體賦予圖書館領(lǐng)域的意義,以表示關(guān)聯(lián)書目數(shù)據(jù)描述所需的類和屬性”的建議。而且,該關(guān)聯(lián)書目數(shù)據(jù)擴(kuò)展詞表導(dǎo)致了OCLC 草案模型和BIBFRAME 之間的冗余。因此,在2013 年發(fā)布的OCLC Model(模型)中,Library擴(kuò)展詞表被OCLC廢棄。
3.2.2 BiblioGraph.net擴(kuò)展詞表
在缺乏統(tǒng)一標(biāo)準(zhǔn)的情況下,OCLC 模型的擴(kuò)展詞表在提交公眾審查之前需要一個試驗(yàn)場,為此,OCLC 于2014 年建立了試驗(yàn)性的BiblioGraph.net 擴(kuò)展詞表(簡稱“BiblioGraph.net詞表”)。它具有與Schema.org詞表相同的形式外觀,因?yàn)樗鼈冊醋韵嗤拈_源軟件平臺,且都是基于通用代碼庫構(gòu)建的[20]。為了使這兩個詞表的更新保持同步,構(gòu)建BiblioGraph.net的過程中會使用Schema.org 的最新副本,將其與BiblioGraph.net合并,這項(xiàng)工作幫助研究者把對Schema.org提出的擴(kuò)展性詞匯建議實(shí)現(xiàn)可視化。
BiblioGraph.net 擴(kuò)展詞表比 Library 擴(kuò)展詞表更復(fù)雜,具有更高層次,詞表中的概念、實(shí)體、關(guān)系由“bgn:”命名空間中定義的術(shù)語表示。BiblioGraph.net 詞表中的大部分術(shù)語定義了“schema:CreativeWork”的新子類或?qū)傩?,如“bgn:Newspaper”“bgn:Thesis”。BiblioGraph.net詞表可以使得類和屬性優(yōu)先選擇“schema:”“bgn:”兩個命名空間,從而將OCLC 模型的命名空間數(shù)量最少化[23]。比如,2014年9月的VIAF更新中將原有的一些類和屬性由“dbpedia:”“foaf:”等命名空間轉(zhuǎn)換而來,包括將“dbpedia:Place”“foaf:Name”轉(zhuǎn)變?yōu)椤皊chema:Place”“schema:name”,也增加了“schema:”“bgn:”命名空間內(nèi)的新類和屬性,如“bgn:Agent”“schema:inLanguage”[24]。
BiblioGraph.net擴(kuò)展詞表有兩個長期目標(biāo)。第一個目標(biāo)是試驗(yàn)簡單的常識性術(shù)語,如“Translation(翻譯)”。這些術(shù)語的含義很容易理解,大多由各興趣社區(qū)提供,如選擇大眾在使用通用搜索引擎時使用頻次較多的關(guān)鍵詞作為描述圖書館資源的術(shù)語。第二個目標(biāo)是試驗(yàn)滿足圖書館領(lǐng)域需求的專業(yè)且繁復(fù)的術(shù)語,如“Agent(代理)”(在不確定創(chuàng)作者、出版者等是個人還是組織結(jié)構(gòu)時使用,見圖5)。這些術(shù)語大多來自BIBFRAME,通過對比其在BIBFRAME 和BiblioGraph.net中的定義和用法是否相似,決定其是否可以與Schema 結(jié)合使用等。但是,BiblioGraph.net 不會包括太多在 BIBFRAME 中定義的術(shù)語,專家要經(jīng)過謹(jǐn)慎的分析來選擇可以滿足更廣泛需求的BIBFRAME術(shù)語。
圖5 BiblioGraph.net的bgn:Agent擴(kuò)展
BiblioGraph.net擴(kuò)展詞表由OCLC維護(hù),詞表中除Schema.org正式詞匯外,其余均為候選詞,經(jīng)過編輯和顧問的分析和評估決定其去留[20],并由Schema書目擴(kuò)展小組向Schema.org提出提案,經(jīng)采納后方可正式納入Schema.org詞表。比如,“translation”已經(jīng)成為Schema.org 詞匯表中正式的術(shù)語,表示為“schema:translation”。當(dāng)與書目擴(kuò)展詞表中相同概念的詞,通過其它途徑進(jìn)入了schema.org 正式詞表,BiblioGraph.net 會刪除重復(fù)術(shù)語以消除冗余或沖突。比如,“schema:VideoGame”進(jìn)入Schema.org正式詞表后,BiblioGraph.net便將“bgn:VideoGame”刪除。自2015 年2月 16 日發(fā)布 bgn1.1 版本后 BibliGraph.net 沒有再發(fā)布更新的版本[25]。
3.2.3 bib.schema.org詞表
bib.schema.org的建立意味著BiblioGraph.net 擴(kuò)展詞表的成果得到 Schema.org 的官方認(rèn)可,擴(kuò)展詞表中的類型和屬性術(shù)語進(jìn)入Schema.org 命名空間,成為Schema.org 在書目領(lǐng)域的擴(kuò)展子域,bib.schema.org于2015年5月24日發(fā)布1.0版本。Bibliograph.net擴(kuò)展詞表包括已經(jīng)納入OCLC作品模型的Schema.org正式術(shù)語和正在接受審查的候選術(shù)語,該擴(kuò)展詞表由編輯者在實(shí)踐社區(qū)(如Schema書目擴(kuò)展小組)支持下維護(hù)。在bib.schema.org中,Schema.org的管理員會對書目擴(kuò)展詞表的通用模型進(jìn)行形式化;建立 bib.schema.org 后,BiblioGraph.net 詞表即上傳到 Schema.org 的 Github 存儲庫,可從http://bib.schema.org 查看。該界面會將擴(kuò)展詞表與最新版本的Schema.org 整合,就像Bibliograph.net 所做的一樣,因此BiblioGraph.net自2015年后不再更新。在擴(kuò)展模型完全實(shí)施后,Schema.org僅維護(hù)其詞表,而不維護(hù)提供其詞表的網(wǎng)站。
2012年,OCLC和LC先后發(fā)布OCLC草案模型和BIBFRAME1.0。在此之后,二者都意識到兩個獨(dú)立模型的覆蓋范圍可能存在重合之處,甚至可能存在競爭。LC為使用范圍最廣的書目描述格式MARC的創(chuàng)建者和維護(hù)者,OCLC為世界最大的文獻(xiàn)信息中心,二者都不可能忽視對方的重復(fù)勞動而造成的資源浪費(fèi),或由于沖突加劇而給將來的普及使用帶來麻煩。為此,OCLC幾乎從BIBFRAME1.0發(fā)布后即開始就OCLC草案模型和BIBFRAME1.0進(jìn)行兼容性研究。
2012 年 6 月 OCLC 將 WorldCat 上 近 3 億條記錄發(fā)布成Schema標(biāo)記,12月將WorldCat上的記錄轉(zhuǎn)換為BIBFRAME1.0 格式,轉(zhuǎn)換所使用的腳本只是在早前將WorldCat 記錄轉(zhuǎn)換為Schema.org 標(biāo)記所用的腳本基礎(chǔ)上進(jìn)行了修改[26]。試驗(yàn)后,OCLC對轉(zhuǎn)換的BIBFRAME記錄進(jìn)行分析,并于2013 年6 月發(fā)布《關(guān)于BIBFRAME 和OCLC 關(guān)聯(lián)書目數(shù)據(jù)模型之間關(guān)系的研究工作報(bào)告》(The Relationship between BIBFRAME and OCLC’s Linked-Data Model of Bibliographic Description:A Working Paper)[16],報(bào)告展示了OCLC在BIBFRAME早期實(shí)驗(yàn)小組中的工作,以及OCLC草案模型與 BIBFRAME1.0 的關(guān)系分析。2014 年8 月,OCLC 和LC 正式開始兼容性研究合作,并于2015 年發(fā)布合作研究報(bào)告《Common Ground:探索LC和OCLC的關(guān)聯(lián)數(shù)據(jù)模型之間的兼容性》(Common Ground:ExploringCompatibilities Between the Linked Data Models of the Library of Congress and OCLC)[6]。
兩個模型兼容性研究的目標(biāo)可以概括為兩點(diǎn):(1)兩個模型中相同概念的URI 指向同一對象;(2)兩個模型中的描述可以相互轉(zhuǎn)換而不丟失信息。這樣,兩個模型既可以達(dá)成各自的目標(biāo),又能使二者的書目描述在統(tǒng)一的標(biāo)準(zhǔn)下相互轉(zhuǎn)換,減少不必要的工作浪費(fèi),滿足圖書館和信息用戶雙方的需求。
4.1.1 積極因素
在OCLC草案模型和BIBFRAME1.0兼容性研究中,研究人員發(fā)現(xiàn)兩個模型之間存在兼容基礎(chǔ)。首先,二者在許多高層概念上是相似的,如作品、實(shí)例、組織和個人,反映了兩種出于不同動機(jī)和使用目的而設(shè)計(jì)的模型之間的共同點(diǎn)。其次,在兩個模型的詞表中很多術(shù)語擁有相同意思,如“Person”“Organization”“Place”“Author”[27]。
4.1.2 阻礙因素
盡管OCLC草案模型和BIBFRAME1.0有著兼容的基礎(chǔ),但二者之間仍然存在很多阻礙兼容的問題。
(1)二者在書目描述的深度和廣度上存在較大的差異。在2013年1月LC舉辦的BIBFRAME會議上,OCLC展示了Schema擴(kuò)展詞表和BIBFRAME1.0之間的關(guān)系:OCLC草案模型覆蓋范圍更廣但對書目描述不夠深入,因?yàn)镾chema.org中的創(chuàng)作作品本體也用于描述信息領(lǐng)域的其它資源。作為圖書館書目描述的下一代標(biāo)準(zhǔn),BIBFRAME1.0 的情況則相反(見圖 6)。因此,兩個模型所定義的不同術(shù)語甚至是相同術(shù)語之間會存在具體與抽象、專業(yè)與廣泛的差異。比如,BIBFRAME1.0的作品與實(shí)例之間用專指的“bf:isInstanceOf”和“bf:instanceOf”屬性連接,而OCLC草案模型中的作品和實(shí)例則用可以連接多個類的泛指的“schema:isExampleOf”和“schame:exampleOf”屬性連接。
圖6 BIBFRAME和Schema作品模型之間的關(guān)系[16]
(2)BIBFRAME1.0 的設(shè)計(jì)以 FRBR 為基礎(chǔ),雖然并沒有完全對應(yīng)FRBR第一組實(shí)體的4個概念,但也具備基本的層次結(jié)構(gòu),而OCLC 草案模型則不具備這種結(jié)構(gòu)。這增大了兩個模型兼容的難度。
(3)OCLC 草案模型的“Library”詞匯表與BIBFRAME1.0作品和實(shí)例類在很大程度上是重復(fù)的。圖6中OCLC草案模型與BIBFRAME1.0中存在交叉重合部分,正是由OCLC草案模型的擴(kuò)展詞表“Library”造成的。
與OCLC草案模型相比,OCLC模型改動較大,與BIBFRAME1.0的兼容性隨之變化。
4.2.1 改進(jìn)
(1)OCLC模型與BIBFRAME1.0之間的關(guān)系變?yōu)榛パa(bǔ)。在OCLC 模型中,新加入的GoodRelations本體可以表示FRBR第一組層次結(jié)構(gòu)中的一些概念,OCLC 草案模型中的“Library”擴(kuò)展詞匯表被廢棄。對BIBFRAME而言,這意味著OCLC 作出了讓步,不再設(shè)置與BIBFRAME存在競爭性的擴(kuò)展詞表來描述內(nèi)容、載體、館藏和其它圖書館特有的資源。因此,圖6 所顯示的交叉重合關(guān)系將不復(fù)存在,BIBFRAME1.0和OCLC作品模型之間的關(guān)系變?yōu)榛パa(bǔ)[6],在語法上更兼容,語義上更互補(bǔ)[16]。
(2)OCLC 模型的實(shí)體與 BIBFRAME1.0 的核心實(shí)體間出現(xiàn)了對應(yīng)的映射關(guān)系。OCLC作品模型的“Creative Work”類可以映射到BIBFRAME1.0 的“Work”類;而“Creative Work,Product Model”類可以映射到BIBFRAME1.0的“Instance”類;“Creative Work,Individual Product”類可以映射到BIBFRAME1.0的“Instance”類(見圖7)。
圖7 BIBFRAME1.0與OCLC作品模型的映射關(guān)系[28]
(3)OCLC 模型更加符合BIBFRAME 的層次關(guān)系。由于FRBR層次結(jié)構(gòu)的應(yīng)用需要在抽象程度不同的實(shí)體之間建立關(guān)聯(lián),于是OCLC 模型為原有屬性賦予新的意義或增加新的屬性,以描述不同層次實(shí)體之間的關(guān)系[16]。例如,為“schema:CreativeWork”類增加屬性“schema:workExample”和“schema:exampleOfWork”,用以表示作品的實(shí)例,與BIBFRAME的屬性“bf:hasInstance”和“bf:isInstanceOf”含義相似。
4.2.2 新問題
基于Schema.org的OCLC模型和BIBFRAME之間的關(guān)系相比之前更加清晰,但是新的兼容性又面臨了一些重要的問題。
(1)兩個模型的開發(fā)研究和實(shí)踐運(yùn)作之間的關(guān)系需要協(xié)調(diào)一致。OCLC擴(kuò)展詞表和BIBFRAME詞表之間的關(guān)系由重合變?yōu)榛パa(bǔ),那么這兩個模型詞表的設(shè)計(jì)開發(fā)者在之后的工作中也需要各自扮演互補(bǔ)的角色,否則會出現(xiàn)重復(fù)性工作而再次導(dǎo)致資源的浪費(fèi)。為了促進(jìn)兩個模型的合作研究和并行發(fā)展,或許需要定義一個從抽象到具體的互補(bǔ)任務(wù)集合,一開始由少量模型專家引導(dǎo),并逐漸擴(kuò)展為其它興趣社區(qū)的充分參與。
(2)BIBFRAME1.0 定義的一些重要的類與OCLC模型存在差異。BIBFRAME1.0為作品和實(shí)例都定義了RDF類,而OCLC模型只為作品定義。BIBFRAME1.0定義了“Authority”類,而OCLC模型中雖然也有“Authority”這一術(shù)語,但并沒有作為一個類。在OCLC 模型中術(shù)語“Authority”用法十分廣泛,可以是任何資源的非正式名稱,如有關(guān)人員、地點(diǎn)、組織、概念和其他經(jīng)過審查的實(shí)體信息;而在BIBFRAME 1.0 中,“bf:Authority”類主要用于對主題的描述。BIBFRAME1.0 還定義了“Annotation”類,描述評論、摘要、封面和館藏的結(jié)構(gòu)化數(shù)據(jù),而OCLC模型中雖然沒有與其對應(yīng)的術(shù)語,但卻提供替代的且更簡潔的表述。
雖然OCLC模型和BIBFRAME1.0在一些重要的類上定義不同,但在描述“人員、地點(diǎn)和組織”時,兩個模型都不以分配的字符串或概念形式來表示,而是以現(xiàn)實(shí)世界的指示對象來表示。因此,BIBFRAME1.0 一些重要的 RDF 類,如“work”“instance”“helditem”“authority”,其子類與OCLC模型中的對應(yīng)術(shù)語在本體上足夠相似,BIBFRAME1.0和OCLC模型之間有可以互用相應(yīng)的URI。
(3)在兩個模型中,仍有一些重要的概念需要在兼容性研究時協(xié)調(diào)一致。盡管FRBR 第一組實(shí)體對圖書館資源描述十分重要,但無論是OCLC 模型還是 BIBFRAME1.0 中都沒有 FRBR第一組實(shí)體概念的充分表示,并且還缺少其它一些重要的概念,如藏品、系列和館藏。雖然研究人員都在努力定義兩個模型中的這些概念并使其更具可操作性,但是仍沒有推動這兩個模型進(jìn)行合作的倡議。如果兩個模型對于這些未明確的概念采用了完全不同的定義,將會阻礙二者的兼容。
2016 年 4 月,LC 發(fā)布了 BIBFRAME2.0,希望將其作為圖書館資源描述的持久性標(biāo)準(zhǔn)。在BIBFRAME2.0中,BIBFRAME1.0的2個核心類(作品和實(shí)例)修改為3個核心類:作品、實(shí)例、單件。
修改后的BIBFRAME2.0 由于增加了單件類而更加符合FRBR 第一組實(shí)體的層次結(jié)構(gòu),于是OCLC模型的“Creative Work,Individual Product”類可以映射到 BIBFRAME2.0 的 Item類(見圖8),兩個模型的層次結(jié)構(gòu)更加兼容。
圖8 BIBFRAME2.0與OCLC作品模型的映射關(guān)系[28]
經(jīng)歷了OCLC草案模型到OCLC模型,以及BIBFRAME1.0到BIBFRAME2.0的轉(zhuǎn)變,OCLC模型和BIBFRAME之間的兼容性不斷增強(qiáng),但二者之間仍然存在較多差異(見表1)。
表1 OCLC模型和BIBFRAME的差異
一些差異是必要的,這是雙方發(fā)展目標(biāo)不同而導(dǎo)致的。OCLC模型和BIBFRMAE的兼容性研究必須立足于一個基礎(chǔ),即OCLC模型和BIBFRAME都需堅(jiān)持各自的目標(biāo),以實(shí)現(xiàn)不同的功能。
OCLC模型的目標(biāo)是增強(qiáng)書目資源在通用搜索引擎中的發(fā)現(xiàn),這就需要OCLC采取一些注重描述經(jīng)濟(jì)性的策略。例如,盡可能使用Schema.org 詞表,只在必要時提出修訂。也就是說,OCLC模型的描述永遠(yuǎn)不可能達(dá)到BIBFRAME的細(xì)致程度,BIBFRAME中一些專業(yè)繁復(fù)的術(shù)語在以發(fā)現(xiàn)為目的的OCLC模型中永遠(yuǎn)不可能出現(xiàn)。站在OCLC的立場,OCLC模型應(yīng)該盡量采用最易于讓大眾理解的術(shù)語來描述圖書館資源,一旦圖書館資源通過Schema.org標(biāo)記被發(fā)現(xiàn),就可以借助BIBFRAME的功能,在圖書館支持的豐富的關(guān)聯(lián)數(shù)據(jù)環(huán)境中利用書目所描述的資源。
BIBFRAME 的設(shè)計(jì)相對獨(dú)立,但在兼容性發(fā)展中,不可避免會在一定程度上受到Schema.org 的影響。站在圖書館專業(yè)的立場,合理的兼容發(fā)展是:BIBFRAME 模型的設(shè)計(jì)應(yīng)該最少程度地依賴于Schema.org,這樣當(dāng)Schema.org將來在根本上發(fā)生變化或不再使用時,圖書館社區(qū)不會受到較大的影響。畢竟信息時代網(wǎng)絡(luò)的發(fā)展速度超乎人們的意料,Schema.org 當(dāng)前在網(wǎng)絡(luò)標(biāo)記語言中的地位也可能只是暫時的。而BIBFRAME 的目標(biāo)卻是為圖書館乃至文化機(jī)構(gòu)的資源描述所長期使用。當(dāng)然,BIBFRAME模型的重要概念仍需要與主流搜索引擎支持的任何通用本體兼容,但是BIBFRAME中更加專業(yè)的概念則不希望受到搜索引擎的影響,要立足于圖書館等文化機(jī)構(gòu)資源描述的專業(yè)需求。
OCLC 模型和BIBFRAME 兼容性研究的目的不是為了融合這兩個模型,而是在保證兩個模型獨(dú)立性的前提下,實(shí)現(xiàn)二者之間不損失信息的書目描述映射。
在 2017 年 1 月 ALA 冬季會議上,OCLC 的報(bào)告展示了BIBFRAME的兩輪映射試驗(yàn)。第一輪是2012年開始在WorldCat和VIAF上進(jìn)行的試驗(yàn);第二輪是OCLC模型與BIBFRAME2.0之間的映射。OCLC模型的作品和內(nèi)容表達(dá)層映射到BIBFRAME 的作品類,其中OCLC 模型的內(nèi)容表達(dá)層目前只描述不同語言的翻譯作品對象(見圖 9)。
圖9 OCLC模型和BIBFRAME2.0的兼容性[22]
OCLC模型和BIBFRAME2.0的映射是基于FRBR第一組實(shí)體層次結(jié)構(gòu)的,但是OCLC研究人員在兼容性研究中發(fā)現(xiàn),即使是FRBR的定義也會隨著使用和應(yīng)用環(huán)境的變化而改變,而這種改變并不總是能被明確記錄下來,最重要的“作品”的定義甚至?xí)驗(yàn)橛美牟煌煌?。但作品在模型中的重要性不言而喻,因此,OCLC在報(bào)告中指出,合作編目項(xiàng)目(Program for Cooperative Cataloging,PCC)的“作品”工作小組與OCLC 的目標(biāo)重合,該小組的任務(wù)是分析不同圖書館關(guān)聯(lián)數(shù)據(jù)模型中的“作品”定義:這些定義有什么相同點(diǎn)或不同點(diǎn);它們怎么與經(jīng)典FRBR定義聯(lián)系;作品的用例有哪些。2017年10 月該小組發(fā)布報(bào)告PCC SCS/LDAC Task Group on the Work Entity[29]。
在2017 年(1 月)ALA 冬季會議的報(bào)告中,OCLC還強(qiáng)調(diào)了協(xié)調(diào)一致的作品文檔和標(biāo)識符可能是關(guān)聯(lián)書目數(shù)據(jù)模型開發(fā)的關(guān)鍵,因此OCLC和LC在兼容性合作研究中重點(diǎn)探討如何緊密關(guān)聯(lián)LC和OCLC關(guān)聯(lián)書目數(shù)據(jù)模型的作品文檔和標(biāo)識符。此外,OCLC與PCC的“URI”工作小組一同探索向MARC記錄添加URI以促進(jìn)其向關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)換的最佳實(shí)踐,并分析這些做法會對編目或資源描述工作流程造成的影響。這些工作促進(jìn)了OCLC關(guān)聯(lián)書目數(shù)據(jù)模型研究的深化。在展望下一步工作時,OCLC提出將發(fā)布一個包括BIBFRAME 和OCLC 作品標(biāo)識符的數(shù)據(jù)集;為多語種作品定義作品模型,并且提供使用示范;提高WorldCat作品數(shù)據(jù)挖掘算法效能。
在2017年6月ALA年會BIBFRAME更新論壇上,OCLC在報(bào)告中展示了PCC作品工作小組的工作成果,即FRBR、BIBFRAME和OCLC模型中“作品”的不同含義,見表2。
2018 年ALA年會BIBFRAME更新論壇上,OCLC提出隨著BIBFRAME多種擴(kuò)展和變體的出現(xiàn),OCLC需要對支持這種更廣泛更復(fù)雜的兼容性進(jìn)行更深入的思考[30]。
在2019年ALA舉行的冬季會議上,OCLC的報(bào)告展示了將WorldCat書目記錄通過LC提供的轉(zhuǎn)換器轉(zhuǎn)換為BIBFRAME關(guān)聯(lián)書目數(shù)據(jù)的成果,再次強(qiáng)調(diào)了URI的重要性;因?yàn)槿鄙賃RI的節(jié)點(diǎn)相當(dāng)于一個空節(jié)點(diǎn),不能進(jìn)入關(guān)聯(lián)數(shù)據(jù)環(huán)境中參與互操作,在試驗(yàn)中OCLC使用Hash URI代替空節(jié)點(diǎn)[31]。2019年ALA年會的BIBFRAME更新論壇上,OCLC介紹了OCLC關(guān)聯(lián)書目數(shù)據(jù)模型以及BIBFRAME 關(guān)聯(lián)數(shù)據(jù)的轉(zhuǎn)換工作,OCLC提出使用VIAF、FAST等來源的URI以及WorldCat作品集的ID,減少空白節(jié)點(diǎn)以保證互操作性[32]。2019年9月份,OCLC開展了一項(xiàng)永久標(biāo)識符的調(diào)查,了解圖書館界在工作中使用永久標(biāo)識符的程度以及對永久標(biāo)識符的需求[33]。OCLC對統(tǒng)一標(biāo)識符的重視程度不僅源于OCLC與LC關(guān)聯(lián)書目數(shù)據(jù)模型的兼容性研究,還反映了OCLC以WorldCat、VIAF等關(guān)聯(lián)書目數(shù)據(jù)集為基礎(chǔ)關(guān)聯(lián)全世界書目數(shù)據(jù)的愿望。
表2 FRBR、BIBFRAME、OCLC模型中作品概念的區(qū)別
在過去一段時間,OCLC模型研究的重點(diǎn)放在多語種作品模型的開發(fā)。未來OCLC要開發(fā)除了圖書以外更多資源類型的模型,如電影、音頻,以滿足用戶對多媒體資源不斷增長的需求。在多媒體資源模型的研究中,OCLC需要進(jìn)一步擴(kuò)展Schema.org 以提高描述多種資源的可行性,必須在更廣泛的使用群體中開展試驗(yàn),并聽取專業(yè)編目人員的意見來進(jìn)行完善。而在已經(jīng)展開的多媒體資源模型的研究中,研究人員發(fā)現(xiàn)OCLC當(dāng)前通過轉(zhuǎn)換已有MARC記錄來補(bǔ)充關(guān)聯(lián)數(shù)據(jù)模型的策略已達(dá)到上限,必須對其進(jìn)行升級。在實(shí)際工作中,OCLC將先在Schema.org中以相對較小的擴(kuò)展集描述童話、表演、芭蕾、電影等創(chuàng)作作品,考慮到公眾對多媒體表演的強(qiáng)烈興趣,可以借鑒流行和權(quán)威的資源,如網(wǎng)絡(luò)上訪問量最高的電影數(shù)據(jù)庫,以獲取更多的線索來定義資源模型。OCLC相信,將圖書館資源更緊密地集成到網(wǎng)絡(luò)中,將圖書館更緊密地連接到網(wǎng)絡(luò),可以實(shí)現(xiàn)圖書館在網(wǎng)絡(luò)信息時代的價(jià)值。這是關(guān)聯(lián)書目數(shù)據(jù)研究的目標(biāo),也是圖書館界下一代建模工作的目標(biāo)。
文獻(xiàn)調(diào)查發(fā)現(xiàn),我國圖情領(lǐng)域的關(guān)聯(lián)書目數(shù)據(jù)研究存在一種現(xiàn)象,一些研究者只就某一學(xué)科或某一體裁的文獻(xiàn)資源建立專門的關(guān)聯(lián)書目數(shù)據(jù)模型。開放數(shù)據(jù)五星技術(shù)規(guī)范提出:“描述資源時,盡可能使用已有的公共本體,便于資源的發(fā)現(xiàn)與關(guān)聯(lián)。”[34]隨著時間的推移,文獻(xiàn)資源的載體類型逐漸增多,各個學(xué)科或主題的文獻(xiàn)資源也會逐漸開放,因此研究者應(yīng)該擁有更大的格局、更長遠(yuǎn)的目光,在開發(fā)關(guān)聯(lián)書目數(shù)據(jù)模型之前先了解國際上或國內(nèi)已有的通用本體,盡量基于通用本體進(jìn)行擴(kuò)展。
促進(jìn)大眾對關(guān)聯(lián)書目數(shù)據(jù)的發(fā)現(xiàn)和利用,意味著必須在數(shù)據(jù)模型的專業(yè)程度上作出讓步。從MARC 到BIBFRAME,書目描述格式由以載體為中心發(fā)展到以內(nèi)容為中心,但BIBFRAME仍然繼承了圖書館自古以來的要將人類所有文獻(xiàn)收藏起來的夙愿,因此它力求盡量詳細(xì)地保存文獻(xiàn)資源的所有信息,這決定了BIBFRAME的描述成本高,利用門檻高,其關(guān)聯(lián)數(shù)據(jù)的利用范圍也限制在圖書館、檔案館、博物館等文化遺產(chǎn)機(jī)構(gòu)中;而OCLC模型的目的是促進(jìn)圖書館資源被大眾發(fā)現(xiàn)和利用,這意味著它不能設(shè)置過高的標(biāo)記門檻和使用門檻,那么OCLC模型就必須在描述的細(xì)致程度和專業(yè)程度上作出取舍?;蛟S將來隨著計(jì)算機(jī)、網(wǎng)絡(luò)、存儲等信息技術(shù)的進(jìn)一步發(fā)展,真的可以在一個模型中實(shí)現(xiàn)兩者兼得。就目前來說,使用兩個互補(bǔ)的關(guān)聯(lián)書目數(shù)據(jù)模型分別實(shí)現(xiàn)收藏和利用的目的或許更為現(xiàn)實(shí)。
目前國內(nèi)圖書館利用OCLC數(shù)據(jù)模型開展關(guān)聯(lián)數(shù)據(jù)建設(shè)的項(xiàng)目并不多,可能是該模型專業(yè)性較弱、描述深度不夠或軟件平臺缺乏等原因所致。但在國外,OCLC數(shù)據(jù)模型已在圖書館中成功應(yīng)用。芬蘭國家圖書館在關(guān)聯(lián)數(shù)據(jù)發(fā)布過程中更看重實(shí)體與其之間的關(guān)系,認(rèn)為OCLC數(shù)據(jù)模型更符合其發(fā)展需求。為此,該館以BIBFRAME為中介,將MARC數(shù)據(jù)發(fā)布成關(guān)聯(lián)的Schema.org格式的數(shù)據(jù)。除此之外,多個國際組織、出版機(jī)構(gòu)等也紛紛采用OCLC數(shù)據(jù)模型,如ISNI、ISSN、Spring Nature等,主要還是考慮到該模型與網(wǎng)絡(luò)資源的兼容性強(qiáng)。隨著OCLC數(shù)據(jù)模型與BIBFRAME兼容性的增強(qiáng),相關(guān)映射方案的發(fā)布,圖書館的使用障礙也會進(jìn)一步降低。國內(nèi)圖書館使用OCLC數(shù)據(jù)模型進(jìn)行關(guān)聯(lián)數(shù)據(jù)發(fā)布與消費(fèi)時,主要需要解決的是模型本地化和詞表復(fù)用等問題。確保實(shí)體與關(guān)系的識別和聚合,以及轉(zhuǎn)換成RDF模式描述,才能有效支持搜索引擎的發(fā)現(xiàn)與檢索。