范 煒 林君松
(四川大學公共管理學院信息管理技術(shù)系,成都,610064)
文化遺產(chǎn)承載著一個國家或民族優(yōu)秀的傳統(tǒng)文化與風俗記憶,是無數(shù)勞動人民辛勤汗水和智慧凝聚的結(jié)晶,被各國作為重要的“戰(zhàn)略資源”進行傳承與保護。我國文化遺產(chǎn)保護與傳承發(fā)展目前正走向由“量”到“質(zhì)”的轉(zhuǎn)變。2021年10月28日,《國務(wù)院辦公廳關(guān)于印發(fā)“十四五”文物保護和科技創(chuàng)新規(guī)劃的通知》[1]在總結(jié)以往文化遺產(chǎn)保護事業(yè)取得輝煌成就的同時,更加強調(diào)對文化遺產(chǎn)的保護要面向高質(zhì)量發(fā)展,需要在已有的文物資源保護基礎(chǔ)上,提升文物科技創(chuàng)新能力和應(yīng)用水平,尤其是在強化文物數(shù)字化保護與利用層面,通過完善信息資源基礎(chǔ)設(shè)施,升級館藏資源數(shù)字化水平,健全文物標準體系,建設(shè)文化大數(shù)據(jù)與文化云、鼓勵數(shù)據(jù)開放共享等方式,構(gòu)建起文化遺產(chǎn)數(shù)據(jù)資源創(chuàng)新利用的服務(wù)體系。
圖書館、博物館、檔案館、美術(shù)館等文化機構(gòu)服務(wù)于國家文化戰(zhàn)略需求,借助信息技術(shù)手段開展數(shù)字化資源建設(shè),向公眾提供多元化網(wǎng)絡(luò)服務(wù)。這些文化機構(gòu)長期致力于資源采集加工、知識組織與傳播傳承、跨機構(gòu)資源共建與數(shù)據(jù)共享,為文化遺產(chǎn)數(shù)據(jù)資源的創(chuàng)新利用提供了一定的知識儲備與經(jīng)驗參考[2]。然而,文化機構(gòu)之間缺乏相對統(tǒng)一的數(shù)據(jù)資源標準,其內(nèi)部資源庫的多元性與異構(gòu)性給文化遺產(chǎn)數(shù)據(jù)資源的共享和利用造成了障礙,一定程度上限制了文化遺產(chǎn)內(nèi)涵挖掘、傳播與利用。
文化遺產(chǎn)數(shù)據(jù)資源的典型特征是結(jié)構(gòu)化、語義化與開放化,其核心在于實現(xiàn)分布異構(gòu)的數(shù)據(jù)資源之間的語義組織和關(guān)聯(lián)集成。在國外文化遺產(chǎn)數(shù)據(jù)化實踐中,以事件為中心的數(shù)據(jù)建模思路是當前的主流實踐。以CIDOC CRM為代表的國際資源標準,是國外文化機構(gòu)廣泛應(yīng)用于跨機構(gòu)、分布式數(shù)字資源集成整合的實施參考。
在國外眾多文化遺產(chǎn)項目中,事件是理解資源之間語義關(guān)系的核心。以事件為中心的數(shù)據(jù)模型將不同文化機構(gòu)開放的數(shù)字資源,通過URI進行識別與鏈接,匯聚元數(shù)據(jù),實現(xiàn)各類資源的語義互操作,形成以事件為線索的數(shù)據(jù)資源網(wǎng)絡(luò)。
與傳統(tǒng)(靜物)資源組織視角不同,以事件為中心的數(shù)據(jù)建模從動態(tài)活動角度來看待文化遺產(chǎn)資源各要素之間關(guān)系,有助于協(xié)調(diào)文化機構(gòu)內(nèi)外部資源,有利于全方位揭示文化遺產(chǎn)內(nèi)容特征及多維聯(lián)系,從而實現(xiàn)文化遺產(chǎn)數(shù)據(jù)資源的關(guān)聯(lián)集成。
近年來,智慧數(shù)據(jù)(smart data)以其豐富的創(chuàng)新內(nèi)涵,即通過對任何規(guī)模的、可信的、情境化的、相關(guān)切題的、可認知的、可預測的和可消費的數(shù)據(jù)的使用,獲得重大的見解和洞察力[3],在圖檔博領(lǐng)域得到廣泛認知。王曉光等[4]認為,語義網(wǎng)環(huán)境下對這些數(shù)據(jù)的改造利用賦予了數(shù)據(jù)以“智慧”,而從數(shù)據(jù)中提煉“智慧”,實現(xiàn)各類數(shù)據(jù)資源從數(shù)字化、數(shù)據(jù)化再到智慧化的轉(zhuǎn)型升級,這是當前文化遺產(chǎn)信息資源建設(shè)的新方向。智慧數(shù)據(jù)一方面為文化遺產(chǎn)數(shù)據(jù)資源建設(shè)指出了新目標,另一方面也為文化遺產(chǎn)數(shù)據(jù)基礎(chǔ)設(shè)施完善提出了保障性要求。
文化機構(gòu)分布各地,其擁有各自寶貴的館藏數(shù)字資源。文化遺產(chǎn)數(shù)據(jù)資源主要以文化機構(gòu)自身館藏為基礎(chǔ)進行建設(shè)和開發(fā)利用,具有分散性特點,其本質(zhì)是文化遺產(chǎn)資源經(jīng)歷數(shù)字化階段,逐步脫離紙本與實體,形成的結(jié)構(gòu)化元數(shù)據(jù)與數(shù)字替代物(如數(shù)字圖像)等。隨著網(wǎng)絡(luò)開放和資源共享的需求,文化機構(gòu)在一定范圍內(nèi)逐步開放其擁有的文化遺產(chǎn)信息,但開放程度差異較大。
語義網(wǎng)環(huán)境下對文化遺產(chǎn)數(shù)據(jù)資源的組織利用,需要在開放化與結(jié)構(gòu)化基礎(chǔ)上,通過細粒度的語義描述和知識組織的關(guān)聯(lián)集成方式,對數(shù)據(jù)資源改造,進而實現(xiàn)賦予數(shù)據(jù)資源以“智慧”并提煉數(shù)據(jù)“智慧”的過程。因此,在數(shù)據(jù)開放共享的基礎(chǔ)上,致力于推動文化遺產(chǎn)數(shù)據(jù)資源結(jié)構(gòu)化、語義化和關(guān)聯(lián)化是智慧數(shù)據(jù)達成的逐步遞進邏輯。
關(guān)聯(lián)集成是數(shù)據(jù)資源集成的一種實現(xiàn)方式。在開放數(shù)據(jù)環(huán)境中,關(guān)聯(lián)數(shù)據(jù)為文化遺產(chǎn)數(shù)據(jù)資源提供了資源識別、鏈接的集成實現(xiàn)方式。通過關(guān)聯(lián)數(shù)據(jù)實現(xiàn)關(guān)聯(lián)集成,是當前成熟且穩(wěn)固的“弱”集成模式。其優(yōu)點在于,資源擁有者各自管理,根據(jù)業(yè)務(wù)需求與場景服務(wù)變化,通過資源URI識別與鏈接,實現(xiàn)特定主題或領(lǐng)域的數(shù)據(jù)匯聚。這種實現(xiàn)技術(shù)成本低、可行性高。其缺點在于,與整合、聚合等“強”集成模式相比,數(shù)據(jù)資源僅是鏈接引用的關(guān)聯(lián),缺乏深度融合。
在文化遺產(chǎn)數(shù)據(jù)資源共建共享層面,統(tǒng)一建立集中式數(shù)據(jù)倉儲和管護不太現(xiàn)實。關(guān)聯(lián)集成提供的“弱”集成模式比較現(xiàn)實,既能保證各自擁有,又能共享集成。關(guān)聯(lián)數(shù)據(jù)用于收集與指向來自文化機構(gòu)的資源URI,在網(wǎng)絡(luò)中進行關(guān)聯(lián),形成虛擬化的開放、互聯(lián)、互通、共用的數(shù)據(jù)網(wǎng)絡(luò)。
文化遺產(chǎn)數(shù)據(jù)資源的關(guān)聯(lián)集成實現(xiàn)核心在于“因何”關(guān)聯(lián),以物件為中心和以事件為中心是兩種不同的數(shù)據(jù)建模思路。長期以來,在圖書館界,書目資源描述主要以物件為中心的思路展開描述與著錄;在博物館界,則是以事件為中心的資源組織思路。CIDOC CRM(ISO 21127:2014)是文化遺產(chǎn)數(shù)據(jù)資源建設(shè)的成熟概念參考模型,以事件為中心展開,對理解文化遺產(chǎn)領(lǐng)域知識關(guān)聯(lián)、規(guī)范語義描述具有廣泛的適用性。CIDOC CRM模型定位高度抽象的概念模型參考,整體較為復雜,其開發(fā)版本處在不斷修訂變化中[5]。
目前,以事件為中心的文化遺產(chǎn)數(shù)據(jù)資源的關(guān)聯(lián)集成是國際上的主流做法。以下圍繞CIDOC CRM的相關(guān)研究實踐進行簡要評述,分析現(xiàn)有以事件為中心的建模方法與應(yīng)用實踐。
(1)國外相關(guān)研究實踐
國外文化機構(gòu)在CIDOC CRM的長期應(yīng)用實踐中已形成了規(guī)?;?、示范化的項目成效。國外博物館界與圖書館界已聯(lián)合起來開展基于CIDOC CRM的模型擴展,主要應(yīng)用于館藏文化遺產(chǎn)數(shù)字資源建設(shè)與開放共享。
以事件為中心的建模應(yīng)用相關(guān)研究,例如,Mazurek等[6]探討CIDOC CRM應(yīng)用于波蘭數(shù)字圖書館聯(lián)合會近70萬份館藏出版物語義組織的可行性,通過“出版事件”,探討其對象描述的類與屬性的層級應(yīng)用;Lin等[7]根據(jù)CIDOC CRM基于事件的表示方法和層級結(jié)構(gòu),對數(shù)字圖書館資源進行資源集成與事實推理;Bekiari等[8]提出從CIDOC CRM的事件模型出發(fā),建立適用于小型博物館館藏資源組織與管理的服務(wù)系統(tǒng);Padfield等[9]復用CIDOC CRM,對英國倫敦國家美術(shù)館文化遺產(chǎn)布局建模、建筑空間與作品數(shù)據(jù)進行關(guān)聯(lián),開發(fā)了CrossCult項目;Tran等[10]從CIDOC CRM中的事件出發(fā),將藝術(shù)家及其作品進行關(guān)聯(lián),并借助Getty詞表實現(xiàn)集成。
國外已有較多項目實踐涌現(xiàn),在學界和業(yè)界取得了一定影響力。當前的典型項目包括通過EDM模型實現(xiàn)歐洲地區(qū)各類文化機構(gòu)文化遺產(chǎn)數(shù)據(jù)資源關(guān)聯(lián)集成的Europeana項目[11],借助芬蘭國家本體基礎(chǔ)設(shè)施和BioCRM模型完成對數(shù)據(jù)資源語義關(guān)聯(lián)集成的芬蘭人物傳記平臺BiographySampo項目[12],以及由美國14家藝術(shù)博物館組建的聯(lián)盟,以開放網(wǎng)絡(luò)社區(qū)組織形式,致力于在語義網(wǎng)環(huán)境中開放各類文化遺產(chǎn)關(guān)聯(lián)數(shù)據(jù)集和語義關(guān)聯(lián)集成項目Linked Art倡議[13]等。
國外CIDOC CRM研究與項目實踐研究著重于對文化遺產(chǎn)數(shù)據(jù)資源組織的關(guān)聯(lián)集成、應(yīng)用情境與廣泛涉及的應(yīng)用領(lǐng)域,對國內(nèi)具有重要參考價值。面向圖檔博數(shù)據(jù)資源和語義組織,以事件為中心關(guān)聯(lián)與集成外部鏈接,通過CIDOC CRM的復用與拓展,促進分布異構(gòu)的文化遺產(chǎn)數(shù)據(jù)在特定場景中的互聯(lián)與語義豐富化。
以事件為中心的關(guān)聯(lián)集成模型蘊含在這些典型項目的研究與實踐中,將在第3節(jié)展開分析。
(2)國內(nèi)相關(guān)研究實踐
相較于國外,國內(nèi)對以事件為中心的CIDOC CRM研究及應(yīng)用,目前主要是跟蹤介紹和單點小規(guī)模的個體研究探索,還未形成大規(guī)模成熟且有影響力的文化遺產(chǎn)數(shù)據(jù)資源項目。代表性的相關(guān)研究如董坤[14]在CIDOC CRM的基礎(chǔ)上構(gòu)建了具有地域特色的非物質(zhì)文化遺產(chǎn)本體,其核心類包括非遺項目、人物、位置、事件、時間段、類型以及事物六個類,并進行了關(guān)聯(lián)數(shù)據(jù)的發(fā)布;牛力等[15]從數(shù)字記憶中的數(shù)字文檔資源語義組織出發(fā),基于CIDOC CRM構(gòu)建數(shù)字文檔資源的基本屬性、事件屬性和關(guān)系屬性描述框架,并通過歷史人物屬性進行了實例研究;童茵等[16]參考CIDOC CRM,構(gòu)建了董其昌人物及其相關(guān)藝術(shù)作品的本體模型,并采用機器學習算法對董其昌相關(guān)圖像進行特征提取,實現(xiàn)人物作品年表、作品數(shù)字圖像、社會關(guān)系網(wǎng)絡(luò)的可視化;陳艷等[17]從文化遺產(chǎn)資源異構(gòu)與多樣性難以滿足信息系統(tǒng)統(tǒng)一存取的需求出發(fā),提出以CIDOC CRM為中介對DC元數(shù)據(jù)進行映射,實現(xiàn)對文化遺產(chǎn)資源的元數(shù)據(jù)集成方案。
國內(nèi)現(xiàn)有研究對CIDOC CRM這一國際標準的本土化落定有較好的理論認知與模型參考,但以事件為中心的建模理念意識不夠清晰,事件的第一性強化有待加強。從歷史文化語境看,物件不是單獨的存在,有其背后的過往與故事。從事件出發(fā),將事件相關(guān)要素進行系統(tǒng)化梳理,建立活動過程、多維關(guān)聯(lián)的文化遺產(chǎn)數(shù)據(jù)資源網(wǎng)絡(luò),有助于提高數(shù)據(jù)質(zhì)量,促進文化遺產(chǎn)資源的價值激活。
從行業(yè)機構(gòu)角度看,國內(nèi)除了實力雄厚、級別較高的少數(shù)文化機構(gòu)(國家博物館、國家圖書館、故宮博物院、上海博物館、上海圖書館等),文化機構(gòu)館藏數(shù)據(jù)資源基礎(chǔ)設(shè)施建設(shè)和開發(fā)利用情況差異很大。總體而言,文化機構(gòu)館藏數(shù)字資源基礎(chǔ)建設(shè)情況一般,開放共享程度不高,開展跨機構(gòu)、分布式文化遺產(chǎn)數(shù)據(jù)資源集成的現(xiàn)有實施難度較高。通過對國外有影響力的項目介紹與數(shù)據(jù)模型分析,有助于文化機構(gòu)管理者知曉如何“做數(shù)據(jù)”和“共享數(shù)據(jù)”的國外經(jīng)驗,進一步助推數(shù)據(jù)開放的關(guān)聯(lián)集成模型,實現(xiàn)文化遺產(chǎn)數(shù)據(jù)資源的價值體現(xiàn)與智慧應(yīng)用。
以下從關(guān)聯(lián)集成角度,選取三個具有影響力的國外文化遺產(chǎn)數(shù)據(jù)資源建設(shè)項目,重點分析其數(shù)據(jù)模型,結(jié)合實踐經(jīng)驗,對比分析各模型特點,提出一個相對通用的頂層關(guān)聯(lián)集成框架,以期對我國文化遺產(chǎn)數(shù)據(jù)資源建設(shè)提供有價值的研究參考。
歐洲Europeana項目的數(shù)據(jù)模型EDM、芬蘭人物傳記BiographySampo項目的BioCRM模型以及關(guān)聯(lián)藝術(shù)(Linked Art)倡議提出的數(shù)據(jù)模型LADM是三個典型的基于CIDOC CRM的、以事件為中心的關(guān)聯(lián)集成模型。
2008年11月20日上線的Europeana是歐洲甚至全球范圍內(nèi)的文化遺產(chǎn)數(shù)據(jù)資源建設(shè)的重要項目實踐。Europeana建立的初衷是為了讓歐盟各國人民充分了解本國的歷史瑰寶和文化遺產(chǎn),其重點是對歷史文化資源進行數(shù)字加工[18]。項目建立了一個對歐洲文化遺產(chǎn)機構(gòu)所藏數(shù)字資源的關(guān)聯(lián)集成服務(wù)平臺。歐洲Europeana項目影響范圍與成效最為顯著,以CIDOC CRM作為兼容框架的數(shù)據(jù)模型EDM現(xiàn)已集成超過4000余家機構(gòu)的數(shù)據(jù)資源,通過關(guān)聯(lián)數(shù)據(jù)技術(shù),搭建了覆蓋44國的數(shù)據(jù)資源網(wǎng)絡(luò)。
Europeana包含海量的文化遺產(chǎn)資源,來源于各成員機構(gòu)的貢獻,匯聚的各類資源體量龐大且類型豐富。目前,在Europeana資源頁面,可搜索得到的各類文化遺產(chǎn)資源近6240余萬件[19]。在這些提供相關(guān)文化遺產(chǎn)數(shù)據(jù)資源并開展合作的機構(gòu)之中,既包括各類美術(shù)館、圖書館、檔案館和博物館等文化機構(gòu)(國外統(tǒng)稱為GLAM),還包括提供技術(shù)支持、開展學術(shù)研究和共享特色資源的企業(yè)組織、研究機構(gòu)與個人。項目資源包括圖片、文本、視頻、聲音和3D等載體類型,資源主題涵蓋考古、藝術(shù)、時尚、工業(yè)遺產(chǎn)、地圖、手稿、移民、音樂、報紙、攝影和運動等。
多源異構(gòu)的文化遺產(chǎn)數(shù)據(jù)資源在元數(shù)據(jù)描述上缺乏統(tǒng)一標準,規(guī)?;傻默F(xiàn)實難度大。Europeana在參考METS標準和W3C RDF等的基礎(chǔ)上,設(shè)計出滿足跨機構(gòu)的多源異構(gòu)資源的關(guān)聯(lián)集成數(shù)據(jù)模型EDM。該模型以CIDOC CRM為基礎(chǔ),提出兼容框架,協(xié)調(diào)并集成描述不同資源的元數(shù)據(jù)方案和詞表規(guī)范。通過復用CIDOC CRM的部分類和屬性,實現(xiàn)對文化遺產(chǎn)資源的元數(shù)據(jù)描述、數(shù)據(jù)組織和管理。
EDM能夠?qū)崿F(xiàn)不同數(shù)據(jù)集的異構(gòu)數(shù)據(jù)之間的整合、關(guān)聯(lián)與共享。在元數(shù)據(jù)標準的選擇方面,EDM對早期的Europeana語義元素做了進一步優(yōu)化。早期方案采用DC元數(shù)據(jù),該方案在考慮不同來源格式類型的開放性與通用性上,盡可能使用DC元素進行簡化描述,但同時也在一定程度上削減了對原有資源描述的豐富性。EDM保留了原有的核心元素,并通過結(jié)構(gòu)擴展和標準復用,增加了各類型資源描述的類和屬性。EDM定義了11個類,其中6個類復用了CIDOC CRM,定義屬性主要包括EDM和DC兩類屬性[20]。
在資源的類型區(qū)分方面,EDM需要實現(xiàn)將上千個文化機構(gòu)中的數(shù)據(jù)進行集成管理的復雜過程,其首要處理的問題是來自資源的多元性和開放性。EDM定義的核心類包括Provided-CHO、WebResource和ore:Aggregation,將資源劃分為資源對象、數(shù)字形式和資源集合,以及強調(diào)事件關(guān)聯(lián)資源對象的情境類。ore:Proxy類集成來自數(shù)據(jù)提供商的元數(shù)據(jù)內(nèi)容,通過屬性ore:proxyIn和ore:proxyFor明確不同機構(gòu)對資源對象的元數(shù)據(jù)描述,將資源對象和其元數(shù)據(jù)進行關(guān)聯(lián)。cc:license將資源所屬的版權(quán)信息進行區(qū)分描述,指明文化機構(gòu)約定的開放共享版權(quán)策略。
芬蘭語義計算小組(Sematic Computing Research Group,SeCo)在全球范圍較早開展文化遺產(chǎn)的語義網(wǎng)應(yīng)用實踐。該小組由芬蘭赫爾辛基大學和阿爾托大學共同發(fā)起,旨在建立一系列基于關(guān)聯(lián)數(shù)據(jù)和語義服務(wù)的文化遺產(chǎn)門戶網(wǎng)站以及相關(guān)配套的數(shù)據(jù)基礎(chǔ)設(shè)施。其開發(fā)的項目最早可追溯至2004年上線的MuseumFinland項目。其后,SeCo主要以Sampo模型為基礎(chǔ),設(shè)計開發(fā)了一系列語義門戶項目,提供語義基礎(chǔ)數(shù)據(jù)和本體服務(wù)[21]。
BiographySampo是該系列項目中用于描述歷史人物傳記的重要語義平臺,其核心是基于CIDOC CRM的BioCRM數(shù)據(jù)模型。BiographySampo采用以事件為中心的建模思路,集成了芬蘭國內(nèi)眾多文化機構(gòu)提供的超過6萬件的人物傳記與相關(guān)的檔案、手稿等。其模型將單一人物傳記表示成事件,復用時間、地點、參與者等要素構(gòu)建模型,通過自定義角色信息,將參與者在不同情境下的身份、職業(yè)等表示為特定情境下參與事件描述的角色變化屬性[22]。BioCRM的核心類復用CIDOC CRM的部分核心類,包括事件、地點、參與者、時間等,并擴展引入?yún)⑴c者角色(actor_role),通過屬性(inheres_in)與參與者進行關(guān)聯(lián),強調(diào)人物在事件之中的關(guān)系角色定位。
BioCRM數(shù)據(jù)模型與芬蘭國家語義本體(FINNOTO)緊密相關(guān)。芬蘭國家語義本體項目是芬蘭國家層面的語義基礎(chǔ)設(shè)施,其目標是為芬蘭國內(nèi)元數(shù)據(jù)應(yīng)用、本體構(gòu)建、本體服務(wù)和關(guān)聯(lián)數(shù)據(jù)框架奠定基礎(chǔ),并展示其在實際應(yīng)用中的可用性[23]。該國家本體為BiographySampo項目提供了必要的語義服務(wù)支持,如BioCRM使用到的本體邏輯關(guān)系和規(guī)范術(shù)語等。
在數(shù)據(jù)收集方面,BiographySampo數(shù)據(jù)來源包括芬蘭國內(nèi)的博物館、檔案館、圖書館等專門化機構(gòu)的出版物,同時也可能來源于民眾手中的資料文獻等。在特定主題領(lǐng)域語義門戶的數(shù)據(jù)收集上,往往基于已有的規(guī)模化、半結(jié)構(gòu)化文獻資料進行整理。Biog-raphySampo門戶構(gòu)建所需要的核心數(shù)據(jù)來源于1997年出版的《芬蘭國家傳記》,該傳記由不同領(lǐng)域的977位學者參與撰寫,通過數(shù)字化、知識抽取、自然語言處理、語義文本標注、RDF轉(zhuǎn)換以及國家本體對人物傳記的知識組織等過程,最終發(fā)布為關(guān)聯(lián)數(shù)據(jù)集,并由芬蘭文學學會傳記中心負責相關(guān)的管理與維護[24]。在對數(shù)據(jù)內(nèi)容進行關(guān)聯(lián)層面,BiographySampo根據(jù)BioCRM模型從內(nèi)部與外部兩種方式進行實現(xiàn),內(nèi)部以RDF通過BioCRM模型邏輯順序和人物事件關(guān)系鏈接已有的核心數(shù)據(jù)集,外部關(guān)聯(lián)則根據(jù)第三方機構(gòu)網(wǎng)站提供的不同資源數(shù)據(jù)鏈接實現(xiàn)數(shù)據(jù)資源的語義豐富化,如與維基百科、Getty藝術(shù)家聯(lián)合目錄(ULAN)等建立鏈接。
相較于前兩者,關(guān)聯(lián)藝術(shù)是以網(wǎng)絡(luò)社區(qū)形式運作的跨文化機構(gòu)資源關(guān)聯(lián)集成的虛擬組織。關(guān)聯(lián)藝術(shù)社區(qū)繞過本體的復雜性,通過關(guān)聯(lián)數(shù)據(jù),以較低復雜度的關(guān)聯(lián)集成方式,根據(jù)主題鏈接匯聚了不同文化機構(gòu)的館藏數(shù)字資源,以增強藝術(shù)資源之間的訪問、關(guān)聯(lián)與共享,其核心是基于CIDOC CRM的關(guān)聯(lián)藝術(shù)數(shù)據(jù)模型(Linked Art Data Model,LADM)。目前代表性項目是由荷蘭藝術(shù)史研究所、梵高博物館和克魯勒-穆勒博物館共同打造的梵高全球(Van Gogh Worldwide)項目[25]。
關(guān)聯(lián)藝術(shù)社區(qū)項目得到了許多其他項目及其資助者的直接或間接支持。最早由美國藝術(shù)合作社(AAC)發(fā)起、牛津大學英國藝術(shù)與人文研究委員會(AHRC)和塞繆爾·克雷斯基金會共同支持,其資源開放范圍擁有眾多的合作伙伴項目和聯(lián)盟,例如,美國藝術(shù)合作社(AAC)的關(guān)聯(lián)數(shù)據(jù)倡導計劃[26]、PHAROS照片檔案聯(lián)盟[27]、拉斐爾前派在線項目[28]、英國倫敦藝術(shù)大學關(guān)聯(lián)保存數(shù)據(jù)項目[29]等。這些合作伙伴與項目機構(gòu)提供了大量文化遺產(chǎn)信息(照片、檔案和藝術(shù)品元數(shù)據(jù)等)的開放鏈接,以關(guān)聯(lián)藝術(shù)模型為基礎(chǔ),在開發(fā)的系統(tǒng)平臺中運用關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù),搭建起不同文化機構(gòu)各自文化遺產(chǎn)數(shù)據(jù)的關(guān)聯(lián)集成通道。
關(guān)聯(lián)藝術(shù)數(shù)據(jù)模型描述的資源對象定位于文化遺產(chǎn)領(lǐng)域的藝術(shù)資源,其目的是盡可能地遵循現(xiàn)有文化遺產(chǎn)數(shù)據(jù)標準和實踐經(jīng)驗,以實現(xiàn)博物館館藏數(shù)字藝術(shù)品和相關(guān)活動的關(guān)聯(lián)集成[30]。在模型構(gòu)建上,相比EDM與BioCRM兩種模型,LADM汲取了CIDOC CRM對多源異構(gòu)數(shù)據(jù)兼容的優(yōu)勢,簡化了CIDOC CRM數(shù)據(jù)模型,直接復用了部分實用且可互操作的類與屬性。LADM核心類主要包括事件的子類活動、人物、時間、地點以及資源對象五個。在數(shù)據(jù)取值上,大量復用已有的文化遺產(chǎn)詞表資源。為保持數(shù)據(jù)描述過程中的一致性,關(guān)聯(lián)藝術(shù)將博物館行業(yè)認可的Getty詞表與LADM模型結(jié)合,通過使用藝術(shù)與建筑敘詞表(AAT)、藝術(shù)家聯(lián)合目錄(ULAN)以及Getty地名詞表(TGN)等術(shù)語資源進行規(guī)范描述。在關(guān)聯(lián)集成上,通過實體抽象,應(yīng)用類與屬性實現(xiàn)不同實體之間的有效關(guān)聯(lián),為每一個描述的內(nèi)容對象盡可能地提供外在資源鏈接,關(guān)聯(lián)至不同平臺,形成相對完整的對象描述。
表1列舉了以上三個模型的核心類及其描述,可以發(fā)現(xiàn),三個模型均以CIDOC CRM模型為基礎(chǔ),以事件為中心展開,圍繞事件相關(guān)的語義要素關(guān)聯(lián)集成,擴展細節(jié)上因具體應(yīng)用情境有所差異。
表1 以事件為中心的三種數(shù)據(jù)模型核心類
事件是主體對事物的有用性和關(guān)聯(lián)性的認知起點,具有動態(tài)和多維的關(guān)聯(lián)要求。以事件為中心的建模核心要素包括人(行為者)、事(事件)、物(資源對象)、時(時間)和地(地點)。事件作為理解數(shù)據(jù)資源的中介,將事件發(fā)生過程的這些相關(guān)要素進行識別和關(guān)聯(lián),從而實現(xiàn)文化遺產(chǎn)數(shù)據(jù)資源的高度結(jié)構(gòu)化和語義豐富化。以事件為中心的數(shù)據(jù)建模,在文化遺產(chǎn)的語義描述和知識組織層面是關(guān)聯(lián)集成實現(xiàn)的有效方式。
通過以上三個數(shù)據(jù)模型的分析,以事件為中心理解文化遺產(chǎn)數(shù)據(jù)資源的語義組織方式,從人物、資源對象、事件以及情境四個維度,對三種數(shù)據(jù)模型進行比較,如表2所示。其中,情境是事件在特定時空條件下的表現(xiàn)形態(tài);時間與地點貫穿于事件各要素之中,是三個模型的重要組成部分。在應(yīng)用類型層面,三種模型復用CIDOC CRM的類與屬性相對一致,此處不再展開論述。
表2 三種數(shù)據(jù)模型的比較
結(jié)合三個數(shù)據(jù)模型,以下分別對四個維度展開分析,以便進一步總結(jié)與抽象出更通用的關(guān)聯(lián)集成要素。
(1)人物維度
人是資源建設(shè)與形成過程中的重要參與者,人的行為是產(chǎn)生文化遺產(chǎn)資源的重要形式,其本質(zhì)是社會活動中所有資源對象的社會屬性的總和。在LADM中,為規(guī)范個體與群體關(guān)系,定義了“l(fā)a:member_of”屬性,復用Getty藝術(shù)家聯(lián)合目錄詞表,進行規(guī)范化描述。
相比LADM區(qū)分兩種類別的人物特征,BioCRM更關(guān)注人在參與不同事件活動中所具有的一元角色、二元關(guān)系角色和事件關(guān)系角色。其中,一元角色(bioc:unary_role)表示人物的個體屬性角色;二元關(guān)系角色則表示人物在各類關(guān)系中的身份角色,如人物關(guān)系(bioc:person_relationship_role)類、團體關(guān)系(bioc:group_relationship_role)以及團體之間的關(guān)系(bioc:intergroup_relationship_role),其中人物關(guān)系還包括家庭關(guān)系(bioc:family_relationship_role)與社會關(guān)系(bioc:social_relationship_role),這三類關(guān)系統(tǒng)歸于bioc:binary_relationship_role,形成層級結(jié)構(gòu)分明的人物關(guān)系角色描述的二元關(guān)系。EDM將行為者(edm:agent)作為情境類的子類,描述特定情境下的行為者狀態(tài),如內(nèi)容提供商或已有數(shù)據(jù)資源的人物描述。
(2)資源對象維度
除人之外,資源對象是與文化遺產(chǎn)關(guān)聯(lián)最為緊密的實體。數(shù)據(jù)模型的構(gòu)建基于各類資源對象的形式化描述,并通過已有資源與外部網(wǎng)絡(luò)資源的關(guān)聯(lián),實現(xiàn)對資源對象描述的豐富。在LADM中,畫作、雕塑等博物館館藏或活動中流轉(zhuǎn)的資源對象被抽象為object概念,該實體是人造物(crm:e22_human_made_object)類的實例,并強調(diào)對資源對象的性質(zhì)與來源過程進行全方位標注,將不同資源對象的屬性特征進行分面細化。與LADM強調(diào)對資源對象的特征與過程的分面描述不同,BioCRM更注重不同事件過程中的資源來源,如人物手稿、照片實體及其相關(guān)的信息對象等。EDM主要區(qū)分為三種類型的資源對象描述,即描述書籍、繪畫等不同實體對象的Pro-videdCHO類;與文化遺產(chǎn)資源對象相關(guān)聯(lián)的數(shù)字表示形式WebResource類(如照片、網(wǎng)頁等);以及利用oai-ore提供的基于網(wǎng)絡(luò)資源聚合的關(guān)聯(lián)ore:aggregation,關(guān)聯(lián)資源對象和數(shù)字表示類形成集合Europeana Aggregation類(如數(shù)據(jù)集、第三方平臺等)。EDM三種資源類型的區(qū)分兼顧了資源對象實體信息的追蹤以及記錄了資源的描述性元數(shù)據(jù)。
(3)事件維度
事件是人類認識世界和理解世界的一種基本語義單元。在特定時間和環(huán)境下,發(fā)生的現(xiàn)象、參與的角色等要素,構(gòu)成了事件用于知識表示的動態(tài)性特征,也是事件模型的重要表現(xiàn)方式。LADM參考CIDOC CRM的層級結(jié)構(gòu)與定義,簡單區(qū)分為非人為直接參與的事件和人為參與的活動,其面向人為參與的藝術(shù)品和博物館活動事件建模的核心為活動(activity)類。在BioCRM中,事件是表現(xiàn)人物傳記中人物活動軌跡及其發(fā)展歷程的核心類,由于CIDOC CRM在定義事件概念關(guān)系時,并沒有對事件間的關(guān)系進行說明,BioCRM通過自定義的bioc:event_role類(bioc:actor_role的子類)用于表示在某個時間范圍內(nèi)人參與事件的現(xiàn)象,或發(fā)揮作用引起的一系列變化,從而揭示事件之間的一個動態(tài)關(guān)系。
與LADM以事件為中心、BioCRM強調(diào)人物角色與事件為中心不同,EDM聚焦于跨文化機構(gòu)提供的資源對象的事件變化。EDM強調(diào)對這些資源數(shù)據(jù)的關(guān)聯(lián)描述,采用以對象和事件為中心的方式。具體來看,一方面,EDM關(guān)注于用戶對于資源對象本身的需求,元數(shù)據(jù)在描述這些資源對象時,這些資源對象表現(xiàn)出了事件各要素之間的動態(tài)關(guān)系;另一方面,關(guān)注用戶在對提供更具表現(xiàn)力和連貫性的資源對象起源與歷史記錄變化的興趣,促使以對象為中心和事件為中心兩種描述方式的出現(xiàn)。在兩類關(guān)聯(lián)上,EDM自定義的屬性edm:has_met將資源對象與特定時空內(nèi)發(fā)生的事件進行關(guān)聯(lián),從而實現(xiàn)以資源對象與事件的語義聯(lián)系,構(gòu)建edm:event類與crm:e4_period(時間類)的對接擴展,具有較強的通用性。
(4)情境維度
情境用于描述特定對象在特定時空環(huán)境中與各類要素關(guān)系及其變化態(tài)勢的呈現(xiàn)形態(tài)。情境語義信息用于建模,對情境中的概念、子概念、關(guān)系、屬性和事實進行統(tǒng)一描述,使情境現(xiàn)實中的實體被形式化,映射為機器可理解、可共享的知識結(jié)構(gòu)[31]。一般情況下,情境由諸多要素構(gòu)成,它可能由人、事、物、地點以及時間要素等共同構(gòu)建,情境在個性化定制、知識推送等創(chuàng)新服務(wù)中予以創(chuàng)新應(yīng)用。
在文化遺產(chǎn)領(lǐng)域,情境是追溯與記錄資源對象的重要語義形式,構(gòu)建情境語義信息能夠明確資源對象特征屬性與其他實體之間的關(guān)系或聯(lián)系。BioCRM強調(diào)以持續(xù)性的事件為應(yīng)用情境,通過人物、地點、時間與需要的其他資源(crm:P12_occurred_in_the_presence_of)實現(xiàn)將零散的資源表述記錄進行關(guān)聯(lián)集成,構(gòu)建人物傳記的語義描述。EDM通過構(gòu)建一個情境類(edm:noninformationResource),定義其作為要素創(chuàng)設(shè)情境的一個擴展點(extension point)。在這個情境類中,通過考慮數(shù)字文化資源描述增強語義關(guān)聯(lián)的需要,EDM構(gòu)建了獲取對象相關(guān)情境信息的5個實體要素,包括事件、主體、地點、自然實體、時間范圍,這些元素使用受控詞表概念(skos:concept)進行描述。在該情境類中,事件不單獨作為一個描述實體,而是作為情境類的一個子類,與其他要素共同構(gòu)建基于各種來自數(shù)據(jù)或資源提供商的內(nèi)容與過程情境。因此,從資源對象描述看,EDM構(gòu)建的edm:noninformationResource為資源描述提供了一個較為通用的情境實體。
以上對文化遺產(chǎn)領(lǐng)域三個典型數(shù)據(jù)模型進行了分析,以事件為中心的關(guān)聯(lián)集成思路得以明晰化,為進一步提出通用的關(guān)聯(lián)集成頂層分析框架打下了基礎(chǔ)。
對三種模型的分析可以發(fā)現(xiàn),EDM注重從資源對象之間的關(guān)系關(guān)聯(lián)集成來自不同數(shù)據(jù)提供商的數(shù)據(jù)內(nèi)容;BioCRM關(guān)注人物在事件活動中的多元關(guān)系與角色變化,通過人物角色關(guān)系關(guān)聯(lián)集成不同傳記數(shù)據(jù)類型;LADM更強調(diào)對事件活動發(fā)生的不同情境的描述,以不同情境描述來關(guān)聯(lián)集成不同的資源狀態(tài)。三種文化遺產(chǎn)項目數(shù)據(jù)模型擴展或復用了CIDOC CRM國際標準,繼承了其將人、事、物、時、地用于描述資源的事件建模核心要素;而從三種模型中抽象出的情境概念,則為數(shù)據(jù)資源的關(guān)聯(lián)集成提供了應(yīng)用狀態(tài),適用于文化遺產(chǎn)數(shù)據(jù)資源的多元化特征描述,在不同的應(yīng)用情境下服務(wù)于用戶個性化知識需求滿足與資源匹配。
針對文化遺產(chǎn)數(shù)據(jù)資源建設(shè)現(xiàn)實語義關(guān)聯(lián)需求,為以事件為中心的關(guān)聯(lián)集成框架構(gòu)設(shè)提供理論與現(xiàn)實依據(jù),本文提出更通用化、綜合性的關(guān)聯(lián)集成框架,如圖1所示。
在該框架中,事件是描述資源之間關(guān)系的語義單元,構(gòu)成對特定層面概念的理解。以事件為中心,將事件發(fā)生相關(guān)的時間、地點、人物、資源對象在特定情境下進行關(guān)聯(lián),并集成事件衍生的子事件,逐漸擴展成資源關(guān)聯(lián)網(wǎng)絡(luò)。這些要素分別解釋了事件中的何人、何物、何時以及何地的問題。事件及其要素在特定時空維度下共同形成一個情境,該概念能夠跨越機構(gòu)異構(gòu)資源之間的界限,通過不同文化機構(gòu)開放的資源唯一識別符,建立事件內(nèi)部與事件之間的關(guān)系,集成各類實體之間的語義聯(lián)系,從而呈現(xiàn)出事件在特定情境下是如何發(fā)生的。
圖1 以事件為中心的文化遺產(chǎn)數(shù)據(jù)資源關(guān)聯(lián)集成框架
此處以近代重大歷史事件“紅軍長征”為例,展示以事件為中心的關(guān)聯(lián)集成框架的分析作用。該示例取自《長征記》一書[32],選取紅軍長征部分重要歷史事件,分析識別出的基本要素如表3所示。
表3 “紅軍長征”部分重要歷史事件的元素
在第五次反“圍剿”失敗,紅軍被迫進行戰(zhàn)略轉(zhuǎn)移的歷史情境下,對“紅軍長征”相關(guān)聯(lián)的部分歷史事件與相關(guān)數(shù)據(jù)資源進行關(guān)聯(lián)集成局部示意,如圖2所示。
參考關(guān)聯(lián)藝術(shù)模型的圖例表示,橢圓表示情境類,粉色表示人物類,淺藍色表示時間類,藍色表示事件類,綠色表示地點類,棕色表示資源對象類,淺灰色表示實例值,白色矩形表示類本身;在受控詞表的選擇上,為盡可能保持詞匯的一致性,橙色用于表示類型或受控詞表,Getty詞表作為主要使用的值詞表,用于表示特定的實例,如ulan:500322044表示人物“毛澤東”,tgn:7001843表示地點“江西瑞金”。“_label”以標簽形式,對類與屬性予以說明。在關(guān)聯(lián)集成方面,通過Getty詞表實現(xiàn)關(guān)聯(lián),也可以通過關(guān)聯(lián)鏈接指向特定實體,如人物關(guān)聯(lián)的維基百科詞條頁面等。
在此特定情境下,各要素的關(guān)系與變化態(tài)勢,如“三人團”中的博古(人物)于1934年(時間)的江西瑞金(地點),在“左”傾冒險主義思想的影響下作出相關(guān)錯誤決策,直接導致了后續(xù)的主要歷史事件“紅軍長征”的發(fā)生。此處復用crm:P16_used_specific_object將資源對象與情境關(guān)聯(lián)。作為一個重大歷史事件,“紅軍長征”是理解不同要素之間關(guān)系的主要事件單元,也是關(guān)聯(lián)集成相關(guān)資源的網(wǎng)絡(luò)核心節(jié)點。
圖2 以“紅軍長征”事件為中心的關(guān)聯(lián)集成框架圖示(局部)
在該事件中的人、資源對象、時間、地點分別用于描述“紅軍長征”事件中的何人、何物、何時與何地等特征。關(guān)聯(lián)集成框架支持對事件的延伸擴展描述,能夠集成事件“紅軍長征”衍生的子事件,例如,“湘江戰(zhàn)役”“遵義會議”“會寧會師”等事件,同時子事件包含更多子事件,通過不斷地擴展與細粒度描述,回答了以“紅軍長征”事件為中心的系列事件在上述情境中的動態(tài)發(fā)展與關(guān)聯(lián)集成過程。
關(guān)聯(lián)集成框架通過識別各類文化遺產(chǎn)數(shù)據(jù)資源中的人物、資源對象、時間、地點、事件、情境等概念實體,構(gòu)建數(shù)據(jù)模型;繼而,借助RDF和關(guān)聯(lián)數(shù)據(jù)方法,對數(shù)據(jù)進行形式化描述和規(guī)范化控制,實現(xiàn)低技術(shù)門檻的關(guān)聯(lián)集成實際效果。
目前,國內(nèi)文化機構(gòu)對文化遺產(chǎn)數(shù)據(jù)資源關(guān)聯(lián)集成的研究與實踐尚處于起步階段,文化遺產(chǎn)數(shù)據(jù)只在小范圍內(nèi)開放,關(guān)聯(lián)數(shù)據(jù)的應(yīng)用落地性尚有不足。充分跟蹤和學習國外文化遺產(chǎn)項目經(jīng)驗和技術(shù)方法,結(jié)合我國現(xiàn)實國情與文化遺產(chǎn)數(shù)據(jù)資源現(xiàn)狀,進行本土化設(shè)計與實施是長期工作。以事件為中心的視角,國外三種關(guān)聯(lián)集成數(shù)據(jù)模型及其之上的關(guān)聯(lián)集成框架為我國文化遺產(chǎn)數(shù)據(jù)資源建設(shè)的基礎(chǔ)核心問題探討提供了研究參考。關(guān)聯(lián)集成框架不是真空存在的,其作用發(fā)揮還需現(xiàn)實基礎(chǔ)和配套的相關(guān)工作。圍繞關(guān)聯(lián)集成框架,提出四點建議,以期對我國文化遺產(chǎn)數(shù)據(jù)資源建設(shè)有所幫助。
(1)逐步開放文化遺產(chǎn)數(shù)據(jù),為關(guān)聯(lián)集成框架提供數(shù)據(jù)基礎(chǔ)。開放是關(guān)聯(lián)集成的前提條件。各類文化機構(gòu)館藏資源數(shù)據(jù)開放不斷增多,面向文化遺產(chǎn)領(lǐng)域數(shù)據(jù)資源組織實踐提供了一套基于事件描述的關(guān)聯(lián)數(shù)據(jù)模型事實標準。這種寬松的關(guān)聯(lián)模式適用于我國文化遺產(chǎn)資源分布不均、時空差異較大以及數(shù)據(jù)開放的早期階段。
(2)開發(fā)文化遺產(chǎn)數(shù)據(jù)資源平臺接口和互操作體系,為關(guān)聯(lián)集成框架提供互通互聯(lián)基礎(chǔ)。Europeana是很好的學習對象,它基于EDM擴展、復用與映射的數(shù)據(jù)模型近60種,本身是文化遺產(chǎn)數(shù)據(jù)資源匯聚與展示平臺,突出國家和地方機構(gòu)的二元屬性,實現(xiàn)不同文化機構(gòu)來源的多元異構(gòu)數(shù)據(jù)的關(guān)聯(lián)集成。這種模式強調(diào)集成平臺中機構(gòu)數(shù)據(jù)的表現(xiàn)形式統(tǒng)一,以及不同系統(tǒng)和機構(gòu)數(shù)據(jù)之間的關(guān)系揭示。
(3)構(gòu)建本體與詞表中樞服務(wù),為關(guān)聯(lián)集成框架提供可擴展和復用的模型基礎(chǔ)和詞匯規(guī)范。BiographySampo語義平臺的構(gòu)建依賴于芬蘭國家本體基礎(chǔ)設(shè)施對BioCRM模型的本體與詞表服務(wù)的支持,重在利用本體和關(guān)聯(lián)數(shù)據(jù)實現(xiàn)對人物傳記的描述與可視化,提供數(shù)字人文服務(wù)相關(guān)研究工具,盡可能實現(xiàn)關(guān)聯(lián)集成數(shù)據(jù)的最大程度開發(fā)利用。本體和詞表中樞屬于數(shù)據(jù)資源基礎(chǔ)設(shè)施,面對文化機構(gòu)龐大且繁雜的資源現(xiàn)實情況,是關(guān)聯(lián)集成框架能夠?qū)崿F(xiàn)語義豐富化的重要保障。
(4)運用以事件為中心的關(guān)聯(lián)集成框架,自上而下實現(xiàn)文化遺產(chǎn)數(shù)據(jù)資源動態(tài)多維創(chuàng)新利用。對資源進行靜態(tài)描述與歸類的傳統(tǒng)組織方式,越來越無法滿足對資源的內(nèi)外部特征語義描述與利用的多樣化需求。以事件為中心的關(guān)聯(lián)集成框架作為理解資源數(shù)據(jù)化的頂層分析框架,通過兼容知識組織結(jié)構(gòu)與描述標準,運用主流的關(guān)聯(lián)數(shù)據(jù)方法,跨越資源多源異構(gòu)的障礙,實現(xiàn)跨機構(gòu)資源集成與語義互操作。由此形成的結(jié)構(gòu)化、語義化和關(guān)聯(lián)化的數(shù)據(jù)資源形式,可以針對不同情境下的個性化文化知識需求,進行動態(tài)多維匹配,從而實現(xiàn)創(chuàng)新利用。
在文化遺產(chǎn)數(shù)據(jù)資源建設(shè)中,以事件為中心的關(guān)聯(lián)集成框架根植于數(shù)據(jù)資源語義的深度理解。數(shù)據(jù)資源體系的關(guān)聯(lián)集成化實現(xiàn),有助于促進文化遺產(chǎn)智慧數(shù)據(jù)建設(shè)目標的達成。