洪亮 宋睿 朱麗雅 侯雯君
(1.武漢大學(xué)信息資源研究中心,武漢,430072; 2.武漢大學(xué)信息管理學(xué)院,武漢,430072; 3.武漢大學(xué)大數(shù)據(jù)研究院,武漢,430072; 4.圖書情報國家級實驗教學(xué)示范中心(武漢大學(xué)),武漢,430072)
文化遺產(chǎn)是人類文明的重要載體。我國擁有海量的文化遺產(chǎn),是建設(shè)社會主義文化強國的重要力量源泉。習(xí)近平總書記提出要“讓收藏在博物館里的文物、陳列在廣闊大地上的遺產(chǎn)、書寫在古籍里的文字都活起來”[1]。借助智能化的理論方法對文化遺產(chǎn)進(jìn)行活化利用、精神內(nèi)涵挖掘和文化基因提煉,是文化遺產(chǎn)“活起來”的關(guān)鍵。數(shù)據(jù)資源是文化遺產(chǎn)數(shù)字記憶現(xiàn)代化的支撐,用數(shù)字手段來構(gòu)建數(shù)字時代的記憶數(shù)據(jù)框架,能夠保障數(shù)字文明的連續(xù)發(fā)展[2]。目前,文化遺產(chǎn)與數(shù)字技術(shù)相結(jié)合的新興研究領(lǐng)域包括數(shù)字人文、文化計算、智慧考古等。這些領(lǐng)域均對不同的文化遺產(chǎn)數(shù)據(jù)資源進(jìn)行整合、關(guān)聯(lián)和分析,為決策和行動提供支持[3]。
文化遺產(chǎn)數(shù)據(jù)資源的價值源于其中蘊含的事物之間廣泛存在的知識關(guān)聯(lián),這些關(guān)聯(lián)位于不同角度、不同層次,對這些事物間的知識關(guān)聯(lián)進(jìn)行分析將進(jìn)一步發(fā)現(xiàn)新的知識關(guān)聯(lián),從而產(chǎn)生更多的價值。隨著文化遺產(chǎn)的研究與應(yīng)用進(jìn)入智能化時代,通過對數(shù)據(jù)資源中蘊涵的領(lǐng)域知識進(jìn)行局部關(guān)聯(lián),文化遺產(chǎn)領(lǐng)域的知識資源以元數(shù)據(jù)、知識圖譜等智慧數(shù)據(jù)形態(tài)被大量生成。例如,歐洲“時光機項目”(Time Machine Project)對文化遺產(chǎn)數(shù)字資源進(jìn)行了智能化處理,主要包括跨機構(gòu)和跨領(lǐng)域的數(shù)據(jù)互聯(lián)、歷史數(shù)據(jù)的空間化、大規(guī)模數(shù)據(jù)集成、多媒體內(nèi)容的分析與理解等[4]。該項目將數(shù)字資源進(jìn)行語義信息提取和局部關(guān)聯(lián),啟發(fā)和支撐了文化遺產(chǎn)知識大圖的研究。然而,文化遺產(chǎn)知識資源仍然存在價值挖掘分析不足、活化利用不夠的問題。從知識關(guān)聯(lián)視角來看,以上問題的根源在于文化遺產(chǎn)知識缺少全局的關(guān)聯(lián),制約了文化遺產(chǎn)知識資源的價值分析、發(fā)現(xiàn)與創(chuàng)造。為了進(jìn)一步促進(jìn)文化遺產(chǎn)的保護、傳承和活化利用,建立文化遺產(chǎn)的數(shù)字化記憶,需要構(gòu)建文化遺產(chǎn)知識大圖,對知識進(jìn)行全局的關(guān)聯(lián),從而實現(xiàn)從價值密度較高的知識大圖中進(jìn)行價值分析、發(fā)現(xiàn)和創(chuàng)造活動。歐洲“時光機項目”構(gòu)建了歷史、地理、建筑、家譜等專題數(shù)據(jù)庫,這些數(shù)據(jù)庫之間缺乏全局的關(guān)聯(lián)。在現(xiàn)實世界,“時光機”中的事物存在錯綜復(fù)雜的關(guān)聯(lián),同時與“時光機”之外的事物也存在關(guān)聯(lián)。目前,“時光機”并沒有將以上知識的復(fù)雜關(guān)聯(lián)進(jìn)行組織和表示,限制了“時光機”對于文化遺產(chǎn)知識資源的價值挖掘和分析能力。比如,歷史題材數(shù)據(jù)庫中歷史事件之間僅包含簡單的時序關(guān)系,忽略了這些事件之間存在的順承、因果、子事件等多角度、多層次的關(guān)聯(lián)。如果缺乏以上這些關(guān)聯(lián),時光機就難以準(zhǔn)確地分析歷史事件的潛在關(guān)聯(lián),發(fā)現(xiàn)事件的演化規(guī)律,促進(jìn)歷史題材數(shù)據(jù)的活化利用。
知識及其關(guān)聯(lián)可以自然地表示為一個以知識單元為結(jié)點、以關(guān)聯(lián)為邊的圖,即知識大圖[5]。文化遺產(chǎn)知識大圖是文化遺產(chǎn)領(lǐng)域關(guān)聯(lián)知識的集合,其中知識單元由文化遺產(chǎn)領(lǐng)域的事物和屬性構(gòu)成,知識關(guān)聯(lián)表示這些事物、屬性間的語義關(guān)系。文化遺產(chǎn)知識大圖可以為文化遺產(chǎn)領(lǐng)域的智能問答、演繹推理、可視分析等應(yīng)用場景提供全方位的知識底座。文化遺產(chǎn)知識大圖具有的可描述、可計算和可演化特性,使其成為人工智能時代的新型數(shù)字人文基礎(chǔ)設(shè)施。文化遺產(chǎn)知識大圖利用多重語義蘊涵對文化遺產(chǎn)大數(shù)據(jù)中的事物及其之間被認(rèn)知的聯(lián)系進(jìn)行了多角度、多層次的表達(dá)?!岸嘟嵌取斌w現(xiàn)在知識單元結(jié)點之間可以存在多種關(guān)聯(lián),是橫向的關(guān)聯(lián);“多層次”體現(xiàn)在知識關(guān)聯(lián)之間存在上下位層次關(guān)系,是縱向的關(guān)聯(lián)[6]。
圖1 唐詩知識大圖中的多角度、多層次知識關(guān)聯(lián)Fig.1 Multi-angle, Multi-level Knowledge Association in Big Knowledge Graph of Tang Poetry
文化遺產(chǎn)知識大圖利用知識關(guān)聯(lián)分析實現(xiàn)了文化遺產(chǎn)領(lǐng)域知識的全局關(guān)聯(lián),對多源異構(gòu)的文化遺產(chǎn)知識資源進(jìn)行統(tǒng)一的語義化表達(dá),支撐文化遺產(chǎn)智能服務(wù),有效地提升文化遺產(chǎn)知識的表達(dá)能力與規(guī)模。以唐詩知識大圖為例(如圖1所示),詩人、詩歌、事件三類知識單元中存在多角度、多層次的知識關(guān)聯(lián)。比如,詩人之間存在社會關(guān)系、引用關(guān)系、流派關(guān)系;詩人與詩歌間存在創(chuàng)作和評論關(guān)系;詩人與事件間存在經(jīng)歷、歌頌(諷刺)關(guān)系;詩歌與事件間存在描述、提及關(guān)系。這些不同角度的關(guān)聯(lián)可以幫助研究者更好地理解唐詩中包含的知識脈絡(luò)。此外,詩歌在格律、表達(dá)方式上還具有多層次關(guān)聯(lián),在格律屬性上向下可劃分為絕句和律詩,根據(jù)句式結(jié)構(gòu)又可進(jìn)一步劃分為五言絕句、七言絕句、五言律詩和七言律詩;在表達(dá)方式上可劃分為直接抒情和間接抒情,而間接抒情根據(jù)對象可劃分為借景、借物、借事三種。格律和表達(dá)方式都是詩歌學(xué)習(xí)過程中的重要知識點,多層次的知識關(guān)聯(lián)將有助于詩歌的主題結(jié)構(gòu)分析、理解詩歌的創(chuàng)作意圖等。目前的知識圖譜、概念層次模型等知識組織與表示方法只能對單一角度和層次的知識關(guān)聯(lián)進(jìn)行表達(dá),無法實現(xiàn)文化遺產(chǎn)知識的全局關(guān)聯(lián),因而難以支撐知識脈絡(luò)梳理、詩歌主題結(jié)構(gòu)分析、詩歌創(chuàng)作意圖理解等智能知識服務(wù)應(yīng)用。
文化遺產(chǎn)知識大圖的構(gòu)建目標(biāo)是進(jìn)行文化遺產(chǎn)知識的描述、組織、關(guān)聯(lián)和發(fā)布,提供文化遺產(chǎn)智能服務(wù),最終實現(xiàn)文化遺產(chǎn)在數(shù)字空間的活化利用。在知識關(guān)聯(lián)視角下,文化遺產(chǎn)相關(guān)領(lǐng)域的研究可以歸約為文化遺產(chǎn)知識大圖的分析與計算問題,推動了大數(shù)據(jù)時代人文領(lǐng)域研究范式的躍遷,拓展了文化遺產(chǎn)研究的內(nèi)涵與外延,并催生文化遺產(chǎn)保護、傳承和活化利用的新模式。
目前,多學(xué)科協(xié)同已成為文化遺產(chǎn)相關(guān)領(lǐng)域研究的重要特征,傳統(tǒng)的歷史、考古、文學(xué)等文化遺產(chǎn)研究相關(guān)學(xué)科正不斷與地理學(xué)、計算機科學(xué)、測繪學(xué)等學(xué)科結(jié)合,將不同學(xué)科的理論和方法運用于跨學(xué)科的文化遺產(chǎn)創(chuàng)新性研究[7]。然而,隨著研究不斷深入,新的研究問題不斷涌現(xiàn),應(yīng)用場景不斷豐富,傳統(tǒng)學(xué)科范疇內(nèi)的理論難以獨立地支撐文化遺產(chǎn)知識大圖的研究;同時,目前的研究方法難以有效地表達(dá)和分析知識大圖中多角度、多層次的知識關(guān)聯(lián),因而無法很好地解決一些跨學(xué)科、跨領(lǐng)域復(fù)雜研究問題,并應(yīng)用于新的場景。因此,文化遺產(chǎn)知識大圖的研究需要探索出一套可行的理論框架和方法體系,推動該方向的成熟和發(fā)展。
本文從知識關(guān)聯(lián)視角,首先系統(tǒng)梳理和分析不同學(xué)科中現(xiàn)有的理論基礎(chǔ),明晰不同理論之間的邏輯關(guān)系,從而給出文化遺產(chǎn)知識大圖研究的理論框架;其次,對文化遺產(chǎn)知識大圖的相關(guān)研究方法進(jìn)行總結(jié),并依據(jù)知識大圖構(gòu)建過程中的資源轉(zhuǎn)化流程,建立文化遺產(chǎn)知識大圖的研究方法體系。最后,在理論框架和方法體系的基礎(chǔ)上,總結(jié)未來研究趨勢,以期為文化遺產(chǎn)知識大圖后續(xù)研究提供進(jìn)一步的參考與借鑒。
文化遺產(chǎn)知識大圖研究涉及到多個相關(guān)學(xué)科的理論,包括智慧數(shù)據(jù)資源建設(shè)理論、知識關(guān)聯(lián)理論、文化基因理論,它們有效地支撐了文化遺產(chǎn)知識大圖的整個生命周期。
2.1.1智慧數(shù)據(jù)資源建設(shè)理論
智慧數(shù)據(jù)是將不同的數(shù)據(jù)源( 包括大數(shù)據(jù))進(jìn)行整合、關(guān)聯(lián)、分析后,所得到的一種具有更高級組織形態(tài)、高度可解釋性、可追溯的數(shù)據(jù)資源[7]。智慧數(shù)據(jù)資源建設(shè)理論是信息資源建設(shè)理論在大數(shù)據(jù)時代的新發(fā)展,能夠解釋文化遺產(chǎn)區(qū)別于其他文化現(xiàn)象的文化內(nèi)涵、內(nèi)在聯(lián)系、邏輯關(guān)系,為多維度文化遺產(chǎn)知識組織、管理與利用提供依據(jù)。
文化遺產(chǎn)領(lǐng)域中的智慧數(shù)據(jù)資源建設(shè)需要從多源異構(gòu)的文化遺產(chǎn)數(shù)據(jù)中抽取并融合知識關(guān)聯(lián),構(gòu)建文化遺產(chǎn)多模態(tài)知識圖譜等智慧數(shù)據(jù)資源,在保證構(gòu)建效率的前提下提高領(lǐng)域知識抽取和融合的質(zhì)量。例如,Colace等人開發(fā)了一個綜合知識關(guān)聯(lián)系統(tǒng),構(gòu)建了意大利薩勒諾歷史中心信息系統(tǒng)專題地圖集,以關(guān)聯(lián)開放數(shù)據(jù)形式進(jìn)行文化遺產(chǎn)數(shù)據(jù)的儲存與處理,旨在更好地管理老城區(qū)的文化遺產(chǎn)[8]。近幾年,文化遺產(chǎn)數(shù)據(jù)管理與計算系統(tǒng)開始出現(xiàn),可以對文物三維模型等文化遺產(chǎn)數(shù)據(jù)進(jìn)行全生命周期的管理,同時提供開源分布式計算環(huán)境,為社會公眾共享利用文化遺產(chǎn)數(shù)據(jù)提供了新的參與模式[9]。
智慧數(shù)據(jù)資源建設(shè)理論作為文化遺產(chǎn)知識大圖構(gòu)建的理論基礎(chǔ),指導(dǎo)領(lǐng)域智慧數(shù)據(jù)建設(shè)。在深入剖析文化遺產(chǎn)語義特征和文化內(nèi)涵的基礎(chǔ)上,研究文化遺產(chǎn)知識的多刻面、多層次語義表示與統(tǒng)一語義建模方案;促進(jìn)文化遺產(chǎn)數(shù)據(jù)資源的互通共享、融合分析,并實現(xiàn)領(lǐng)域知識的部分關(guān)聯(lián),為領(lǐng)域知識的全局關(guān)聯(lián)奠定基礎(chǔ)。
2.1.2知識關(guān)聯(lián)理論
知識關(guān)聯(lián)是指人們在創(chuàng)造和利用知識的活動中因其某種內(nèi)在或外在的聯(lián)系而使其顯示關(guān)聯(lián)的行為及狀態(tài)。知識關(guān)聯(lián)使得知識轉(zhuǎn)變?yōu)橹腔?,實際上是一種動態(tài)行為,反映了知識間的聯(lián)系從隱性到顯性的演化過程。知識關(guān)聯(lián)具有可描述、可計算、可演化的特征[6]。因此,知識關(guān)聯(lián)理論能夠?qū)鹘y(tǒng)學(xué)科與大數(shù)據(jù)、人工智能技術(shù)融合,從而促成學(xué)科知識之間的開發(fā)與協(xié)同建設(shè)[10]。程結(jié)晶等人構(gòu)建了敦煌遺書知識關(guān)聯(lián)模型,將凌亂分散的敦煌遺書圖像資源進(jìn)行整合,使其重組為相互聯(lián)系的有機整體,提高敦煌遺書圖像的智能化檢索質(zhì)量和服務(wù)質(zhì)量[11]。高勁松等人針對館藏文物信息資源關(guān)聯(lián)和智能問答現(xiàn)狀,構(gòu)建了一個基于關(guān)聯(lián)數(shù)據(jù)的知識關(guān)聯(lián)模型,目的是將館藏繪畫類文物知識發(fā)布為關(guān)聯(lián)數(shù)據(jù)形式,便于不同需求的用戶了解不同的文物知識[12]。
知識關(guān)聯(lián)理論作為文化遺產(chǎn)知識大圖構(gòu)建的理論基礎(chǔ),為文化遺產(chǎn)大數(shù)據(jù)的統(tǒng)一語義表示、多模態(tài)細(xì)粒度的語義關(guān)聯(lián)以及文化遺產(chǎn)智能知識服務(wù)提供了理論指導(dǎo),同時為建立統(tǒng)一的、全局的知識關(guān)聯(lián)提供理論支撐,有利于緩解文化遺產(chǎn)大數(shù)據(jù)語義揭示不足和語義鴻溝等問題。
2.1.3文化基因理論
文化基因理論是一種同時具有穩(wěn)定性與可變性的整體理論,其中不僅承載了前代文化的累積,也能根據(jù)不斷變化的環(huán)境發(fā)生內(nèi)部重建[13],從而保證了文化發(fā)展、演變過程中穩(wěn)定和變革的統(tǒng)一。從知識關(guān)聯(lián)視角,文化基因的外在表現(xiàn)為文化遺產(chǎn)的關(guān)聯(lián)知識,是多源異構(gòu)的文化遺產(chǎn)數(shù)據(jù)資源中具有普遍性的語義單元。
隨著文化遺產(chǎn)信息傳播渠道的增加,關(guān)于文化基因理論的研究開始關(guān)注智能知識服務(wù)的提供。例如,Limor Shifman提出應(yīng)該“從傳播導(dǎo)向的角度來看文化基因”,從微觀層面上看,文化基因通過各種互聯(lián)網(wǎng)知識服務(wù)平臺進(jìn)行傳播,但在宏觀層面上塑造了社會文化結(jié)構(gòu),是探索數(shù)字文化的一個重要方面[14]。部分研究將文化基因理論進(jìn)行細(xì)化,能夠更準(zhǔn)確地指導(dǎo)文化遺產(chǎn)知識大圖研究的相關(guān)實踐。例如,劉明月等人從文化基因理論出發(fā),引申出了知識基因的概念,提出以知識基因作為節(jié)點進(jìn)行文獻(xiàn)表達(dá)的方式,有助于為未來智能知識服務(wù)模式研究與實踐提供參考和啟示[15]。此外,探索數(shù)字化記憶再造的產(chǎn)品化和產(chǎn)業(yè)化路徑也成為了目前文化基因理論指導(dǎo)下的新型研究[4]。
文化基因理論作為文化遺產(chǎn)知識大圖研究的理論基礎(chǔ),將突破原有的學(xué)科藩籬,在新的技術(shù)發(fā)展和應(yīng)用場景中進(jìn)行延伸和拓展。關(guān)聯(lián)知識將成為文化基因的主要載體,在此基礎(chǔ)上,文化基因的提取和利用分別轉(zhuǎn)化為知識關(guān)聯(lián)的分析和挖掘。文化基因理論將促進(jìn)文化遺產(chǎn)知識大圖研究的跨領(lǐng)域融合,從而更好地構(gòu)建文化遺產(chǎn)的數(shù)字化記憶,提升文化遺產(chǎn)智能服務(wù)的能力。
從知識關(guān)聯(lián)視角出發(fā),基于知識生命周期理論構(gòu)建文化遺產(chǎn)知識大圖的理論框架。知識生命周期包含著以下幾個階段:識別與存儲、共享與使用、學(xué)習(xí)與改進(jìn),其中每一個階段都影響著知識的產(chǎn)生與發(fā)展[16]。文化遺產(chǎn)領(lǐng)域知識大圖的特殊性在于,識別與存儲需要基于知識關(guān)聯(lián),共享與使用需要利用知識大圖,學(xué)習(xí)與改進(jìn)需要考慮歷史和文化維度。因此,文化遺產(chǎn)知識大圖的生命周期可以分為三個階段:文化遺產(chǎn)知識體系建立、文化遺產(chǎn)知識大圖構(gòu)建和文化基因提取利用。這三個階段形成了一個知識循環(huán)利用的過程,使得文化遺產(chǎn)知識的價值不斷被分析、發(fā)現(xiàn)和創(chuàng)造,如圖2所示。以上階段的理論基礎(chǔ)分別對應(yīng)于知識組織理論、知識關(guān)聯(lián)理論和文化基因理論。
圖2 文化遺產(chǎn)知識大圖研究理論框架Fig.2 Theoretical Framework for the Study of the Big Knowledge Graph of Cultural Heritage
針對文化遺產(chǎn)數(shù)據(jù)(如考古報告、檔案資料和文獻(xiàn)、互聯(lián)網(wǎng)數(shù)據(jù)等)存在的多源異質(zhì)、資源分散等問題,文化遺產(chǎn)知識大圖的構(gòu)建需要首先對數(shù)據(jù)進(jìn)行清洗和轉(zhuǎn)換?;谥腔蹟?shù)據(jù)建設(shè)理論,研究文化遺產(chǎn)知識分類標(biāo)引、復(fù)雜語義形式化表示、可視化表征方法,將文化遺產(chǎn)數(shù)據(jù)進(jìn)行局部關(guān)聯(lián),轉(zhuǎn)化為文化遺產(chǎn)本體、元數(shù)據(jù)、知識圖譜等智慧數(shù)據(jù),從而建立文化遺產(chǎn)知識體系。文化遺產(chǎn)知識體系不僅包括文化遺產(chǎn)的類別、歷史、傳承譜系、文化內(nèi)涵、價值等抽象知識,也包括人物、實物等實體。
在文化遺產(chǎn)知識體系建立的基礎(chǔ)上,構(gòu)建文化遺產(chǎn)知識大圖。針對文化遺產(chǎn)知識體系龐雜、語義關(guān)系復(fù)雜等問題,從文化遺產(chǎn)知識全局關(guān)聯(lián)的需求出發(fā),需要以知識關(guān)聯(lián)理論為指導(dǎo),首先建立文化遺產(chǎn)知識組織與表示模型,實現(xiàn)對文化遺產(chǎn)知識大圖的統(tǒng)一語義表示,同時需要進(jìn)一步從智慧數(shù)據(jù)資源中進(jìn)行關(guān)聯(lián)知識的分析、融合和發(fā)現(xiàn),構(gòu)建通用的、可擴展的文化遺產(chǎn)領(lǐng)域知識大圖,實現(xiàn)多角度、多層次的文化遺產(chǎn)知識全局關(guān)聯(lián)。在此基礎(chǔ)上,研究文化遺產(chǎn)知識大圖的自動構(gòu)建和高效管理方法,以支撐基于文化遺產(chǎn)知識大圖的文化基因提取與分析。
文化基因承載了文化遺產(chǎn)中攜帶的語義信息,是建立起不同文化遺產(chǎn)之間的知識關(guān)聯(lián),實現(xiàn)文化遺產(chǎn)“跨系統(tǒng)、跨地域、跨部門、跨層級、跨業(yè)務(wù)”知識共享、交換和服務(wù)的主要媒介。因此,以文化基因理論為基礎(chǔ),針對文化遺產(chǎn)領(lǐng)域研究、展覽、教育等方面的知識服務(wù)需求,研究基于文化遺產(chǎn)知識大圖的智能檢索與推薦、精準(zhǔn)知識問答、輔助考古、遠(yuǎn)程數(shù)字展覽等關(guān)鍵技術(shù),對文化遺產(chǎn)蘊涵的文化基因進(jìn)行提取和利用,提升文化遺產(chǎn)智能服務(wù)水平,傳承和發(fā)展中華優(yōu)秀傳統(tǒng)文化。提取出的文化基因作為智慧數(shù)據(jù)的一種形態(tài),進(jìn)一步對文化遺產(chǎn)知識大圖進(jìn)行知識補全,使得整個文化遺產(chǎn)知識體系更為完備。
綜合來看,該理論框架通過互相關(guān)聯(lián)的內(nèi)外兩層循環(huán),從知識關(guān)聯(lián)視角融合了現(xiàn)有的理論,形成具有內(nèi)在邏輯關(guān)系的有機整體,指導(dǎo)文化遺產(chǎn)知識大圖的研究,驅(qū)動全生命周期的知識大圖處理與應(yīng)用。例如,周莉娜等[16]使用智慧數(shù)據(jù)資源建設(shè)理論,針對唐詩領(lǐng)域知識圖譜服務(wù)需求,構(gòu)建唐詩本體模型,建立唐詩領(lǐng)域的概念體系,并在知識關(guān)聯(lián)理論的指導(dǎo)下建立唐詩知識圖譜,實現(xiàn)唐詩領(lǐng)域海量知識的關(guān)聯(lián)與存儲,最后以文化基因理論為基礎(chǔ),提取詩歌的意象、情感、用典、詩人的行跡與關(guān)系等文化基因,并在此基礎(chǔ)上提供唐詩領(lǐng)域的智能化知識服務(wù),包括詩歌的智能問答、詩人行跡的時空分析等。這表明該理論框架能夠有效應(yīng)用于實際,在后續(xù)文化遺產(chǎn)知識大圖研究中發(fā)揮指導(dǎo)作用。
文化遺產(chǎn)知識大圖研究的基礎(chǔ)是文化遺產(chǎn)知識大圖構(gòu)建。文化遺產(chǎn)知識大圖構(gòu)建的路徑為:建立知識組織與表示模型,文化遺產(chǎn)大數(shù)據(jù)知識關(guān)聯(lián)分析,關(guān)聯(lián)知識融合與發(fā)現(xiàn),以及設(shè)計人機協(xié)同的迭代式構(gòu)建框架。文化遺產(chǎn)領(lǐng)域的特殊性給文化遺產(chǎn)知識大圖的構(gòu)建與應(yīng)用帶來了以下挑戰(zhàn):首先,如何統(tǒng)一組織和表示文化遺產(chǎn)領(lǐng)域知識,緩解多源異構(gòu)、時序高維的文化遺產(chǎn)數(shù)據(jù)資源之間存在的語義鴻溝;其次,由于文化遺產(chǎn)包含豐富的歷史背景和文化內(nèi)涵,文化遺產(chǎn)知識大圖的構(gòu)建需要領(lǐng)域?qū)<业纳疃葏⑴c,如何建立人機協(xié)同的知識大圖構(gòu)建機制,同時提高構(gòu)建的質(zhì)量和效率;最后,面向文化遺產(chǎn)的應(yīng)用需求,如何基于文化遺產(chǎn)知識大圖提供智能服務(wù),實現(xiàn)文化遺產(chǎn)的活化利用和創(chuàng)新性發(fā)展。
針對以上挑戰(zhàn),文化遺產(chǎn)知識大圖的構(gòu)建和應(yīng)用的解決方案為:首先,基于知識關(guān)聯(lián)建立文化遺產(chǎn)領(lǐng)域的知識組織與表示模型,形成知識大圖構(gòu)建的領(lǐng)域知識體系基礎(chǔ);其次,在文化遺產(chǎn)領(lǐng)域知識統(tǒng)一組織與表示的基礎(chǔ)上,從文化遺產(chǎn)大數(shù)據(jù)中發(fā)現(xiàn)并融合關(guān)聯(lián)知識,通過人機協(xié)同的方式建立文化遺產(chǎn)知識大圖,設(shè)計多主體協(xié)同機制提高領(lǐng)域?qū)<抑R貢獻(xiàn)的質(zhì)量,同時充分利用智能計算技術(shù)提高構(gòu)建的效率;最后,提出文化遺產(chǎn)知識大圖的查詢、推理和呈現(xiàn)方法,面向文化遺產(chǎn)領(lǐng)域的應(yīng)用需求,提供智能知識服務(wù)。本章結(jié)合以上方案,總結(jié)出知識關(guān)聯(lián)視角下文化遺產(chǎn)知識大圖研究的三類方法:模型驗證法、協(xié)同構(gòu)建法和關(guān)聯(lián)分析法,并在此基礎(chǔ)上建立文化遺產(chǎn)知識大圖研究的方法體系。
3.1.1模型驗證法
模型驗證法是在一定的標(biāo)準(zhǔn)規(guī)范基礎(chǔ)上,建立文化遺產(chǎn)知識組織與表示模型,對文化遺產(chǎn)知識進(jìn)行語義標(biāo)注、概念提取和組織表示的方法,可以解決多模態(tài)數(shù)據(jù)資源的語義鴻溝問題,建立文化遺產(chǎn)領(lǐng)域知識表示體系,支撐文化遺產(chǎn)知識資源的關(guān)聯(lián)聚合。從底層語義描述框架角度,模型驗證法可以分為三種類型:基于主題詞表的方法、基于元數(shù)據(jù)的方法和基于本體的方法。
基于主題詞表的模型驗證方法采用領(lǐng)域術(shù)語描述資源的語義特征,其適用于獨立的數(shù)據(jù)資源描述。如王曉光等提出一種主題詞表模型,對數(shù)字圖像中的底層視覺特征、對象特征和語義特征進(jìn)行語義層次拆分,以細(xì)粒度方式實現(xiàn)了敦煌壁畫數(shù)字圖像的語義描述[17]。
基于元數(shù)據(jù)的模型驗證法采用元數(shù)據(jù)元素描述資源的語義特征。目前,已有成熟的元數(shù)據(jù)標(biāo)準(zhǔn)框架被廣泛運用,包括CIDOC CRM、DC、CDWA等。由于文化遺產(chǎn)數(shù)據(jù)資源在形式和內(nèi)容上相較通用領(lǐng)域的數(shù)據(jù)資源具有領(lǐng)域?qū)I(yè)性,研究者大多在這些框架的基礎(chǔ)上做進(jìn)一步改進(jìn),如許鑫等在利用DC元數(shù)據(jù)中的12個元素基礎(chǔ)上,添加“所屬批次”“遺產(chǎn)等級”等元素來描述非物質(zhì)文化遺產(chǎn)[18];Ye 等基于我國非物質(zhì)文化遺產(chǎn)數(shù)字化保護項目的調(diào)研分析,提出了CIDOC CRM中適用于我國非物質(zhì)文化遺產(chǎn)語義描述的元數(shù)據(jù)元素,并討論了其適用范圍[19]。
基于本體的模型驗證方法是在元數(shù)據(jù)框架的基礎(chǔ)上引入規(guī)范的類別定義對資源進(jìn)行體系化的組織。例如,何琳等將先秦典籍從內(nèi)容上分為“軍事、政治、外交、婚姻、民生”五個核心類別,歸納出面向典籍的本體模型,實現(xiàn)了對典籍內(nèi)容特征的統(tǒng)一[20]。在非物質(zhì)文化遺產(chǎn)領(lǐng)域,Dou等選取行為人、事物、事件、時間、地點作為主要類別,并從CIDOC CRM框架中提取屬性定義概念間的關(guān)系,構(gòu)建中國傳統(tǒng)節(jié)氣的領(lǐng)域本體[21]。
模型驗證法可以較好地應(yīng)對多源異質(zhì)文化遺產(chǎn)數(shù)據(jù)資源帶來的挑戰(zhàn),支撐文化遺產(chǎn)知識資源的建設(shè)。針對不同模態(tài)的文化遺產(chǎn)數(shù)據(jù),研究者可以選擇適合的描述框架并進(jìn)行調(diào)整和改進(jìn),從而準(zhǔn)確、完整地刻畫文化遺產(chǎn)多層次、多角度的語義特征與內(nèi)涵,為文化遺產(chǎn)知識大圖研究提供底層邏輯。在具體案例中,可以依據(jù)構(gòu)建的知識資源的結(jié)構(gòu)特性作統(tǒng)計分析和可視化分析,從而對模型進(jìn)行評價和驗證。
3.1.2協(xié)同構(gòu)建法
文化遺產(chǎn)知識存在多角度、多層次的復(fù)雜關(guān)聯(lián),因此需要進(jìn)一步發(fā)現(xiàn)并建立知識間的語義關(guān)聯(lián),將文化遺產(chǎn)知識資源轉(zhuǎn)變?yōu)楦呒壍臄?shù)據(jù)組織形態(tài):文化遺產(chǎn)知識大圖。然而,現(xiàn)實世界的文化遺產(chǎn)知識資源形式多樣、體量龐大、關(guān)聯(lián)類型豐富、語義結(jié)構(gòu)復(fù)雜,借助單一的人力和機器在短時內(nèi)都難以完成資源的有效組織,因此往往采用協(xié)同構(gòu)建方法完成。協(xié)同構(gòu)建法是指以文化遺產(chǎn)領(lǐng)域研究人員作為協(xié)同主體,采用眾包、人在環(huán)路等協(xié)同策略實現(xiàn)知識資源的關(guān)聯(lián),構(gòu)建文化遺產(chǎn)知識大圖的方法。
協(xié)同構(gòu)建法多采用人機協(xié)同的方式,需要研究者對文化遺產(chǎn)的主題、類目、關(guān)聯(lián)類型等進(jìn)行定義和描述,運用智能計算技術(shù)從知識資源中抽取和發(fā)現(xiàn)關(guān)聯(lián)知識,并對部分結(jié)果進(jìn)行人工驗證和修正。協(xié)同構(gòu)建法基于一定的知識關(guān)聯(lián)模型對知識資源進(jìn)行有效的組織和融合,常用的知識關(guān)聯(lián)模型主要包含主題圖、關(guān)聯(lián)數(shù)據(jù)和知識圖譜三種。
主題圖采用主題、關(guān)聯(lián)和資源指引三個基本要素實現(xiàn)資源的有效組織[22]。在協(xié)同構(gòu)建過程中,需要自主定義主題類別和主題關(guān)聯(lián),然后運用工具完成主題編輯和瀏覽。例如,施旖等針對黃梅戲領(lǐng)域通過借鑒、查找和抽取獲取主題詞和關(guān)聯(lián)詞,運用OKS知識開發(fā)組件構(gòu)建主題圖[23]。
關(guān)聯(lián)數(shù)據(jù)的處理對象往往是體量龐大、多質(zhì)異構(gòu)的數(shù)據(jù),需要不同機構(gòu)的協(xié)同獲取和整理,并基于鏈接特性使用機器實現(xiàn)知識關(guān)聯(lián)。如瑞典國家圖書館的LIBRIS項目[24]、英國的國家書目項目[25]、美國國會圖書館的BIBF RAME 項目[26]、歐洲數(shù)字圖書館的Europeana項目[27]等,根據(jù)不同文化機構(gòu)提供的數(shù)據(jù)源,通過執(zhí)行元數(shù)據(jù)語義化操作,對跨機構(gòu)、跨領(lǐng)域的文化語義資源進(jìn)行關(guān)聯(lián)整合,形成一個語義關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò),支持信息發(fā)布和檢索等應(yīng)用服務(wù)。除此之外,Nuno Freire等人提出引入外部成熟的Web技術(shù)構(gòu)建聚合元數(shù)據(jù)資源,為關(guān)聯(lián)數(shù)據(jù)的協(xié)同構(gòu)建提供了多元化的協(xié)同方案[28]。
知識圖譜構(gòu)建需要人和智能計算模型進(jìn)行多主體的協(xié)同構(gòu)建。歐陽劍等采用“題目+編撰者”的規(guī)則模板來融合多源異構(gòu)的典籍?dāng)?shù)據(jù),并在操作界面中加入人工干預(yù)來編輯和校驗結(jié)果[29]。除此之外,Liu等通過大眾協(xié)同對百度百科、維基百科等網(wǎng)站的中國古代歷史文化數(shù)據(jù)進(jìn)行標(biāo)注,采用深度學(xué)習(xí)模型從語料中挖掘朝代、地點、人物等實體并識別彼此間的語義關(guān)系[30]。
協(xié)同構(gòu)建法可以實現(xiàn)文化遺產(chǎn)知識資源的進(jìn)一步關(guān)聯(lián)融合,為文化遺產(chǎn)知識大圖的構(gòu)建與研究提供關(guān)聯(lián)知識。關(guān)聯(lián)知識的融合可以減少知識大圖中的知識冗余,確保關(guān)聯(lián)知識指向的準(zhǔn)確性與一致性,并將關(guān)聯(lián)知識集合轉(zhuǎn)化為知識大圖,促進(jìn)了知識的整合。關(guān)聯(lián)知識融合主要有兩種策略,一種是將關(guān)聯(lián)知識中的實體與知識大圖中的知識單元進(jìn)行鏈接,如果兩個實體鏈接到同一個知識單元,則兩個實體可以融合;另一種策略是計算實體的語義相似度,如果相似度大于閾值,則兩個實體可以融合。
協(xié)同構(gòu)建方法一方面通過領(lǐng)域?qū)<业膮⑴c提高了關(guān)聯(lián)知識的準(zhǔn)確性,另一方面也充分利用智能計算技術(shù)實現(xiàn)了高效可擴展的構(gòu)建過程。
3.1.3關(guān)聯(lián)分析法
關(guān)聯(lián)分析法是從文化遺產(chǎn)大數(shù)據(jù)中抽取和發(fā)現(xiàn)多維度、多層次知識關(guān)聯(lián)的方法。該方法基于文化遺產(chǎn)知識大圖實現(xiàn)文化遺產(chǎn)知識關(guān)聯(lián)查詢、推理、應(yīng)用等智能服務(wù)并通過可視化、虛擬建模等方式對關(guān)聯(lián)知識進(jìn)行演繹和呈現(xiàn),從而更好地理解、保護和傳承文化遺產(chǎn)資源。關(guān)聯(lián)分析法從分析手段上主要劃分為三類,分別是關(guān)聯(lián)查詢、關(guān)聯(lián)推理和關(guān)聯(lián)呈現(xiàn)。
關(guān)聯(lián)查詢基于自然語言處理技術(shù)理解用戶的搜索意圖,運用關(guān)聯(lián)查詢語言獲取知識大圖中滿足檢索需求的關(guān)聯(lián)知識。例如,侯西龍等通過將項目類型、代表性傳承人物、地理位置等實體映射到RDF數(shù)據(jù)模型中構(gòu)建非物質(zhì)文化遺產(chǎn)關(guān)聯(lián)數(shù)據(jù)集,可用于查詢非物質(zhì)文化遺產(chǎn)項目類別間層次關(guān)系、傳承人間的傳承關(guān)系等[31]。周莉娜等聚焦到唐詩領(lǐng)域,結(jié)合詩歌-詩人及時空經(jīng)歷本體構(gòu)建唐詩知識圖譜,用于支持唐詩領(lǐng)域的關(guān)聯(lián)知識查詢和獲取,如詩人的引用關(guān)系、詩歌在情感、意象、典故等不同維度的關(guān)聯(lián)[16]。關(guān)聯(lián)查詢的目的是在文化遺產(chǎn)知識大圖中快速定位和獲取目標(biāo)關(guān)聯(lián)知識。
關(guān)聯(lián)推理是從文化遺產(chǎn)知識大圖中通過信息整合、邏輯推導(dǎo)的方式從已有的關(guān)聯(lián)信息中發(fā)現(xiàn)新的關(guān)聯(lián)知識,從而進(jìn)一步豐富知識大圖。例如,夏翠娟等基于RDF模型構(gòu)建家譜知識關(guān)聯(lián)數(shù)據(jù),將人、地、時等不同類型的實體串聯(lián)為遷徙事件,并基于共同的先祖名人進(jìn)行關(guān)聯(lián)檢索,從而推理出古代名人的遷徙路線[32]。關(guān)聯(lián)推理實際上是對關(guān)聯(lián)查詢獲取的知識在邏輯和事理上作進(jìn)一步的分析,發(fā)現(xiàn)潛在的知識關(guān)聯(lián)。
關(guān)聯(lián)呈現(xiàn)將知識大圖中的關(guān)聯(lián)知識通過可視化的方式展現(xiàn)出來,輔助研究者進(jìn)一步分析和挖掘潛在知識。例如,王偉等以湖口青陽腔為例,將時間和地域兩個維度耦合進(jìn)行傳承可視化研究,運用社會網(wǎng)絡(luò)分析和地理信息可視化生成青陽腔藝人的傳承時間和傳承地域關(guān)系圖,從中分析出不同派系的核心傳承人物、上下位傳承特點等[33]。
關(guān)聯(lián)分析法與前兩種方法的區(qū)別是基于知識關(guān)聯(lián)從已有的文化遺產(chǎn)知識大圖中挖掘和產(chǎn)出更深層次和更廣維度的知識。關(guān)聯(lián)分析法可以借助不同的知識關(guān)聯(lián)技術(shù)手段,從人、時、地等不同維度對文化遺產(chǎn)知識大圖中的研究對象進(jìn)行定性或定量的實證分析,支撐文化遺產(chǎn)領(lǐng)域的智慧知識服務(wù)。
文化遺產(chǎn)數(shù)據(jù)資源需要基于知識關(guān)聯(lián)形成知識大圖才能為文化遺產(chǎn)的傳承和傳播提供智慧化服務(wù),如何將價值密度稀疏、模態(tài)語義復(fù)雜的數(shù)據(jù)資源轉(zhuǎn)化為知識大圖,并實現(xiàn)基于知識大圖的智能服務(wù),需要一個完整的方法體系作為支撐。結(jié)合知識關(guān)聯(lián)視角下的文化遺產(chǎn)知識大圖研究理論基礎(chǔ)和技術(shù),本文提出適應(yīng)大數(shù)據(jù)環(huán)境、滿足智能服務(wù)需求、具有文化內(nèi)涵的方法體系,為文化遺產(chǎn)“活起來”提供解決方案。
本文以數(shù)字人文學(xué)者提出的一般方法論為基礎(chǔ),從文化遺產(chǎn)知識大圖構(gòu)建流程出發(fā),提出文化遺產(chǎn)知識大圖研究的方法體系,如圖3所示。該方法體系由理論層、技術(shù)層、資源層、方法層共同構(gòu)成。其中,理論層以知識關(guān)聯(lián)理論為核心,智慧數(shù)據(jù)資源建設(shè)理論和文化基因理論為重要組成部分。技術(shù)層包含了實現(xiàn)和運用知識關(guān)聯(lián)的相關(guān)智能計算技術(shù),如信息抽取、語義挖掘、知識組織、數(shù)字孿生、虛擬現(xiàn)實、增強現(xiàn)實等。資源層是文化遺產(chǎn)知識大圖研究過程中使用到的以不同結(jié)構(gòu)形態(tài)存在的文化遺產(chǎn)資源,包含數(shù)據(jù)資源、知識資源、知識大圖和智能服務(wù)資源。方法層由模型驗證法、協(xié)同構(gòu)建法和關(guān)聯(lián)分析法構(gòu)成,屬于方法體系的核心部分,在理論層的指導(dǎo)和技術(shù)層的支持下完成文化遺產(chǎn)知識大圖構(gòu)建過程資源層中不同形態(tài)資源間的轉(zhuǎn)化任務(wù)。方法體系利用了數(shù)字人文的“五原語論”和“七原語論”,包括發(fā)現(xiàn)(discovering)、參考(referring)、收集(collecting)、注釋(annotating)、比較(comparing)、發(fā)布(delivering)、說明(illustrating)、表示(representing)等不同類型的原語[34-35]。
方法與資源轉(zhuǎn)化過程的對應(yīng)關(guān)系來源于資源轉(zhuǎn)化需求的不同,如數(shù)據(jù)資源的語義化處理過程需要規(guī)范化的框架定義;知識資源的組織過程具有大體量、豐富關(guān)聯(lián)的特性,需要多要素間的協(xié)同配合來提升知識資源的構(gòu)建效率;知識大圖需要平臺資源下的科學(xué)實證保證智慧服務(wù)的精準(zhǔn)化。在此基礎(chǔ)上,三種方法都隨著文化遺產(chǎn)知識大圖研究的發(fā)展而不斷演進(jìn)。模型驗證法從非結(jié)構(gòu)化的歷史文本或數(shù)字圖像中提取滿足語義框架的元數(shù)據(jù),對文化遺產(chǎn)作注釋和表示;協(xié)同構(gòu)建法逐步利用專業(yè)化工具平臺組織文化遺產(chǎn)工作者進(jìn)行協(xié)作標(biāo)注;關(guān)聯(lián)分析法在知識大圖的基礎(chǔ)上分析或推理文化遺產(chǎn)的知識關(guān)聯(lián),支持文化遺產(chǎn)的知識服務(wù)和傳承傳播。
在文化遺產(chǎn)資源轉(zhuǎn)化過程中,我們提出的方法體系結(jié)合了數(shù)字人文方法論中的原語,如模型驗證法通過發(fā)現(xiàn)和參考對數(shù)據(jù)資源進(jìn)行預(yù)處理,而后通過組織和表示產(chǎn)出知識資源。
圖3 文化遺產(chǎn)知識大圖研究的方法體系Fig.3 Methodology for the Study of the Big Knowledge Graph of Cultural Heritage
目前,文化遺產(chǎn)知識大圖研究的理論和方法正在不斷發(fā)展。理論上,文化遺產(chǎn)知識大圖研究服務(wù)于文化遺產(chǎn)數(shù)字化保護、傳承和傳播,因此,文化遺產(chǎn)研究者在關(guān)注知識關(guān)聯(lián)理論的同時,聚焦于拓展和深化文化基因相關(guān)理論。方法上,由于文化遺產(chǎn)數(shù)據(jù)資源的急速增長與智慧服務(wù)需求不斷涌現(xiàn),人類與機器的高效協(xié)作產(chǎn)生文化遺產(chǎn)認(rèn)知智能。因此,人機交互的新方法將成為熱點研究問題。數(shù)據(jù)資源上,需要探索融合多模態(tài)資源,構(gòu)建具有完善體系、超大規(guī)模、全局關(guān)聯(lián)的文化遺產(chǎn)知識大圖,并在此基礎(chǔ)上打造可供沉浸式體驗和分析的數(shù)字空間。我們從研究理論、研究方法和研究目標(biāo)上,將文化遺產(chǎn)知識大圖研究的趨勢概括為以下三點:
(1)形成以文化基因為核心的多學(xué)科融合研究理論
在知識關(guān)聯(lián)視角下,文化遺產(chǎn)知識大圖構(gòu)建需要運用案例挖掘、文化組學(xué)分析等手段從多源異構(gòu)的碎片數(shù)據(jù)中提取出多角度、多層次的關(guān)聯(lián)知識。這些關(guān)聯(lián)知識本質(zhì)上是文化基因的語義表達(dá)。因此,構(gòu)建以文化基因為核心的多學(xué)科融合研究理論,可以在知識層面打通多學(xué)科研究范式,支撐文化遺產(chǎn)知識大圖的跨學(xué)科研究。其中,文化基因作為文化遺產(chǎn)知識大圖研究的核心要素,可以結(jié)合歷史學(xué)、考古學(xué)、文學(xué)、信息管理、計算機科學(xué)、遙感測繪等多學(xué)科的工具方法對其進(jìn)行研究,并結(jié)合多維度的特征進(jìn)行文化基因提取和表征。比如,對于不可移動的文化遺產(chǎn),包括遺址、古建筑等,需要借助遙感測繪學(xué)科的科學(xué)裝置獲取可以反映其地理信息和空間構(gòu)造的圖像數(shù)據(jù)資源,并借助計算機學(xué)科的圖像識別技術(shù)作標(biāo)注,最后運用信息管理學(xué)科的知識組織與表示方法對文化基因進(jìn)行提取和語義關(guān)聯(lián)。
推動該研究理論的形成與完善,需要將研究重心轉(zhuǎn)移到文化基因庫構(gòu)建和基因推理分析兩部分內(nèi)容。文化遺產(chǎn)的視覺特征和蘊涵的豐富語義都屬于文化基因的表征信息,需要基于知識組織理論對這些信息進(jìn)行語義挖掘和融合,形成文化基因庫或文化基因知識大圖。然后,依據(jù)社會網(wǎng)絡(luò)分析理論通過歸納演繹的方式從聚合化的表征知識中推導(dǎo)出共性基因,通過時空分析的方式從網(wǎng)絡(luò)化的基因圖譜中溯源出原始基因,從而形成可溯源、可推導(dǎo)的以關(guān)聯(lián)知識為載體的文化基因。
(2)開創(chuàng)“腦機融合”模式下的科學(xué)實驗研究方法
大數(shù)據(jù)場景下,單一地依賴專家和智能計算技術(shù)都難以勝任文化遺產(chǎn)知識大圖的研究任務(wù),因此人機的高度協(xié)同是研究方法的發(fā)展方向。然而目前的協(xié)同方法并沒有真正意義實現(xiàn)人類智能與機器之間的無縫連接,而是讓人類為機器提供可理解的模式、規(guī)則,或是對機器處理后的結(jié)果進(jìn)行修正和補充,協(xié)同質(zhì)量低、成本高。引入“腦機融合”的模式既可以讓人類認(rèn)知更好地被機器理解運用,又可以將人類在體驗文化遺產(chǎn)時的特定感受和行為作為系統(tǒng)反饋。
“腦機融合”模式下的科學(xué)實驗研究方法,是指運用交互設(shè)備將人類的判斷和決策性思維傳輸?shù)綄嶒炑b置中,控制或參與文化遺產(chǎn)知識大圖的構(gòu)建和服務(wù)過程,實現(xiàn)基于知識關(guān)聯(lián)的人機協(xié)同科學(xué)實驗。從效用層面,此時人類提供的是算法輸入,而機器提供的是算力輸出,二者有機結(jié)合,可以根據(jù)應(yīng)用場景進(jìn)行實時的交互調(diào)控。
該方法一方面可以將人類的知識、經(jīng)驗輸入到機器中完成一系列文化遺產(chǎn)知識大圖研究。比如文化遺產(chǎn)知識大圖構(gòu)建中的語義標(biāo)注、信息抽取、知識組織等關(guān)鍵任務(wù),將信息轉(zhuǎn)換為決策行為操控機器定位,并識別文化遺產(chǎn)圖片、視頻的視覺要素,標(biāo)注和提取文本資源中術(shù)語、概念,或是對資源進(jìn)行分類組織。另一方面,機器可以使用虛擬或增強現(xiàn)實技術(shù),結(jié)合面部表情捕捉和腦波分析,從知識層面分析文化遺產(chǎn)對用戶心理和行為的影響機制,從而為文化遺產(chǎn)的活化、利用和傳播提供決策支持。
(3)開展基于知識大圖的文化遺產(chǎn)數(shù)字空間構(gòu)建研究
文化遺產(chǎn)作為攜帶多元文化基因的實體,具有極高的歷史價值、文化價值和科學(xué)價值。為了對文化遺產(chǎn)進(jìn)行保護傳承和活化利用,目前的研究和應(yīng)用聚焦于文物數(shù)字展覽、遺址三維復(fù)原、場景虛擬再造等方向,以避免對文化遺產(chǎn)實物造成損害,并實現(xiàn)文化遺產(chǎn)的活化利用。然而,以上研究和應(yīng)用所構(gòu)造的數(shù)字空間是局部的,缺乏語義信息與知識關(guān)聯(lián),難以將文化遺產(chǎn)進(jìn)行完整的、細(xì)粒度和場景化的再現(xiàn),因而無法支撐文化遺產(chǎn)數(shù)字空間構(gòu)建體系化、專業(yè)化和全方位的研究。我們認(rèn)為,在未來研究中不僅要將文化遺產(chǎn)本身的物理屬性從元數(shù)據(jù)和數(shù)字孿生體兩種信息承載形式映射到知識大圖,同時需要將文化遺產(chǎn)間在人物、時間、空間、屬性多個維度上的邏輯關(guān)系映射到知識大圖中的關(guān)聯(lián)中,從而滿足豐富的文化遺產(chǎn)智能語義搜索、知識推理需求。
文化遺產(chǎn)知識大圖將建立多模態(tài)的文化遺產(chǎn)數(shù)據(jù)資源的多角度、多層次的知識關(guān)聯(lián)。目前的考古研究與人工智能技術(shù)結(jié)合的關(guān)鍵是統(tǒng)一多源異質(zhì)的數(shù)據(jù)形態(tài),因此研究如何融合多模態(tài)的信息到知識圖譜中將能夠有效促進(jìn)文化遺產(chǎn)的數(shù)據(jù)資源管理和共享。隨著元宇宙技術(shù)的逐步成熟,基于知識大圖構(gòu)建文化遺產(chǎn)元宇宙將打造一個時空關(guān)聯(lián)、沉浸體驗、交互協(xié)作的文化遺產(chǎn)數(shù)字孿生空間。元宇宙將虛擬世界和現(xiàn)實世界密切融合,因此基于文化遺產(chǎn)知識大圖構(gòu)建元宇宙將真正整合和關(guān)聯(lián)離散的虛擬空間,實現(xiàn)文化遺產(chǎn)“活起來”和數(shù)字記憶的賡續(xù)。人們可以進(jìn)入到文化遺產(chǎn)元宇宙中獲得與真實世界中完全相同的虛擬體驗,充分感知文化遺產(chǎn)的價值和魅力。
近年來,已經(jīng)有一些研究工作在以上方向上進(jìn)行了嘗試。例如,周莉娜等人融合詩學(xué)、文獻(xiàn)學(xué)和史學(xué)三大學(xué)科,對唐詩領(lǐng)域文化基因作了深入挖掘,并從量化的、客觀的、動態(tài)的視角建立唐詩知識關(guān)聯(lián)[16];Chen等在構(gòu)建中國古籍?dāng)?shù)字人文研究平臺時,采取人機協(xié)同科學(xué)實驗方法,對人文研究者的使用過程進(jìn)行記錄,目的是了解研究者在角色社交網(wǎng)絡(luò)關(guān)系圖工具的支持下解讀歷史文本和人物社交網(wǎng)絡(luò)關(guān)系時的感知,并開發(fā)了一個內(nèi)嵌在平臺中的監(jiān)控程序,記錄人文研究者使用該平臺的過程[36],該實驗?zāi)軌虼蚱迫藱C間的信息障礙,深度整合人力、算法和算力資源;中國歷代人物傳記資料庫(CBDB)[37]將歷史文獻(xiàn)中的人物信息進(jìn)行全面匯總,再以適合大批量查詢和分析的數(shù)據(jù)形式提供給研究者,將多模態(tài)的信息和多維度的關(guān)聯(lián)融入到知識大圖,實現(xiàn)了數(shù)據(jù)、歷史文獻(xiàn)和可視化圖表的有機融合和深度分析。
基于知識關(guān)聯(lián)構(gòu)建文化遺產(chǎn)知識大圖,可以支撐文化遺產(chǎn)大數(shù)據(jù)的價值分析、發(fā)現(xiàn)與創(chuàng)造。文化遺產(chǎn)知識大圖研究是人文社會科學(xué)與信息技術(shù)相結(jié)合的新的研究方向,經(jīng)過交叉融合逐步形成獨有的理論和方法。首先,我們總結(jié)了在構(gòu)建過程中,多學(xué)科融合背景下形成的三大文化遺產(chǎn)理論基礎(chǔ):智慧數(shù)據(jù)資源建設(shè)理論、知識關(guān)聯(lián)理論和文化基因理論,不同理論貫穿文化遺產(chǎn)知識大圖研究的全生命周期,共同構(gòu)成文化遺產(chǎn)知識大圖研究的理論體系。其次,我們總結(jié)了文化遺產(chǎn)知識大圖的研究方法:模型驗證法、協(xié)同構(gòu)建法和關(guān)聯(lián)分析法,不同方法服務(wù)于文化遺產(chǎn)資源轉(zhuǎn)化的不同階段?;诶碚摰闹笇?dǎo)和技術(shù)的支持,本文構(gòu)建了文化遺產(chǎn)知識大圖研究的方法體系。最后,我們提出了文化遺產(chǎn)知識大圖的研究趨勢:一是逐漸形成以文化基因為核心的跨學(xué)科融合研究理論,指導(dǎo)文化基因庫及文化基因知識大圖的構(gòu)建;二是開發(fā)“腦機融合”模式下的科學(xué)實驗研究方法,解決文化遺產(chǎn)智能計算傳統(tǒng)研究中人類思維無法與機器智能高度融合的挑戰(zhàn);三是開展基于知識大圖的文化遺產(chǎn)數(shù)字空間構(gòu)建,運用數(shù)字孿生、虛擬現(xiàn)實、增強現(xiàn)實等技術(shù)實現(xiàn)文化遺產(chǎn)的數(shù)字活化和場景再造,構(gòu)建文化遺產(chǎn)元宇宙,為未來的文化遺產(chǎn)知識大圖研究打造更廣闊、更智慧的數(shù)字生態(tài)。
目前,文化遺產(chǎn)知識大圖研究還處于初始階段,其產(chǎn)出的關(guān)聯(lián)知識在標(biāo)準(zhǔn)上還沒有形成共識,在質(zhì)量上也缺乏一定的檢驗標(biāo)準(zhǔn)。一方面,研究者基于元數(shù)據(jù)、本體等技術(shù)提出的文化遺產(chǎn)描述框架,雖然從數(shù)據(jù)結(jié)構(gòu)上具有統(tǒng)一性,但在內(nèi)容的描述角度、層次上缺乏統(tǒng)一的標(biāo)準(zhǔn),不具有可遷移性。未來需要綜合分析文化遺產(chǎn)知識服務(wù)的具體需求,從需求層面確立統(tǒng)一的框架標(biāo)準(zhǔn),以進(jìn)一步促進(jìn)不同來源關(guān)聯(lián)知識的融合。另一方面,關(guān)聯(lián)知識的質(zhì)量直接決定了文化遺產(chǎn)智能服務(wù)的質(zhì)量,需要研究者針對關(guān)聯(lián)知識的特征維度提出可量化的質(zhì)量評估標(biāo)準(zhǔn),對文化遺產(chǎn)知識大圖進(jìn)行質(zhì)量檢驗,保證其準(zhǔn)確性、完整性和可用性。
作者貢獻(xiàn)說明
洪亮:提出論文選題與研究框架,撰寫和修改論文;
宋睿,朱麗雅,侯雯君:收集文獻(xiàn)資料,撰寫和修改論文。