念其鋒,李立耀,趙少卡,吳紅霞
(福建技術師范學院a.大數(shù)據(jù)與人工智能學院;b.非遺數(shù)字化與多源信息融合福建省高校工程研究中心,福建福清 350300)
非物質(zhì)文化遺產(chǎn)(intangible cultural heritage,以下簡稱“非遺”,ICH)是國家和民族的寶貴文化財富,彰顯了民族文化和歷史底蘊,必須通過現(xiàn)代化技術和管理手段加以永久保護,使其源遠流長.自20 世紀90 年代初起,隨著互聯(lián)網(wǎng)、虛擬現(xiàn)實、人工智能、大數(shù)據(jù)等數(shù)字化技術的高速發(fā)展,運用數(shù)字化技術手段來保護非遺越來越受到世界各國重視,數(shù)字化技術已成為非遺保護的重要途徑,非遺數(shù)字化是非遺保護研究領域的熱點之一[1].非遺數(shù)字化包括數(shù)據(jù)采集與處理、數(shù)據(jù)存儲、數(shù)據(jù)展示與應用等技術層面.近年來,無論研究深度還是研究廣度,相關理論和技術都得到快速發(fā)展,獲得大量研究成果[1-10].數(shù)據(jù)存儲技術和方法是非遺數(shù)字化保護的基礎,如何高效組織和管理大量的非遺數(shù)據(jù),成為非遺數(shù)字化保護向非遺智能化保護演化的技術瓶頸之一.目前,國內(nèi)外相關非遺機構大多采用傳統(tǒng)的關系型數(shù)據(jù)庫技術,大多根據(jù)自身特定需求而相繼建立特色鮮明、獨立運營的非遺數(shù)據(jù)庫及其應用系統(tǒng).但是,這些非遺數(shù)據(jù)庫之間明顯存在數(shù)據(jù)異構、兼容性差等缺陷,形成“數(shù)據(jù)孤島”而無法實現(xiàn)數(shù)據(jù)共享與融合,限制了非遺數(shù)字化保護的進一步發(fā)展.
每一項非物質(zhì)文化遺產(chǎn)都有自身的生命軌跡,在不同的時間空間內(nèi)持續(xù)演化,具有明顯的動態(tài)性.因此,活態(tài)性是非遺的一個重要特征,體現(xiàn)了非遺項目的傳承和演變情況,必須成為非遺數(shù)字化保護所體現(xiàn)的重要內(nèi)涵.在非遺數(shù)據(jù)的采集、存儲和應用過程中,產(chǎn)生大量具有活態(tài)性的顯性非遺數(shù)據(jù),同時蘊含許多深層次的非遺隱性知識.借助知識建模理論、方法和工具進行非遺知識建模,使非遺知識體系具備可理解性、完備性、可推理性和可解釋性,從而構建非遺知識庫,為非遺數(shù)字化和智能化保護奠定基礎.
本體是語義網(wǎng)的核心技術,是對客觀世界進行明確的形式化和概念化描述,已廣泛應用于人工智能領域.由于在表示非遺概念、非遺屬性及它們之間深層次關系具有明顯優(yōu)勢,國內(nèi)外許多專家學者利用本體技術對非遺領域知識建模,取得了一系列研究成果[2-11].滕春娥等以黑龍江地區(qū)赫哲族為例,構建了非遺知識組織體系,包括確定概念、建立模型和軟件建模三個階段[2].侯西龍等在非遺領域知識要素和語義關系分析基礎上,構建了非遺知識本體模型,并以湖北省非遺項目為例,開發(fā)了非遺知識關聯(lián)數(shù)據(jù)集與知識服務平臺[3].魏清華等在關聯(lián)數(shù)據(jù)技術基礎上,以甘肅省國家級非遺為例,構建甘肅省非遺知識庫[4].何春雨等采用本體和關聯(lián)數(shù)據(jù)技術,以赫哲族非遺資源為例,構建非物質(zhì)文化遺產(chǎn)資源本體庫[5].同樣地,本體工程技術在其它領域知識建模方面也得到了廣泛應用,構建了諸多領域本體[12-16].已有研究成果對非遺知識管理具有重要的應用和參考價值.本文從知識模型的系統(tǒng)性、規(guī)范性等層面出發(fā),運用本體七元組形式對非遺領域知識進行建模,提高本體質(zhì)量.同時,提出了概念沖突檢測算法,有效解決了本體中概念之間繼承關系不一致問題,有效提升非遺知識推理效率.通過構建非物質(zhì)文化遺產(chǎn)領域知識的本體模型,提高了非遺領域知識的共享性和非遺智能化應用前景,對推動非遺數(shù)字化保護具有重要意義.
本體技術已經(jīng)在不同領域中得到廣泛應用,但不同領域本體的構建過程和方法存在較大差異,甚至同一領域本體的構建方法也不一樣,目前還沒有形成一種標準的本體構建方法.然而,本體構建是一個系統(tǒng)性工程,高質(zhì)量的領域本體需要建立在科學的構建準則和構建步驟基礎上.
Gruber[17]在給出本體定義的同時,提出了一種本體構建原則已被廣泛采納和應用,是目前最有影響力的本體構建準則,包括明確性(clarity)、一致性(coherence)、可擴展性(extendibility)、最小編碼偏差(minimal encoding bias)、 最 小 本 體 承 諾(minimal ontological commitment).在此構建準則的基礎上,非遺領域本體可以對非遺領域知識進行形式化表示,可以明確地定義非遺領域中的概念、屬性、關系等,是可重用的和可共享的領域本體.
目前,本體構建方法主要有七步法、骨架法、TOVE 法、METHONLOGY 法、KACTUS 法、IDEF5 法等,其中,七步法是應用較為廣泛的一種本體構建方法,其構建步驟如圖1 所示.在分析本體構建方法和非遺領域知識表示特性的基礎上,以七步法為基礎,結(jié)合自頂向下的本體開發(fā)與建模方法,建立了非遺領域本體知識模型的構建流程,如圖2 所示.
圖1 本體構建步驟
圖2 非遺本體構建流程
在文化遺產(chǎn)知識建模研究領域內(nèi),CIDOC概念參考模型(CIDOC conceptual reference model,CIDOC CRM)[18]是一個兼具理論和實踐的信息融合工具,對構建非遺領域本體具有非常重要的參考價值,對本文ICH-Onto 的概念、關系、屬性的建立也具有借鑒意義.同時,《中華人民共和國非物質(zhì)文化遺產(chǎn)法》、中國非物質(zhì)文化遺產(chǎn)網(wǎng)、各省市地區(qū)非物質(zhì)文化遺產(chǎn)網(wǎng),以及文獻圖書資料都是構建ICH-Onto的信息源,其中包含了海量的非遺知識.因此,系統(tǒng)分析了非遺領域知識,充分挖掘非遺知識的組成因素,通過非遺項目、非遺繼承人、非遺項目類型、非遺項目申報時間、申報單位、申報地區(qū)等方面描述非遺知識,從而得到非遺本體術語.
為了提高基于本體的非遺領域知識模型的系統(tǒng)性和完備性,便于構建非物質(zhì)文化遺產(chǎn)知識模型,根據(jù)非遺知識的特點,本文對非遺領域知識本體ICH-Onto 進行形式化定義.
定義1ICH-Onto =〈C,AC,R,AR,H,I,X〉
其中,C是非遺領域本體中的概念(concepts)集合或類(classes)集合(以下統(tǒng)稱為概念),例如:非遺項目、傳承人、保護單位等;AC是概念的屬性(attributes)集合,例如:一個非遺項目具有名稱和類別等屬性;R是概念間的關系(relations)集合,概念間關系包括定義域和值域兩個部分,而定義域通常為概念,值域可以為概念也可以是取值域,例如:部分和整體的part of 關系;AR是關系屬性集合,是對關系的進一步限制,例如:非遺項目的類別關系只能取《中華人民共和國非物質(zhì)文化遺產(chǎn)法》所規(guī)定的各種傳統(tǒng)文化表現(xiàn)形式,以及與其相關的實物和場所;H表示層次(hierarchies)的集合,通常定義在概念、關系、屬性上,表示對象之間的層次關系,例如:概念A 是概念B 的父類,概念B 是概念A 的子類;I表示實例(instances)的集合,實例具有唯一性;X表示公理(axioms)的集合,每一條公理代表一個斷言(assertion),例如:傳承人繼承(inheritOf)和非遺被繼承(inheritedBy)是互逆關系,傳統(tǒng)戲曲類與傳統(tǒng)醫(yī)藥是不相交的,等等.
定義2存 在 概 念Ci和 概 念Cj, 若Ci≤Cj,則稱Ci為子類,Cj為父類,即Ci繼承于Cj,記為subclassOf(Ci,Cj)或is_A(Ci,Cj).
定義3若概念Ci和概念Cj互為子類,即subclassOf(Ci,Cj)和subclassOf(Cj,Ci)均成立,那么稱概念Ci和概念Cj存在等價關系,記為equivalentTo(Ci,Cj).
定義4若存在任意兩個實例x∈Ci和y∈Cj,如果x和y均不相同,即{Ax∈Ci,Ay∈Cj|x≠y},那么稱概念Ci和概念Cj是不相交的,記為disjointWith(Ci,Cj).
定義5如果x是概念C的實例,記為instanceOf(x,C).
在系統(tǒng)分析非遺領域相關文件、借鑒非遺知識表示方法等基礎上,根據(jù)本體術語和ICH-Onto 本體的定義,ICH-Onto 本體從概念、概念屬性、關系、關系屬性、概念層次、實例、公理等七個方面來構建.
2.2.1 ICH-Onto 的概念及其層次關系
為充分地對非遺知識進行系統(tǒng)性表示,在借鑒其它文獻和咨詢非遺專家基礎上,非遺領域本體ICH-Onto 的概念定義如下.
定義6ICH-Onto Classes = {Project, Person,Organization, Region, Category, Matter, Event,Document}
其中,Project 指非物質(zhì)文化遺產(chǎn)項目,可以是國家級非遺代表性項目名錄項,亦可以為各省、自治區(qū)、直轄市人民政府建立的地方非遺代表性項目名錄項;Person 是指非遺代表性項目的代表性傳承人;Organization 是指非遺代表性項目的保護單位;Region 是指非遺代表性項目的申報地區(qū)或單位;Category 是指非遺代表性項目的類別;Matter 是指與非遺代表性項目相關的事物,如圖片、視頻、實物等;Event 是指與非遺代表性項目相關的事件或活動等;Document 是指與非遺代表性項目有關的文獻資料.
ICH-Onto 本體主要由非遺項目、傳承人、保護單位、所屬地區(qū)、項目類別、項目事物、項目事件、項目文獻等核心概念組成,核心概念及其屬性如表1 所示.
表1 ICH-Onto 核心概念及其屬性
概念間層次關系用來描述本體概念與概念之間的層次關系,ICH-Onto 本體中主要包含了3種概念間層次關系:子類關系subclassOf、等價關系equivalentTo、不相交關系disjiontWith.
2.2.2 ICH-Onto 對象屬性及其限制
屬性分為數(shù)據(jù)屬性(Data properties)和對象屬性(Object properties).其中,對象屬性用于描述概念之間的關系,其定義域和值域均為概念,例如:對象屬性inheritedBy 的定義域(Domains)為非遺項目概念,值域(Ranges)為傳承人.對象屬性包含功能性(Functional)、反向功能性(Inverse functional)、傳遞性(Transitive)、對稱性(Symmetric)、非對稱性(Asymmetric)、自反性(Reflexive)和非自反性(Irreflexive)等特性,其使用方法如表2 所示.
表2 對象屬性的特性
續(xù)表2
當定義域為概念,值域為取值域時,該關系屬性就變?yōu)閿?shù)據(jù)屬性,用于描述對象與數(shù)據(jù)類型之間的關聯(lián)值.例如:對象屬性hasName的定義域可以為傳承人或非遺項目,值域為傳承人姓名或非遺項目名稱,數(shù)據(jù)類型為字符串string.圖3 給出了非遺領域本體ICH-Onto 主要的對象屬性和數(shù)據(jù)屬性.
圖3 ICH-Onto 本體的主要對象屬性和數(shù)據(jù)屬性
2.2.3 ICH-Onto 公理
在本體工程中,公理代表一系列的事實、約束條件和推理規(guī)則.ICH-Onto 中定義的公理用于約束概念間、概念屬性間的關系,有概念間的等價關系、概念間的子類關系、概念間的不相交關系、概念屬性間的傳遞(transitive)、對稱(symmetric)、非對稱(asymmetric)等關系.例如,高甲戲是閩南地方戲曲劇種之一,又名戈甲戲、九角戲、大班、土班.高甲戲就是一種概念的存在公理,表示概念通過其名字唯一確定;另外,高甲戲是閩南地方戲曲的子類,構成子類關系公理;高甲戲又名戈甲戲,說明高甲戲和戈甲戲是等價關系公理.
2.2.4 ICH-Onto 本體概念沖突檢測算法
在構建非遺領域本體ICH-Onto 中,定義了數(shù)量較多的概念,概念與概念之間的關系較為復雜,可能會出現(xiàn)概念間沖突情況.例如,存在Ca?Cb,Cb?Cc而disjoinWith(Ca,Cc),這是一種概念間關系沖突情況.再有,存在Ca?Cb,Cb?Cc,Cc?Ca這也是一種明顯的概念間關系沖突錯誤.
隨著ICH-Onto 的擴展,這種概念間沖突存在的可能性將會明顯增加.因此,為了提高非遺領域本體ICH-Onto 的正確性和健壯性,需要消除本體概念間問題沖突.本文運用描述邏輯語言提出了本體概念間沖突檢測算法,具體過程如下.
(2)將ICH-Onto 每個概念Ci看成頂點vi,兩個概念之間繼承關系構成有向邊ei,則G=(V,E)是一個有n個頂點的有向圖,其鄰接矩陣的定義如下:
(3)定義一個表示概念間關系的不相交的二維矩陣Disjoint[i][j],如下:
(4)任取Disjoint[i][j]=1 的兩個頂點vi和vj,分別從vi和vj出發(fā),利用深度優(yōu)先搜索算法DFS,查詢從頂點vi到頂點vj的路徑.如果找到一條有向連通路徑,說明本體中存在概念間關系沖突現(xiàn)象,跳到步驟(6),否則,繼續(xù)查找下一對頂點,直到Disjoint[i][j]=1 的所有頂點對都搜索完畢.
(5)運用廣度優(yōu)先搜索算法BFS,查找圖G中是否存在閉環(huán).如果存在閉環(huán),表明本體中存在概念間關系沖突現(xiàn)象,則跳到步驟(6).
(6)算法結(jié)束.
在非遺領域知識建模的準則基礎上,深入分析非遺領域知識體系,運用主流的本體開發(fā)語言OWL(Web Ontology Language),定義非遺本體的概念、關系、屬性、層次、公理,并進行實例化,從而構建了非遺領域知識本體ICH-Onto,收集整理了福建省國家級非物質(zhì)文化遺產(chǎn)代表性項目數(shù)據(jù),部分數(shù)據(jù)如表3 所示.借助Protégé 5.5.0 本體軟件構建和實現(xiàn)了非遺領域本體ICH-Onto,圖4 顯示ICH-Onto的部分本體模型.
圖4 非物質(zhì)文化領域本體模型
表3 福建省國家級非遺項目(部分)
數(shù)字化技術手段是非物質(zhì)文化遺產(chǎn)保護的重要途經(jīng),而非遺知識建模進一步提升了非遺數(shù)字化保護技術內(nèi)涵,使非遺領域數(shù)據(jù)具有語義內(nèi)涵,對非遺保護和智能化應用具有非常重要的意義.本文在系統(tǒng)分析非遺領域數(shù)據(jù)管理和數(shù)據(jù)應用現(xiàn)狀的基礎上,采用七步法構建了非遺領域本體ICH-Onto,該本體能夠系統(tǒng)全面地展示非遺概念和非遺概念間關系,具有完整性和完備性.本文提出了基于有向圖的本體概念間關系沖突檢測算法,能夠有效地檢測概念間關系沖突,提高了本體質(zhì)量,為本體的進一步擴展和應用奠定堅實基礎.以福建省國家級非遺項目為例,對非遺領域本體ICH-Onto進行實例化,結(jié)果進一步表明ICH-Onto 的應用價值和可操作性.雖然采用本體技術對非遺領域進行知識建模,提高了非遺領域知識共享和應用前景,但由于國內(nèi)外本體建模方法尚未形成統(tǒng)一標準,人工構建本體方法工程量大且效率不高,自動化或半自動化構建本體方法將成為重要的發(fā)展趨勢.因此,構建非遺領域本體的意義不僅在于建立一個可共享的知識庫,更是未來智能服務和智能應用的必然基礎,也將為非物質(zhì)文化遺產(chǎn)數(shù)字化、智能化保護提供數(shù)據(jù)和知識支撐.