章維亞 楊世瀚
摘 ?要:智慧博物館的發(fā)展為藏品信息的知識化組織提出了新的需求,基于本體工程學的方法,提出博物館藏品信息的知識化結構模型,構建博物館領域本體,建立推理引擎,充分表達和發(fā)展博物館領域的知識體系,并開發(fā)博物館領域的智能應用系統(tǒng)。以博物館藏品信息為中心的博物館本體知識庫既克服了傳統(tǒng)的賬目式信息結構的不足,又可表達藏品的展覽信息、文化信息、美學信息、傳播信息等重要的非物質信息。本文基于博物館本體知識庫開發(fā)了一個智能應用。
關鍵詞:智慧博物館;藏品知識結構;本體工程;本體語言
中圖分類號:TP391;G264 ? ? ?文獻標識碼:A 文章編號:2096-4706(2019)17-0001-05
Abstract:The development of wisdom museum has put forward new demands for the knowledge organization of collections information,which is based on ontology engineering method. This paper proposes a knowledge structure model of museum collection information,constructs museum domain ontology,establishes reasoning engine,fully expresses and develops museum domain knowledge system,and develops intelligent application system in museum domain. The museum ontology knowledge base centered on museum collection information not only overcomes the shortcomings of traditional accounting information structure,but also expresses important intangible information such as exhibition information,cultural information,aesthetic information and dissemination information. This paper develops an intelligent application based on museum ontology knowledge base.
Keywords:intelligent museum;collections’knowledge structure;ontology engineering;ontology language
0 ?引 ?言
博物館的核心是藏品,博物館信息管理系統(tǒng)中只有藏品的物質信息,更有意義的非物質信息從來沒有被組織起來。傳統(tǒng)的基于關系數據庫的藏品信息管理方法和技術,曾經對博物館信息化發(fā)展起到了巨大的作用[1]。隨著智慧博物館的發(fā)展和興起,傳統(tǒng)的關系數據庫信息結構受到較大的挑戰(zhàn),新的博物館知識庫尚沒有建立起來,智慧博物館還依然停留在概念階段。智慧博物館要求所有信息互聯(lián)互通,對知識分享和傳播提出更高的要求,“以人為本”的“物、人、數據”三者之間動態(tài)雙向多元信息傳遞模式是智慧博物館的主要特征[2],這里的“多元信息”即可以理解為知識,知識是信息更高層次的抽象,它提煉了信息之間的關系,它把相關信息組織在一起形成了知識化的信息結構,它是智慧博物館的數據結構基礎之一。同時,智慧博物館理念下的藏品信息外延也不斷擴大,博物館藏品不僅具有物質上的信息,如材質、尺寸、年代等,更重要的是其背后的文化歷史信息、藝術信息、美學信息等,所以博物館藏品信息結構不僅需要類目和管理信息,更需要包含藏品的其他相關信息,這也是對博物館的信息知識化組織的基本要求,而傳統(tǒng)的博物館信息系統(tǒng)對這些非物質信息從來沒有組織起來。
信息的知識化組織是一個復雜的信息工程過程。作為知識描述的重要手段,本體是領域本體工程的核心概念。知識本體[3]是共享的概念模型之形式化規(guī)范說明。博物館領域知識本體的構建是博物館知識工程的一部分,是博物館界亟待建立的博物館領域本體,它必須兼容遺留的藏品物質信息,也必須涵蓋藏品的非物質信息。博物館領域本體工程是對博物館領域知識進行構建、組織、維護和管理的標準化軟件工程過程,這個過程包括領域知識分析原則與方法,領域本體設計、構建、開發(fā)之方法和工具,本體的維護、測試、驗證、評價、共享與重用等內容。
1 ?本體工程開發(fā)模型
一個好的領域本體具有以下幾個特征[4-6]:客觀清晰、完整性、一致性、最小承諾和單調可擴展性。領域本體工程是一個領域知識獲取的過程,一般分成需求分析和領域分析、確定領域范圍、考慮重用、列舉術語、定義類、定義屬性、定義限制、增加實例等幾個階段,在建模的每個階段都有驗證或評估的要求動作,這個過程是不斷迭代和不斷精化的過程。
1.1 ?需求分析和領域分析
進行需求、領域和用例分析是任何軟件工程設計的關鍵階段。這個階段允許本體工程師夯實工作基礎,并確定各個工作任務的優(yōu)先次序。領域專家在這個階段的工作尤為重要,是起決定作用的。分析階段必須做到:明確定義知識的性質和本體的能力,使即將要構建的本體可以通過推理機能回答的問題;確定體系結構;考量使用傳統(tǒng)知識工程方法的有效性問題等。
這個階段的主要目的是要考慮基于本體的應用程序能夠良好地進行系統(tǒng)演化或者進行動態(tài)的知識演化、能夠支持與其他系統(tǒng)(如眾多的遺留系統(tǒng))的互操作性、促進和增強系統(tǒng)與用戶的接口、促進領域術語和概念的標準化工作等。
在處理知識的時候,特別強調要區(qū)別對待這些信息:聲明性領域知識和過程性領域知識,即是什么和怎么樣的知識;本體和解決問題的方法,本體是知識的載體,解決問題的方法是知識的使用過程;可變知識和不變知識,一般背景知識是不可變的,行業(yè)的新理念、新方法、新技術等不斷發(fā)展變化的知識;知識的來源和知識的可信任水平,一般知識的來源不同,則可信任水平不同。
1.2 ?確定領域范圍
這個階段要明確回答這些問題:構建的本體將被用來做什么?構建智能應用,語義查詢還是知識挖掘?軟件實現的時候本體將怎樣被使用?多用于推理還是查詢?本地使用還是分布式使用?共享方式是什么?我們希望本體知道什么,即表達什么樣的知識?我們想要的知識的范圍是什么?
1.3 ?考慮重用
要考慮兩個方面,一個是重用已經被證明是好的本體或者本體片段,一個是即將構建的本體要能方便地被重用。
1.4 ?列舉術語
通常從需求分析文檔中抽取名詞和動詞,從領域專家口中獲取專用術語等來進行非正式的術語列舉。主要是名詞和動詞,名詞將作為類定義的基礎,動詞將作為屬性定義的基礎。一種卡片歸類的非正式方法可以幫助列舉術語:由領域專家和本體工程師組成一個小組,制作很多小卡片,每張卡片上寫一個術語,然后把這些卡片按照相關性大小分成一些小堆,把相關性較強的小堆放得靠近些,然后不斷地討論和重復這個過程,最后得出一個比較滿意的基本分類好的術語列表。
1.5 ?定義類
一個類就是領域中的一個概念,類是具有相似屬性的元素的一個集合,類中的元素叫作類的成員,類里面包含的是其成員的必要條件。首先需要對類進行定義,定義類除了要明確地用文字進行含義說明之外,可能還需要形式化地用數學符號精確定義出其所有成員的必要條件來。除了顯而易見的領域概念之外,還要發(fā)現一些新的概念和類。發(fā)現類的方法通常有:
(1)可以獨立存在的事物是一個類,通常是名詞。
(2)修飾語有時可成為一個類,通常是副詞和形容詞。
(3)擴展概念,把一組事物放在一起考慮它們的共同點,往往可以擴展出新的概念。如:從動物和植物兩個概念,可以拓展出生物的概念,因為它們都有生命。
(4)增加一些我們需要的抽象概念。
(5)標識一些可以定義的事物。
第二個重要的工作是標識 類之間的關系,這階段識別“整體-部分”關系和“繼承”關系,特別是類間的繼承層次關系,所有的類都應該在繼承層次結構中。典型的開發(fā)類間層次關系的方法有:
(1)自頂向下法,先定義最一般的概念,然后再逐漸特殊化。
(2)自底向上法,先定義最特殊的概念,然后把它們歸類起來,一般化為一般性的概念。
(3)組合法,即結合自頂向下和自底向上兩種方法,同時從深度和寬度上擴展類。
1.6 ?定義屬性
這個步驟和上下兩個步驟(定義類和定義限制)要頻繁交互。屬性描述了類成員的特征,嚴格的本體要求,只要對A類的成員成立的屬性,如果B類是A類的子類,那么這些屬性對B類的所有成員也成立。在類層次中定義屬性時,遵循最高層次類定義屬性原則,即把屬性定義盡量應用到繼承層次中最高層次的類中去??陀^事物的屬性類型一般有:
(1)內在屬性,如文物的質地、顏色、重量等。
(2)外在屬性,如文物的名稱、年代、研究價值等。
(3)整體-部分屬性,如某帶蓋瓷器文物的蓋子是整體文物的一個組成部分。
(4)與其他對象的關系屬性,如同一個墓葬出土的兩個文物具有“相同文物來源”關系。
在本體中用兩種屬性來表示:
(1)數據屬性,即簡單的數據類型屬性,包含基本數據類型的值,如文物的尺寸(數值)、名稱(字符串)等。用來定義客觀事物的內在屬性和外在屬性。
(2)對象屬性,即復雜的屬性,它包含其他的對象。常用來定義整體-部分屬性和關系屬性。
從需求文檔中尋找屬性的方法一般就是兩個,識別修飾詞和識別關系。修飾詞一般是形容詞和副詞,基本上形容詞和副詞都定義了對象的一個屬性;表示關系一般從動詞入手,動詞一般反映了兩個或多個對象之間的關系。
標識屬性的方法一般是圍繞定義的類去問一些問題:這個類的所有成員具有什么特征?這個類的部分成員具有哪些特征?這個類的哪些屬性需要記錄和標識?這個類的成員具有哪些動作或者活動?這個類的成員和其他類的成員有哪些關系,發(fā)生哪些互動,交互需要有什么條件和限制?等等。然后回答這些問題并記錄下來,討論并識別出屬性,對照屬性的特征,評估每個屬性具有的特征,并詳盡記錄下來。還需進一步討論屬性之間的分類,并識別屬性之間的繼承層次關系等等。最后達成一個本體工程師和領域專家都基本認可的屬性定義成果。
1.7 ?定義限制
定義限制就是限制屬性的定義域和值域,也叫屬性限制。屬性限制一般有三種,全局限制,局部限制和基數限制。前面指定屬性的類型就是一種限制,這種限制是全局的,即這些限制會對屬性的所有實例都有效。其他限制都是局部的,它們只在包含它們的類中起作用,一個是全稱量詞限制,一個是存在量詞限制,還有一種限制就是基數限制。限制既可以在定義域上,也可以在值域上,也可以同時在定義域和值域上有限制。
定義限制的方法是,對關系屬性的定義域和值域問這樣的問題,然后正確回答:這個屬性是對所有的對象都成立嗎?是對部分對象成立嗎?還是只對某一個或者某幾個對象成立?這個屬性的定義域限制是復雜的,可以表示成一個公理嗎?這個屬性的值域限制是復雜的,也可以表示成一個公理嗎?等等。
1.8 ?實例化
在定義好類、屬性和限制之后,就可以添加類的實例了。這個填充實例到本體中的步驟和其他的過程相比相對獨立。一般地說實例的數量遠大于類的數量,手工添加是一個很大的挑戰(zhàn)。通常我們一般從遺留的關系數據庫中自動獲取,或者開發(fā)專門的工具從Excel表格等電子文檔中讀取,還有就是借助軟件工具從文本庫、資料庫中進行自動地抽取。
1.9 ?驗證和評估
本體工程的每個階段的都該有驗證和評估。在工程過程之初就該有驗證和評估計劃,由專門的測試評估小組和開發(fā)小組配合進行評估和驗證工作。驗證和評估計劃要包含:階段驗證目標、評估要達到的目標、驗證的方法是工具自動還是人工走查、驗證結果的評估和反饋、再評估和再驗證計劃等。
2 ?博物館本體設計
工程的方法為構建好的領域本體提供了工程上的支撐。博物館領域本體的構建就是要明確定義博物館領域的術語以及它們之間的關系,即主要開發(fā)工作內容有:用類定義博物館領域內的概念;定義這些概念之間的層次關系;定義屬性和屬性類,為對象和關系增加限制;定義實例并指定它們的屬性值。
2.1 ?本體開發(fā)環(huán)境和工具
本體的開發(fā)是一項復雜的工程。設計思想先進、結構良好的開發(fā)環(huán)境對于本體的開發(fā)具有重要意義,本體開發(fā)環(huán)境可以按照一定的開發(fā)方法輔助本體工程師完成開發(fā)工程的各個環(huán)節(jié),盡量減少本體工程師的工作,分析評價本體以減少本體中的錯誤。本文的博物館領域本體的開發(fā),按照上面介紹的迭代本體工程方法,采用Protégé[7]開發(fā)工具和關系數據庫本體抽取工具RoBridge[8]來開發(fā)。
2.2 ?博物館領域本體
從《博物館藏品信息指標體系規(guī)范(試行)》[9]中的3個指標群、33個指標集、139個指標項中初步抽取出175個概念,從需求分析文檔中手工提取了108個概念。把概念進行工程化處理后定義了237個類,其中非物質信息相關的類119個;從規(guī)范指標體系文檔中抽取,指標項基本可以表示成指標集的屬性,指標群和指標集是包含關系,直接抽取屬性189個;從需求文檔中抽取動詞、形容詞、數量關系詞等獲得屬性500多個。
根據類和屬性可以建立語義圖,其中的非物質信息的語義圖片段如圖1所示,矩形表示復合概念,橢圓表示原子概念,箭頭表示關系,標記的文字表示類名、關系名和屬性名。
限制反映了領域規(guī)則,通過分析逐步定義了89條限制,規(guī)則會隨著開發(fā)過程的迭代逐漸增多,數量也逐漸穩(wěn)定下來。如:書畫有款識;有的瓷器有款識;有的瓷器有文字和款識;有的青銅器有文字;只有出土文物有出土地和出土日期等等。藏品信息知識化模型的應用過程,就是本體概念模型的實例化過程。根據定義好的模型,先把各個概念的實例遞增地逐個定義,如某博物館的瓷器藏品為2709件,就會定義2709個藏品的實例和2709個藏品信息的實例;再增加各種關系實例,包括對象關系和數據關系,這是一個遞增的過程;最后通過推理機會自動發(fā)現一些新的概念和關系,也可以加入到知識庫中,這也是一個遞增的過程。這個將構成知識庫的主要部分。本次的工程實踐中基于具體的一個博物館共定義了近10萬個藏品實例和關系實例,涵蓋了所有沒有爭議的博物館藏品的信息,包含了大部分在博物館服務中高頻率使用的非物質信息,包括展陳、交流、傳播、研究等。
3 ?本體存儲和表達
一種知識的本體表達語言可稱為OWL(Ontology Web Language)[10],可以用來方便地描述上述定義的信息結構,即博物館藏品知識庫,這種規(guī)范的知識表達方式有利于知識的共享和傳播。藏品的物質信息目前基本都存儲在關系數據庫中,第一全國文物普查之后,這個數據庫更加規(guī)范和完整了。根據文獻[8]的方法,可以自動地把關系數據庫的結構和記錄轉化成OWL表示,自動生成的標準OWL文件,可以直接使用也可以用工具進行編輯,這里我們采用工具Protégé來進行編輯。博物館藏品的非物質信息利用此工具建立的語義圖,自動生成OWL文件,并進行一致性和正確性驗證。編輯好后的OWL文件以文件的形式存儲在服務器硬盤上。
4 ?基于本體知識庫的信息系統(tǒng)
4.1 ?信息系統(tǒng)體系結構
建立了層次的博物館知識系統(tǒng)結構,如圖2所示。最底層是關系數據庫和知識庫并存的數據層,工具模塊R2O[8]會自動地把關系數據庫的數據轉換成知識本體。在計算層,以知識推理引擎為核心,為具體的智能應用提供知識和語義檢索服務,同時知識管理模塊為管理員用戶提供本體知識庫和關系數據庫到本體轉換工具的操縱管理接口。各種基于知識庫推理的智能應用系統(tǒng)構成業(yè)務應用層,普通用戶直接與應用層的模塊進行交互。
4.2 ?知識推理和語義檢索
知識推理和基于知識的語義檢索,是基礎設施的核心。Pellet[11]是一個完全支持OWL的Java語言開源推理機,可以方便地和Protégé集成,能嵌入Jena API和OWL API,為開發(fā)人員提供了一個包含從構建到推理全過程的開發(fā)環(huán)境。我們的推理引擎建立在Pellet基礎之上,Pellet采用描述邏輯的包含關系推理作為理論基礎,算法采用Tableau算法[12,13]。推理引擎基于OWL API和Pellet API接口向智能應用開發(fā)者提供基本的本體推理服務。推理引擎的結構如圖3所示。
OWL API是提供給應用開發(fā)用戶操作本體文件的標準接口,是一系列函數的集合,是專門為應用平臺中實現對OWL本體進行創(chuàng)建、修改、刪除和查詢等操作的應用程序接口,它主要包括本體解析器和編寫器,推理機接口等等。其主要過程為:先創(chuàng)建本體管理器,再創(chuàng)建本體讀寫器讀入本體文件,然后調用推理機執(zhí)行推理服務,最后給出推理結果并清理運行環(huán)境。
Pellet API是在OWL API的基礎上設計的推理機API,在包括了OWL API的所有推理功能的同時還提供了有效的屬性層次推理。其工作機理為:先進行本體加載和解析,再進行本體的驗證或者修復(預處理),形成規(guī)則庫和事實庫,然后再訪問推理機并實現推理服務?;赑ellet API,推理引擎提供的基本推理服務有四類,各個服務都以封裝好的推理引擎的應用程序接口形式提供。同時建立了基于知識推理的語義檢索機制。SPARQL[14]是本體結構化查詢語言,我們把檢索關鍵字都封裝成SPARQL查詢語言來對本體進行檢索,在檢索前,先進行關鍵字預處理,把關鍵字與領域知識庫的內容和推理結果進行同義詞替換與匹配,擴展SPARQL查詢語句,再來進行本體查詢,實現語義檢索。
4.3 ?智能應用系統(tǒng)開發(fā)
領域內的智能需求是無限的,基于知識和推理的可能,應用程序也是無限的,其核心在于智能業(yè)務分析和對知識基礎設施的理解和應用。
4.3.1 ?開發(fā)策略
在知識平臺上的應用開發(fā)與傳統(tǒng)基于數據庫的信息系統(tǒng)開發(fā)有很大的不同,其開發(fā)重點不再是業(yè)務流程和限制,也不再是數據驅動,而是知識驅動的開發(fā),以提出問題和解答問題為中心,更像是一個問答系統(tǒng)?;鹃_發(fā)流程包括需求分析、問題表達及期望答案設計、問題形式化、推理開發(fā)、答案解釋和展示等等過程。其中,問題設計是一個把業(yè)務需求轉換成有序問題集合的過程。對回答的設計是推理過程的一個人工預演,并給出預計答案的正確形式或可接受形式,也可以作為推理程序的一個測試計劃;而問題形式化是指把問題表示成SPARQL程序的過程。例如管理者想了解本館的所有國家二級以上的瓷器文物的基本情況,以準備和兄弟館進行一次古代瓷器聯(lián)展。可以將其分成幾個問題,本館的所有二級文物有哪些?哪些是瓷器文物?哪些文物沒有外展?它們聯(lián)展歷史是什么?最常聯(lián)展文物的美學和研究情況有哪些?建立一個簡單的評價瓷器文物參與聯(lián)展推薦程度的規(guī)則;依據規(guī)則查詢符合要求的文物作為推薦,并給出理由。
4.3.2 ?博物館宣教智能問答機
基于知識庫系統(tǒng)開發(fā)一個簡單的博物館宣教智能問答系統(tǒng),使普通參觀者能夠對博物館中館藏瓷器相關的知識進行比較深入的咨詢。問答系統(tǒng)的客戶端是基于觸摸屏的,不允許輸入文字,但是可以通過動態(tài)出現的選項來提示用戶點擊探索進一步的知識。在展示界面,選擇一件瓷器之后,會出現瓷器的基本介紹,然后在屏幕的右邊會列舉出一些選項供用戶選擇,如文物等級、出土情況、文物價值、文物鑒別、相關文物等,這些選項是根據知識庫隨機生成的,而且對不同的文物,出現的選項是不一樣的。進一步選擇之后,再出現不確定的選項供用戶選擇,這個過程不斷循環(huán),模擬一個無限知識探索和學習的過程。
實現這個系統(tǒng)的基本原理就是,不斷地把用戶的選項組合成問題,并把它表示成SPARQL查詢語句,到知識庫中查詢,把查詢的結果的第一項作為結果展示,從推理結果的對象中提取關聯(lián)度高的關鍵詞作為這個頁面的選項動態(tài)生成出來,在結果界面右側作為選擇項來提示用戶進一步探索文物知識。
5 ?結 ?論
本文應用本體工程學的方法探索并建立了博物館領域本體知識庫,把博物館藏品的非物質信息作為重要的領域知識包含進去,為智能博物館的建設和智能應用開發(fā)打好了基礎。今后的重點工作有:知識庫的管理維護、完善和擴展,知識庫上智能應用開發(fā),問題語料庫的建立等,為智能應用快速開發(fā)提供強力支撐。
參考文獻:
[1] 王建平.論博物館藏品信息管理 [J].中國博物館,2001(2):82-91.
[2] 宋新潮.關于智慧博物館體系建設的思考 [J].中國博物館,2015,32(2):12-15+41.
[3] Studer R . Knowledge engineering:Principles and methods [J].Data & Knowledge Engineering,1998,25(1-2):161-197.
[4] Clancey,William J. The knowledge level reinterpreted:Modeling how systems interact [J].Machine Learning,1989,4(3-4):285-291.
[5] Morik K. Underlying assumptions of knowledge acquisition and machine learning [J].Knowledge Acquisition,1991,3(2):137-156.
[6] Gruber T R. Toward principles for the design of ontologies used for knowledge sharing? [J].International Journal of Human-Computer Studies,1995,43(5-6):907-928.
[7] Musen M. The Protégé project:A look back and a look forward [J].AI Matters,2015,1(4):4-12.
[8] Yang S,Wu J. Mapping Relational Databases into Ontologies through a Graph-based Formal Model [C]//Sixth International Conference on Semantics. IEEE Computer Society,2010:219-226.
[9] 國家文物局.博物館藏品信息指標體系規(guī)范(試行)(文物博發(fā)[2001]81號) [S/OL].[2008-07-09].http://www.sach.gov.cn/art/2008/7/9/art_90_2819.html.
[10] Bechhofer S. OWL:Web Ontology Language [J].Encyclopedia of Information Science & Technology Second Edition,2004,63(45):990-996.
[11] Sirin E,Parsia B,Grau B C,et al. Pellet:a practical OWL-DL reasoned [J].Journal of Web Semantics,2007,5(2):51-53.
[12] Horrocks I,Sattler U,Tobies S. Practical Reasoning for Expressive Description Logics [M]// Logic for Programming and Automated Reasoning. Springer Berlin Heidelberg,1999.
[13] Horrocks I. Practical reasoning for very expressive description logics [J].Logic Journal of IGPL,2000,8(3):239-263.
[14] Angles R,Gutierrez C. The Expressive Power of SPARQL [C]//International Semantic Web Conference. Springer,Berlin,Heidelberg,2008:114-129.
作者簡介:章維亞(1980-),女,漢族,湖北武漢人,碩士,研究方向:智慧博物館、瓷器保管與研究;楊世瀚(1972-),男,漢族,湖北荊門人,博士,研究方向:智能決策、智能信息處理。