馮秋燕,李 川,朱學芳
大數(shù)據、云計算、物聯(lián)網、人工智能、5G等新型智能技術與領域應用需求的融合改變了行業(yè)組織結構,重組了業(yè)界生態(tài)系統(tǒng),催生了多種智能互聯(lián)感知產品與智能服務的出現(xiàn)。智能服務由具有感知、連接和驅動等智能意識的智能產品(或智能設備)通過收集環(huán)境數(shù)據并處理成智能數(shù)據,在智能服務系統(tǒng)內通過數(shù)字平臺提供情景相關和面向需求的個性化解決方案,從而為供應商和客戶創(chuàng)造附加價值[1]。智能服務的實施方式因行業(yè)性質、工作內容、需求目標的不同而千變萬化。圖書館、博物館、檔案館作為儲藏記錄歷史發(fā)展書籍、檔案及遺物的機構,收藏保護和教育傳播一直是其核心工作和主流文化。特別地,博物館不斷地采納新型數(shù)字信息技術(如3D仿真、VR/AR體驗等),通過研究、展示、教育等方式盡可能還原并再現(xiàn)過往的歷史拼圖,立足現(xiàn)在,以主動的態(tài)度、超脫的視角參與社會文化的構建,為其數(shù)字館藏資源公共化利用程度的提升和創(chuàng)新型智能服務的發(fā)展奠定了基礎?!秶椅奈锸聵I(yè)發(fā)展“十三五”規(guī)劃》鼓勵在全國范圍內啟動智慧博物館建設工程,運用物聯(lián)網、大數(shù)據、云計算、移動互聯(lián)網等現(xiàn)代信息技術研發(fā)智慧博物館技術支撐體系、知識組織和‘五覺’虛擬體驗技術[2],推進文物數(shù)字化、信息化,促進文物藏、保、用、管、研等信息整合及公開,植入智慧科技,推動文物事業(yè)向智能服務方向發(fā)展。以博物館為例,通過互聯(lián)網和移動社交平臺,以網上展覽、直播導覽、動畫解說、仿真建模等方式提供公共文化服務。例如2020年春節(jié)期間,中國博物館推出2,000多項線上展覽,瀏覽量超過50億人次[3],反映了公眾對數(shù)字館藏資源的文化需求和便捷式智能服務的渴求。面對百花齊放且自行儲藏的數(shù)字館藏資源,亟需一套互聯(lián)高效的組織與存儲機制,打破地域壁壘,增強文物間“對話”,以期用數(shù)字館藏表征文物實體,推動建立跨越時空的常態(tài)化的數(shù)據應用與智能服務模式,滿足日益多元的公共文化需求。
2005年Allmendinger等提出智能服務可超越與其捆綁在一起的產品或設備而進行維護和升級[4]。從宏觀上講,智能服務是指利用具有監(jiān)控、優(yōu)化、自主適配的智能互聯(lián)產品,整合服務提供方與服務對象的活動、需求及資源,通過不斷地交互調優(yōu)為雙方提供服務,實現(xiàn)資源的動態(tài)配置及雙方價值共創(chuàng),是一種具有技術中介性、活動連續(xù)性、交互反饋性、迭代匹配性的服務模式[5],應用場景有智能交通、智能政務、智能制造、智能醫(yī)療等。從微觀上講,智能服務主要是指機構憑借智能設備定時或實時地收集現(xiàn)場環(huán)境數(shù)據并采用客觀的數(shù)據模型和高效的數(shù)據分析平臺進行預處理和深入剖析,主動為用戶提供情境感知式服務,注重個性化、精細化、高質量服務方案的推薦[6],是智能化物理產品和虛擬化信息服務的有效增值組合與高效價值共創(chuàng),應用案例有遠程監(jiān)控、C2B方案定制、預測性維護等。
近幾年來,國內圖情領域相關研究主要聚焦于智慧服務模式、體系架構、機制策略、發(fā)展建議等頂層框架設計或上層模型構建的研究[7-9],智能服務是實現(xiàn)智慧服務的基礎,智慧服務是智能服務的頂級形態(tài)與最終目標[10]。而國外圖情領域關于智能服務的研究則側重于智能產品介紹[11]、使用意愿[12]、影響因素[13]。智慧博物館研究主要涉及智慧博物館的內涵[14]、技術應用[15]、智慧博物館建設[16-18]等。綜合來看,國內外研究均較少涉及依托事實服務數(shù)據的動態(tài)感知和智能服務細節(jié)的整合封裝,致使頂層框架與實際情況的斷鏈脫節(jié),精準服務效力不足。數(shù)據、信息、知識、情報是實現(xiàn)領域智能服務的物質基礎與關鍵要素。從微觀層面,以數(shù)據逐層對齊服務需求細節(jié),將信息精煉成知識,萃取成情報,提升服務內容的質量,才能真正意義上驅動智能服務主動發(fā)現(xiàn)、精細調度能力,進而推動新型智能服務理論的全面應用。
數(shù)字館藏資源是指利用數(shù)字技術對館藏實體進行數(shù)字化加工而獲得的能代表實體本身的虛擬的數(shù)字形態(tài)資源[19]。文博機構數(shù)字資源以轉化型產生方式為主,是館藏文物的數(shù)字化表征。數(shù)字館藏資源的組織與存儲涉及資源描述、分類、組織、存儲等多個環(huán)節(jié)。
(1)資源描述。文博機構主要是以元數(shù)據的方式描述、登記、保存、管理文物數(shù)字資源。館藏元數(shù)據體系屬于數(shù)字館藏資源標準化規(guī)范的組成部分之一,與文物分類體系密切相關[20]。目前已有一批元數(shù)據標準成功應用于文博領域,如VRA Core、DC、CDWA、CIMI、《博物館藏品信息指標體系規(guī)范(試行)》《文物數(shù)字化保護元數(shù)據標準規(guī)范》(征求意見稿)[21]。
(2)分類和編碼。是進行各種館藏資源相關研究的首要工作[22]。國內各文博機構對藏品的分類標準并沒有嚴格統(tǒng)一規(guī)范的約束說明,致使分類各異、組織雜糅。加拿大和美國官方推薦的文物分類標準InfoMuse[23]和Revised Nomenclature3.0[24]將器物和建筑的功能作為主要分類依據。實際應用中,采用組配分面分類法可能更合理[25]。
(3)組織。各大文博機構使用各自的信息系統(tǒng)組織管理文物,在數(shù)據結構、表示方法、存儲方式等方面各不相同,尤其是語義表征的差異性阻礙了異構數(shù)據集的連接互通?;诖?,部分研究者在元數(shù)據的基礎上引入了本體的概念。本體是概念化的明確的規(guī)范說明[26],具有很強的概念表達和知識獲取能力,適用于解決信息資源組織過程中出現(xiàn)的問題和瓶頸[27]。綜合元數(shù)據與本體方法可建立細致而規(guī)范的文物數(shù)字資源分類與組織準則。基于此,梁艷琪構建了繪畫類文物的分類本體,并采用關聯(lián)數(shù)據技術對其進行語義融合研究[28]。李迎迎構建青銅器文物信息資源分類本體,采用知識地圖的方法組織青銅文物及其關聯(lián)信息[29]。
(4)存儲。隨著網絡信息資源規(guī)模、種類和復雜度的增加,數(shù)據間的關系及拓撲結構也愈加復雜。傳統(tǒng)的關系型數(shù)據庫已經不能滿足大數(shù)據處理與分析的需求,非關系型數(shù)據庫NoSQL(Not Only SQL)憑借其數(shù)據模型的靈活性得到了迅速發(fā)展[30]。圖數(shù)據庫作為NoSQL 數(shù)據庫中的一種,提供了良好的數(shù)據庫存儲與簡便靈活的數(shù)據處理方案[31-32]。在圖情領域,黃奇等提出基于圖數(shù)據庫的OWL本體存儲模型,設計其拓撲結構及存儲映射規(guī)則,從理論層面證明該存儲模型存儲語義的有效性和科學性[33]。博物館數(shù)字資源具有存儲容量大、媒體形式多、增長迅速等特點,需要一個能支持快速訪問和大容量的存儲系統(tǒng)[34]。目前關于文博領域數(shù)字館藏資源存儲研究較少,實踐上,各大文博機構大多采用傳統(tǒng)的關系型數(shù)據庫,自行建立本館的資源管理系統(tǒng),支持館藏展示或簡單的查詢工作?,F(xiàn)行存儲方式的弊端是不利于館際文物間的連通和交流,割裂了文物間可能存在的屬性關系或事件關聯(lián),影響了文物知識鏈的探索及其所蘊含文化的傳播。
博物館智能服務方面主要面向觀眾,通過多種服務系統(tǒng)的建立以及交互技術的應用,使觀眾在參觀博物館過程中可以更好地融入博物館,主動去了解、接收相關的知識,不再像傳統(tǒng)博物館那樣被動接收[2]。以微觀性的數(shù)字服務平臺構建為例,文博機構數(shù)字業(yè)務需要連接各地館藏數(shù)據,突破“圍墻”弊端,以虛擬的無形數(shù)據替代館藏文物實體,以智能交互的方式耦合館藏顯性知識、專家隱性知識與領域知識庫,用數(shù)據對接服務,契合公眾需求,促進數(shù)字館藏資源與智能服務的融合。情境式個性化智能服務的實現(xiàn)需要以龐大的數(shù)據源作為依托,其中必然涉及數(shù)據的組織和存儲工作。
(1)元數(shù)據與自然語言處理技術。文物元數(shù)據是描述館藏文物實體的結構化數(shù)據,能將文物的核心信息以言簡意賅的方式第一時間傳達給用戶,在文博領域也已廣泛使用。本文使用描述性元數(shù)據描述文物信息,主要參考《文物數(shù)字化保護元數(shù)據標準規(guī)范》(征求意見稿)[21]。各大文博機構網站大多采用自由文本的方式描述文物,內容較繁雜,可借助于自然語言處理(NLP)技術完成已有文物的元數(shù)據字段解析與填充工作。由于文物描述方式和內容的特殊性,本文利用jieba在進行分詞與命名實體識別時,動態(tài)加載自定義詞典,并編寫字符串匹配修正算法以兼顧解析內容的合理性。整體流程如圖1所示。
圖1 分詞與詞性標注流程圖
(2)本體與圖數(shù)據庫。在數(shù)據的組織與存儲階段,元數(shù)據完成了對文物個體的規(guī)范化描述,但缺乏對文物屬性的多主題揭示,通過構建領域本體可使不同數(shù)字館藏元數(shù)據間產生關聯(lián)與鏈接。在面對大規(guī)模復雜關聯(lián)數(shù)據時,傳統(tǒng)的關系型數(shù)據庫往往出現(xiàn)查詢速度慢、響應延遲、鏈接復雜等缺點,而圖數(shù)據庫恰好填補了這項短板。Neo4j 是代表性的圖形數(shù)據庫,嚴格遵循圖論使用節(jié)點和邊來表征海量多源異構的實例及其間復雜關聯(lián)語義關系,模式結構易于理解且具有靈活的可擴展性、良好的可移植性、高效的可訪問性。
本研究涉及數(shù)字館藏資源的收集、數(shù)據處理與加工、數(shù)據組織與存儲、數(shù)據應用與智能服務4個流程,整體研究框架見圖2。首先從國家/省/市級文博機構收集數(shù)字館藏資源;其次對數(shù)據進行清洗、分類和集成,參考元數(shù)據標準和領域知識庫將待組織的數(shù)字館藏資源加工成統(tǒng)一的數(shù)字館藏元數(shù)據形式;然后兼顧數(shù)字館藏資源所表征的實體特點,設計并構建數(shù)字館藏資源領域概念本體,規(guī)范數(shù)字資源間的類屬層次與組織關系;將概念本體對齊映射為圖數(shù)據中的相應元素;鏈接并對標實例元數(shù)據,完成館藏數(shù)字資源的存儲;最后,以數(shù)據驅動面向情境的應用進而支撐智能服務的實施。
圖2 研究框架
特別說明的是,在數(shù)據處理與加工階段,本文的研究對象為可移動文物,采用了“質地+功用+器型”由粗到細的分類標準。具體做法是:首先綜合前人研究、相關書籍、各大文博網站、專家意見,初步確定“質地”與“功用”層次;其次利用jieba 中文分詞和字符串匹配修正算法進行分詞和命名實體識別,完成文物各元數(shù)據描述字段(若有)的填充工作,抽取器型,并不斷豐富“功用”和“器型”種類,最終建立標準的文物分類框架和元數(shù)據描述條目。本步驟的意義在于利用不同層次的抽象分類(見圖3),從上到下充分體現(xiàn)文物資源的共性與特性,依次完成文物的自適應分類和映射。
圖3 可移動文物分類示例
在數(shù)據組織與存儲階段,結合元數(shù)據規(guī)范、各文博網站布局展示,與文物相關的條目有普查號、時間、類別、相關地點、相關人物、相關時間、上下文介紹、圖片、音頻、視頻、三維模型等內容。復用CIDOC CRM概念參考模型,設立文物數(shù)字館藏本體、描述、地點、人員、時間、標準分類等一級概念類目(見圖4),各類目又有專屬的下級類目及其核心屬性。
圖4 館藏文物本體框架
從本體組織轉換為圖數(shù)據庫存儲主要考慮類、屬性與關系間的映射關系,見表1-2。若不特別說明,表中的字段均采用Neo4j默認存儲類型即字符型。表1根據文物年代特性,增加所屬時段標簽。本文統(tǒng)一采用歷史紀年法,處理原則見表3;對某些朝代,如遼、夏、金與宋代屬于同一時間段,將前者的所屬時段標記為后者(見表4),這樣在保留原時間信息(創(chuàng)作/使用年代)的同時,可以降低數(shù)據的分散性。本文關注數(shù)字館藏資源所表征的文物特性,不過多涉及其與外延屬性的關系,故將外延屬性作為節(jié)點標簽的屬性鍵標出。表2中圖數(shù)據庫建立“屬于”“劃分為”“歸類于”3種關系類型足以表征文物數(shù)字館藏本體與標準分類、材質、功用、器型間的7種關系類型,并支持雙向查找。
表1 類/屬性層次映射
表2 關系層次映射
表3 所屬時段約定規(guī)范
表4 創(chuàng)造/使用年代與所屬時段對照表
在數(shù)據應用與智能服務階段,圖數(shù)據庫靈活的模式結構和完備的語義存儲功能被應用到多角度可視分析、多元因素探索、大規(guī)模規(guī)則關聯(lián)等深度信息挖掘中,支持知識探索、人文傳播、歷史陳述等抽象化智能服務的實現(xiàn)。圖數(shù)據庫作為一種橋接實踐,通過冰冷枯燥的數(shù)據將鮮活豐滿的歷史文化呈現(xiàn)在人們面前,一端是高價值的數(shù)據關聯(lián),另一端是有溫度的人文情懷,更好地實現(xiàn)了“人-數(shù)字館藏-文化揭示-教育傳承”的服務模式,使得數(shù)字館藏資源的價值被充分挖掘和發(fā)揮。
選擇銅器作為實例分析對象,原因有:(1)習近平總書記指出:“要推進黃河文化遺產的系統(tǒng)保護,守好老祖宗留給我們的寶貴遺產?!盵35]在黃河文化遺產中,銅器文物占最大比例,對銅器進行研究,可促進對黃河文化進行多方位的探索。(2)銅器囊括功用豐富,根據本文數(shù)據,依功用可劃分為21個大類,故對銅器文物的研究可以給較少功用的其他材質文物的研究提供參考。(3)銅器的元數(shù)據內容非常全面,對銅器的研究可泛化至鐵器、金銀器、玉器等文物研究。
本實驗流程如下:
第一,數(shù)據收集階段。收集的銅器類館藏文物數(shù)據來自全國館藏文物數(shù)據庫①,從中抽取黃河流經9個省份的數(shù)據(125,093條),并獲取其官方網站(若有)的數(shù)據。
第二,數(shù)據處理與加工階段。由于文物的特殊性,有些數(shù)據資料無從査找,依據僅有的數(shù)據資源進行研究?;阢~器文物元數(shù)據標準,利用jieba和字符串匹配修正算法進行分詞和命名實體的抽取(見表5);利用部分文物名稱[36-37]分詞(紋飾、形制特別標注為ww、wx)作為初始自定義詞典(其中文物名稱自定義詞典約1.1MB,地名詞典[ns]約1.4MB,歷史人物詞典[nr]約6KB,時間詞典[t]約1.4KB),循環(huán)迭代(見圖1)抽取剩余文物的年代、特征和器型,依據器型可將該文物歸屬到功用類別中,逐步補充功用與器型層次的類屬(見圖3)。根據文物數(shù)字資源著錄規(guī)范和專家意見,本文類屬處理原則見表6;針對其他屬性內容,從上下文描述中識別(若有);針對不符合命名規(guī)范的文物,直接從其上下文描述中提取相關元素(若有)。經過窮盡式對比、類聚,本文將銅器文物歸屬為21種功用分類。針對地點經緯度坐標,利用百度地圖坐標拾取系統(tǒng)獲取。
表5 分詞與命名實體識別示例
表6 類屬處理原則
第三,數(shù)據組織與存儲階段。建立銅器數(shù)字館藏本體,參考表1-4 完成圖4 中概念類、屬性、關系到圖數(shù)據庫Neo4j映射,以元數(shù)據形式表征的數(shù)字館藏個體存儲到Neo4j,見圖5-8。圖5顯示銅器所劃分的功用分類(左側實線標注),以功用分類“酒器”為例展示其所包含的器型種類(中間虛線部分標注,其他功用分類也可相似的方式展開),以“钅”“和”為器型示例展示其所包含的文物(右側點線部分標注,其他器型展開與其相似)。圖6展示文物春秋蟬紋弧刃單系銅斧的部分存儲結構。紋飾是銅器重點研究內容之一,圖7展了以春秋蟬紋弧刃單系銅斧中的紋飾蟬紋為線索尋找相關文物。圖8進一步呈現(xiàn)圖7所現(xiàn)文物的部分結構及其間關系。
圖5 材質-功用-器型存儲示例
圖6 文物存儲(部分存儲結構)示例
圖7 含有“蟬紋”的相關文物
圖8 圖7所現(xiàn)文物及其部分關系
圖8中,每一個虛線橢圓扇形表示該功用分類下的器型及其所對應的文物,每一個橢圓中的元素是相同層級的元素。以動物紋“蟬紋”為線索,銅器中飪食炊器、工農具、酒器、兵器、生活用具、飾品、交通工具中均有該種紋飾的文物,交通工具中的節(jié)約和(車)胄、飪食炊器中的鼎、兵器中的矛擁有蟬紋的較多,“蟬紋”主要出現(xiàn)在商周,漢、宋、眀、清也有些微出現(xiàn)?!跋s紋”具有飲食清潔之意,故在鼎中大量出現(xiàn);蟬寓意復育,有生還之意,故在車馬器(節(jié)約)、兵器(矛)中大量出現(xiàn),飽含了對平安的祈求。
第四,本文主要研究數(shù)字館藏資源的組織與存儲,設計數(shù)據處理、查詢效率、關系查找、交互操作、可擴展性等指標對比關系型數(shù)據庫和圖數(shù)據庫在數(shù)字館藏資源組織和存儲方面的差異,為上層數(shù)據應用與智能服務選擇存儲模式時提供指標參考。參照相關研究將圖 4 中的本體(即語義關系)以主外鍵與關系表的方式存放入關系型數(shù)據庫,保證關系型數(shù)據庫和圖數(shù)據庫具備相同的數(shù)據粒度。如表7 所示,在關系層次較深或關系較復雜時,圖數(shù)據庫具備良好的存儲和查詢性能,圖數(shù)據庫操作便捷,直觀性和可擴展性強。此外,對圖數(shù)據庫中頻繁子圖的挖掘、連通子圖的識別、最短路徑的測度等是對原始數(shù)據潛在模式和隱藏規(guī)律的有效探索,藉以數(shù)據賦能應用,推動智能服務的實現(xiàn)。
表7 關系型數(shù)據庫與圖數(shù)據庫對比
數(shù)字館藏資源已然具備大數(shù)據特性,如何開發(fā)利用直接影響文博機構智能服務的質量。圖數(shù)據庫具有高性能、易訪問、易擴展、高可用等優(yōu)勢,特別適用于處理大數(shù)據存儲與分析任務。本文綜合運用情報學、文物學、計算機科學與技術等多門學科知識,引入元數(shù)據、本體、NLP、圖數(shù)據庫等技術研究文物數(shù)字館藏資源“自下而上”的自適應分類、規(guī)范統(tǒng)一的本體組織、靈活高效的語義存儲。從理論上豐富了數(shù)字館藏資源組織和存儲的研究方法;從實踐上推動了跨機構數(shù)字館藏資源的關聯(lián)與融合,打破空間藩籬,將文物及其關系存儲至后臺,將文物知識進行集成,不再割裂文物之間的文化屬性,可自主發(fā)現(xiàn)文物間的關聯(lián),以銅器數(shù)字館藏為實例數(shù)據,驗證本文整體框架的可行性,可為其他文物的研究提供借鑒參考,同時為隱藏知識挖掘、歷史規(guī)律探索等智能服務的實現(xiàn)提供有效的數(shù)據支撐。后續(xù)的研究,一方面要完善數(shù)據屬性及其關系類型;另一方面以講好中國故事為目的,著手挖掘圖數(shù)據庫中存儲的知識塊節(jié)點,以期為用戶提供更好的智能服務。盡管智能服務在各行各業(yè)如火如荼地展開,但如何公開共享并連接各地的數(shù)字館藏資源,規(guī)范組織和高效存儲這些多源、異構、海量的數(shù)據;如何契合用戶需求,將新一代智能信息技術與大數(shù)據分析方法有效融合;如何激活館藏文化資源,提升傳播內容質量;如何實現(xiàn)共享知識、傳承文明,推動智能服務發(fā)展,將是研究的重點。
注釋
①國家文物局.國家文物局綜合行政管理平臺[DB/OL].[2020-06-26]. http://gl.sach.gov.cn/#/Industry/Col?lection-Collection.