牛魁明
關鍵詞:文物保護;知識圖譜;三元組;關聯(lián)數據
1構建文物知識圖譜的關鍵技術
1.1實體抽取技術
實體抽取技術又被稱作實體識別技術。該技術指在原始語料中自動識別和獲取命名實體。常見的實體抽取技術主要包括通過統(tǒng)計機器學習方法抽取實體、根據規(guī)范和字典抽取實體以及通過深度認知技術抽取實體。近年來,科學家嘗試以國際微生物命名規(guī)范和國際微生物學字典為依據確定文件中的微生物命名,并建立以國際微生物名稱標準為依據的實體識別方法。技術人員便可以通過改進條件獲得明信片中的地址實體。部分技術人員通過微博文腳本在滑動窗口上創(chuàng)建預測標簽,并通過深度認知技術完成實體識別。博物館文物知識中涉及較多專用名詞,名詞命名規(guī)律并不具備規(guī)律,當文物名稱在文本中出現時,很難利用機器學習識別文物正確名稱。所以,為了保證抽取實體準確率,必須采用以詞典和規(guī)則為基礎的方法達成實體抽取目標。
1.2實體關系和屬性抽取技術
實體關系和屬性抽取技術通過三元組表示方法呈現,即通過“實體一關系一實體”的對象屬性或“實體一屬性一屬性值”方式表達。其中,屬性指的是數據屬性,數據屬性的屬性值歸于文本類型,而對象屬性的屬性值則歸屬于另一個實體。而依照信息的資源類型劃分,三元組提取方法也可被劃分為2種類型,即基于基礎結構化信息和半結構化信息的三元組提取方法、基于非結構化信息的三元組提取方法?;A結構化或半結構化信息都具有一種較好的分布結構,大眾能夠很容易地在其中獲取所需的三元組。而非結構化數據僅使用比較規(guī)則,屬于自然語言的文本類型,由于中文句法和語言系統(tǒng)的復雜性特點導致三元組工作過程具有復雜特征。目前,常見提取技術分為基于深度學習的三元組提取、基于機器歇息的三元組提取以及基于模式匹配的三元組提取。
1.3實體鏈接技術
在知識融合的過程中,要對抽取的三元組進行有效處理,再將其融人自身知識圖譜之中,包括實體消歧和鏈接2種方式。其中,實體消歧指的是把名字中具有歧義的成分映射到具體知識中,以避免同一個實體的一詞多義現象。基本解決辦法將候選實物與知識圖譜中的實體指稱一個特征向量,并對其展開聚馓花序,完成整個實物消歧過程。進行消歧作用時,將其連接在圖上已出現的實物上,這稱為實體連接。
2構建文物知識圖譜的實際流程
知識圖譜在實質上屬于一種以圖像為基本的語義網絡內容,其主體部分就是節(jié)點和邊。這里的節(jié)點主要指的是現實世界中實體內容,邊指的是實體間的內在聯(lián)系。知識圖譜使實際世界中的所有實體之間形成了聯(lián)系,主體結構由“實體一關系一實體”或“實體一屬性一屬性值”這類三元組所構成。以知識圖譜為基礎的搜索引擎,實現了從傳統(tǒng)Web頁面連接到實體連接之間的轉換,能夠直接為用戶指明搜索主體,在語義方面服務用戶獲取檢索意圖。通過知識圖譜檢索方式,用戶可以精準獲取所需信息,具體流程如下。
2.1知識表示
半結構化數據中包括很多文物知識,知識圖譜中的數據存儲形式具備結構化特征。所以,文物知識圖譜主要研究的內容是在結構化數據中獲取文物結構化知識,整合與構建文物知識圖譜,將其應用到文物知識推理中。而文物知識圖譜的形成與應用過程蘊含的關鍵概念是文物人士表示。例如,國際萬維網協(xié)會所制定的資源描述框架技術標準就是以三元組表示為依據。當前,知識信息表示技術仍然面臨知識信息缺失和運算質量較低等情況。傳統(tǒng)知識庫的知識信息表示技術以一階謂詞為基準,構成了符號信息表示模式中的最后一類,可以有效拓展二階邏輯信息表示功能。現代知識庫圖譜在語義描述領域的范圍已大幅縮小,以事實的知識為基礎特征。隨著計算式知識發(fā)展和深度神經網絡發(fā)展,向量數據表征方法也將日益受到大眾關注。對于以向量數據為核心的表征目的可以有效表述的實體數據,如非結構化的數據。利用計算機學習、數據方法等手段的向量特點,可以把具體的文物關系抽象成數字的向量特征,為文物關系的發(fā)現奠定了堅實基礎。
以向量為基礎的知識可以被嚴格地區(qū)分為無知識表示與知識表示2個形式。其中,無學習數據表示方式中的最常用表示方式就是單獨熱表。這種描述方式把知識描述成只具有一個維度的非零向量。為區(qū)別不同知識,獨熱表示向量的向量維度更多。獨熱表示不能充分利用對象間語義相似度信息,會受到數據不足影響,計算效率無法得到提升。知識表示相對于獨熱表示而言,通過有效學習階段能夠有效使用對象間語義信息,減少知識表示向量維度。近年來,知識表示技術的出現使得研究人員逐漸從多維角度解決復雜建模問題,也逐漸構建了多個新模型,提升了表示性能。
2.2知識抽取
博物館專家大多通過人工整理的方法建立了知識圖譜數據,工作效率不能得到提升,自動化和數字化的特點還不夠突出,無法形成大規(guī)模、標準化和系列化的數據系統(tǒng)。所以,便捷地獲取和加工文物保護信息是形成知識圖譜的關鍵環(huán)節(jié)。在文物知識獲取過程中,所有文物數據都主要來自現存的博物館數據庫,而數據庫中數據又多為結構化的網頁信息和非結構化文本信息,其中包括圖片、考古文獻、歷史資料,以及網絡數據等。而通過人工獲取數據信息并無法完成專業(yè)知識的積累,而必須借助數字化機器技術和深度學習技術實現。知識抽取方法主要分為文物特性抽取、關系提取、實物抽取和屬性提取等。在知識提取基礎上對專業(yè)知識加以總結,并綜合了實物對齊、質量評價以及知識更新等內容,從而形成了較為完整的文物知識圖譜。
2.3知識融合
除了數據描述與數據提取技能,數據圖譜的形成還必須考慮多源數據整合、復雜推理方法等。知識整合主要指的是通過對齊多種數據信息,并對數據加以有效整合,以建立全局一致的信息標識并與知識關聯(lián)。知識整合也是知識圖譜建設中的重要環(huán)節(jié),通過開展知識整合工作可充分體現更開放的信息意識和互聯(lián)思想。比如,TransE使用了知識圖譜中的三元組結構信息達成了表示學習目的。因此,整合這些異構多源數據,對于知識庫的整合來說十分必要?;诒倔w描述中的知識庫表示方式學習模式,以及在基于文本的知識庫中的知識表示方式具有代表性特點。多源信息整合有助于提高信息表示效能,也有助于提高信息實體的表征特性。多源信息整合的數據圖譜建設仍處在初期,成果數量很少,大量數據資料還不能得到考慮,仍具有相當廣闊的研究空間。另外,以關系路徑知識表示學習為基礎,通過實體關系和關系路徑的推理模式進行推理已經成為未來研究的重要方向。
2.4知識加工
通過數字化手段可以做到對文物保護資料與信息的合理調取與集成,也可以對文物保護信息進行有效的整理。比如,信息推理、內容創(chuàng)新和品質評價等工作。以上文物信息與文物保護資料的信息與數據規(guī)范并不統(tǒng)一,如果是依據統(tǒng)一標準對它加以識別,將容易造成重疊及錯誤數據現象的發(fā)生。因此,對抽取的文物保護信息進行多次比較、加工,刪除統(tǒng)計重復的數據,留下最完整規(guī)范的信息流。
3構建文物知識圖譜的具體方法
3.1藏品文物知識問答
天津大學軟件工程專業(yè)學者楊偉強與山西博物館技術工作人員建立合作關系,根據博物院的100多件具有特色的博物館藏品所形成的信息圖譜,提供基于信息表達的本體模式和標準規(guī)范,實現以圖信息中數據的傳遞、信息保存與數據集成等最基本的信息功能。同時,提供館藏文物查詢和文物信息問答等人機交互功能,以提高文物陳列展示、資料分析和信息的輔助管理能力。由于文物基礎僅有100件,文物基礎類型比較有效,所以文物覆蓋面也并不大。因此,大量文物的基礎資料依舊采用自然語言的方式表達,在前期自然語言規(guī)范形式上會受到較大限制,可能會出現文物知識問答偏差的問題。問答偏差問題也是將來要攻克的主要知識問答弊端。
3.2文物知識圖譜可視化展示
董其昌數字人文知識圖譜中,以董其昌的書畫作品及其一生經驗為主要認知線索,具有重要的影像交游、文化、鑒藏、藝術發(fā)展的歷史脈絡。應用機器學習CNN模型與卷積網絡的圖像數據引擎,為董其昌的書畫作品提供了數字化展示與網絡化研究,并應用可視化方式為董其昌作品提供了“主體一表達一時代”的綜合維度,建立了研究藝術元素和樣本的系統(tǒng)[1]。同時,應用機器學習并構建社交媒體圖示,能夠更好地分析作者的交友圈,為其設計全方面立體化圖景。利用Gephi和Python可視化方式展現董其昌作品年表,預留我國歷史人物傳記資料庫和歷史地圖集這類數據庫接口,能夠為未來發(fā)展奠定基礎。對文物知識圖譜而言,其自身數據量和覆蓋范圍有限,大量工作均需要人工作業(yè)完成。實現知識圖譜自動化導人和更新能夠提升圖譜的準確性與穩(wěn)定性,知識圖譜準確性的提升已經成為未來工作的重要研究方向。文物知識圖譜范圍內的知識研究可以保證博物館中的文物獲取新的活力,有利于博物館更好地敘述背后故事,強化大眾的文化素養(yǎng)。
3.3文物知識圖譜輔助決策
以“發(fā)現·養(yǎng)心殿——主題數字體驗展”展覽為例,展覽中的知識圖譜打破了各個文物之間的壁壘,使得資源呈現出共享態(tài)勢,通過文物角度觀察到整個中國歷史文化的發(fā)展。利用云計算、物聯(lián)網、大數據和移動通信等新技術,實現博物館智能管理、智慧服務和智慧保護3大功能,切實達成“智慧博物館”建設目標,給文物賦予了新的生命力[2]。
4構建文物知識圖譜的未來展望
4.1擴展現有知識表示方法
當前科技背景下,以本體工程原理為依據的知識表述和知識描述仍然是知識圖譜形成的重要手段,而借助在RDFS和OWL中對知識元特征的明確界定,就可以形成知識圖譜模式層次的合理構造。圖譜研究的焦點仍然聚焦于材料屬性、實物特征方面。文物描述中涵蓋大量時間、空間和歷史事件內容,使得我們對文物背后的歷史認識理解水平提高之后,必然拓展已有的認識表達方式,對文物時序內容、事件知識和空間知識表示方法進行擴充[3]。知識圖譜自身的關注重點逐漸被轉移到位置事件、時序等知識上,更高效地描繪事件發(fā)展變化特征,為預測類應用形態(tài)提供必要支持。
4.2融合利用多源異質數據
國內各個地區(qū)的博物館數字化資源庫建設已經成為共識,數字化資源建設進程也得到推進,獲得了一定成果[4]。數字化資源建設以大量結構化數據為基礎,當前已經提供了較多的結構化數據,但文字、圖片等非結構化資源的提取數量卻仍然亟待增加。文物保護中的許多文物知識資料研究都是采用圖文信息融合的方法進行,因為圖片和文本信息都涉及文物資訊知識,所以針對文物保護信息材料知識具備的特征,對文物保護意識的探索就應以同時處理文本信息和影響信息的知識表示獲取方式為依據,探索利用不同文字信息和圖片特點的獲得途徑,提高命名實體辨識準確率和召回度,提高文物保護信息知識語言表達能力。
4.3構建聚合式文物元數據模型
研究當前國內外各個博物館的網絡架構和數字資源可以看出,大部分數據項目均屬于獨立開展形式,國內數據共享和管理模式沒有形成。如果利用信息圖譜方法,通過信息整合手段使不同領域數字化信息實現高效連接,就能產生以知識為主體的海量數據庫信息,可以為全面的信息系統(tǒng)資源整合提供條件,使之獲得足夠的技術手段與資料基礎[5]。若要更好地實現這一目標,則必須做到整合并明確不同行業(yè)、領域和企業(yè)的數據文物資源信息中的語義表達標準,并深入發(fā)掘其內涵關系,對數字文物資料內涵進行細粒度描述和去格式化語義描述。
在多重實踐證實的前提下,為了確定目前現有文化遺產理論,需要建立與多域元數標準一致的語義實踐框架模式。在維護這一框架的基礎上,通過整合更多源數據應用程序概要,通過利用現有的成熟元數據基礎元素和語料內容,迎合文化遺產范圍內的其他類和屬性標準化協(xié)議,通過共同構建聚合的元數據模型和實現對數據歷史的語義管理,降低元數據開發(fā)的整體成本。
4.4提供泛在化文物知識圖譜應用服務
通過文物大數據分析的信息化采集形成文物信息圖像,并通過推擠分析技術發(fā)現不同文物具備的人文、歷史、藝術、思想和信仰等內容,可以讓群眾對文物承載的歷史發(fā)展脈絡、社會演變過程有更加全面的了解。利用文物信息畫紙挖掘文物保護資源中內容的有序化與信息間的相互關聯(lián),使用者可通過更加開放的軟件開發(fā)接口,在移動通信設備以及APP、網站等系統(tǒng)應用中嵌入獲取的信息數據集,為用戶提供更加廣泛的數字非物質文化遺產服務,從而確保了文物的信息資料被有效開放共享,進一步提高了文物資訊、商品、服務渠道等信息消費鏈條的設計效率,有效融合中華民族的優(yōu)秀傳統(tǒng)文化和現代公共文化服務體系。
5結束語
為適應文物保護與文物管理工作的需要,滿足大眾對文物保護認識的需求,應該在當前科技環(huán)境背景下引入新型手段。博物館文物知識圖譜系統(tǒng)應用了新的互聯(lián)網信息技術,作為博物館公教傳遞的新業(yè)務方式,通過建立與文物數據庫間的信息聯(lián)系,能夠把文物知識與數據資訊加以高效集成,并利用計算機等智能語言及時反映有關文物保護活動的基本信息,從而有效地處理了文物資源保存、收集與展示過程中存在的各種問題。