趙雪芹 楊一凡 于文靜
摘 要:文章對當(dāng)前工程檔案知識管理現(xiàn)狀進(jìn)行分析,認(rèn)為其在知識開發(fā)方面存在局限。為推動(dòng)工程檔案知識開發(fā)與利用,將Protégé工具與Neo4j圖數(shù)據(jù)庫相結(jié)合,對碎片化的工程檔案數(shù)據(jù)進(jìn)行知識建模與關(guān)聯(lián)聚合,實(shí)現(xiàn)知識層面的數(shù)據(jù)融合與集成,構(gòu)建可視化的工程檔案知識圖譜,為高效存儲、快速組織和精準(zhǔn)表達(dá)工程檔案實(shí)體及數(shù)據(jù)關(guān)聯(lián)提供支持。在其應(yīng)用層面上介紹相關(guān)服務(wù)功能,為工程檔案知識智能服務(wù)提供新方向。
關(guān)鍵詞:工程檔案;圖數(shù)據(jù)庫;Neo4j;知識圖譜;知識管理
我國社會(huì)經(jīng)濟(jì)發(fā)展已邁入知識經(jīng)濟(jì)時(shí)代,工程檔案管理工作的重心要從“檔案庫”轉(zhuǎn)向“知識庫”。傳統(tǒng)的工程檔案管理辦法重在檔案數(shù)字化建設(shè),借助信息集成系統(tǒng)解決檔案資源分散的問題,忽視了工程檔案數(shù)據(jù)挖掘、語義分析等功能,致使工程檔案信息系統(tǒng)“弱智能化”。若對工程檔案進(jìn)行本體構(gòu)建、實(shí)體提取并聯(lián)結(jié)實(shí)體間關(guān)系,形成可視化的工程檔案知識圖譜,能直觀地觀察檔案實(shí)體間的關(guān)聯(lián),快速便捷地定位到相應(yīng)環(huán)節(jié)的具體行為,這種知識組織方式不僅能有效提升檔案管理工作效率,還有利于挖掘檔案數(shù)字資源的隱性知識,實(shí)現(xiàn)多源異構(gòu)工程檔案知識的融合,為企業(yè)工程建設(shè)項(xiàng)目決策與預(yù)測提供有效參考。
筆者調(diào)研發(fā)現(xiàn)目前還未有從Neo4j圖數(shù)據(jù)庫視角構(gòu)建工程檔案知識圖譜來提升工程檔案管理效率相關(guān)研究。為推動(dòng)工程檔案資源管理精細(xì)化,本文借助“某江水資源配置工程”檔案資料,提出基于Neo4j圖形數(shù)據(jù)庫構(gòu)建工程檔案知識圖譜,試圖以圖數(shù)據(jù)形式來存儲檔案資源,為工程檔案智能化管理提供新思路。
一、 工程檔案知識管理現(xiàn)狀及知識圖譜適用性分析
基于圖數(shù)據(jù)庫構(gòu)建知識圖譜是否適用于工程檔案知識管理,還需結(jié)合工程檔案知識管理現(xiàn)狀及圖數(shù)據(jù)庫特性進(jìn)行探討。
1. 工程檔案知識管理現(xiàn)狀分析
工程檔案所蘊(yùn)含的工程建設(shè)知識、經(jīng)驗(yàn)等對工程建設(shè)過程回溯和新工程項(xiàng)目建設(shè)參考都具備重要意義?;ヂ?lián)網(wǎng)技術(shù)驅(qū)動(dòng)下工程檔案管理模式雖有大邁步式突破,但在知識管理與服務(wù)上仍舊不足,具體表現(xiàn)在以下方面:
(1)工程檔案知識開發(fā)力度不夠。合理開發(fā)利用工程檔案知識是有效提升工程檔案價(jià)值的方式,也是社會(huì)發(fā)展過程中提高檔案工作地位的重要環(huán)節(jié)。從國家檔案局發(fā)布的《國家檔案局辦公室關(guān)于2021年度全國經(jīng)濟(jì)科技檔案資源開發(fā)利用案例評選結(jié)果的通報(bào)》來看,目前紅色檔案、企業(yè)檔案科技開發(fā)力度較大,而工程檔案并不突出。工程檔案管理部門“重保存、輕利用”觀念亟待突破,需著力提升工程檔案知識挖掘程度和利用效率。[1]
(2)工程檔案知識語義關(guān)聯(lián)度低?,F(xiàn)有的工程檔案管理系統(tǒng)雖然存儲了大量工程建設(shè)資料,絕大多數(shù)都按照檔號歸類齊整,但檔案資源間的聯(lián)系構(gòu)建并不緊密,甚至沒有對其關(guān)聯(lián)關(guān)系進(jìn)行梳理分析,各冊檔案間形成封閉狀態(tài)。[2]工程檔案知識未實(shí)現(xiàn)深度聯(lián)結(jié),使得深層次、隱性化的知識難以被挖掘,工程檔案知識體系無法擴(kuò)充和替代,降低了工程檔案知識成果的產(chǎn)出。
(3)工程檔案知識單元較為分散。工程檔案源于項(xiàng)目建設(shè)中不同部門的生產(chǎn)過程,也由不同的職能部門分管,即便當(dāng)前多數(shù)工程檔案管理系統(tǒng)實(shí)現(xiàn)檔案資料統(tǒng)一管理,但工程檔案知識單元并未實(shí)現(xiàn)聚合。這導(dǎo)致用戶查閱某部分關(guān)鍵信息時(shí),需要不斷瀏覽多冊檔案資料,不僅瀏覽了大量與目標(biāo)信息無關(guān)的內(nèi)容,還可能遺漏關(guān)鍵信息。
2. Neo4j圖數(shù)據(jù)庫的特點(diǎn)
Neo4j圖數(shù)據(jù)庫是一種利用圖形結(jié)構(gòu)存儲和查詢數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng),其基本組成結(jié)構(gòu)是:節(jié)點(diǎn)、關(guān)系和屬性。Neo4j與傳統(tǒng)的SQL等數(shù)據(jù)庫相比,具備圖形結(jié)構(gòu)數(shù)據(jù)存儲和便利的功能,靈活的圖存儲結(jié)構(gòu)能對數(shù)據(jù)結(jié)構(gòu)較為復(fù)雜的關(guān)聯(lián)關(guān)系、動(dòng)態(tài)關(guān)系變化較快的海量數(shù)據(jù)存儲和管理,解決了關(guān)系型數(shù)據(jù)庫存儲圖結(jié)構(gòu)數(shù)據(jù)時(shí)出現(xiàn)的空間浪費(fèi)等問題。它不僅能對數(shù)據(jù)關(guān)聯(lián)關(guān)系進(jìn)行快速匹配、遍歷和查找,同時(shí)出于天生的可擴(kuò)展性,還適用于高度關(guān)聯(lián)的數(shù)據(jù)關(guān)系建模。由于圖數(shù)據(jù)庫能處理關(guān)系高度復(fù)雜的數(shù)據(jù),甚至能根據(jù)歷史數(shù)據(jù)預(yù)測未來走勢,因而被廣泛應(yīng)用于社交網(wǎng)絡(luò)、地理空間、數(shù)據(jù)管理等多個(gè)領(lǐng)域。[3]
3. 知識圖譜在工程檔案知識管理中的適用性
一是能夠?qū)崿F(xiàn)工程檔案資源的知識挖掘。工程檔案涉及圖紙、成本清單、會(huì)議紀(jì)要等多種形式,涵蓋大量知識,但現(xiàn)有的工程檔案管理系統(tǒng)缺乏揭示工程檔案多元化知識的功能。知識圖譜技術(shù)能夠從多源異構(gòu)的工程檔案中細(xì)粒度化抽取和加工知識,有助于工程檔案資源進(jìn)行有序化、條理化、系統(tǒng)化的知識組織,從“檔案”流向“知識”。二是能夠?qū)崿F(xiàn)工程檔案知識的關(guān)聯(lián)與聚合。工程檔案雖來源分散、類型各異,但彼此間存在著較強(qiáng)的關(guān)聯(lián)性?;趫D數(shù)據(jù)庫方法構(gòu)建工程檔案知識圖譜,將其關(guān)聯(lián)以圖的方式直觀呈現(xiàn),還能在語義分析的基礎(chǔ)上建立起全面、完善的工程檔案知識體系,使得工程檔案管理系統(tǒng)更加智能。三是能夠?qū)崿F(xiàn)工程檔案知識的動(dòng)態(tài)更新。工程項(xiàng)目完工并不代表檔案資料收集工作結(jié)束,新的工程技術(shù)和突發(fā)情況需要及時(shí)補(bǔ)充到檔案資料中。圖數(shù)據(jù)庫的可添加性能夠使工程檔案知識圖譜根據(jù)數(shù)據(jù)的更新添加新的節(jié)點(diǎn)、屬性、關(guān)系,使得圖模型持續(xù)處于更新狀態(tài),知識體系得以不斷更新與擴(kuò)充。
二、 基于圖數(shù)據(jù)庫的工程檔案知識圖譜構(gòu)建方法
本文在掌握工程檔案資源特性和檔案資源整合思路的基礎(chǔ)上,設(shè)計(jì)基于圖數(shù)據(jù)庫的工程檔案知識圖譜構(gòu)建架構(gòu)和知識模型。同時(shí),為達(dá)到理論層面與實(shí)踐層面的契合,實(shí)現(xiàn)知識圖譜對工程檔案知識資源的組織,本文借助某水資源配置工程檔案資料,并依據(jù)保密原則,對關(guān)鍵信息采取模糊處理,定名為“某江水資源配置工程”進(jìn)行實(shí)例驗(yàn)證,以說明研究的可行性。
1. 工程檔案知識圖譜總體構(gòu)建思路
在解讀“某江水資源配置工程”檔案資源的基礎(chǔ)上,首先分析該檔案內(nèi)容結(jié)構(gòu)特征并構(gòu)建工程檔案知識模型,其次依據(jù)知識圖譜構(gòu)建步驟,在Neo4j圖數(shù)據(jù)庫中實(shí)現(xiàn)“某江水資源配置工程”檔案知識圖譜。工程檔案知識圖譜構(gòu)建流程如下:對工程檔案資料內(nèi)容深刻解讀后,確立實(shí)體、屬性以及關(guān)系,并設(shè)計(jì)知識模型。根據(jù)知識模型要素從檔案內(nèi)容中抽取出相關(guān)數(shù)據(jù)形成應(yīng)用本體模型,將本體模型與知識表示中的三元組格式融合,隨后采用實(shí)體對齊、實(shí)體消歧等知識融合技術(shù)清洗數(shù)據(jù),通過Protégé中導(dǎo)出的RDF文件與Neo4j元素映射形成工程檔案知識圖譜并挖掘檔案中的隱性知識。總體分為6個(gè)層次:知識建模層、知識抽取層、知識表示層、知識融合層、知識存儲層以及知識更新層。[4]
2. 工程檔案知識建模層
在構(gòu)建工程檔案知識圖譜之前,要對工程檔案的內(nèi)容結(jié)構(gòu)及其關(guān)聯(lián)進(jìn)行梳理。首先,對檔案內(nèi)容進(jìn)行拆解并構(gòu)建聯(lián)系,分析檔案實(shí)體間的關(guān)聯(lián)才能準(zhǔn)確了解具體事件中的真實(shí)情況。對檔案內(nèi)容進(jìn)行拆解并確定實(shí)體后,將原本復(fù)雜的關(guān)聯(lián)從文字抽象為“邊”,通過“邊”說明實(shí)體間的關(guān)系。本文對“某江水資源配置工程”檔案內(nèi)容的概念和屬性梳理并解讀,最終確定將“工程項(xiàng)目”“檔案主題”“責(zé)任者”“項(xiàng)目時(shí)間”和“項(xiàng)目地點(diǎn)”5個(gè)核心概念[5]作為工程檔案內(nèi)容本體,詳見表1。
其次,考慮到知識圖譜的查詢性和圖數(shù)據(jù)庫的屬性可添加性,分別對不同的實(shí)體添加了相應(yīng)屬性,如人物實(shí)體具有姓名、性別、職稱等屬性。最終根據(jù)檔案內(nèi)容關(guān)系將各實(shí)體進(jìn)行連接,設(shè)計(jì)本文的工程檔案知識模型,如圖1所示。
3. 工程檔案知識抽取層
知識抽取是從工程檔案中抽取所需要的內(nèi)容,包含實(shí)體、關(guān)系和屬性。首先,對“某江水資源配置工程”檔案實(shí)體的數(shù)據(jù)屬性和關(guān)系屬性進(jìn)行梳理和抽取。數(shù)據(jù)屬性抽取,是對實(shí)體的相關(guān)屬性進(jìn)行抽取,使實(shí)體描述更精確和完整。關(guān)系屬性抽取,是對實(shí)體間關(guān)系進(jìn)行解讀,抽取實(shí)體與實(shí)體間的語義關(guān)系。依據(jù)確定的5個(gè)工程檔案本體核心類,利用Protégé工具對“某江水資源配置工程”檔案領(lǐng)域本體類與關(guān)系屬性進(jìn)行創(chuàng)建[6],設(shè)置“are responsible for”“cooperate”“site”等11種關(guān)系。
其次,結(jié)合所構(gòu)建的工程檔案知識模型,將“某江水資源配置工程”檔案中抽取的項(xiàng)目參建單位、建設(shè)地點(diǎn)、建設(shè)時(shí)間等關(guān)鍵實(shí)例數(shù)據(jù)導(dǎo)入,形成工程檔案領(lǐng)域應(yīng)用本體。本文以“某江水資源配置工程”建設(shè)項(xiàng)目為核心,選擇“檔案主題”類中的“某江工程A河上游泄洪閘監(jiān)測布置”“某江進(jìn)口段B大堤防洪閘降壓站供電系統(tǒng)接線設(shè)計(jì)”等實(shí)例進(jìn)行圖譜構(gòu)建研究,將這些實(shí)例數(shù)據(jù)填充到本體5大核心類目中,結(jié)合Protégé對“某江水資源配置工程”應(yīng)用本體進(jìn)行可視化。同時(shí),導(dǎo)出為RDF數(shù)據(jù),為“某江水資源配置工程”檔案知識圖譜的構(gòu)建奠定基礎(chǔ)。
4. 工程檔案知識表示層
在知識抽取層已通過Protégé將“某江水資源配置工程”本體實(shí)例導(dǎo)出為RDF文件,RDF采用三元組集合(資源subject-屬性predicate-屬性值object)的方式在知識圖譜中描述事物和關(guān)系[7],其中subject和object代表知識圖譜中的節(jié)點(diǎn),predicate代表邊,因此在RDF圖數(shù)據(jù)模型中主要由邊和節(jié)點(diǎn)組成。三元組被用來表示實(shí)體間的關(guān)系,或者實(shí)體某個(gè)屬性的屬性值。
5. 工程檔案知識融合層
在知識抽取層中,由于文本表述錯(cuò)誤、模糊等原因,所抽取的知識內(nèi)容會(huì)存在重復(fù)或者沖突等歧義性問題,例如:實(shí)體簡寫重復(fù)情況,“中國建筑”和“中建公司”都代表“中國建筑集團(tuán)有限公司”。因此,需要對所抽取的數(shù)據(jù)進(jìn)行清洗和整理,常用的方法有:實(shí)體對齊、實(shí)體消歧、共指消解等知識融合技術(shù)。它們能夠?qū)碜圆煌瑪?shù)據(jù)源的相同實(shí)體的差異化表達(dá)進(jìn)行融合,幫助消除數(shù)據(jù)集中的噪聲數(shù)據(jù)、冗余數(shù)據(jù),提升工程檔案實(shí)體質(zhì)量。
6. 工程檔案知識存儲層
將上述過程中已經(jīng)清洗好的“某江水資源配置工程”應(yīng)用本體實(shí)例數(shù)據(jù),在Protégé軟件中導(dǎo)出為RDF文件,并將該RDF文件與Neo4j元素進(jìn)行映射,利用Cypher中的CREATE語句創(chuàng)建節(jié)點(diǎn)、MATCH語句創(chuàng)建節(jié)點(diǎn)間關(guān)系、MERGE語句創(chuàng)建節(jié)點(diǎn)與關(guān)系的屬性,Neo4j圖數(shù)據(jù)庫會(huì)依據(jù)模型結(jié)構(gòu)構(gòu)建“某江水資源配置工程”檔案知識圖譜(部分),如圖2所示。工程檔案內(nèi)容除了儲存在圖數(shù)據(jù)庫中,還能通過網(wǎng)狀結(jié)構(gòu)充分展現(xiàn)其關(guān)聯(lián),通過數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)等方法挖掘隱性知識,為上層提供知識發(fā)現(xiàn)、知識搜索、知識推薦等工程檔案知識服務(wù)。
7. 工程檔案知識更新層
知識更新層主要是工程檔案知識更新和用戶知識需求更新。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫根據(jù)事實(shí)關(guān)系所呈現(xiàn)是靜態(tài)的知識圖譜,僅反映某個(gè)階段的工程檔案知識,但工程竣工并不意味著檔案資料存儲結(jié)束,例如某些工程在數(shù)年后發(fā)生了緊急狀況或質(zhì)量問題,檔案資料也需要更新后續(xù)的應(yīng)急措施等內(nèi)容。基于圖數(shù)據(jù)庫的可添加性,可隨時(shí)根據(jù)事態(tài)變化,對相應(yīng)的節(jié)點(diǎn)、屬性、關(guān)系進(jìn)行更新,動(dòng)態(tài)的工程檔案知識圖譜解決了靜態(tài)圖譜的時(shí)滯性。在用戶知識需求更新方面,根據(jù)用戶查詢?yōu)g覽痕跡對知識圖譜結(jié)構(gòu)進(jìn)行調(diào)整,填補(bǔ)用戶需要的知識內(nèi)容,同時(shí)搭建時(shí)序圖譜使得用戶能夠依據(jù)時(shí)間維度來獲取所需的關(guān)鍵信息。
三、 工程檔案領(lǐng)域知識圖譜應(yīng)用
通過Neo4j圖數(shù)據(jù)庫構(gòu)建的工程檔案領(lǐng)域知識圖譜,根據(jù)知識圖譜的網(wǎng)狀結(jié)構(gòu)梳理工程檔案知識間的邏輯關(guān)系,在此基礎(chǔ)上實(shí)現(xiàn)知識抽取和知識挖掘,豐富工程檔案知識庫體系,打造工程檔案知識搜索、知識推薦等系列功能,以期實(shí)現(xiàn)工程檔案智能服務(wù)模式。[8]
1. 工程檔案知識智能搜索
當(dāng)前的智能搜索技術(shù)主要針對字面理解進(jìn)行關(guān)鍵詞搜尋,不能分析用戶所輸入詞匯的語義內(nèi)涵,導(dǎo)致檢索結(jié)果有偏差。使用工程檔案知識圖譜搜索知識時(shí),能夠發(fā)揮語義解讀功能,真正理解用戶實(shí)際檢索需求,及時(shí)定位到相關(guān)實(shí)體或?qū)傩陨希褂脩臬@取更精確、更全面的工程檔案知識。例如,在“某江水資源配置工程”中只要點(diǎn)擊該項(xiàng)目節(jié)點(diǎn),便能獲取“施工單位”“項(xiàng)目編號”等屬性。
2. 工程檔案知識智能推薦
除了用戶對知識的主動(dòng)搜索,知識獲取還能依靠系統(tǒng)的智能推薦服務(wù)。工程檔案知識圖譜對關(guān)聯(lián)的知識實(shí)體間的知識網(wǎng)絡(luò)結(jié)構(gòu)梳理清晰,能結(jié)合用戶的知識搜尋記錄、知識單元訪問頻率等信息,利用智能知識推薦算法分析用戶知識需求,精確推薦用戶想要的工程檔案知識,還能向用戶推送其可能感興趣的工程知識內(nèi)容,將用戶主動(dòng)搜索模式轉(zhuǎn)化為系統(tǒng)主動(dòng)推薦模式。
3. 工程檔案知識智能問答
工程檔案智能服務(wù)系統(tǒng)在處理用戶知識需求時(shí),除了接收用戶主動(dòng)輸入的關(guān)鍵詞搜尋,還能處理用戶在問答區(qū)的知識提問。工程檔案知識圖譜梳理存儲了全部檔案知識脈絡(luò),對工程檔案知識單元了解全面。因此,通過嵌入語義分析系統(tǒng),對用戶提問內(nèi)容充分解讀,依據(jù)所存儲的知識單元,實(shí)現(xiàn)工程檔案知識智能問答,提升工程檔案知識服務(wù)質(zhì)量。
4. 工程檔案動(dòng)態(tài)知識導(dǎo)航
傳統(tǒng)的工程檔案智能服務(wù)系統(tǒng)在其檔案資源類別管理上使用的是靜態(tài)的導(dǎo)航模式,用戶使用知識導(dǎo)航功能難以全面瀏覽整個(gè)知識單元。創(chuàng)建動(dòng)態(tài)的工程檔案知識導(dǎo)航后,用戶點(diǎn)擊某個(gè)知識實(shí)體,知識導(dǎo)航系統(tǒng)便根據(jù)關(guān)系和屬性引導(dǎo)用戶全面瀏覽相關(guān)的工程檔案知識體系。如在查詢“某江水資源配置工程”檔案時(shí),選擇檔案主題下的“基本建設(shè)”類目,可展示該工程項(xiàng)目所涵蓋的所有基本建設(shè)類相關(guān)資料分布。
四、 結(jié)語
本文設(shè)計(jì)將工程檔案本體與Neo4j圖數(shù)據(jù)庫相結(jié)合,構(gòu)建工程檔案領(lǐng)域知識圖譜,可實(shí)現(xiàn)工程建設(shè)知識的聚合組織與知識關(guān)聯(lián),深度挖掘工程檔案價(jià)值。不僅能有效推動(dòng)工程檔案數(shù)字資源的知識存儲與知識表示,面向用戶提供具有專業(yè)性、針對性的檔案知識關(guān)聯(lián)服務(wù),而且為工程建筑行業(yè)開發(fā)檔案數(shù)字資源提供參考,具有良好的應(yīng)用前景。本文所提出的方法為工程建設(shè)檔案知識挖掘和利用提供系統(tǒng)性和科學(xué)性的參考,但實(shí)現(xiàn)圖數(shù)據(jù)庫在工程檔案信息管理中的普及運(yùn)用仍需要繼續(xù)探索,望能引起相關(guān)研究者與實(shí)踐者對檔案資源存儲及開發(fā)的關(guān)注。
注釋與參考文獻(xiàn)
[1]劉靖昌,李楊.知識圖譜技術(shù)在城市軌道交通企業(yè)檔案數(shù)字化的初探[J].城市軌道交通,2021(7):4.
[2]胡一鳴.煉油催化劑檔案專題數(shù)據(jù)庫的建設(shè)及應(yīng)用[J].化工進(jìn)展,2021(S2):192-197.
[3]張前進(jìn).基于Neo4j的智能學(xué)習(xí)系統(tǒng)語義鏈接圖式存儲研究[J].佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版),2017(2):299-301.
[4]熊回香,嚴(yán)舞月.基于知識圖譜的數(shù)字檔案服務(wù)模式探究[J].知識管理論壇,2021(4):204-212.
[5]羅倩.基于本體的工程檔案數(shù)據(jù)化模式與方法研究[D].湖北大學(xué),2021.
[6]雷潔,李思經(jīng),趙瑞雪,等.面向科研檔案管理的知識圖譜構(gòu)建與應(yīng)用研究[J].數(shù)字圖書館論壇,2020(5):8-15.
[7]張維沖,王芳,黃毅.基于圖數(shù)據(jù)庫的貴州省大數(shù)據(jù)政策知識建模研究[J].數(shù)字圖書館論壇,2020(4):30-38.
[8]張慧穎,曹玉.國內(nèi)檔案智慧服務(wù)研究綜述[J].山西檔案,2021(6):161-170.