簡宇翔,董興芝,宋清水,呂占民
(1.中國國家鐵路集團(tuán)有限公司 辦公廳,北京 100844;2.中國鐵道科學(xué)研究院集團(tuán)有限公司 電子計算技術(shù)研究所,北京 100081;3.中國鐵路北京局集團(tuán)有限公司 客運部,北京 100860)
值班值守是鐵路機(jī)關(guān)部門工作的重要組成部分,是形成鐵路內(nèi)部運轉(zhuǎn)高效、應(yīng)急有備、應(yīng)對有序的關(guān)鍵環(huán)節(jié),主要包括政務(wù)值班、應(yīng)急值守和信息報送等內(nèi)容[1]。值班值守工作涉及數(shù)據(jù)來源多樣,其范圍覆蓋鐵路各專業(yè)及其他領(lǐng)域,盡管跨部門數(shù)據(jù)流通渠道已基本建立,但橫向部門間數(shù)據(jù)共享仍缺乏統(tǒng)一的規(guī)范和融合機(jī)制,導(dǎo)致相關(guān)數(shù)據(jù)的隱藏價值難以被釋放,碎片化的值班數(shù)據(jù)難以為決策所用。
知識圖譜技術(shù)近年來被廣泛應(yīng)用于知識檢索、知識管理及問答等領(lǐng)域,其結(jié)構(gòu)化知識表示形式能夠更好地描述業(yè)務(wù)領(lǐng)域中客觀實體及關(guān)系,這一技術(shù)優(yōu)勢切合了鐵路值班值守數(shù)字化和智能化的發(fā)展需要。本體作為一種知識形式化表示方法,用以約束知識圖譜數(shù)據(jù)的組織方式,是知識圖譜構(gòu)建的重要基礎(chǔ)。領(lǐng)域本體在眾多領(lǐng)域研究和應(yīng)用的底層邏輯方面發(fā)揮了重要作用,能夠促進(jìn)領(lǐng)域知識的管理及應(yīng)用,高質(zhì)量的領(lǐng)域本體有助于提高圖譜構(gòu)建質(zhì)量,提升下游任務(wù)效果[2-3]。
如今,各行各業(yè)均有學(xué)者開展了相關(guān)本體構(gòu)建研究,于坤[4]提出了面向城市公共交通服務(wù)的本體映射方法,實現(xiàn)了多來源城市公共交通服務(wù)數(shù)據(jù)的關(guān)聯(lián);黃偉春等人[5]基于軍事領(lǐng)域常用術(shù)語對領(lǐng)域本體進(jìn)行了頂層設(shè)計,對軍事領(lǐng)域的實體屬性、關(guān)系等要素進(jìn)行了規(guī)定,并對軍事術(shù)語的提取規(guī)則進(jìn)行了總結(jié)歸納,保障了軍事領(lǐng)域知識圖譜構(gòu)建的規(guī)范性和準(zhǔn)確性;唐懿飛等人[6]以疫情事件為驅(qū)動場景,基于疫情事件本體進(jìn)行城市疫情放開領(lǐng)域知識建模,并進(jìn)行了模擬驗證,證明了方法的有效性。在不同領(lǐng)域本體構(gòu)建中,研究人員往往會根據(jù)應(yīng)用場景的差異提出不同的構(gòu)建標(biāo)準(zhǔn)。領(lǐng)域本體通常可以劃分為通用性常識本體、專業(yè)領(lǐng)域本體、任務(wù)型本體等[7]。比較有代表性的本體構(gòu)建方法包括七步法、骨架法、IDEF5、TOVE、ETHONTOLOGY、KACTUS法及SENSUS法等,不同領(lǐng)域的本體構(gòu)建方法,其構(gòu)建原則和設(shè)計標(biāo)準(zhǔn)也不相同,難以實現(xiàn)本體的共享、重用和互操作。
基于上述分析,本文研究面向鐵路值班值守的任務(wù)本體構(gòu)建方法,構(gòu)建值班值守任務(wù)庫,設(shè)計值班值守任務(wù)本體架構(gòu),研究值班值守任務(wù)本體應(yīng)用方案,從而規(guī)范值班任務(wù)語義的一致性,實現(xiàn)任務(wù)內(nèi)容的高效組織與重構(gòu),全面提升鐵路值班值守及應(yīng)急管理水平。
鐵路值班值守涉及多個專業(yè)領(lǐng)域數(shù)據(jù),不同專業(yè)來源數(shù)據(jù)的領(lǐng)域本體間在概念定義、屬性關(guān)系方面均存在差異,無法直接進(jìn)行合并使用,影響了值班值守信息的共享和繼承,間接影響事務(wù)處置的決策[3],因此,以值班值守任務(wù)為驅(qū)動的本體構(gòu)建,首先要圍繞值班內(nèi)容構(gòu)建其任務(wù)庫。
鐵路機(jī)關(guān)值班值守任務(wù)主要包括:落實上級機(jī)關(guān)各項值班工作要求;建立本單位所屬單位、 部門的值班體系,建立健全各項值班工作制度;本單位突發(fā)事件信息和重要緊急事項報告工作,協(xié)助處置各類突發(fā)事件。其任務(wù)庫是由函件辦理、應(yīng)急任務(wù)處置等過程中產(chǎn)生的信息記錄、傳達(dá)、分析、請示上報等一系列處置情景要素構(gòu)成。分析值班值守任務(wù)形式,識別信息報送、會議通知、應(yīng)急事件信息等多任務(wù)情景要素是構(gòu)建值班值守任務(wù)庫的首要工作。通過綜合專家知識、基礎(chǔ)數(shù)據(jù)庫、歷史案例等數(shù)據(jù),構(gòu)建值班值守任務(wù)庫,可為構(gòu)建值班值守任務(wù)本體架構(gòu)提供基礎(chǔ)支撐。
對值班領(lǐng)域內(nèi)值守任務(wù)進(jìn)行結(jié)構(gòu)化及定義明確的描述,在全面涵蓋值班領(lǐng)域概念基礎(chǔ)上,使得該領(lǐng)域內(nèi)各方參與者對這些概念的描述能夠達(dá)成共識。值班值守任務(wù)本體架構(gòu)如圖1所示。
圖1 值班值守任務(wù)本體架構(gòu)
基于鐵路值班值守任務(wù)庫,匯集鐵路值班值守領(lǐng)域涉及的數(shù)據(jù)資源,進(jìn)而確定值班值守任務(wù)本體涉及的領(lǐng)域范圍、主要概念關(guān)系及主題詞,同時,歸納值班值守任務(wù)場景。結(jié)合行業(yè)專家的經(jīng)驗,提煉出描述值班值守任務(wù)的本體分析表達(dá),進(jìn)一步確定本體構(gòu)建的框架結(jié)構(gòu),同時,開展合理性和可行性分析評估,不斷進(jìn)行動態(tài)優(yōu)化調(diào)整?;诖_定的值班值守本體框架,劃分任務(wù)情景域并確定本體層級關(guān)系及關(guān)系類型。最終,結(jié)合既有鐵路行業(yè)本體,修正完善值班值守任務(wù)本體。
面向值班值守的任務(wù)本體偏向于多種值班任務(wù)內(nèi)容的統(tǒng)一描述,因此本文參照事件性任務(wù)本體構(gòu)建過程,設(shè)計值班值守本體流程。
1.3.1 定義值班值守任務(wù)涉及的類和類的繼承
確保類的繼承(is-a、kind-of)正確,同時考慮繼承結(jié)構(gòu)中的并列關(guān)系等,提出一種面向鐵路值班值守領(lǐng)域本體構(gòu)建的方法,其邏輯表達(dá)可定義為六元組形式,表示為
式(1)中,A表示值班值守的處置動作;O表示涉及到該值班內(nèi)容的對象,包括部門、人員角色等;T表示值班內(nèi)容發(fā)生的時間段,包括值班開始時間及值班內(nèi)容事件記錄時間;C表示值班內(nèi)容的類型,可表示為會議邀請、禮遇函、感謝信、應(yīng)急事件等;P表示值班記錄員的信息;H表示概念層級,用于說明概念集合的層級劃分,H(A1,A2)表示A1是A2的子概念。
1.3.2 定義屬性和關(guān)系
基于類的基礎(chǔ),進(jìn)一步定義其概念和概念間的內(nèi)部聯(lián)系。概念之間的聯(lián)系可分為內(nèi)部屬性(Datatype Property)和外部屬性(Object Property)。基于值班值守任務(wù)本體架構(gòu),調(diào)研分析當(dāng)前Protégé、WebOneto、KAON、WebODE等常用的本體自動化構(gòu)建工具,其中,Protégé的圖形化構(gòu)建界面操作簡便,且支持中文語言推理及軟件擴(kuò)展等功能[8]。因此,本文采用Protégé本體編輯工具對值班值守任務(wù)進(jìn)行類及其關(guān)系定義[9]。 值班值守任務(wù)函件辦理類下的SubClassOf從屬類定義過程如圖2所示。
圖2 值班值守任務(wù)類的定義
1.3.3 創(chuàng)建類對應(yīng)的實例
創(chuàng)建實例后要為實例的屬性賦值?;阼F路值班值守業(yè)務(wù)內(nèi)容,根據(jù)日常工作任務(wù),劃分不同的作業(yè)類別,進(jìn)而定義類和子類、對象屬性和數(shù)據(jù)屬性的應(yīng)用?;谥凳貎?nèi)容不同的類、子類等從屬關(guān)系,實現(xiàn)了基于語義的關(guān)聯(lián)架構(gòu)。
函件辦理屬于值班值守任務(wù)的一項子類,包括禮遇函、邀請函、感謝信等處理內(nèi)容,各處理內(nèi)容含有不同的處理屬性,通過處理過程中的不同操作觸發(fā)其屬性,形成函件辦理的類別、屬性關(guān)聯(lián)架構(gòu),如圖3所示。
圖3 函件辦理類別關(guān)聯(lián)架構(gòu)
本體是構(gòu)建知識圖譜的基礎(chǔ),是衡量圖譜構(gòu)建質(zhì)量和完整度的重要依據(jù)[10],值班值守任務(wù)本體概念模型形式化地表達(dá)了其領(lǐng)域內(nèi)相關(guān)概念的關(guān)系和基本術(shù)語規(guī)則,本體應(yīng)用架構(gòu)如圖4所示。
圖4 本體應(yīng)用架構(gòu)
基于構(gòu)建的值班值守任務(wù)本體架構(gòu),既可支撐領(lǐng)域知識圖譜構(gòu)建,對復(fù)雜知識建模過程形成一種規(guī)范約束,保障領(lǐng)域知識圖譜構(gòu)建質(zhì)量;又可通過本體及本體間的關(guān)聯(lián)關(guān)系進(jìn)行規(guī)則推理,實現(xiàn)知識的智能計算,最終服務(wù)于知識應(yīng)用?;诒倔w輔助構(gòu)建搜索引擎,可暢通和拓寬值班信息獲取渠道,建立信息收集網(wǎng)絡(luò),提升獲取信息線索的能力;建立健全突發(fā)事件信息報送制度,在接到上級單位突發(fā)事件通知后,事發(fā)地單位和相關(guān)部門須按通知時限和內(nèi)容要求及時準(zhǔn)確地組織報送有關(guān)書面材料。在本體基礎(chǔ)上實現(xiàn)值班知識圖譜數(shù)據(jù)庫,能協(xié)助做好報送上級單位突發(fā)事件信息的起草、 修改等工作,大幅提升鐵路機(jī)關(guān)辦公的工作效率。
值班值守任務(wù)本體定義了任務(wù)規(guī)則規(guī)范,利用本體對知識的規(guī)范化描述來更好地理解信息資源的語義,可極大提升檢索的效率及準(zhǔn)確率,并為不同軟件、系統(tǒng)間的知識共享提供堅實基礎(chǔ)。在構(gòu)建本體之后,開展值班文件內(nèi)容的輔助解析服務(wù)。基于詞頻-逆文檔頻率(TF-IDF,Term Frequency-Inverse Document Frequency)方法,可評估某一實體在值班文檔中的重要程度[11],并進(jìn)行文本數(shù)據(jù)的關(guān)鍵詞提取,進(jìn)而歸納總結(jié)值班文件的主體內(nèi)容。本文采用TFIDF方法,評估該文件中重要的主題詞,結(jié)合值班值守任務(wù)本體,通過規(guī)則推薦方式鎖定相關(guān)聯(lián)的處置手段和應(yīng)急策略,以支撐突發(fā)事件信息的快速啟動應(yīng)急。TF-IDF方法如下。
(1)TF 表示給定詞語在該文檔中出現(xiàn)的頻率,設(shè)給定詞為ti,文件為dj,則單詞ti的重要程度可以描述為
式(2)中,ni,j為ti在文件dj中出現(xiàn)的次數(shù),分母是文件dj字詞出現(xiàn)的總次數(shù)和。
(2)IDF 表示給定詞出現(xiàn)的普遍重要程度,逆向文件頻率值越大,說明辨識度越好,公式為
式(3)中,|D|為值班語料庫中的文檔總數(shù),|j:ti∈dj|為包含詞語的文檔數(shù)目。公式的分母加1是為了避免詞語出現(xiàn)在文檔中的數(shù)目為0。
(3)TF-IDF是基于詞頻與逆向文件頻率的組合,給定詞的權(quán)重Wi,j公式為
利用TF-IDF詞頻分析對突發(fā)事件文本內(nèi)容進(jìn)行解析,通過對文本關(guān)鍵實體詞重要性排序,與應(yīng)急值守本體領(lǐng)域?qū)嶓w相比對,篩選出該領(lǐng)域本體的關(guān)鍵實體詞,實現(xiàn)對突發(fā)事件信息中涉及的安全事故類本體所對應(yīng)實體的詞頻分析,同時,結(jié)合本體上下級關(guān)聯(lián)關(guān)系,輔助值班值守人員快速定位突發(fā)事件涉及的主管部門及相關(guān)負(fù)責(zé)人員,大幅提升值班值守人員對突發(fā)事件內(nèi)容的判斷分析質(zhì)量和信息報送效率 。
本體的構(gòu)建是知識圖譜模式設(shè)計的關(guān)鍵,而本體對齊是實現(xiàn)知識融合的關(guān)鍵步驟,主要指在不同本體中,對具有相關(guān)語義的概念建立聯(lián)系的過程,實現(xiàn)不同本體間的知識共享。值班值守相關(guān)政策要求在值班過程中切實強(qiáng)化信息報告的主動性,基于領(lǐng)域本體設(shè)計值班知識圖譜有利于暢通和拓寬信息獲取渠道。知識圖譜是富語義網(wǎng)絡(luò),能夠加強(qiáng)單一值班任務(wù)對各方面情況的掌握。同時,基于知識圖譜強(qiáng)大的語義關(guān)聯(lián)關(guān)系,可強(qiáng)化值班輿情監(jiān)測和分析,盡早察覺出預(yù)警性、苗頭性信息,做到早監(jiān)測、早發(fā)現(xiàn)、 早報告?;谥蛋嘀凳厝蝿?wù)本體,可進(jìn)一步分析值班事件的脈絡(luò)關(guān)系,如以值班任務(wù)中來電值班內(nèi)容為例,內(nèi)容為“2023年9月12日8時,總值班室劉XX接到國際鐵路聯(lián)盟UIC的來電,邀請國鐵機(jī)關(guān)及下屬企業(yè)負(fù)責(zé)人派員主持軌道交通裝備展覽會議”,對來電值班任務(wù)進(jìn)行實體映射,實例層和本體層對應(yīng)關(guān)系如圖5所示。
圖5 實例層和本體層映射關(guān)系
本文闡述了面向鐵路值班值守的任務(wù)本體構(gòu)建的原理和實現(xiàn)過程,確定了值班值守任務(wù)本體涉及的范疇及構(gòu)建原則,設(shè)計了值班值守任務(wù)本體架構(gòu)。利用本體構(gòu)建工具 Protégé 實現(xiàn)了值班值守任務(wù)本體的形式化表示,并對值班值守任務(wù)的事務(wù)操作進(jìn)行關(guān)聯(lián),有助于值班人員從內(nèi)容層面對值班任務(wù)進(jìn)行知識組織和管理。由于鐵路值班值守不是針對某一專業(yè)進(jìn)行,而是面向全國鐵路各專業(yè),其數(shù)據(jù)來源多、結(jié)構(gòu)松散、關(guān)系復(fù)雜多樣,值班值守任務(wù)本體的構(gòu)建一定程度上促進(jìn)了各領(lǐng)域的信息共享,進(jìn)一步推動了值班和應(yīng)急處置工作的科學(xué)化和規(guī)范化。值班值守任務(wù)本體的構(gòu)建是一個長期的系統(tǒng)工程,仍需要不斷探索和實踐,當(dāng)前研究的粒度還不夠細(xì),對語義本體的完善、知識庫的建設(shè)是本文下一步的研究方向。