欒瑞鵬, 張 靜, 劉立坤
(1. 中國人民解放軍91550部隊(duì), 遼寧 大連 116023; 2. 中國人民解放軍32801部隊(duì), 北京 100000)
軍事裝備試驗(yàn)鑒定是指通過規(guī)范化的組織形式和試驗(yàn)活動(dòng),對(duì)被試對(duì)象進(jìn)行全面考核并作出評(píng)價(jià)結(jié)論的檢驗(yàn)行為,工作內(nèi)容涵蓋武器系統(tǒng)、平臺(tái)系統(tǒng)、體系試驗(yàn)、訓(xùn)練演習(xí),以及相關(guān)理論方法、技術(shù)、試驗(yàn)專用裝備等領(lǐng)域,涉及面廣、專業(yè)性強(qiáng),導(dǎo)致試驗(yàn)鑒定領(lǐng)域數(shù)據(jù)具有高度的復(fù)雜性,為試驗(yàn)鑒定機(jī)構(gòu)(執(zhí)行試驗(yàn)鑒定任務(wù)的工作主體單位)開展數(shù)據(jù)治理工作,帶來了極大的困難。
數(shù)據(jù)治理是一整套標(biāo)準(zhǔn)、流程、要素、工具以及組織管理行為的統(tǒng)稱[1-2],其目標(biāo)是支持組織機(jī)構(gòu)對(duì)自身數(shù)據(jù)的有序管理[3]、應(yīng)用并提升數(shù)據(jù)價(jià)值[4]。大數(shù)據(jù)時(shí)代,數(shù)據(jù)治理是組織機(jī)構(gòu)實(shí)現(xiàn)自身數(shù)據(jù)戰(zhàn)略、提質(zhì)增效、管控風(fēng)險(xiǎn)、應(yīng)對(duì)挑戰(zhàn)的重要保障[5-6]。
本文結(jié)合工作實(shí)踐,深入分析試驗(yàn)鑒定領(lǐng)域數(shù)據(jù)治理難點(diǎn),提出以知識(shí)圖譜為核心的試驗(yàn)鑒定機(jī)構(gòu)開展數(shù)據(jù)治理技術(shù)思路。針對(duì)本體建模這一知識(shí)圖譜構(gòu)建的關(guān)鍵問題,在分析試驗(yàn)鑒定領(lǐng)域數(shù)據(jù)特點(diǎn)基礎(chǔ)上,融合斯坦福本體構(gòu)建方法,設(shè)計(jì)了一種具有試驗(yàn)鑒定領(lǐng)域普適性的本體構(gòu)建方法,指導(dǎo)領(lǐng)域本體建模,進(jìn)一步形成知識(shí)圖譜,為試驗(yàn)鑒定領(lǐng)域數(shù)據(jù)治理工作提供支撐。
裝備試驗(yàn)鑒定是一個(gè)多層次、多維度復(fù)雜系統(tǒng)工程,試驗(yàn)鑒定領(lǐng)域數(shù)據(jù)有著極強(qiáng)的復(fù)雜性,這種復(fù)雜性體現(xiàn)在數(shù)據(jù)需求、數(shù)據(jù)來源以及試驗(yàn)數(shù)據(jù)本身3個(gè)方面。
數(shù)據(jù)需求的復(fù)雜性源自鑒定評(píng)估工作。鑒定評(píng)估是根據(jù)試驗(yàn)數(shù)據(jù),對(duì)被試對(duì)象進(jìn)行全面考核并作出評(píng)價(jià)結(jié)論的過程。鑒定評(píng)估既要考核被試對(duì)象的技術(shù)性能,也要考核其作戰(zhàn)效能。相應(yīng)的評(píng)估目標(biāo)包括性能指標(biāo)體系和效能指標(biāo)體系,以及二者之間的交聯(lián)。被試對(duì)象尤其是戰(zhàn)略武器、作戰(zhàn)平臺(tái)等現(xiàn)代化裝備,無論自身功能還是所屬作戰(zhàn)體系均極為復(fù)雜,相關(guān)指標(biāo)評(píng)定所采用的方法、技術(shù)、手段均有所不同,造成了數(shù)據(jù)需求的復(fù)雜性。
數(shù)據(jù)來源的復(fù)雜性源自保障條件及試驗(yàn)活動(dòng)。試驗(yàn)保障條件是試驗(yàn)數(shù)據(jù)的主要獲取載體,其主體是測(cè)試測(cè)量、環(huán)境構(gòu)設(shè)、基礎(chǔ)保障等一系列試驗(yàn)專用裝備及設(shè)施。這些裝備設(shè)施組成層次、網(wǎng)狀的試驗(yàn)保障體系,支撐試驗(yàn)鑒定任務(wù)的開展;試驗(yàn)鑒定機(jī)構(gòu)是試驗(yàn)活動(dòng)的實(shí)施主體,試驗(yàn)活動(dòng)產(chǎn)生試驗(yàn)數(shù)據(jù),試驗(yàn)活動(dòng)具有階段性,各階段均包括一系列子任務(wù),子任務(wù)又由直接準(zhǔn)備、組織實(shí)施、結(jié)果分析3個(gè)分階段組成,且子任務(wù)之間也可能交叉開展。上述特點(diǎn)造成了數(shù)據(jù)來源的復(fù)雜性。
試驗(yàn)數(shù)據(jù)本身的復(fù)雜性體現(xiàn)在數(shù)據(jù)格式、存儲(chǔ)介質(zhì)等方面。由于數(shù)據(jù)來源設(shè)備的不同,存儲(chǔ)介質(zhì)上存在紙質(zhì)、膠片、磁帶、磁盤、光盤和硬盤多種存儲(chǔ)型態(tài);數(shù)據(jù)格式上存在著結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化多型并存的狀態(tài),增加了數(shù)據(jù)來源、含義等方面的復(fù)雜性。
知識(shí)圖譜用符號(hào)形式描述概念及其相互關(guān)系,一般可定義為“由作為節(jié)點(diǎn)的實(shí)體和作為邊的關(guān)系組成的多關(guān)系圖”[7]。目前,知識(shí)圖譜已在網(wǎng)絡(luò)安全[8]、電力建設(shè)[9]、情報(bào)分析[10]、醫(yī)療[11]、金融[12]等領(lǐng)域得到廣泛運(yùn)用并發(fā)揮了顯著效益,涌現(xiàn)出Freebase[13]、Wikidata[14]、CN-DBpedia[15]、Zhishi.me[16]等著名通用領(lǐng)域知識(shí)庫,是人工智能技術(shù)的重要基石[17]。
知識(shí)圖譜的邏輯結(jié)構(gòu)分為模式層和數(shù)據(jù)層兩部分,模式層描述知識(shí)類的層次結(jié)構(gòu)和層級(jí)關(guān)系定義,由知識(shí)本體構(gòu)成;數(shù)據(jù)層是模式層的實(shí)例化,一般采用資源描述框架(resource description framework, RDF)三元組描述。知識(shí)本體是一種共享概念模型的形式化規(guī)范說明,其核心思想是提供領(lǐng)域內(nèi)概念、概念與概念間關(guān)系的形式化描述[18]。
知識(shí)圖譜構(gòu)建及實(shí)際效益發(fā)揮的前提條件,是對(duì)知識(shí)進(jìn)行科學(xué)、合理、系統(tǒng)、規(guī)范的建模,即知識(shí)本體的構(gòu)建[19-20]。本體構(gòu)建一般分為半自動(dòng)化和人工構(gòu)建兩類[21],試驗(yàn)鑒定領(lǐng)域缺乏敘詞表、詞典、知識(shí)庫等形式化的數(shù)據(jù)累積,相關(guān)領(lǐng)域敘詞表缺乏內(nèi)容且時(shí)間久遠(yuǎn),基于數(shù)據(jù)的本體映射、提取等自動(dòng)化構(gòu)建方法,往往無法實(shí)施;在人工構(gòu)建方法方面,試驗(yàn)鑒定機(jī)構(gòu)承擔(dān)的任務(wù)不同、復(fù)雜性與作用域不同,相應(yīng)的鑒定評(píng)估對(duì)象和保障條件不同,導(dǎo)致知識(shí)體系存在較大差異。領(lǐng)域?qū)<议L(zhǎng)期從事指揮鏈路限定的細(xì)分崗位工作,不易形成全局知識(shí)體系,傳統(tǒng)人工本體構(gòu)建方法缺乏指導(dǎo)性約束,導(dǎo)致本體構(gòu)建的隨意性強(qiáng)、全面性差,影響圖譜構(gòu)建質(zhì)效,特別是難以形成廣域知識(shí)鏈接,制約著數(shù)據(jù)作用價(jià)值的發(fā)揮[22-23]。由于試驗(yàn)鑒定工作的特殊性,試驗(yàn)鑒定領(lǐng)域數(shù)據(jù)治理,以及試驗(yàn)鑒定領(lǐng)域知識(shí)本體建模方法的相關(guān)研究十分匱乏。
數(shù)據(jù)治理的目標(biāo)是通過對(duì)數(shù)據(jù)有序管理、使用,實(shí)現(xiàn)數(shù)據(jù)價(jià)值的全面發(fā)揮。從數(shù)據(jù)治理的角度看,傳統(tǒng)試驗(yàn)數(shù)據(jù)管理重點(diǎn)集中在數(shù)據(jù)采集和數(shù)據(jù)使用兩個(gè)階段,兩個(gè)階段間的獨(dú)立性比較強(qiáng),或是從采集設(shè)備到數(shù)據(jù),或是從數(shù)據(jù)到鑒定評(píng)估,總體上缺乏能夠關(guān)聯(lián)全域、輻射全維、整合全局的數(shù)據(jù)體系。沒有數(shù)據(jù)體系支撐的數(shù)據(jù)治理,數(shù)據(jù)關(guān)聯(lián)鏈條短、完成對(duì)應(yīng)業(yè)務(wù)后即被閑置,數(shù)據(jù)元、數(shù)據(jù)字典及相關(guān)標(biāo)準(zhǔn)無法深化。特別是數(shù)據(jù)與試驗(yàn)活動(dòng)的關(guān)聯(lián)缺失,導(dǎo)致試驗(yàn)鑒定機(jī)構(gòu)在鑒定評(píng)估之外的大量工作,如條件建設(shè)、科研訓(xùn)練、組織管理、兵力調(diào)動(dòng)等,無法通過數(shù)據(jù)描述,也就難以恢復(fù)裝備試驗(yàn)壽命周期的全貌,數(shù)據(jù)處在關(guān)聯(lián)匱乏的狀態(tài),缺乏反饋、沉淀、激活、增效的過程,難以拓展數(shù)據(jù)應(yīng)用、挖掘數(shù)據(jù)價(jià)值。
而試驗(yàn)鑒定領(lǐng)域數(shù)據(jù)的復(fù)雜性,特別是試驗(yàn)活動(dòng)的描述方面,相當(dāng)一部分源自語義、概念等非結(jié)構(gòu)信息,有很強(qiáng)的知識(shí)屬性。傳統(tǒng)關(guān)系型數(shù)據(jù)庫功能重點(diǎn)在結(jié)構(gòu)化數(shù)據(jù),即使完成建模,也會(huì)存在建模難度大、模型魯棒性差、計(jì)算效率低(多重跨表)等多種問題。也就是說,試驗(yàn)鑒定領(lǐng)域數(shù)據(jù)的復(fù)雜性直接增加了數(shù)據(jù)體系構(gòu)建的困難程度,是數(shù)據(jù)治理的難點(diǎn)所在。
知識(shí)圖譜是一種實(shí)體和關(guān)系組成的語義網(wǎng)絡(luò),其實(shí)體定義靈活、多樣,可解耦數(shù)據(jù)來源、數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性;關(guān)系構(gòu)建便捷、廣域,可有效聯(lián)通鑒定評(píng)估、保障條件、試驗(yàn)活動(dòng)。適用于復(fù)雜系統(tǒng)的聯(lián)通與整合,是構(gòu)建數(shù)據(jù)體系、拓展數(shù)據(jù)關(guān)聯(lián)、支持試驗(yàn)鑒定領(lǐng)域數(shù)據(jù)治理的有力技術(shù)手段。具體技術(shù)思路是,面向數(shù)據(jù)治理的數(shù)據(jù)體系,采用“知識(shí)圖譜+關(guān)系數(shù)據(jù)庫/數(shù)倉”的雙層結(jié)構(gòu),通過構(gòu)建具有強(qiáng)業(yè)務(wù)針對(duì)性的知識(shí)圖譜,形成全域關(guān)聯(lián)的“網(wǎng)狀”數(shù)據(jù)體系上層,支持?jǐn)?shù)據(jù)反饋、沉淀、激活、增效;傳統(tǒng)關(guān)系數(shù)據(jù)庫存儲(chǔ)遙測(cè)、外測(cè)等數(shù)據(jù),支持傳統(tǒng)業(yè)務(wù)軟件(如數(shù)據(jù)處理、仿真等)的數(shù)據(jù)需求,具體結(jié)構(gòu)如圖1所示。
圖1 基于知識(shí)圖譜的數(shù)據(jù)治理鏈路關(guān)系Fig.1 Data governance link relationship based on knowledge graph
現(xiàn)有的領(lǐng)域本體構(gòu)建方法主要包括七步法[24]、五步循環(huán)法[25]、Methonotology法[26]、TOVE(Toronto virtual enterprise)法[27]、IDEF(icam definition method)5[28]、骨架法[29]和Kactus工程法[30]。
IDEF5、骨架法等多用于企業(yè)知識(shí)建模,一般建立在詳細(xì)的業(yè)務(wù)流程分解基礎(chǔ)上;Methonotology法源自化工領(lǐng)域知識(shí)工程建設(shè),在本領(lǐng)域的應(yīng)用實(shí)踐效果非常好;Kactus工程法、五步循環(huán)法等,強(qiáng)調(diào)已有本體的演進(jìn)迭代。其中,七步法是目前使用頻率和成熟度最高的領(lǐng)域本體建模方法,由斯坦福大學(xué)開發(fā),構(gòu)建步驟包括確定范圍、重用考慮、列舉重要術(shù)語、定義類和層級(jí)結(jié)構(gòu)關(guān)系、定義屬性、定義約束條件和創(chuàng)建實(shí)例。
本文綜合試驗(yàn)鑒定工作、試驗(yàn)鑒定機(jī)構(gòu)與試驗(yàn)鑒定數(shù)據(jù)的共性特點(diǎn),在斯坦福本體構(gòu)建流程(七步法)的基礎(chǔ)上,設(shè)計(jì)了一種具有試驗(yàn)鑒定領(lǐng)域普適性的本體構(gòu)建方法。該方法包括9個(gè)步驟,分別是:確定范圍、重用考慮、列舉重要術(shù)語、定義類和層級(jí)結(jié)構(gòu)關(guān)系、關(guān)系模型映射、類和層級(jí)結(jié)構(gòu)精化、定義屬性、定義約束條件、創(chuàng)建實(shí)例(見圖2)。方法的創(chuàng)新工作集中在定義類和層級(jí)結(jié)構(gòu)關(guān)系、關(guān)系模型映射、類和層級(jí)結(jié)構(gòu)精化3個(gè)步驟。
圖2 試驗(yàn)鑒定領(lǐng)域本體構(gòu)建方法Fig.2 Ontology construction method of test and identification field
定義類和層級(jí)結(jié)構(gòu)關(guān)系是本體體系構(gòu)建的關(guān)鍵。試驗(yàn)鑒定機(jī)構(gòu)承擔(dān)的試驗(yàn)任務(wù)不同,相應(yīng)的試驗(yàn)評(píng)估和保障條件不同,導(dǎo)致知識(shí)體系存在較大差異。在缺乏統(tǒng)一框架約束的情況下,各機(jī)構(gòu)領(lǐng)域?qū)<要?dú)立開展類和層級(jí)結(jié)構(gòu)定義的隨意性較大,加之試驗(yàn)數(shù)據(jù)的復(fù)雜性,容易出現(xiàn)本體覆蓋不全面的情況,導(dǎo)致數(shù)據(jù)體系無法做到全域聯(lián)通,影響數(shù)據(jù)治理效能,也影響跨機(jī)構(gòu)、跨領(lǐng)域之間的知識(shí)復(fù)用共享。
本文從試驗(yàn)鑒定體系共性出發(fā),給出類和層級(jí)結(jié)構(gòu)定義指導(dǎo)框架及構(gòu)建步驟,框架包括指標(biāo)體系、試驗(yàn)活動(dòng)、保障條件、試驗(yàn)數(shù)據(jù)4個(gè)一級(jí)類,每個(gè)一級(jí)類均包含相應(yīng)子類及層級(jí)結(jié)構(gòu)。在構(gòu)建步驟上,指標(biāo)體系、保障條件兩個(gè)一級(jí)類的內(nèi)聚性強(qiáng),可先行完成構(gòu)建,試驗(yàn)活動(dòng)最為復(fù)雜且與保障條件、試驗(yàn)數(shù)據(jù)之間關(guān)聯(lián)緊密,在步驟3完成,如圖3所示。設(shè)計(jì)的重要原則是,最終設(shè)計(jì)結(jié)果,所有本體之間全域聯(lián)通,不存在孤立本體。
圖3 總體層級(jí)結(jié)構(gòu)Fig.3 Overall hierarchy
(1) 指標(biāo)體系
指標(biāo)評(píng)定是鑒定評(píng)估工作的核心內(nèi)容,各試驗(yàn)鑒定機(jī)構(gòu)任務(wù)不同,但不論武器系統(tǒng)、平臺(tái)系統(tǒng)還是演訓(xùn)任務(wù),均需在任務(wù)之初完成相關(guān)指標(biāo)體系設(shè)計(jì),如性能指標(biāo)、效能指標(biāo)、貢獻(xiàn)率指標(biāo)等,并逐級(jí)分解直至不可再分的指標(biāo)項(xiàng)(實(shí)例為具體指標(biāo)),指標(biāo)體系之間的關(guān)系可直接映射為層級(jí)結(jié)構(gòu)。個(gè)別試驗(yàn)機(jī)構(gòu)承擔(dān)任務(wù)確無指標(biāo)體系的,可嘗試將試驗(yàn)?zāi)康倪M(jìn)行指標(biāo)化,再仿照上述過程處理。
(2) 保障條件
保障條件一級(jí)類一般可分為組織指揮、測(cè)試測(cè)量、分析評(píng)估、環(huán)境構(gòu)設(shè)、基礎(chǔ)保障5個(gè)子類,每一子類均可根據(jù)自身建設(shè)情況,向下逐級(jí)分解,直至具體設(shè)備設(shè)施。其類結(jié)構(gòu)由“包含”“實(shí)例”“屬性”“管理約束”“空間約束”5種關(guān)系鏈接,“實(shí)例”關(guān)系指向的,均為實(shí)際設(shè)備設(shè)施。其中,組織指揮子類包括試驗(yàn)設(shè)計(jì)、方案推演、通信保障、任務(wù)調(diào)度、過程監(jiān)控、運(yùn)維管理、態(tài)勢(shì)綜合子類;測(cè)試測(cè)量類包括測(cè)量系統(tǒng)、測(cè)試系統(tǒng)子類;環(huán)境構(gòu)設(shè)子類包括模擬自然環(huán)境、電磁環(huán)境、靶標(biāo)以及環(huán)境監(jiān)測(cè)子類;分析評(píng)估類包括數(shù)據(jù)處理、建模仿真、性能評(píng)估子類;基礎(chǔ)保障類包括試驗(yàn)航區(qū)、試驗(yàn)設(shè)施、測(cè)繪導(dǎo)航、技術(shù)基礎(chǔ)、勤務(wù)保障等子類。類結(jié)構(gòu)如圖4所示。
圖4 保障條件一級(jí)類的總體層級(jí)結(jié)構(gòu)Fig.4 Overall hierarchical structure of the first level class of guarantee condition
(3) 試驗(yàn)活動(dòng)
試驗(yàn)鑒定領(lǐng)域數(shù)據(jù)復(fù)雜,涉及數(shù)據(jù)來源、用途、組成、關(guān)系等方面,但從試驗(yàn)鑒定機(jī)構(gòu),這一數(shù)據(jù)治理主體的角度看,試驗(yàn)數(shù)據(jù)一定是試驗(yàn)活動(dòng)中具體工作產(chǎn)生的結(jié)果,對(duì)試驗(yàn)活動(dòng)進(jìn)行類和層級(jí)設(shè)計(jì),就是對(duì)整個(gè)試驗(yàn)鑒定業(yè)務(wù)流程、試驗(yàn)數(shù)據(jù)生命周期的全面梳理,是本體建模中最為復(fù)雜、關(guān)鍵的部分。
試驗(yàn)活動(dòng)的類和層級(jí)設(shè)計(jì),需要按照實(shí)施流程結(jié)構(gòu),自頂向下依次開展,逐層分解直至具體事件,如圖5所示。具體事件是關(guān)聯(lián)全局資源的紐帶,是從數(shù)據(jù)角度描述型號(hào)裝備試驗(yàn)壽命周期全貌,貫通性能試驗(yàn)、作戰(zhàn)試驗(yàn)等試驗(yàn)環(huán)路,推動(dòng)全面數(shù)據(jù)治理的關(guān)鍵。具體事件有嚴(yán)格的時(shí)間屬性。
圖5 試驗(yàn)活動(dòng)類總體結(jié)構(gòu)示意圖Fig.5 Schematic diagram of overall structure of test process
① 總體層。按照裝備型號(hào)試驗(yàn)鑒定全壽命階段展開,分為論證、總案、性能試驗(yàn)、作戰(zhàn)試驗(yàn)4個(gè)階段,呈遞進(jìn)關(guān)系。② 子任務(wù)層。包括完成階段試驗(yàn)任務(wù)所需要的各類子試驗(yàn)任務(wù),如性能試驗(yàn)階段需要完成的“飛行試驗(yàn)”“精度試驗(yàn)”等。③ 任務(wù)執(zhí)行層。各類子任務(wù)均包括直接準(zhǔn)備、組織實(shí)施、分析評(píng)估3個(gè)階段,呈遞進(jìn)關(guān)系。④ 具體事件層。各階段由具體事件組成,事件是人或單位利用設(shè)備、設(shè)施等保障條件實(shí)施某行動(dòng)并得到結(jié)果的過程,事件根據(jù)任務(wù)情況及相似性進(jìn)行分類,如陣地測(cè)試、文書發(fā)布、協(xié)同程序、飛行測(cè)控、數(shù)據(jù)處理、鑒定評(píng)估等,再分解至具體事件,如陣地測(cè)試事件類的分系統(tǒng)測(cè)試、總檢察等具體事件,鑒定評(píng)估事件類的指標(biāo)評(píng)定具體事件等。每個(gè)具體事件類基本結(jié)構(gòu)包括:人員機(jī)構(gòu),如該事件的執(zhí)行人員、參與人員、指揮機(jī)構(gòu)等;輸入類,如法規(guī)標(biāo)準(zhǔn)(執(zhí)行該事件所依照的標(biāo)準(zhǔn)、法規(guī)等)、保障條件(執(zhí)行該事件所使用的具體設(shè)備或設(shè)施)、命令指令等;輸出類,該事件生成的輸出,如數(shù)據(jù)、指標(biāo)評(píng)定、指令等。試驗(yàn)活動(dòng)類結(jié)構(gòu)由“包含”“遞進(jìn)”“使能”“輸入”“輸出”5種關(guān)系鏈接,總體結(jié)構(gòu)如圖6所示。
圖6 試驗(yàn)活動(dòng)一級(jí)類的總體層級(jí)結(jié)構(gòu)Fig.6 Overall hierarchy structure of the frist level class of test process
(4) 試驗(yàn)數(shù)據(jù)
試驗(yàn)數(shù)據(jù)類分為數(shù)據(jù)庫、數(shù)據(jù)文件、電子表單、影音圖像、人工記錄表、試驗(yàn)文書、條目數(shù)據(jù)7個(gè)子類。試驗(yàn)數(shù)據(jù)類側(cè)重于描述數(shù)據(jù)的不同持久化狀態(tài),其中數(shù)據(jù)庫、數(shù)據(jù)文件、影音圖像3個(gè)子類,是測(cè)試、測(cè)量、錄取等試驗(yàn)設(shè)備、保障條件所獲取數(shù)據(jù)的主要持久化狀態(tài)。試驗(yàn)文書主要包括試驗(yàn)過程中產(chǎn)生的各類非結(jié)構(gòu)文檔,如“試驗(yàn)大綱、實(shí)施方案、操作規(guī)程”等。人工記錄表指各類人工填寫的紙質(zhì)記錄表單,如“檢查記錄表、戰(zhàn)斗報(bào)告表”等。條目數(shù)據(jù)是指直接參與各類事件,特別是鑒定評(píng)估事件的具體數(shù)據(jù)記錄,如“射程、高度、分離時(shí)間”等。其類結(jié)構(gòu)由“包含”“輸出”兩種關(guān)系鏈接,如圖7所示。除條目數(shù)據(jù)外的子類,都是試驗(yàn)活動(dòng)中具體事件的輸出,主要為各類應(yīng)用提供定向鏈接,引導(dǎo)通過關(guān)系型數(shù)據(jù)庫/數(shù)倉實(shí)現(xiàn)功能應(yīng)用。
圖7 數(shù)據(jù)類的總體層級(jí)結(jié)構(gòu)Fig.7 Overall hierarchy structure of data class
裝備試驗(yàn)鑒定機(jī)構(gòu),通過型號(hào)裝備試驗(yàn)條件建設(shè),建成了大量基于關(guān)系型數(shù)據(jù)庫的業(yè)務(wù)系統(tǒng),這些關(guān)系型數(shù)據(jù)庫的結(jié)構(gòu)設(shè)計(jì)蘊(yùn)含了一定的領(lǐng)域知識(shí)。需要采用相關(guān)處理技術(shù),從關(guān)系型數(shù)據(jù)庫中提取知識(shí)本體,這既是對(duì)已有知識(shí)的復(fù)用,也是對(duì)數(shù)據(jù)資源的繼承,有著重要的實(shí)踐價(jià)值和意義。關(guān)系模型映射包括以下3個(gè)步驟。
步驟 1提取關(guān)系模型要素:提取關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)模型,得到數(shù)據(jù)庫中所包含的表名稱、列名稱、主鍵、外鍵等信息。
步驟 2關(guān)系模型處理:多數(shù)試驗(yàn)鑒定機(jī)構(gòu)沒有專職信息化部門,其關(guān)系型數(shù)據(jù)庫的設(shè)計(jì)(特別是歷史業(yè)務(wù)信息系統(tǒng)),往往不夠科學(xué)。需進(jìn)行拆分、合并等處理,使其至少滿足數(shù)據(jù)庫設(shè)計(jì)的第二范式。
步驟 3本體映射:將數(shù)據(jù)庫的數(shù)據(jù)模型信息映射為本體中的概念、屬性和關(guān)系,具體包括以下3個(gè)步驟。
步驟 3.1將關(guān)系數(shù)據(jù)庫模型中的表,映射為相應(yīng)概念(表中的每一行,可以在數(shù)據(jù)層作為該概念的一個(gè)實(shí)例)。
步驟 3.2將表中外鍵列,映射為與其對(duì)應(yīng)表概念的關(guān)系。
步驟 3.3將表中的其他列,映射為概念的屬性。
本方法步驟4“定義類和層級(jí)結(jié)構(gòu)關(guān)系”,屬于自上而下的本體構(gòu)建過程,主要目的是構(gòu)建整個(gè)試驗(yàn)鑒定本體的體系結(jié)構(gòu),故強(qiáng)調(diào)覆蓋性,重點(diǎn)是不能缺“結(jié)構(gòu)”,但也難以做到精細(xì)。步驟5的“關(guān)系模型映射”,從已有關(guān)系型數(shù)據(jù)庫中提取本體,屬于自下而上的本體構(gòu)建過程,相當(dāng)于在為步驟4“補(bǔ)漏”。步驟6“類和層級(jí)結(jié)構(gòu)精化”是解決二者之間的適配性問題,對(duì)本體結(jié)構(gòu)進(jìn)行全面遍歷,對(duì)本體進(jìn)行過濾、刪除、修改、調(diào)整以達(dá)到總體一致性。
該步驟的關(guān)鍵是解決全局命名一致性問題,站在全局高度設(shè)計(jì)“全局資源標(biāo)識(shí)符”,試驗(yàn)鑒定領(lǐng)域的“同名異義”是該問題的典型特征,需要在本體設(shè)計(jì)上做出相應(yīng)區(qū)分。例如,“武器系統(tǒng)”,該詞組在試驗(yàn)活動(dòng)的論證、總案階段出現(xiàn)時(shí),一般指抽象的概念;在性能試驗(yàn)階段出現(xiàn)時(shí),一般指有物理實(shí)體的具體實(shí)例;在作戰(zhàn)試驗(yàn)階段出現(xiàn)時(shí),所指的具體實(shí)例是“小批量試生產(chǎn)”后的產(chǎn)品,與性能試驗(yàn)階段出現(xiàn)的實(shí)例在本體類繼承方面應(yīng)做出區(qū)分。這是試驗(yàn)鑒定領(lǐng)域知識(shí)的突出特點(diǎn),在本體設(shè)計(jì)時(shí),需要在步驟4和步驟5構(gòu)建的本體體系基礎(chǔ)上,再從全局角度進(jìn)行定義和區(qū)分,完成類和層級(jí)結(jié)構(gòu)精化。
本文采用上述方法,構(gòu)建面向該機(jī)構(gòu)數(shù)據(jù)治理的本體體系。在本體基礎(chǔ)上,進(jìn)一步通過實(shí)體識(shí)別、關(guān)系抽取、實(shí)體消歧等技術(shù),完成知識(shí)抽取與知識(shí)圖譜構(gòu)建。需要指出的是,由于裝備試驗(yàn)鑒定相關(guān)子領(lǐng)域,有著典型的小樣本特點(diǎn),當(dāng)前的主流方法實(shí)現(xiàn)效果并不理想,故圖譜的構(gòu)建過程,廣泛采用了領(lǐng)域?qū)<摇叭嗽诨芈贰钡姆绞?包括通過人工標(biāo)注構(gòu)建基本訓(xùn)練集、專家知識(shí)介入/半監(jiān)督關(guān)系抽取等。
構(gòu)建完整的知識(shí)圖譜,使用Neo4j數(shù)據(jù)庫作為存儲(chǔ)載體,Neo4j數(shù)據(jù)庫完全支持ACID(atomicity, consistency, isolation, durability)事務(wù),具有良好的穩(wěn)定性和可靠性[31],可以部署在多種平臺(tái)上,對(duì)當(dāng)前技術(shù)生態(tài)兼容較好。
知識(shí)圖譜覆蓋數(shù)據(jù)范圍如表1所示。試驗(yàn)鑒定領(lǐng)域數(shù)據(jù)治理知識(shí)圖譜,實(shí)現(xiàn)了試驗(yàn)鑒定機(jī)構(gòu)開展型號(hào)試驗(yàn)任務(wù)所涉及各類信息的全面覆蓋,通過“試驗(yàn)活動(dòng)”中的“具體事件”本體,構(gòu)建了一張關(guān)聯(lián)試驗(yàn)鑒定機(jī)構(gòu)全面工作的“圖”,從而打破了以往不同管理部門對(duì)數(shù)據(jù)獨(dú)立管控形成的條塊分割狀態(tài),首次實(shí)現(xiàn)“人員、試驗(yàn)對(duì)象、保障條件、組織指揮、理論科研”的直接集成,為數(shù)據(jù)治理工作乃至數(shù)字化轉(zhuǎn)型提供了有力支持。
表1 數(shù)據(jù)治理知識(shí)圖譜覆蓋數(shù)據(jù)范圍Table 1 Data governance knowledge graph coverage data scope
知識(shí)圖譜在支持全面數(shù)據(jù)治理的基礎(chǔ)上,也在具體應(yīng)用方面形成了一些新質(zhì)能力,包括以下3個(gè)方面:一是在試驗(yàn)鑒定方面,貫通了“性能試驗(yàn)、作戰(zhàn)試驗(yàn)”兩個(gè)關(guān)鍵任務(wù)階段及兩類指標(biāo)體系,首次成功構(gòu)建面向型號(hào)裝備任務(wù)全試驗(yàn)周期的數(shù)據(jù)體系,為新體制下的試驗(yàn)鑒定管理數(shù)字化提供了新型數(shù)據(jù)產(chǎn)品;二是首次建立了“被試對(duì)象、指標(biāo)、事件、條件、數(shù)據(jù)、人員”之間的全面關(guān)聯(lián),數(shù)據(jù)追溯能力得到顯著增強(qiáng),提高了任務(wù)響應(yīng)的“時(shí)效性”,支持實(shí)現(xiàn)數(shù)據(jù)賦能試驗(yàn)鑒定機(jī)構(gòu)全面管理;三是結(jié)合領(lǐng)域?qū)<抑R(shí),構(gòu)建了如“高度表-脫靶量”之類的子圖結(jié)構(gòu),初步形成面向全域數(shù)據(jù)的圖分析、關(guān)系發(fā)現(xiàn)能力。這里考慮計(jì)算能力和顯示效果,提取其中“飛行試驗(yàn)”子任務(wù)部分?jǐn)?shù)據(jù),形成局部圖譜作為示例,如圖8所示。
圖8 飛行試驗(yàn)圖譜(局部)示例Fig.8 Example of flight test graph (local)
廣域、深度的數(shù)據(jù)關(guān)聯(lián)、追溯與分析,是試驗(yàn)數(shù)據(jù)治理工作的深層次需求。知識(shí)圖譜在輔助實(shí)現(xiàn)全域數(shù)據(jù)治理的同時(shí),在數(shù)據(jù)關(guān)聯(lián)、追溯與分析方面,相比傳統(tǒng)關(guān)系型數(shù)據(jù)庫建模,具有突出的計(jì)算效能優(yōu)勢(shì)。
關(guān)系型數(shù)據(jù)庫一直是企業(yè)資源管理等各類信息管理系統(tǒng)的核心支撐,也是數(shù)據(jù)治理的重要工具。關(guān)系型數(shù)據(jù)庫基礎(chǔ)理論中,將關(guān)系定義為“在集合論基礎(chǔ)上構(gòu)建的二維表”,將生產(chǎn)實(shí)踐中的各類“關(guān)系”概念,轉(zhuǎn)化成以集合論為基礎(chǔ)的二維表關(guān)系之間的連接操作。而關(guān)系型數(shù)據(jù)庫通過外鍵約束來實(shí)現(xiàn)兩個(gè)表或多個(gè)表之間某些記錄的互相引用,通過外鍵在主表中尋找匹配的主鍵記錄來進(jìn)行搜索、匹配計(jì)算操作。對(duì)于多對(duì)多關(guān)系,則必須再添加一個(gè)中間表,保存兩個(gè)參與表的外鍵對(duì)應(yīng)關(guān)系,進(jìn)一步增加了連接操作成本。
例如下面的實(shí)踐場(chǎng)景:裝備試驗(yàn)任務(wù)的飛行試驗(yàn)中,一個(gè)時(shí)段內(nèi)被試裝備的二級(jí)舵展開,哪些參試光測(cè)設(shè)備觀測(cè)到該過程?所有觀測(cè)到的光測(cè)設(shè)備,俯仰角反算精度是多少?歷次任務(wù)中,精度高于該數(shù)值的有哪些設(shè)備?找出該設(shè)備的研制生產(chǎn)單位、操管維護(hù)人員以及歷次任務(wù)的履歷書。
可見,通過傳統(tǒng)的關(guān)系型數(shù)據(jù)庫建模,進(jìn)行復(fù)雜的數(shù)據(jù)關(guān)聯(lián)、追溯與分析,必然需要進(jìn)行大量的跨表查詢、反向查詢,也就意味著大量的連接操作。同時(shí),試驗(yàn)任務(wù)實(shí)踐中的數(shù)據(jù)關(guān)聯(lián)、分析具有未知性,很難提前建立完備索引,故其資源消耗隨著數(shù)據(jù)體量與表結(jié)構(gòu)復(fù)雜性增長(zhǎng)而愈發(fā)嚴(yán)重,對(duì)于復(fù)雜的深層次關(guān)聯(lián),計(jì)算代價(jià)幾乎不可接受。
相比傳統(tǒng)的關(guān)系型數(shù)據(jù)庫建模,知識(shí)圖譜可基于原生圖數(shù)據(jù)庫(如Neo4j數(shù)據(jù)庫)實(shí)現(xiàn),原生圖數(shù)據(jù)庫的每個(gè)節(jié)點(diǎn)都會(huì)維護(hù)與其相臨節(jié)點(diǎn)的引用,相當(dāng)于擁有與其“相鄰節(jié)點(diǎn)”的微索引。運(yùn)行類似關(guān)系數(shù)據(jù)庫的連接操作時(shí),將使用微縮引來直接訪問連接的節(jié)點(diǎn),無需進(jìn)行記錄的搜索、匹配計(jì)算操作。這意味著查詢時(shí)間和圖的整體規(guī)模無關(guān),只與其附近節(jié)點(diǎn)的數(shù)量成正比,這在大數(shù)據(jù)量,廣域、復(fù)雜、深層次數(shù)據(jù)關(guān)聯(lián)與追溯方面,與關(guān)系型數(shù)據(jù)庫的連接操作相比,有著巨大的效率優(yōu)勢(shì),特別適合構(gòu)建面向廣域、復(fù)雜數(shù)據(jù)治理的技術(shù)支撐能力。
本文提出通過構(gòu)建知識(shí)圖譜輔助試驗(yàn)鑒定機(jī)構(gòu)開展數(shù)據(jù)治理的技術(shù)思路,針對(duì)本體建模這一知識(shí)圖譜構(gòu)建的關(guān)鍵問題,提出一種具有試驗(yàn)鑒定領(lǐng)域適用性的本體構(gòu)建方法,該方法在斯坦福七步法的基本流程基礎(chǔ)上,增加了關(guān)系模型映射、類和層級(jí)結(jié)構(gòu)精化步驟,在定義類和層級(jí)結(jié)構(gòu)關(guān)系步驟,設(shè)計(jì)了相應(yīng)的類結(jié)構(gòu)框架。傳統(tǒng)數(shù)據(jù)治理的工作重點(diǎn)在狹義的“數(shù)據(jù)”,故對(duì)試驗(yàn)鑒定機(jī)構(gòu)的實(shí)際工作支撐有限,本方法從知識(shí)建模的角度,提供了方法論和基本框架,擴(kuò)展了“數(shù)據(jù)”的范圍和內(nèi)涵,實(shí)現(xiàn)了對(duì)試驗(yàn)鑒定機(jī)構(gòu)業(yè)務(wù)的全面支撐,提升了數(shù)據(jù)治理的層級(jí)和能力水平。實(shí)踐表明,基于該方法構(gòu)建的試驗(yàn)鑒定知識(shí)本體模型,具有明確的業(yè)務(wù)針對(duì)性與體系拓展性,在其基礎(chǔ)上構(gòu)建的知識(shí)圖譜,在基本功能、計(jì)算效能等方面,相比傳統(tǒng)方法有著顯著優(yōu)勢(shì),是試驗(yàn)鑒定領(lǐng)域數(shù)據(jù)深度治理工作的有力支撐,具有較強(qiáng)的應(yīng)用推廣價(jià)值。