郭 恒 黎 榮 張海柱 魏永杰 戴鉞濱
西南交通大學(xué)機械工程學(xué)院,成都,610031
維修性設(shè)計是貫穿產(chǎn)品設(shè)計全過程的重要組成部分。我國高速列車體量大、品種多,在長達30年的運行周期里,會經(jīng)受復(fù)雜的作用關(guān)系、地理氣候及運用工況的考驗,極易誘發(fā)各類故障,威脅運行安全[1],因此需要制定復(fù)雜的計劃修、狀態(tài)修及事后修等運行保障計劃以保證列車運行安全。自2007年實施第六次鐵路大提速以來,我國高速列車經(jīng)過引進、消化、吸收、再創(chuàng)新,形成了CRH1、CRH2等系列產(chǎn)品并 逐步走到世界前列。但一方面由于設(shè)計時缺乏可信的維修性設(shè)計知識支持,另一方面高速列車運行、維修數(shù)據(jù)積累不足,且缺乏合理的運維知識沉淀形式,造成現(xiàn)階段高速列車產(chǎn)品生命周期設(shè)計研發(fā)要素考慮不全面,難以為高速列車維修性設(shè)計提供“數(shù)據(jù)+模型+知識”[2],因此,將高速列車設(shè)計、故障、維修知識融合關(guān)聯(lián),使產(chǎn)品數(shù)據(jù)中的隱性知識顯性化、數(shù)據(jù)知識標準化[3],是解決高速列車缺乏基于運維數(shù)據(jù)的維修性設(shè)計知識支持的有效方法。
對于高速列車維修性設(shè)計這類開放知識領(lǐng)域,在設(shè)計域、故障域及維修域各領(lǐng)域數(shù)據(jù)與知識存在的基礎(chǔ)上,構(gòu)建融合多個領(lǐng)域的概念知識數(shù)據(jù)庫能夠為高速列車設(shè)計階段提供設(shè)計活動所需的維修性設(shè)計知識。不同領(lǐng)域的概念關(guān)系及數(shù)據(jù)知識結(jié)構(gòu)存在較大的差異,為了便于多領(lǐng)域知識的管理及使用,需要構(gòu)建統(tǒng)一的多領(lǐng)域概念關(guān)系表達模型及跨領(lǐng)域數(shù)據(jù)共享體系,而將數(shù)據(jù)以語義結(jié)構(gòu)存儲,描述領(lǐng)域概念及領(lǐng)域概念之間關(guān)系的知識圖譜可以實現(xiàn)各領(lǐng)域概念關(guān)系統(tǒng)一表達及數(shù)據(jù)知識結(jié)構(gòu)化、可視化。但要構(gòu)建適合高速列車領(lǐng)域的維修性設(shè)計知識圖譜,需要重點考慮以下幾點:①借助基于本體的知識圖譜模式層如何描述表達高速列車各領(lǐng)域復(fù)雜的概念關(guān)系,構(gòu)建跨領(lǐng)域概念關(guān)系融合的統(tǒng)一表達模型;②從海量多源異構(gòu)數(shù)據(jù)中如何高效地獲取高速列車產(chǎn)品故障率、平均維修時間等維修性設(shè)計因素相關(guān)知識,形成知識圖譜數(shù)據(jù)層;③如何有效降低獲取知識的冗余及錯誤,提高維修性設(shè)計知識質(zhì)量;④所構(gòu)建的知識圖譜如何支持高速列車維修性設(shè)計。
隨著人工智能、知識工程等技術(shù)的發(fā)展,越來越多的學(xué)者開始研究如何從數(shù)據(jù)、知識、模型三個方向探索解決產(chǎn)品過程、數(shù)據(jù)、知識分離等問題的方法[4]。針對跨領(lǐng)域概念關(guān)系表達問題,李佳靜等[5]提出了基于本體的復(fù)雜產(chǎn)品多學(xué)科知識表達方法,形式化地表達了多學(xué)科設(shè)計知識及關(guān)系,解決了高速列車設(shè)計階段多學(xué)科知識異構(gòu)問題;針對跨領(lǐng)域概念關(guān)系復(fù)雜不易表述的問題,CHHIM等[6]提出了一種聯(lián)合產(chǎn)品設(shè)計及制造過程兩階段的知識重用本體,清晰表達了領(lǐng)域概念之間的關(guān)系;針對海量異構(gòu)數(shù)據(jù)人工提取有用知識困難的問題,在電力[7-8]及煤礦領(lǐng)域[9],研究人員通過自然語言處理技術(shù)從設(shè)備運維數(shù)據(jù)中抽取設(shè)備維修知識,構(gòu)建了領(lǐng)域知識圖譜,并通過知識融合方法減少了知識冗余及錯誤,高效率地獲得了設(shè)備維護知識,提高了設(shè)備維護效率;針對知識圖譜應(yīng)用問題,蒲天驕等[10]描述了領(lǐng)域知識圖譜的應(yīng)用場景并構(gòu)建了基于電力領(lǐng)域知識圖譜的智能問答系統(tǒng)。
現(xiàn)階段部分學(xué)者在跨領(lǐng)域本體及領(lǐng)域知識圖譜構(gòu)建方面取得了不錯的成果,但還未有將多域融合知識圖譜應(yīng)用于產(chǎn)品維修性設(shè)計。因此,本文提出多域融合的高速列車維修性設(shè)計知識圖譜構(gòu)建方法,對高速列車設(shè)計域、故障域及維修域的領(lǐng)域概念及數(shù)據(jù)進行分析研究,通過模式層構(gòu)建、數(shù)據(jù)層構(gòu)建、知識融合及存儲完成多域融合的高速列車維修性設(shè)計知識圖譜構(gòu)建,采用多域本體融合、多域異構(gòu)知識抽取、知識融合等技術(shù)解決高速列車多域數(shù)據(jù)異構(gòu)、跨領(lǐng)域信息知識反饋較難的問題,并基于構(gòu)建的知識圖譜開發(fā)智能檢索系統(tǒng)輔助設(shè)計人員進行產(chǎn)品維修性設(shè)計,提高高速列車產(chǎn)品的可維修性、可靠性,促進產(chǎn)品設(shè)計質(zhì)量的進一步提高。
知識圖譜是以三元組“實體-關(guān)系-實體”的形式描述知識的概念及其相互關(guān)系的網(wǎng)狀知識庫[11]。知識圖譜的邏輯結(jié)構(gòu)分為模式層和數(shù)據(jù)層,如果將基于本體的知識圖譜模式層看作房子的框架,那么知識圖譜的數(shù)據(jù)層則是房子的內(nèi)飾??蚣軟Q定建造房子的目的,而內(nèi)飾決定房子的舒適性,即模式層決定知識圖譜的用途,數(shù)據(jù)層決定知識圖譜的知識質(zhì)量。知識圖譜構(gòu)建一般有兩種方式:自底向上和自頂向下[12]。
目前在高速列車設(shè)計領(lǐng)域,相關(guān)知識關(guān)聯(lián)研究還未涉及運維階段,缺乏相應(yīng)的技術(shù)來支持高速列車設(shè)計-故障-運維知識的有效關(guān)聯(lián)及檢索,因此,考慮運維數(shù)據(jù)集大小以及圖譜的知識質(zhì)量,本文提出自頂向下與自底向上結(jié)合的高速列車維修性設(shè)計知識圖譜構(gòu)建方法。維修性設(shè)計知識圖譜構(gòu)建流程如圖1所示。
步驟(1)在專家?guī)椭聟⒖计卟椒╗13]和IDEF5法[14]提出高速列車維修性設(shè)計知識本體構(gòu)建方法自頂向下地構(gòu)建模式層:確定高速列車維修性設(shè)計本體的領(lǐng)域范圍及構(gòu)建目的;構(gòu)建各領(lǐng)域的概念層次及關(guān)系;采用概念語義解釋機制,將高速列車多域本體融合問題轉(zhuǎn)化為基于高速列車不同領(lǐng)域的概念語義關(guān)系判定,實現(xiàn)三個域的本體與其余兩個本體的概念、關(guān)系匹配及融合,最終形成由多域本體融合的高速列車維修性設(shè)計知識本體并用protégé建模,完成高速列車維修性設(shè)計知識圖譜模式層的構(gòu)建。
步驟(2)自底向上構(gòu)建高速列車維修性設(shè)計知識圖譜數(shù)據(jù)層。由于高速列車數(shù)據(jù)高保密性要求以及領(lǐng)域知識圖譜數(shù)據(jù)較難獲取,通過文獻對比分析,本文選取了即使數(shù)據(jù)量相對較少也能達到高精確度的BERT(bidirectional encoder representations from transformers)-BiLSTM(bidirectional long short-term memory)-CRF(conditional random field)模型來進行命名實體識別。數(shù)據(jù)層構(gòu)建分為以下三步:①模型訓(xùn)練及實體識別;②基于模板的關(guān)系抽?。虎弁ㄟ^知識融合消除冗余、錯誤的知識。在實體識別階段,還會發(fā)現(xiàn)模式層未定義的概念,經(jīng)專家審核后,可以更新到知識圖譜模式層,使模式層更加準確。
步驟(3)將protégé中所構(gòu)建的本體模型映射到Neo4j圖數(shù)據(jù)庫中,將多域數(shù)據(jù)經(jīng)過知識抽取融合得到的高速列車維修性設(shè)計知識存儲到Neo4j中,完成高速列車維修性設(shè)計知識圖譜的構(gòu)建。
高速列車各領(lǐng)域所包含的領(lǐng)域概念十分復(fù)雜,且概念包含的語義邏輯關(guān)系及其相關(guān)屬性又具有各自的特點。如“CRH3A”車型在以下三個領(lǐng)域都具有涵蓋領(lǐng)域特點的概念關(guān)系及屬性:在設(shè)計域,設(shè)計人員關(guān)注的重點在于該車型的設(shè)計屬性、設(shè)計約束、零部件型號以及該車型設(shè)計的線路、速度等級等概念屬性;在故障域,運行保障人員關(guān)注的是該車型的故障模式、故障等級以及采取何種運行措施能避免故障發(fā)生,保證產(chǎn)品的運行安全;而在維修域,維修人員關(guān)注的是發(fā)生故障的列車對應(yīng)的維修等級、走行里程以及采取何種維修工藝能經(jīng)濟、快捷地使列車恢復(fù)其功能。這些概念與屬性都與列車設(shè)計階段維修性設(shè)計因素有關(guān),而現(xiàn)階段各領(lǐng)域數(shù)據(jù)相互獨立,數(shù)據(jù)格式不統(tǒng)一,設(shè)計人員無法基于運維數(shù)據(jù)得到該產(chǎn)品的故障發(fā)生率、維修工時、維修成本等信息。對于設(shè)計人員來說,如何打破領(lǐng)域之間的概念關(guān)系壁壘,構(gòu)建統(tǒng)一的多領(lǐng)域概念關(guān)系融合模型,實現(xiàn)多域數(shù)據(jù)基于概念關(guān)系的語義關(guān)聯(lián)及結(jié)構(gòu)化存儲,是多域融合知識圖譜構(gòu)建的關(guān)鍵目的。
為了讓高速列車各階段領(lǐng)域的結(jié)構(gòu)、關(guān)系特征能夠更準確清晰地表達出來,使高速列車設(shè)計、運行及維修過程在特征表達上更加地靈活,及時捕捉高速列車全生命周期階段中的維修性設(shè)計知識,本文提出一種圖2所示的高速列車多領(lǐng)域維修性設(shè)計概念分析表達模型。該分析表達模型主要對高速列車設(shè)計時、運行時以及維修時所包含的維修性設(shè)計知識概念進行表達,具有很好的適應(yīng)性,提高了高速列車領(lǐng)域維修性設(shè)計知識表達的靈活性,降低了本體模型構(gòu)建的成本?;诟拍罘治霰磉_模型,本文首先構(gòu)建了高速列車設(shè)計域、故障域及維修域維修性設(shè)計知識本體,以設(shè)計域及故障域維修性設(shè)計知識本體為例,采用巴科斯-諾爾范式(Backus-Naur form,BNF)對領(lǐng)域本體概念作進一步描述如下。
圖2 高速列車多領(lǐng)域維修性設(shè)計概念分析表達模型
設(shè)計域:
〈DesignDomainOntology〉::=[〈Product〉]{〈Design_Constraints〉〈Functional_Requirements〉〈Structure_Composition〉〈Designer〉}
〈DesignDomainOntology〉::=[〈Product〉]{Type, Design_Attributes}
…
故障域:
〈FaultDomainOntology〉::=[〈Trouble_Location〉]{〈Fault_Product〉〈Fault_Cause〉〈Fault_Mode〉〈Structure_Composition〉〈Detection_Equipment〉〈Monitoring_Equipment〉}
〈FaultDomainOntology〉::=[〈Fault_Product〉]{Production_Date,Running_Mileage,Type}
…
在BNF范式中,概念描述的形式為〈類〉::=[〈父類〉]{〈子類1〉〈子類2〉…},〈類〉::=[〈父類〉]{屬性1,屬性2…},即〈DesignDomainOntology〉::= [〈Product〉]{Type, Design_Attributes}表示在設(shè)計域本體中的“產(chǎn)品”父類包含“型號”和“設(shè)計屬性”兩種屬性。
在完成三個域本體構(gòu)建后,本文通過描述邏輯構(gòu)建概念關(guān)系規(guī)則來判定三個領(lǐng)域概念語義關(guān)系,實現(xiàn)高速列車多域本體融合[15-16]。高速列車設(shè)計域、故障域及維修域包含的概念、屬性符合以下定義:當且僅當對于三個領(lǐng)域任意概念與概念、概念與屬性、屬性與屬性,滿足以下五種映射關(guān)系:等價、包含于(泛化)、包含(特化)、重疊及相離關(guān)系,其中包含于與包含關(guān)系互為逆關(guān)系。以設(shè)計域、故障域維修性設(shè)計本體概念與概念關(guān)系為例,基于五種映射關(guān)系形成的四種概念規(guī)則(包含于與包含同為包含規(guī)則)如表1所示。
表1 概念之間的描述邏輯規(guī)則
假設(shè)設(shè)計域維修性設(shè)計知識本體記為i,本體i中包含的概念記為C,故障域維修性設(shè)計知識本體記為j,本體j中包含的概念記為D,a表示概念包含的任意個體。以概念重疊規(guī)則為例,如在設(shè)計域維修性設(shè)計知識本體概念“產(chǎn)品”中包含兩種屬性:車型和設(shè)計屬性,且在故障域維修性設(shè)計知識本體概念“故障產(chǎn)品”中含有故障日期、運行里程、車型三種屬性,可以得到設(shè)計域概念“產(chǎn)品”與故障域概念“故障產(chǎn)品”中都包含“車型”屬性,但都有屬于各自領(lǐng)域的屬性,因此,設(shè)計域維修性設(shè)計知識本體中的概念“產(chǎn)品”與故障域維修性設(shè)計知識本體中的概念“故障產(chǎn)品”為重疊關(guān)系。
經(jīng)過概念關(guān)系規(guī)則的多領(lǐng)域概念、屬性、關(guān)系判定后,確定了多域融合的高速列車維修性設(shè)計知識本體概念集以及概念間關(guān)系定義。表2所示為部分概念間關(guān)系定義,共24種。
表2 多域融合的高速列車維修性設(shè)計知識概念關(guān)系
基于上述定義的概念、屬性及關(guān)系,本文構(gòu)建了多域本體融合的高速列車維修性設(shè)計知識本體表達模型,如圖3所示。
多域本體融合的高速列車維修性設(shè)計知識本體由一個四元組描述形式組成,記為
High-speed Train Maintenance Design Ontology Based on Multi-domain Ontology Fusion= {Entity,Attribute,Relation,Part}
其中,Entity為實體相關(guān)概念集,用于表示設(shè)計-故障-維修領(lǐng)域客觀實體的集合;Attribute為屬性相關(guān)概念集,表示Entity具有的一些屬性特征;Relation中包含了實體、屬性相關(guān)概念之間的除了層級關(guān)系外的所有的關(guān)聯(lián)關(guān)系,記為〈概念C1,關(guān)系R,概念C2〉,其中,概念C1與概念C2是包含于實體相關(guān)概念集Entity和屬性相關(guān)概念集Attribute中的;Part包含了本體中除Relation關(guān)系集之外的概念之間的具有層級結(jié)構(gòu)的關(guān)系,表示某一概念層級隸屬于另一概念層級,即子類概念集與父類概念集的關(guān)系,在本體中用part_of及subclass_of關(guān)系表示。
在明確了多域本體融合的高速列車維修性設(shè)計知識本體的概念及屬性關(guān)系后,使用protégé5.0工具進行本體構(gòu)建,領(lǐng)域?qū)<铱赏ㄟ^該工具對本體進行編輯及可視化管理,圖4所示為在protégé中構(gòu)建的本體。然后將本體中的Entity映射為Neo4j的節(jié)點,Relation及Part映射為Neo4j中的邊,Attribute映射為節(jié)點屬性,將本體模型映射存儲到Neo4j中,使最終的知識圖譜信息更加完整。
圖3 多域本體融合的高速列車維修性設(shè)計知識本體表達模型
圖4 在protégé中構(gòu)建的高速列車維修性設(shè)計知識本體
數(shù)據(jù)層構(gòu)建流程分為三步:①命名實體識別;②關(guān)系抽?。虎壑R融合。首先選取部分數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)訓(xùn)練BERT-BiLSTM-CRF模型,訓(xùn)練好后直接輸入故障-維修數(shù)據(jù)文本,進行命名實體識別,再基于關(guān)系模板進行關(guān)系抽取,得到知識三元組,最后經(jīng)過知識融合消除所抽取的維修性設(shè)計知識中的冗余及錯誤信息。
3.1.1模型簡介
在命名實體識別任務(wù)中,BERT模型負責命名實體識別的預(yù)訓(xùn)練任務(wù),并且BERT模型可以根據(jù)文本語境訓(xùn)練出表達不同語義的動態(tài)詞向量,BiLSTM-CRF負責對BERT輸出的詞向量進行分類,而BERT模型大大減少了分類工作的任務(wù)量,使模型整體識別效果更好。
(1)BERT模型的優(yōu)勢在于不需要提前訓(xùn)練字向量及詞向量,并且已經(jīng)有預(yù)訓(xùn)練好的中文模型可以直接使用,因此只需將中文文本直接輸入到BERT中,該模型會自動提取文本中的詞特征、語法語義特征等。圖5所示為BERT模型的網(wǎng)絡(luò)結(jié)構(gòu),其中Ei(i=1,2,…,N)指輸入的字或者詞,Ti指BERT模型最終得到的預(yù)測結(jié)果,Trm為Transformer模型。
圖5 BERT模型網(wǎng)絡(luò)結(jié)構(gòu)
CRF模型可以彌補BiLSTM模型無法處理相鄰標簽依賴關(guān)系的缺點,并且通過相鄰標簽獲得一個最優(yōu)預(yù)測序列,它采用Softmax分類器對數(shù)據(jù)標簽進行預(yù)測,使用線性模型來表示特征序列的聯(lián)合概率,能夠更好地保證BERT模型輸出序列標注中的標簽合法性,并且在訓(xùn)練數(shù)據(jù)時,CRF層可以自動學(xué)習(xí)到這些約束條件。
3.1.2識別過程
本文的數(shù)據(jù)由中國中車股份有限公司某主機廠提供,記錄了部分列車的故障及維修數(shù)據(jù),時間跨度為5年,部分初始數(shù)據(jù)如表3所示(由于保密性要求,隱去部分信息)。該數(shù)據(jù)集涵蓋了故障事件、處理措施、責任方、處理結(jié)果等多方面高速列車故障數(shù)據(jù)。首先需要對數(shù)據(jù)進行清洗,剔除一些重要度較低(如零部件脫漆等)以及記錄模糊的故障記錄數(shù)據(jù),并對一些缺失數(shù)據(jù)值進行填補。在數(shù)據(jù)清洗后,將一些重要屬性數(shù)據(jù)按行進行整合,目的是使之后的模型訓(xùn)練結(jié)果能達到最優(yōu)。
表3 部分初始數(shù)據(jù)
接著進行模型訓(xùn)練前的數(shù)據(jù)標注。本文采用BIO(begin inner other)標注策略。在高速列車故障數(shù)據(jù)中部分待預(yù)測的實體標簽如表4所示。
表4 數(shù)據(jù)標簽釋義
將標注好的訓(xùn)練集按8∶1∶1分為訓(xùn)練集、測試集及驗證集,輸入到模型中進行訓(xùn)練。為了驗證BERT-BiLSTM-CRF模型在高速列車故障數(shù)據(jù)命名實體識別任務(wù)中的效果,本文分別選取了Word2vec-BiLSTM-CRF、BERT-CRF、BERT-BiLSTM-CRF模型進行識別對比,如表5所示。
表5 高速列車故障數(shù)據(jù)命名實體識別結(jié)果對比
從實驗結(jié)果可以看出,BERT-BiLSTM-CRF與另兩個模型相比,精確率、召回率和F1值(用來衡量二分類模型精確度)均有顯著的提高。
實體間的關(guān)系是知識圖譜最重要的部分之一[17],關(guān)系抽取是信息抽取中的關(guān)鍵一步,關(guān)系實例構(gòu)成了知識圖譜的邊。在知識圖譜構(gòu)建過程中,關(guān)系抽取產(chǎn)生的結(jié)果即為知識三元組,表示主客體之間以謂詞所表達的關(guān)系,例如,〈齒輪箱,發(fā)生,裂紋〉表示齒輪箱這個零件發(fā)生了裂紋這個故障模式。
本文通過對高速列車領(lǐng)域數(shù)據(jù)的特點進行分析,總結(jié)出以下幾點:①本文所構(gòu)建的知識圖譜為高速列車維修性設(shè)計知識圖譜,面向高速列車領(lǐng)域可維修性設(shè)計知識,領(lǐng)域?qū)I(yè)性強;②通過對高速列車領(lǐng)域故障及維修記錄數(shù)據(jù)的分析,發(fā)現(xiàn)記錄格式較為統(tǒng)一,實體及關(guān)系類型較為清晰;③在領(lǐng)域?qū)<业膸椭拢呀?jīng)構(gòu)建了高速列車各領(lǐng)域維修性設(shè)計本體及多域融合的高速列車維修性設(shè)計本體,且對領(lǐng)域的概念關(guān)系進行了詳細的定義。
基于上述原因,本文采用基于模板的關(guān)系抽取方法,雖然需要花費一定時間設(shè)計關(guān)系匹配模板,但由于該方法提取的關(guān)系是由領(lǐng)域?qū)<叶x,因此能顯著提高知識圖譜知識質(zhì)量。下面以故障事件為例設(shè)計關(guān)系匹配模板。
圖6所示為本文設(shè)計的故障事件關(guān)系匹配模板。故障關(guān)系匹配模板以詞為單元進行匹配,首先,在輸入的文本中確定零件的位置,并以零件為中心檢索其余元素。匹配模板輸入輸出:①輸入T、E1、E2、E3、E4、E5、E6;②輸出R。其中,T為text,指輸入的故障數(shù)據(jù)文本;E1、E2、E3、E4、E5、E6為命名實體識別結(jié)果生成的詞典(E1為零件實體詞典;E2為故障模式實體詞典;E3為觸發(fā)詞典;E4為轉(zhuǎn)向架結(jié)構(gòu)詞典;E5為列車型號詞典;E6為故障日期詞典);R為輸出的故障關(guān)系三元組的集合。
故障事件關(guān)系匹配模板輸入:T、E1、E2、E3、E4、E5、E6輸出:R步驟結(jié)果(1)檢索輸入文本中是否包含故障事件關(guān)系觸發(fā)詞有觸發(fā)詞,進行下一步;否則,該輸入文本無事件(2)確定輸入文本中零件實體詞的位置“零件實體詞”位置(3)確定輸入文本中與零件實體詞距離最近的故障模式實體詞〈零件,發(fā)生,故障模式〉(4)確定輸入文本中零件實體詞與轉(zhuǎn)向架結(jié)構(gòu)關(guān)系〈零件,屬于,模塊〉〈模塊,屬于,系統(tǒng)〉〈系統(tǒng),屬于,車輛〉〈車輛,屬于,列車〉(5)確定輸入文本中列車型號實體詞的位置〈列車,車型,列車型號〉(6)確定輸入文本中故障日期實體詞位置〈故障日期,發(fā)生,故障模式〉return R一個基于輸入文本的故障事件知識圖譜實例
本文采用字符串相似度與結(jié)構(gòu)相似度結(jié)合的方法進行實體詞相似度計算。首先采用字符串相似度計算實體詞之間的相似度,設(shè)實體詞1和實體詞2分別為字符串i和字符串j,計算公式為
(1)
式中,λ為相似度調(diào)節(jié)系數(shù),隨相似字符個數(shù)增大而增大;A為字符串i與j中相同字符的個數(shù);B為字符串i中存在,但字符串j中不存在的字符個數(shù);C為字符串i中不存在,但字符串j中存在的字符個數(shù);D為字符串i與j中字符的總數(shù)。
在高速列車領(lǐng)域,普遍存在著語義相似的詞,但在實際應(yīng)用過程中需要當作不同個體的實體詞,如牽引電機的兩種類型,如果僅憑字符串相似度計算,則兩種型號的電機會被融合為一種,那么在維修性設(shè)計知識粒度較細的詳細設(shè)計階段,無法通過兩種牽引電機的設(shè)計特性等選擇適合當前產(chǎn)品的型號,因此,當通過字符串計算兩實體可能存在相似時,還需要經(jīng)過結(jié)構(gòu)相似度計算來確定最終的實體相似度。結(jié)構(gòu)相似度指兩個相似實體詞在本體概念結(jié)構(gòu)上的相似度,主要通過兩個實體詞所屬本體結(jié)構(gòu)的父級節(jié)點及子類節(jié)點相似度判斷,判斷規(guī)則如下:①若兩實體詞的父級節(jié)點相同,子節(jié)點相同,那么兩實體詞指代同一實體,則進行融合;②若兩實體詞的父級節(jié)點相同,子節(jié)點概念相同但值域不同,如屬性概念相同但屬性值不同,那么兩實體詞為同級節(jié)點,分別存儲。高速列車維修性設(shè)計知識融合過程如圖7所示。
(a)相同實體節(jié)點融合
(b)同級節(jié)點分別存儲圖7 知識融合過程
經(jīng)過知識抽取及融合后,高速列車故障數(shù)據(jù)已經(jīng)由非結(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)化為了結(jié)構(gòu)化的知識三元組。采用Neo4j圖數(shù)據(jù)庫進行知識存儲,它將獲取的結(jié)構(gòu)化知識存儲在網(wǎng)絡(luò)中,數(shù)據(jù)的構(gòu)成主要由可以構(gòu)建屬性的節(jié)點和邊組成,Neo4j圖數(shù)據(jù)庫的優(yōu)點有:①相較于關(guān)系數(shù)據(jù)庫,圖數(shù)據(jù)庫能夠處理大量的、復(fù)雜多變的、低結(jié)構(gòu)化的數(shù)據(jù);②圖數(shù)據(jù)庫擁有很高的可擴展性,處理大量數(shù)據(jù)時只會受到所布置機器硬件性能的影響;③圖數(shù)據(jù)庫提供了高速檢索遍歷工具、高速運算性能的圖算法以及推薦系統(tǒng)。目前,越來越多的研究人員將Neo4j圖數(shù)據(jù)庫應(yīng)用到各個領(lǐng)域。
本文將高速列車維修性設(shè)計知識三元組及構(gòu)建的本體都存儲在Neo4j圖數(shù)據(jù)庫中,并形成一對多的“概念-實體”關(guān)系。這樣做的好處一是在進行基于知識圖譜的知識推理時,本體層概念的約束公理能夠保證知識推理邏輯的正確性;二是在數(shù)據(jù)層知識有殘缺時,可以用本體層概念作為補充,最大程度地保證圖譜知識的完整性。
將三元組數(shù)據(jù)導(dǎo)入Neo4j圖數(shù)據(jù)庫進行存儲與展示,并集成到項目所開發(fā)的轉(zhuǎn)向架知識圖譜平臺,高速列車維修性設(shè)計知識圖譜的應(yīng)用主要在維修性設(shè)計知識檢索方面。設(shè)計人員輸入查詢語句,與命名實體識別類似,由知識圖譜對查詢語句中的關(guān)鍵詞進行解析,將其映射到知識圖譜存儲的本體概念及相應(yīng)的維修性設(shè)計實體上,基于知識圖譜豐富的語義網(wǎng)絡(luò),向設(shè)計人員返回全面且準確的維修性設(shè)計知識。設(shè)計人員在進行產(chǎn)品維修性定量分析,確定產(chǎn)品維修性指標時,可以在高速列車維修性設(shè)計知識圖譜智能檢索系統(tǒng)中查詢同類型產(chǎn)品或相似產(chǎn)品的故障率、故障修復(fù)時間、預(yù)防維修作業(yè)項目數(shù)、在規(guī)定使用期限內(nèi)的維修耗時等,根據(jù)同類產(chǎn)品的相關(guān)維修性數(shù)據(jù)來綜合考量現(xiàn)階段產(chǎn)品維修性指標及維修計劃的制定。同時,還可根據(jù)故障率、維修次數(shù)、維修人員數(shù)、維修設(shè)備等預(yù)估產(chǎn)品的維修成本,為高速列車全生命周期成本優(yōu)化提供維修性設(shè)計知識支持。圖8所示為基于高速列車維修性設(shè)計知識圖譜開發(fā)的智能檢索系統(tǒng)。驅(qū)動系統(tǒng)設(shè)計人員在進行牽引電機選型配置時,想選取平均維修時間較短的牽引電機,在上方搜索框輸入“永磁電機的維修時間長嗎”,系統(tǒng)檢索出與“永磁電機”有關(guān)的維修事件供設(shè)計人員查詢,并按照故障次數(shù)的多少及不同的故障模式進行排序展示,點擊右側(cè)“查看詳情”箭頭還能詳細了解發(fā)生過該故障模式的永磁電機的詳細信息,包括電機型號、配屬車型、設(shè)計屬性等相關(guān)信息。
圖8 高速列車維修性設(shè)計知識圖譜智能檢索系統(tǒng)
本文研究了多域數(shù)據(jù)融合的高速列車維修性設(shè)計知識圖譜構(gòu)建技術(shù),詳細論述了高速列車維修性設(shè)計知識圖譜模式層與數(shù)據(jù)層的構(gòu)建過程?;诟咚倭熊嚬收暇S修數(shù)據(jù)記錄,實現(xiàn)了從非結(jié)構(gòu)化高速列車數(shù)據(jù)到結(jié)構(gòu)化維修性設(shè)計知識存儲的過程,不僅能很好地從高速列車海量數(shù)據(jù)中挖掘有用知識,提高知識搜集效率,而且能促進高速列車維修性設(shè)計優(yōu)化,提高產(chǎn)品質(zhì)量,從而促進我國高速列車更好更快地發(fā)展。
目前,本文所構(gòu)建的高速列車維修性設(shè)計知識圖譜僅依靠主機廠提供的部分數(shù)據(jù)作為基礎(chǔ),未來還將進一步擴充語料數(shù)據(jù)并動態(tài)更新知識圖譜。