馬付建,李錫偉,黃文麗
(大連交通大學 機械工程學院,遼寧 大連 116028)
轉(zhuǎn)向架是機車車輛的核心部件,是典型的復(fù)雜裝配產(chǎn)品。在轉(zhuǎn)向架設(shè)計和加工中用到的知識主要由涵蓋分析、選型、校核等設(shè)計知識及包括切削加工、焊接、鑄造、鍛造、熱處理等加工知識組成,這些知識內(nèi)容廣泛且具有復(fù)雜性的特點,表達形式具有多樣性,導致轉(zhuǎn)向架設(shè)計與加工過程間、不同加工先后過程之間知識傳遞困難,浪費大量人力物力資源。因此,如何構(gòu)建轉(zhuǎn)向架設(shè)計與加工知識庫,實現(xiàn)轉(zhuǎn)向架知識高效重用以輔助設(shè)計加工工作成為亟待解決的問題。
在轉(zhuǎn)向架知識庫研究中,專家知識庫技術(shù)被大量應(yīng)用以設(shè)計構(gòu)建轉(zhuǎn)向架知識管理系統(tǒng)[1-4]。以上研究主要專注于故障診斷、裝配、維護、譜系設(shè)計等小范圍的轉(zhuǎn)向架知識庫構(gòu)建,對轉(zhuǎn)向架設(shè)計與加工過程涉及的廣泛且復(fù)雜的知識內(nèi)容缺少分析,故對轉(zhuǎn)向架知識的高效重用范圍有限。
專家知識庫技術(shù)集中于對知識內(nèi)容進行數(shù)據(jù)化、結(jié)構(gòu)化的表達,對以文本表示的轉(zhuǎn)向架設(shè)計加工知識的語義關(guān)聯(lián)性缺乏分析,難以滿足實際設(shè)計加工過程中大量文本形式知識內(nèi)容的深度挖掘與高效重用。當前采用知識圖譜進行文本內(nèi)容的重用,其本質(zhì)是由關(guān)系網(wǎng)絡(luò)構(gòu)成的圖譜[5]。在設(shè)計加工相關(guān)知識圖譜構(gòu)建研究中,采用層次結(jié)構(gòu)的關(guān)系定義本體以構(gòu)建數(shù)據(jù)庫是一種主要方法。周毅等[6]對多層次知識進行融合基于語義本體模型建立企業(yè)客服問答知識圖譜。凡天娣等[7]基于本體定義對船舶焊接工藝知識實現(xiàn)了圖譜構(gòu)建。李佳靜等[8]以層級隸屬等語義層面的關(guān)系定義知識本體建立知識庫,實現(xiàn)轉(zhuǎn)向架設(shè)計知識的重用。以上研究將知識的表達問題轉(zhuǎn)變?yōu)檎Z義層面邏輯關(guān)系的本體定義問題,相較于傳統(tǒng)專家知識庫,文本知識的利用率有所提升,但本體定義大量依靠人工制定規(guī)則與標注,對于設(shè)計加工知識復(fù)雜內(nèi)容的可移植性較差,且效率較低。
本文通過分析轉(zhuǎn)向架設(shè)計加工知識內(nèi)容的特點,對轉(zhuǎn)向架知識基于數(shù)據(jù)類型特征進行分類,通過特征編碼和依存句法分析分別對離散型數(shù)據(jù)和文本型數(shù)據(jù)進行處理,建立編碼系統(tǒng)數(shù)據(jù)與基于語法邏輯的三元組數(shù)據(jù),并對兩種類型數(shù)據(jù)進行合并處理,構(gòu)建轉(zhuǎn)向架設(shè)計加工知識圖譜,將設(shè)計與加工知識充分結(jié)合,實現(xiàn)轉(zhuǎn)向架內(nèi)容廣泛復(fù)雜、形式多樣知識的數(shù)據(jù)庫存儲以及知識內(nèi)容聯(lián)系、高效重用。
轉(zhuǎn)向架知識主要包括設(shè)計與加工兩大領(lǐng)域。轉(zhuǎn)向架設(shè)計知識主要包含方案分析、技術(shù)指標、結(jié)構(gòu)選型、校核計算等大類。方案分析包含功能需求、質(zhì)量需求、成本需求、運營需求、型號及系列、關(guān)鍵部件型號等;技術(shù)指標包含速度、軸重及軸距、自重、軸頸中心距、輪徑、車軸數(shù)目、設(shè)計精度等;結(jié)構(gòu)選型包含側(cè)架構(gòu)架形式、傳動制動裝置、旁承間距、彈簧橫向間距、軸箱定位方式、橫梁側(cè)梁截面、載荷傳遞方式、彈簧懸掛結(jié)構(gòu)等;校核計算包含強度校核、運動干涉校核、限界校核、臨界速度仿真、運行安全性仿真、運行平穩(wěn)性仿真、振動舒適度仿真、側(cè)風穩(wěn)定性仿真、輪軌接觸仿真等。
轉(zhuǎn)向架加工知識主要包含切削加工、焊接、鑄造、鍛造、熱處理等大類。切削加工包含加工特征、機床、加工精度、切削用量、刀具參數(shù)、刀具材料、毛坯加工余量、加工工藝、夾具等;焊接加工包含焊材與基體、焊接設(shè)備及電源、焊接結(jié)構(gòu)、焊接裝夾、焊接工藝、焊接缺陷及檢測、勞動保護與安全、焊縫成型、應(yīng)力與變形等;鑄造加工包含鑄造材料、材料選擇及造型方法、特種鑄造方法、流動與收縮性、落砂清理與檢驗、工藝圖與零件圖、結(jié)構(gòu)設(shè)計工藝性、計算機輔助成型、缺陷及檢測等;鍛造加工包含鍛壓材料、鍛造設(shè)備、組織力學性能、表面精度、鍛造工序、鍛壓溫度、結(jié)構(gòu)工藝性、變形過程與硬化、性能與鍛造比等;熱處理包含熱處理材料、熱處理設(shè)備、熱處理曲線、鐵碳相圖、過熱過冷度、組織與性能、熱處理工藝、熱處理方法、熱處理時效等。
在轉(zhuǎn)向架設(shè)計加工知識中部分數(shù)據(jù)類型屬于離散型數(shù)據(jù),它們普遍可以直接被量化為數(shù)值,知識內(nèi)容系列化、標準化且特征鮮明,在設(shè)計知識中有:轉(zhuǎn)向架型號及系列、關(guān)鍵部件型號、技術(shù)指標、結(jié)構(gòu)選型等;在加工知識中,切削加工有加工特征、機床、加工表面質(zhì)量、切削用量、刀具參數(shù)及材料、毛坯及加工余量等。在焊接、鑄造、鍛造、熱處理部分同理。
此外仍有大量與離散型數(shù)據(jù)緊密相關(guān)的文本型數(shù)據(jù),內(nèi)容主要體現(xiàn)為描述或分析,如設(shè)計知識中的方案需求分析、校核仿真等,以及加工知識中的加工工藝、焊接工藝、焊接缺陷與檢測、變形過程與硬化等,文本型數(shù)據(jù)需要經(jīng)過智能語言處理,形成復(fù)雜的結(jié)構(gòu)化數(shù)據(jù)才可使用。
對離散型數(shù)據(jù)基于設(shè)計加工中的主體和客體概念進行區(qū)分,主體指行為實施者,客體指行為指向的對象。主體及實施行為的工具手段為轉(zhuǎn)向架知識分類中結(jié)構(gòu)選型、技術(shù)指標部分和轉(zhuǎn)向架加工知識分類中機床、刀具、焊接設(shè)備及電源、材料選擇及造型方法、鍛造設(shè)備、切削用量、熱處理工藝等;客體及其被改變的屬性為轉(zhuǎn)向架知識分類的設(shè)計知識中轉(zhuǎn)向架型號及系列、關(guān)鍵部件型號、設(shè)計精度和轉(zhuǎn)向架加工知識分類中加工特征、焊材與基體、鑄造材料、鍛壓材料、熱處理材料等。
離散型數(shù)據(jù)采用基于主體及實施行為的工具手段、客體及其變更先后的屬性等數(shù)據(jù)共有的特征進行編碼。對轉(zhuǎn)向架切削加工數(shù)據(jù)采取4位編碼,見表1。從左向右1到4位定義生產(chǎn)要素特征,分別指代加工手段、設(shè)備特征類型、加工精度、切削參數(shù)。其他主體及實施行為的工具手段編碼同理。
表1 切削加工數(shù)據(jù)編碼
對轉(zhuǎn)向架及其構(gòu)件的信息基于特征采取8位編碼,見表2。從左向右1到4位定義轉(zhuǎn)向架的特征,分別指代國內(nèi)外、轉(zhuǎn)向架應(yīng)用場景、轉(zhuǎn)向架運載能力、生產(chǎn)時期;5~8位定義轉(zhuǎn)向架構(gòu)件的特征,分別指代構(gòu)件種類、加工特征、精度等級、加工尺寸。其他客體及其被改變的屬性的編碼手段同理。將表3編碼與表4編碼基于專業(yè)經(jīng)驗或規(guī)范進行映射,表3中編碼1023指代銑加工采用立式銑床加工精度IT6以及對應(yīng)切削參數(shù),該碼對應(yīng)映射于表4編碼11251110指代國內(nèi)客車25T轉(zhuǎn)向架2000年到2005年定型、構(gòu)架加工面設(shè)計精度IT6對應(yīng)尺寸50~75 mm。
表2 轉(zhuǎn)向架及構(gòu)件數(shù)據(jù)編碼
表3 簡略詞性表
表4 PYLTP-BIESO標注體系
文本預(yù)處理是轉(zhuǎn)向架文本型知識處理的重要一步,主要經(jīng)過分詞、詞性標注、命名實體識別3個階段。以截取的某轉(zhuǎn)向架構(gòu)架加工工藝設(shè)計文本片段為語料進行處理,轉(zhuǎn)向架工藝文本實例見圖1[9]。
圖1 轉(zhuǎn)向架工藝文本實例
對選定文本進行分詞,中文句子可視為由漢字[e]及詞語[E]元素構(gòu)成的有序集合S,{∑E}是S的子集,單字元素[e]可就近單向有序組合為詞語[E],但句中詞語{∑E}間無明顯分割界限,所以依照常用漢語規(guī)范進行選擇性切分,在被分割的詞的邊界標分隔符,得到有序詞集合{∑E},對于詞[E]的選擇性標準主要概括為詞字數(shù)上下限制、詞與引用專業(yè)詞庫的貼合度等。分詞后,識別詞語序列的詞性,隨每個詞語順次標出。簡略詞性表見表3,基于表3對圖1中正文第一句的分詞及詞性標注見圖2。
圖2 分詞及詞性標注
命名實體識別是在分詞與詞性標注的基礎(chǔ)上,選擇性識別文本中具有特定含義的實體詞語,通常包括人名、地名、機構(gòu)名等專有名詞。命名實體識別采用如表4所示的 PYLTP-BIESO標注體系[10]。
對如圖1所示的轉(zhuǎn)向架加工工藝實例文本進行命名實體識別,文本概述部分結(jié)果內(nèi)容見圖3,對分解的詞語標注識別類型,圖中專有名詞被單獨分類。
圖3 工藝實例文本實體識別結(jié)果
依存句法分析[11]圍繞“主謂賓,定狀補”分解出句中詞語{∑E}間詞性的依存關(guān)系,判斷并識別出句子的核心動詞,作為支配其他詞語的中心詞,核心動詞不受其他詞語支配。在句內(nèi)結(jié)構(gòu)中被分割的詞語之間直接發(fā)生依存關(guān)系,構(gòu)成依存對。依存句法分析關(guān)系表見表5。
表5 依存句法分析關(guān)系表
在依存關(guān)系中,一個是支配詞,在句法分析過程中稱為父節(jié)點,另一個是從屬詞,稱為子節(jié)點。依存關(guān)系采用單向的依存弧表示,由從屬詞指向支配詞。依照依存句法定義,對轉(zhuǎn)向架工藝文本實例概述首句進行句法依存關(guān)系分析,父子節(jié)點依存關(guān)系分析結(jié)果見圖4。
圖4 父子節(jié)點依存關(guān)系分析結(jié)果
三元組[12]表達格式為:(head, label, tail),head與tail分別表示頭實體和尾實體;head、tail屬于實體集合(entities),label屬于關(guān)系集合(relationships),實體內(nèi)容在知識圖譜中體現(xiàn)為節(jié)點,三元組形式如圖5所示。
圖5 知識圖譜三元組
結(jié)合依存句法原則和中文語法啟發(fā)式規(guī)則[13],三元組的實體與關(guān)系的組建??赏ㄟ^篩選依存句法分析父子節(jié)點得到,采用正則表達式表述,關(guān)系可簡寫為:(關(guān)系表述==狀語*動詞+補語?賓語?)。其中:*表示狀語未出現(xiàn)或出現(xiàn)任意次;+表示動詞至少出現(xiàn)1次或任意次;?表示補語和賓語出現(xiàn)一次或不出現(xiàn)。
根據(jù)圖4中對“客車轉(zhuǎn)向架用來支承車體”這句話的依存句法分析結(jié)果,構(gòu)建實體關(guān)系三元組,依存句法分析結(jié)果中,根據(jù)狀中結(jié)構(gòu)的介詞“用來”和謂語動詞“支承”判斷,名詞“客車轉(zhuǎn)向架”以“主謂賓”的形式間接指向名詞“車體”,基于此種語法邏輯,再對構(gòu)建的三元組實體與關(guān)系進行基于詞語長度的篩選,排除過短或過長內(nèi)容和標點符號,可以構(gòu)建實體關(guān)系三元組(客車轉(zhuǎn)向架,用來支承,車體)。
對圖1概述部分的文本進行實體關(guān)系三元組的構(gòu)建,結(jié)果見圖6,可見構(gòu)架加工經(jīng)驗文本里的主要名詞實體及其關(guān)系被抽取出來。
圖6 文本三元組構(gòu)建輸出結(jié)果
圖數(shù)據(jù)庫是一種用圖形存儲數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu),主要組成元素是節(jié)點、關(guān)系、屬性,見圖7。
圖7 圖數(shù)據(jù)庫組成方式
知識圖譜通過實體和關(guān)系構(gòu)建的三元組點云圖來表示知識,將依存句法分析處理的轉(zhuǎn)向架知識三元組數(shù)據(jù)存儲于Neo4j中建立節(jié)點與關(guān)系,構(gòu)建轉(zhuǎn)向架知識圖譜的主要框架,再將編碼系統(tǒng)中離散型數(shù)據(jù)內(nèi)容導入Neo4j中,將特征編碼以屬性形式隨實體存入庫中,產(chǎn)生節(jié)點。文本型數(shù)據(jù)經(jīng)依存句法分析處理后,一些重要內(nèi)容的節(jié)點如“轉(zhuǎn)向架”會高頻出現(xiàn),且離散型數(shù)據(jù)與文本型數(shù)據(jù)內(nèi)容高度關(guān)聯(lián),因此圖譜內(nèi)會有重復(fù)內(nèi)容節(jié)點,故對節(jié)點的名稱信息和屬性信息遍歷,對重復(fù)節(jié)點進行查找與合并,可將特征編碼結(jié)果和依存句法分析結(jié)果基于重復(fù)的節(jié)點內(nèi)容實現(xiàn)結(jié)合。圖8展示了重復(fù)節(jié)點的查找與合并,左側(cè)為重復(fù)節(jié)點,右側(cè)為合并結(jié)果。
圖8 重復(fù)節(jié)點的查找與合并
基于Neo4j采用知識圖譜構(gòu)建知識庫,涵蓋9大類75小類共計約30 000個節(jié)點,部分索引見圖9。
圖9 轉(zhuǎn)向架設(shè)計加工知識圖譜
對圖譜轉(zhuǎn)向架關(guān)鍵部件內(nèi)容進行索引,部分結(jié)果見圖10。
圖10 轉(zhuǎn)向架關(guān)鍵部件圖譜部分結(jié)果
本文構(gòu)建的轉(zhuǎn)向架構(gòu)架加工工藝知識圖譜,見圖11。其中,圖11(a)反映25T客車轉(zhuǎn)向架加工工藝知識節(jié)點關(guān)系的圖譜,圖11(b)為節(jié)點關(guān)系圖譜對應(yīng)的特征編碼關(guān)系圖譜。根據(jù)表3、表4的編碼原則,可見圖11(b)中編碼1023與11251110反映了加工工藝手段知識與加工構(gòu)件知識的對應(yīng)關(guān)系,在圖11(a)中反映為切削力因素與轉(zhuǎn)向架構(gòu)架彈簧筒圓銷外圓加工面間的聯(lián)系。
(a) 節(jié)點關(guān)系圖譜
經(jīng)依存句法分析、同節(jié)點合并后,轉(zhuǎn)向架設(shè)計加工知識不同分類內(nèi)容間基于語義聯(lián)系,按照表6顏色對應(yīng)原則對知識圖譜分類節(jié)點采取不同顏色表示,構(gòu)建轉(zhuǎn)向架降本增效相關(guān)設(shè)計加工知識圖譜見圖12。
圖12 轉(zhuǎn)向架降本增效相關(guān)設(shè)計加工知識圖譜
表6 圖譜節(jié)點顏色分類對應(yīng)原則
如圖12可見,轉(zhuǎn)向架降本增效分析相關(guān)的設(shè)計知識與加工知識間、設(shè)計知識內(nèi)不同分類間、加工知識內(nèi)不同分類間相互聯(lián)系;設(shè)計前期結(jié)構(gòu)選型、成本需求、后期校核仿真知識與加工工藝、工藝圖與零件圖知識被綜合考慮,達到了聯(lián)系貫通并高效重用轉(zhuǎn)向架設(shè)計加工知識的目的,為設(shè)計加工過程提供了指導。
本文主要研究了基于知識圖譜Neo4j的轉(zhuǎn)向架設(shè)計加工知識庫構(gòu)建方法。首先對轉(zhuǎn)向架設(shè)計加工知識進行分析,根據(jù)知識數(shù)據(jù)的特點將其分為離散型數(shù)據(jù)和文本型數(shù)據(jù)。對離散型數(shù)據(jù)基于主體及實施行為的工具手段、客體及其變更先后的屬性等特征進行編碼,并對兩組編碼進行映射;然后對方案分析、校核仿真、加工工藝、焊接工藝、焊接缺陷等文本型數(shù)據(jù)進行了命名實體識別與依存句法分析;最后以三元組數(shù)據(jù)形式將處理結(jié)果存儲在Neo4j知識圖譜中,并對重復(fù)內(nèi)容合并。達到了轉(zhuǎn)向架專家知識庫中設(shè)計與加工知識的廣泛內(nèi)容分類、復(fù)雜形式處理、設(shè)計與加工知識內(nèi)容充分結(jié)合以達到高效重用的目的,驗證了基于知識圖譜構(gòu)建轉(zhuǎn)向架設(shè)計加工知識庫的可行性。