韋 偉,張 玉,胡 亮
(安徽工業(yè)大學管理科學與工程學院,安徽馬鞍山 210012)
卷包設備具有高精密、高自動化、資產(chǎn)價值高等特點,是卷煙生產(chǎn)企業(yè)的核心生產(chǎn)設備。設備故障檢修時,檢修人員通常需要查詢設備故障維修手冊、故障案例庫等檢修業(yè)務資料。然而這些設備故障數(shù)據(jù)資料大部分存儲在各信息系統(tǒng)、系統(tǒng)日志、紙質文件及設備維修專家的頭腦中,存在查詢不便、查詢準確率不高、檢修工作效率較低、數(shù)據(jù)知識價值不能得到有效利用等問題。知識圖譜作為對知識進行有效管理的一個重要工具,它可以將多源異構的故障數(shù)據(jù)相互聯(lián)系,以圖的形式存儲,大大方便卷包設備故障數(shù)據(jù)資料的檢索復用,同時也使故障數(shù)據(jù)知識價值得到充分利用。
知識圖譜最早由谷歌公司提出,旨在提升搜索引擎性能,使搜索結果以精準的方式反饋給用戶,然而知識圖譜目前還沒有統(tǒng)一的官方定義,劉嶠等人[1]將知識圖譜定義為:以符號形式對現(xiàn)實世界中概念與關系進行結構化展示的語義知識庫。知識圖譜在數(shù)據(jù)結構上表現(xiàn)為,“節(jié)點和邊”聯(lián)系在一起的有向圖結構,通過把所有不同類的實體和關系以
依據(jù)應用領域與應用場景的不同,知識圖譜可以分為通用知識圖譜和領域知識圖譜。知識圖譜搭建方式分為自頂向下、從下向上、上下相結合3 種,而領域知識圖譜常用自頂向下的構建方式,首先定義故障知識圖譜本體,其次基于本體相關概念關系的定義對故障數(shù)據(jù)資料進行知識抽取,獲取故障數(shù)據(jù)實例,最后將基于本體概念獲取的數(shù)據(jù)實例經(jīng)知識消歧、知識分類、知識融合、知識存儲導入圖數(shù)據(jù)庫。
在知識圖譜構建過程中,知識抽取獲取數(shù)據(jù)實例的質量對后續(xù)故障知識圖譜的應用尤為重要,為知識圖譜構建過程中的研究重點。
收集與整理卷包機組設備在檢修業(yè)務中涉及的相關數(shù)據(jù)資料,如設備維修技術手冊、設備故障檢修報告、設備故障檢修分析數(shù)據(jù)、安裝或拆除的部件信息等數(shù)據(jù)資料作為故障知識圖譜的數(shù)據(jù)源。這些數(shù)據(jù)資料大多為以自然語言記錄設備故障相關知識,以PDF、Word 形式存儲的非結構化數(shù)據(jù),故該類數(shù)據(jù)的知識抽取較為負復雜,需要對數(shù)據(jù)資料進行預處理,首先需要讀取故障數(shù)據(jù)資料內(nèi)容,其次通過正則表達式、自定義規(guī)則將數(shù)據(jù)整理轉化為規(guī)則完整的數(shù)據(jù),最后將處理后的數(shù)據(jù)存儲為txt 格式。
基于檢修業(yè)務相關故障知識范圍以及檢修業(yè)務中需要重用的知識信息,定義檢修業(yè)務中知識本體相關概念與關系。首先,定義需要重用的故障知識本體概念。基于本體構建不交類和避免類循環(huán)的原則,定義概念如設備(EQUIPMENT)、設備機型(EQUIPTYPE)、故障(FAULT)、檢修物料(EQUIPBOM)、故障現(xiàn)象(EQUIPFAULTPHEN)、故障原因(EQUIPDAULTCAUSE)、故障措施(EQUIPFAULTMEASURE)、處理效果(EQUIPFAULTEFFECT)、人員(PERSON)等共9 類。
其次,定義本體概念間的關系,如屬于、就職于、組成、包含、并發(fā)、引發(fā)、影響部位、影響物料、原因、措施、現(xiàn)象、產(chǎn)生、預防建議、修復效果、最終結果等共15 種。
故障數(shù)據(jù)知識抽取需要借助自然語言處理(NLP)相關方法,BERT+BILSTM+CRF 聯(lián)合模型為當前NLP 知識抽取中使用較多、知識抽取準確率較高的模型[2]。模型訓練的數(shù)據(jù)集來源于故障數(shù)據(jù)預處理后的.txt 數(shù)據(jù)資料,從中選取1000 項故障頻次較高、對檢修業(yè)務影響較大的數(shù)據(jù),并對.txt 數(shù)據(jù)資料中的每行字數(shù)進行限定,避免模型訓練過程中因過擬合而影響訓練結果。對處理后的模型數(shù)據(jù)集借助“標注精靈”,按照B-I-O 方法標注本體中定義的9 類概念、19 種概念標簽(表1)。
表1 數(shù)據(jù)標注的標簽
將標注的數(shù)據(jù)集按7:3 分為訓練集和測試集,模型訓練環(huán)境Python 為3.6,Tensorflow 為1.5.0。模型參數(shù)設置如表2 所示。BERT-BILSTM-CRF 模型訓練效果的判別借助混淆矩陣(Confusion Matrix)分別計算出模型的Accuracy(準確率)、P(精確率)、R(召回率)和F1 值。模型訓練(train)數(shù)據(jù)集和測試(test)數(shù)據(jù)集的最優(yōu)訓練結果如表3 所示。
表2 知識抽取模型參數(shù)設置
表3 知識抽取模型訓練結果
模型經(jīng)訓練后,訓練集準確率達98.75,F(xiàn)1 值為91.32,測試集的準確率達98.59,F(xiàn)1 值為90.75。對該模型的識別效果通過自然語句進一步驗證,可以準確識別出語句中相關知識標簽(圖1)。
圖1 知識抽取模型效果驗證
(1)故障知識抽取。借助BERT-BILSTM-CRF 模型結合定義的知識抽取規(guī)則,從文本數(shù)據(jù)資料中抽取故障知識。
(2)故障知識消歧。因不同數(shù)據(jù)源獲取的故障知識,可能會存在知識表達方式不同但表示同一類知識,故需要對此類數(shù)據(jù)進行知識消岐、刪除重復信息以避免故障知識重復。
(3)故障知識分類。將經(jīng)過消歧的故障知識,按照標簽自動劃分數(shù)據(jù)類別。
(4)故障知識融合。主要解決數(shù)據(jù)沖突問題,如一個短語對應多個實體的情況。
本文故障知識存儲選擇Neo4j圖數(shù)據(jù)庫[3],因該數(shù)據(jù)庫以圖的形式存儲和管理知識,在檢索數(shù)據(jù)庫中知識時,只遍歷與檢索知識相關的節(jié)點,不受總數(shù)據(jù)集大小影響,知識檢索效率較高,且數(shù)據(jù)庫中主要以節(jié)點和邊將知識聯(lián)系組織在一起便于對獲取的知識直觀展示。將獲取的卷包機組設備故障知識存儲為csv 格式,再以系統(tǒng)中的load 批量導入方式將故障知識導入Neo4j 圖數(shù)據(jù)庫,再借助match 查詢語句獲取知識圖譜相關故障知識。
以查詢故障知識圖譜中的“煙支破損”為例,match 查詢后獲取到故障知識圖譜中有關煙支破損相關知識將以節(jié)點和邊的形式直觀展示(圖2)。
圖2 故障知識圖譜檢索結果示例
通過構建卷包設備故障知識圖譜,一方面可以使卷煙企業(yè)存儲多年的多源異構的設備故障數(shù)據(jù)資料發(fā)揮信息價值,另一方面還可以輔助設備故障檢修人員的檢修工作,提高檢修工作效率。此外,還可以通過Neo4j 的cypher 相關語句對故障知識進行增、刪、改、查等,使故障知識圖譜持續(xù)更新與完善。