肖鵬 徐托 瞿少成
摘要:國家電網(wǎng)公司PMS中積累了大量電力一次設(shè)備的運(yùn)維工單文本數(shù)據(jù),但難以有效利用。為此設(shè)計(jì)了一種基于BERT-BiLSTM-CRF模型的電力一次設(shè)備運(yùn)維工單中文實(shí)體識別系統(tǒng)。首先,分析了工單的文本特點(diǎn)及分詞難點(diǎn),總結(jié)出七類實(shí)體并人工標(biāo)注3452條工單,形成訓(xùn)練集。其次,利用相關(guān)設(shè)備的試驗(yàn)、故障分析報(bào)告對BERT模塊進(jìn)行預(yù)訓(xùn)練,以獲得電力詞向量。然后,利用BiLSTM模塊對實(shí)體標(biāo)簽進(jìn)行預(yù)測。最后,引入CRF模塊優(yōu)化預(yù)測標(biāo)簽。對1000份工單進(jìn)行中文實(shí)體識別實(shí)驗(yàn),結(jié)果表明該模型在電力一次設(shè)備運(yùn)維工單文本中具有較高的識別能力。
關(guān)鍵詞:電力一次設(shè)備運(yùn)維工單; 命名實(shí)體識別; BERT模型; 雙向長短期記憶網(wǎng)絡(luò); 條件隨機(jī)場
中圖分類號:TP18 ? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)31-0007-04
1 概述
自電力生產(chǎn)管理系統(tǒng)(PMS) 在國家電網(wǎng)上線以來,電力一次設(shè)備運(yùn)維工單數(shù)據(jù)呈現(xiàn)爆炸式增長。這些數(shù)據(jù)中蘊(yùn)含著豐富的電力資產(chǎn)健康信息[1],但其主要以非結(jié)構(gòu)化文本方式存儲,難以有效利用。因此,如何將非結(jié)構(gòu)化運(yùn)維工單結(jié)構(gòu)化顯得尤為重要。隨著自然語言處理中,命名實(shí)體識別技術(shù)發(fā)展為上述問題提供了可能的解決方案。
早期命名實(shí)體識別技術(shù)主要是基于規(guī)則和字典,此后基于統(tǒng)計(jì)學(xué)的方法得到了極大發(fā)展,如隱馬爾科夫模型(HMM) 、最大熵模型(MEM) 、支持向量機(jī)(SVM) 與條件隨機(jī)場(CRF) 等,但這些模型存在對語料庫依賴大、訓(xùn)練時(shí)間復(fù)雜性高及收斂速度慢等問題[2]。當(dāng)前,基于深度學(xué)習(xí)的方法得到了空前發(fā)展,如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN) 、長短期記憶網(wǎng)絡(luò)(LSTM) 、雙向長短期記憶網(wǎng)絡(luò)(BiLSTM) 等[3]。
目前,命名實(shí)體識別技術(shù)已經(jīng)開始深入電力領(lǐng)域。本文針對電力一次設(shè)備非結(jié)構(gòu)化運(yùn)維工單數(shù)據(jù),構(gòu)建了基于BERT-BiLSTM-CRF的模型,實(shí)現(xiàn)了電力一次設(shè)備運(yùn)維工單命名實(shí)體識別。首先,分析了運(yùn)維工單的文本特點(diǎn)及分詞難點(diǎn),總結(jié)出“設(shè)備名稱”“設(shè)備電壓等級”“設(shè)備所屬線路”“設(shè)備所屬變電站”“設(shè)備損壞部位”“設(shè)備維修情況”及“設(shè)備維修時(shí)間”七類實(shí)體,并篩選3400余條工單進(jìn)行實(shí)體標(biāo)注,形成訓(xùn)練集;然后,預(yù)訓(xùn)練出適用于電力領(lǐng)域的BERT模型,以BiLSTM作為實(shí)體標(biāo)簽預(yù)測層、CRF作為標(biāo)簽全局最優(yōu)解的處理層,共同構(gòu)建了電力一次設(shè)備運(yùn)維工單實(shí)體識別模型;最終,完成了工單文本實(shí)體的高準(zhǔn)確率識別實(shí)驗(yàn)。
2 ?電力一次設(shè)備運(yùn)維工單分析
2.1 電力一次設(shè)備運(yùn)維工單數(shù)據(jù)來源
電力一次設(shè)備運(yùn)維工單文本數(shù)據(jù)來自國網(wǎng)湖北公司PMS中30萬條工單數(shù)據(jù)。本文僅考慮在110kv、220kv與500kv三種電壓等級下,主變壓器、隔離開關(guān)與斷路器這三種電力一次設(shè)備的運(yùn)維數(shù)據(jù)。經(jīng)數(shù)據(jù)清洗后,共篩選出1.2萬余條工單作為本文數(shù)據(jù)源。
2.2 運(yùn)維工單文本的特點(diǎn)及分詞難點(diǎn)
分析上述工單文本內(nèi)容,發(fā)現(xiàn)相較于一般的中文文本,電力一次設(shè)備運(yùn)維工單文本有如下特點(diǎn):
1) 工單文本內(nèi)容一般包括設(shè)備電壓等級、設(shè)備名稱、設(shè)備所屬線路、設(shè)備所屬變電站、設(shè)備損壞部位、設(shè)備維修情況、設(shè)備維修時(shí)間等信息,但由于檢修人員的書寫習(xí)慣不同,工單文本內(nèi)容存在結(jié)構(gòu)和完整性差異。
2) 由于各類型設(shè)備的各種故障及檢修方式的復(fù)雜度不同,不同工單文本內(nèi)容的長度差異也很大,從已有的數(shù)據(jù)中統(tǒng)計(jì),最短的工單文本為11字,最長的可達(dá)354字。
電力一次設(shè)備運(yùn)維工單文本分詞的難點(diǎn)在于:
1) 對于相同設(shè)備或部位,由于運(yùn)維人員的書寫習(xí)慣不同,其描述也存在一定的差異,如“主變壓器”被縮寫為“主變”;
2) 對于工單文本中的數(shù)值信息,如電壓等級“110kv”、設(shè)備型號“電容器型號BAMH2”等內(nèi)容,需要依賴上下文信息進(jìn)行實(shí)體類別判斷;
3) 對于不同工單,描述設(shè)備損壞部位、維修情況的文本內(nèi)容冗長,實(shí)體種類繁多,語義復(fù)雜且分割界限不明顯,需要模型具有較強(qiáng)的泛化能力。
3 ?基于BERT-BiLSTM-CRF的運(yùn)維工單實(shí)體識別模型
通過分析上述運(yùn)維工單文本的特點(diǎn)與分詞難點(diǎn),設(shè)計(jì)了一種基于BERT-BiLSTM-CRF的運(yùn)維工單實(shí)體識別模型,其整體結(jié)構(gòu)如圖1所示。
首先,利用主變壓器、斷路器與隔離開關(guān)三類電力一次設(shè)備的相關(guān)試驗(yàn)、故障分析報(bào)告對BERT模塊進(jìn)行了預(yù)訓(xùn)練;其次,將工單文本以句子為單位輸入已預(yù)訓(xùn)練的BERT模塊,得到高質(zhì)量的詞向量;然后,利用BiLSTM進(jìn)行字詞間的局部特征提取及實(shí)體標(biāo)簽預(yù)測;最后,通過CRF處理相鄰標(biāo)簽之間的關(guān)系,得到最優(yōu)預(yù)測序列,進(jìn)行實(shí)體分類。
3.1 BERT模塊
自然語言處理中,通常采用詞嵌入將字詞映射到低維密集語義空間,即獲得字的向量表示。
當(dāng)前,常見的詞嵌入模型有Word2Vec和GPT。但這些模型在電力一次設(shè)備運(yùn)維工單命名實(shí)體識別中存在一些問題。Word2Vec模型生成的是靜態(tài)詞嵌入,不能表達(dá)一詞多義。而GPT則是一種單向語言模型,無法獲取詞的上下文信息。
BERT模型的出現(xiàn)緩解了上述問題,它通過考慮字符級和詞級特征來增強(qiáng)詞向量的語義表示,同時(shí)能夠通過預(yù)訓(xùn)練來提高模型的準(zhǔn)確性。因此,本文選擇BERT模型來獲取運(yùn)維工單的詞向量,為提高模型的準(zhǔn)確性,本文對BERT模型進(jìn)行了預(yù)訓(xùn)練。
BERT模型的整體結(jié)構(gòu)如圖1(a) 所示。具體而言,BERT輸入的每個(gè)字都由Token Embedding、Segment Embedding和Position Embedding三個(gè)向量疊加表示,分別表示字嵌入、句子嵌入和位置嵌入,其模型輸入表示如圖1(b) [4]。圖中[CLS]用于標(biāo)識句子的開頭,[SEP]用于標(biāo)識兩個(gè)句子的界限。
其主體結(jié)構(gòu)為多個(gè)Transformer編碼器的串聯(lián),Transformer結(jié)構(gòu)如圖1(c) 所示。編碼器由多頭自注意力機(jī)制、殘差模塊、歸一化模塊和前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成。
在編碼器中,最關(guān)鍵的部分是自注意力機(jī)制,其公式表示為:
[AttentionQ,K,V=SoftmaxQKTdkV] (1)
式中,Q、K、V分別代表查詢向量、鍵向量和值向量,由詞嵌入向量經(jīng)過線性變換矩陣[WQ]、[WK]、[WV]計(jì)算所得[5]。[dk]為鍵向量的維度,用于調(diào)節(jié)[QKT]的內(nèi)積,防止內(nèi)積過大導(dǎo)致訓(xùn)練過程中梯度不穩(wěn)定問題。而多頭自注意力機(jī)制是自注意力機(jī)制的線性組合,可使模型在不同的表示子空間學(xué)習(xí)到更多相關(guān)信息,增加了模型信息采樣的多樣性[6]。其公式表示如式(2) 。
[MultiHeadQ,K,V=Concathead1,???,headnWoheadi=AttentionQWQi,KWKi,VWKi] (2)
每個(gè)自注意力模塊后都需要對結(jié)果進(jìn)行殘差和歸一化處理(Add&Norm) ,是為了改善模型梯度消失,加速網(wǎng)絡(luò)收斂。最后鏈接前饋神經(jīng)網(wǎng)絡(luò),來提升模型空間,鞏固原有編碼信息。
3.2 BiLSTM模塊
由于全連接神經(jīng)網(wǎng)絡(luò)不能挖掘輸入序列的上下文語義信息。因此,提出循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN) ,其具有一定的記憶功能,但存在梯度消失和梯度爆炸問題。此后,長短期記憶網(wǎng)絡(luò)(Long Short Term Memory, LSTM) 引入門限機(jī)制來解決長時(shí)依賴和梯度消失問題[7]。LSTM的單元結(jié)構(gòu)如圖2所示。
LSTM的核心是遺忘門、輸入門、輸出門和一個(gè)記憶單元。遺忘門[ft]決定多少歷史信息影響[Ct]。輸入門[it]決定多少當(dāng)前輸入信息影響[Ct][Ct]。輸出門[ot]則控制對外有多少信息可見,即[ht][8]。LSTM的單元狀態(tài)更新計(jì)算公式如下:
[ft=σWf?ht-1,xt+bfit=σWi?ht-1,xt+biCt=tanhWC?ht-1,xt+bCot=σWo?ht-1,xt+boCt=ftCt-1+itCtht=ottanhCt] (3)
式中,[σ]表示sigmoid激勵(lì)函數(shù),W表示權(quán)重矩陣,b表示偏置向量,[ht-1]表示上一時(shí)刻LSTM單元的輸出,[xt]表示當(dāng)前時(shí)刻的輸入。
由于單向LSTM無法通過后項(xiàng)輸入信息來獲取文本特征,本文采用雙向長短期記憶網(wǎng)絡(luò)(Bidirectional Long-Short Term Memory,BiLSTM) 來提取文本特征,以提高電力實(shí)體識別模型的模型能力。BiLSTM模型結(jié)構(gòu)如圖1(d) 所示。
3.3 CRF模塊
BiLSTM根據(jù)上下文提取文本特征,輸出每個(gè)字符對應(yīng)各標(biāo)簽的分值,并以該字符分值最高的標(biāo)簽作為最終標(biāo)簽輸出,但存在標(biāo)簽不對應(yīng)問題。因此,引入條件隨機(jī)場(Conditional Random Field, CRF) 來處理標(biāo)簽之間的依賴關(guān)系從而得到最優(yōu)預(yù)測序列,盡可能提高預(yù)測的準(zhǔn)確率。
對于任意輸入序列[X=x1,x2,…,xn],假設(shè)BiLSTM訓(xùn)練得到的對應(yīng)輸出標(biāo)簽序列為[Y=y1,y2,…,yn],則得分函數(shù)為:
[sX,Y=i=1nAyi-1,yi+Pi,yi] ?(4)
式中,n為字符的個(gè)數(shù),[Ayi-1,yi]表示文本相鄰兩字符標(biāo)簽間的轉(zhuǎn)移分?jǐn)?shù)矩陣,[Pi,yi]為文本中第i個(gè)字符的[yi]標(biāo)簽分?jǐn)?shù)。預(yù)測序列Y產(chǎn)生的概率為:
[PYX=esX,YY∈YXsX,Y] (5)
式中,[Y]表示真實(shí)標(biāo)注序列,[YX]為所有可能的標(biāo)簽序列集合。最終,將得分最大的標(biāo)簽集合作為最優(yōu)標(biāo)簽輸出。
4 實(shí)驗(yàn)與結(jié)果分析
4.1 標(biāo)注體系與數(shù)據(jù)集
常見的命名實(shí)體識別標(biāo)注體系主要有BIO、BIOES、BIOES+等模式,本文采用BIO標(biāo)注體系。該體系中,B(Began) 表示一個(gè)實(shí)體詞的首字符,I(Inside) 表示一個(gè)實(shí)體詞的中間及末尾字符,O(Outside) 表示非實(shí)體詞。從運(yùn)維工單數(shù)據(jù)源中篩選出3452條工單,使用標(biāo)注工具按“VoltageLevel”“EquipmentName”“LineName”“TransforSta”“DamagePart”“RepairCondition”“Time”七類標(biāo)簽對文本進(jìn)行手工標(biāo)注。
最終將標(biāo)注的結(jié)果轉(zhuǎn)碼為BIO標(biāo)注體系,并按7:3的比例劃分為訓(xùn)練集和測試集,運(yùn)維工單文本標(biāo)注示例如表1所示。
4.2 評價(jià)指標(biāo)
本文采用召回率R、精確率P和F1值來評判模型的性能,各評價(jià)指標(biāo)的計(jì)算方法如下:
[P=TPTP+FPR=TPTP+FNF1=2PRP+R] (6)
式中,[TP]表示實(shí)際為正例、預(yù)測也為正例的數(shù)量,[FP]表示實(shí)際為負(fù)例、預(yù)測為正例的數(shù)量,[FN]表示實(shí)際為正例、預(yù)測為負(fù)例的數(shù)量。
4.3 實(shí)驗(yàn)環(huán)境與參數(shù)配置
4.3.1 實(shí)驗(yàn)環(huán)境
基于PyTorch平臺搭建實(shí)驗(yàn)環(huán)境,具體訓(xùn)練環(huán)境配置如表2所示。
4.3.2 實(shí)驗(yàn)參數(shù)配置
訓(xùn)練過程中,BERT模型的Transformer編碼部分層數(shù)為12,12頭自注意力機(jī)制,輸出為300維,其他具體超參數(shù)如表3所示。
4.4 實(shí)驗(yàn)結(jié)果
為了驗(yàn)證所用模型在電力一次設(shè)備運(yùn)維工單文本中的識別效果,使用測試集中1000條工單文本對模型進(jìn)行測試,具體實(shí)驗(yàn)結(jié)果如表4所示。
由表4可知,相比LSTM、BiLSTM和BiLSTM-CRF模型,BERT-BiLSTM-CRF模型在電力一次設(shè)備運(yùn)維工單文本中的識別實(shí)體效果更好,其F1值達(dá)到85.6%,比其他三者分別提高11.5%、7.2%和4.9%。相比LSTM模型,BiLSTM模型在輸入序列方面考慮了后項(xiàng)輸入,因此結(jié)果稍好一點(diǎn)。相比BiLSTM模型,BiLSTM-CRF模型增加了CRF模塊,能夠更好地處理標(biāo)簽之間的依賴關(guān)系,因而評價(jià)指標(biāo)略高一點(diǎn)。相比BiLSTM-CRF模型,BERT-BiLSTM-CRF模型使用了BERT模塊,能夠通過預(yù)訓(xùn)練增強(qiáng)模型在電力領(lǐng)域的表征能力,輸出更高質(zhì)量的詞向量,因此評價(jià)指標(biāo)有所提高。
5 結(jié)論
本文設(shè)計(jì)了一種基于BERT-BiLSTM-CRF模型的電力一次設(shè)備運(yùn)維工單中文實(shí)體識系統(tǒng)。通過分析電力一次設(shè)備運(yùn)維工單的文本特點(diǎn)及分詞難點(diǎn),總結(jié)了設(shè)備名稱、設(shè)備損壞部位等七類中文電力實(shí)體。通過預(yù)訓(xùn)練BERT模型,得到高質(zhì)量的電力領(lǐng)域詞向量,并結(jié)合BiLSTM-CRF,構(gòu)建BERT-BiLSTM-CRF模型,實(shí)現(xiàn)了電力一次設(shè)備運(yùn)維工單文本實(shí)體信息的高準(zhǔn)確率識別。對1000份電力一次設(shè)備運(yùn)維工單文本進(jìn)行實(shí)驗(yàn)表明,模型的F1值達(dá)到85.6%,比LSTM、BiLSTM和BiLSTM-CRF模型F1值分別提高11.5%、7.2%和4.9%。下一步,考慮將結(jié)構(gòu)化工單進(jìn)一步處理,以構(gòu)成電力一次設(shè)備維修的知識圖譜,挖掘設(shè)備維修工單的潛在信息與價(jià)值。
參考文獻(xiàn):
[1] 王慧芳,曹靖,羅麟.電力文本數(shù)據(jù)挖掘現(xiàn)狀及挑戰(zhàn)[J].浙江電力,2019,38(3):1-7.
[2] 焦凱楠,李欣,朱容辰.中文領(lǐng)域命名實(shí)體識別綜述[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(16):1-15.
[3] Goyal A,Gupta V,Kumar M.Recent Named Entity Recognition and Classification techniques:a systematic review[J].Computer Science Review,2018,29:21-43.
[4] 謝騰,楊俊安,劉輝.基于BERT-BiLSTM-CRF模型的中文實(shí)體識別[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2020,29(7):48-55.
[5] 朱曉亮,譙宇同.基于BERT模型的排比句自動識別方法[J].計(jì)算機(jī)應(yīng)用與軟件,2021,38(7):153-158.
[6] 楊飄,董文永.基于BERT嵌入的中文命名實(shí)體識別方法[J].計(jì)算機(jī)工程,2020,46(4):40-45,52.
[7] 蔣翔,馬建霞,袁慧.基于BiLSTM-IDCNN-CRF模型的生態(tài)治理技術(shù)領(lǐng)域命名實(shí)體識別[J].計(jì)算機(jī)應(yīng)用與軟件,2021,38(3):134-141.
[8] 馮斌,張又文,唐昕,等.基于BiLSTM-Attention神經(jīng)網(wǎng)絡(luò)的電力設(shè)備缺陷文本挖掘[J].中國電機(jī)工程學(xué)報(bào),2020,40(S1):1-10.
【通聯(lián)編輯:唐一東】
收稿日期:2022-06-20
基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(61673190)
作者簡介:肖鵬(1997—) ,男,湖北十堰人,碩士,主要研究方向?yàn)閿?shù)據(jù)挖掘;瞿少成(1971—) ,男,湖北武漢人,教授,主要研究方向?yàn)橹悄苄畔⑻幚恚恍焱校?971—) ,男,湖北咸寧人,碩士,主要研究方向?yàn)閿?shù)據(jù)挖掘。