李鐵成,任江波,劉清泉,耿少博,王志華,周達(dá)明
(1.國(guó)網(wǎng)河北省電力有限公司電力科學(xué)研究院, 石家莊 050021; 2.國(guó)網(wǎng)河北省電力有限公司,石家莊 050021; 3.武漢凱默電氣有限公司,武漢 430023)
智能錄波器集暫態(tài)錄波、網(wǎng)絡(luò)報(bào)文記錄、二次設(shè)備在線監(jiān)視與診斷、保信子站功能于一體,是智能變電站運(yùn)行維護(hù)的重要裝置?;贗EC 61850規(guī)約構(gòu)造的全站配置描述文件(Substation Configuration Description,SCD)是智能錄波器實(shí)現(xiàn)監(jiān)測(cè)智能二次設(shè)備(Intelligent Electronic Device,IED)運(yùn)行信息功能的關(guān)鍵錄入文件,投運(yùn)時(shí),錄波器將采集信息分為三大信息組進(jìn)行分類監(jiān)控,包括壓板信息組、告警信息組與狀態(tài)監(jiān)測(cè)信息組。各信息組中包含子信息組,例如硬壓板信息組、SV接收壓板信息組與功能壓板信息組等,將SCD文件中各IED數(shù)據(jù)輸出接口的配置信息準(zhǔn)確映射至錄波器不同信息組,是保證投運(yùn)錄波器實(shí)時(shí)精準(zhǔn)監(jiān)測(cè)IED不同類運(yùn)行信息的基礎(chǔ)性步驟。目前IED輸出接口地址配置數(shù)據(jù)集的映射方法,是依據(jù)SCD文件中對(duì)輸出接口的文本描述,人工將對(duì)應(yīng)的數(shù)據(jù)集分類映射至各信息組中,因此,接口描述文本的分類準(zhǔn)確性直接決定了數(shù)據(jù)集的映射精度。在高電壓大規(guī)模變電站中,設(shè)備繁多,人工分類工作量驟增,例如某500 kV變電站SCD文件中智能二次設(shè)備多達(dá)300個(gè),各設(shè)備數(shù)據(jù)輸出接口的描述文本有上萬條之多,配置時(shí)間長(zhǎng)達(dá)一個(gè)月。而數(shù)據(jù)集自動(dòng)化映射的問題在于描述文本存在差異,已有規(guī)范針對(duì)不同IED的描述文本進(jìn)行半結(jié)構(gòu)化約束,但仍存在語義規(guī)律辨析困難的問題。為滿足自動(dòng)化映射系統(tǒng)的高精度需求,強(qiáng)化其對(duì)半結(jié)構(gòu)化文本的語義分析能力,需對(duì)大量IED配置數(shù)據(jù)集的描述文本進(jìn)行深度挖掘,據(jù)此構(gòu)造分類映射單元。
文本分類步驟包括分詞操作、數(shù)值化表征、典型特征值提取與分類預(yù)測(cè)四步,分詞操作通常依托萬級(jí)詞匯量構(gòu)建的詞庫,利用工具包進(jìn)行詞組劃分;傳統(tǒng)數(shù)值化表征通常依靠相關(guān)算法在數(shù)值空間中映射文本詞組[1-2];傳統(tǒng)特征提取方法依靠特征值函數(shù)篩選特征值[3-5];傳統(tǒng)分類模型包括決策樹[6-7]、貝葉斯分類器[8-9]、支持向量機(jī)[10-11]等,然而傳統(tǒng)數(shù)值化表征手段存在語義鴻溝與維度爆炸兩大難題;傳統(tǒng)特征提取方法對(duì)典型特征甄別能力差;傳統(tǒng)分類模型局限性強(qiáng),文本關(guān)聯(lián)關(guān)系處理較為粗略[12]。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是深度學(xué)習(xí)框架中集特征提取與分類預(yù)測(cè)為一體的典型結(jié)構(gòu),其可利用多個(gè)卷積核對(duì)輸入矩陣分區(qū)域采集特征值,在網(wǎng)絡(luò)頂層輸出象征關(guān)鍵語義的特征矢量并進(jìn)行分類。將CNN用于光伏陣列污染報(bào)警,有效增強(qiáng)了巡檢工作的準(zhǔn)確性,提高了光伏陣列清洗效率工作量,文獻(xiàn)[13-15]將CNN引入絕緣子與變壓器故障診斷,模型對(duì)故障的判定誤差小,應(yīng)用潛力廣??偠灾矸e神經(jīng)網(wǎng)絡(luò)在特征提取及分類預(yù)測(cè)方面性能優(yōu)異,可滿足電力文本深度挖掘的需求[16-17]。
文章提出一種基于動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)DCNN(Dynamic Convolutional Neural Network)的智能錄波器配置信息自動(dòng)化映射方法,首先解析SCD文件,獲取待映射接口地址配置數(shù)據(jù)及對(duì)應(yīng)的描述文本,隨后引入基于BP神經(jīng)網(wǎng)絡(luò)構(gòu)造的文本表征模型word 2vec,并輸出能反映詞組關(guān)聯(lián)關(guān)系的詞向量,隨后輸入DCNN進(jìn)行分類處理,并改變關(guān)鍵參數(shù)設(shè)置對(duì)照實(shí)驗(yàn),求解特征識(shí)別與泛化能力最優(yōu)的模型結(jié)構(gòu);依據(jù)描述文本分類結(jié)果自動(dòng)化映射地址配置數(shù)據(jù)。
智能錄波器配置數(shù)據(jù)預(yù)處理包括從SCD文件中解析IED地址信息配置數(shù)據(jù),實(shí)現(xiàn)IED輸出接口地址的配置數(shù)據(jù)集與其描述文本的匹配,以及描述文本的表征預(yù)處理[18]。
智能錄波器配置數(shù)據(jù)即為IED數(shù)據(jù)輸出端口地址配置數(shù)據(jù),通過解析SCD文件獲取,SCD文件采用可擴(kuò)展標(biāo)記語言XML創(chuàng)建,包括標(biāo)簽、子標(biāo)簽及標(biāo)簽屬性,具體解析示意圖如圖1所示。
圖1 智能錄波器配置數(shù)據(jù)解析示意圖
圖1中實(shí)線箭頭所指即為標(biāo)簽,虛線箭頭所指即為標(biāo)簽屬性。各IED標(biāo)簽下均有四級(jí)子標(biāo)簽LDvice(邏輯設(shè)備)、五級(jí)子標(biāo)簽LN0(邏輯節(jié)點(diǎn)零),以及包含IED數(shù)據(jù)輸出接口描述文本的索引信息的七級(jí)子標(biāo)簽FCDA(功能約束數(shù)據(jù)屬性),通過結(jié)合FCDA相關(guān)屬性內(nèi)容與可獲取描述單個(gè)輸出接口地址的配置數(shù)據(jù),如圖1長(zhǎng)虛線框內(nèi)所示。同時(shí)FCDA屬性還可作為在五級(jí)子標(biāo)簽LN(邏輯節(jié)點(diǎn))中檢索六級(jí)子標(biāo)簽DOI(對(duì)象實(shí)例)desc值的依據(jù),而該值即為此數(shù)據(jù)輸出接口的描述文本。xml.etree.Element Tree模塊是Python中常用xml文件解析工具,通過遍歷檢索可獲取所有IED輸出接口地址配置數(shù)據(jù)及其描述文本,將兩者一一匹配,從而保證地址映射結(jié)果與文本分類結(jié)果相同。
1.2.1 配置數(shù)據(jù)描述文本特征
與普通文本相比,IED配置數(shù)據(jù)描述文本通常涉及電力專有名詞,例如“遠(yuǎn)方修改定值軟壓板”、“遠(yuǎn)方操作硬壓板”等,分詞階段易出現(xiàn)誤分詞現(xiàn)象,導(dǎo)致語言模型對(duì)詞向量的誤聚類,因此文章在分類包中引入自定義專有名詞提高詞向量表達(dá)準(zhǔn)確性。同時(shí),文本常出現(xiàn)中英文混合現(xiàn)象,如“PT切換刀閘位置無效”,描述呈現(xiàn)半結(jié)構(gòu)化特點(diǎn),文字表達(dá)存在部分差異,例如“鏈路3GOOSE接收A網(wǎng)斷鏈”、“過程層A網(wǎng)GOCB1號(hào)GOOSE接收中斷”,利用專家系統(tǒng)進(jìn)行自動(dòng)化映射時(shí)難以把控推理規(guī)則的拓展規(guī)律與完備性,造成規(guī)則庫的規(guī)則冗余或丟失,以致誤分類,文章模型在文本表征階段綜合考慮了上述特點(diǎn),有效保證了文本表征向量的準(zhǔn)確性。
1.2.2 基于word 2vec的描述文本表征模型
與普通文本相比,IED配置數(shù)據(jù)描述文本通常涉及電力專有名詞,例如“遠(yuǎn)方修改定值軟壓板”、“遠(yuǎn)方操作硬壓板”等,分詞階段易出現(xiàn)誤分詞現(xiàn)象,導(dǎo)致語言模型對(duì)詞向量的誤聚類,因此文章在分類包中引入自定義專有名詞提高詞向量表達(dá)準(zhǔn)確性。同時(shí),文本常出現(xiàn)中英文混合,如“PT切換刀閘位置無效”,描述呈現(xiàn)半結(jié)構(gòu)化特點(diǎn),文字表達(dá)存在部分差異,例如“鏈路3GOOSE接收A網(wǎng)斷鏈”、“過程層A網(wǎng)GOCB1號(hào)GOOSE接收中斷”,利用專家系統(tǒng)進(jìn)行自動(dòng)化映射時(shí)難以把控推理規(guī)則的拓展規(guī)律與完備性,造成規(guī)則庫的規(guī)則冗余或丟失,以致誤分類,文章模型在文本表征階段綜合考慮了上述特點(diǎn),有效保證了文本表征向量的準(zhǔn)確性。
基于BP神經(jīng)網(wǎng)絡(luò)構(gòu)造的word 2vec[19-20](包括CBOW與Skip-Gram兩種形式)文本表征模型可以有效降低詞向量的維度與稀疏度,提高向量對(duì)原文語義關(guān)系的映射能力,該模型設(shè)置局部文本分析窗口,假設(shè)窗口內(nèi)上下文詞向量已知,將中心詞出現(xiàn)概率最大化作為訓(xùn)練目標(biāo)求解模型,以實(shí)現(xiàn)各詞語在語義空間的映射,并獲取降維后的稠密靜態(tài)詞向量,示意圖如圖2所示。
圖2 語言模型word 2vec示意圖
文章模型采取word 2vec中CBOW模型進(jìn)行文本向量化表征,并采用負(fù)采樣技術(shù)針對(duì)權(quán)重更新過程進(jìn)行優(yōu)化,具體計(jì)算過程如下:
設(shè)分詞處理后詞庫容量為V,映射層神經(jīng)元數(shù)目為N,W1為上下文詞向量矩陣,W2為中心詞向量矩陣,每個(gè)詞的詞向量等于其上下文詞向量與中心詞向量的平均值。
假設(shè)wi為某中心詞周圍C個(gè)上下文詞語中的一個(gè),將其BOW表征向量作為模型輸入,此時(shí)映射層輸出矢量h即為wi的上下文詞向量,而當(dāng)wi作為帶求解向量的中心詞時(shí),wj視為上下文詞時(shí),輸出層輸入值ui由wi的中心詞向量及其附近詞的上下文詞向量相乘所得,上述變量表達(dá)式如下所示:
(1)
(2)
(3)
(4)
(5)
上述模型從映射層到輸出層的計(jì)算過程包括求解所有詞出現(xiàn)概率并查找概率最大值,計(jì)算量繁雜且耗時(shí)長(zhǎng),為提高模型更新效率,文章引入負(fù)采樣技術(shù),設(shè)正樣本為待求詞向量的一個(gè)上下文向量wi,負(fù)樣本依概率選擇5個(gè)非上下文向量向量wj,使權(quán)重矩陣單次更新元素值銳減至原數(shù)目的5%,從而大大減少計(jì)算量。選擇概率如式(6)所示:
(6)
式中f(wj)為wj出現(xiàn)頻次。
損失函數(shù)如式(7)所示:
(7)
式中Wneg為非待求詞集合;σ為Sigmoid函數(shù)。
卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolution Neural Network)是計(jì)算機(jī)圖像處理領(lǐng)域局部特征挖掘能力最強(qiáng)大的深度學(xué)習(xí)網(wǎng)絡(luò)框架。在文本分類領(lǐng)域,當(dāng)文本表示為詞向量時(shí),可將向量值類比為圖像灰度值,詞向量矩陣處理為一維灰度圖像,輸入CNN進(jìn)行局部語義特征分析、文本關(guān)鍵向量值遴選與分類預(yù)測(cè)。傳統(tǒng)文本分類CNN包括卷積層、池化層與全連接分類層,其中池化層通常采取最大池化法針對(duì)特征向量進(jìn)行降維處理,但輸出向量?jī)H用單個(gè)關(guān)鍵特征值描述輸入向量,忽略了向量省略值與關(guān)鍵值的關(guān)聯(lián)關(guān)系,語義概括能力較弱。鑒于此,文章引入動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)DCNN(Dynamic Convolution Neural Network)作為文本分類器[21-22],采取動(dòng)態(tài)K-max池化層進(jìn)行特征值降維處理,依據(jù)各文本句長(zhǎng)依序提取不等數(shù)目的關(guān)鍵值,以保留文本詞序信息與詞語間的相對(duì)位置;此外,DCNN所用寬卷積層不僅能有效獲取文本局部特征值,其對(duì)邊緣信息的捕捉也更為全面。DCNN結(jié)構(gòu)共包含寬卷積層、K-max池化層與動(dòng)態(tài)K-max池化層、折疊層以及全連接分類預(yù)測(cè)層四種網(wǎng)絡(luò)層,結(jié)構(gòu)圖如圖3所示。
圖3 DCNN結(jié)構(gòu)圖
寬卷積層采用1×m維寬卷積核針對(duì)不同維度詞向量序列進(jìn)行卷積處理,m為卷積尺寸,設(shè)卷積核某維權(quán)重值為w,詞向量單個(gè)向量單元為x,該單元經(jīng)卷積處理后輸出結(jié)果為o,模型偏置統(tǒng)一設(shè)為b,計(jì)算過程如下:
o=f(w·x+b)=max(0,w·x+b)
(8)
與常用窄卷積核不同,寬卷積核處理向量時(shí),向量邊緣通常進(jìn)行補(bǔ)零操作以保留邊緣語義信息,對(duì)比示意圖如圖4所示。
K-max池化層與動(dòng)態(tài)K-max池化層用于篩選關(guān)鍵特征值,其中前者依次選取單維特征向量序列中特征值最大的K個(gè)值作為下一層的輸入,選取值最大限度地保留了特征向量序列的典型語義信息及其次序信息。當(dāng)特征值階數(shù)增高時(shí),固定數(shù)目最大池化處理易導(dǎo)致語義信息擇取冗余,為保證池化層取值數(shù)目針對(duì)輸入文本句長(zhǎng)實(shí)現(xiàn)自適應(yīng)調(diào)整,動(dòng)態(tài)K-max池化層將K設(shè)為文本句長(zhǎng)與網(wǎng)絡(luò)深度的函數(shù),如式(9)所示。
(9)
式中n表示輸入句長(zhǎng),l表示當(dāng)前卷積層數(shù),L表示卷積層數(shù)之和,Ktop表示頂層池化操作的K值。
折疊層將輸入矩陣的相鄰兩維向量值拼接求和,在此之前的計(jì)算過程僅針對(duì)文本向量的每一維進(jìn)行卷積操作,不同維之間相互獨(dú)立,向量輸入折疊層可實(shí)現(xiàn)相鄰維關(guān)聯(lián)關(guān)系的映射,同時(shí)文本向量維度可減少一半,最終向量輸入全連接層實(shí)現(xiàn)文本分類預(yù)測(cè)。
DCNN分類預(yù)測(cè)結(jié)果將導(dǎo)入匹配了描述文本與描述輸出接口地址的配置數(shù)據(jù)集的字典中,為IED配置數(shù)據(jù)集錄入智能錄波器配置文件做準(zhǔn)備。
智能錄波器配置文件同樣基于xml語言編寫,各IED標(biāo)簽內(nèi)包含由三大信息組及其子信息組構(gòu)造的標(biāo)簽集,標(biāo)簽集中又包含IED輸出接口地址描述的空白子標(biāo)簽。文章利用Python的ElementTree模塊,在配置數(shù)據(jù)錄入前讀取描述文本的分類結(jié)果,根據(jù)分類結(jié)果遍歷IED各信息組找尋目標(biāo)類別,在地址描述的空白標(biāo)簽內(nèi)自動(dòng)錄入描述文本相對(duì)應(yīng)的配置數(shù)據(jù),完成數(shù)據(jù)集的自動(dòng)化映射。運(yùn)行過程中,錄波器可通過解析其配置文件各信息組所含地址描述標(biāo)簽完成對(duì)IED輸出接口的智能尋址,從而精準(zhǔn)監(jiān)測(cè)IED運(yùn)行信息。
為驗(yàn)證DCNN模型在IED配置數(shù)據(jù)描述文本的語義學(xué)習(xí)與自動(dòng)化分類方面具有良好的效果,文章選取邢臺(tái)110 kV延白變電站、石家莊220 kV秋山變電站與石家莊500 kV桂山變電站共3 000條分類文本作為分析樣本。樣本數(shù)據(jù)集描述文本及歸類標(biāo)注完整。文章將樣本隨機(jī)均分為5份,選擇4份作為訓(xùn)練集,1份作為測(cè)試集,利用訓(xùn)練集訓(xùn)練模型,利用測(cè)試集衡量模型性能。文章挑選壓板信息組中的功能壓板信息組;告警信息組中的光字牌可視化告警信息組;狀態(tài)監(jiān)測(cè)信息組中的在線監(jiān)測(cè)信息組三大典型子類別作為IED配置數(shù)據(jù)分類算例的目錄,部分文本樣本如表1所示。
表1 部分樣本舉例
文章模型采用Python語言編程,并利用某團(tuán)隊(duì)設(shè)計(jì)的gensim模塊進(jìn)行詞向量構(gòu)造,利用某公司推出的 Tensorflow工具包搭建DCNN分類器,文章使用的計(jì)算機(jī)CPU為Intel Core i7-8565U,主頻1.8 GHz,運(yùn)行內(nèi)存8 G,固態(tài)硬盤容量256 GB。模型中各超參數(shù)如表2所示。
表2 模型參數(shù)設(shè)置
分類任務(wù)中,當(dāng)待分類條目為2時(shí),常用分類評(píng)估指標(biāo)包括召回率R,精確率P以及其加權(quán)調(diào)和平均值F1,其表達(dá)式如下:
(10)
(11)
(12)
表達(dá)式中參數(shù)如表3所示。
表3 評(píng)測(cè)指標(biāo)關(guān)聯(lián)關(guān)系
當(dāng)分類條目為n時(shí),逐次將各類與其他類視作兩類條目,分別求解n次精確率與召回率,并進(jìn)行加權(quán)求和,據(jù)此計(jì)算宏評(píng)估綜合指標(biāo)Marco-F1(MF1)以衡量模型性能,上述計(jì)算過程如式(13)~式(15)所示。下文將選取測(cè)試集MF1作為評(píng)估模型分類性能的指標(biāo)值。
(13)
(14)
(15)
3.2.1 word 2vec詞向量聚類性能分析
主成分分析法是種將高維數(shù)據(jù)進(jìn)行降維可視化處理的常用聚類算法[23],在文本分類領(lǐng)域可用于直觀反映詞組間的關(guān)聯(lián)關(guān)系。word 2vec處理所得詞向量具有良好的聚類效果,文章將樣本文本經(jīng)word 2vec處理后,選取中心詞組‘重合閘’、‘高壓側(cè)’與‘過程層’及各自5個(gè)語義關(guān)聯(lián)度最緊密的詞組利用主成分分析法針對(duì)上述詞向量進(jìn)行二維聚類展示,結(jié)果如圖5所示,坐標(biāo)為高維數(shù)據(jù)特征向量空間中占比最大的一對(duì)正交向量方向。
圖5 word 2vec聚類分析圖
由圖5可知,語義銜接緊密的單詞,在聚類空間中空間距離小,例如‘閉鎖’與‘重合閘’等;語義銜接不夠緊密的詞,空間距離較大,例如‘光功率’與‘靈敏角’等。圖6是中心詞與其他詞關(guān)聯(lián)緊密度雷達(dá)圖,其中,緊密度以詞組在圖5中的無量綱幾何距離衡量,由于圖中幾何距離最大值為13.641 74,因此雷達(dá)圖中兩詞坐標(biāo)(xi,yi)與(xj,yj)的緊密度μij計(jì)算方式如式(16),表示為各詞所在刻度值上的坐標(biāo)點(diǎn),由圖6可見,在二維聚類圖中與中心詞相隔較近的詞,其與中心詞坐標(biāo)的關(guān)聯(lián)緊密度較高。以三組中心詞為核心的部分描述樣本如表4所示,其中“/”表示分詞處理后不同詞組的區(qū)分處。
表4 中心詞相關(guān)分詞樣本舉例
圖6 word 2vec聚類點(diǎn)雷達(dá)分析圖
(16)
3.2.2 DCNN分類性能評(píng)估與優(yōu)化
基于上述超參數(shù)構(gòu)造的DCNN模型文本分類訓(xùn)練集與測(cè)試集的損失函數(shù)loss值與宏評(píng)估綜合指標(biāo)MF1對(duì)比圖如圖7所示。隨著迭代次數(shù)增加,訓(xùn)練集與測(cè)試集loss與MF1逐漸收斂,最終訓(xùn)練集MF1為98.44%,loss為17.43%并趨于穩(wěn)定;測(cè)試集MF1為90.50%,loss為26.33%并趨于穩(wěn)定。
圖7 DCNN模型性能綜合分析圖
DCNN分類器中影響文本分類的關(guān)鍵參數(shù)包括卷積核尺寸值與全連接層dropout保留比例值,卷積核尺寸值直接決定提取文本的關(guān)鍵語義特征值的維度大小,單次考慮的關(guān)鍵詞越多,卷積核尺寸越大,文章結(jié)合樣本長(zhǎng)度與文本卷積網(wǎng)絡(luò)常用尺寸值設(shè)置了3組不同尺寸值的實(shí)驗(yàn)組;而全連接層的dropout處理對(duì)卷積核提取所得特征值的保留比例直接影響模型泛化能力,文章改變dropout保留比例同樣設(shè)置三組對(duì)照實(shí)驗(yàn),其中0.1表示保留值較少,可能造成關(guān)鍵語義遺失,0.9接近完全保留,模型泛化性能差,存在對(duì)局部特征的過度依賴。上述模型及其在測(cè)試集上的loss與MF1變化值的柱狀圖如圖8所示,圖8中各實(shí)驗(yàn)組以5次迭代為間隔均勻獲取十組指標(biāo)值。由圖8可知,dropout層保留比例過高與過低一定程度上均造成模型收斂性能較弱,迭代步數(shù)在30次之上并接近最大值45次的過程中,loss與MF1值仍存在較大波動(dòng);由圖8最大迭代次數(shù)的實(shí)驗(yàn)組loss與MF1值對(duì)比柱狀圖可知,當(dāng)卷積核尺寸為4,dropout保留比例為0.5時(shí)模型性能最優(yōu), 此時(shí)測(cè)試集MF1為95.65%,loss為15.72%。各實(shí)驗(yàn)組對(duì)數(shù)據(jù)集的分類耗時(shí)均低于1分鐘,大大降低了分類映射的工作量。
圖8 DCNN對(duì)照組實(shí)驗(yàn)結(jié)果對(duì)比
為體現(xiàn)文章自動(dòng)化映射模型的優(yōu)越性能,文章選取四種典型的傳統(tǒng)分類模型與兩類淺層神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行對(duì)照,利用訓(xùn)練集訓(xùn)練模型,評(píng)估標(biāo)準(zhǔn)為測(cè)試集MF1。四類傳統(tǒng)模型包括支持向量機(jī)(SVM),k最近鄰算法(kNN),CART決策樹與樸素貝葉斯(NaiveBayes),文本向量化表征模型采用傳統(tǒng)表征模型詞庫索引BOW模型;淺層神經(jīng)網(wǎng)絡(luò)包括BPNN與CNN,文本向量化表征模型采用word 2vec模型。實(shí)驗(yàn)結(jié)果如表5所示,可見,基于word 2vec與DCNN構(gòu)造的分類模型精度明顯高于其他模型,分類處理能力優(yōu)異。
表5 其他分類模型性能對(duì)比
文章考慮到在依據(jù)IED數(shù)據(jù)輸出接口的描述文本將接口地址配置數(shù)據(jù)映射至智能錄波器配置文件時(shí),由于數(shù)據(jù)繁雜,描述文本呈現(xiàn)半結(jié)構(gòu)化,專業(yè)名詞較多導(dǎo)致人工映射工作量大,自動(dòng)化映射誤差較高的問題。提出了基于動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)的配置數(shù)據(jù)自映射方法,在獲取數(shù)據(jù)集描述文本后,首先采用基于BP神經(jīng)網(wǎng)絡(luò)構(gòu)造的文本表征模型word 2vec,對(duì)描述文本經(jīng)BOW模型所求的獨(dú)熱矢量矩陣進(jìn)行降維與語義關(guān)系映射處理,有效解決了文本數(shù)值化表征過程存在的矢量維度災(zāi)難與語義鴻溝問題。隨后采取動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)DCNN作為分類器,多層次抽象化篩選局部語義特征值,高效辨識(shí)并提取關(guān)鍵語義用于分類,大大提升了測(cè)試集文本分類精確度,分類耗時(shí)遠(yuǎn)低于人工配置工作時(shí)間,分類映射宏評(píng)估綜合指標(biāo)MF1可達(dá)95%以上,明顯優(yōu)于傳統(tǒng)分類模型與淺層神經(jīng)網(wǎng)絡(luò)分類器,有效提高了配置數(shù)據(jù)自動(dòng)化映射精度。