張鵬 王瑋 趙德偉 司曉峰
摘 要:針對電力系統(tǒng)調(diào)度員在OMS調(diào)度日志中記錄的電力設(shè)備缺陷數(shù)據(jù)繁雜,冗余等問題,提出了一種基于文本挖掘的電力設(shè)備缺陷用戶畫像構(gòu)建新方法。首先在分析電力設(shè)備缺陷文本數(shù)據(jù)的基礎(chǔ)上,對集合樣本進行標(biāo)簽化處理,以電力調(diào)度員的錄入缺陷數(shù)據(jù)及運檢人員在現(xiàn)場實際發(fā)現(xiàn)的缺陷數(shù)據(jù)為輸入,運用改進的聚類算法對電力設(shè)備缺陷標(biāo)簽進行了定義及歸類,最后結(jié)合構(gòu)建的文本預(yù)處理模型以及卷積神經(jīng)網(wǎng)絡(luò)分類器,對電力設(shè)備缺陷文本進行了分類,并根據(jù)分類文本構(gòu)建了電力設(shè)備缺陷的用戶畫像系統(tǒng)。實驗結(jié)果表明,該方法有效的解決了電力調(diào)度員標(biāo)簽語義化問題,將需要調(diào)度人員關(guān)心的設(shè)備缺陷信息進行智能提取,實現(xiàn)了從PMS系統(tǒng)所有缺陷數(shù)據(jù)中自動推薦調(diào)度員關(guān)心的缺陷。
關(guān)鍵詞:電力調(diào)度;設(shè)備缺陷;聚類算法;用戶畫像構(gòu)建;文本挖掘
中圖分類號:TM930.7 ?文獻標(biāo)識碼:A
Abstract:Aiming at the redundancy and other problems of power equipment defect data in the OMS scheduling recorded by power dispatchers,this paper presents a new method for constructing user portraits of power equipment defects based on text mining.Firstly,the text data of power equipment defects are analyzed,the set samples are labeled.The defect data recorded by the power dispatcher and the actual defect data found by the operator are taken as input,the defect labels of power equipment are defined and classified by the improved clustering algorithm.Finally,combined the text preprocessing model and the convolutional neural network classifier,classified the defect text of power equipment.,a user portrait system of power equipment defects is constructed according to the classified text.Experimental results show that this method can solve the problem of semanticization of power dispatcher labels effectively,the equipment defect information concerned by the dispatcher is extracted intelligently,and can recommend defects to the dispatcher from all defect data of the PMS system automatic.
Key words:electric power dispatching;defective equipment;clustering algorithm;user portrait;text mining
智能電網(wǎng)系統(tǒng)依賴于生產(chǎn),傳輸,分配,設(shè)備用電的各個環(huán)節(jié),如果在其中出現(xiàn)任何問題,都會給電力系統(tǒng)造成巨大的影響及經(jīng)濟損失。特別是用電設(shè)備出現(xiàn)損傷及缺陷后,需要對該事故進行迅速的分析及處理是解決智能電網(wǎng)可靠性和穩(wěn)定性的關(guān)鍵[1]。現(xiàn)代智能電網(wǎng)系統(tǒng)運行中會產(chǎn)生大量的多源異構(gòu)數(shù)據(jù)[2],其中電力設(shè)備缺陷文本中包含著與電網(wǎng)穩(wěn)定可靠運行關(guān)系最為密切的信息,在海量的設(shè)備缺陷數(shù)據(jù)中,現(xiàn)場調(diào)度員及設(shè)備操作員往往只關(guān)注與他們工作息息相關(guān)的數(shù)據(jù),研究如何從PMS抽取符合規(guī)則的缺陷信息到OMS中,并建立調(diào)度員關(guān)心的缺陷研判規(guī)則具有重要的意義。
為了構(gòu)建電力設(shè)備缺陷用戶畫像系統(tǒng),首先需要對電力調(diào)度員感興趣的缺陷文本進行挖掘,之后
利用自然語言處理中的機器學(xué)習(xí)或決策樹算法使缺陷文本挖掘變的簡單而高效。目前用于構(gòu)建用戶畫像的方法主要有K-means聚類算法[3]、貝葉斯網(wǎng)絡(luò)算法[4]、結(jié)合主題模型算法[5]、基于統(tǒng)計分析算法[6]等。但是實際運行的電力系統(tǒng)中提取的缺陷信息中經(jīng)常由于不規(guī)范、歧義、不完整等問題,造成缺陷文本的失效。本文基于多種文本挖掘技術(shù),通過分析不同的缺陷標(biāo)簽,對冗余文本進行刪除,并對質(zhì)量較差的文本進行改進,從設(shè)備缺陷的數(shù)據(jù)源頭上提升文本質(zhì)量,構(gòu)建合理的電網(wǎng)缺陷用戶畫像系統(tǒng)。
1 電力設(shè)備缺陷標(biāo)簽
在構(gòu)建用于故障研判的電力設(shè)備缺陷用戶畫像之前,首先要定義電力設(shè)備缺陷標(biāo)簽。電力設(shè)備缺陷是在實際運用或者備用中,電力設(shè)備及設(shè)施出現(xiàn)的一種對電網(wǎng)系統(tǒng)或設(shè)備健康具有一定損害的現(xiàn)象[7]。電力設(shè)備缺陷按照國家電網(wǎng)公司企業(yè)標(biāo)準(zhǔn),根據(jù)其損害程度可以定義為一般缺陷、嚴(yán)重缺陷、危急缺陷,見表1。
通過設(shè)備運維管理系統(tǒng)(PMS)與調(diào)度管理系統(tǒng)(OMS)發(fā)現(xiàn)的缺陷,由于種類繁多且缺陷類別復(fù)雜,導(dǎo)致運檢人員在發(fā)現(xiàn)設(shè)備缺陷后,需要親自確認(rèn)該缺陷是否在對應(yīng)調(diào)度的觀測類別中,并且運檢人員也要確認(rèn)該缺陷的等級才能制定相應(yīng)的處理策略。在上述過程中,工作人員記錄的大量的設(shè)備缺陷數(shù)據(jù)稱為電力設(shè)備缺陷文本,通常缺陷文本應(yīng)包含設(shè)備分層、缺陷描述、缺陷等級三個部分。其中按照分層可以將文本歸納為設(shè)備類型、部件類型、設(shè)備種類、部件種類以及發(fā)生部位,為了實現(xiàn)缺陷的用戶畫像系統(tǒng)構(gòu)建,在進行缺陷流程發(fā)起時,對其缺陷文本定義如下:類別(type)、開始時間(start-time)、結(jié)束時間(end-time)、變電所名稱(st-name)、變電所ID(st-id)、發(fā)現(xiàn)單位(found-com)、電壓等級(vol-level)、設(shè)備類型(dev-type)、設(shè)備名稱(dev-name)、缺陷等級(defect-level)、缺陷描述(defect-des)。
通過對缺陷文本進行標(biāo)簽化處理,可以得到用于構(gòu)建用戶畫像的多維度高精度的特征量,本文采用分詞算法對缺陷文本數(shù)據(jù)進行標(biāo)簽化步驟如下:
(1)取缺陷文本信息的首字母記為First;
(2)按First對缺陷字典庫進行排序,并按文本數(shù)據(jù)的長度降序排列,其長度不能超過設(shè)定好的maxLength;
(3)將選擇的詞分別與缺陷文本字符串進行匹配;
(4)若匹配結(jié)果中出現(xiàn)該缺陷詞,將其保存;
(5)將缺陷文本字符串中已經(jīng)匹配到的子串刪除,將剩余文本數(shù)據(jù)保存并返回步驟2;
(6)重復(fù)步驟2至步驟5一直到缺陷文本中再也沒有匹配到的缺陷特征量關(guān)鍵詞為止,即可停止對該缺陷文本的檢索,至此完成電力設(shè)備缺陷的標(biāo)簽的準(zhǔn)確分類定義。
2 聚類算法及其改進
2.1 K-means算法基本原理
若某電力設(shè)備缺陷發(fā)生在該時間段的次數(shù)占行為總發(fā)生次數(shù)的百分之六十以上,則證明該電力設(shè)備缺陷具有周期性的時間段缺陷,即在重復(fù)時間段內(nèi)會發(fā)生周期性故障,此時調(diào)度員應(yīng)當(dāng)在描述標(biāo)簽中加入時間段名稱。
利用改進聚類算法,對電力設(shè)備缺陷描述數(shù)據(jù)進行單維度離散化可生成不同分類的電力設(shè)備缺陷標(biāo)簽,給該系統(tǒng)每月的缺陷標(biāo)簽分為一般缺陷、嚴(yán)重缺陷、危急缺陷等級標(biāo)簽,根據(jù)改進聚類算法,經(jīng)多次試驗,設(shè)置t=0.1時聚類效果最好。計算出所有數(shù)據(jù)點的局部密度后,再計算出每個數(shù)據(jù)點的γ值,如圖1所示:
由圖1可見,選擇γ值前20的值作為該電力設(shè)備缺陷標(biāo)簽等級的聚類中心,依據(jù)聚類中心大小分成一般缺陷、嚴(yán)重缺陷、危急缺陷等級標(biāo)簽,然后將非聚類中心的數(shù)據(jù)點進行分類,因此可以將電力設(shè)備缺陷分為五個等級,并建立相應(yīng)的缺陷標(biāo)簽。
3 電力缺陷用戶畫像構(gòu)建
3.1 自動文本分類模型的構(gòu)建
在文本分類的過程中,需要設(shè)置該分類的標(biāo)準(zhǔn)及分類的方法,使得計算機對待分類的文本集合自動進行劃分。對文本進行挖掘的前提就是設(shè)置預(yù)先計算好的主題類別及算法,通過構(gòu)建合理的自動文本分類模型,可以將文本集中待分類的文本自動劃分到相近的類別,從而大幅度降低人工處理文本集合的成本[11]。
對電力設(shè)備缺陷數(shù)據(jù)進行文本挖掘,基于特征量對待分類文本進行最優(yōu)的劃分,從而構(gòu)建出能夠突出不同電力設(shè)備缺陷的用戶畫像系統(tǒng)。文本分類過程一般由預(yù)處理、文本表示、特征選擇、構(gòu)造分類器等步驟組成[12],如圖2所示。
電力設(shè)備缺陷文本與其他文本集合不同,其中包含了大量的專用詞匯,并且由于現(xiàn)場調(diào)度員及檢修人員的錄入習(xí)慣不同,對同一設(shè)備缺陷或故障的描述詞匯可能不同,例如“儲油柜”和“油枕”。在電力設(shè)備的缺陷文本中可能同時包含大量的英文和數(shù)字,例如“壓力釋放閥漏油,1min內(nèi)15~20滴”,這些信息雖然復(fù)雜但卻對缺陷文本的分類具有重要作用[13]。綜合上述電力設(shè)備缺陷的特點,本文在普通文本分類模型上進行了改進,首先對平臺數(shù)據(jù)進行清洗,對清洗后的數(shù)據(jù)集合進行文本分詞,通過一些預(yù)處理手段,得到具有代表性且統(tǒng)一表述的詞語。通過參考電力設(shè)備用語規(guī)范,對同義詞的詞向量進行了合并,使模型更加適用于電力設(shè)備缺陷文本的分類任務(wù)。文本預(yù)處理過程見圖3所示。
3.2 卷積神經(jīng)網(wǎng)絡(luò)分類器構(gòu)建
卷積神經(jīng)網(wǎng)絡(luò)于1989年由Lecun提出[14],其在網(wǎng)絡(luò)中的一層中使用卷積來代替一般矩陣的乘法。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)主要包括:卷積層,池化層以及全連接層,其中最重要的部分是卷積層和池化層組合的特征提取器[15]。卷積層與池化層共同組成了用于特征提取的選擇器,卷積層的一個神經(jīng)元只能和相鄰的神經(jīng)元相連,每層可以含有多個特征映射[16]。通過對不同文本特征量計算提取,本文構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如下:
對于池化層,本文采用最大池化方法,將每個卷積得出的卷積層向量的最大值max作為特征值,來提取各個卷積窗口對應(yīng)的特征值[17],同時將所有提取出的特征量進行拼接,形成一個新的池化層的向量p∈R,從而實現(xiàn)了特征量的進一步提取并降低了特征量的維度。
4 仿真驗證
針對本文提出的電力缺陷標(biāo)簽分類及用戶畫像構(gòu)建算法,選取甘肅省電網(wǎng)公司2008-2018年內(nèi)的3000條電力設(shè)備缺陷數(shù)據(jù)進行試驗,其中包括變壓器缺陷,斷路器缺陷,互感器缺陷,其他二次設(shè)備缺陷等。每條缺陷數(shù)據(jù)均包含具體的設(shè)備缺陷數(shù)據(jù)參數(shù)值,以及調(diào)度員當(dāng)時對該缺陷的描述及等級分類的記錄。將該3000條記錄平均分為5組,其中每組包含600條缺陷數(shù)據(jù),輪流將前4組缺陷樣本作為訓(xùn)練數(shù)據(jù)集合,第5組缺陷數(shù)據(jù)作為測試結(jié)果集合。
對于一般缺陷和危急缺陷,所包含的對于設(shè)備缺陷等級的描述及等級劃分具有非常大的差別,因此把以上兩種調(diào)度員的相互錯誤描述定義為嚴(yán)重誤分類,基于嚴(yán)重誤分類的缺陷描述使用戶畫像的構(gòu)建產(chǎn)生嚴(yán)重偏差,在此引入嚴(yán)重誤差率指標(biāo)進行描述如下:
嚴(yán)重誤差率=∑5i=1第i個數(shù)據(jù)集嚴(yán)重錯誤分類數(shù)第i份測試集總數(shù)5(10)
為了驗證電力設(shè)備缺陷用戶畫像構(gòu)建的準(zhǔn)確性,本文對卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)進行了優(yōu)化與改進,設(shè)置了兩組用于對比實驗驗證結(jié)果性能的不同卷積神經(jīng)網(wǎng)絡(luò)模型,電力設(shè)備缺陷標(biāo)簽文本分類結(jié)果見表2。
從表2可以看出,本文提出的改進聚類與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的文本挖掘方法,對于提高模型準(zhǔn)確率有很大作用,耗時與傳統(tǒng)方法雖然接近,但由于兩者向量維度相同,使得耗時只受維度的影響。結(jié)合卷積神經(jīng)網(wǎng)絡(luò)分類結(jié)果,得出電力設(shè)備缺陷標(biāo)簽用戶畫像見表3。
5 結(jié)論
針對電力設(shè)備缺陷的用戶畫像系統(tǒng)的構(gòu)建,本文提出了改進聚類算法結(jié)合卷積神經(jīng)網(wǎng)絡(luò)來實現(xiàn)文本挖掘的新方法:
(1)從表3可以看出,卷積神經(jīng)網(wǎng)絡(luò)標(biāo)簽分類模型與傳統(tǒng)機器學(xué)習(xí)算法相比,構(gòu)建的模型在分類精度和用戶畫像描述的準(zhǔn)確度都有了極大的提高。
(2)通過國家電網(wǎng)公司實測電力設(shè)備缺陷數(shù)據(jù)訓(xùn)練與測試,驗證了該文本挖掘方法在電力設(shè)備缺陷用戶畫像構(gòu)建上的顯著優(yōu)勢和效率上的可行性,該方法有效的解決了電力調(diào)度員標(biāo)簽語義化問題,提取了需要調(diào)度人員關(guān)心的設(shè)備缺陷信息標(biāo)簽,實現(xiàn)了從PMS系統(tǒng)所有缺陷數(shù)據(jù)中自動推薦調(diào)度員關(guān)心的缺陷。
(3)通過該用戶畫像系統(tǒng),如何擴大數(shù)據(jù)挖掘缺陷信息,實現(xiàn)電力設(shè)備缺陷的及時提醒和預(yù)防有待進一步研究。
參考文獻:
[1]杜修明,秦佳峰,郭詩瑤,等.電力設(shè)備典型故障案例的文本挖掘[J].高電壓技術(shù),2018,44(4):1078-1084.
[2]周念成,廖建權(quán),王強鋼,等.深度學(xué)習(xí)在智能電網(wǎng)中的應(yīng)用現(xiàn)狀分析與展望[J].電力系統(tǒng)自動化,2019,43(4):180-191.
[3]趙紅丹,田喜平.基于K-means算法分割遙感圖像的閾值確定方法研究[J].科學(xué)技術(shù)與工程,2017,17(09):255-259.
[4]李苗苗,黃麗華,李靜雅,等.基于貝葉斯網(wǎng)絡(luò)時序模擬配電系統(tǒng)可靠性評估軟件[J].科學(xué)技術(shù)與工程,2013,13(1):70-74.
[5]曹占偉,胡曉鵬.一種結(jié)合主題模型的推薦算法[J].計算機應(yīng)用研究,2019,36(6).
[6]許明樂,游曉明,劉升.基于統(tǒng)計分析的自適應(yīng)蟻群算法及應(yīng)用[J].計算機應(yīng)用與軟,2017,34(7):204-211.
[7]林鈺杰,吳麗賢.基于工作流的電力設(shè)備缺陷管理系統(tǒng)設(shè)計[J].自動化技術(shù)與應(yīng)用,2018,37(7):122-125.
[8]夏士雄,李文超,周勇,等.一種改進的k-means聚類算法[J].東南大學(xué)學(xué)報(英文版),2007,23(3):435-438.
[9]白樹仁,陳龍.自適應(yīng)K值的粒子群聚類算法[J].計算機工程與應(yīng)用,2017,53(16):116-120.
[10]王學(xué)賀.一種基于改進微粒群和輪廓系數(shù)的劃分聚類方法[J].云南民族大學(xué)學(xué)報(自然科學(xué)版),2016,25(4):367-371.
[11]胡杰,李少波,于麗婭,等.基于卷積神經(jīng)網(wǎng)絡(luò)與隨機森林算法的專利文本分類模型[J].科學(xué)技術(shù)與工程,2018,18(6):268-272.
[12]Lodhi H,Saunders C,Shawe-Taylor J,etal.Text classification using string kernels[J].Journal of Machine Learning Research,2002,2(3):419-444.
[13]曹靖,陳陸燊,邱劍,等.基于語義框架的電網(wǎng)缺陷文本挖掘技術(shù)及其應(yīng)用[J].電網(wǎng)技術(shù),2017,41(2):637-643.
[14]李新葉,王光陛.基于卷積神經(jīng)網(wǎng)絡(luò)語義檢測的細(xì)粒度鳥類識別[J].科學(xué)技術(shù)與工程,2018,18(10):240-244.
[15]馬驍烊,張謐.基于標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)的文本推薦算法[J].計算機系統(tǒng)應(yīng)用,2018,27(8):136-141.
[16]Ming L,Hu X.Recurrent convolutional neural network for object recognition[C].Computer Vision & Pattern Recognition,2015.
[17]何俊林,趙曉亮,孫連海,等.結(jié)合MACH濾波最大池化及多類SVM的行為識別[J].計算機工程與設(shè)計,2017,38(12):3431-3435.
References:
[1]Du Xiuming,Qin Jiafeng,Guo Shiyao,etal.Test mining of typical defects in power equipment[J].High Voltage Engineering,2018,44(4):1078-1084.
[2]Zhou Niancheng,Liao Jianquan,Wang Qianggang,etal.Analysis and prospect of deep learning application in smart grid[J].Automation of Electric Power Systems,2019,43(4):180-191.
[3]Zhao Hongdan,Tian Xiping.Based on K-means Algorithm of Remote Sensing Image Threshold Segmentation Method for Determining the Research[J].Science Technology and Engineering,2017,17(09):255-259.
[4]Li Miaomiao,Huang Lihua,Li Jingya,etal.Distribution System Reliability Assessment Software Based on Bayesian Network and Sequence Simulation[J].Science Technology and Engineering,2013,13(1):70-74.
[5]Cao Zhanwei,Hu Xiaopeng.Recommendation algorithm combining theme model[J].Application Research of Computers,2019,36(6).
[6]Xu Mingle,You Xiaoming,Liu Sheng.Self-adaptive ant colony algorithm based on statistical analysis and its application[J].Computer Applications and Software,2017,34(7):204-211.
[7]Lin Yujie,Wu Lixian.Design of Power Equipment Defect Management System Based on Workflow[J].Techniques of Automation and Applications,2018,37(7):122-125.
[8]Xia Shixiong,Li Wenchao,Zhou Yong,etal.Improved k-means clustering algorithm[J].Journal of Southeast University(English Edition),2007,23(3):435-438.
[9]Bai Shuren,Chen Long.Particle clustering algorithm with adaptive K values[J].Computer Engineering and Applications,2017,53(16):116-120.
[10]Wang Xuehe.An automatic approach to solving clustering problems with the number of clusters unknown based on the particle swarm optimization and silhouette coefficient[J].Journal of Yunnan University of Nationalities(Natural Sciences Edition),2016,25(4):367-371.
[11]Hu Jie,Li Shaobo,Yu Liya,etal.A Patent Classification Model Based on Convolutional Neural Networks and Rand Forest[J].Science Technology and Engineering,2018,18(6):268-272.
[12]Lodhi H,Saunders C,Shawe-Taylor J,et al.Text classification using string kernels[J].Journal of Machine Learning Research,2002,2(3):419-444.
[13]Cao Jing,Chen Lushen,QIU Jian,etal.Semantic Framework-Based Defect Text Mining Technique and Application in Power Grid[J].Power System Technology,2017,41(2):637-643.
[14]Li Xinye,Wang Guangbi.Fine-grained Bird Recognition Based on Convolution Neural Network Semantic Detection[J].Science Technology and Engineering,2018,18(10):240-244.
[15]Ma Xiaoyang,Zhang Mi.Personalized Academic Article Recommendation with Tagged Convolutional Nets[J].Computer Systems & Applications,2018,27(8):136-141.
[16]Ming L,Hu X.Recurrent convolutional neural network for object recognition[C].Computer Vision & Pattern Recognition.2015.
[17]He Junlin,Zhao Xiaoliang,Sun Lianhai,etal.Activity recognition combined with MACH filter,max-pooling and multi-class SVM[J].Computer Engineering and Design,2017,38(12):3431-3435.
作者簡介:張鵬(1977-),男,漢族,本科,高級工程師。
*通訊作者:司曉峰(1981-),男,漢族,本科,高級工程師。