俞陽,鄒云峰,康雨萌,孫少辰
(國網(wǎng)江蘇省電力有限公司營銷服務(wù)中心,江蘇南京 210000)
在電力服務(wù)運(yùn)營過程中,各電網(wǎng)公司積累了海量、多樣化的電力運(yùn)營數(shù)據(jù)。這些數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)占80%以上[1-3],如錄音、文本數(shù)據(jù)等。非結(jié)構(gòu)化數(shù)據(jù)主要來自于電網(wǎng)公司的客戶服務(wù)系統(tǒng),其文本數(shù)據(jù)蘊(yùn)含客戶故障報修、信息查詢、業(yè)務(wù)辦理等業(yè)務(wù)需求[4-5]。如何充分利用該文本數(shù)據(jù),深入了解客戶的真實(shí)需求,對進(jìn)一步提高供用電服務(wù)水平、改善用戶用電體驗(yàn)均具有重要意義。
基于傳統(tǒng)數(shù)據(jù)挖掘技術(shù)無法實(shí)現(xiàn)文本數(shù)據(jù)的特征分析,因此文本挖掘技術(shù)應(yīng)運(yùn)而生。文本挖掘技術(shù)結(jié)合計(jì)算機(jī)技術(shù)、人工智能算法等,實(shí)現(xiàn)文本中有價值信息的提取[6-7]。目前,文本挖掘在電力領(lǐng)域的應(yīng)用主要有電力設(shè)備的狀態(tài)感知、故障診斷和系統(tǒng)可靠性評估等[8-10],但其在電力運(yùn)營領(lǐng)域應(yīng)用較少。
針對此,該文將文本挖掘技術(shù)應(yīng)用于電力運(yùn)營文本數(shù)據(jù)的信息處理,以實(shí)現(xiàn)電力運(yùn)營文本分類。同時深入了解電力客戶需求,進(jìn)而提高電網(wǎng)公司服務(wù)水平。
電力運(yùn)營文本數(shù)據(jù)特征識別的流程框架,如圖1所示。將輸入的文本數(shù)據(jù)經(jīng)預(yù)處理得到文本數(shù)據(jù)的中間形式,然后通過文本特征識別模型挖掘文本數(shù)據(jù)的內(nèi)在聯(lián)系,最終輸出文本特征識別結(jié)果。若原始運(yùn)營文本數(shù)據(jù)質(zhì)量差,則將大幅降低對特征識別結(jié)果的準(zhǔn)確率。因此,文本預(yù)處理是進(jìn)行文本數(shù)據(jù)挖掘與特征提取的關(guān)鍵前置步驟。
圖1 文本數(shù)據(jù)特征識別流程
典型的電力運(yùn)營文本數(shù)據(jù)具有以下明顯的特征[11]:文本長度短、專業(yè)性強(qiáng)、規(guī)范性差、價值密度低。
因此,文本數(shù)據(jù)的預(yù)處理對于剔除電力運(yùn)營文本信息中的異常數(shù)據(jù),過濾無實(shí)際意義的文本信息,并最終實(shí)現(xiàn)對地點(diǎn)、故障等關(guān)鍵特征的提取具有重要意義。該文采用的電力運(yùn)營文本數(shù)據(jù)預(yù)處理步驟包括:文本清洗和文本分詞。
電力運(yùn)營文本數(shù)據(jù)清洗流程如圖2 所示[12],主要包括以下步驟:剔除空白文本數(shù)據(jù)、剔除過短文本數(shù)據(jù)、規(guī)則過濾文本數(shù)據(jù)。
基于迪杰斯特拉(Dijkstra)的文本分詞算法步驟,如圖3 所示[13]。
由圖3 可知,其主要包含以下步驟:
1)構(gòu)建文本數(shù)據(jù)的有向無環(huán)圖,假設(shè)A=a1a2…ai-1ai…aj…an為文本數(shù)據(jù),其中ai為單個文字,文本數(shù)據(jù)共包含n個文字。如圖4 所示,構(gòu)建的有向無環(huán)圖G方法如下:
圖4 文本數(shù)據(jù)對應(yīng)的有向無環(huán)圖
1)G包含n+1 個節(jié)點(diǎn)V0,…,Vn,任意相鄰節(jié)點(diǎn)Vi和Vi+1通過有向邊連接,方向從Vi指向Vi+1,該邊對應(yīng)詞ai,邊的權(quán)重值為wi;
2)對于詞典中的詞Bk=aiai+1…aj,則在節(jié)點(diǎn)Vi-1與Vj之間增加一條有向邊,方向從Vi-1指向Vj,該邊對應(yīng)詞Bk,邊的權(quán)重值為wk。
2)將文本數(shù)據(jù)對應(yīng)的有向無環(huán)圖G中的節(jié)點(diǎn)劃分為兩類:已知最短路徑的節(jié)點(diǎn)與未知最短路徑的節(jié)點(diǎn),分別對應(yīng)節(jié)點(diǎn)集合S和U。將中間向量L={lk},lk表示節(jié)點(diǎn)Vk到初始節(jié)點(diǎn)V0的最短路徑長度值。
3)初始狀態(tài)下,S只包含初始節(jié)點(diǎn)V0,U包含節(jié)點(diǎn)V1,…,Vn共n個節(jié)點(diǎn)。然后從U中篩選到初始節(jié)點(diǎn)V0長度值最短的節(jié)點(diǎn)Vk,并將節(jié)點(diǎn)Vk從U轉(zhuǎn)移到S,且有:
4)將節(jié)點(diǎn)Vk當(dāng)作中繼節(jié)點(diǎn),繼續(xù)在U中搜索到初始節(jié)點(diǎn)V0的最短路徑。假設(shè)搜索的下一個節(jié)點(diǎn)為Vu,則有:
5)判斷是否搜索至目標(biāo)節(jié)點(diǎn)Vg,若為否,則循環(huán)步驟3)和步驟4);若是,則退出循環(huán),輸出結(jié)果。
經(jīng)過上述電力運(yùn)營文本分詞,將得到包含文本數(shù)據(jù)含義的特征項(xiàng)。該文采用詞頻-逆向文檔頻率算法(Term Frequency-Inverse Document Frequency,TF-IDF)來提取這些特征項(xiàng)。TF-IDF 是文本挖掘中常用的基于文本相似的特征提取技術(shù),采用權(quán)重來評估單詞、句子甚至文檔的重要性[14]。
TF-IDF 的核心思想是對于一個單詞,其高頻率地出現(xiàn)于某個文本數(shù)據(jù)中,且該單詞又較少出現(xiàn)在總文本樣本中的其他文本數(shù)據(jù)中。則可以認(rèn)為該單詞對于該文本樣本具有較強(qiáng)的區(qū)分能力,能夠用作為該文本數(shù)據(jù)的分類標(biāo)簽。因此,TF-IDF 算法采用詞頻與逆向文檔頻率之乘積作為權(quán)重,其計(jì)算方法如下:
式中,TFi,j是單詞i在文本j中的出現(xiàn)頻率,計(jì)算方法如下:
IDFi描述的是單詞i在其他文本中出現(xiàn)頻率的倒數(shù),計(jì)算方法如下:
式中,D為文本樣本總數(shù),{j:i∈j} 為包含單詞i的文本數(shù)量。為了避免所有文本樣本不包含單詞i導(dǎo)致分母為零的情況,通常在{j:i∈j} 的基礎(chǔ)上加1。
1)深度學(xué)習(xí)模型
典型深度學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)如圖5 所示,其由輸入層、輸出層和多層隱藏層構(gòu)成。
圖5 深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)
深度學(xué)習(xí)網(wǎng)絡(luò)通過層層迭代實(shí)現(xiàn)信息傳播與特征的學(xué)習(xí)。層與層之間的關(guān)系如下:
式中,zl表示l層的輸入信息;fl-1()表示l-1 層的激活函數(shù);Wl與bl分別為從l-1 層到l層的權(quán)重值和偏置值。
2)LSTM 模型
對于處理具有時間序列特征的數(shù)據(jù)樣本,傳統(tǒng)的深度學(xué)習(xí)模型適應(yīng)性較差,因此長短期記憶(Long Short-Term Memory,LSTM)模型由此發(fā)展而來,其屬于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種。RNN 的典型網(wǎng)絡(luò)結(jié)構(gòu)模型如圖6 所示。其與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的區(qū)別在于隱藏層的輸入由當(dāng)前時刻的輸入信息和上一時刻隱藏層的輸出信息構(gòu)成,從而使得網(wǎng)絡(luò)具備了記憶功能。
圖6 RNN結(jié)構(gòu)
LSTM 相對RNN 的區(qū)別在于LSTM 采用了特殊結(jié)構(gòu)的記憶單元作為循環(huán)單元[15-16]。典型記憶單元的結(jié)構(gòu)如圖7 所示。
圖7 LSTM結(jié)構(gòu)
由圖7 可知,LSTM 引入了一個內(nèi)部狀態(tài)ct,計(jì)算方式如下:
式中,ft∈[0,1]D、it∈[0,1]D、ot∈[0,1]D分別為遺忘門、輸入門和輸出門的狀態(tài),其實(shí)現(xiàn)信息傳輸路徑的控制。為中間狀態(tài),計(jì)算方式如下:
上述三個門實(shí)現(xiàn)的功能如下:遺忘門實(shí)現(xiàn)上一時刻內(nèi)部狀態(tài)遺忘信息的控制;輸入門實(shí)現(xiàn)當(dāng)前時刻中間狀態(tài)保留信息的控制;輸出門實(shí)現(xiàn)當(dāng)前時刻內(nèi)部狀態(tài)輸出信息的控制。其計(jì)算方式如下:
基于上述算法模型,設(shè)計(jì)了基于TF-IDF-LSTM的電力運(yùn)營信息處理算法流程,如圖8 所示。將電力運(yùn)營原始文本作為輸入,然后進(jìn)行文本清洗、文本分詞等數(shù)據(jù)預(yù)處理操作;進(jìn)一步基于TF-IDF 算法實(shí)現(xiàn)文本數(shù)據(jù)特征的提?。蛔罱K,通過LSTM 模型實(shí)現(xiàn)電力運(yùn)營文本的分類識別。
圖8 電力運(yùn)營信息處理算法流程
為驗(yàn)證該文所提算法的準(zhǔn)確性和有效性,文中選取某電網(wǎng)公司在2020 年的10 000 條真實(shí)電力運(yùn)營文本數(shù)據(jù)作為實(shí)驗(yàn)樣本,并將其以4∶1 的比例隨機(jī)劃分為訓(xùn)練集和測試集。分類結(jié)果包括業(yè)務(wù)辦理、信息查詢、停送電查詢、法律法規(guī)、服務(wù)質(zhì)量、停電、電能質(zhì)量和供電安全共八類。
選取LSTM、TF-IDF-SVM 兩種算法與該文所提TF-IDF-LSTM 算法進(jìn)行對比。選取2 000 條測試文本數(shù)據(jù),一級分類結(jié)果的準(zhǔn)確率如表1 所示;二級分類結(jié)果的準(zhǔn)確率如表2 所示。
表1 一級分類不同算法的性能對比
表2 二級分類不同算法的性能對比
對于一級分類,所提TF-IDF-LSTM 算法的準(zhǔn)確率為92.6%,LSTM 與TF-IDF-SVM 算法的準(zhǔn)確率分別為84.1%和84.8%;對于二級分類,所提TF-IDFLSTM 算法的分類準(zhǔn)確率均大于90%,LSTM 和TFIDF-SVM 算法分類準(zhǔn)確率均小于90%。
由此可見,該文所提TF-IDF-LSTM 算法具有更高的分類準(zhǔn)確率。這是因?yàn)槲闹兴崴惴ㄏ啾扔贚STM 算法,通過TF-IDF 算法提取特征信息,實(shí)現(xiàn)了分類學(xué)習(xí)模型的預(yù)訓(xùn)練。相比于TF-IDF-SVM 算法,LSTM 算法通過記憶單元的特殊結(jié)構(gòu)提高了模型的學(xué)習(xí)能力,從而提升電力運(yùn)營文本分類結(jié)果的準(zhǔn)確性。
將該文所提算法模型應(yīng)用于該電網(wǎng)公司2018-2020 年中的全部電力運(yùn)營信息文本,得到的文本分類結(jié)果如圖9 所示,縱坐標(biāo)代表數(shù)據(jù)量。可以看到在客戶的反饋中,業(yè)務(wù)辦理、信息查詢和停送電查詢這三類比重較大,占全部業(yè)務(wù)訴求的91%。對于這三類業(yè)務(wù)的處理,電網(wǎng)公司可以進(jìn)一步加大網(wǎng)上業(yè)務(wù)辦理以及微信查詢等功能的應(yīng)用推廣。以滿足客戶的業(yè)務(wù)需求,并減少客服人工資源的投入,提高運(yùn)營服務(wù)水平。
圖9 電力運(yùn)營文本分類結(jié)果
該文開展了文本挖掘技術(shù)在電力運(yùn)營信息中的應(yīng)用研究,提出了基于TF-IDF-LSTM 的電力運(yùn)營文本分類方法。通過算例分析表明:文中所提算法相比于僅采用LSTM 算法,能夠通過TF-IDF 算法實(shí)現(xiàn)文本特征單詞的預(yù)提取,且提高模型的泛化能力;相比于TF-IDF-SVM 模型,采用LSTM 算法具有更高的學(xué)習(xí)能力,且分類結(jié)果更加準(zhǔn)確。然而該文僅實(shí)現(xiàn)了對電力運(yùn)營文本的分類,如何結(jié)合電力生產(chǎn)的文本數(shù)據(jù)實(shí)現(xiàn)電網(wǎng)故障的精準(zhǔn)定位,輔助電力運(yùn)維業(yè)務(wù)的智能化,將在未來的研究中展開。