林少娃 陳奕汝 顧 潔 伍蓓蓓 雍旭龍
(1.國網(wǎng)浙江省電力有限公司電力科學研究院,浙江 杭州 310000;2.浙江大有實業(yè)有限公司綜合能源服務分公司,浙江 杭州 310000;3.杭州遠傳新業(yè)科技有限公司,天津 300300)
隨著國民經(jīng)濟的發(fā)展和人民生活水平的提高,電力用戶對供電可靠性的要求越來越高。受惡劣環(huán)境和不可預測的外力破壞影響,電力故障停電無法完全避免,用戶對電力故障搶修的報修響應速度、搶修效率有較高的要求。當故障發(fā)生時,電力公司需要對故障影響情況用戶數(shù)量、用戶可能發(fā)生的訴求情況等進行快速預判,才能第一時間作出服務決策,以支撐快速響應客戶報修訴求、提升搶修效率。此外,電力行業(yè)在發(fā)展過程中業(yè)務更新較快,需要及時收集客戶對業(yè)務變化的體驗,以快速做出適應性調(diào)整。目前電力用戶訴求由95598 客服代表進行內(nèi)容標注和歸類,客戶訴求內(nèi)容被精簡,訴求中可能存在的重要信息被隱含在工單錄音文件中,不能直觀反映當前供電服務的熱點問題。同時95598 工單分類體系未精細到具體業(yè)務點,工單仍依賴人工梳理與統(tǒng)計分析,其效率低下;且人工統(tǒng)計分析受限于個人的業(yè)務能力,看待問題具有局限性并存在主觀經(jīng)驗性。
隨著互聯(lián)網(wǎng)的普及,智能化客服系統(tǒng)已經(jīng)逐步取代傳統(tǒng)客服行業(yè),并發(fā)展成為互聯(lián)網(wǎng)客服行業(yè)的核心。依托系統(tǒng)準確、可靠、全面、及時的狀態(tài)信息,智能化客服可以并發(fā)處理電力用戶的訴求事件。智能化客戶服務離不開大數(shù)據(jù)的支撐,公司需要通過分析歷史訴求信息數(shù)據(jù)和海量的電力用戶異構(gòu)數(shù)據(jù)來積極應付突發(fā)事件,對訴求熱點進行分類并進行主動性預警或調(diào)整服務決策,以提升客戶體驗。同時,全國信息化工作的全面快速推動,電力用戶用電基礎信息不斷完善,用電信息采集系統(tǒng)、營銷系統(tǒng)等各類系統(tǒng)數(shù)據(jù)的貫通,電力用戶的各類基礎數(shù)據(jù)、用電信息、95598 熱線語音轉(zhuǎn)文本數(shù)據(jù)和在線客服對話數(shù)據(jù)等多源異構(gòu)數(shù)據(jù)向海量規(guī)模發(fā)展,大數(shù)據(jù)特征日益明顯,合理開發(fā)利用這些海量數(shù)據(jù),可以為智能化客服提供明確的數(shù)據(jù)依據(jù)支撐并自動給訴求用戶滿意答復和相應解決方法。
研究基于大量歷史訴求數(shù)據(jù)的供電服務訴求,實時挖掘電力用戶的服務信息訴求與熱點分類,可以解決傳統(tǒng)客服在處理訴求熱點時存在的延遲滯后與分析片面等問題。文中利用95598 熱線語音轉(zhuǎn)文本數(shù)據(jù)和在線客服對話文本數(shù)據(jù),采用非監(jiān)督學習的方法來挖掘用戶訴求文本中所包含熱點和話題。針對交互式文本的特點[1],先對簡短的交互式文本進行預處理,然后采用隱含狄利克雷分布概率(LDA)主題模型對交互式文本進行主題挖掘,給訴求的電力用戶打上訴求熱點主題標簽。
電力公司不僅擁有各種渠道的訴求信息,還掌握著關于訴求電力用戶本身的多源異構(gòu)數(shù)據(jù)(比如說電力用戶性別、電力用戶年齡、家庭成員、工作類別、居住區(qū)域等,用戶對應的配電箱參數(shù)、繳費方式和時間、欠費或者余額信息等,電表圖像、設備故障圖像,用戶的每小時用電量序列數(shù)據(jù)等)。電力公司要對電力故障影響情況和訴求熱點進行高準確性地主動性預測,必須要對上述所收集到的多源異構(gòu)數(shù)據(jù)進行合理的信息挖掘,在電力用戶進行熱線訴求之前實施相對應的解決方法。文中針對每一種類型的數(shù)據(jù)集采用相對應的特征提取方法,并進行特征級的數(shù)據(jù)融合,然后采用卷積神經(jīng)網(wǎng)絡作為分類器,來預測電力用戶可能的訴求主題并進行主動性預警。
文中最后使用某區(qū)域的電力公司的用戶熱線訴求和線上對話訴求的交互式文本,來驗證LDA 算法進行話題挖掘的有效性。同時,文中也驗證了基于特征級融合的卷積神經(jīng)網(wǎng)絡分類模型,在處理異構(gòu)數(shù)據(jù)時能夠很好地抓取異構(gòu)數(shù)據(jù)特征之間的關聯(lián)性,并獲得很高的分類準確率,最終實現(xiàn)電力公司對電力故障影響情況和用戶訴求的主動性預警功能。
交互式訴求信息因為是用戶和客服人員的對話式交互文本,所以存在口語化嚴重、句式簡短、交互性強等特點。句式簡短和文本稀疏會使得在對交互式信息進行主題挖掘時生成稀疏的特征矩陣,口語化、停頓詞等常用詞語會使得主題挖掘模型提取出非主題相關的詞語作為判斷主題標簽的依據(jù),導致模型失效。在國家電網(wǎng)的客服環(huán)境下,電力用戶和客服人員的對話還具有極強的專業(yè)性色彩。文本專業(yè)化表明了用戶的訴求需求,極大地表現(xiàn)出用戶所關注的主題。所以文中需要解決交互式文本的簡短、口語化和電力專業(yè)化等特點,提升文本話題挖掘的有效性。圖1 展示了一個電力用戶和客服對話的語音轉(zhuǎn)交互式文本的案例。
圖1 客服對話案例
多源異構(gòu)數(shù)據(jù)挖掘的難點在于,特征提取無法使用統(tǒng)一的算法。類別離散數(shù)據(jù)、數(shù)值連續(xù)數(shù)據(jù)、圖像數(shù)據(jù)、時間序列數(shù)據(jù)等(如圖2 所示),都需要制定其對應的特征提取算法來提取出有效信息。在提取完對應的特征之后,還需要進行數(shù)據(jù)融合,并傳給分類器進行訴求熱點分類和預測。而傳統(tǒng)的分類器無法去捕捉各種數(shù)據(jù)源所提取出的特征之間的關聯(lián)性,導致分類準確性很差。所以文中需要結(jié)合多源異構(gòu)數(shù)據(jù)的特點,使用合適的分類器去得到最高的分類準確性,從而使得系統(tǒng)可以更加準確地對電力故障影響范圍和訴求熱點進行主動性預警。
圖2 多源異構(gòu)數(shù)據(jù)
挖掘電力用戶的訴求交互性短文本時,文中根據(jù)百度百科、維基百科這兩個外部文本數(shù)據(jù),對交互式文本中出現(xiàn)電力專業(yè)性詞匯進行詞語解釋來擴充文本長度,進一步解決文本矩陣稀疏的問題。為了解決交互式文本中口語化對主題挖掘結(jié)果的影響,文中根據(jù)口語化詞語庫對高頻詞匯中的口語化詞語進行過濾[2]。在進行文本特征選擇之前,需要進行相應的預處理操作。預處理主要分三個部分:分詞處理、停用詞過濾和特殊詞匯過濾。預處理完之后,文中對交互式文本進行特征提取。然后對預處理后的詞向量組進行特征提取,最后采用LDA 算法對文本特征進行主題挖掘,并給每一個訴求文本打上訴求熱點標簽[3]。圖3 展示了電力用戶的交互式訴求文本主題挖掘的系統(tǒng)流程圖。
圖3 交互式文本主題挖掘流程圖
為了實現(xiàn)電力公司對電力用戶的訴求進行主動式預警,文中采用多源異構(gòu)大數(shù)據(jù)分析的算法與技術(shù),結(jié)合交互式文本訴求系統(tǒng)的主題熱點標簽,對電力公司所收集到的電力用戶多源異構(gòu)數(shù)據(jù)集進行分類處理。這樣,電力公司就可以直接根據(jù)電力用戶的本身信息和日常行為數(shù)據(jù)對用戶訴求進行主動式預測和訴求熱點分類。圖4 展示了多源異構(gòu)數(shù)據(jù)分類器的設計框架圖。
圖4 多源異構(gòu)數(shù)據(jù)分類器設計框架
對交互式文本進行主題挖掘?qū)儆诜潜O(jiān)督性學習過程,避免浪費大量的人力資源對訴求文本進行標簽注明。當訴求交互式文本完成了話題分類之后,每一個文本都有其對應標簽,文中利用電力公司所持續(xù)收集的多源異構(gòu)數(shù)據(jù)集,結(jié)合訴求熱點標簽,通過數(shù)據(jù)預處理、異構(gòu)數(shù)據(jù)特征提取、卷積神經(jīng)網(wǎng)絡等技術(shù)來完成異構(gòu)數(shù)據(jù)的深度挖掘,并實現(xiàn)交互式信息訴求的分類與預測。這樣,電力公司便可以通過收集到的用戶數(shù)據(jù),來迅速判斷故障影響范圍或客戶訴求熱點,達到主動預警的目的,并根據(jù)結(jié)果支撐客戶服務代表快速響應客戶報修訴求或提供職能部門進行服務調(diào)整決策。
2.2.1 數(shù)據(jù)預處理模塊
由于電力用戶的訴求信息文本主要是由電話錄音的音頻數(shù)據(jù)轉(zhuǎn)化成文本而來,所以原始文本中存在停頓符號、空格、語氣詞、停用詞等。文本預處理在文本主題挖掘中起著非常重要的角色,文中將文本預處理過程分為以下三個步驟:
(1)分詞處理:文本處理的對象是詞向量,所以在進行預處理之前首先需要對交互式文本進行分詞處理,將文本轉(zhuǎn)化為多個獨立的詞向量。
(2)停用詞消除:停頓詞是自然語言的一個分支。需要從文本中刪除停頓詞的動機是:它們讓文本看起來更沉重,對分析文本來說并不那么重要。刪除停止字可以降低詞向量特征空間的維度。在文本中最常見的單詞包括虛詞、口語化詞匯等,它們沒有給出文檔的含義??紤]到這些字在文本主題挖掘過程中不會被作為關鍵字,所以必須先刪除停用詞來減小主題挖掘訓練時間。
(3)特殊詞過濾:文本詞向量中還包含了大量特殊詞匯,問候和致謝詞匯、線上客服文本中的表情信息、手機號碼、家庭住址等詞匯(在交互文本中所提及的訴求地址信息,文中單獨抓取出來并加入到后續(xù)的異構(gòu)數(shù)據(jù)源中),上述某些詞匯可能沒有實際意義,但是在詞向量中出現(xiàn)的頻次極高,需要對這些特殊詞匯進行過濾。
2.2.2 特征提取模塊
預處理過程只是將一個交互式文本轉(zhuǎn)化為詞向量數(shù)組,但是這些詞向量的數(shù)量相對來說比較龐大。在進行文本主題挖掘之前,仍需要對其進行特征提取,來減少接下來的文本挖掘的數(shù)據(jù)處理時間。文中主要采用以下步驟來進行特征詞向量提取:
(1)名詞短語提取:對交互式文本中詞向量進行詞性標注,篩選出名詞詞性的詞向量。
(2)高頻詞匯提取:在提取高頻詞匯過程中,文中根據(jù)詞頻的計算來衡量詞向量在文本中頻率,計算公式為:
式中:ni,j表示詞向量j在文本對象i中出現(xiàn)的次數(shù),∑knk,j表示詞向量j在所有文本對象中出現(xiàn)的總次數(shù),tfi,j表示詞向量j在文本對象i中的詞頻。通過設置閾值來篩除每個文本對象中的低頻詞向量,并保留高頻詞向量重新作為文本特征向量。
設置閾值篩除低頻詞向量,并保留高頻詞向量重新作為文本特征向量。
(3)信息熵過濾:高頻詞匯提取過程中,也會提取一些具有不確定性因素的高頻詞匯[4]。該步驟借助信息熵來對不確定性的高頻詞匯進行剔除,信息熵公式如下:
在該公式中,i表示文本對象的序號,n表示文本總數(shù);P(xi)表示詞匯xi在文本i中出現(xiàn)的概率。文中對所有過濾后的高頻詞匯進行信息熵計算,設置合適的信息熵閾值,判斷當前詞語的信息熵是否高于閾值,若高于閾值則將該詞語從特征詞向量中剔除,進一步提高LDA 模型的效率。
2.2.3 LDA 算法
當?shù)玫椒衔谋局黝}挖掘模型的交互式文本集合和每個文本中的詞向量集合之后,文中采用隱含狄利克雷分布(LDA)概率主題模型對上述的文本集合進行主題挖掘。
LDA 模型是一種文檔生成模型。它認為一篇文本是包含多個主題的,而每個主題又對應不同的詞語,所以在生成一個文本時,首先以一定的概率選擇一個主題,再在此主題下以一定概率去選擇一個詞語,不斷重復之后便可生成一篇文本。LDA 采用貝葉斯估計的方法,假設文檔的主題分布和主題的特征詞分布的先驗分布都是Dirichlet 分布(狄利克雷分布),認為所有的文檔存在K個隱含主題。圖5表示LDA 的概率圖模型。圖中每一個圓圈都表示一個隨機變量,其中白色圓圈表示隱含變量,黑色圓圈表示感測變量。M表示文本集合,N表示文本中詞向量的集合,K表示設置的主題數(shù)目。α表示每一篇文檔的主題分布的先驗分布——Dirichlet 分布的超參數(shù);β 表示每一個主題的詞分布的先驗分布-Dirichlet 分布的超參數(shù);W表示建模過程中可以觀測到的詞語。根據(jù)圖中描述,LDA 的具體文檔生成過程如圖5 所示。
圖5 LDA 概率圖模型
(1)從主題分布的Dirichlet 分布α中取一個作為生成文檔d的主題分布θ。
(2)從主題的多項式分布θ中取一個主題,作為生成文檔d第n個詞的主題Zd,n。
(3)從主題的詞分布的Dirichlet 分布β中取一個詞語,作為生成主題Zd,n對應的詞語分布φ。
(4)從詞語的多項式分布φ中采樣最終生成詞語Wd,n。
接下來對LDA 模型進行訓練,訓練的過程就是通過吉布斯采樣獲取(主題,詞向量)的樣本,而模型的所有參數(shù)都可以基于最終采樣得到的樣本進行估計,訓練過程如下:
(1)隨機初始化:對文本集中每一篇文本中的每一個詞w,隨機賦一個主題z。
(2)重新掃描文本集,對每一個詞w,按照吉布斯采樣公式重新采樣其主題:
將當前詞w安排給計算出概率值最高的主題zmax。
(3)重復以上文本集的重新采樣過程直到吉布斯采樣收斂。
(4)統(tǒng)計主題-詞向量頻率矩陣,該矩陣變?yōu)長DA 模型。
得到LDA 主題挖掘模型之后,對于新的未知文本,文中通過如下流程來判斷文本的主題分布:
(1)隨機初始化:對當前文本中的每一個詞w,隨機賦予一個主題z。
(2)重新掃描當前文本,按照吉布斯采樣公式,對每一個詞w,重新采樣其主題。
(3)重復以上步驟直到吉布斯采樣收斂。
(4)統(tǒng)計文本的主題分布,該分布即為θnew。
文中通過LDA 模型獲取到了電力用戶訴求文本的主題,并根據(jù)主題給每一個電力用戶的訴求文本打上標簽。國家電網(wǎng)可以從多種途徑收集到訴求用戶的基本信息,電力信息(配電器類型、實時用電功率、總用電量、交費信息等),用戶信息(家庭成員、工作信息、家庭住址等),訴求時空信息(電力投訴點位置信息,投訴點時間信息)。通過多種途徑收集到的異構(gòu)數(shù)據(jù),結(jié)合數(shù)據(jù)挖掘的算法,可以做到對電力故障等訴求問題的主動預警,提前發(fā)送短信等方法告知電力用戶短時間內(nèi)可能出現(xiàn)的電力故障并提前部署相關維修部門解決問題。
對異構(gòu)數(shù)據(jù)集進行分類的主要挑戰(zhàn)是如何處理數(shù)據(jù)集記錄中的異構(gòu)性。雖然一些現(xiàn)有的分類器(如決策樹)可以在特定的環(huán)境中處理異構(gòu)數(shù)據(jù),但是這些模型的性能可能仍然會得到改進,因為異構(gòu)性涉及到對相似性度量和計算的特定調(diào)整。而且,異構(gòu)數(shù)據(jù)仍然以不一致的、特別的方式處理。文中利用深度學習作為一種自動化的特征工程的方法,利用獨熱編碼(One-hot Encoding)和LSTM 等方法分別對每一種數(shù)據(jù)格式的數(shù)據(jù)進行提取特征,并最終通過合并(concat)操作將這些多種特征進行融合。卷積神經(jīng)網(wǎng)絡(CNN)因為出色的特征提取能力被廣泛應用在各種領域,卷積核的設計可以讓系統(tǒng)根據(jù)數(shù)據(jù)之間的關聯(lián)性來提取出更高維度的特征,使得分類準確率得到提高[5]。文中在得到異構(gòu)數(shù)據(jù)融合特征向量之后,采用了CNN 作為系統(tǒng)的分類器,旨在提取異構(gòu)數(shù)據(jù)特征之間的相關性,并提高最終模型分類的準確性。
圖6 異構(gòu)數(shù)據(jù)分類器架構(gòu)圖
2.3.1 異構(gòu)數(shù)據(jù)特征提取
面對多源異構(gòu)數(shù)據(jù)處理的復雜性,為了達到多源異構(gòu)數(shù)據(jù)共性特征提取的目的,文中首先將異構(gòu)數(shù)據(jù)分成四大部分,第一是類別型數(shù)據(jù)(電力用戶性別、工作類別、居住區(qū)域等),第二是數(shù)值型數(shù)據(jù)(電力用戶年齡、配電箱參數(shù)、欠費或余額信息等),第三是圖像型數(shù)據(jù)(電表圖像、施工現(xiàn)場圖像等),第四是時間序列信息(每小時用電量等)。文中針對不同類型的數(shù)據(jù),設計相對應的特征提取方法:
(1)類別數(shù)據(jù)。文中采用常見的獨熱編碼來處理類別數(shù)據(jù),但是僅僅使用獨熱編碼會產(chǎn)生非常大的特征維度。文中將編碼后的類別向量連接到embedding 層,映射到低維的連續(xù)空間,可以解決維度過大的問題,并保留了類別數(shù)據(jù)本身的特征信息。
(2)數(shù)值數(shù)據(jù)。文中使用多層神經(jīng)網(wǎng)絡來對所有數(shù)值數(shù)據(jù)進行特征提取,由于數(shù)值數(shù)據(jù)缺乏局部標簽,所以文中使用無監(jiān)督的自編碼器來提取特征[6]。自編碼器(Auto Encoder)的輸入和輸出是一致的,即將自身的數(shù)據(jù)作為輸出層,采用稀疏的一些高階特征編碼自己,并能在輸出層還原出原始數(shù)據(jù)。文中所設置的自編碼器,擁有對稱的Encoder 和Decoder 結(jié)構(gòu)。編碼器的輸入層為原始數(shù)值數(shù)據(jù),第一個隱藏層具有6 個神經(jīng)元,第二個隱藏層具有4 個神經(jīng)元,文中設置最終編碼出的高階特征數(shù)量為3,所以編碼器的結(jié)構(gòu)如圖7 左邊所示。同理,對稱式地設計解碼器,其結(jié)構(gòu)如圖7 右邊所示。
圖7 自編碼器的結(jié)構(gòu)示意圖
(3)圖像數(shù)據(jù)。文中采用已經(jīng)訓練好的VGG-16(一種深度卷積神經(jīng)網(wǎng)絡模型),作為圖像數(shù)據(jù)的特征提取方法。文中保留其他層的權(quán)重不變,只修改最后一層的參數(shù),根據(jù)電力圖像數(shù)據(jù)和其他來源的圖像進行微調(diào),讓VGG-16 可以有效地提取到電力圖像數(shù)據(jù)的特征。
(4)時間序列數(shù)據(jù)。文中采用長短時間記憶神經(jīng)網(wǎng)絡(Long Short-Term Memory,LSTM)模型對收集到的電力用戶每小時用電量的時間序列數(shù)據(jù)進行特征提取。LSTM 可以隨著時間推移對序列數(shù)據(jù)進行順序處理,并綜合利用歷史狀態(tài)數(shù)據(jù)、記憶狀態(tài)數(shù)據(jù)和當前輸入數(shù)據(jù)等因素[7],可以更好地處理長時間和短時間內(nèi)的序列關聯(lián)性。文中利用LSTM 來對時間序列數(shù)據(jù)進行特征提取,確保提取出序列數(shù)據(jù)在時間上的關聯(lián)特征。
2.3.2 異構(gòu)數(shù)據(jù)融合與分類
文中分別針對每一種數(shù)據(jù)源都設計了特征提取的方法,要處理這些異構(gòu)數(shù)據(jù),必須要在特征級上進行數(shù)據(jù)融合,所以對上一節(jié)中所有提取到的所有特征進行concat 操作,組合成完整的1-D 異構(gòu)數(shù)據(jù)融合特征向量。接下來,就是設計分類器對融合特征向量進行分類。
因為異構(gòu)數(shù)據(jù)雖然在數(shù)據(jù)類型上有很大的差別,但是每個數(shù)據(jù)源之間都存在著關聯(lián)性(比如說,居住區(qū)域和電力用戶年齡有關,每小時用電量和用戶工作有關等)。傳統(tǒng)的分類器(SVM,決策樹,kNN等)對高維處理起來比較吃力,而且無法獲取數(shù)據(jù)源特征之間的相關性[8-9]。文中采用CNN(卷積神經(jīng)網(wǎng)絡)作為分類器模型,CNN 相對于傳統(tǒng)分類器主要有以下兩點優(yōu)勢:(i)CNN 使用并全局共享卷積核,所以處理高維數(shù)據(jù)時相對來說輕松很多;(ii)卷積核能獲取特征之間的關聯(lián)性,可以提升系統(tǒng)分類的準確率。
文中使用1×1 卷積核的Inception 結(jié)構(gòu)來減少網(wǎng)絡參數(shù)數(shù)量。使用Relu 激活函數(shù),并進行批歸一化(Batch Normalization)使得梯度可以更好地傳遞到淺層網(wǎng)絡中。同時為了防止訓練出的模型過擬合,需要避免訓練出復雜的網(wǎng)絡模型。文中添加了Dropout 結(jié)構(gòu)來隨機丟棄網(wǎng)絡單元,增加模型的多樣性,同時也使得模型泛化能力得到提升。最后,文中使用Softmax 層來進行分類。
文中采用LDA 模型對交互式訴求文本進行主題挖掘,參數(shù)設置為:主題數(shù)K=5,超參數(shù)α=1,β=0.02,φ=0.02,吉布斯采樣的迭代次數(shù)設置為2 000。LDA 模型的部分主題結(jié)果展示如圖8 所示。圖中三個主題分別是有關電費異常、故障和抄表,在LDA 的權(quán)重值中電費異常這一特征詞的權(quán)重最高,說明是電力用戶訴求中發(fā)生的最熱門主題。在主題挖掘模型中,主題與主題之間的相似性越低則效果越好,文中在計算主題相似度時,采用了余弦法相似度計算公式[10],對每個主題向量:
圖8 部分主題結(jié)果展示
式中:tj為每一個詞語,wj(dn)為tj在文檔dn中的權(quán)重,相似度計算公式如下:
然后遍歷每一個文本,再對相似度去得到最終的主題間的平均相似度數(shù)值。圖9 為LDA 模型的主題之間的相似度與文本數(shù)據(jù)集數(shù)量的對應情況。結(jié)果表明在文檔集增加的情況下,主題之間的相似度在降低,所以增加文本數(shù)量可以有效地提高挖掘主題的效率。
圖9 主題相似度分析
在對異構(gòu)數(shù)據(jù)進行相對應的特征提取之后,文中對特征級融合后的特征向量進行多分類器的對比。如圖10 所示為多種分類算法分類準確率對比圖。與傳統(tǒng)K 近鄰算法(K-nearest Neighbor,KNN)、支持向量機(Support Vector Machine,SVM)、隨機森林(Random Forest,RF)、集成分類器(AdaBoost)等分類算法相比[11],CNN 模型準確率高出近7%,說明CNN 可以更好地分析異構(gòu)數(shù)據(jù)的特征之間的關聯(lián)性,并利用此關聯(lián)信息增加數(shù)據(jù)分類的準確性。
圖10 分類算法準確率對比圖
針對電力用戶訴求交互式文本和多源異構(gòu)數(shù)據(jù)集,文中提出了一個可以對電力故障和用戶訴求熱點預測的主動預警系統(tǒng)。文中采用LDA 模型對交互式文本進行主題聚類,然后采用基于卷積神經(jīng)網(wǎng)絡和特征級數(shù)據(jù)融合的分類器對用戶的多源異構(gòu)數(shù)據(jù)進行分類,達到最高97%的分類準確率,驗證系統(tǒng)的有效性。國家電網(wǎng)可以根據(jù)用戶訴求的主動性預警,提前安排相應解決方法,給電力用戶最好的用電保障。