張兆芝 陳翔 高敏 盧燕燊 張鐘杰
摘 要: 為了更好的深入挖掘投訴工單背后所蘊(yùn)含的信息,從自然語言處理技術(shù)出發(fā),對(duì)客戶投訴工單進(jìn)行深入文本挖掘。在對(duì)電力投訴工單進(jìn)行數(shù)據(jù)清洗的基礎(chǔ)上,運(yùn)用jieba進(jìn)行分詞,構(gòu)造專業(yè)詞典提升分詞準(zhǔn)確度,并對(duì)特征進(jìn)行降維,然后運(yùn)用利用詞袋模型對(duì)中文文本進(jìn)行分詞,利用Bagging集成模型,構(gòu)造包括樸素貝葉斯模型、決策樹模型等在內(nèi)的多個(gè)分類器模型,實(shí)現(xiàn)對(duì)詞頻在不同業(yè)務(wù)中的分布情況的研究,并根據(jù)結(jié)果開展相應(yīng)改進(jìn)措施,把控住當(dāng)下電力客戶投訴的主要問題,為不同類型的電力客戶提供差異化的服務(wù)策略,以落在實(shí)處的為客戶解決難題。
關(guān)鍵詞: 自然語言; 投訴工單; 分類器模型
中圖分類號(hào): TG 409文獻(xiàn)標(biāo)志碼: A
Construction of Intelligent Classification Model of Complaint
SheetstoState Grid Based on Natural Language
ZHANG Zhaozhi, CHEN Xiang, GAO Min, LU Yanyan, ZHANG Zhongjie
(Fujian Power Supply Serice Co., Ltd., Fuzhou, Fujian 350000, China)
Abstract: In order to better dig out the information behind the complaint sheet, based on natural language processing technology, customer complaint sheet is deeply mined. On the basis of data cleaning for power complaint worksheet, the key dictionary is constructed, and the dimension of the feature is reduced. Then the Chinese text is segmented by using the word bag model, and several classifier models including Naive Bayesian model and decision tree model are constructed by using Bagging integrated model. The distribution of word frequencies in different services is studied. Result corresponding improvement measures are carried out to control the main problems of current power customers'complaints, and to provide different service strategies for different types of power customers, so as to solve the problems for actual customers.
Key words: natural language; complaint worksheet; classifier model
0 引言
隨著我國電力行業(yè)供給側(cè)改革的深入,進(jìn)一步提高客服人員管理的質(zhì)量,提高用戶的體驗(yàn)和客戶滿意度,成為當(dāng)前電力企業(yè)的共識(shí)。而要提高客戶的滿意度,就需要從熱點(diǎn)工單業(yè)務(wù)入手,對(duì)熱點(diǎn)的工單業(yè)務(wù)進(jìn)行挖掘,以此快速找到在電力服務(wù)中存在的短板。而在業(yè)務(wù)工單中,投訴工單和回訪不滿意工單,可直接的反應(yīng)出客戶對(duì)電力企業(yè)產(chǎn)品和服務(wù)的問題,也是客戶滿意度的一個(gè)最為直觀的反映。因此,要轉(zhuǎn)變和提升客戶服務(wù)滿意度,就需要從這類工單入手。但是從目前的方式來看,針對(duì)工單的分類處理,大部分是工作人員通過95598客戶訴求數(shù)據(jù)進(jìn)行分析,然后對(duì)其中的內(nèi)容進(jìn)行篩選,最后完成對(duì)不同工單類型的分類。這種方式雖然有效,當(dāng)缺乏必要的輔助分析手段,從而導(dǎo)致分析效率不高,分析結(jié)果不夠客觀,進(jìn)而影響了分析和解決的效率。對(duì)此,需要結(jié)合當(dāng)前的自然語言處理技術(shù)和文本挖掘技術(shù)等,對(duì)95598來電工單進(jìn)行智能分類,以實(shí)現(xiàn)對(duì)業(yè)務(wù)工單的智能化挖掘。而從具體的智能化處理方法來看,人們提出了各種方法,如王震(2016)結(jié)合95598的特點(diǎn),提出采用LDA算法對(duì)工單進(jìn)行分類;任華(2018)在采用大數(shù)據(jù)對(duì)電信投訴工單進(jìn)行挖掘,以此大大提高了挖掘的效率。本文則在以上研究的基礎(chǔ)上,提出一種基于自然語言處理技術(shù)的投訴工單分類模型。
1 構(gòu)建目標(biāo)
本文的研究思路是:以自然語言處理技術(shù)為車幾乎,結(jié)合95598客戶訴求問題,利用機(jī)器學(xué)習(xí)算法對(duì)工單進(jìn)行智能分類,從而以機(jī)器替代人工,提升工單分析的效率,減少工作人員的工作力度,并提升分析的廣度和深度。因此,本文構(gòu)建的目標(biāo),是通過自然語言處理技術(shù),完成訴求工單數(shù)據(jù)的處理,并通過機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)對(duì)工單的分類,以提高工單智能分類的效率與準(zhǔn)確性,更好的實(shí)現(xiàn)用戶訴求的精準(zhǔn)定位。
2 整體解決方案設(shè)計(jì)
在上述構(gòu)建目標(biāo)下,以自然語言處理技術(shù)為基礎(chǔ),以數(shù)據(jù)標(biāo)注為手段,對(duì)工單投訴業(yè)務(wù)進(jìn)行重新梳理,然后建立分類規(guī)則、關(guān)鍵詞典,以提取工單的特征,然后結(jié)合機(jī)器學(xué)習(xí)算法建立投訴工單分類模型,進(jìn)而實(shí)現(xiàn)對(duì)95598工單的智能分類。整體解決方案如圖1所示。
2.1 數(shù)據(jù)標(biāo)注
文本分類 (tagging) 是一個(gè)有監(jiān)督學(xué)習(xí)問題,需要事先準(zhǔn)備好已經(jīng)分類好的樣本供模型進(jìn)行學(xué)習(xí)。在本研究中,主要根據(jù)工單中的“受理內(nèi)容”“處理情況”“受理錄音文本”及“處理佐證錄音”等作為智能歸因分類的主要對(duì)象,通過分析其中的文本內(nèi)容,完成對(duì)工單的智能化分類。同時(shí)在本文中,主要是以‘營銷和‘運(yùn)檢兩個(gè)方向作為業(yè)務(wù)的主要標(biāo)注對(duì)象。具體標(biāo)注過程如圖2所示。
2.2 文本清洗
文本清洗是自然語言處理中的重要步驟。通過文本清洗,可減少詞匯的噪音,繼而得到更多更為有效的文本特征,并提高分類模型分類的精度。在文本清洗中,主要包括小寫轉(zhuǎn)化、去除標(biāo)點(diǎn)符號(hào)和停用詞去除等清洗工作。
2.2.1 小寫轉(zhuǎn)化
為更好的方便計(jì)算機(jī)對(duì)詞義的辨識(shí),需要將大小寫進(jìn)行轉(zhuǎn)換。將文本中設(shè)計(jì)到的所有的英文文本全部變?yōu)樾懀@樣可避免出現(xiàn)相同副本的問題。比如,在文本詞匯計(jì)算時(shí),“Analytics”和“analytics”中因?yàn)榇笮懙牟煌瑫?huì)被認(rèn)為是兩個(gè)不同的單詞。
2.2.2 去除標(biāo)點(diǎn)符號(hào)
刪除標(biāo)點(diǎn)符號(hào),目的是減少訓(xùn)練數(shù)據(jù)的大小,從而提高訓(xùn)練的效率。
2.2.3 停用詞去除
在文本數(shù)據(jù)的處理中,去除停用詞的目的是為了減少信息對(duì)模型分類的干擾,所以一般在去除中,會(huì)創(chuàng)建一個(gè)列表stopwords,以此將其作為停用詞庫。
2.2.4 常見詞和稀缺詞去除
常見詞、稀缺詞和停用詞一樣,都是為了避免噪聲干擾。在具體的常見詞去除中,可以把常出現(xiàn)的10個(gè)字的文本數(shù)據(jù)抽出,然后刪除;稀缺詞則采用一般的形式去替代,以提高稀缺詞的計(jì)數(shù)。
2.2.5 消歧轉(zhuǎn)換
對(duì)文本描述中出現(xiàn)的同音錯(cuò)別字,需要進(jìn)行轉(zhuǎn)換,如“陪產(chǎn)”要根據(jù)具體的語音意思, 轉(zhuǎn)換為“賠償”。
2.3 特征提取
2.3.1 關(guān)鍵詞典構(gòu)造
在完成文本數(shù)據(jù)的處理后,則需要采用關(guān)鍵詞典對(duì)文本數(shù)據(jù)特征進(jìn)行提取。具體關(guān)鍵詞典構(gòu)造方法主要包含兩種:一是建立投訴工單數(shù)據(jù)的小粒度用戶詞典和停用詞典。其中,小粒度用戶詞典建立的目的是提高模型的泛化能力,而建立用戶詞典,是為了保證專有詞的準(zhǔn)確切分;二是過濾掉停用詞詞點(diǎn)鐘的沒有實(shí)際意義的詞。具體示例如圖3表示。
2.3.2 文本分詞
文本分詞的目的,是為了保證詞語的準(zhǔn)確切分。在具體分詞方法上,吳剛勇(2018)在其發(fā)表的論文中,則采用了隱馬爾可夫模型和Jieba包對(duì)投訴工單文本進(jìn)行分詞。在本文中,則采用詞袋模型(Bag-of-words model)進(jìn)行分詞。所謂的詞袋模型,是在自然語言處理和信息檢索下被簡化的一種表達(dá)模型。具體分詞示例如圖4所示。
2.3.3 賦權(quán)與選擇
在完成詞典提取后,結(jié)合詞出現(xiàn)的相關(guān)指標(biāo),如詞頻數(shù)、詞頻率等,進(jìn)行組合賦權(quán),然后對(duì)比模型效果,提取最適合擬合模型的文本特征。在上述基礎(chǔ)上,再對(duì)文本特征進(jìn)行特征降維,以進(jìn)一步提取與業(yè)務(wù)相關(guān)的特征。具體思路如圖5所示。
3 分類器模型構(gòu)建
特征分類是實(shí)現(xiàn)投訴工單智能化的關(guān)鍵。要實(shí)現(xiàn)工單的自動(dòng)分類,就需要選定訓(xùn)練集的數(shù)據(jù),然后借助分類器模型對(duì)工單數(shù)據(jù)進(jìn)行分類,進(jìn)而了解工單中的熱點(diǎn)事件或詞語,以此為下一步的電力營銷服務(wù)改進(jìn)提供借鑒與參考,實(shí)現(xiàn)電力營銷被動(dòng)轉(zhuǎn)主動(dòng)的方式,提高用戶滿意度和忠誠度。在本文中,在構(gòu)建分類算法的基礎(chǔ)上,使用AdaBoost進(jìn)行集成學(xué)習(xí),提高分類器精度。而在AdaBoost樣本中,通常采用樸素貝葉斯和決策樹分類器。
3.1 樸素貝葉斯分類器
樸素貝葉斯的原理是在給定分類變量的情況下,所有樸素貝葉斯分類器中給定目標(biāo)值與屬性之間相互條件獨(dú)立。在給出的待分類項(xiàng)中,求解此項(xiàng)出現(xiàn)條件的條件下,各個(gè)類別出現(xiàn)的概率。那個(gè)概率最大,則認(rèn)為此待分類項(xiàng)屬于其中的某個(gè)類別。具體原理如圖6所示。
3.2 決策樹分類器
決策樹表示的是對(duì)象特征與對(duì)象目標(biāo)分類之間的一種映射關(guān)系。其中每個(gè)分叉的路徑代表的是某個(gè)可能的特征水平,而每個(gè)葉節(jié)點(diǎn)則表示為對(duì)應(yīng)的從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)的路徑表示的對(duì)象的目標(biāo)分類對(duì)于給出的該分類項(xiàng)。具體步驟如圖7所示。
3.3 集成學(xué)習(xí)模型構(gòu)建
在分類器模型設(shè)計(jì)的基礎(chǔ)上,考慮到不同數(shù)據(jù)的挖掘不平衡問題,采用Bagging進(jìn)行集成學(xué)習(xí)。具體實(shí)現(xiàn)的思路為:在給定訓(xùn)練集的基礎(chǔ)上,Bagging算法從中均勻、有放回地選出的多個(gè)子集作為新的訓(xùn)練集;而在新的訓(xùn)練集上,則采用多個(gè)模型進(jìn)行訓(xùn)練,最后在通過投票表決等方法,得到最終的結(jié)果。具體來講,在采用Bagging集成模型中,將貝葉斯分類模型、決策樹分類模型都加入到該集成模型中,以用于對(duì)不同文本數(shù)據(jù)對(duì)分類。最后通過降低結(jié)果方差的凡是,提升對(duì)未出現(xiàn)文本的泛化能力。
4 分類結(jié)果驗(yàn)證
為驗(yàn)證上述方案的正確性,以分類的準(zhǔn)確率、遺漏率、查準(zhǔn)率、查全率等作為評(píng)價(jià)依據(jù),并以“停電”作為分類示例,分析不同分類模型的對(duì)投訴工單的分類效果。具體是將訓(xùn)練集中的待分類工單輸入至擬合分類器中進(jìn)行分類,然后進(jìn)行效果評(píng)估,評(píng)估結(jié)果如表1所示。
同時(shí)在全部輸入投訴的工單后,分類器模型共識(shí)別出118張疑似停電工單。具體分類結(jié)果如圖8所示。
根據(jù)圖8的結(jié)果看出,在識(shí)別出的118張工單中,深藏著不同不同類型的意思停電工單,其中停送電投訴類工單為74張,占整體的62.7%;營業(yè)投訴類工單上為14張,占整體的11.86%;服務(wù)投訴類工單為2張,占1.69%。由此可以看出,在通過分類后,可以明確投訴類工單出自哪個(gè)部門,而電力企業(yè)則可以根據(jù)工單指向,對(duì)不同的部門進(jìn)行考核和追責(zé),并轉(zhuǎn)變當(dāng)前的服務(wù)方式,提高自身的服務(wù)滿意度。
5 總結(jié)
通過上述的分析看出,在通過自然語言處理后,并結(jié)合機(jī)器學(xué)習(xí)算法,打破了傳統(tǒng)的電力營銷分析方式。而通過挖掘,也填補(bǔ)了在電力營銷挖掘中存在的用電訴求盲區(qū),為更好的實(shí)現(xiàn)用電需求側(cè)的管理,提高自身的服務(wù)質(zhì)量,提供了更為精準(zhǔn)的信息化算法。
參考文獻(xiàn)
[1] 厲建賓,朱雅魁,付立衡. 基于大數(shù)據(jù)技術(shù)的客戶訴求分析與應(yīng)用[J]. 電力大數(shù)據(jù),2017,20(10):14-17.
[2] 李顥,張吉皓. 基于文本挖掘技術(shù)的客服投訴工單自動(dòng)分類探討[J]. 移動(dòng)通信,2017,41(23):66-72.
[3] 周慧珺,龍濤,陳景航. 一種基于K均值的移動(dòng)客戶投訴數(shù)據(jù)處理算法研究[J]. 電信工程技術(shù)與標(biāo)準(zhǔn)化,2018,31(7):77-80.
[4] 劉海濱. 歷史工單分析與智能派單的探索[J]. 信息通信技術(shù)與政策,2018(6):68-74.
[5] 吳剛勇,張千斌,吳恒超,等. 基于自然語言處理技術(shù)的電力客戶投訴工單文本挖掘分析[J]. 中國設(shè)備工程,2018(17):154-156.
[6] 吳剛勇,張千斌,吳恒超,等. 基于自然語言處理技術(shù)的電力客戶投訴工單文本挖掘分析[J]. 電力大數(shù)據(jù),2018,21(10):68-73.
[7] 門萍,郭瑞英,王一靈,等. 基于規(guī)約的電力客服投訴處理中心與地市公司現(xiàn)場(chǎng)處理投訴共享機(jī)制研究[J]. 機(jī)電信息,2018(30):148-149.
[8] 黃峰,王定軍. 基于文本相似度的智能工單分析系統(tǒng)解決方案研究[J]. 電子技術(shù)與軟件工程,2018(19):206-207.
[9] 朱龍珠,徐宏,劉莉莉. 基于深度學(xué)習(xí)的95598重大服務(wù)事件識(shí)別研究[J]. 電力信息與通信技術(shù),2018,16(11):19-23.
[10] 任華,王錚,楊迪. 基于大數(shù)據(jù)技術(shù)的客服投訴智能分類與預(yù)警系統(tǒng)[J]. 電信科學(xué),2018,34(S2):100-107.
[11] 徐俊利,趙江江,趙寧,等. 營銷活動(dòng)問題標(biāo)簽分類語料庫的構(gòu)建與分類研究[J]. 計(jì)算機(jī)應(yīng)用與軟件,2019,36(3):42-48.
[12] 劉興平,章曉明,沈然,等. 電力企業(yè)投訴工單文本挖掘模型[J]. 電力需求側(cè)管理,2016,18(2):57-60.
[13] 王震,代巖巖,陳亮,等. 基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析[J]. 電子技術(shù)與軟件工程,2016(22):190-192.
[14] 陳亮,王剛,王震. 并行LDA主題模型在電力客服工單文本挖掘中的應(yīng)用[J]. 科技創(chuàng)新導(dǎo)報(bào),2017,14(12):245-248.
[15] 楊兆明,于磊,袁純良. 人工智能在銀行工單處理系統(tǒng)中的應(yīng)用與探索[J]. 中國金融電腦,2017(9):52-56.
[16] 羅欣,張爽. 深度學(xué)習(xí)在電力潛在投訴識(shí)別分類中的應(yīng)用[J]. 浙江電力,2017,36(10):83-86.
(收稿日期: 2019.05.25)
作者簡介:張兆芝(1976-),女,本科,高級(jí)工程師,研究方向:電力營銷服務(wù)。
陳翔(1975-),女,本科,工程師,研究方向:客戶服務(wù)。
高敏(1979-),女,本科,中級(jí)經(jīng)濟(jì)師,研究方向:營銷服務(wù)。
盧燕燊(1983-),女,本科,中級(jí)經(jīng)濟(jì)師,研究方向:營銷服務(wù)。
張鐘杰(1988-),男,本科,工程師,研究方向:電力系統(tǒng)設(shè)計(jì)。