陳 輝 胡 宏 陳 萍
江蘇號百信息服務(wù)有限公司
當(dāng)前,通信運(yùn)營商業(yè)務(wù)已從高速發(fā)展轉(zhuǎn)向高質(zhì)量發(fā)展,由于前期部分業(yè)務(wù)發(fā)展的不規(guī)范性,運(yùn)營商增值業(yè)務(wù)面臨的投訴問題開始凸顯。如何降低投訴,提升服務(wù)滿意度成為亟需解決的問題。
由于增值業(yè)務(wù)的多樣性和繁雜性,傳統(tǒng)方法難以快速及時、準(zhǔn)確、宏觀地針對用戶的文本留言投訴得出分析結(jié)果和指導(dǎo)性結(jié)論,且耗費(fèi)大量人力。
通過進(jìn)行智能分析和預(yù)警方法的探究,設(shè)計了一種高效智能的用于用戶投訴文本留言數(shù)據(jù)處理的分析方法和系統(tǒng),能有效彌補(bǔ)傳統(tǒng)方法的不足。通過將投訴數(shù)據(jù)的標(biāo)準(zhǔn)化和數(shù)字化,根據(jù)管控要求進(jìn)行多維度分析和預(yù)警,進(jìn)行系統(tǒng)化和可視化實(shí)現(xiàn),并輔以自然語言分析方法進(jìn)行熱點(diǎn)問歸類,可實(shí)現(xiàn)自動快捷輸出結(jié)論的功能。以上智能分析和預(yù)警方法形成的系統(tǒng),可以有效地為業(yè)務(wù)發(fā)展提供用戶滿意度的數(shù)據(jù)支撐,保障增值業(yè)務(wù)的高質(zhì)量發(fā)展。
根據(jù)投訴類數(shù)據(jù)(本文也成為用戶抱怨類數(shù)據(jù))的特點(diǎn),智能分析和預(yù)警系統(tǒng)主要分為5個模塊,分別為關(guān)鍵信息提取和業(yè)務(wù)字典建立模塊、多數(shù)據(jù)源的綜合匹配模塊、多維分析維度和預(yù)警模塊、自然語言分析方法處理熱點(diǎn)問題描述的歸類模塊、系統(tǒng)化和可視化模塊。
目前,增值業(yè)務(wù)數(shù)量巨大,根據(jù)粗略統(tǒng)計,歷史細(xì)分產(chǎn)品有5000種以上,而目前在用產(chǎn)品也有2000種左右。在系統(tǒng)中,產(chǎn)品記錄的是標(biāo)準(zhǔn)名稱,而實(shí)際在用戶的投訴中,話務(wù)員記錄的業(yè)務(wù)名稱往往為產(chǎn)品簡稱。在進(jìn)行匹配時,若使用產(chǎn)品標(biāo)準(zhǔn)名稱去受理內(nèi)容中匹配,往往無法完成匹配。因此,一張業(yè)務(wù)簡稱、標(biāo)準(zhǔn)名稱的對應(yīng)表需要建立。另外,由于投訴的工單中只有產(chǎn)品信息,未將產(chǎn)品歸類到相關(guān)細(xì)分部門,在進(jìn)行投訴溯源時,也存在著需要人工手動歸集產(chǎn)品到部門的問題。
因此,在處理投訴數(shù)據(jù)前,需要進(jìn)行產(chǎn)品字典表的制作,產(chǎn)品字典表至少包含的字段為產(chǎn)品簡稱、產(chǎn)品全稱、產(chǎn)品SP、產(chǎn)品歸類、產(chǎn)品歸屬部門等等?;A(chǔ)字典的建立,將為接下來的分析打下重要的基礎(chǔ)。
為了更加理解用戶對于產(chǎn)品的不滿和抱怨,需要收集各個維度的用戶滿意度數(shù)據(jù)。根據(jù)上級公司考核要求,并結(jié)合當(dāng)前實(shí)際情況,將用戶的滿意度投訴數(shù)據(jù)分為了以下幾個維度:
(1)退訂數(shù)據(jù):用戶對于業(yè)務(wù)的退訂情況,主要包含退訂號碼、退訂業(yè)務(wù)等信息。
(2)退費(fèi)數(shù)據(jù):用戶對于業(yè)務(wù)的申請退費(fèi)情況,主要包含退費(fèi)號碼、退費(fèi)金額、退費(fèi)業(yè)務(wù)等。
(3)投訴數(shù)據(jù):用戶對于某個業(yè)務(wù)的投訴信息,主要包含用戶號碼、受理內(nèi)容、處理內(nèi)容等。
三個維度的數(shù)據(jù)各不相同,它們各自代表著用戶不同的投訴意愿,但同時它們都是用戶表達(dá)不滿的一種表現(xiàn)。因此三個維度既要相互融合也需要相對獨(dú)立地去處理。
2.3.1 多維度分析
在完成多數(shù)據(jù)源的匹配后,將會得到一張以產(chǎn)品簡稱或產(chǎn)品名稱為主鍵的多維統(tǒng)計的寬表。在寬表的基礎(chǔ)上,可以進(jìn)行多維統(tǒng)計分析。如表1所示。
表1 PTN與其他技術(shù)對比
表1 產(chǎn)品投訴抱怨情況多維統(tǒng)計分析表格
(1)常規(guī)分析維度
一般常用的統(tǒng)計維度為產(chǎn)品綜合抱怨、單維度抱怨排行,產(chǎn)品歸類綜合抱怨、單維度抱怨排行和部門綜合抱怨、單維度抱怨排行,如圖1所示。這些維度是最基本的維度,也是最實(shí)用的維度,通過以上分析,可以快速定位抱怨重點(diǎn)產(chǎn)品、歸類、被抱怨產(chǎn)品最多的部門,針對性緩解和消除排名靠前的用戶抱怨。
圖1 產(chǎn)品總體抱怨量排行統(tǒng)計圖
(2)聯(lián)合分析維度
本文在設(shè)立分析維度時,還創(chuàng)新性地引入了萬人抱怨比的概念。不同的業(yè)務(wù)有著不同的質(zhì)態(tài),只根據(jù)抱怨量來進(jìn)行排名并不完全科學(xué)。舉例說明,A產(chǎn)品,總用戶100萬,月抱怨總量為1000次,B產(chǎn)品,總用戶10萬,月抱怨總量為500次。從簡單維度上來看,A產(chǎn)品的抱怨量大于B產(chǎn)品,但從每萬人抱怨比的角度看,A的產(chǎn)品健康程度比B產(chǎn)品更好。因此,聯(lián)合其他維度的數(shù)據(jù),通過合理計算,可以得到更加客觀的分析結(jié)果。
(3)專題分析維度
對于重點(diǎn)業(yè)務(wù),引入專題分析模塊。比如C產(chǎn)品為公司支柱性業(yè)務(wù),在進(jìn)行多維度分析時,C產(chǎn)品應(yīng)該重點(diǎn)專題分析。結(jié)合C產(chǎn)品的固有數(shù)據(jù),可以將C產(chǎn)品抱怨的情況更加立體地展示出來,如圖2所示。也可以對代理商發(fā)展業(yè)務(wù)的抱怨量進(jìn)行排名,從其他角度了解代理商發(fā)展業(yè)務(wù)的規(guī)范程度。
圖2 產(chǎn)品退訂數(shù)量與在網(wǎng)時長的關(guān)系圖
2.3.2 預(yù)警邏輯建立
抱怨量分析的最終目的是了解用戶的抱怨方向,從而降低總體投訴量,達(dá)到高質(zhì)量發(fā)展的目的,重要的一環(huán)是要告訴公司管理監(jiān)管層,哪些產(chǎn)品值得關(guān)注,因此,需要設(shè)立預(yù)警邏輯模塊,一方面設(shè)立規(guī)則篩選重點(diǎn)關(guān)注產(chǎn)品,另外一方面進(jìn)行主動提醒。篩選重點(diǎn)關(guān)注產(chǎn)品的規(guī)則也分為兩種:
(1)橫向閾值規(guī)則
顧名思義,橫向閾值規(guī)則是從宏觀層面,將所有產(chǎn)品的綜合抱怨量、單維度抱怨量、聯(lián)合分析維度(例萬人抱怨比)分別進(jìn)行排序,每個維度取前N個產(chǎn)品,將其定義為重點(diǎn)關(guān)注產(chǎn)品。其中的重合產(chǎn)品,則更要重點(diǎn)關(guān)注。
(2)自比較閾值規(guī)則
自比較維度是對產(chǎn)品本身自己的閾值維度。以表2為例,E產(chǎn)品雖絕對數(shù)量少,但其月增加數(shù)量較多,有更加惡化的趨勢,因此,同樣也需要列入重點(diǎn)關(guān)注產(chǎn)品。
表2 產(chǎn)品自比較維度趨勢表
在完成預(yù)警規(guī)則的制定后,會得到重點(diǎn)關(guān)注抱怨產(chǎn)品列表,產(chǎn)品列表將以月報、日報形式發(fā)送給管理監(jiān)管層,輔以決策。
針對過往工單的記錄,投訴類型可分為36個類別,對已有工單的受理內(nèi)容進(jìn)行了分類,作為樣本數(shù)據(jù)??紤]到樣本的數(shù)據(jù)量充足,且相似度算法的準(zhǔn)確率足夠耗時也較少,在實(shí)際對投訴進(jìn)行分類處理時采用了TF-IDF算法模型。
首先明確幾個概念,一個文本由許多與該文本有關(guān)的句子組成,每句話又可以切分成多個單詞。TF-IDF算法是一種基于統(tǒng)計方法的相似度算法,它的主要思想是,如果某個單詞在某類文檔中出現(xiàn)的次數(shù)很多,而在其它文檔中很少出現(xiàn),則認(rèn)為當(dāng)這個詞出現(xiàn)在一個新文本中時,可據(jù)此對新文本進(jìn)行良好地分類。
TF-IDF由兩個關(guān)鍵指標(biāo)TF和IDF組成。
TF表示詞頻,即單詞在文本中出現(xiàn)的頻率,它針對的是單一文本,對應(yīng)的往往是一個代表某意圖種類的文件。通常為了防止這個指標(biāo)偏向于長文本,會對它進(jìn)行歸一化處理,如公式(1)所示:
IDF表示逆文檔頻率,與包含該詞語的文本的數(shù)目占總文本集合的數(shù)目有關(guān),這里的總文本則是不同種類的文件集合,如公式(2)所示:
如果一個詞語,在某一特定文件中出現(xiàn)的頻率很高,具有高的TF值,且該詞語在所有文件集合中出現(xiàn)的頻率很低,即有很高的IDF值,也認(rèn)為該詞很有可能是該類文本中具有代表性的關(guān)鍵詞。為了量化衡量指標(biāo),將這兩個指標(biāo)融合,用TF-IDF作為衡量單詞權(quán)重的指標(biāo),如公式(3)所示:
通過TF-IDF算法,當(dāng)有一個新文本出現(xiàn)時,完全可以對該文本進(jìn)行切詞,然后分析文本中每個單詞在總文本語料集合中的TF-IDF權(quán)重,來計算新文本與已知類別語料的相似度,從而迅速判斷出新文本屬于哪個類別。
例如,受理內(nèi)容為:
“1、問題描述:IM號:o2IH4jq4WB20xTaqg0RPcjO1JrUc,用戶來電表示對5月產(chǎn)生的動感彩鈴3.68元費(fèi)用不認(rèn)可,稱之前就已經(jīng)取消,稱此業(yè)務(wù)是在本人不知情的情況下開通的,有越級工信部傾向,并且要求在明天之前必須處理好,請核實(shí),謝謝”。
先對這句話進(jìn)行切詞處理,得到一個包含多個單詞的集合:
“['問 題 ', '描 述 ', 'IM', '號 ','o2IH4jq4WB20xTaqg0RPcjO1JrUc', '用戶', '來電', '表示','月', '產(chǎn)生', '動感', '彩鈴', '3.68', '元', '費(fèi)用', '認(rèn)可','稱', '之前', '已經(jīng)', '取消', '稱此', '業(yè)務(wù)', '不知情','情況', '開通', '越級', '工信部', '傾向', '要求', '明天', '之前', '必須', '處理', '請', '核實(shí)', '謝謝']”
將這個集合中每個單詞與已有的語料庫做TF-IDF相似度計算,得出每個單詞與這36個類別中文本的TF-IDF相似度權(quán)重值,用算法篩選出其中權(quán)重值最高的單詞,則認(rèn)為這個單詞可以作為這個新錄入投訴的關(guān)鍵詞,可以據(jù)此進(jìn)行分類。
對于以上受理內(nèi)容,它與“省內(nèi)SP及自有業(yè)務(wù)資費(fèi)爭議”一類中語料文本的相似度最高,達(dá)到0.672875,所以算法自動為它打上“省內(nèi)SP及自有業(yè)務(wù)資費(fèi)爭議”的標(biāo)簽,這與實(shí)際投訴分類完全一致。
用TF-IDF算法模型對2000條投訴數(shù)據(jù)進(jìn)行了測試,實(shí)測準(zhǔn)確率指標(biāo)accuracy和F1-score均達(dá)到95%,模型可用性良好。
在完成所有工作后,需要一個系統(tǒng)去承載本文所述的工作步驟,并且需要一個可視化圖表界面來進(jìn)行直觀展示。圖3為使用Django框架搭建的投訴分析web系統(tǒng)。
圖3 投訴分析web系統(tǒng)登錄界面
系統(tǒng)主要分為登錄頁、可視化展示頁(預(yù)警提醒頁)、文件上傳頁、字典維護(hù)頁、統(tǒng)計分析展示頁、結(jié)果下載頁等等。
通過web系統(tǒng)的搭建,可以實(shí)現(xiàn)手動/自動上傳數(shù)據(jù)、自動分析、自動預(yù)警、手動/半自動維護(hù)業(yè)務(wù)字典、結(jié)果下載等功能,方便投訴監(jiān)管人員的使用,簡化人工計算操作工作。
通訊運(yùn)營商增值業(yè)務(wù)面臨較大的投訴壓力,迅速、有效、大幅度地降低用戶的抱怨迫在眉睫。本文創(chuàng)新性地提出了一種用戶抱怨數(shù)據(jù)處理方法,并進(jìn)行了系統(tǒng)地建設(shè)和驗(yàn)證。通過接近一年的努力,在投訴分析預(yù)警系統(tǒng)的輔助下和管理監(jiān)管層的大力整治下,取得了令人滿意的成績。相較于年初,目前綜合抱怨量下降了81%,達(dá)到了預(yù)期目標(biāo),優(yōu)質(zhì)業(yè)務(wù)繼續(xù)高速發(fā)展,抱怨多的業(yè)務(wù)經(jīng)過調(diào)整后質(zhì)態(tài)健康化。同時,投訴分析預(yù)警系統(tǒng)解放了進(jìn)行手動抱怨量分析人力,更加客觀、快速、及時,為增值業(yè)務(wù)高質(zhì)量發(fā)展轉(zhuǎn)型之路添加了一份堅實(shí)的助力。