武 鵬,郭曉蕓,陳 鵬,王宗偉,曹 璐,金 鵬
(1.國家電網(wǎng)有限公司客戶服務(wù)中心,天津 300306; 2.北京中電普華信息技術(shù)有限公司,北京 100031)
國家電網(wǎng)公司95598客戶服務(wù)中心于2013年11月完成了下屬27個省(市)電力公司的全部客戶服務(wù)業(yè)務(wù)的集中運營,為客戶提供全天候故障報修、資訊查詢、投訴、舉報、意見、建議、表揚等服務(wù)[1]。與其他客戶和企業(yè)之間的溝通方式相比,語音服務(wù)提供了75%~90%的用戶體驗[2],具有不可取代的便捷性、信息豐富性,能夠更加直接地傳達雙方意圖。調(diào)查顯示,一個具有10個座席的呼叫中心一天的話務(wù)量是5000通電話,話音量約為500 h[3]。面對全國范圍內(nèi)每天產(chǎn)生的大量話務(wù)、工單,全面保障優(yōu)質(zhì)服務(wù)水平十分重要。
語音服務(wù)質(zhì)檢工作對于95598客戶服務(wù)中心服務(wù)質(zhì)量的提高能夠起到重要的作用。質(zhì)檢是客戶服務(wù)中心工作中重要的一環(huán),通過獲取話務(wù)錄音等數(shù)據(jù)對95598客服人員語音服務(wù)進行檢查和評定,能夠監(jiān)控服務(wù)質(zhì)量,提升客戶的滿意度,最大限度地減少投訴的發(fā)生[4]。然而要對95598客服中心全部話務(wù)和工單進行人工質(zhì)檢是一項費時耗力的工作,目前的質(zhì)檢主要以人工抽樣的方式進行[5],這導致質(zhì)檢樣本代表性差,檢驗準確性和質(zhì)檢效率過低[6]。
針對以上問題,近年來國內(nèi)外學者進行了相關(guān)研究。Choi[7]驗證了客服中心坐席相關(guān)屬性對服務(wù)質(zhì)量的影響。Korfiatis等人[8]采用結(jié)構(gòu)主體模型利用非結(jié)構(gòu)化數(shù)據(jù)研究文字評論并應用于航空公司服務(wù)質(zhì)量評估。Liu等人[9]使用聲音特征建立一種新穎的客戶滿意度分析系統(tǒng)以提高呼叫中心服務(wù)質(zhì)量。姜冬[10]采用語音轉(zhuǎn)寫、中文自然語言處理的方式提高對問題工單的覆蓋率。
本文提出一種語音服務(wù)質(zhì)檢推薦技術(shù),創(chuàng)新地引入深度學習中LSTM網(wǎng)絡(luò)的時序處理能力[11],并結(jié)合語音質(zhì)檢具體應用場景中問題語音占比低的特點構(gòu)建改進的LSTM網(wǎng)絡(luò)質(zhì)檢推薦模型,分析語音服務(wù)各項質(zhì)檢指標,充分挖掘其空間與時間上的深層聯(lián)系形成不同等級的智能語音服務(wù)質(zhì)檢策略,篩選需要重點審查的記錄推薦給質(zhì)檢員,以提高數(shù)據(jù)選擇的代表性,減輕質(zhì)檢工作負擔,提升質(zhì)檢效率,降低運營成本。
傳統(tǒng)的語音服務(wù)缺乏全面、有效、便于統(tǒng)計和量化的評價指標體系,難以將先進的評價技術(shù)應用其中。其質(zhì)檢長期處于一種簡單、粗糙的低水平狀態(tài)[12]。通過人工質(zhì)檢的結(jié)果還受到質(zhì)檢員主觀狀態(tài)的影響,不同質(zhì)檢員的判斷、感受不一致也會導致質(zhì)檢評分結(jié)果不同[13]。為了科學合理進行語音服務(wù)質(zhì)檢推薦,首先需要明確語音服務(wù)質(zhì)檢指標。傳統(tǒng)的質(zhì)檢方法主要通過抽樣的方式進行,95598客服中心的質(zhì)檢抽樣策略經(jīng)歷了3個階段的變化[14],從最初的簡單的隨機抽樣演變?yōu)榭紤]不同業(yè)務(wù)重要程度,增大重要業(yè)務(wù)的抽檢比例,再到考慮坐席話務(wù)、工單數(shù)量等因素,使用決策樹、遺傳算法等技術(shù)對抽樣進行優(yōu)化[15]。
使用抽樣的方式進行質(zhì)檢工作效率低且存在漏檢風險,但在完善抽檢策略的過程中所考慮的指標對于表征語音服務(wù)的基本質(zhì)量有重要的參考價值。表1給出了傳統(tǒng)質(zhì)檢方法常見的指標分類。
表1 傳統(tǒng)質(zhì)檢方法相關(guān)指標分類
深度學習通過建立數(shù)學模型模擬大腦的神經(jīng)連接結(jié)構(gòu),使用多個變換階段分層對數(shù)據(jù)特征進行描述,近年來在圖像處理、自然語言處理等諸多領(lǐng)域取得了突破性的進展[16-18]。深度學習相對于普通的機器學習來說,非線性操作的層數(shù)更多。通過組合低層次特征形成更加抽象的高層表示,將樣本在原空間的特征表示變換到新的特征空間,能夠有效地揭示輸入數(shù)據(jù)之間的內(nèi)在聯(lián)系并做出分類和判斷[19]。
隨著模型隱含層的增加,需要訓練的中間參數(shù)也會成倍增長[20],這將對輸入數(shù)據(jù)維度提出更高的要求。為了有效應用深度學習進行語音服務(wù)質(zhì)檢推薦,需要對傳統(tǒng)質(zhì)檢指標進行擴展。本文將客服中心系統(tǒng)內(nèi)語音服務(wù)所涉及的更多細節(jié)信息納入指標范圍內(nèi),以提取更多維度的語音特征,尤其關(guān)注需要預先通過語音分析技術(shù)獲取的特征。表2給出了為應用深度學習所擴展的質(zhì)檢相關(guān)的指標分類。
表2 深度學習擴展指標分類
語音服務(wù)記錄可以看作是一個時序信號[21]。服務(wù)結(jié)果好壞的評判受到整段語音連續(xù)的歷史狀態(tài)的影響,同一位坐席的服務(wù)狀態(tài)也受其歷史工作狀態(tài)的影響[22]。長短時記憶(Long Short Term Memory, LSTM)網(wǎng)絡(luò)由于自身結(jié)構(gòu)帶有內(nèi)部環(huán)路,適合用于處理此類時序信息[23],其單元結(jié)構(gòu)如圖1所示。LSTM網(wǎng)絡(luò)可以通過3個中間層:遺忘門、輸入門、輸出門移除或添加信息改變單元的狀態(tài)[24]。
圖1 LSTM單元示意圖
ft=σ(Wf·[ht-1,xt]+bf)
(1)
it=σ(Wi·[ht-1,xt]+bi)
(2)
(3)
(4)
ot=σ(Wo·[ht-1,xt]+b0)
(5)
ht=ot·tanh (Ct)
(6)
使用LSTM網(wǎng)絡(luò)搭建語音服務(wù)質(zhì)檢推薦模型,輸入方面采用表1、表2所列29條屬性。首先對各屬性進行量化,對于性別、過早掛機等二值屬性采用0或1進行描述。對于枚舉類的數(shù)據(jù)如學歷、坐席情緒,為了平衡各選項在算法中的權(quán)重,使用啞變量編碼[24]的方式描述。對于語音記錄的短時屬性,需要按時間切片劃分成數(shù)據(jù)幀提取再與非短時指標結(jié)合形成53維傳統(tǒng)指標輸入列向量和79維擴展指標列向量,歸一化后作為模型的輸入層。
使用首尾相連的LSTM單元作為模型的中間層,其層數(shù)取決于每一批輸入列向量的數(shù)量。
(7)
其中,W(S)為softmax的權(quán)值矩陣。在時刻t,使用交叉熵損失函數(shù)(8)作為優(yōu)化目標對模型進行訓練。
(8)
圖2 語音服務(wù)質(zhì)檢推薦LSTM網(wǎng)絡(luò)模型
對于95598客服中心語音服務(wù)記錄,其存在差錯的比例通常低于5%[26],存在嚴重的樣本偏倚。且在質(zhì)檢推薦過程中,在滿足一定判別準確性的情況下更關(guān)心的是能否盡可能找出疑似差錯記錄提供給質(zhì)檢員[27]。針對以上情況,為提高質(zhì)檢推薦效率對所搭建的模型進行2點改進:
1)將判斷是否差錯和差錯等級分為2個模型,對應的輸出層改為二維。首先使用大跨度的時間幀輸入判斷服務(wù)是否存在差錯,對于存在差錯的數(shù)據(jù)再減小時間跨度判斷差錯等級,以此減小數(shù)據(jù)幀的數(shù)量,提高模型訓練速度。
2)判斷差錯時不直接使用softmax結(jié)果,而是使用公式:
(PT-PF)<5%
(9)
作為判據(jù),其中PT和PF分別為softmax結(jié)果無差錯和有差錯的概率,以放寬差錯標準的方式增加模型對語音服務(wù)差錯的覆蓋率。
本文使用國家電網(wǎng)公司某下屬供電公司客戶服務(wù)中心2018年全年數(shù)據(jù)的一部分總共20000條數(shù)據(jù)進行質(zhì)檢推薦實驗。在數(shù)據(jù)集的劃分上隨機抽取60%的數(shù)據(jù)作為訓練樣本集,用于迭代優(yōu)化模型可變參數(shù);20%的數(shù)據(jù)作為模型驗證樣本集,用于模型固定參數(shù)的選??;剩余20%作為測試樣本集,用于模型效果驗證。將數(shù)據(jù)按模型要求預處理完畢后以列向量的方式進行輸入。
通過記錄正確正類TP、錯誤正類FP、正確一般差錯TN1、錯誤一般差錯FN1、正確嚴重差錯TN2、錯誤嚴重差錯FN2作為考察指標,可以計算出算法模型的準確率為:
(10)
質(zhì)檢推薦希望能夠盡可能找出樣本中的錯誤,宜使用差錯召回率[28]考察有多少差錯被正確預測出來,其公式如下:
(11)
本文將所提出的LSTM模型、改進模型與經(jīng)典的決策樹模型結(jié)果進行比較。在指標選取上分別采用15項傳統(tǒng)指標和擴展的29項指標結(jié)果進行對比。實驗結(jié)果如表3、表4所示。
表3 使用傳統(tǒng)指標的實驗結(jié)果
表4 使用完整指標的實驗結(jié)果
從表中可以看出,使用傳統(tǒng)指標時決策樹算法在準確率方面優(yōu)于LSTM模型。當增加深度學習相關(guān)指標后,所有算法的準確率均有所提高,決策樹模型提升較小,LSTM模型準確率最高。所提出的改進模型與LSTM模型相比在準確度略微降低1.35個百分點的情況下,差錯召回率從42.61%提升至77.56%,反應出該模型能夠更加高效地檢測出樣本中的差錯記錄,向質(zhì)檢員做出有針對性的推薦。
本文將具有時序分析能力的LSTM網(wǎng)絡(luò)模型用于95598客服中心語音質(zhì)檢推薦。針對傳統(tǒng)方法缺乏評價指標情況,引入通過語音分析技術(shù)獲取的深度學習相關(guān)指標增加質(zhì)檢特征。為提高質(zhì)檢效率、滿足不同等級質(zhì)檢策略的要求,本文結(jié)合實際質(zhì)檢中問題語音占比低的特性對模型進行了改進。實驗結(jié)果表明,所提出的改進模型相比普通LSTM網(wǎng)絡(luò)模型有更高的差錯覆蓋率,能夠有效提高質(zhì)檢效率,且模型的準確性優(yōu)于傳統(tǒng)的機器學習算法結(jié)果。