宮立華,盛 妍 ,李 磊,劉鯤鵬, 朱銀龍,何 薇,徐倩麗
(1.國家電網(wǎng)有限公司 客戶服務(wù)中心,天津 300322;2.國家電網(wǎng)有限公司 營銷部,北京 100031;3.國網(wǎng)山西省電力公司 營銷服務(wù)中心,山西 太原 030009;4.中電普華信息技術(shù)有限公司,北京 100085;5.北京數(shù)洋智慧科技有限公司,北京 100044)
隨著互聯(lián)網(wǎng)經(jīng)濟的快速發(fā)展,線上消費已成為當(dāng)前主流的交易模式[1]。由于用電客戶類型繁多,需求各異等特性,電力企業(yè)緊跟我國支付方式變革的腳步引入了多樣化的繳費方式[2],并引導(dǎo)用電客戶采用電子支付方式繳費,形成了多渠道全面發(fā)展的電力繳費線上線下繳費共存的現(xiàn)象[3]。目前,電力企業(yè)的繳費渠道仍以線下為主,線上線下渠道發(fā)展不平衡、渠道引流方式效果不好等現(xiàn)象廣泛存在[4],導(dǎo)致目前電力企業(yè)終端運營管理壓力很大[5]。因此,將線下繳費用戶引流到線上十分必要。
目前針對用戶的引流一般采取廣告投放,人員隨訪等線下方式,這類方法效果差、成本高,難以適用于電力用戶的引流這種大規(guī)模、跨地域的情景中。因此,通過智能系統(tǒng)輔助式的實施線上引流成為電力企業(yè)的不二之選。對電力用戶進行精準(zhǔn)引流的關(guān)鍵在于一個適用于電力場景下的可靠的推薦系統(tǒng)。推薦系統(tǒng)不僅可以為用戶提供個性化的服務(wù),還可以提高用戶對產(chǎn)品的依賴,提高用戶的忠誠度,直接或間接地提升經(jīng)營收入[6]。協(xié)同過濾推薦算法由于其可拓展性、易實現(xiàn)、應(yīng)用范圍廣等優(yōu)點,已經(jīng)成為推薦系統(tǒng)中應(yīng)用最廣泛的算法之一,在電子商務(wù)、新聞傳播等方面均有應(yīng)用[7]。電力用戶存在稀疏程度高、時效性差,存在大量冷啟動用戶等問題,這也是推薦系統(tǒng)應(yīng)用中所面臨的首要問題。
為快速對線下繳費用戶實施線上精準(zhǔn)引流,本文以電力用戶往期繳費數(shù)據(jù)為基礎(chǔ),詳細(xì)分析用戶屬性及消費習(xí)慣,基于用戶繳費歷史數(shù)據(jù)、用戶特征和渠道選擇之間的關(guān)聯(lián)關(guān)系提出了面向電力用戶的群簇核心推薦模型。根據(jù)模型輸出結(jié)果,電力公司可采用上門、電話等方式進行營業(yè)廳客戶分流引導(dǎo)。具體流程如圖1所示。本文主要有如下貢獻:
(1)根據(jù)用戶自身屬性和消費特征提出了面向電力用戶的群簇核心推薦模型,利用基于密度的聚類方法挖掘用戶之間的關(guān)系,求同存異,將用戶進行群簇劃分。然后,將群簇核心用戶的繳費信息引入?yún)f(xié)同過濾推薦算法,對目標(biāo)用戶進行簇內(nèi)推薦,從而達到引流用戶的目的。
(2)在最終的線下測試中,本文模型表現(xiàn)出了良好的性能。并在最終的線上測試中有效地提高了經(jīng)濟效益。
協(xié)同過濾推薦算法是推薦系統(tǒng)中的一種經(jīng)典方法,其核心思想是假設(shè)用戶u和v對n個項目的評分都相似,或有相似的行為(例如購買、觀看、收聽),則會對其他項目進行類似的評分或采取類似的行動[8]。傳統(tǒng)的協(xié)同過濾算法存在相似性度量不準(zhǔn)確、推薦方式不具有針對性、不能有效解決冷啟動現(xiàn)象等問題[9],針對這些問題,國內(nèi)外學(xué)者開展了系列研究。陸航等[10]將用戶與用戶,項目與項目之間的差異融入到基于用戶的協(xié)同過濾算法中,且用戶興趣的變化隨時間的變化,一定程度地解決了用戶相似性度量不準(zhǔn)確的問題。馮晨嬌等[11]利用非線性函數(shù)的度量用戶以及商品之間的相似度,有效緩解了用戶可能對物品的極端評分行為而導(dǎo)致用戶相似性度量不準(zhǔn)確的情況。張凱涵等[12]依據(jù)用戶的社交方式并結(jié)合了用戶的評分信息,并根據(jù)用戶的影響力選定為社區(qū)的專家,利用專家的權(quán)威性對新用戶進行推薦,有效地解決了冷啟動問題。當(dāng)然,也有許多學(xué)者將協(xié)同過濾算法應(yīng)用到了實際的生產(chǎn)生活中。ZHAO等[13]通過結(jié)合移動終端用戶的歷史記錄和通信網(wǎng)絡(luò)將協(xié)同過濾算法應(yīng)用到了通信系統(tǒng)中。曲朝陽等[14]在協(xié)同過濾算法的基礎(chǔ)上利用電力交易用戶最優(yōu)特征子集代表全體用戶在套餐交易過程中的興趣度,對售電套餐屬性進行相似性計算,提出一種對售電套餐進行推薦的方法。
當(dāng)前研究將協(xié)同過濾推薦分為基于用戶的協(xié)同推薦、基于項目的協(xié)同推薦和基于模型的協(xié)同推薦[15]?;谟脩舻膮f(xié)同推薦認(rèn)為用戶選擇的推薦對象是基于朋友的推薦,即用戶對一些物品或項目有相似評分,說明他們的行為有很大的相似性,從而推斷他們的偏好應(yīng)該是相似的,則用戶對目標(biāo)或項目的評分應(yīng)該也一致[16]。由于國網(wǎng)客戶數(shù)據(jù)的時效性、線上渠道操作便捷性、用戶便利性,本文將群簇核心用戶信息引入?yún)f(xié)同推薦模型,提出了群簇核心推薦模型并將其應(yīng)用于電力用戶繳費方式精準(zhǔn)引流中。
聚類作為一種經(jīng)典的數(shù)據(jù)分析技術(shù)[17],在不同的科學(xué)領(lǐng)域有著豐富的應(yīng)用,在無監(jiān)督的學(xué)習(xí)場景中尤為重要。理想情況下,聚類方法無需任何先驗的信息便可推斷數(shù)據(jù)的結(jié)構(gòu)。目前,許多聚類方法都對數(shù)據(jù)結(jié)構(gòu)進行了一些基本假設(shè)[18]。一個突出的假設(shè)是每個類簇都有一個可以被識別為集群中心或核心的區(qū)域。例如,K-means[19]根據(jù)數(shù)據(jù)的緊湊性質(zhì)假設(shè)存在單個類中心,而Mean Shift[20]方法將該區(qū)域定義為簇內(nèi)密度最高的區(qū)域。
DBSCAN ( density-based spatial clustering of applications with noise )算法[21]等基于密度的方法通常假設(shè)不同的簇具有相似的密度級別,并且簇的核心是基于密度來定義的,其算法核心思想為:從某個選定的核心點出發(fā),不斷向密度可達的區(qū)域擴張,從而得到一個包含核心點和邊界點的最大區(qū)域,區(qū)域中任意兩點密度相連[22]。DBSCAN算法適用的數(shù)據(jù)分布較為廣泛,并且無需根據(jù)先驗信息確定類簇個數(shù),能發(fā)現(xiàn)不同類型的類簇結(jié)構(gòu),在大規(guī)模數(shù)據(jù)上也有很好的算法效率,并可在一定程度上排除噪聲的干擾。因此本文用該方法對電力用戶進行的劃分。
電力用戶類型繁多、購買行為多元、用戶需求異質(zhì)、繳費偏好參差不齊,例如:不同年齡層次、不同地區(qū)的用戶在選擇購電渠道時可能具有明顯的差異,因此對用戶進行繳費推薦時,根據(jù)用戶屬性、消費行為對用戶進行群簇劃分,然后針對不同群簇進行個性化推薦將會產(chǎn)生更加精準(zhǔn)的推薦效果。在進行推薦的過程中,由于某一群簇之內(nèi)的用戶量并不確定,用戶之間的行為也有一定的差異,因此使用群簇內(nèi)的所有用戶信息進行對目標(biāo)用戶進行推薦會有一定的誤差。為減少這種誤差,在群簇內(nèi)取一定的用戶作目標(biāo)用戶的參照系將會更加精準(zhǔn)地模擬目標(biāo)用戶的行為,實現(xiàn)更加精準(zhǔn)的推薦效果。因此,本文在傳統(tǒng)的協(xié)同過濾推薦算法的基礎(chǔ)上引入群簇核心用戶信息,提出了群簇核心推薦模型。首先,根據(jù)繳費歷史數(shù)據(jù)、用戶特征和渠道選擇等特征通過聚類分析技術(shù)(DBSCAN算法)挖掘用戶之間的相似性,將用戶劃分為若干個具有不同特征的群簇,同一群簇內(nèi)的用戶具有相同的特質(zhì);然后,針對不同的群簇提出基于群簇核心用戶的協(xié)同過濾推薦模型,對線下目標(biāo)用戶的購電渠道進行精準(zhǔn)化引流。
定義1“用戶-繳費渠道”評分。設(shè)有n個用戶和m個可選擇的繳費渠道,記U為用戶集,I為繳費渠道集,則根據(jù)用戶在各繳費渠道的繳費次數(shù)可構(gòu)建“用戶-繳費渠道”評分矩陣(簡稱評分矩陣),記為R=(rui)n×m,其中rui為用戶u在繳費渠道i進行繳費的繳費次數(shù),這里表示用戶u對繳費渠道i的評分,rui=0表示用戶u并未在繳費渠道i進行過繳費,因此評分為0。
定義2用戶群簇。 根據(jù)用戶特性通過聚類分析技術(shù)可以將用戶分為不同的群簇,用戶u所屬的群簇記為Cu。
定義3群簇核心用戶。 目標(biāo)用戶的核心參照用戶群定義為用戶u的群簇核心用戶,這些核心用戶取Cu中與用戶u最相似的K個用戶。用戶u的群簇核心用戶的集合記為S(u,Cu),
S(u,Cu)={vs1,vs2,…,vsk}。
其中vsj(j=1,2,…,K),表示對S中的元素進行降序排列后前K個值所對應(yīng)的參照向量。其中:
S={suv=sim(u,v)|?v∈Cu,v≠u}。
其中suv=sim(u,v)為用戶u和v的相似性,相似性越大,說明兩個用戶在選擇購電方式時具有越相似的消費習(xí)慣,因此本文取目標(biāo)用戶最相近的K個用戶作為其核心用戶。
定義4“用戶—繳費渠道”評分估計。對用戶繳費渠道進行推薦需要估計用戶對繳費渠道的接受程度,即要預(yù)測用戶對目標(biāo)渠道的評分;理論上認(rèn)為用戶在選擇購電渠道時,可能會更傾向于選擇其群簇核心用戶所選擇的渠道。因此,對用戶u在繳費渠道i的評分進行預(yù)測時,需要加入群簇核心用戶對該渠道的評分,評分函數(shù)如式(1)所示:
(1)
當(dāng)用戶冷啟動(新用戶)時評價函數(shù)計算公式如下:
(2)
定義5用戶間的相似性度量函數(shù)。本文采用修正的余弦相似性對用戶間的近鄰關(guān)系進行度量,較余弦相似性不同的是修正的余弦相似性[9]考慮到不同繳費渠道獲得的打分標(biāo)準(zhǔn)不同的問題,則用戶u和用戶v的相似性計算公式如下:
(3)
為了方便對算法的理解與實現(xiàn),本節(jié)根據(jù)3.1所述相關(guān)定義和內(nèi)容給出群簇核心推薦算法的偽代碼和算法流程圖,如圖2所示。
算法1群簇核心推薦算法。
輸入:電力用戶的繳費歷史信息、用戶特征等數(shù)據(jù)(具體包括:用戶編號、用戶基本信息、繳費渠道、渠道繳費次數(shù)等);
輸出:推薦的渠道。
步驟1根據(jù)用戶屬性和繳費信息使用DBSCAN聚類分析算法將用戶劃分為不同的群簇,得到用戶所屬的群簇Cu;
步驟2基于用戶繳費歷史數(shù)據(jù)和渠道選擇之間的關(guān)聯(lián)構(gòu)建“用戶-繳費渠道”矩陣R;
步驟3在目標(biāo)用戶所屬的群簇Cu中通過式(3)計算相似性得到用戶的群簇核心用戶集S(u,Cu)。
步驟5將待推薦的目標(biāo)繳費渠道按估計評分進行降序排列,取前P個繳費渠道推薦給用戶。
為有效地檢測算法的推薦效果,本文從國網(wǎng)客服中心的客戶中隨機采樣了6 680名用戶,提取了用戶檔案、繳費行為、線上渠道接觸程度3個維度的特征,進行線下測試,以求在推薦系統(tǒng)上線之后能給用戶帶來良好的體驗,提取的用戶特征如表1所示。
為進行線下測試,本文將數(shù)據(jù)集隨機劃分為訓(xùn)練集和測試集,并分析了不同劃分比例對推薦結(jié)果的影響,同時為了消除算法產(chǎn)生的隨機性,更加準(zhǔn)確地驗證模型的性能,本文中的實驗結(jié)果均為獨立重復(fù)10次實驗之后的平均值。此外,本文所述模型運行在以CPU為Intel Core i7 6700, 內(nèi)存為8 GB,系統(tǒng)為Ubuntu 18.04的PC上,所有實驗相關(guān)代碼均由Python編寫。
表1 用戶特征信息表
準(zhǔn)確率(Precision)、召回率(Recall)、F-值(F-measure)和覆蓋率(Coverage)等是對推薦模型進行離線測試時常用的評價指標(biāo)[23],本文擬采用準(zhǔn)確率、召回率和覆蓋率3個指標(biāo)來驗證模型在電力用戶繳費渠道推薦中的效果。Lu表示用戶u的繳費渠道推薦列表,Bu為用戶實際選擇的繳費渠道,則
(1)準(zhǔn)確率(Precision)[24]。用戶u的推薦準(zhǔn)確率為推薦列表中用戶實際選擇的繳費渠道所占的比例:
(2)召回率(Recall)[25]。用戶u的推薦召回率為推薦列表中的繳費渠道有多少是用戶實際選擇的:
(3)覆蓋率(Coverage)[26]。覆蓋率用于度量推薦系統(tǒng)推薦給所有用戶繳費渠道數(shù)占繳費渠道數(shù)的比例:
在這3個指標(biāo)下,對文中提及的模型(ClusterR)與TOP-P推薦方法(MP)以及按用戶性別劃分的推薦方法(Sex-MP)進行性能比較,實驗結(jié)果如圖3所示。結(jié)果表明,本文模型(ClusterR)在與TOP-P推薦方法(MP)以及按用戶性別劃分的推薦方法(Sex-MP)相比時,均處于較大優(yōu)勢。在將用戶按性別進行分類之后,推薦的效果明顯提升,這也從側(cè)面反映出將用戶進行分組可以提高推薦的效率。以上分析說明,本文方法在進行電力繳費渠道推薦時,具有穩(wěn)定性高,準(zhǔn)確度高的特點,有一定的可行性。
為了準(zhǔn)確分析影響算法效率的不確定性因素,本文采用控制變量法結(jié)合模型的特點分別從:目標(biāo)用戶的群簇核心用戶數(shù)(K)、向目標(biāo)用戶推薦的繳費渠道的個數(shù)(P)、在線下測試中的訓(xùn)練集占數(shù)據(jù)集的比例(r)三個方面出發(fā),逐一進行實驗比較和分析,以選擇最優(yōu)參數(shù),提高算法的可信度。
(1)K值變化對推薦結(jié)果的影響
將推薦渠道數(shù)P設(shè)定為5,訓(xùn)練集與測試集的比例為4∶1的情況下進行實驗,3個指標(biāo)下推薦系統(tǒng)性能隨K值變化的趨勢如圖4所示。在隨著參照評分用戶的數(shù)量不斷變化的過程中,3個用于評價算法效率的指標(biāo)由初始的上升逐漸趨于穩(wěn)定,在K=20之后幾乎趨于穩(wěn)定。因此在之后的實驗中K值設(shè)定為20。
(2)P值變化對推薦結(jié)果的影響
在設(shè)定訓(xùn)練集和測試集比例為4∶1的情況下,不斷調(diào)整推薦繳費渠道的數(shù)據(jù)量以觀察其對推薦系統(tǒng)性能的影響。實驗結(jié)果表明(如圖5),隨著推薦
渠道數(shù)量的不斷增多,召回率和覆蓋率明顯提升并在P=5時趨于穩(wěn)定,而推薦精確度在逐漸下降。當(dāng)推薦的渠道個數(shù)增多時,在計算精確度時意味著總共的推薦數(shù)量增多,因此精確度必然會相應(yīng)有所下降。在給用戶做推薦時,要將用戶幾乎可能用的所有繳費渠道全部推薦給用戶,這也就意味著推薦方法必須有較高的覆蓋率,另外,將所有繳費渠道推薦給用戶也是不切實際,不符合用戶需求的。因此,通過結(jié)果分析發(fā)現(xiàn),在推薦渠道數(shù)量為5時,覆蓋率已經(jīng)趨于穩(wěn)定,并且在對用戶的繳費渠道進行分析的時候,用戶的最多繳費渠道種類為5種,由此在之后的推薦過程中,P設(shè)定為5。
(3)r值變化對推薦結(jié)果的影響
在分析訓(xùn)練集比例對推薦結(jié)果的影響時,如圖6所示,當(dāng)r值逐漸增大時召回率隨著訓(xùn)練集比例的不斷提升而增加,最后趨于平穩(wěn),覆蓋率雖偶有波動但是基本保持穩(wěn)定,推薦精確度也保持穩(wěn)定。
充分的線下測試表明,本文提出的模型具有良好的性能,因此該模型被率先試用于國家電網(wǎng)山西省公司電網(wǎng)用戶的繳費渠道的引流過程中,基于對網(wǎng)省公司全量客戶繳費歷史數(shù)據(jù),利用聚類分析方法(DBSCAN算法)挖掘用戶間的關(guān)聯(lián)關(guān)系,將用戶劃分在不同的群簇中,在不同的群簇中,識別用戶繳費渠道偏好,通過群簇核心用戶推薦算法對下線客戶進行渠道推薦(Top 5),根據(jù)模型輸出結(jié)果,選擇用戶最佳適配渠道,客戶經(jīng)理對營業(yè)廳客戶分流引導(dǎo),釋放線下渠道壓力。具體實施方式描述如下:
(1)國網(wǎng)客服中心通過推薦模型,輸出營業(yè)廳窗口存量客戶引流目標(biāo)渠道,同步推送至中心95598業(yè)務(wù)支持系統(tǒng)(中心坐席人員響應(yīng)客戶訴求的核心系統(tǒng))和國網(wǎng)山西省公司大數(shù)據(jù)平臺。中心側(cè)坐席人員在受理客戶訴求后,結(jié)合引流目標(biāo)渠道數(shù)據(jù),針對性地開展線上渠道引流,探索通過網(wǎng)上國網(wǎng)渠道激活線上沉默客戶。
(2)網(wǎng)省側(cè)接收引流數(shù)據(jù)后,處理形成引流標(biāo)簽,推送至營銷系統(tǒng),在確保數(shù)據(jù)安全的前提下提供客戶近期繳費渠道、近期應(yīng)收電費和客戶電話號碼(撥打95598使用電話)等字段的查詢、篩選功能,輔助引流人員確定選擇引流方式與上門引流時機。通過客戶近期繳費渠道及繳費次數(shù),分析客戶繳費偏好;通過近期應(yīng)收電費,識別客戶是否為長期外出,減少人員上門次數(shù);通過95598電話記錄,核實客戶檔案電話準(zhǔn)確性,提升引流成功率。
針對當(dāng)前電力繳費中存在的繳費渠道單一,線上渠道使用率不高等問題,本文提出了面向電力用戶的群簇核心推薦算法。該算法針對電力用戶的繳費特點進行建模,具有速度快、可遷移性高、參數(shù)敏感性低等特點。經(jīng)過線上線下仿真試驗結(jié)果表明該模型有較高的適用性,能夠快速實現(xiàn)對電力用戶的繳費行為推薦,具有很高的實用價值。此外,該算法對于其他相關(guān)行業(yè)用戶線下至線上引流具有重要的參考價值。另外,用戶群簇的劃分對推薦結(jié)果起著決定性的影響,接下來的研究將從群簇用戶的劃分方法以及劃分特征選取兩方面著手,有望得到更加精細(xì)的群簇,從而進一步提高渠道引流的成功率。