摘要:挖掘歷史數(shù)據(jù)中的有效信息,將其運(yùn)用到商業(yè)決策中,為優(yōu)化市場(chǎng)營(yíng)銷(xiāo)提供了有力支持。文章介紹了數(shù)據(jù)挖掘中的聚類(lèi)分析和決策樹(shù)分析技術(shù),并結(jié)合實(shí)際數(shù)據(jù),給出了數(shù)據(jù)挖掘技術(shù)在電信行業(yè)的客戶細(xì)分、客戶流失預(yù)測(cè)及客戶保有中的具體應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)挖掘;聚類(lèi)分析;決策樹(shù)分析;客戶保有
引言
現(xiàn)今,數(shù)據(jù)挖掘技術(shù)已經(jīng)被廣泛應(yīng)用于實(shí)際的商業(yè)決策,解決如何在企業(yè)減少投資的同時(shí)提高資金回報(bào)問(wèn)題。在美國(guó),制造業(yè)、零售業(yè)、通訊業(yè)、金融業(yè)、保險(xiǎn)業(yè)以及醫(yī)療服務(wù)等都已經(jīng)較為成熟地掌握了數(shù)據(jù)挖掘技術(shù),應(yīng)用時(shí)間較長(zhǎng)。在國(guó)內(nèi),隨著市場(chǎng)經(jīng)濟(jì)的發(fā)展,數(shù)據(jù)挖掘也逐漸有了自己的市場(chǎng),尤其是在電信業(yè)。近兩年,電信業(yè)的經(jīng)營(yíng)觀念已逐步從“以產(chǎn)品為中心”轉(zhuǎn)變?yōu)椤耙钥蛻魹橹行摹?,為此,了解現(xiàn)有客戶的行為,分析客戶的需求是非常重要的。通過(guò)數(shù)據(jù)挖掘技術(shù),從電信公司大量的歷史數(shù)據(jù)中挖掘分析客戶消費(fèi)的行為特征,并在市場(chǎng)預(yù)測(cè)的基礎(chǔ)上制定有針對(duì)性的市場(chǎng)營(yíng)銷(xiāo)計(jì)劃等,是電信服務(wù)業(yè)實(shí)現(xiàn)以客戶為中心的服務(wù)目標(biāo)的重要手段。
1 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是一種從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的信息和知識(shí)的過(guò)程,其目的是從大量數(shù)據(jù)中尋找有用的信息。目前,數(shù)據(jù)挖掘技術(shù)有聚類(lèi)、決策樹(shù)、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等方法,它們通過(guò)機(jī)器學(xué)習(xí)的途徑獲取信息,以用于決策支持、預(yù)測(cè)、估計(jì)等領(lǐng)域。不同的數(shù)據(jù)挖掘方法具有不同的應(yīng)用范圍。在電信行業(yè)中,客戶細(xì)分一般可用聚類(lèi)方法,而針對(duì)客戶流失預(yù)測(cè)及客戶保有問(wèn)題,采用決策樹(shù)方法,相對(duì)來(lái)說(shuō),其結(jié)構(gòu)和推理的過(guò)程更清楚。
1.1 聚類(lèi)分析
聚類(lèi)是數(shù)據(jù)挖掘領(lǐng)域最為常見(jiàn)的技術(shù)之一,它將不同個(gè)體按相似度大小相近的原則聚集成類(lèi)。相似度是根據(jù)描述對(duì)象的屬性來(lái)計(jì)算的。距離是經(jīng)常采用的度量方式。通過(guò)聚類(lèi)過(guò)程形成的每一個(gè)組成為一個(gè)類(lèi)。通過(guò)聚類(lèi),數(shù)據(jù)庫(kù)中的記錄可被劃分為一系列有意義的子集,我們可以借此分析較大的、復(fù)雜的,連續(xù)有許多變量的數(shù)據(jù)庫(kù)。應(yīng)用在市場(chǎng)研究領(lǐng)域,聚類(lèi)分析是市場(chǎng)細(xì)分、尋找不同目標(biāo)市場(chǎng)及其人員特征的非常簡(jiǎn)單而又非常有效的方法。
主要的聚類(lèi)方法大體上可以分為:劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法以及基于模型的方法等。K-均值算法是比較常用的算法,為經(jīng)典的劃分方法。算法描述如下:
算法1:k-均值聚類(lèi)算法
輸入:類(lèi)的數(shù)目k和n個(gè)對(duì)象
輸出:被標(biāo)記聚類(lèi)類(lèi)別的n個(gè)體
方法:
(1)任意選擇k個(gè)對(duì)象作為初始的類(lèi)中心;
(2)根據(jù)類(lèi)中對(duì)象的平均值,按相似性大小給每個(gè)對(duì)象(重新)賦予類(lèi)標(biāo)記;
(3)更新類(lèi)的平均值以及類(lèi)中心;
(4)若類(lèi)中心不再發(fā)生變化,則輸出,結(jié)束;否則轉(zhuǎn)(2)。
1.2決策樹(shù)分析
決策樹(shù)是目前最常用的分類(lèi)技術(shù)之一,它是類(lèi)似于流程圖的樹(shù)結(jié)構(gòu),其中,每個(gè)內(nèi)部結(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分枝代表一個(gè)測(cè)試輸出,而每個(gè)樹(shù)葉結(jié)點(diǎn)代表類(lèi)或類(lèi)分布。決策樹(shù)算法的核心思想是貪心算法,它以自頂向下遞歸的劃分一控制方式構(gòu)造決策樹(shù),即從樹(shù)的根結(jié)點(diǎn)處的所有訓(xùn)練樣本開(kāi)始,選取一個(gè)屬性來(lái)區(qū)分這些樣本,該屬性的每一個(gè)值產(chǎn)生一個(gè)分支,然后將此思路遞歸地應(yīng)用于每個(gè)子結(jié)點(diǎn)上,直到結(jié)點(diǎn)的所有樣本都區(qū)分到某個(gè)類(lèi)中。
各種決策樹(shù)算法之間的主要區(qū)別就是如何選擇屬性進(jìn)行劃分,以經(jīng)典的決策樹(shù)算法C4.5為例,它選擇具有最高信息增益的屬性作為待劃分的屬性:
設(shè)T是有t個(gè)數(shù)據(jù)樣本的集合,假設(shè)有k個(gè)不同類(lèi),設(shè)T中的c類(lèi)包含t個(gè)樣本,任意一個(gè)樣本屬于類(lèi)c的可能性為t/t。
設(shè)屬性V具有互不重合的n個(gè)值,可以用屬性V將T劃分為n個(gè)子集,這里Ti中的所有實(shí)例的取值均為v。如果v選作測(cè)試屬性(即最好的劃分屬性),則這些子集對(duì)應(yīng)于由包含集合T的結(jié)點(diǎn)生長(zhǎng)出來(lái)的分枝。設(shè)ti是子集Ti中c類(lèi)的樣本數(shù)。根據(jù)v劃分的子集的熵或期望信息。
其中幾項(xiàng)充當(dāng)?shù)谝粋€(gè)子集的權(quán)重,且等于子集(即V值為vi中的樣本個(gè)數(shù)除以T中的樣本總數(shù)。熵值越小,子集劃分的純度越高。
將屬性v作為劃分屬性所獲得的信息增益。
根據(jù)此公式計(jì)算每個(gè)屬性的信息增益,算法C4.5將具有最高信息增益的屬性選作給定集合的測(cè)試屬性,創(chuàng)建一個(gè)結(jié)點(diǎn),并根據(jù)屬性的每個(gè)值創(chuàng)建分枝。
2 在電信行業(yè)客戶保有中的應(yīng)用
客戶流失是電信行業(yè)普遍面臨的問(wèn)題,尤其是在市場(chǎng)飽和期,競(jìng)爭(zhēng)異常激烈,客戶具有更多的選擇,爭(zhēng)奪新客戶入網(wǎng)的成本已經(jīng)遠(yuǎn)遠(yuǎn)高于挽留現(xiàn)有客戶的成本,從實(shí)際的業(yè)務(wù)角度來(lái)看,如何保有自己的客戶,如何展開(kāi)客戶挽留的行動(dòng)的問(wèn)題已經(jīng)迫在眉睫。
通過(guò)數(shù)據(jù)挖掘技術(shù)在大量的歷史數(shù)據(jù)中進(jìn)行挖掘分析:利用聚類(lèi)分析技術(shù)進(jìn)行客戶細(xì)分,挖掘不同客戶群的業(yè)務(wù)特征;利用決策樹(shù)技術(shù)進(jìn)行客戶流失傾向預(yù)測(cè),可以針對(duì)流失傾向較高的群體,并結(jié)合這些客戶對(duì)應(yīng)的客戶群特征,采取有針對(duì)性的客戶挽留策略。
2.1客戶細(xì)分
細(xì)分是指將一個(gè)大的客戶群體劃分成一個(gè)個(gè)細(xì)分群,同屬一個(gè)細(xì)分群的客戶彼此相似,而隸屬于不同細(xì)分群的客戶則有不同的典型特征。客戶細(xì)分主要涉及的數(shù)據(jù)挖掘技術(shù)為聚類(lèi)分析。通過(guò)客戶細(xì)分,能深刻理解不同客戶群的典型特征,從而對(duì)客戶總體構(gòu)成有更準(zhǔn)確的認(rèn)識(shí),對(duì)客戶的服務(wù)和營(yíng)銷(xiāo)更具針對(duì)性。
在客戶屬性中,總費(fèi)用是一個(gè)能反映出客戶級(jí)別的屬性,月總費(fèi)用越高的客戶等級(jí)越高,是應(yīng)該特別珍惜的資源。但并不是等級(jí)低的客戶就不值得關(guān)注了,相反,月總費(fèi)用低的客戶更有升高等級(jí)的潛力,同樣值得關(guān)注。
運(yùn)用馬克威軟件,對(duì)月總費(fèi)用這一屬性進(jìn)行聚類(lèi),采用的是K-Means快速聚類(lèi)法。對(duì)聚出的類(lèi)(共9類(lèi))進(jìn)行統(tǒng)計(jì)分析,結(jié)果發(fā)現(xiàn),有的類(lèi)包含客戶太少,如1個(gè),2個(gè)等。對(duì)這些類(lèi)進(jìn)行合并,不妨將這一個(gè)大類(lèi)(原先標(biāo)識(shí)分別為1、2、3、4)的標(biāo)識(shí)設(shè)為0。再對(duì)此時(shí)形成的6個(gè)類(lèi)進(jìn)行統(tǒng)計(jì)分析,得出表1。可以清楚地看出92.33%的客戶月總費(fèi)用集中在88.62元左右。
2.2 客戶流失預(yù)測(cè)
通過(guò)數(shù)據(jù)挖掘建立流失預(yù)測(cè)模型,分析客戶流失傾向即可在客戶流失之前做出預(yù)警并給出量化指標(biāo)衡量該客戶流失可能性的大小。業(yè)務(wù)人員也可以根據(jù)每個(gè)客戶的流失可能性對(duì)客戶從高到低排序,找出流失傾向較高的群體,并結(jié)合這些客戶對(duì)應(yīng)的分群特征,采取相應(yīng)的客戶挽留策略,以進(jìn)行更加精細(xì)的客戶保有工作,提高客戶挽留的成功率。
首先通過(guò)相關(guān)性分析,可以找出每一個(gè)客戶屬性與客戶行為和客戶流失概率之間的相關(guān)性。通過(guò)比較選擇,刪除那些和客戶流失概率相關(guān)性不大的變量,可以減小模型的復(fù)雜程度,使建立的模型更加精確。其次在模型建立以后,需要用大量的數(shù)據(jù)對(duì)建立的模型進(jìn)行修正和檢驗(yàn)。—個(gè)未經(jīng)檢驗(yàn)的模型如果被貿(mào)然推廣使用,就有可能由于模型的不精確給應(yīng)用項(xiàng)目帶來(lái)?yè)p失。故在建模時(shí)通常會(huì)把數(shù)據(jù)分為兩部分:訓(xùn)練集和測(cè)試集,訓(xùn)練集用于建模,而測(cè)試集用于驗(yàn)證模型,以避免模型出現(xiàn)“過(guò)擬合”的情況。
利用馬克威分析系統(tǒng),先采用每隔10條記錄取一條的系統(tǒng)抽樣法從248796例客戶的大樣本中抽出2488例客戶作為樣本,運(yùn)用數(shù)據(jù)挖掘技術(shù)中的決策樹(shù)方法對(duì)樣本進(jìn)行挖掘,以應(yīng)收費(fèi)用、欠費(fèi)金額、在網(wǎng)時(shí)長(zhǎng)作為輸入變量,客戶流失作為目標(biāo)變量(其中0表示未流失,1表示流失),挖掘結(jié)果如圖1所示。
從此決策樹(shù)可以清楚地看出:如果應(yīng)收費(fèi)用在[-5.51,259.72]范圍內(nèi),并且欠費(fèi)金額在[-0.01,21.12]范圍內(nèi),則客戶流失的可信度為79.92%。在大樣本下,通過(guò)以上記錄條件進(jìn)行選擇得到:應(yīng)收費(fèi)用在[-5.51,259.72]范圍內(nèi)的客戶有2488例,其中欠費(fèi)金額在[-0.01,21.12]范圍內(nèi)有1803例,而在這1803例客戶中有1424例流失,即有78.98%(=1424/1803)的客戶流失,與用決策樹(shù)方法得出的可信度之間的誤差為0.94%。可見(jiàn)用訓(xùn)練集所建的預(yù)測(cè)模型能很好地對(duì)測(cè)試集進(jìn)行預(yù)測(cè),并且可以清楚地看出哪些客戶容易流失。當(dāng)然,為了能將模型應(yīng)用到洞察力營(yíng)銷(xiāo)當(dāng)中,還需要業(yè)務(wù)專家、市場(chǎng)營(yíng)銷(xiāo)人員等的參與,從業(yè)務(wù)上指導(dǎo)變量的篩選。
2.3 客戶保有策略
選擇合適的目標(biāo)客戶群、確定有針對(duì)性的保有策略,是確保整個(gè)客戶保有營(yíng)銷(xiāo)活動(dòng)成功的關(guān)鍵所在?;诙床炝I(yíng)銷(xiāo)的客戶保有是一個(gè)應(yīng)用數(shù)據(jù)挖掘技術(shù)幫助企業(yè)構(gòu)建更個(gè)性化并有更高利潤(rùn)的市場(chǎng)營(yíng)銷(xiāo)活動(dòng)的過(guò)程。洞察力營(yíng)銷(xiāo)是一個(gè)閉環(huán)的自我學(xué)習(xí)過(guò)程(如圖2所示)。
通過(guò)將客戶細(xì)分模型與客戶流失預(yù)測(cè)模型緊密結(jié)合,既能洞察各客戶的業(yè)務(wù)特征,又能獲取客戶的流失傾向,便于市場(chǎng)營(yíng)銷(xiāo)部門(mén)選取流失傾向較高的客戶采取針對(duì)性的保有策略,比如:針對(duì)流失傾向較高的近郊密切型客戶:推薦本地親情連線套餐,例如20元包打40元區(qū)間電話;針對(duì)流失傾向較高的傳統(tǒng)長(zhǎng)途型客戶:傳統(tǒng)轉(zhuǎn)IP,釋放風(fēng)險(xiǎn),先推薦17909電信直撥,然后再推薦國(guó)內(nèi)長(zhǎng)途親情連線;針對(duì)流失傾向較高的異商IP型客戶:進(jìn)行IP反爭(zhēng)奪,推薦電信IP包月或保底套餐、分段折扣電信lP預(yù)付費(fèi)卡;針對(duì)流失傾向較高的本地商務(wù)型(多與移動(dòng)、聯(lián)通用戶通話)客戶:要派客戶經(jīng)理直接上門(mén)挽留,推薦包月或保底套餐、預(yù)存話費(fèi)送小靈通、小靈通彩鈴免費(fèi)送等。
3 結(jié)束語(yǔ)
對(duì)客戶的深刻理解是實(shí)現(xiàn)以客戶為中心的服務(wù)理念的基礎(chǔ)。通過(guò)數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶細(xì)分和客戶流失預(yù)測(cè),可以為客戶理解提供更有力的支撐。客戶保有是數(shù)據(jù)挖掘技術(shù)在電信企業(yè)客戶關(guān)系管理中的—個(gè)重要應(yīng)用,市場(chǎng)營(yíng)銷(xiāo)部門(mén)應(yīng)該將客戶細(xì)分模型與客戶流失預(yù)測(cè)模型充分結(jié)合起來(lái),針對(duì)不同客戶群體的流失預(yù)測(cè),進(jìn)行更加精細(xì)的客戶保有,以提高客戶挽留的成功率。電信企業(yè)需要超越業(yè)務(wù)與職能部門(mén)的局限,建立以數(shù)據(jù)挖掘技術(shù)為分析手段、以客戶洞察力為驅(qū)動(dòng)的整體規(guī)劃與操作,更有效地發(fā)揮客戶巨大的潛在價(jià)值,以應(yīng)對(duì)日趨激烈的市場(chǎng)競(jìng)爭(zhēng)。