張雋(中國(guó)移動(dòng)通信集團(tuán)上海有限公司,上海200030)
數(shù)據(jù)挖掘在電信客戶細(xì)分中的應(yīng)用研究
張雋
(中國(guó)移動(dòng)通信集團(tuán)上海有限公司,上海200030)
摘要:電信企業(yè)在經(jīng)營(yíng)管理過(guò)程中積累了大量的客戶信息,依據(jù)這些信息可以將客戶劃分為不同的群體,這就為企業(yè)實(shí)施精準(zhǔn)化營(yíng)銷奠定了基礎(chǔ)。本文對(duì)k-means聚類算法進(jìn)行改進(jìn),利用遺傳算法的全局優(yōu)化特點(diǎn),設(shè)計(jì)了自動(dòng)確定聚類數(shù)、優(yōu)化初始中心選取且消除噪聲數(shù)據(jù)干擾的GK-means算法,構(gòu)建了客戶細(xì)分模型。最后,以以XX電信公司作為研究對(duì)象,構(gòu)建其客戶細(xì)分模型,依據(jù)客戶細(xì)分結(jié)果分析了各個(gè)客戶群體的特征,并針對(duì)性地提出了若干營(yíng)銷策略與建議。
關(guān)鍵字:客戶細(xì)分;數(shù)據(jù)挖掘;K-means算法
在電信企業(yè)客戶關(guān)系管理中,通過(guò)聚類等數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶細(xì)分,然后歸納總結(jié)各個(gè)細(xì)分群體的特征,是提升營(yíng)銷效率及效果的有效途徑。傳統(tǒng)的客戶細(xì)分通常是采用了定性的經(jīng)營(yíng)描述與定量的統(tǒng)計(jì)學(xué)相結(jié)合的方法。隨著數(shù)字化信息的增長(zhǎng),數(shù)據(jù)挖掘(DataMining)技術(shù)被廣泛應(yīng)用于商業(yè)、金融業(yè)、企業(yè)生產(chǎn)以及市場(chǎng)營(yíng)銷等方面,它已逐漸發(fā)展成為一種智能過(guò)程,可以和信息技術(shù)、統(tǒng)計(jì)技術(shù)等一起支持運(yùn)營(yíng)決策。
數(shù)據(jù)挖掘作為一門交叉學(xué)科,在整個(gè)數(shù)據(jù)挖掘過(guò)程中需要涉及和利用多領(lǐng)域的知識(shí),以高度智能化的在線分析企業(yè)數(shù)據(jù)庫(kù)的信息,從大量的、混雜的原始數(shù)據(jù)中,提取出潛在的和有價(jià)值的信息的一個(gè)過(guò)程[1]。隨著數(shù)據(jù)挖掘技術(shù)的進(jìn)一步發(fā)展和完善,數(shù)據(jù)挖掘技術(shù)的應(yīng)用越來(lái)越廣泛,從最初的金融業(yè)拓展到現(xiàn)在的零售業(yè)、服務(wù)業(yè)等,在具體應(yīng)用方面除了最初的價(jià)值評(píng)價(jià),目前更多的用于顧客細(xì)分、識(shí)別潛在顧客等領(lǐng)域。數(shù)據(jù)挖掘應(yīng)用于客戶細(xì)分的相關(guān)研究中,Zakrzewska&Mnrlewski以銀行積累的大量一手客戶資料為分析對(duì)象,利用K-means方法進(jìn)行客戶細(xì)分,但是發(fā)現(xiàn)細(xì)分結(jié)果對(duì)于噪聲數(shù)據(jù)的敏感性較強(qiáng)。Zamir&Etzioni分別利用K-means聚類,SOM和模糊K-means將股票操作者按照一定的標(biāo)準(zhǔn)如交易量、交易頻率等進(jìn)行了細(xì)分,發(fā)現(xiàn)模糊K-means的適用性最強(qiáng)、效果最好。
在眾多的聚類算法中,由于k-means算法具有明顯優(yōu)于其他算法的特性,使得它獲得廣泛地應(yīng)用。但是,k-means算法仍然存在明顯的不足之處,需要相應(yīng)的改進(jìn),才能有效地實(shí)現(xiàn)客戶細(xì)分。
2.1k-means算法
k-means算法是一個(gè)經(jīng)典的聚類算法,它是采用動(dòng)態(tài)的聚類過(guò)程,通過(guò)一步步的迭代逐漸達(dá)到收斂,并最終實(shí)現(xiàn)聚類分析??偟膩?lái)說(shuō),k-means聚類算法的基本原理是:先隨機(jī)選取k個(gè)樣本作為初始聚類中心,計(jì)算其他樣本與這個(gè)k個(gè)初始聚類中心的歐式距離并相關(guān)比較大小,然后將各個(gè)樣本歸入與其距離最近的初始類中,接著再計(jì)算迭代后的各個(gè)類簇的中心點(diǎn)位置,并重復(fù)上述步驟,直至得到誤差最小的聚類結(jié)果。
雖然k-means算法具有非常明顯的優(yōu)勢(shì),但是其仍然存在如下幾點(diǎn)不足之處:(1)初始聚類中心的選取對(duì)于聚類結(jié)果影響比較大,不恰當(dāng)?shù)某跏季垲愔行目赡軙?huì)導(dǎo)致搜索不到最優(yōu)解;(2)在使用k-means算法之前必須輸入簇的數(shù)目k值,但是這k值通常是無(wú)法事前確定的,并且當(dāng)k值的選取不適合時(shí)會(huì)導(dǎo)致聚類質(zhì)量顯著地下降,不具有分析價(jià)值;(3)k-means算法對(duì)于噪聲數(shù)據(jù)與異常數(shù)據(jù)非常敏感,少量的“噪聲”數(shù)據(jù)就可能導(dǎo)致聚類結(jié)果無(wú)法令人滿意。故本文考慮采用遺傳算法對(duì)k-means算法進(jìn)行改進(jìn),提高算法的性能。
2.2初始中心的優(yōu)化
由于傳統(tǒng)k-means算法在選取初始中心的時(shí)候都只考慮距離因素,容易選取噪聲點(diǎn)作為初始聚類中心,降級(jí)聚類質(zhì)量,致使聚類結(jié)果難以令人滿意,故現(xiàn)在同時(shí)考慮距離與密度因素來(lái)優(yōu)化初始中心的選取,即選取相距最遠(yuǎn)的k個(gè)處于高密度區(qū)域的點(diǎn)作為中心點(diǎn)。??
為此,首先將樣本數(shù)據(jù)所處區(qū)域的密度定義為:??
分析上述初始聚類中心的選取方法,其基本原理是選取歐式距離最大的高密度點(diǎn)集作為初始聚類中心,從而避免了選取的盲目性,保證了聚類質(zhì)量。
2.3消除噪聲和孤立點(diǎn)數(shù)據(jù)??
在對(duì)數(shù)據(jù)所包含的信息進(jìn)行分析的時(shí)候,不同的樣本中所含有的信息量與價(jià)值不盡相同。為了對(duì)此加以區(qū)分,本文提出對(duì)每個(gè)樣本數(shù)據(jù)賦予一個(gè)權(quán)值,其計(jì)算公式如下所示:
此處,為了減小“噪聲”數(shù)據(jù)的負(fù)面影響,提高聚類質(zhì)量,故提出加權(quán)平均的方法來(lái)計(jì)算各個(gè)類簇的均值,即:??
上述加權(quán)平均法雖然會(huì)增加計(jì)算工作量,但是由于其能夠有效地降低對(duì)噪聲與異常數(shù)據(jù)的敏感性,即便是數(shù)據(jù)集中存在少量的噪聲與異常數(shù)據(jù)也不會(huì)對(duì)權(quán)重的計(jì)算產(chǎn)生太大的影響。
本文研究綜合運(yùn)用了計(jì)算機(jī)信息技術(shù)、數(shù)據(jù)挖掘技術(shù)、管理學(xué)和市場(chǎng)營(yíng)銷學(xué)等多個(gè)領(lǐng)域的知識(shí),并結(jié)合電信行業(yè)的具體行業(yè)特征,構(gòu)建了基于數(shù)據(jù)挖掘的電信客戶細(xì)分模型,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到電信客戶細(xì)分中。為此,本文采用遺傳算法對(duì)常用的k-means聚類算法進(jìn)行改進(jìn),提出了基于GK-means算法的客戶細(xì)分算法。最后,以XX電信公司作為研究對(duì)象,構(gòu)建其客戶細(xì)分模型,依據(jù)客戶細(xì)分結(jié)果分析了各個(gè)客戶群體的特征,并針對(duì)性地提出了若干營(yíng)銷策略與建議。
參考文獻(xiàn):
[1]ChenLD,SakaguchiT,FrolickMN.Dataminingmethods,applications,andtools[J].Informationsystemsmanagement,2000,17(01):1-6.