郭春麗,李明東 ,趙 剛
(西華師范大學(xué)計(jì)算機(jī)應(yīng)用研究所,四川南充637002)
ID3算法在汽車(chē)售后服務(wù)中的應(yīng)用
郭春麗,李明東 ,趙 剛
(西華師范大學(xué)計(jì)算機(jī)應(yīng)用研究所,四川南充637002)
決策樹(shù)算法被成功應(yīng)用到很多分類(lèi)問(wèn)題上,其中ID3算法是其典型算法.文中就該算法在汽車(chē)售后服務(wù)企業(yè)客戶(hù)特征分析中的應(yīng)用做了實(shí)例研究.闡述了ID3算法的原理以及實(shí)現(xiàn)算法,分析了客戶(hù)的特征.以一個(gè)具體的案例講解了ID3算法在汽車(chē)售后服務(wù)企業(yè)中客戶(hù)管理的具體應(yīng)用流程.文中實(shí)現(xiàn)ID3算法作用于汽車(chē)售后客戶(hù)的數(shù)據(jù),得到一個(gè)客戶(hù)特征分析模型,可以幫助汽車(chē)企業(yè)根據(jù)不同特征的客戶(hù)采取不同的策略,從而獲得較大利潤(rùn).
數(shù)據(jù)挖掘;汽車(chē)售后;ID3算法
據(jù)調(diào)查,國(guó)外汽車(chē)的80%的利潤(rùn)是由售后服務(wù)得到,而整車(chē)銷(xiāo)售只占總利潤(rùn)的20%,因此很多公司都努力提高汽車(chē)售后服務(wù)水平.而隨著數(shù)據(jù)庫(kù)的多年使用,在日益競(jìng)爭(zhēng)激烈的汽車(chē)行業(yè)里,汽車(chē)售后服務(wù)商存有大量的客戶(hù)數(shù)據(jù).如何提高汽車(chē)售后服務(wù)水平,發(fā)現(xiàn)客戶(hù)的需求和服務(wù)中的一些規(guī)律,這些將成為汽車(chē)售后服務(wù)企業(yè)關(guān)心和重視的問(wèn)題,鑒于此種情況,本文利用數(shù)據(jù)挖掘技術(shù)ID3算法,根據(jù)汽車(chē)售后服務(wù)業(yè)客戶(hù)消費(fèi)行為特征對(duì)客戶(hù)進(jìn)行細(xì)分及客戶(hù)特征分析,把大量的客戶(hù)按照標(biāo)準(zhǔn)分成不同的類(lèi).最終根據(jù)客戶(hù)的類(lèi)別屬性特征,為不同的類(lèi)型的客戶(hù)制定不同營(yíng)銷(xiāo)策略,從而為企業(yè)獲得較高的利潤(rùn).
決策樹(shù)算法ID3處理離散型描述屬性,因此在選擇根節(jié)點(diǎn)以及各內(nèi)部節(jié)點(diǎn)上的分枝屬性時(shí),將信息增益作為度量標(biāo)準(zhǔn).ID3算法的基本原理是:
假設(shè)給定的數(shù)據(jù)集為X={(xi,yi)|i=1,2,…,total},其中樣本 xi(i=1,2,…,total),用 d維特征向量 xi=(xi1,xi2,…,xid) 來(lái)表示,xi1,xi2,…,xid分別對(duì)應(yīng) d 個(gè)描述屬性 A1,A2,…,Ad的具體取值;yi(i=1,2,…,total) 表示樣本 xi的類(lèi)標(biāo)號(hào).假設(shè)所要研究的分類(lèi)問(wèn)題含有m個(gè)類(lèi)別,則yi∈{c1,c2,…,cm}.需要強(qiáng)調(diào)的是,創(chuàng)建根節(jié)點(diǎn)時(shí),數(shù)據(jù)集X是最初給定的所有數(shù)據(jù),在創(chuàng)建內(nèi)部節(jié)點(diǎn)時(shí),數(shù)據(jù)集X是上層節(jié)點(diǎn)的某分支上對(duì)應(yīng)的數(shù)據(jù)集.
假設(shè)nj是數(shù)據(jù)集X中屬于類(lèi)別cj的樣本數(shù)量,則各類(lèi)別的先驗(yàn)概率為:
其中j=1,2,…,m.對(duì)給定數(shù)據(jù)集X所需的期望信息為:
假設(shè)描述屬性Af(f=1,2,…,d)具有q個(gè)不同的取值 {a1f,a2f,…,aqf},利用描述屬性可以將數(shù)據(jù)集X劃分為q個(gè)子集,其中Xs(s=1,2,…,q) 中樣本在Af上具有相同的取值asf.設(shè)ns表示子集Xs中的樣本數(shù)量,njs表示子集Xs中屬于類(lèi)別cj的樣本數(shù)量.則有描述屬性Af劃分?jǐn)?shù)據(jù)集X所得的熵為
其中
其中,pjs=njs/ns表示在子集Xs中類(lèi)別為cj的數(shù)據(jù)樣本所占的比例.式(4)中的熵值越小,表示屬性對(duì)數(shù)據(jù)集劃分的純度越高.
根據(jù)式(2),式(3)和式(4),可以得到利用描述屬性Af(f=1,2,…,d)劃分?jǐn)?shù)據(jù)集時(shí)信息增益,如式(5)所示.
選擇具有最高信息增益的描述屬性作為給定數(shù)據(jù)集X的分枝屬性,從而創(chuàng)建決策樹(shù)中的一個(gè)節(jié)點(diǎn),并且根據(jù)該描述屬性的不同取值再創(chuàng)建分支,之后對(duì)各分支中的樣本子集遞歸調(diào)用上述方法建立該節(jié)點(diǎn)的各個(gè)子節(jié)點(diǎn).當(dāng)某個(gè)分枝上的所有數(shù)據(jù)樣本樣本都屬于同一個(gè)類(lèi)別時(shí)劃分停止,形成葉節(jié)點(diǎn);或者當(dāng)某個(gè)分枝上的樣本不屬于同一個(gè)類(lèi)別,但是又沒(méi)有剩余的描述屬性可以進(jìn)一步劃分?jǐn)?shù)據(jù)集時(shí)也形成葉節(jié)點(diǎn),并且用多數(shù)樣本所屬的類(lèi)別來(lái)標(biāo)記這個(gè)葉節(jié)點(diǎn).
輸入:給定訓(xùn)練集Xtrain,其中每一個(gè)訓(xùn)練樣本均是由一組描述屬性的具體取值表示的特征向量,并且每個(gè)訓(xùn)練樣本都有類(lèi)標(biāo)號(hào);給定描述屬性組成的集合,作為決策樹(shù)種根節(jié)點(diǎn)和各內(nèi)部節(jié)點(diǎn)上的分支屬性的候選集.
輸出:決策樹(shù).
(1)如果訓(xùn)練集Xtrain中的樣本都屬于同一個(gè)類(lèi)別,則將根節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn),否則進(jìn)行第(2)步.
(2)如果描述屬性集為空集,則將根節(jié)點(diǎn)標(biāo)記為葉節(jié)點(diǎn),類(lèi)標(biāo)號(hào)為Xtrain中包含樣本數(shù)量最多的類(lèi)標(biāo)號(hào),否則進(jìn)行第(3)步.
(3)根據(jù)信息增益評(píng)價(jià)標(biāo)準(zhǔn),從給定的描述屬性集中選擇一個(gè)信息增益的值最大的描述屬性作為根節(jié)點(diǎn)的分支屬性,之后進(jìn)行第(4)步.
(4)按照根節(jié)點(diǎn)中分支屬性的具體取值從根節(jié)點(diǎn)進(jìn)行分枝,假設(shè)測(cè)試屬性有M種取值,則Xtrain被劃分為M個(gè)樣本子集,每個(gè)具體的樣本子集對(duì)應(yīng)一個(gè)分支,而且其中的樣本具有相同的屬性值,之后進(jìn)行第(5)步.
(5)對(duì)于根節(jié)點(diǎn)下面的各個(gè)內(nèi)部節(jié)點(diǎn),采用遞歸調(diào)用的方法重復(fù)步驟(1)~(4),繼續(xù)選擇最佳的分支屬性作為內(nèi)部節(jié)點(diǎn),直到所有的樣本都被歸類(lèi)于某個(gè)節(jié)點(diǎn)為止.
某汽車(chē)4S店在經(jīng)過(guò)多年的電腦化管理之后,擁有大量的客戶(hù)基本信息.在客戶(hù)信息表中有很多屬性.在數(shù)據(jù)準(zhǔn)備時(shí),由于決策樹(shù)的建立要求沒(méi)有噪音數(shù)據(jù)與缺失數(shù)據(jù),因此需要除掉表中一些不必要的屬性,進(jìn)行屬性概化,將連續(xù)屬性概化為區(qū)間值.由于是以分析客戶(hù)的特征性指標(biāo)為例,所以選取了代表客戶(hù)特征的四個(gè)屬性:性別,月收入,婚姻狀況,學(xué)歷.類(lèi)別是客戶(hù)類(lèi)別,分為一類(lèi)客戶(hù)、二類(lèi)客戶(hù)、三類(lèi)客戶(hù).其中第一類(lèi)客戶(hù)是重要發(fā)展客戶(hù),即最近來(lái)店消費(fèi)時(shí)間距現(xiàn)在較近,但研究時(shí)間范圍內(nèi),客戶(hù)來(lái)店內(nèi)接受服務(wù)的次數(shù)和消費(fèi)總額均低于整體平均值;第二類(lèi)客戶(hù)定位為重要挽留客戶(hù),最近來(lái)店消費(fèi)時(shí)間距現(xiàn)在較遠(yuǎn),研究時(shí)間范圍內(nèi)客戶(hù)來(lái)店內(nèi)接受服務(wù)的次數(shù)低于平均值,但消費(fèi)總額高于整體平均值,即目前來(lái)看企業(yè)較有價(jià)值的客戶(hù);第三類(lèi)客戶(hù)是客戶(hù)最近來(lái)店消費(fèi)時(shí)間距現(xiàn)在較近,且研究時(shí)間范圍內(nèi)客戶(hù)來(lái)店內(nèi)接受服務(wù)的次數(shù)和來(lái)店消費(fèi)總額均高于整體平均值,說(shuō)明客戶(hù)經(jīng)常來(lái)店接受服務(wù)且消費(fèi)金額較大,即目前來(lái)看是企業(yè)最有價(jià)值的客戶(hù).
本實(shí)證研究基于某汽車(chē)4S店2010年服務(wù)記錄,選擇客戶(hù)的本體信息包括性別與月收入,婚姻狀況和學(xué)歷來(lái)進(jìn)行特征分析,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理之后得到表1.
表1 數(shù)據(jù)預(yù)處理后的某4S店客戶(hù)信息表
用ID3算法構(gòu)建客戶(hù)特征分析決策樹(shù):
圖1 為利用ID3算法對(duì)客戶(hù)特征屬性分析得出的決策樹(shù).
圖1 運(yùn)用ID3算法得到的決策樹(shù)
通過(guò)決策樹(shù)可得到如下分析結(jié)果:月收入高且學(xué)歷偏高的人比較有可能是重要發(fā)展客戶(hù),而月收入高但學(xué)歷中等的人比較可能是重要保持客戶(hù);月收入中等的人比較可能是重要挽留客戶(hù);月收入低已婚的男性或者學(xué)歷偏高的女性可能是重要保持客戶(hù),而月收入低已婚的中等學(xué)歷的女性有可能是重要發(fā)展客戶(hù),月收入低未婚的男性比較有可能是重要保持客戶(hù).根據(jù)客戶(hù)的類(lèi)別屬性特征,汽車(chē)4S店可以為不同的類(lèi)型的客戶(hù)制定針對(duì)性的營(yíng)銷(xiāo)策略.比如當(dāng)我們接待一位潛在的客戶(hù)時(shí),可以根據(jù)他的一些本體屬性大致判斷該客戶(hù)屬于哪一種客戶(hù),然后有針對(duì)性的采取相應(yīng)策略,比如對(duì)于重要發(fā)展客戶(hù),可以通過(guò)分析客戶(hù)需求或者促銷(xiāo)等措施,在未來(lái)不斷提升該類(lèi)客戶(hù)價(jià)值;對(duì)于重要挽留客戶(hù)由于最近沒(méi)有來(lái)店消費(fèi)了,這時(shí)企業(yè)需要弄清該類(lèi)客戶(hù)最近沒(méi)有來(lái)店消費(fèi)的原因,比如是否對(duì)本店的服務(wù)不滿(mǎn)意.或者去了別的店.企業(yè)應(yīng)盡力去挽留該客戶(hù),不斷提升該類(lèi)老客戶(hù)的忠誠(chéng)度,使該類(lèi)客戶(hù)慢慢發(fā)展為本店最有價(jià)值的客戶(hù);對(duì)于重要保持客戶(hù),企業(yè)應(yīng)該珍惜該類(lèi)客戶(hù)對(duì)本企業(yè)的忠誠(chéng)度,與之保持良好關(guān)系,使該類(lèi)客戶(hù)在未來(lái)成為企業(yè)的最有價(jià)值客戶(hù).通過(guò)以上措施.可以幫助企業(yè)節(jié)約成本,從而獲得最大利潤(rùn).
研究了決策樹(shù)分類(lèi)算法ID3,通過(guò)該算法作用于汽車(chē)售后服務(wù)數(shù)據(jù),得出一個(gè)根據(jù)汽車(chē)售后服務(wù)中客戶(hù)特征模型,可以使企業(yè)根據(jù)客戶(hù)價(jià)值級(jí)別的不同,更好的在客戶(hù)中分配企業(yè)有限的資源.同時(shí)根據(jù)客戶(hù)的不同需求,設(shè)計(jì)和實(shí)施不同的客戶(hù)保持策略.通過(guò)這些可以使企業(yè)牢牢保持對(duì)企業(yè)來(lái)講最有價(jià)值的客戶(hù),從而提高企業(yè)的利潤(rùn).
[1]韓秋明,李微,李華鋒,等.數(shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)例[M].北京:機(jī)械工業(yè)出版社,2009:31-112.
[2]韓慧,王建新,孫俏,等.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M].北京:北京大學(xué)出版社,2009:108-116.
[3]胡可云,田鳳占,黃厚寬.數(shù)據(jù)挖掘理論與應(yīng)用[M].北京:清華大學(xué)出版社,2008:18-22.
[4]劉遠(yuǎn)琳,孫細(xì)明.客戶(hù)分類(lèi)系統(tǒng)的ID3算法流程及實(shí)現(xiàn)[J].計(jì)算機(jī)與數(shù)字工程,2009(3):88-90.
[5]楊明,張載鴻.決策樹(shù)學(xué)習(xí)算法ID3的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2002,12(5):6-8.
Application of ID3 Algorithm in Automotive After-sale Service
GUO Chun-li,LI Ming-dong,ZHAO Gang
(Institute of Computer Application,China West Normal University,Nanchong,Sichuan 637002,China)
Decision tree algorithm has been successfully applied in much classification issue.ID3 algorithm is the representative algorithm.The application of algorithm has been given an instance study for the analysis of the customer features in the automotive after-sale service.Describing the principle and implementation of the ID3 algorithm and analyzing the features of the clients,also explaining concretely the approach of how to use ID3 to manage the clients in the automotive after-sale service.At the end,setting up the customer characteristics analysis model of automotive after- sale services.Through those strategies,the companies can realize the maximization of their total profits.
data mining;automotive after-sale service;ID3 algorithm
TP274
A
1008-7974(2011)10-0019-03
2011-04-20
郭春麗(1984-),女,寧夏石嘴山人,在讀碩士研究生.李明東(1958-),男,四川廣安籍,教授,碩士生導(dǎo)師.
(責(zé)任編輯:王前)
通化師范學(xué)院學(xué)報(bào)2011年10期