岑琴
(溫州醫(yī)學(xué)院 信息工程學(xué)院,浙江 溫州 325000)
自從有人類開(kāi)始,飾品便與服裝同時(shí)出現(xiàn),發(fā)展到今天,已有久遠(yuǎn)的歷史。怎樣將飾品融入現(xiàn)代文化觀念,怎樣設(shè)計(jì)新的飾品,及什么樣的設(shè)計(jì)才能被消費(fèi)者接受,都是新一代飾品設(shè)計(jì)所面臨的新問(wèn)題。信息化的推進(jìn)讓企業(yè)積累了大量的數(shù)據(jù),企業(yè)必須有效管理已有的信息,而這些數(shù)據(jù)通常是零散的、不規(guī)范的,像噪聲數(shù)據(jù)、空缺數(shù)據(jù)和不一致數(shù)據(jù)等問(wèn)題都會(huì)給領(lǐng)導(dǎo)的決策帶來(lái)了困擾?,F(xiàn)在企業(yè)面臨的一個(gè)共同問(wèn)題是企業(yè)數(shù)據(jù)量非常大,而其中真正有價(jià)值的信息卻很少。數(shù)據(jù)挖掘技術(shù)的出現(xiàn),給企業(yè)決策者帶來(lái)了輔助決策支持。企業(yè)可以利用先進(jìn)的數(shù)據(jù)挖掘和商務(wù)智能分析技術(shù)對(duì)信息進(jìn)行加工,企業(yè)領(lǐng)導(dǎo)必須將經(jīng)營(yíng)模式轉(zhuǎn)變?yōu)橐钥蛻魹橹行?,為客戶提供個(gè)性化服務(wù)。準(zhǔn)確的客戶分類是企業(yè)有效地實(shí)施客戶關(guān)系管理的基礎(chǔ)??蛻舴诸愂歉鶕?jù)客戶屬性來(lái)劃分客戶集合,通過(guò)獲得的客戶類別來(lái)分析和預(yù)測(cè)客戶的消費(fèi)模式。建立起一對(duì)一的客戶服務(wù)體系,實(shí)行差異化的客戶管理[1]。
數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)[2]。數(shù)據(jù)挖掘技術(shù)在飾品營(yíng)銷管理上的應(yīng)用主要體現(xiàn)在通過(guò)數(shù)據(jù)挖掘來(lái)分析不同類型顧客的需求特征,尋找顧客購(gòu)買的行為模式及其規(guī)律,從而為營(yíng)銷策略的制定提供依據(jù)。通過(guò)數(shù)據(jù)挖掘,可以對(duì)營(yíng)銷策略及措施的實(shí)施結(jié)果進(jìn)行分析,進(jìn)而對(duì)營(yíng)銷活動(dòng)的效果做出評(píng)估,為進(jìn)一步改進(jìn)營(yíng)銷決策提供參考。
1.2.1 算法概述
決策樹(shù)是數(shù)據(jù)挖掘中應(yīng)用最廣泛的技術(shù)之一,是用于分類和預(yù)測(cè)的主要技術(shù),決策樹(shù)學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,著眼于從一組無(wú)次序、無(wú)規(guī)則的事例中推理出決策樹(shù)表示形式的分類規(guī)則[3]。它是運(yùn)用于分類的一種樹(shù)結(jié)構(gòu),其中的每個(gè)內(nèi)部節(jié)點(diǎn)非葉子節(jié)點(diǎn)代表對(duì)某個(gè)屬性的一次測(cè)試,一條邊代表一個(gè)測(cè)試結(jié)果,葉子代表某個(gè)類或者類的分布,最上面的節(jié)點(diǎn)是根節(jié)點(diǎn)。用決策樹(shù)進(jìn)行分類首先利用訓(xùn)練集建立并精化一棵決策樹(shù),建立決策樹(shù)模型,然后利用生成的決策樹(shù)對(duì)輸入數(shù)據(jù)進(jìn)行分類,從根節(jié)點(diǎn)依次測(cè)試記錄的屬性值,直到到達(dá)某個(gè)葉子節(jié)點(diǎn),從而找到該記錄所在的類。
1.2.2 決策樹(shù)構(gòu)造
以信息論原理為基礎(chǔ),利用信息論中信息增益尋找數(shù)據(jù)庫(kù)中具有最大信息量的字段,建立決策樹(shù)的一個(gè)節(jié)點(diǎn),然后根據(jù)字段的不同取值建立樹(shù)的分支,在每個(gè)分支中重復(fù)建立樹(shù)的下層節(jié)點(diǎn)和分支。
設(shè)S是訓(xùn)練樣本的集合,其中每個(gè)樣本的類標(biāo)號(hào)都是已知的。假定有m個(gè)類,集合S中類別Ci的記錄個(gè)數(shù)是 Ni個(gè), i=1,2,…,m。
設(shè)屬性 A具有值{a1,…,av},屬性 A可以用來(lái)對(duì) S進(jìn)行分組,將 S分為子集 S1,…,Sv,其中 Sj包含 S中值為aj的那些樣本。設(shè)Sj包含類Ci的Sij個(gè)樣本。根據(jù)A的這種劃分的期望信息稱為屬性A的熵,為:
熵是一個(gè)衡量系統(tǒng)混亂程度的統(tǒng)計(jì)量。熵越大,表示系統(tǒng)越混亂。分類的目的是提取系統(tǒng)信息,使系統(tǒng)向更加有序、有規(guī)則組織的方向發(fā)展。所以自然而然的,最佳的分裂方案是使熵減少量最大。熵減少量就是Information Gain,所以,最佳分裂就是使 Gain(A)最大的分裂方案[4]。
根據(jù)XG飾品有限公司的客戶數(shù)據(jù)集D,構(gòu)造“客戶類別”的分類決策樹(shù)。根據(jù)計(jì)算可以得到各個(gè)屬性的Gain值,決定決策樹(shù)各級(jí)別的屬性,圖1顯示了該決策樹(shù)可預(yù)測(cè)列的屬性值。
圖1 決策樹(shù)可預(yù)測(cè)列的屬性值
決策樹(shù)算法是一個(gè)貪心算法,采用自頂向下的遞歸方式,通常分為兩個(gè)階段:決策樹(shù)的生成(Building)和決策樹(shù)修剪(Pruning)。建立樹(shù)的過(guò)程是不斷地把數(shù)據(jù)分割的過(guò)程,開(kāi)始時(shí)數(shù)據(jù)都在根節(jié)點(diǎn),然后遞歸地進(jìn)行數(shù)據(jù)分片,產(chǎn)生下一級(jí)節(jié)點(diǎn)。每次分割對(duì)應(yīng)一個(gè)問(wèn)題,也對(duì)應(yīng)一個(gè)節(jié)點(diǎn)。樹(shù)的剪枝即去掉一些可能是噪聲或異常的數(shù)據(jù)。在微軟的決策樹(shù)中,樹(shù)中的每一個(gè)節(jié)點(diǎn)代表一列特定事例,將此節(jié)點(diǎn)放在何處由算法計(jì)算做出,而且與其兄弟在不同深度的節(jié)點(diǎn)可能代表每列不同的事例,樹(shù)結(jié)構(gòu)的節(jié)點(diǎn)代表進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行分類的單個(gè)問(wèn)題。下面給出一種二叉樹(shù)的建樹(shù)算法程序[3]:
本文依托項(xiàng)目的企業(yè)目前采取的客戶政策比較被動(dòng),靠的是老客戶帶來(lái)新客戶,并沒(méi)有主動(dòng)尋找新客戶,由于種種原因,客戶源非常不穩(wěn)定,因而失去了很大的一片市場(chǎng)。
客戶分類是企業(yè)有效銷售、營(yíng)銷、服務(wù)的基礎(chǔ),是把大量的客戶分成不同的類,在每個(gè)類里的客戶擁有相似的屬性,而不同類別的客戶屬性也不同。通過(guò)分類分析推斷哪些客戶群是最有可能購(gòu)買的客戶,哪些對(duì)企業(yè)最有價(jià)值,為公司帶來(lái)最大利潤(rùn)的客戶群體的特征是什么。影響客戶分類的因素很多,最主要的因素有客戶自然屬性(如經(jīng)營(yíng)類型、渠道類型、所在地區(qū)、性別、年齡)、銷售額度等。在談?wù)摽蛻魞r(jià)值的時(shí)候,要了解客戶的購(gòu)買力、信譽(yù)度等其他的指標(biāo),可以結(jié)合飾品的銷售情況和客戶的信息,通過(guò)有關(guān)數(shù)據(jù)挖掘算法進(jìn)行分析。
根據(jù)客戶分類挖掘目標(biāo)決定其數(shù)據(jù)來(lái)源,在數(shù)據(jù)倉(cāng)庫(kù)中可以選擇客戶信息表和銷售事實(shí)表,它們提供客戶的基本信息和交易信息,由于交易信息流動(dòng)性很大,因此只選擇銷售事實(shí)表中2006年的數(shù)據(jù)。對(duì)客戶信息表的屬性只選擇客戶編碼、年齡、客戶類型、教育程度、性別、經(jīng)營(yíng)品牌、婚姻狀態(tài)、擁有車子數(shù)和年收入;對(duì)銷售事實(shí)表的屬性只選擇客戶編碼和銷售金額。
由于數(shù)據(jù)挖掘?qū)?shù)據(jù)有一些特殊的要求,因此必須作進(jìn)一步的數(shù)據(jù)處理工作。屬性的選擇是基于一個(gè)啟發(fā)式規(guī)則或者一個(gè)統(tǒng)計(jì)的度量,一般情況下,所選的屬性都是分類屬性,根據(jù)決策樹(shù)算法對(duì)數(shù)據(jù)的特殊要求,如果屬性是連續(xù)的,需要將其離散化,如客戶購(gòu)買產(chǎn)品的金額。
在數(shù)據(jù)源視圖中,實(shí)現(xiàn)年齡、年收入等連續(xù)數(shù)據(jù)的離散化。對(duì)vMemberCard的Age和YearlyIncome創(chuàng)建命名計(jì)算,手工離散化列,Age的手工離散化方法如下:
以同樣方式實(shí)現(xiàn)YearlyIncome的離散化,為數(shù)據(jù)挖掘提供所需的數(shù)據(jù)。
根據(jù)得到的客戶數(shù)據(jù),利用信息增益的計(jì)算提取認(rèn)為可能對(duì)購(gòu)買力變量有影響作用的變量作為數(shù)據(jù)挖掘的細(xì)分 變 量 , 包 含 Age、EducationLevel、Gender、MaritalStatus、Region、NumberCarsOwned、TotalChildren、YearlyIncome 這 些字段。本文中將數(shù)據(jù)劃分為2個(gè)表,分別作為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集用于訓(xùn)練模型,表中有2 300條記錄數(shù);測(cè)試數(shù)據(jù)集用于驗(yàn)證模型的準(zhǔn)確性,表中記錄有700條。
2.2.1 決策樹(shù)算法參數(shù)設(shè)置
Microsoft決策樹(shù)算法有許多參數(shù)。這些參數(shù)可以用來(lái)控制樹(shù)的增長(zhǎng)、樹(shù)的形狀和輸入/輸出屬性的設(shè)置。通過(guò)調(diào)整這些參數(shù)的設(shè)置,可以對(duì)模型的精確度進(jìn)行微調(diào),下面介紹本文涉及到的部分參數(shù)[4]。
Complexity_Penalty參數(shù):用來(lái)控制樹(shù)的增長(zhǎng)。它是一個(gè)浮點(diǎn)類型的參數(shù),值的范圍在0到1之間。值設(shè)置一般與輸入屬性的數(shù)量有關(guān)。由于本文采用的輸入屬性少于10個(gè),因而將這個(gè)值設(shè)得比較小。
Split_Method參數(shù):用來(lái)控制樹(shù)的形狀。Split_Method=1意味著只能采用二叉的方式進(jìn)行拆分;Split_Method=2意味著采用完全拆分方式;而當(dāng)Split_Method參數(shù)設(shè)置為3,決策樹(shù)將會(huì)針對(duì)實(shí)際的問(wèn)題自動(dòng)地選擇這兩種方式中較好的一種方式來(lái)對(duì)節(jié)點(diǎn)進(jìn)行拆分。因而,本文將Split_Method設(shè)為 3。
2.2.2 構(gòu)造分類數(shù)據(jù)挖掘模型
使用Analysis Services進(jìn)行本次數(shù)據(jù)挖掘,基于現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)中的表和列定義挖掘結(jié)構(gòu),以DecorationDW.dsv為數(shù)據(jù)源視圖,vMemberCard指定為分析時(shí)要使用的表類型,其中CustomerID變量為鍵,MemberCard變量作為 可 預(yù) 測(cè) 列 ,Age、EducationLevel、Gender、MaritalStatus、Region、NumberCarsOwned、TotalChildren、YearlyIncome 變 量作為輸入列,采用Microsoft決策樹(shù)模型為數(shù)據(jù)挖掘模型,且允許對(duì)挖掘模型進(jìn)行鉆取操作。
為了進(jìn)行準(zhǔn)確預(yù)測(cè),需要對(duì)挖掘模型進(jìn)一步處理,選擇 “DecorationDW_OLAP”的vMemberCard作為預(yù)測(cè)模型,Dim_Customer為事例表,此時(shí)就建立了兩張表之間的映射,以PredictProbability([v Member Card].[Member Card]函數(shù)為預(yù)測(cè)函數(shù)對(duì)客戶的會(huì)員卡類型進(jìn)行歸類、預(yù)測(cè)。
經(jīng)過(guò)挖掘軟件分析處理后,可以得到該公司客戶群的決策樹(shù)模型,將背景設(shè)為“Copper”后將呈現(xiàn)“Copper”客戶群的決策樹(shù)模型,如圖2所示。節(jié)點(diǎn)的底紋顏色越深,表示節(jié)點(diǎn)中的事例越多。例如,在第2級(jí)中YearlyIncome=“Low”該節(jié)點(diǎn)的底紋顏色較深,說(shuō)明其中客戶類型為“Copper”的事例 YearlyIncome=“Low”所占的比重較大。
圖2 Copper客戶類型的決策樹(shù)模型
通過(guò)對(duì)決策樹(shù)模型的分析可得出一些有用的信息,為公司管理層提供決策支持:
(1)在現(xiàn)有的數(shù)據(jù)基礎(chǔ)上,通過(guò)分類分析推斷哪些客戶群是最有可能購(gòu)買的客戶,哪些對(duì)企業(yè)最有價(jià)值,為公司帶來(lái)最大利潤(rùn)的客戶群體的特征是什么。
(2)通過(guò)決策樹(shù)了解到影響各種類型客戶的因素,可隨時(shí)關(guān)注各類潛在客戶的動(dòng)態(tài),擴(kuò)大客戶群。
(3)根據(jù)分析得到的各類客戶類型的特征及其購(gòu)買力,輔助公司更準(zhǔn)確地對(duì)客戶進(jìn)行定位,企業(yè)可以給不同類型的客戶提供個(gè)性化的服務(wù),建立與客戶的一種持續(xù)的個(gè)性化的關(guān)系,保持他們對(duì)企業(yè)和產(chǎn)品的忠誠(chéng),擴(kuò)大市場(chǎng),促進(jìn)銷售。
(4)根據(jù)各類客戶類型所占有的比重,調(diào)整公司的生產(chǎn)計(jì)劃,以更好地適應(yīng)市場(chǎng),以客戶為中心。
2.2.3 使用模型預(yù)測(cè)客戶
該企業(yè)采用的銷售方式比較靈活,針對(duì)于不同購(gòu)買量的用戶采取不同的折扣,客戶類型分為經(jīng)銷商(即簽約客戶)、零售商和散客。一般地級(jí)市銷售額達(dá)到一百萬(wàn)以上的稱為經(jīng)銷商,可以享受相當(dāng)優(yōu)惠的條件,而地級(jí)市以下的銷售額達(dá)到幾十萬(wàn)元的稱為零售商,普通的少量額度的客戶稱為散客。公司總共有3個(gè)品牌的產(chǎn)品,分為內(nèi)銷和外銷兩種方式,客戶根據(jù)自身情況可以與公司簽訂合約,不同銷售方式有不同的優(yōu)惠政策。企業(yè)根據(jù)以往客戶的購(gòu)買行為作為先驗(yàn)知識(shí),對(duì)每類用戶進(jìn)行分類,根據(jù)每類客戶的特征預(yù)測(cè)當(dāng)前客戶將會(huì)成為哪類客戶。
輸入一個(gè)新客戶屬性,通過(guò)DMX語(yǔ)句預(yù)測(cè)此客戶類型,如下所示:
查詢將以表的形式返回有關(guān)具有指定特征的客戶的會(huì)員卡類型和概率,如圖3所示。從該圖,可以看出輸入的此類客戶最有可能成為Copper類會(huì)員,企業(yè)可以根據(jù)挖掘信息對(duì)新客戶采取一定的優(yōu)惠政策,從而增加客戶量。
2.2.4 驗(yàn)證挖掘模型準(zhǔn)確性
以上用了訓(xùn)練集中的2 300條記錄進(jìn)行決策樹(shù)模型的構(gòu)造,這個(gè)構(gòu)造出的決策樹(shù)是否準(zhǔn)確,對(duì)其他的記錄是否具有判定和預(yù)測(cè)的作用,必須要對(duì)其進(jìn)行驗(yàn)證。在Analysis Services中,把擁有700條記錄的測(cè)試數(shù)據(jù)集作為輸入表,對(duì)前面構(gòu)造的挖掘模型進(jìn)行驗(yàn)證,把“v Member Card”作為可預(yù)測(cè)的列名。經(jīng)過(guò)處理分析后,得到如圖4的提升圖。
圖3 利用決策樹(shù)模型預(yù)測(cè)新客戶會(huì)員卡類型
圖4 挖掘結(jié)構(gòu)的數(shù)據(jù)挖掘提升圖
從圖4中的“挖掘圖例”表中可以得到:該決策樹(shù)挖掘模型的得分為0.89,分值較高;在樣本總體50%時(shí),理想模型的總體正確率是50%,而本文構(gòu)建的決策樹(shù)模型的總體正確率是46.5%。說(shuō)明這個(gè)模型的準(zhǔn)確率比較高,可以為決策支持提供幫助。
因此,飾品企業(yè)可以根據(jù)以上所得的決策樹(shù)模型來(lái)分析客戶數(shù)據(jù),獲得各類會(huì)員的特點(diǎn),對(duì)客戶進(jìn)行分類,實(shí)現(xiàn)對(duì)客戶價(jià)值度、客戶結(jié)構(gòu)等的研究。這樣有助于企業(yè)為不同類型的客戶制定針對(duì)性的營(yíng)銷策略,找到針對(duì)性強(qiáng)的銷售分市場(chǎng),穩(wěn)定并擴(kuò)大客戶群體。
本文提出了將數(shù)據(jù)挖掘技術(shù)應(yīng)用到飾品營(yíng)銷中,并以XG公司2005年1月至2007年6月期間的歷史數(shù)據(jù)為例,使用決策樹(shù)算法進(jìn)行飾品企業(yè)的客戶分類并對(duì)新客戶進(jìn)行預(yù)測(cè),且驗(yàn)證了所采用的挖掘模型的準(zhǔn)確性,實(shí)現(xiàn)對(duì)商業(yè)數(shù)據(jù)中隱藏信息的挖掘,從中提煉出對(duì)企業(yè)發(fā)展有用的信息,幫助領(lǐng)導(dǎo)正確定位客戶,實(shí)施個(gè)性化服務(wù),預(yù)測(cè)產(chǎn)品客戶群,及時(shí)調(diào)整產(chǎn)品營(yíng)銷策略,為飾品企業(yè)的決策提供了新的思路,具有一定的實(shí)用價(jià)值。
[1]周歡.CRM中客戶分類方法的研究與應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2008(3):659-661.
[2]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2005.
[3]Wallstreet.數(shù)據(jù)挖掘中的基于決策樹(shù)的分類方法[DB/OL]. http://gemini-leo.blog.hexun.com/661682_d.html,2005-07-30.
[4]ZhaoHui Tang,Jamie MacLennan.數(shù)據(jù)挖掘原理與應(yīng)用-SQL Server 2005數(shù)據(jù)庫(kù)[M].鄺祝芳譯.北京:清華大學(xué)出版社,2007.
網(wǎng)絡(luò)安全與數(shù)據(jù)管理2011年11期