林 輝(渭南師范學院信息與教育技術中心,陜西渭南,714000)
基于改進聚類算法的客戶分類系統的設計與研究
林 輝
(渭南師范學院信息與教育技術中心,陜西渭南,714000)
考慮到現有客戶關系關系存在的一些問題,本文引入了模糊數學的相關算法,給數據對象的隸屬度加上一個權值,以及在算法中采用有效性函數來自動確定聚類的初始數目,理論分析與實驗結果表明,在客戶關系管理環(huán)境下所引入的改進模糊聚類算法比傳統模糊聚類算法有更好的聚類效果,更快的聚類速度,為企業(yè)對不同客戶采用不同營銷策略提供了依據。
模糊;聚類;客戶分類
越來越多的企業(yè)都認識到到客戶和市場在對企業(yè)的重要性,越來越多的企業(yè)正在提高客戶對企業(yè)的忠誠度。逐步建立以客戶和市場為方向的的經營模式。隨著計算機計算的快速發(fā)展,很多科研機構把CRM作為重點研究對象,CRM系統和一定服務系統的結合,提高客戶滿意度和忠誠度,能給企業(yè)帶來長久發(fā)展的一種理念。
客戶關系管理(Customer Relationship Management,簡稱CRM)就是為企業(yè)提供全方位的管理視角,給企業(yè)提供完善的和客戶進行交流能力,給公司帶來最大的收益。對CRM我們可以這樣理解。一方面,從經營管理的方面考慮,CRM是一種以客戶為中心的思想,采用信息化技術,重新規(guī)劃各個和客戶交流的模塊以減少單位支出,開拓新的業(yè)務。在另一方面, CRM也為以客戶為中心的商業(yè)模型提供支持的一套軟件系統,包含多種員工與客戶交流的方式。
我們依據“高內聚,低耦合”的軟件設計理念,本文采用三層架構,對三層架構各層劃分如下任務:
數據訪問層-數據源打交道,也就是負責數據的增刪查改,它不了解數據的邏輯性和正確性。
業(yè)務邏輯層-負責系統邏輯性數據的處理和轉換。對輸入的數據的正確性進行檢查。
表示層-負責檢查數據的正確性和邏輯性,發(fā)現數據的錯誤。系統構架如下:
圖1-1系統結構圖
2.1 數據庫設計
把需求分析得到的具體要求抽象為信息結構即概念模型的過程就是概念結構的設計。概念結構設計的方式有:自頂向下、自底向上、逐步擴張、混合策略、混合策略,本文下面表:客戶信息表,聯系信息表,賬戶信息、業(yè)務信息、客戶投訴/服務信息、信息用戶信息
2.2 邏輯結構設計
根據系統需求,本系統建立如下視圖讓信息統計模塊使用:賬號,業(yè)務編號,業(yè)務流水號,投訴編號,交易流水號。
2.3 數據倉庫創(chuàng)建
數據倉庫是不斷變化的數據的集合,是對單位業(yè)務數據的整合、處理的過程。本系統采用星型構架建設數據倉庫。
2.4 數據訪問層接口實現
首先對各層的功能進行明確劃分,本文中,數據訪問層負責數據的增刪查改,由于它對業(yè)務不了解,不負責業(yè)務邏輯的解釋
2.5 業(yè)務邏輯接口的實現
業(yè)務邏輯負責完成與系統領域相關的業(yè)務邏輯,通過調用數據訪問層來實現,對業(yè)務相關的數據有效性解釋,不同的領域的業(yè)務邏輯差別很大,在實際中,業(yè)務邏輯的設計要業(yè)務專家結合。
一般見到的聚類是硬聚類,具有非此即彼的特性。Dunn把模糊數學的思想引入到硬聚類算法中,Bezdk給模糊聚類的隸屬度引入了權重m這個概念。模糊聚類通過使目標函數最小化從而得到最優(yōu)聚類的結果,模糊聚類是根據樣本之間的特征、親疏程度和相似性,通過建立類別之間的模糊劃分,作為數理統計中的一種多元分析方法,現在已經用于到很多應用中。
模糊聚類算法也有下面問題:(1)離群點屬于哪一類很難決定(2)必須在算法執(zhí)行前設置劃分類別數目和權重因子(3)很容易陷入局部極小點或者鞍點,從而得不到全局最小值。
4.1 減少離群點的干擾
為了減小離群點對聚類中心的影響,在隸屬度矩陣中加上一個權重因子,讓隸屬度低的點對聚類中心起的作用比較小,把隸屬度調整為為
4.2 對劃分為多少個類的數目的確定
提前確定劃分類別不很不科學,會影響聚類的執(zhí)行時間。將聚類的有效性函數添加到FCM算法中,采用有效性函數來決定劃分類別數的值。具體算法如下:
步驟4:求聚類有效性函數的結果,若已經達到最小值,則得到數據聚類類別數目,否則跳轉到1重新執(zhí)行程序。
數據是采用隨機抽取的100個樣本信息,由于客戶的數據有5個參數:年齡、總資產、現金、公司交易量、盈利情況,各個數據的量綱不同,或者量綱相同,但是數量級不同,直接用原始數據計算會出現“大數吃小數”的現象,所以,在實驗之前,對數據進行標準化處理。應用改進模糊聚類算法,設定加權參數為2,停止閾值為0.0001,差異度采用歐幾里得距離公式計算。下表列出了聚類中心陣和聚類結果的檢測指標。
表1 聚類結果Tab.1 The Result of Clustering
得到的劃分矩陣表明用戶對各個類別的隸屬程度,對其中的兩組用戶數據分析:
客戶1:0.0065,0.9550,0.0386
客戶2:0.1575,0.0001,0.8451
隸屬度矩陣的每列數據表示該客戶對一個特定的類別的隸屬程度,每一列數據總和為1,表示該客戶對所有分類類別的隸屬度之和為1。根據樣本判定的選擇原理,該客戶數據對某個類別的隸屬度越大,認為該客戶應該屬于這個類別。從上面數據可以看出。用戶1對類別2的隸屬度為0.9550,我們認為用戶1屬于第2類,樣本2對類別3的隸屬度為0.8451。我們認為用戶2應該屬于第2類,同時樣本2隸屬于類別1有的數值為0.1575,表明客戶2還具有類別1的特征。
本實驗把企業(yè)的客戶劃分成不同的種類,區(qū)別出不用種類的特點。下表對3類客戶的特性進行了小結:
表2 用戶特征分析Tab.2 The Analysis of Customer Feature
對于表2的分析結果,我們可以看到采用年齡、總資產、現金、公司交易量、盈利作為客戶分類的參數,從劃分出的類別可以看出不同客戶類別對企業(yè)的忠誠度,發(fā)現潛在客戶,對企業(yè)利潤的貢獻大小和客戶估計要流失的可能性。
這次實驗是根據客戶的以前的交易數據進行聚類的,客戶最近的交易記錄對聚類結果的影響很大。企業(yè)通過CRM,能發(fā)現對企業(yè)利潤貢獻大的客戶,對不同的客戶類別,實施不同的策略,提高客戶對企業(yè)的忠誠度,吸引大客戶,留住現有的客戶,避免客戶的流失,提高企業(yè)的利潤。本文改進的模糊聚類算法能夠自動產生聚類類別數目,降低了人工干預初始化聚類數目的影響,有比較好的收斂速度和聚類結果。
[1] 呂延杰、尹濤、王琦,客戶關系管理與主題分析[M],北京:人民郵電出版社,2002.
[2] 何榮勤,CRM原理、設計、實施[M],北京:電子工業(yè)出版社.2003.
[3] 張躍.模糊數學方法及其應用[M].北京:煤炭工業(yè)出版社.1992
[4] 高新波.模糊聚類分析及其應用[M].西安:西安電子科技大學出版社.2004
[5] 何清.模糊聚類分析理論與應用研究進展[J],模糊系統與數學,1998,12(2):89-94.
Design and Research on customer classification system based on improved clustering algorithm
Lin Hui
(Weinan Normal University Information and Educational Technology Center,Shaanxi weinan,714000)
In order to overcome the shortrage of CRM,the paper introduces the related algorithm of fuzzy mathematics.degree of membership of the data is added weighted value and the choice for parameter of number of clusters based on cluster validity function.Experiments also show that the modified FCM has a better cluster result and has faster clustering rate,provide the basis for the enterprise to the customer classification
fuzzy clustering;customer classification
TP393
A
林輝(1982-),男,陜西西安人,工程師,碩士,研究方向為網絡安全。
渭南師范學院科研重點項目——14ykf005 網絡及信息安全及其應用關鍵技術