陳青艷 劉曉平 趙? B
摘 要:根據(jù)現(xiàn)有電子商務(wù)平臺(tái)的海量數(shù)據(jù)存儲(chǔ)及處理的需要,提出了基于大數(shù)據(jù)的貿(mào)易分析模塊的構(gòu)建。文章重點(diǎn)介紹了系統(tǒng)的框架結(jié)構(gòu)、客戶流失和用戶價(jià)值度分析和設(shè)計(jì)。構(gòu)建的貿(mào)易分析模塊系統(tǒng)可以對(duì)客戶流失進(jìn)行預(yù)警,在一定程度上幫助挽留客戶,降低客戶流失率。
關(guān)鍵詞:大數(shù)據(jù);貿(mào)易分析模塊的構(gòu)建;客戶流失
電子商務(wù)為企業(yè)積累了海量的原始數(shù)據(jù),記錄了客戶的瀏覽行為、關(guān)注內(nèi)容、交易方式等有價(jià)值的信息,但是如何發(fā)揮這些數(shù)據(jù)的效用,挖掘經(jīng)營(yíng)活動(dòng)的模式或者規(guī)律,是每個(gè)企業(yè)提升競(jìng)爭(zhēng)力的一個(gè)重要手段。因此,對(duì)貿(mào)易經(jīng)營(yíng)活動(dòng)的分析成為企業(yè)的重要工作內(nèi)容。本文充分利用過(guò)去累積的大量原始銷售數(shù)據(jù)、客戶瀏覽行為日志等重要資源,采用數(shù)據(jù)挖掘中的決策樹(shù)等智能數(shù)據(jù)分析算法,構(gòu)建貿(mào)易分析平臺(tái)。
1 貿(mào)易分析模塊功能需求分析
1.1 客戶流失
在這個(gè)模塊中,我們引入了基于信息論的較成熟的數(shù)據(jù)挖掘算法ID3決策樹(shù)及其改進(jìn)算法C4.5決策樹(shù)對(duì)客戶流失進(jìn)行深入的分析研究。可以推導(dǎo)出一個(gè)較容易流失的客戶名單,再結(jié)合每個(gè)客戶的價(jià)值度分值,公司可以區(qū)別性地采取一些挽留措施,用來(lái)提高公司的營(yíng)銷額。
1.2 客戶細(xì)分
電子商務(wù)企業(yè)提供符合不同客戶需求的產(chǎn)品和服務(wù),來(lái)滿足多樣化的需求,從而使不同的客戶都對(duì)企業(yè)滿意,就需要將客戶根據(jù)不同的標(biāo)準(zhǔn)進(jìn)行細(xì)分,以達(dá)到客戶和企業(yè)之間建立長(zhǎng)久穩(wěn)固的關(guān)系。盡管每個(gè)小群體中的成員不可能做到消費(fèi)行為完全一致,但也可以表現(xiàn)出一定的共性,企業(yè)在掌握了這些小群體的共性以后,就可以針對(duì)性地制定營(yíng)銷策略,指導(dǎo)公司的發(fā)展。
1.3 客戶價(jià)值度
客戶價(jià)值度,即企業(yè)從客戶的購(gòu)買中所實(shí)現(xiàn)的企業(yè)收益。對(duì)于企業(yè)來(lái)說(shuō),一個(gè)偶爾接觸的客戶和一個(gè)經(jīng)常購(gòu)買的客戶是具有不同的客戶價(jià)值。我們可以根據(jù)客戶的消費(fèi)行為方式和消費(fèi)的具體特征等變量來(lái)預(yù)測(cè)出客戶價(jià)值。要分析客戶對(duì)企業(yè)的盈利價(jià)值的高低,我們需要根據(jù)傳統(tǒng)經(jīng)驗(yàn)獲取相當(dāng)數(shù)量的樣本,然后再采用決策樹(shù)分類算法對(duì)其進(jìn)行深入研究進(jìn)而分析,獲取決策樹(shù)模型后,就可以針對(duì)一般的客戶進(jìn)行預(yù)測(cè)了[1]。
2 貿(mào)易分析模塊的框架結(jié)構(gòu)
貿(mào)易分析模塊的主要構(gòu)件模塊有:前臺(tái)界面接口(系統(tǒng)用戶操作界面)、數(shù)據(jù)挖掘引擎(各種挖掘算法的實(shí)現(xiàn)模塊)和數(shù)據(jù)獲取與預(yù)處理。主要的結(jié)構(gòu)如圖1所示。
這幾個(gè)模塊的主要功能詳述如下。
2.1 前臺(tái)界面
前臺(tái)界面是整個(gè)模塊展示給所有系統(tǒng)使用者的可視操作部分,主要有3個(gè)方面的功能:首先是任務(wù)理解,指以數(shù)據(jù)挖掘語(yǔ)言形式或者其他方式指定查詢?nèi)蝿?wù)以及必要的幫助信息。其次是可視化,主要用來(lái)展示數(shù)據(jù)挖掘的結(jié)果,方便系統(tǒng)用戶對(duì)挖掘推理出的模式進(jìn)行評(píng)估。前臺(tái)界面與數(shù)據(jù)挖掘引擎是相互獨(dú)立的,通過(guò)接口進(jìn)行交互,用戶不能直接操作挖掘引擎,而是前臺(tái)根據(jù)發(fā)送數(shù)據(jù)挖掘任務(wù)信息的反饋結(jié)果,進(jìn)行探索式挖掘。另外,系統(tǒng)用戶還可以通過(guò)前臺(tái)界面查看數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)模式以及數(shù)據(jù)結(jié)構(gòu)的可視化視圖,用于對(duì)不同數(shù)據(jù)挖掘模式的評(píng)估。最后就是模式評(píng)估了,主要采用興趣度對(duì)模式的實(shí)際意義進(jìn)行衡量,也可對(duì)推導(dǎo)出的模式進(jìn)行過(guò)濾,最后得出最有價(jià)值的模式。
2.2 數(shù)據(jù)挖掘算法
數(shù)據(jù)挖掘算法是系統(tǒng)的數(shù)據(jù)挖掘引擎模塊,主要包含了各個(gè)相關(guān)的挖掘算法,包括關(guān)聯(lián)規(guī)則、聚類分類等,從而對(duì)數(shù)據(jù)進(jìn)行分析和預(yù)測(cè),推導(dǎo)出潛在的模式和規(guī)律。
2.3 應(yīng)用組件
應(yīng)用組件主要是根據(jù)客戶的實(shí)際需求選擇適當(dāng)?shù)臄?shù)據(jù)挖掘算法,幫助用戶完成用戶細(xì)分、客戶流失分析等任務(wù)。
2.4 數(shù)據(jù)模塊
數(shù)據(jù)模塊是系統(tǒng)的最底層,也是最重要的基礎(chǔ)數(shù)據(jù)處理部分。主要是完成對(duì)原始數(shù)據(jù)的除噪、篩選任務(wù),然后集合不同的數(shù)據(jù)源,并按照可進(jìn)行挖掘的形式對(duì)數(shù)據(jù)進(jìn)行變換,最后選出與任務(wù)相關(guān)的數(shù)據(jù)交給數(shù)據(jù)挖掘引擎進(jìn)行處理。
3 客戶流失分析模塊設(shè)計(jì)與實(shí)現(xiàn)
本文采用數(shù)據(jù)挖掘技術(shù),建立客戶流失預(yù)測(cè)模型,從而找出促進(jìn)客戶流失的最重要的因素,生成一個(gè)客戶流失預(yù)測(cè)名單,然后再結(jié)合這些客戶的價(jià)值度,推導(dǎo)出一個(gè)合理的挽留措施,幫助公司制定適當(dāng)?shù)臎Q策策略,保持高盈利和客戶的忠誠(chéng)度??梢圆捎玫姆椒ㄓ袛?shù)據(jù)挖掘技術(shù)的分類和聚類,兩者的區(qū)別在于分類需要事先知道樣本分類,而聚類則不需要。本文選取分類算法中的決策樹(shù)方法簡(jiǎn)便、易于理解,代表性的算法包括ID3算法、C4.5算法等。
建立數(shù)據(jù)挖掘客戶流失預(yù)測(cè)模型的步驟主要有以下幾點(diǎn):數(shù)據(jù)整合、數(shù)據(jù)處理(數(shù)據(jù)除噪、數(shù)據(jù)抽取、數(shù)據(jù)泛化等)以及數(shù)據(jù)挖掘算法實(shí)現(xiàn),各相關(guān)步驟如下[2]。
3.1 數(shù)據(jù)整合
客戶流失分析所需要的客戶數(shù)據(jù)和交易數(shù)據(jù)分別存放在客戶索引表和訂單表等多個(gè)表中。因此首先要對(duì)這些數(shù)據(jù)除噪,去除不要的屬性如客戶電話、年齡等信息,提取有用的信息。
3.2 數(shù)據(jù)處理
信息提取的一個(gè)原則就是能集中反映客戶類型、客戶背景、交易相關(guān)的信息,然后將提取出來(lái)的信息經(jīng)過(guò)整理以后存入一個(gè)新的表格,放進(jìn)數(shù)據(jù)倉(cāng)庫(kù),供挖掘算法使用。若客戶在注冊(cè)時(shí)或者實(shí)際的交易中,跳過(guò)商務(wù)平臺(tái)提供的一些選項(xiàng)不填,那么我們對(duì)這種客戶抽取出來(lái)的數(shù)據(jù)有可能會(huì)存在很多空白數(shù)據(jù)項(xiàng)。系統(tǒng)需要提供一些措施對(duì)這些空白項(xiàng)數(shù)據(jù)項(xiàng)進(jìn)行處理,要么去除記錄,要么填入缺省值,缺省值的選擇視不同屬性而異,一般數(shù)值型的數(shù)據(jù)選取其平均值。
泛化處理后的客戶信息數(shù)據(jù)表中數(shù)據(jù)的類型仍可能不符合數(shù)據(jù)挖掘算法的要求,仍需要進(jìn)行轉(zhuǎn)換處理。一般而言,ID3算法的數(shù)據(jù)要求是離散型的,而C4.5算法則可自動(dòng)對(duì)數(shù)據(jù)進(jìn)行離散處理,只是有時(shí)候離散化分的數(shù)據(jù)邊界不太符合人們的習(xí)慣。本系統(tǒng)中由分析人員依據(jù)經(jīng)驗(yàn)對(duì)屬性值進(jìn)行離散化劃分。
3.3 數(shù)據(jù)挖掘
本系統(tǒng)采用ID3算法和C4.5決策樹(shù)分類算法,根據(jù)離散屬性集的集合來(lái)做出系列判斷將數(shù)據(jù)分類,算法對(duì)客戶流失原因進(jìn)行分析。圖2是一個(gè)決策樹(shù)示例,圖中決策樹(shù)把所有的客戶按照客戶類型、交易金額和月交易頻率來(lái)分類,直觀,易于理解。系統(tǒng)最后把推導(dǎo)出的結(jié)果和相關(guān)數(shù)據(jù)以可視化的形式傳遞給前臺(tái)用戶,以此為依據(jù)對(duì)模型進(jìn)行評(píng)估。
4 客戶細(xì)分分析模塊設(shè)計(jì)與實(shí)現(xiàn)
客戶細(xì)分也可以采用聚類或者分類算法實(shí)現(xiàn)。在本系統(tǒng)中,我們選擇使用K-means聚類算法對(duì)客戶進(jìn)行細(xì)分。所需要的源數(shù)據(jù)與客戶流失分析的源數(shù)據(jù)相同,但是也需要去除噪聲和信息抽取、離散化的處理。然后,對(duì)這些數(shù)據(jù)采用K-means聚類算法進(jìn)行分析處理,推出的結(jié)果可以用圖形進(jìn)行展示。用戶通過(guò)查看圖形化的聚類結(jié)果以及各分組中數(shù)據(jù)的信息來(lái)輔助自己的商務(wù)經(jīng)營(yíng)活動(dòng)[3]。
5 客戶價(jià)值分析模塊設(shè)計(jì)與實(shí)現(xiàn)
要對(duì)客戶進(jìn)行盈利分析,首先必須要找一個(gè)能有效衡量客戶盈利能力的標(biāo)準(zhǔn),這個(gè)問(wèn)題比較難,因?yàn)椴煌挠脩艉凸ぷ魅藛T有著不同的看法和理解。本系統(tǒng)使用的方法是先累積市場(chǎng)經(jīng)驗(yàn),對(duì)獲取的樣本數(shù)據(jù)中的客戶盈利能力進(jìn)行分類。這些分類樣本達(dá)到一定的數(shù)量以后,就可以使用決策樹(shù)分類算法進(jìn)行學(xué)習(xí)預(yù)測(cè),從而生成一個(gè)決策樹(shù)模型,對(duì)一般用戶進(jìn)行預(yù)測(cè)[4]。
6 結(jié)語(yǔ)
基于J2EE的3層結(jié)構(gòu)的網(wǎng)上商店管理系統(tǒng)平臺(tái)的開(kāi)發(fā)與設(shè)計(jì),并將統(tǒng)一業(yè)務(wù)處理方案以及數(shù)據(jù)挖掘智能數(shù)據(jù)分析方法應(yīng)用在所設(shè)計(jì)的系統(tǒng)之中,把數(shù)據(jù)挖掘算法引入系統(tǒng)的貿(mào)易分析模塊,為決策者提供智能指導(dǎo)。下一步需要更深入研究算法,不斷優(yōu)化算法,提高運(yùn)行的效率。
[參考文獻(xiàn)]
[1]王炎.數(shù)據(jù)挖掘技術(shù)下的個(gè)性化智能推薦系統(tǒng)設(shè)計(jì)[J].微型電腦應(yīng)用,2019(2):119-121.
[2]柳林,涂光平,楊峰.基于決策樹(shù)的數(shù)據(jù)挖掘方法在CRM中的應(yīng)用研究[J].計(jì)算技術(shù)與自動(dòng)化,2006(1):67-69.
[3]范潔,楊岳湘,溫璞.C4.5算法在在線學(xué)習(xí)行為評(píng)估系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2006(6):946-948.
[4]李章威,陳麗,曹子谞.大數(shù)據(jù)環(huán)境下智能推薦系統(tǒng)中協(xié)同過(guò)濾算法研究[J].電腦編程技巧與維護(hù),2016(11):78-79.