吳 迅,楊亞能,王曉東,薛 明,楊 柳
(湖北物資流通技術(shù)研究所,湖北 襄陽 441002)
物流行業(yè)作為我國(guó)國(guó)民經(jīng)濟(jì)的重要產(chǎn)業(yè),近年來發(fā)展迅速,特別是隨著電子商務(wù)的快速發(fā)展,網(wǎng)上購物的興盛,物流業(yè)更是迎來了發(fā)展的春天。正是因?yàn)槲锪鳂I(yè)的快速發(fā)展,跟物流相關(guān)的快遞企業(yè)如雨后春筍般一個(gè)個(gè)破土而出,這些快遞企業(yè)之間形成了競(jìng)爭(zhēng),而制約這些快遞企業(yè)能夠穩(wěn)定健康發(fā)展的最重要的因素便是快遞的客源量。本文正是在這個(gè)背景之下,利用數(shù)據(jù)挖掘的方法,選擇國(guó)內(nèi)五家快遞公司為研究對(duì)象,研究什么樣的因素會(huì)造成客戶選擇哪一個(gè)品牌的快遞,并把影響客戶選擇哪一個(gè)快遞品牌的條件提供給各品牌快遞公司,以供其有針對(duì)性的選擇并發(fā)展客源。
本節(jié)主要通過采集可能影響客戶選擇快遞品牌的多種因素?cái)?shù)據(jù),并對(duì)這些數(shù)據(jù)做相應(yīng)的數(shù)據(jù)處理,同時(shí)通過閱讀數(shù)據(jù)挖掘相關(guān)文獻(xiàn),得到一種能夠分析處理這些采集過來數(shù)據(jù)的方法,并利用該方法實(shí)現(xiàn)對(duì)數(shù)據(jù)的挖掘分析。其總體流程圖如圖1所示。
針對(duì)有快遞需求的人們,通過他們對(duì)快遞選擇的主觀意識(shí)和客觀行為活動(dòng)的研究,確定出影響人們對(duì)快遞品牌選擇的幾個(gè)主要因素,它們分別為:客戶年齡(age),客戶性別(gender),客戶工作(job),客戶受教育程度(education),客戶對(duì)某個(gè)品牌快遞的主觀印象好壞(evaluation),客戶的收入(income),了解所選擇快遞的方式(contact)。并把這些數(shù)據(jù)轉(zhuǎn)換成Excel 表格的形式。其中客戶性別用m 表示男性,w表示女性;客戶工作用r表示白領(lǐng)類工作,e表示藍(lán)領(lǐng)類工作,w表示其他類型工作;受教育程度用r表示研究生以上學(xué)歷,b表示大?;蛘弑究茖W(xué)歷,o表示其它學(xué)歷;客戶對(duì)某個(gè)品牌快遞的主觀印象好壞分別用A、B、C、D、E 代表三通一達(dá)與順風(fēng)五種品牌的快遞,了解所選擇快遞的方式用D代表快遞公司本身的宣傳,用I 代表通過其它人的介紹,用W 代表通過網(wǎng)絡(luò)查詢獲得。
圖1 總體流程圖
在獲取的數(shù)據(jù)中,存在著原始數(shù)據(jù)的離散化程度不夠,影響數(shù)據(jù)分析結(jié)果的缺陷,為了克服該缺陷,必須進(jìn)行一些數(shù)據(jù)的處理,在本文中處理前的數(shù)據(jù)利用數(shù)據(jù)分析軟件WEKA分析的結(jié)果如圖2所示。
圖2 處理前數(shù)據(jù)
在圖2中,八幅圖片中除最后一幅圖kind屬性代表上述七種因素作用的結(jié)果外,其它七幅圖分別代表七種影響因素,每幅圖中每個(gè)直方圖的高低代表屬性的數(shù)量,直方圖中不同的顏色代表這個(gè)屬性在不同取值時(shí)五種快遞各自所占的比例。可以明顯的看到客戶年齡(age)和客戶收入(income)數(shù)據(jù)在橫坐標(biāo)上連續(xù)分布,沒有斷點(diǎn),對(duì)于離散化的數(shù)據(jù)分析會(huì)產(chǎn)生一定的影響。利用Python 程序?qū)xcel 數(shù)據(jù)進(jìn)行處理,把客戶年齡分成4個(gè)階段,用字母J表示九零后及其以下的年齡,B 表示八零后,Q 表示七零后,L表示六零后及其以上的年齡。把客戶收入同樣也分成4 個(gè)等次,用字母G 表示超高收入,M1 表示高收入,M2表示中等收入,D表示低收入。處理后的數(shù)據(jù)如圖3所示。
圖3 處理后的數(shù)據(jù)
本節(jié)利用J48 即C4.5 算法對(duì)上述經(jīng)過采集處理后的數(shù)據(jù)進(jìn)行挖掘分類,并根據(jù)分類結(jié)果得到最能影響人們選擇快遞品牌的條件。
J48算法是在ID3算法的基礎(chǔ)之上優(yōu)化改進(jìn)而來的,但與ID3 算法不同的是J48 算法挑選的是數(shù)據(jù)中最高信息增益率的屬性為測(cè)試屬性。其基本思想是在樣本集T中,假設(shè)變量a有k個(gè)屬性,它們的取值分別為 a1,a2,...,ak,相應(yīng)的a取值為 ai的樣本集中有ni個(gè)數(shù),假設(shè)n 為所有樣本數(shù)的和,有n1+n2+...+ni=n,則為了獲取樣本a 的屬性信息所付出的代價(jià)可以用a的熵值H(X,a)表示為:
信息增益率可以定義為平均互信息比上獲取a信息所付出的代價(jià),可以表示為:
具體建樹過程見表1。
輸入:訓(xùn)練集S,特征集A。輸出:決策規(guī)則集
算法:C45_DT(A,S)
表1 J48算法建樹過程
在WEKA 平臺(tái)上,以上述J48 算法為基礎(chǔ),建立J48 算法模型,再以上述采集到的數(shù)據(jù)為研究對(duì)象,把這些數(shù)據(jù)在J48算法模型中進(jìn)行訓(xùn)練,調(diào)整模型以及模型參數(shù),最終通過不斷的調(diào)整參數(shù),得到的最好分類結(jié)果如圖4所示。
圖4 分類的結(jié)果
在圖4中,所建立的模型分類正確率為70%,該模型具有很高的參考價(jià)值。得到的決策樹如圖5所示。
圖5 決策樹
在圖5中,可以看到影響一個(gè)人對(duì)哪種快遞品牌選擇的最重要的因素是Evalution,即客戶對(duì)某個(gè)品牌快遞的主觀印象好壞,其次是inconme即客戶收入以及age 即客戶年齡,最次要的是客戶的性別,該決策樹由四層組成,每層之間是與的關(guān)系,Evalution 為樹的根節(jié)點(diǎn),客戶對(duì)哪種品牌快遞的選擇會(huì)受到如下條件的影響:
(1)當(dāng)客戶對(duì)A快遞的主觀印象比較好,收入為超高(G)和高(M1)時(shí)會(huì)選擇A快遞,收入為低(D)時(shí)會(huì)選擇E 快遞,收入為中等(M2),性別為男性(m)時(shí)會(huì)選擇A快遞,性別為女性(w)時(shí)會(huì)選擇C快遞。
(2)當(dāng)客戶對(duì)B快遞和D快遞的主觀印象比較好時(shí),會(huì)直接選擇B和D快遞。
(3)當(dāng)客戶對(duì)C 快遞的主觀印象比較好,且年齡為八零后(B)、六零后及其以上(L)、七零后(Q)時(shí),會(huì)選擇A快遞,年齡為九零后(J)時(shí)會(huì)選擇C快遞。
(4)當(dāng)客戶對(duì)E 快遞的主觀印象比較好,且收入為高(M1)、中等(M2)、低(D)時(shí)會(huì)選擇E 快遞,當(dāng)收入為超高(G)時(shí),會(huì)選擇A快遞。
本文通過對(duì)有快遞需求的客戶主觀意識(shí)和客觀情況進(jìn)行研究,選取了可能影響客戶選擇快遞品牌的多種因素?cái)?shù)據(jù)—客戶的年齡、性別、工作、收入、受教育程度以及對(duì)某個(gè)品牌快遞的主觀印象好壞,并把影響客戶選擇快遞品牌的這些數(shù)據(jù)通過數(shù)據(jù)挖掘技術(shù)中的J48算法建立了模型,通過參數(shù)的調(diào)整得到了正確率最高的模型,以及得到了影響客戶選擇快遞品牌的決策樹,通過該決策樹,得到了影響客戶選擇快遞品牌的四個(gè)先決條件。同時(shí),在該決策樹的建立中,由于采集的影響因素偏少,采集的數(shù)據(jù)量偏小,導(dǎo)致模型的正確率沒有達(dá)到最佳狀態(tài),決策樹的普適性不高,在今后的研究中將加大對(duì)影響因素的設(shè)定和數(shù)據(jù)量的采集,以達(dá)到?jīng)Q策樹普適性的條件。