吳 迅,楊亞能,王曉東,薛 明,楊 柳
(湖北物資流通技術研究所,湖北 襄陽 441002)
物流行業(yè)作為我國國民經(jīng)濟的重要產業(yè),近年來發(fā)展迅速,特別是隨著電子商務的快速發(fā)展,網(wǎng)上購物的興盛,物流業(yè)更是迎來了發(fā)展的春天。正是因為物流業(yè)的快速發(fā)展,跟物流相關的快遞企業(yè)如雨后春筍般一個個破土而出,這些快遞企業(yè)之間形成了競爭,而制約這些快遞企業(yè)能夠穩(wěn)定健康發(fā)展的最重要的因素便是快遞的客源量。本文正是在這個背景之下,利用數(shù)據(jù)挖掘的方法,選擇國內五家快遞公司為研究對象,研究什么樣的因素會造成客戶選擇哪一個品牌的快遞,并把影響客戶選擇哪一個快遞品牌的條件提供給各品牌快遞公司,以供其有針對性的選擇并發(fā)展客源。
本節(jié)主要通過采集可能影響客戶選擇快遞品牌的多種因素數(shù)據(jù),并對這些數(shù)據(jù)做相應的數(shù)據(jù)處理,同時通過閱讀數(shù)據(jù)挖掘相關文獻,得到一種能夠分析處理這些采集過來數(shù)據(jù)的方法,并利用該方法實現(xiàn)對數(shù)據(jù)的挖掘分析。其總體流程圖如圖1所示。
針對有快遞需求的人們,通過他們對快遞選擇的主觀意識和客觀行為活動的研究,確定出影響人們對快遞品牌選擇的幾個主要因素,它們分別為:客戶年齡(age),客戶性別(gender),客戶工作(job),客戶受教育程度(education),客戶對某個品牌快遞的主觀印象好壞(evaluation),客戶的收入(income),了解所選擇快遞的方式(contact)。并把這些數(shù)據(jù)轉換成Excel 表格的形式。其中客戶性別用m 表示男性,w表示女性;客戶工作用r表示白領類工作,e表示藍領類工作,w表示其他類型工作;受教育程度用r表示研究生以上學歷,b表示大專或者本科學歷,o表示其它學歷;客戶對某個品牌快遞的主觀印象好壞分別用A、B、C、D、E 代表三通一達與順風五種品牌的快遞,了解所選擇快遞的方式用D代表快遞公司本身的宣傳,用I 代表通過其它人的介紹,用W 代表通過網(wǎng)絡查詢獲得。
圖1 總體流程圖
在獲取的數(shù)據(jù)中,存在著原始數(shù)據(jù)的離散化程度不夠,影響數(shù)據(jù)分析結果的缺陷,為了克服該缺陷,必須進行一些數(shù)據(jù)的處理,在本文中處理前的數(shù)據(jù)利用數(shù)據(jù)分析軟件WEKA分析的結果如圖2所示。
圖2 處理前數(shù)據(jù)
在圖2中,八幅圖片中除最后一幅圖kind屬性代表上述七種因素作用的結果外,其它七幅圖分別代表七種影響因素,每幅圖中每個直方圖的高低代表屬性的數(shù)量,直方圖中不同的顏色代表這個屬性在不同取值時五種快遞各自所占的比例??梢悦黠@的看到客戶年齡(age)和客戶收入(income)數(shù)據(jù)在橫坐標上連續(xù)分布,沒有斷點,對于離散化的數(shù)據(jù)分析會產生一定的影響。利用Python 程序對Excel 數(shù)據(jù)進行處理,把客戶年齡分成4個階段,用字母J表示九零后及其以下的年齡,B 表示八零后,Q 表示七零后,L表示六零后及其以上的年齡。把客戶收入同樣也分成4 個等次,用字母G 表示超高收入,M1 表示高收入,M2表示中等收入,D表示低收入。處理后的數(shù)據(jù)如圖3所示。
圖3 處理后的數(shù)據(jù)
本節(jié)利用J48 即C4.5 算法對上述經(jīng)過采集處理后的數(shù)據(jù)進行挖掘分類,并根據(jù)分類結果得到最能影響人們選擇快遞品牌的條件。
J48算法是在ID3算法的基礎之上優(yōu)化改進而來的,但與ID3 算法不同的是J48 算法挑選的是數(shù)據(jù)中最高信息增益率的屬性為測試屬性。其基本思想是在樣本集T中,假設變量a有k個屬性,它們的取值分別為 a1,a2,...,ak,相應的a取值為 ai的樣本集中有ni個數(shù),假設n 為所有樣本數(shù)的和,有n1+n2+...+ni=n,則為了獲取樣本a 的屬性信息所付出的代價可以用a的熵值H(X,a)表示為:
信息增益率可以定義為平均互信息比上獲取a信息所付出的代價,可以表示為:
具體建樹過程見表1。
輸入:訓練集S,特征集A。輸出:決策規(guī)則集
算法:C45_DT(A,S)
表1 J48算法建樹過程
在WEKA 平臺上,以上述J48 算法為基礎,建立J48 算法模型,再以上述采集到的數(shù)據(jù)為研究對象,把這些數(shù)據(jù)在J48算法模型中進行訓練,調整模型以及模型參數(shù),最終通過不斷的調整參數(shù),得到的最好分類結果如圖4所示。
圖4 分類的結果
在圖4中,所建立的模型分類正確率為70%,該模型具有很高的參考價值。得到的決策樹如圖5所示。
圖5 決策樹
在圖5中,可以看到影響一個人對哪種快遞品牌選擇的最重要的因素是Evalution,即客戶對某個品牌快遞的主觀印象好壞,其次是inconme即客戶收入以及age 即客戶年齡,最次要的是客戶的性別,該決策樹由四層組成,每層之間是與的關系,Evalution 為樹的根節(jié)點,客戶對哪種品牌快遞的選擇會受到如下條件的影響:
(1)當客戶對A快遞的主觀印象比較好,收入為超高(G)和高(M1)時會選擇A快遞,收入為低(D)時會選擇E 快遞,收入為中等(M2),性別為男性(m)時會選擇A快遞,性別為女性(w)時會選擇C快遞。
(2)當客戶對B快遞和D快遞的主觀印象比較好時,會直接選擇B和D快遞。
(3)當客戶對C 快遞的主觀印象比較好,且年齡為八零后(B)、六零后及其以上(L)、七零后(Q)時,會選擇A快遞,年齡為九零后(J)時會選擇C快遞。
(4)當客戶對E 快遞的主觀印象比較好,且收入為高(M1)、中等(M2)、低(D)時會選擇E 快遞,當收入為超高(G)時,會選擇A快遞。
本文通過對有快遞需求的客戶主觀意識和客觀情況進行研究,選取了可能影響客戶選擇快遞品牌的多種因素數(shù)據(jù)—客戶的年齡、性別、工作、收入、受教育程度以及對某個品牌快遞的主觀印象好壞,并把影響客戶選擇快遞品牌的這些數(shù)據(jù)通過數(shù)據(jù)挖掘技術中的J48算法建立了模型,通過參數(shù)的調整得到了正確率最高的模型,以及得到了影響客戶選擇快遞品牌的決策樹,通過該決策樹,得到了影響客戶選擇快遞品牌的四個先決條件。同時,在該決策樹的建立中,由于采集的影響因素偏少,采集的數(shù)據(jù)量偏小,導致模型的正確率沒有達到最佳狀態(tài),決策樹的普適性不高,在今后的研究中將加大對影響因素的設定和數(shù)據(jù)量的采集,以達到?jīng)Q策樹普適性的條件。