陳 麗 芳
(重慶工商大學 數學與統(tǒng)計學院,重慶 400067)
在當今商品充斥的時代,面對琳瑯滿目的商品與令人眼花繚亂的大量商家,消費者往往感覺無所適從.于是,商家開始通過對消費者購物行為的分析來對商品進行合理的擺放以及對商鋪進行合理的布局,使商場提高銷售業(yè)績,創(chuàng)造更多的利潤,也為消費者帶來更多的方便.這也正是美國零售業(yè)巨頭沃爾瑪創(chuàng)造的“啤酒與尿布”的成功案例給人們帶來的啟示[2].每一次購物籃處理得到的都是一位顧客的購物信息,大多數零售企業(yè)只是將這些數據進行簡單分類、分析單一的銷量數據,實際上并沒有充分利用這些能反映所有顧客購物行為最有效的數據,于是一些寶貴的數據資源就成了“數據墳墓”. 關聯規(guī)則一般用以發(fā)現交易數據庫中不同商品之間的聯系,用這些規(guī)則找出顧客的購買行為模式,比如購買了某一種商品對購買其他商品的影響,這種規(guī)則可以應用于超市商品貸架設計、貨物擺放以及根據購買模式對用戶進行分類等[3].通過發(fā)現這個關聯的規(guī)則,可以更好地了解和掌握事物的發(fā)展、動向等.主要對廊坊師范學院女大學生在廊坊市沃爾瑪超市的購物信息進行搜集及整理,并用Clementine軟件對其進行基于Apriori算法的超市購物籃分析.
關聯規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現的規(guī)律和模式,是數據挖掘中最成熟的主要技術之一.它是由R.Agrawal等人首先提出的,最經典的關聯規(guī)則的挖掘算法是Apriori,該算法先挖出所有的頻繁項集,然后,由頻繁項集產生關聯規(guī)則,許多關聯規(guī)則頻繁項集的挖掘算法都是由它演變而來的,關聯規(guī)則在數據挖掘領域應用很廣泛適合于在大型數據集中發(fā)現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制,關聯規(guī)則在數據挖掘領域最典型的應用是購物籃分析.大多數關聯規(guī)則挖掘算法能夠無遺漏發(fā)現隱藏在所挖掘數據中的所有關聯關系,所挖掘出的關聯規(guī)則量往往非常巨大,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,對這些關聯規(guī)則進行有效的評價,篩選出用戶真正感興趣的,有意義的關聯規(guī)則尤為重要[5].
Clementine 12.0是一個通用的數據挖掘軟件,它能夠幫助用戶建立一個完整的數據挖掘流程,并提供一系列的功能使得用戶可執(zhí)行其中的任意挖掘步驟.這些功能包括:訪問不同數據源中的數據、用不同的方式勘探數據、操作數據、建立各種數據挖掘模型、分析模型以及在企業(yè)環(huán)境中部署模型.Clementine擁有豐富的數據挖掘算法,支持與數據庫之間的數據和模型交換;同時,具有可視化操作界面,簡單易用,分析結果直觀易懂,圖形功能強大等特點,已從諸如State soft Statistics、SAS Enterprise Miner、Oracle DM、MATLAB、Angoss等眾多數據挖掘軟件中脫穎而出.它是ISL公司開發(fā)的數據挖掘工具平臺.1999年SPSS公司收購了ISL公司,對Clementine產品進行重新整合和開發(fā),現在Clementine已經成為SPSS公司的又一亮點.作為一款將高級建模技術與易用性相結合的數據挖掘工具,Clementine可幫助發(fā)現并預測數據中有趣且有價值的關系.其最主要的特點是它能夠把開發(fā)好的數據挖掘案例保存在它的知識庫中以便日后重用.對于商業(yè)管理人員,這個功能顯著地提高了Clementine軟件的可用性.
購物籃指的是超級市場內供顧客購物時使用的裝商品的籃子,當顧客付款時這些購物籃內的商品被營業(yè)人員通過收款機一一登記結算并記錄.所謂的購物籃分析(Market Basket Analysis)就是通過這些購物籃子所顯示的信息來研究顧客的購買行為[2].主要的目的在于找出什么樣的東西應該放在一起.藉由顧客的購買行為來了解是什么樣的顧客,找出相關的聯想(association)規(guī)則,企業(yè)藉由這些規(guī)則的挖掘獲得利益與建立競爭優(yōu)勢.
購物籃分析也就是銷售小票數據分析,運用SAS、SPSS、Excel、clementine等軟件,采用多種數據挖掘方法和統(tǒng)計分析方法,對商品銷售額、銷售量、商品銷售相關性、品牌銷售分布、品牌偏好、商品規(guī)格偏好、促銷效果、銷售預測、價格彈性系數等許多方面進行分析,得出有意義的結論.運用了clementine 12.0軟件,采用了Apriori算法,對在校的60位女大學生商品購物相關性進行了分析,并得出可靠結論.
利用Clementine 12.0進行基于關聯規(guī)則分析的流程主要包括建立數據、建立流程、導入數據、設置參數、導出結果并分析.
(1) 建立數據:Clementine12.0軟件中可導入以下類型的文件輸入數據:Database、Var.File、Fixed File、Spss File、Excel、Dimension、SAS File和User input.將通過購物籃處理得到顧客購物的全部信息,建立成以上任意一種類型的數據格式.
(2) 建立流程:將關聯規(guī)則模塊拖入案例視圖模板,并將它連接到一個數據訪問模塊或數據轉化模塊.其中數據訪問模塊和數據轉換模塊將提供算法的數據源.
(3) 導入數據:在數據訪問模塊中輸入已經建立的數據.
(4) 設置參數:輸入關聯規(guī)則的參數.
(5) 導出結果并分析:依次運行各模塊,并運用一定的算法輸出.選取規(guī)則作為進一步分析的依據.若沒有得到規(guī)則,則修改關聯規(guī)則參數;若得到規(guī)則,就按照關聯規(guī)則理論進行下一步分析.
針對廊坊師范學院的60位女大學生,對其在廊坊市沃爾瑪超市為期一個月的購物信息進行了搜集與整理,為了方便分析其購買商品間關聯規(guī)則性,也鑒于篇幅有限.此案例整理出了牛奶、方便面、堅果、水果、火腿腸、果汁、果醬、面包及零食這九大類商品的購買情況,作出分析:
(1) 數據的預處理.將搜集到的60位女生的購物信息以是否購買的形式輸入Excel表格. 建立名稱為“購物籃分析.xls”的數據源.如圖1,“ID”表示顧客編號,“1”表示購買,“0”表示未購買.即1號顧客分別購買了牛奶、方便面、堅果、火腿腸、果醬、面包和零食,而未購買水果和果汁;2號顧客分別購買了牛奶、堅果、火腿腸、果醬、面包和零食,而未購買方便面、水果和果汁;以此類推可知每位顧客的購買信息.
圖1 60位女大學生的部分購物信息
(2) 建立流程.如圖2,建立流程,將關聯規(guī)則模塊拖入案例視圖模板,并將它連接到一個數據訪問模塊即Excel格式.其中數據訪問模塊即Excel提供算法的數據源.此流程將完成從數據輸入到導出關聯規(guī)則結果的這一過程.
圖2 做購物分析的初步流程
(3) 導入數據,并作初步審核.導入數據,在數據訪問模塊即Excel中輸入已經建立且處理好的數據并作初步審核.如圖3表明,將搜集的60位女同學的購買數據導入Excel,執(zhí)行上步流程,得出結論:所搜集整理的數據均符合做購物籃分析的條件,不需做過濾處理.
圖3 數據審核
(4) 設置最低條件支持度,最小規(guī)則置信度,最大前項數.設定關聯規(guī)則模塊的參數為:項集最小容量為1,項集最大容量無限制.選擇恰當的支持度與可信度是挖掘有效關聯規(guī)則的關鍵.超市的銷售數據屬于大數據量數據,無法預知什么大小的支持度可以過濾出合適的數據.因此,可根據規(guī)則產生的實際數據和預定的目標對最小支持度和最小置信度標準作適當的調整,以避免過多或過少規(guī)則的出現.通過對局部購物數據進行數據挖掘,得出支持度、可信度以及關聯規(guī)則數目的對比關系,對其結果進行分析、比較,最后確定相對精確的支持度和可信度的值:最小支持度為10%,最小置信度為80%.
圖4 前后項選擇
圖5 各參數設置
(5) 導出結果并分析商品間的關聯規(guī)則關系.如圖6所得出的關聯規(guī)則如下:
圖6 關聯規(guī)則分析結果圖
R1:面包→火腿腸,S=56.7%,C=85.3%,即購買火腿腸的女生85.3%也購買了面包,56.7%的女大學生同時購買了面包和火腿腸.
R2:面包→牛奶,S=61.7%,C=83.8%,即購買火腿腸的女生83.8%也購買了面包,61.7%的女大學生同時購買了面包和火腿腸.
R3:面包→堅果,S=61.7%,C=83.8%,即購買火腿腸的女生83.8%也購買了面包,61.7%的女大學生同時購買了面包和火腿腸.
R4:面包→果醬,S=56.7%,C=82.4%,即購買火腿腸的女生82.4%也購買了面包,56.7%的女大學生同時購買了面包和火腿腸.
R5:面包→方便面,S=61.7%,C=81.1%,即購買火腿腸的女生81.1%也購買了面包,61.7%的女大學生同時購買了面包和火腿腸.
經分析得出結果,面包購買率高達76.7%,并且面包和火腿腸被同時購買的可能性最大,而面包與方便面被同時購買的可能性較小.為了方便學生購買,同時提高其銷售量,學校附近的零售點可以多置面包,并將面包和火腿腸擺在相鄰或相近的位置.
“數據爆炸但知識貧乏”的現象成為商家的心病,但是數據挖掘技術確實改變了現狀,足矣解決他們的心病. 利用Clementine 12.0來對零售業(yè)企業(yè)進行數據分析具有廣泛的應用前景,不僅可以應用于超市商品貸架設計、貨物擺放還可以根據購買模式對用戶進行分類等.針對廊坊師范學院的60位女大學生在廊坊市沃爾瑪超市的購買信息做了購物藍分析,給學校附近的零售業(yè)進行類似的關聯規(guī)則分析帶來了極大的便利,使得數據挖掘技術的使用更加大眾化,但同時也由于搜集數據有限使得分析結果不夠精確具體,更重要的是提供了一種分析不同商品間關聯規(guī)則的一種方法.總之,為得到更切合實際更有效的分析結果,首先要了解其原理,再次要把廣泛收集的數據做好預處理,最后用軟件去實現分析得出其關聯規(guī)則.
參考文獻:
[1] 方瑋瑋.基于關聯規(guī)則的購物籃分析[J].四川理工學院學報:自然科學版,2010(4):430-434
[2] 孫細明,龔成芳.關聯規(guī)則在購物籃分析中的應用[J].計算機與數字工程,2008(6):57-60
[3] 薛紅,聶規(guī)劃.基于關聯規(guī)則分析的“購物籃分析”模型的研究[J]. 北京工商大學學報:社會科學版,2008,23(4):1-5
[4] 童鐵杰.基于數據挖掘的購物籃分析軟件設計與實現[Z].計算機光盤軟件與應用,2011,23:199-199
[5] 李敏,姚昕.于自律計算的市場購物籃分析[J].哈爾濱商業(yè)大學學報:自然科學版,2013(1):76-78,88
[6] ANBARASI D,SATHYA S K.Vivekanandan.Dimension Reduction Techniques for Market Basket Analysis[J].Proceedings of International Conference on Information and Electronics Engineering,2011(6):245-247