[摘 要] 本文對數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則進行了闡述,探討了如何利用它來進一步提高零售業(yè)核心競爭力,并結(jié)合案例分析了如何利用數(shù)據(jù)挖掘?qū)Τ谐鍪鄣纳唐愤M行關(guān)聯(lián)性分析來提高客戶的滿意度。
[關(guān)鍵詞] 數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;零售業(yè);核心競爭力
[中圖分類號]F270.7;TP391[文獻標識碼]A[文章編號]1673-0194(2008)23-0077-03
一、 關(guān)聯(lián)規(guī)則概述
數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database),在最近幾年里已被數(shù)據(jù)庫界所廣泛研究,其中關(guān)聯(lián)規(guī)則(Association Rules)的挖掘是一個重要的問題。
在1993年,R.Agrawal等人首次提出了關(guān)聯(lián)規(guī)則的概念。支持度(support)和置信度(confidence)兩個閾值是描述關(guān)聯(lián)規(guī)則的重要概念,支持度反映關(guān)聯(lián)規(guī)則在數(shù)據(jù)庫中的重要性,置信度衡量關(guān)聯(lián)規(guī)則的可信程度。如果某條規(guī)則同時滿足最小支持度(min-support)和最小置信度(min-confidence),則稱它為強關(guān)聯(lián)規(guī)則。
數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。它在數(shù)據(jù)挖掘中是一個重要的課題,最近幾年已被業(yè)界所廣泛研究。關(guān)聯(lián)規(guī)則挖掘的一個典型例子是購物籃分析。關(guān)聯(lián)規(guī)則研究有助于發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品(項)之間的聯(lián)系,找出顧客購買行為模式,如購買了某一商品對購買其他商品的影響。分析結(jié)果可以應(yīng)用于商品貨架布局#65380;貨存安排以及根據(jù)購買模式對用戶進行分類。
Agrawal等于1993年首先提出了挖掘顧客交易數(shù)據(jù)庫中項集間的關(guān)聯(lián)規(guī)則問題,之后諸多的研究人員對關(guān)聯(lián)規(guī)則的挖掘問題進行了大量的研究。他們的工作包括對原有的算法進行優(yōu)化,如引入隨機采樣#65380;并行的思想等,以提高算法挖掘規(guī)則的效率,對關(guān)聯(lián)規(guī)則的應(yīng)用進行推廣。
二#65380; 我國零售業(yè)核心競爭力分析
(一)零售業(yè)核心競爭力內(nèi)涵
核心競爭力最早由兩位美國戰(zhàn)略管理學家帕拉哈德和哈默于1990年提出來的。零售企業(yè)核心競爭力是企業(yè)多方面技能和企業(yè)運行機制的有機融合,是不同技術(shù)系統(tǒng)#65380;管理系統(tǒng)及技能的有機結(jié)合,是企業(yè)在特定經(jīng)營環(huán)境中的競爭能力和競爭優(yōu)勢的合力。核心競爭力通常體現(xiàn)為整合企業(yè)內(nèi)部資源,例如:提高生產(chǎn)效率#65380;控制成本和質(zhì)量#65380;研發(fā)新產(chǎn)品#65380;拓展新市場#65380;調(diào)整組織結(jié)構(gòu)#65380;升華企業(yè)文化#65380;提高管理能力等。
(二)利用關(guān)聯(lián)規(guī)則提高零售業(yè)核心競爭力
利用數(shù)據(jù)挖掘技術(shù)有助于企業(yè)在關(guān)鍵的領(lǐng)域建立獨特競爭優(yōu)勢,是企業(yè)取得核心競爭力的關(guān)鍵,數(shù)據(jù)挖掘技術(shù)主要從以下幾個方面提升企業(yè)的核心競爭力。
1. 提供優(yōu)質(zhì)的產(chǎn)品和服務(wù)。利用數(shù)據(jù)挖掘技術(shù)對企業(yè)數(shù)據(jù)倉庫中的大量數(shù)據(jù)進行處理#65380;分析和推斷,可以發(fā)現(xiàn)那些隱藏在數(shù)據(jù)中的模式關(guān)聯(lián)#65380;規(guī)則和趨勢,利用這些模式#65380;關(guān)聯(lián)#65380;規(guī)則和趨勢能夠幫助企業(yè)創(chuàng)造出獨有的新產(chǎn)品和服務(wù),避免與同類企業(yè)在成本上的競爭。
2. 分析內(nèi)部經(jīng)營信息。利用數(shù)據(jù)挖掘技術(shù)#65380;數(shù)據(jù)倉庫技術(shù)和聯(lián)機分析技術(shù),管理者能夠充分利用企業(yè)數(shù)據(jù)倉庫的海量數(shù)據(jù)進行分析,并根據(jù)分析結(jié)果找出企業(yè)經(jīng)營過程中出現(xiàn)的各種問題,如:經(jīng)營不善#65380;觀念滯后#65380;戰(zhàn)略決策失誤等內(nèi)部因素引起企業(yè)人#65380;財#65380;物的相對平衡體遭到重大破壞,對企業(yè)的生存#65380;發(fā)展構(gòu)成嚴重威脅的信息,及時作出正確的決策,調(diào)整經(jīng)營戰(zhàn)略,以適應(yīng)不斷變化的市場需求。
3. 尋找最佳商品分組布局。分析顧客的購買習慣,考慮購買者在商店里所穿行的路線#65380;購買時間和地點,掌握不同商品一起購買的概率;通過對商品銷售品種的活躍性分析和關(guān)聯(lián)性分析,建立商品設(shè)置的最佳結(jié)構(gòu)和商品的最佳布局。
4. 最優(yōu)店址選擇。利用數(shù)據(jù)挖掘技術(shù)可分辨出成功的商店或分店的特性,并協(xié)助新開張的商店選擇恰當?shù)牡乩砦恢谩?/p>
三#65380; 實例分析
本例是利用關(guān)聯(lián)分析來尋找事件中出現(xiàn)的不同項的關(guān)聯(lián)性,在大型數(shù)據(jù)庫中,這種關(guān)聯(lián)規(guī)則是很多的,需要進行篩選,一般用支持度(SUPPORT)與置信度(CONFIDENCE)兩個閾值來篩去那些無用的關(guān)聯(lián)規(guī)則。
(一)探索性數(shù)據(jù)分析
論文的統(tǒng)計分析是使用AC Nielsen提供的數(shù)據(jù)集,數(shù)據(jù)來源于意大利南部大型超級市場的交易數(shù)據(jù),這個數(shù)據(jù)集合只是一個大型數(shù)據(jù)庫的一部分,這個大型數(shù)據(jù)庫存放了意大利一個超級市場的37家連鎖店的交易數(shù)據(jù),每家連鎖店中的全部事物記錄是持有連鎖優(yōu)惠卡的人購買商品的事物記錄。優(yōu)惠卡使得分析人員可以追蹤卡持有者的購物行為,在指定的時間內(nèi)到超市購物幾次,購買了什么,促銷對他們購物是否有影響等,這里只考慮商品的交易數(shù)據(jù),以便挖掘商品間的關(guān)聯(lián),所以不考慮人數(shù)變化的影響和促銷的效果。
為了認識20種選定的商品間的關(guān)聯(lián),使用了190個二向列表,每一個表對應(yīng)一對商品。表1就是一張列聯(lián)表,這張表可以用來研究冰淇凌和可樂之間的關(guān)聯(lián)。
列聯(lián)表中每個單元都存放了行列屬性對應(yīng)的絕對頻率#65380;相對頻率(百分比)和條件頻率。表下面列出關(guān)聯(lián)測量#65380;兩個變量間的優(yōu)勢和相應(yīng)的置信度區(qū)間。由于整個例子空間是很大的,有46 727個事物記錄,所以即使很小的優(yōu)勢率也是很重要的。
經(jīng)過計算,那些最大的關(guān)聯(lián)出現(xiàn)在罐頭肉和金槍魚#65380;罐頭肉和意大利干酪#65380;冷凍魚和冷凍蔬菜之間,這幾對商品都屬于速食品。其次,關(guān)聯(lián)較大的是兩種飲料:可樂和啤酒。
有190條線的圖很難可視化,所以這里只畫出優(yōu)勢率遠大于2的正關(guān)聯(lián)規(guī)則,這樣就減少了圖中的連線(如圖1所示)??梢愿鶕?jù)圖1中的連線對商品進行分組。
對數(shù)線形模型是描述數(shù)據(jù)挖掘的好方法;它們從指定的變量中發(fā)現(xiàn)關(guān)聯(lián)。從圖1可以看出牛奶#65380;小點心#65380;水#65380;咖啡和酸乳酪這5個孤立點的存在。因此為了確定探測性分析的結(jié)果是否正確,建立其他15個節(jié)點的圖示對數(shù)線性模型(略)。
(二)關(guān)聯(lián)規(guī)則應(yīng)用
進行購物籃分析的最常用方法就是關(guān)聯(lián)規(guī)則,由于篇幅有限,從一個簡單的設(shè)置開始,僅考慮冰激凌和可樂,由于不用考慮順序,所以在研究兩個商品間的關(guān)聯(lián)時,數(shù)據(jù)集合可以表示成二向列聯(lián)表。這張表顯示了規(guī)則“ifice cream then coke”:
Support(ice cream→coke)=170/46 727=0.003 6。
這個規(guī)則的支持度很低,說明這兩個商品只是偶爾一起出售。關(guān)聯(lián)規(guī)則是具有對稱性的,所以規(guī)則“if coke then ice cream”的支持度也是0.36%。
Confidence(ice cream→coke)=170/769=0.22。
Confidence(coke→ice cream)=170/4 949=0.034。
第一個例子說明買了冰激凌的顧客購買可樂的比例,第二個例子說明買了可樂的顧客購買冰激凌的比例。由支持度與置信度的高低#65380;是否符合強關(guān)聯(lián)規(guī)則決定兩種商品是否可以放在一起出售。
該例是對購物行為間是否關(guān)聯(lián)的研究。分析方法同樣可用在主要目標是用交叉銷售提高某個經(jīng)濟單位的商品銷售數(shù)量的問題上,如超市#65380;銀行#65380;旅行社,或更廣泛地指提供多種商品或服務(wù)的公司。在商品促銷活動中會出現(xiàn)同類問題:希望促銷的商品最少,但是可以從最多的商品中獲益。可以將商品以最有效率的方式排列,將那些關(guān)聯(lián)最大的商品放在一起以達目的。零售商在經(jīng)營過程中要尋找重要的購物模式,也就是哪些商品會被顧客一起購買。
主要參考文獻
[1] 〔美〕 R#8226;格羅斯. 數(shù)據(jù)挖掘構(gòu)筑企業(yè)競爭優(yōu)勢[M]. 楊非,等,譯. 西安:西安交通大學出版社,2001.
[2] 韓家煒,孟小峰,王靜,等. Web挖掘研究[J]. 計算機研究與發(fā)展,2001,38(4).
[3] 朱明. 數(shù)據(jù)挖掘[M]. 合肥:中國科學技術(shù)大學出版社,2002.
[4] 何潤宇,蘇玲. 核心競爭力與投機競爭力[J]. 中外管理,2003(8).
[5] 李鋒. 數(shù)據(jù)挖掘提高企業(yè)核心競爭優(yōu)勢[M]. 西安:西安交通大學出版社,2001.
[6] 方家平. BI商業(yè)智能——管理信息化的熱點[M]. 北京:中國統(tǒng)計出版社,2002.
[7] 李雷,李海霞. 客戶關(guān)系與企業(yè)核心競爭力研究[J]. 科技管理研究,2002(3).
[8] 章建賽. 零售業(yè):借鑒和思考[J]. 商貿(mào)經(jīng)濟,2003(4).