余文禮
(中南財(cái)經(jīng)政法大學(xué),湖北 武漢 430073)
互聯(lián)網(wǎng)的飛速發(fā)展使得網(wǎng)絡(luò)購物漸變?yōu)橐环N主流的購物方式,網(wǎng)店經(jīng)營者關(guān)心的問題是顧客的購買習(xí)慣,各種商品之間存在的聯(lián)系。傳統(tǒng)的購物籃分析,在計(jì)算商品組合被同時(shí)購買的次數(shù)時(shí),會(huì)產(chǎn)生大量的商品組合,時(shí)間和空間的開銷巨大,很難以得到令人滿意的結(jié)果。為彌補(bǔ)這一缺陷采用Apriori算法,不斷地通過k維商品集產(chǎn)生k+1維商品集,求出同時(shí)被購買概率大的商品組合。再分別對(duì)組合中的每一個(gè)商品求出其可信度,進(jìn)一步得出該商品組合的關(guān)聯(lián)度系數(shù)。根據(jù)組合的關(guān)聯(lián)度系數(shù)來衡量商品之間關(guān)系的密切程度,進(jìn)而把這些關(guān)聯(lián)度大的商品關(guān)聯(lián)在一起,以便于顧客瀏覽,引導(dǎo)消費(fèi),增加銷量。
數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)各種事物之間的聯(lián)系。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個(gè)特征。
以一家電商網(wǎng)店為例,假設(shè)該網(wǎng)店有n種商品,編號(hào)分別為X1,X2,...Xn;取得該網(wǎng)店客戶的消費(fèi)記錄集合D,其中有m次消費(fèi)記錄,購買商品組合分別為T1,T2,...Tn。為衡量商品之間關(guān)系的密切程度,挖掘它們的聯(lián)系。首先定義支持度指標(biāo):
支持度:一個(gè)消費(fèi)記錄數(shù)據(jù)庫D中包含的某商品組合的消費(fèi)記錄的個(gè)數(shù)與D中總的記錄個(gè)數(shù)之比稱為該組合的支持度S。
對(duì)于支持度的計(jì)算,首先考慮只含有兩個(gè)商品的商品組合的簡(jiǎn)單情況。n種商品形成的含有兩個(gè)商品組合有:種,采用傳統(tǒng)遍歷計(jì)算方法,勢(shì)必會(huì)耗時(shí)巨大。
Apriori算法是R.Agrawal和R.Srikant于1994年提出的為布爾關(guān)聯(lián)規(guī)則挖掘頻繁項(xiàng)集的原創(chuàng)性質(zhì)算法。算法的思想是先求出滿足條件低維度的商品組合,根據(jù)低維度組合求出高維度組合,對(duì)數(shù)據(jù)集進(jìn)行多步處理,直至求出所有維度的商品組合,算法偽代碼如下:
Input:格式為(Tid,itemset)的消費(fèi)記錄D,其中Tid為事務(wù)標(biāo)識(shí)符,itemset為該事務(wù)所對(duì)應(yīng)的商品集。
Output:所有的頻繁商品集。
L1=find_frequent_1-itemsets(D);//找出所有的一維商品集
for(k=2;Lk-1≠Φ;k++)//從2維開始對(duì)每一個(gè)維度進(jìn)行計(jì)算,直到不存在滿足minsupport的k維商品
其中,GenerateLk是以(k-1)維最大商品集ItemSetk—1和minsupport為參數(shù),計(jì)算并返回k維最大商品集ItemSetk,分為組合和剔除兩步執(zhí)行:
第1步:組合(join)根據(jù)ItemSetk—1,計(jì)算ItemSetk
第2步:剔除(prune)
對(duì)CK中的任一候選組合C,如果C中存在一個(gè)不屬于LK-1的維度為 的子序列,那么就從CK中刪除該候選組合C。
假設(shè)消費(fèi)記錄D中有四條消費(fèi)記錄如表,最小支持度minsupport=2/5:
表1 消費(fèi)記錄集D
根據(jù) minsupport統(tǒng)計(jì)出一維候選商品集 L1為{X1、X2、X3、X5}。使用GenerateLk函數(shù)中join步,即:L1join L1,并通過prune步刪除那些C2中子集不在L1中的商品。生成了侯選商品集 ,與minsupport比較生成L2{(X1,X3)、(X2,X3)、(X2,X5)、(X3,X5)}。 重復(fù)以前步驟最后輸出滿足最小支持minsupport的商品組合為:
Apriori算法可以求出關(guān)聯(lián)度大的商品集合L,但是支持度這一指標(biāo)衡量的僅僅是商品同時(shí)被購買的概率,并不能客觀地反應(yīng)商品之間的聯(lián)系。例如鉛筆和橡皮,電腦和鼠標(biāo)這兩組商品在一起被購買的概率很大,但是前者的支持度肯定會(huì)遠(yuǎn)遠(yuǎn)地大于后者。常見易損品的購買記錄會(huì)很多,電腦等相對(duì)貴重的商品消費(fèi)者一旦購買就有很長(zhǎng)的使用周期,不會(huì)在短時(shí)間內(nèi)再次購買。所以后者的支持度會(huì)很小,但是關(guān)聯(lián)度卻很大。
基于這一局限,進(jìn)一步定義可信度及關(guān)聯(lián)度系數(shù)指標(biāo)減小不同商品的差異性。
(1)可信度R:商品組合的支持度與組合中的某種商品被購買概率的比值稱為該商品的可信度。
例如在商品組合(X,Y)中商品X和商品Y的可信度如下:
可信度Rx,即交易記錄集合D中既包含X也包含Y的記錄個(gè)數(shù)與D中包含X的記錄個(gè)數(shù)之比。實(shí)際上就是指,包含X商品的購物籃也包含Y商品的概率。
因?yàn)橹С侄刃〉慕M合中的單個(gè)商品被購買概率也會(huì)很小,可信度將不同類別商品本身之間的差異的影響因素排除在在外。只要用組合(X,Y)的支持度Sxy除以商品本身被購買的概率P(X),無論商品X的使用周期是否一樣,得到的可信度都是客觀,可以比較的。
商品可信度都是對(duì)給定商品組合中的單個(gè)商品而言的,每個(gè)商品都有自己的可信度。求出組合中每個(gè)商品可信度之后,就可以進(jìn)一步求出這個(gè)組合的綜合關(guān)聯(lián)度系數(shù)。
(2)關(guān)聯(lián)度系數(shù) W:當(dāng)商品組合為(X1,X2…Xn)時(shí),該組合的關(guān)聯(lián)度系數(shù)為:
將關(guān)聯(lián)系數(shù)定義為商品互相之間的可信度的幾何平均數(shù),并且W越大,關(guān)聯(lián)度系數(shù)越高,商品之間的關(guān)系越密切,消費(fèi)者更傾向于同時(shí)購買。
還是以上面的消費(fèi)記錄為實(shí)例,最后我們可以得出最后支持度大于2的商品組合,如表2:
表2
根據(jù)以上的表格,我們可以看出的關(guān)聯(lián)度最大的商品組合是(I2,I5),其次是(I1,I3)、(I2,I3,I5),說明這些商品有很強(qiáng)的關(guān)聯(lián)性。 此外還可以看出支持度大的商品組合,可信度和關(guān)聯(lián)度系數(shù)不一定高,這也印證了前面所說的可信度指標(biāo)可以避免因商品自身價(jià)格、類別等屬性不同而造成的支持度不客觀合理的這一現(xiàn)象。
得出商品組合的關(guān)聯(lián)度系數(shù)后,我們可以有效的掌握商品之間的關(guān)聯(lián)信息。網(wǎng)店就可以把關(guān)聯(lián)程度高、經(jīng)常被同時(shí)購買的商品放在同一界面,方便顧客在購物中找到自己的商品,那樣會(huì)更加的節(jié)約顧客的時(shí)間,而且也會(huì)促進(jìn)商品的銷售。在對(duì)商品進(jìn)行廣告宣傳和推薦時(shí),可以根據(jù)分析結(jié)果進(jìn)行商品的選擇。對(duì)那些購買頻率較高、同其他商品關(guān)聯(lián)規(guī)則較多的商品進(jìn)行宣傳推薦,其效果將事半功倍。
Apriori算法通過對(duì)數(shù)據(jù)的關(guān)聯(lián)性進(jìn)行了分析和挖掘,得出在決策制定過程中具有重要的參考價(jià)值的信息,廣泛應(yīng)用于商業(yè)、消費(fèi)市場(chǎng)價(jià)格分析中。通過數(shù)據(jù)挖掘,商家可以瞄準(zhǔn)目標(biāo)客戶,采用個(gè)人股票行市、最新信息、特殊的市場(chǎng)推廣活動(dòng)或其他一些特殊的信息手段,從而極大地減少廣告預(yù)算和增加收入。
[1]陸麗娜,陳亞萍.挖掘關(guān)聯(lián)規(guī)則中的 Apriori算法的研究[J].小型微型計(jì)算機(jī)系統(tǒng),2000,21(9):940-943.
[2]顏雪松,蔡之華.一種基于 Apriori的高效關(guān)聯(lián)規(guī)則挖掘算法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2002,38(10):209-211.
[3]王德興,胡學(xué)鋼,劉曉平,等.改進(jìn)購物籃分析的關(guān)聯(lián)規(guī)則挖掘算法[J].重慶大學(xué)學(xué)報(bào):自然科學(xué)版,2006,29(4):105-107.
[4]LIU X,SHI B,XIE Y.An improved apriori algorithm for mining association rules[J].Journal of Shandong University(Natural Science),2008,11:014.
[5]周霖,張宏山.購物籃分析在零售業(yè)中的應(yīng)用研究[J].中國商貿(mào),2013(8).
[6]Ye Y,Chiang C C.A parallel apriori algorithm for frequent itemsets mining[C]//Software Engineering Research,Management and Applications,2006.Fourth International Conference on.IEEE,2006:87-94.