黃子航
(華南師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,廣東 廣州 510641)
關(guān)聯(lián)規(guī)則挖掘在超市商品銷售中的應(yīng)用研究
黃子航
(華南師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,廣東 廣州 510641)
本文對(duì)數(shù)據(jù)挖掘領(lǐng)域中的關(guān)聯(lián)規(guī)則進(jìn)行了闡述,介紹經(jīng)典算法Apriori,運(yùn)用關(guān)聯(lián)規(guī)則對(duì)悉尼一家超市的部分?jǐn)?shù)據(jù)進(jìn)行分析、挖掘,判定發(fā)現(xiàn)不同類商品之間的關(guān)聯(lián)度,挖掘出商品中隱藏的實(shí)用價(jià)值,進(jìn)而在實(shí)際銷售運(yùn)作中有效地避免這類錯(cuò)誤,給超市公司提出適當(dāng)?shù)呢浖茕N售建議與貨架擺放依據(jù),利于增加超市公司的運(yùn)營(yíng)利潤(rùn).
關(guān)聯(lián)規(guī)則;Apriori算法;超市購(gòu)物交易
1.1 背景
關(guān)聯(lián)規(guī)則反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性,是數(shù)據(jù)挖掘的一個(gè)重要技術(shù),用于從大量數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù)項(xiàng)之間的相關(guān)關(guān)系.最著名的例子就是美國(guó)沃爾瑪超市的“啤酒與尿布”,商家發(fā)現(xiàn)部分美國(guó)中年男性在買完孩子的尿布后會(huì)順便買自己愛(ài)喝的啤酒,因此調(diào)整了貨架的設(shè)置,把啤酒和尿布放在一起銷售,從而增加了銷售額.同時(shí),關(guān)聯(lián)規(guī)則在保險(xiǎn)業(yè)務(wù)、醫(yī)療、銀行服務(wù)等方面也有應(yīng)用.
1.2 關(guān)聯(lián)規(guī)則簡(jiǎn)介
設(shè)I={i1,i2,…,im}是一個(gè)項(xiàng)目集合,事務(wù)數(shù)據(jù)庫(kù)D={t1,t2,…, tn}是由一系列具有唯一標(biāo)識(shí)的事務(wù)組成,每個(gè)事務(wù)ti=(i=1,2,…,n)都對(duì)應(yīng)I上的一個(gè)子集,項(xiàng)的集合成為項(xiàng)集,包含k個(gè)項(xiàng)的項(xiàng)集稱為k-項(xiàng)集,項(xiàng)集的出現(xiàn)頻率是包含項(xiàng)集的事務(wù)數(shù),簡(jiǎn)稱為項(xiàng)集的頻率或計(jì)數(shù).關(guān)聯(lián)規(guī)則是形如A→B的蘊(yùn)涵式,其中A?I,B?I,且A∩B=?.規(guī)則A→B在事務(wù)集D中成立,具有支持度s,其中s是D中事務(wù)包含A∪B的百分比,為概率P(A∪B).規(guī)則A→B在事務(wù)集D中具有置信度c,其中c是D中包含A的事務(wù)也包含B的百分比,為條件概率P(B|A).即
Support(A→B)=P(A∪B),Confidence(A→B)=P(B|A),同時(shí)滿足最小支持度閾值minsup和最小置信度閾值minconf的規(guī)則成為強(qiáng)規(guī)則,滿足最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,頻繁k-項(xiàng)集的集合通常記作Lk.
但有時(shí)僅僅依靠支持度和置信度制定的強(qiáng)規(guī)則未必是有效的,會(huì)出現(xiàn)規(guī)則互斥的情況,此時(shí)引入提升度L,為含有事務(wù)A的條件下,同時(shí)含有事務(wù)B的概率,與不含事務(wù)A的條件下卻含有事務(wù)B的概率之比,即其中,lift(A→B)=1表示A與B相互獨(dú)立,即規(guī)則A→B無(wú)效,此時(shí)即使支持度與置信度再高也不能說(shuō)明該規(guī)則有效;在強(qiáng)關(guān)聯(lián)規(guī)則中,Lift(A→B)>1表明是有效的強(qiáng)關(guān)聯(lián)規(guī)則,Lift(A→B)≤1表明是無(wú)效的強(qiáng)關(guān)聯(lián)規(guī)則,我們要尋找的是有效的強(qiáng)關(guān)聯(lián)規(guī)則.
關(guān)聯(lián)規(guī)則挖掘的目標(biāo)是找出數(shù)據(jù)集中的所有有效強(qiáng)規(guī)則,可分為兩個(gè)子問(wèn)題:根據(jù)最小支持度找出事務(wù)數(shù)據(jù)庫(kù)中的所有頻繁項(xiàng)集;根據(jù)頻繁項(xiàng)集和最小置信度產(chǎn)生關(guān)聯(lián)規(guī)則,其中要應(yīng)用到經(jīng)典算法:Apriori算法.
1.3 Apriori算法
首先找出所有頻繁1-項(xiàng)集的集合,記作L1,基于L1尋找所有頻繁2-項(xiàng)集的集合,記作L2,基于L2尋找所有頻繁3-項(xiàng)集的集合,記作L3,依次進(jìn)行直至不能找到頻繁k-項(xiàng)集.在第k-次循環(huán)中,先產(chǎn)生候選k-項(xiàng)集的集合Ck,Ck的每一個(gè)項(xiàng)集是對(duì)兩個(gè)只有一個(gè)項(xiàng)不同的屬于L(k-1)的頻繁集做一個(gè)(k-2)來(lái)連接產(chǎn)生的,最后的頻繁集Lk是Ck的一個(gè)子集,Ck的每個(gè)元素需在交易數(shù)據(jù)庫(kù)中進(jìn)行驗(yàn)證以確定加入Lk的元素.
2.1 數(shù)據(jù)的收集和預(yù)處理
本文選取了澳大利亞悉尼的一家超市在2016年9月份的部分購(gòu)物數(shù)據(jù),該超市9月份(共30天)每天上午9點(diǎn)至下午5點(diǎn)每小時(shí)若干條顧客購(gòu)物數(shù)據(jù),由于購(gòu)物數(shù)據(jù)表中有多個(gè)屬性,每個(gè)屬性有多個(gè)值,因此先進(jìn)行數(shù)據(jù)的可視化處理,對(duì)于其中的少數(shù)連續(xù)型數(shù)據(jù),采用少數(shù)區(qū)間替代的方法將原始數(shù)據(jù)離散化,通過(guò)簡(jiǎn)化數(shù)據(jù)使得挖掘結(jié)果簡(jiǎn)介且易于使用,在數(shù)據(jù)預(yù)處理后共得到4800條購(gòu)物數(shù)據(jù),包含127件商品.
2.2 Apriori算法的實(shí)現(xiàn)
根據(jù)Apriori算法,設(shè)定minsup=0.01,minconf=0.3,限定提升度大于1,得到128條有效的強(qiáng)規(guī)則,其中的支持度、置信度、提升度三者關(guān)系如下圖1,2所示,
圖1 支持度與提升度關(guān)系圖
圖2 支持度與置信度關(guān)系圖
從上圖中看出,置信度與提升度高的規(guī)則,支持度都偏低,呈現(xiàn)負(fù)相關(guān)關(guān)系,我們選出在提升度大于1的情況下置信度與支持度高的規(guī)則,并列出三項(xiàng)指標(biāo):支持度、置信度、提升度最高的10條強(qiáng)關(guān)聯(lián)規(guī)則如表1,2,3所示.
表1 支持度最高的10條規(guī)則
表2 置信度度最高的10條規(guī)則
表3 提升度最高的10條規(guī)則
2.3 結(jié)果的分析與評(píng)價(jià)
上述各表反映了不同類商品對(duì)銷售情況的影響,從表1和表2來(lái)看,蔬菜類、根莖類蔬菜、全脂牛奶的支持度和置信度最高,分別達(dá)0.07、0.38左右,說(shuō)明這三者有密切的聯(lián)系,熱帶水果、酸奶、雞蛋、酸奶油等商品的支持度和置信度也分別高達(dá)0.05、0.32左右,相關(guān)性較強(qiáng),熱帶水果、酸奶、雞蛋、酸奶油等商品的銷售量十分可觀,是超市銷售盈利的主要來(lái)源,表3可看出凝乳、柑橘類水果、酸奶等商品的提升度普遍在2.1-2.9之間,說(shuō)明這幾類商品對(duì)于蔬菜類、根莖類蔬菜、全脂牛奶三者的銷售有著明顯的促進(jìn)作用.
通過(guò)關(guān)聯(lián)規(guī)則挖掘,該超市應(yīng)將蔬菜類、根莖類蔬菜、全脂牛奶等蔬菜類與奶制品的商品放在臨近的售貨架上,并適當(dāng)增加蔬菜類商品和營(yíng)養(yǎng)類商品的入銷量,則超市的運(yùn)營(yíng)利潤(rùn)會(huì)有大幅度的提升,同時(shí)加大水果類商品的銷售力度,使得其余蔬菜類、奶制品等的銷售位置相近,有利于增加蔬菜類商品的銷售量.
關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘在超市貨物營(yíng)銷方面有著突出的應(yīng)用,由以上結(jié)論發(fā)現(xiàn),超市運(yùn)營(yíng)部可根據(jù)不同商品實(shí)際情況的需要,在關(guān)聯(lián)規(guī)則上設(shè)置相應(yīng)的輸入和輸出字段,并通過(guò)minsup和minconf的設(shè)置,判定發(fā)現(xiàn)不同類商品之間的關(guān)聯(lián)度,挖掘出商品中更多的實(shí)用價(jià)值,同時(shí)也能發(fā)現(xiàn)商品貨物銷售間的一些由于未全面考慮提升度而出現(xiàn)的矛盾現(xiàn)象,進(jìn)而在實(shí)際銷售運(yùn)作中有效的避免這類錯(cuò)誤,也反映了數(shù)據(jù)挖掘的科學(xué)性.
〔1〕David Hand,Heikki Mannila,Padhraic Smyth.?dāng)?shù)據(jù)挖掘原理[M].北京:機(jī)械工業(yè)出版社,2006.2-7.
〔2〕喬克滿,歐陽(yáng)為民,孫衛(wèi).關(guān)聯(lián)規(guī)則挖掘技術(shù)在體質(zhì)指標(biāo)分析中的應(yīng)用研究[J].天津體育學(xué)院學(xué)報(bào),2010,25(2):453-455.
TP311.13
A
1673-260X(2017)08-0011-02
2017-05-20
本論文屬于華南師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院科研項(xiàng)目《電影推薦算法的實(shí)證研究》階段性研究成果;本論文屬于華南師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院科研項(xiàng)目《政行思教專業(yè)兩岸培養(yǎng)模式的研究》階段性研究成果
赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2017年16期