劉青
摘 要:在大數(shù)據(jù)時代中,電商的出現(xiàn)顛覆了傳統(tǒng)的營銷方式,成為互聯(lián)網(wǎng)最成功的應(yīng)用之一,而電商每天交易而產(chǎn)生的海量數(shù)據(jù),具有極其重要的應(yīng)用價值。此類的電商數(shù)據(jù)關(guān)聯(lián)分析方法能夠解決各種用戶的需求,為電商數(shù)據(jù)系統(tǒng)的決策者改善經(jīng)營模式,更好地維護(hù)客戶關(guān)系,提升利潤率提供了有力的處理工具,具有較強(qiáng)的實際應(yīng)用價值;同時,對數(shù)據(jù)分析的方法進(jìn)行了研究和改進(jìn),具有一定的理論研究價值。
關(guān)鍵詞:電子商務(wù);數(shù)據(jù)分析;R語言;關(guān)聯(lián)分析
1 引言
談及“關(guān)聯(lián)分析”,人們津津樂道十幾年的經(jīng)典段子——“啤酒與尿布”的故事就又要被提及了,這里可以簡單重溫。大約1990年前后,一個商場的經(jīng)營者分析所賣出的產(chǎn)品的一系列數(shù)據(jù)的時候發(fā)現(xiàn)了一個有趣的情況:兩件產(chǎn)品尿布和啤酒看似風(fēng)馬牛不相及,但是在特殊狀況下有時會被同一名顧客同時購買。調(diào)查后發(fā)現(xiàn),年輕的父親們在購買尿布的同時,常常因為熬夜照顧孩子,觀看體育比賽而順便購買用來助興的啤酒,由此產(chǎn)生了尿布搭配啤酒的有趣狀況。從這以后,該超市嘗試著將尿布與啤酒置于相同的區(qū)域,由此營業(yè)額果然有了顯著的增長。在這個有趣的狀況中尿布和啤酒的關(guān)系稱為關(guān)聯(lián)性,而把此種關(guān)聯(lián)性發(fā)掘和利用起來就是關(guān)聯(lián)分析。
2 對商品的關(guān)聯(lián)分析
我們對商品的關(guān)聯(lián)分析有著十分明確的目標(biāo),就是旨在研究顧客的消費(fèi)習(xí)性和習(xí)慣,明確顧客購買產(chǎn)品的需要,并且最大程度上消除顧客消費(fèi)與再消費(fèi)的障礙,這里主要障礙在于推送的內(nèi)容不符合顧客心意,顧客不能產(chǎn)生想購買的欲望。更總要的是,對商品的關(guān)聯(lián)分析要在發(fā)掘顧客的潛在的消費(fèi)需求上發(fā)揮極大的作用,讓顧客產(chǎn)生最強(qiáng)烈的購物欲望,從而使公司更好收益。
2.1 為什么會想到對商品進(jìn)行關(guān)聯(lián)分析
電商G在公司成立之初舉辦過打折季,打折季為期兩星期。在這兩周的時間里產(chǎn)品價格都是只有原來的70%。自從打折季開始,公司工作人員的工作量大約是平時的1.2倍。打折季結(jié)束之后,經(jīng)過數(shù)據(jù)分析研究發(fā)現(xiàn),在打折季期間顧客流量、營業(yè)額、銷售量以及訂單數(shù)量都是只增不減,只有營業(yè)利潤與原來持平。究其原因,只是增加顧客流量以及訂單數(shù)量,不停降低價格,這樣做并不能給公司帶來更大的收益。這樣做只會增加廣告費(fèi)用和公司工作人員的加班工資,公司的利潤率沒有明顯的增益。最后發(fā)現(xiàn),關(guān)鍵點(diǎn)在于客戶單價。單單一名顧客進(jìn)行一次購買行為的利潤不增反減。另一種情況是各個顧客在這打折季期間并不存在多次重復(fù)購買的消費(fèi)行為。正因如此,公司在各個顧客的消費(fèi)中得到的利潤只會不停下降。在電商G失敗的打折季活動中,他們領(lǐng)悟到一定要將商品相互關(guān)聯(lián)起來,對商品進(jìn)行關(guān)聯(lián)分析后,把握住消費(fèi)者的購買習(xí)慣,發(fā)掘顧客的潛在消費(fèi)需要,讓顧客同時購買兩種或者兩種以上商品,這樣一來可以為公司節(jié)約大量廣告費(fèi),這筆錢可以用于提升員工工資,激發(fā)員工積極性,提升用戶
體驗。
2.2 對商品關(guān)聯(lián)分析的必要性
假設(shè)顧客想在電商G的網(wǎng)絡(luò)平臺上有不止一個消費(fèi)需求,而且假設(shè)該顧客在電商G的平臺上花了半小時都并未找到他想要購買的商品,很有可能這個顧客就一件產(chǎn)品都不會買就離開了。一位顧客的不購買而離開的行為對于公司的影響可能微乎其微,但是放到龐大的顧客群體中來看,這對于公司的影響是巨大的,對公司的損失也是極大的。為了應(yīng)對這種情況,雖然目前不能做到積極應(yīng)對每一名顧客的消費(fèi)習(xí)慣即特殊需求,但是目前我們能夠做到的是分析那些具有共同消費(fèi)特征的顧客群體,分析找出顧客的共同需求,把這些顧客可能想購買的,或者可能十分感興趣的產(chǎn)品通過移動客戶端或者網(wǎng)頁推送給各個顧客,一來激發(fā)顧客更大的購買欲望,可能因此購買更多的關(guān)聯(lián)商品,二來很大程度上減少了顧客查找挑選產(chǎn)品的時間,因此大大提升了消費(fèi)速度。由此公司的訂單量不斷增加,公司也不用為了增加利潤而降低售價這種薄利多銷的不利于企業(yè)發(fā)展的營銷模式。這樣一來,用戶體驗不斷變好,公司的形象徹底扭轉(zhuǎn),公司的品牌價值得到提升,員工不用再為了企業(yè)利潤徹夜加班,員工的工作情緒得到很大照顧,對于公司的良性發(fā)展十分有利。更重要的是,顧客的潛在消費(fèi)需求被充分挖掘,顧客進(jìn)行再次購買時依舊會在電商G的平臺上進(jìn)行,而且因為良好的用戶體驗,顧客之間相互傳播消息,其他電商平臺的常客也會慕名而來,進(jìn)行購買。這樣更多的資源由此被吸引而來。所以,對商品進(jìn)行關(guān)聯(lián)分析,并進(jìn)行智能推薦是非常必要的。
3 數(shù)據(jù)關(guān)聯(lián)性分析
關(guān)聯(lián)分析是數(shù)據(jù)挖掘領(lǐng)域各種各樣的核心技術(shù)中,地位舉足輕重的一個。
3.1 項集
所謂項集就是集合概念的一種,在相同購物籃里的產(chǎn)品中的一件消費(fèi)品即為一項,那么若干項的集合稱為項集,比如{啤酒,尿布}就構(gòu)成了一個二元項集。
3.2 關(guān)聯(lián)規(guī)則
一般記為X→Y的形式,關(guān)聯(lián)規(guī)則左側(cè)的項集稱為先決條件,右側(cè)項集Y為與之相應(yīng)的關(guān)聯(lián)結(jié)果,是來表達(dá)數(shù)據(jù)內(nèi)部所隱藏的關(guān)聯(lián)性。比如,關(guān)聯(lián)規(guī)則尿布→啤酒成立,就說明采購尿布的顧客通常也會采購啤酒,就是說兩種購買行為具有比較明顯的關(guān)聯(lián)性。
接下來我們將目光放在研究關(guān)聯(lián)性的強(qiáng)度大小上,那么引出關(guān)聯(lián)分析領(lǐng)域里的三大核心概念,即支持度、置信度和提升度來對關(guān)聯(lián)分析進(jìn)行評價和控制。它們之間的具體關(guān)系如下。
下面舉例來對這三度進(jìn)行說明。
我們?nèi)绻J(rèn)為存在1000名顧客有采購行為,他們之中有1000人買尿布,有2000人買啤酒,有500人買面包,而且同時購買尿布與啤酒的有800個,同時購買尿布與面包的有100個。
3.3 支持度
支持度是指在所有項集中{X,Y}出現(xiàn)的可能性,即項集中同時含有X和Y的概率:
這個指標(biāo)是建立強(qiáng)關(guān)聯(lián)準(zhǔn)則的首要準(zhǔn)則,它度量了所需要研究的關(guān)聯(lián)規(guī)則在“量”上的大小。它通過設(shè)定最小閾值去掉出現(xiàn)次數(shù)少的限定規(guī)則,保存出現(xiàn)次數(shù)較多的項集不明顯的規(guī)則。這些步驟用如下的公式表達(dá),就是挑選出滿足:
的項集Z,我們稱其為頻繁項集。
我們前文提到的研究數(shù)據(jù)中,調(diào)整最小閾值為5%的時候,因為{尿布,啤酒}支持度為800/1000=8%,又因為{尿布,面包}支持度計算得到是100/1000=1%,那么{尿布,啤酒}符合數(shù)量規(guī)則而作為頻繁項集,與此同時規(guī)則尿布→啤酒、啤酒→尿布成立,{面包,尿布}所對應(yīng)的兩條規(guī)則不符合條件因此刪去。
3.4 置信度
置信度是指在關(guān)聯(lián)規(guī)則的前提條件X出現(xiàn)的條件下,即包含X的項集和包含Y的可能性的條件下關(guān)聯(lián)結(jié)果Y的發(fā)生概率:
現(xiàn)在我們來研究產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則的第二個門檻,即可以用來衡量相關(guān)關(guān)聯(lián)規(guī)則的“質(zhì)”。與前文一樣,我們需要設(shè)置一個置信度的最低門檻來實現(xiàn)進(jìn)一步篩選,并最終生成符合我們需求的強(qiáng)關(guān)聯(lián)規(guī)則。所以在選擇頻繁項目集之后,有必要使它們來滿足:
的規(guī)則,因此完成所需關(guān)聯(lián)規(guī)則的生成。
結(jié)合實際來說,我們設(shè)定置信度最小閾值為70%時,尿布→啤酒的置信度計算得到800/1000=8%,而規(guī)則啤酒→尿布的置信度是800/2000=40%,因此不符合條件被刪除。綜上所述我們不停篩選最終得到一條強(qiáng)關(guān)聯(lián)規(guī)則——尿布→啤酒。
3.5 提升度
提升度表示在Y發(fā)生的概率P(Y)的條件下,X的發(fā)生對于Y的出現(xiàn)概率P(Y—X)的提升程度,就是在已經(jīng)存在X的條件下,同時含有Y的概率和不存在這個條件下項集中含有Y的概率之比:
提升度與置信度都用來度量關(guān)聯(lián)規(guī)則的可靠程度,我們可以吧提升度當(dāng)成是與置信度相互補(bǔ)充的一種指標(biāo)。
打個比方,我們研究1000個顧客,經(jīng)過研究知道500人購買了香蕉,在他們之中存在450人也買了桔子,還有50名顧客未曾購買。因為規(guī)則香蕉→桔子的置信度為450/500=90%,所以判定很大概率上喜歡吃香蕉的也會喜歡吃橘子。然而研究剩下的500人,即沒有買香蕉的顧客,在他們之中,也存在450名顧客買了桔子,置信度也是90%.所以不吃香蕉的顧客也喜歡吃桔子。綜上所述,是否買桔子與是否買香蕉沒有聯(lián)系,它們相互獨(dú)立且它們的提升度是90%/(450+450)/1000=1。
其實提升度的提出是為了用來補(bǔ)充置信度的缺陷,如果lift值為1則指X、Y之間相互關(guān)系是獨(dú)立的,X的存在對Y出現(xiàn)的概率沒有影響,這里的影響即為提升概率。同時,提升度越大(>1)指X對Y的影響程度越大即表示關(guān)聯(lián)性越強(qiáng)。
那么進(jìn)行關(guān)聯(lián)分析算法步驟如下:
1)篩選符合支持度最小閾值的全部項集,由上文就是我們提到的頻繁項集。通常因為研究的數(shù)據(jù)很龐大,所以我們所想到的關(guān)聯(lián)規(guī)則不會占據(jù)其中的很大比重。舉個例子,比如說如果管理者想要研究買啤酒的顧客還會采購什么商品時,把閾值設(shè)為50%,就差不多刪除了存在“啤酒”的項,究其原因,在于不會去超市的顧客一半都購買啤酒,所以閾值通常我們設(shè)定其為5%~10%。
2)從頻繁項集中篩選符合最小置信度全部的關(guān)聯(lián)規(guī)則。置信度的閾值一般來說設(shè)置得高一些比如70%~90%,因為這是除去沒有意義的項集進(jìn)而得到強(qiáng)關(guān)聯(lián)規(guī)則的不可或缺的過程。其實這也會隨情況而變,假如目的是找出很多關(guān)聯(lián)規(guī)則,那么閾值應(yīng)該設(shè)置成比較小
的值。
4 分析結(jié)論
對于雜亂無章的大量信息,我們肯定不能很快地得到比如說最密切關(guān)聯(lián)商品等等諸如此類的重要信息,正因如此我們必須對關(guān)聯(lián)性制定準(zhǔn)則,商品之間的關(guān)聯(lián)是有條件的有規(guī)則的。
當(dāng)按照置信度控制時,得到5條置信度為100%的關(guān)聯(lián)規(guī)則,電商G可以把下列置信度達(dá)到100%的商品進(jìn)行捆綁推送。
顯然這是十分直觀并且有趣的結(jié)論,可以想象,忙碌一周的學(xué)生或者上班族周末在家放松的時候吃薯片,吃泡面,喝飲料,看電視
等等。
對于特殊的冷門商品,如果經(jīng)常推送多種冷門商品,會降低顧客購買欲望,讓顧客產(chǎn)生厭煩情緒,所以一般一種冷門商品只和一種比較熱門的商品捆綁,即一對一捆綁。經(jīng)過數(shù)據(jù)分析后,我們給出的結(jié)論是將芥末與蛋黃醬捆綁進(jìn)行推送,即在顧客購買蛋黃醬后給出類似商品芥末。
對于熱門商品我們也能進(jìn)行捆綁推送。上述數(shù)據(jù)分析的結(jié)果表示全脂牛奶,蔬菜,面包卷,蘇打和酸奶為銷量前五的商品。經(jīng)過分析將全脂牛奶和蜂蜜捆綁推送,將全脂牛奶和蘇打捆綁推送最為合理。
5 結(jié)束語
綜上所述,在全力提升電商G的網(wǎng)絡(luò)平臺效率的目的下,最大程度降低廣告所需費(fèi)用同時實現(xiàn)銷售量的增長,我們依照關(guān)聯(lián)分析的結(jié)果給電商G創(chuàng)造一個特殊化推送系統(tǒng),它可以判斷所有用戶各自的特征,然后系統(tǒng)給出最為恰當(dāng)?shù)漠a(chǎn)品或者產(chǎn)品組合。這樣電商G能夠吸引更多的忠實用戶,并給予這些顧客最好的網(wǎng)購體驗。而且,顧客的潛在需求也會被發(fā)掘,電商G的用于廣告和管理的預(yù)算也會相應(yīng)下降,更多的資金被用于提高公司其他方面。
參考文獻(xiàn)
[1]曹貞杰.可口可樂在1號店的客戶轉(zhuǎn)化能力研究[J].上海交通大學(xué)學(xué)報,2014(12).
[2]黃鈞晟.云計算環(huán)境下基于Apriori算法的氣象數(shù)據(jù)關(guān)聯(lián)規(guī)則分析研究[J].統(tǒng)計分析,2015(5).