葉建龍
(1.隴南師范高等??茖W(xué)校,甘肅隴南,742500;2.甘肅省高等學(xué)校農(nóng)村電商人才培育重點(diǎn)實(shí)驗(yàn)室,甘肅隴南,742500)
淺析電子商務(wù)中關(guān)聯(lián)推薦算法的應(yīng)用
葉建龍1,2
(1.隴南師范高等??茖W(xué)校,甘肅隴南,742500;2.甘肅省高等學(xué)校農(nóng)村電商人才培育重點(diǎn)實(shí)驗(yàn)室,甘肅隴南,742500)
如今這個(gè)時(shí)代可以稱作大數(shù)據(jù)時(shí)代,任何行業(yè)都需要依靠網(wǎng)絡(luò)以及數(shù)據(jù),其中電子商務(wù)更是離不開數(shù)據(jù)。關(guān)聯(lián)推薦算法則是電子商務(wù)系統(tǒng)中近幾年來常用的數(shù)據(jù)挖掘方法。本文將了解關(guān)聯(lián)規(guī)則相關(guān)概念,探討關(guān)聯(lián)推薦算法在電子商務(wù)中的應(yīng)用。
關(guān)聯(lián)規(guī)則;關(guān)聯(lián)推薦算法;電子商務(wù)應(yīng)用
利潤約束就是在關(guān)聯(lián)規(guī)則中依據(jù)著利潤為量化參數(shù)。采用屬性加權(quán)的方式,引入利潤這一權(quán)重來分析關(guān)聯(lián)規(guī)則。傳統(tǒng)的數(shù)據(jù)挖掘算法是沒有考慮量化參數(shù)這一方面,但根據(jù)數(shù)據(jù)顯示往往會(huì)有百分之二十的商品業(yè)務(wù)帶來百分之八十的利潤,因此利潤約束可以更加準(zhǔn)確計(jì)算關(guān)聯(lián)規(guī)則。
其實(shí)關(guān)于關(guān)聯(lián)推薦有一個(gè)關(guān)于“尿布”和“啤酒”的故事更常被提及。國外家庭父親往往在周末照顧孩子的同時(shí)會(huì)觀看球賽,而看球賽會(huì)選擇喝啤酒。因此國外父親在逛超市時(shí),基本會(huì)同時(shí)購買啤酒和尿布。超市發(fā)現(xiàn)這一現(xiàn)象將尿布與啤酒擺放一起,銷售額也隨之增加。這就是啤酒與尿布之間的關(guān)聯(lián)規(guī)則,如下圖就是尿布,啤酒以及其他商品之間的關(guān)聯(lián)規(guī)則示意圖。
圖2 “尿布”和“啤酒”
關(guān)聯(lián)推薦其實(shí)已經(jīng)潛移默化的進(jìn)入我們的生活中了。隨著電子商務(wù)行業(yè)的發(fā)展,關(guān)聯(lián)推薦算法的應(yīng)用也逐漸變多。
在電子商務(wù)系統(tǒng)中,主要根據(jù)用戶購買記錄與愛好顯示,作為數(shù)據(jù)來對用戶進(jìn)行關(guān)聯(lián)推薦。數(shù)據(jù)來源主要依靠兩個(gè)方面一面是產(chǎn)品自身屬性,另一面是用戶信息來源。
關(guān)聯(lián)推薦算法中最常用的算法為Apriori算法。下圖(圖3)就為Aprior算法的具體程序圖。
其實(shí)我們可以看出Aprior算法主要分為兩步首先需要生成一個(gè)項(xiàng)目集,這個(gè)項(xiàng)目集需要支持度大于最小支持度的項(xiàng)目集合,被稱作頻繁項(xiàng)目集。接著依靠上述的頻繁項(xiàng)目集生成可信的關(guān)聯(lián)規(guī)則。而此處的可信的關(guān)聯(lián)規(guī)則中的置信度要小于最小置信度。這就是Aprior算法的基本流程。Aprior算法的關(guān)鍵問題就是開始的頻繁項(xiàng)目集的生成。它的主要運(yùn)行環(huán)境主要為My eclipse和Windows XP系統(tǒng)及其以上的系統(tǒng)。
其中Aprior算法的優(yōu)化方法有:(1)基于劃分的方法。此法就是將數(shù)據(jù)分為集合互不交及的分塊,先單獨(dú)考慮單個(gè)分塊產(chǎn)生的頻繁集合,再合并成所有的可能的頻集,再計(jì)算支持度;(2)還有基于采樣的優(yōu)化,此法則依靠總的掃描次數(shù)小于最大的頻繁項(xiàng)目集的項(xiàng)的數(shù)目;(3)動(dòng)態(tài)項(xiàng)集計(jì)數(shù)也是一種優(yōu)化方式,這方法就是利用動(dòng)態(tài)評估,可以在任何點(diǎn)上添加。
對于關(guān)聯(lián)推薦算法的驗(yàn)證方法可通過對電商系統(tǒng)的試用來判斷,例如在系統(tǒng)中輸入購買牙刷,出現(xiàn)的推薦建議為牙膏、牙杯等,再依靠數(shù)據(jù)庫查詢出通常購買牙刷的顧客,還會(huì)繼續(xù)購買牙膏和牙杯等,就說明關(guān)聯(lián)規(guī)則算法挖掘出來的結(jié)果正確,此次算法應(yīng)用成功。
在日常生活中,人們在瀏覽網(wǎng)購網(wǎng)站時(shí)購買想要的東西時(shí),總會(huì)有其他相關(guān)產(chǎn)品推薦出現(xiàn)在視野中。關(guān)聯(lián)推薦算法在電子商務(wù)中的應(yīng)用說明了數(shù)據(jù)的重要性。電商系統(tǒng)根據(jù)顧客信息來了解顧客推算顧客潛意識中其他購買欲望,為顧客提供更加良好的服務(wù),為電商謀求更多利益。
[1]夏敏捷,朱國華.基于關(guān)聯(lián)規(guī)則挖掘的電子商務(wù)個(gè)性化推薦系統(tǒng)研究[J].中原工學(xué)院學(xué)報(bào).2009,20(5):41-43.
[2]曹毅,賀衛(wèi)紅.基于內(nèi)容過濾的電子商務(wù)推薦系統(tǒng)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展.2009,19(6):182-185.
圖3 Apriori算法流程圖
Analysis of the application of association recommendation algorithm in E-commerce
Ye Jianlong1,2
(1.Longnan Teachers College,Longnan Gansu,742500;2.Key Laboratory for Rural E-business Personnel Cultivation in Institutions of Higher Learning of Gansu Province,Longnan Gansu,742500)
Today, this era can be called big data era, any industry needs to rely on the network and data,in which e-commerce is inseparable from the data. Association recommendation algorithm is a commonly used data mining method in e-commerce system in recent years. This paper will understand the related concepts of association rules, and discuss the application of association recommendation algorithm in e-commerce.
Association rules;Association recommendation algorithm;Electronic commerce application
關(guān)聯(lián)規(guī)則的基本定義為:設(shè)定非空集(例如N={n1,n2,n3,…nm})為項(xiàng)的集合,再給定一個(gè)已知的事務(wù)集(交易數(shù)據(jù)庫)(例如D={d1,d2,d3,…dm})。其中每一個(gè) d(d=d1,d2,d3…)都是 N 的非空子集(即d屬于N)。每一交易都與唯一標(biāo)識符TID對應(yīng)。關(guān)聯(lián)規(guī)則就是像X=>Y這樣,這個(gè)蘊(yùn)涵式中X,Y都屬于開始給定的項(xiàng)的集合N并且X交Y不是空集。
支持度就是指事務(wù)集D中有百分之幾(例:S%)的事務(wù)支持集X,Y。這S%就為關(guān)聯(lián)規(guī)則里X=>Y的支持度了。具體來說就是指某天有1500名顧客進(jìn)超市購買商品,其中有150名顧客同時(shí)買了牙膏與牙刷,這其中的關(guān)聯(lián)規(guī)則的支持度S%=10%。
可信度是指在事務(wù)集D里支持集合X中同時(shí)有百分之幾(如C%)也支持集合Y,這C%就是此關(guān)聯(lián)規(guī)則X=>Y的可信度。如上述的實(shí)例,1500名顧客去超市購買商品中,一位顧客購買了牙刷之后他在繼續(xù)購買牙刷的可能性有多大。如購買了牙刷后的顧客中有50%的人繼續(xù)購買了牙膏,就說明這個(gè)關(guān)聯(lián)規(guī)則中的可信度為50%。
在關(guān)聯(lián)規(guī)則中,還有一個(gè)很重要的數(shù)據(jù)指標(biāo):提升度。提升度可以更進(jìn)一步的篩選關(guān)聯(lián)規(guī)則。提升度中有一個(gè)名詞叫規(guī)則提升度(lift),這個(gè)指標(biāo)就反映這關(guān)聯(lián)規(guī)則的價(jià)值。提升度的存在就說明了擁有關(guān)聯(lián)規(guī)則的預(yù)測比沒有關(guān)聯(lián)規(guī)則的預(yù)測更加準(zhǔn)確些。如圖1,規(guī)則提升度由支持度等數(shù)據(jù)計(jì)算得出,當(dāng)lift大于1時(shí),說明在關(guān)聯(lián)規(guī)則X=>Y中X的出現(xiàn)促進(jìn)了Y的出現(xiàn);相反的當(dāng)lift小于1時(shí),就說明X的出現(xiàn)抑制了Y的出現(xiàn)。因此我們可以知道lift越大則越好。
圖1 規(guī)則提升度的計(jì)算
隴南市科技局項(xiàng)目編號(2016_16)。
葉建龍(1981.11—-),男,漢族,甘肅西和縣人,本科,講師,研究方向:算法,數(shù)據(jù)挖掘。