劉釗勇
(四川化工職業(yè)技術(shù)學(xué)院,四川 瀘州 646005)
近年來,隨著中國互聯(lián)網(wǎng)的飛速發(fā)展,食用菌行業(yè)在電商領(lǐng)域也發(fā)展迅速,2013年僅在淘寶平臺上的農(nóng)產(chǎn)品銷售額已達(dá)千億元,這一數(shù)字相當(dāng)于2008年淘寶網(wǎng)全網(wǎng)交易額[1]。
食用菌行業(yè)在電商領(lǐng)域的發(fā)展勢頭良好,各種電子商務(wù)網(wǎng)站和平臺隨著時間的推移,積累了大量的商業(yè)交易數(shù)據(jù)和客戶、供應(yīng)商信息[2]。將這些海量的商業(yè)信息分析并充分利用,發(fā)現(xiàn)商業(yè)和市場運(yùn)行的潛在規(guī)律,預(yù)測食用菌銷售市場的發(fā)展趨勢,從中發(fā)現(xiàn)一些未知、隱藏的有用信息,幫助企業(yè)從宏觀上把握食用菌行業(yè)和銷售市場的發(fā)展方向,更好地為廣大消費(fèi)者服務(wù)。
食用菌商業(yè)數(shù)據(jù)挖掘是指從海量的食用菌電子商務(wù)網(wǎng)站和商業(yè)交易數(shù)據(jù)中,提取出一些隱含、未知的有一定潛在價值的數(shù)據(jù)或信息。這些挖掘出的商業(yè)數(shù)據(jù)在原來商業(yè)數(shù)據(jù)中是不完整的、模糊的信息,通過數(shù)據(jù)挖掘得到的是更加清晰完整的信息,以一種清楚解釋和更有價值的方式呈現(xiàn)在決策者面前。通過食用菌商業(yè)數(shù)據(jù)的挖掘,如對客戶購買的食用菌種類、購買的時間、交易模式等商業(yè)數(shù)據(jù)的分析,食用菌銷售商可以調(diào)整品種和價格,實施更加精準(zhǔn)的營銷策略;而生產(chǎn)商則可以即時調(diào)整訂單數(shù)量和生產(chǎn)時間;同時,通過數(shù)據(jù)挖掘還可以發(fā)現(xiàn)食用菌電子商務(wù)運(yùn)營的基本規(guī)律,發(fā)掘潛在的客戶和細(xì)分的市場,預(yù)測未來食用菌市場的發(fā)展趨勢。
而對于食用菌企業(yè)決策者來說,還可以從中發(fā)現(xiàn)產(chǎn)品之間的關(guān)聯(lián)關(guān)系,如淘寶網(wǎng)上的“猜你喜歡的商品”功能,就可以發(fā)現(xiàn)客戶可能感興趣的商品;在20世紀(jì)90年代的美國超市在分析銷售數(shù)據(jù)時發(fā)現(xiàn)了“啤酒”和“尿布”2個看上去毫無關(guān)系的商品會經(jīng)常被人一起購買[5],尿布和啤酒擺在一起出售使兩個商品的銷量雙雙增加,這是數(shù)據(jù)挖掘算法關(guān)聯(lián)規(guī)則在實際中的成功應(yīng)用案例[5]。這就是一種產(chǎn)品之間的關(guān)聯(lián)關(guān)系,食用菌企業(yè)如果發(fā)現(xiàn)了產(chǎn)品間的這種關(guān)聯(lián)次第,就可以實行“交叉銷售”的銷售策略,創(chuàng)造新的銷售模式。
食用菌商業(yè)數(shù)據(jù)挖掘的目的是從海量商業(yè)數(shù)據(jù)中找到潛在的、有價值的、具有預(yù)測性的信息,為商業(yè)決策提供依據(jù)。具體在數(shù)據(jù)挖掘中使用關(guān)聯(lián)規(guī)則算法來實現(xiàn)。該關(guān)聯(lián)規(guī)則算法以事務(wù)數(shù)據(jù)庫為對象,使用Apriori算法來進(jìn)行關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘[3]。Apriori算法是一種用于挖掘數(shù)據(jù)集內(nèi)部關(guān)聯(lián)規(guī)則的算法,算法主要分2步,第一步找出商業(yè)數(shù)據(jù)的頻繁項集;第二步生成關(guān)聯(lián)規(guī)則,從而確定商業(yè)數(shù)據(jù)中項集間的關(guān)聯(lián)關(guān)系。
生成頻繁項集過程如圖1。
由圖1所示,創(chuàng)建含有k項的商業(yè)數(shù)據(jù)集,依次對1項集、2項集……k項集進(jìn)行掃描,接著以給定的最小支持度min_support為閾值,對項集進(jìn)行篩減,得到頻繁項集L1、L2……Lk。
由第一步中生成的頻繁項集Li和設(shè)定的最小可信度min_confidence構(gòu)成強(qiáng)關(guān)聯(lián)規(guī)則。對于每個頻繁項集 Li,如果 Lk?Li,Lk≠ Φ,并且 Confidence(Lk? (Li-Lk))≥min_confidence,則構(gòu)成強(qiáng)關(guān)聯(lián)規(guī)則Lk? (Li-Lk)。
以上2步就是Apriori算法的主要步驟,可以看出求解數(shù)據(jù)集的頻繁項集是基礎(chǔ),得到關(guān)聯(lián)規(guī)則是算法的目的。由于每生成一個頻繁項集都需要對事務(wù)數(shù)據(jù)庫進(jìn)行一次掃描,會造成算效率降低,對于數(shù)據(jù)集較大的商業(yè)數(shù)據(jù)集將嚴(yán)重影響算法性能[4]。因此,為了提高算法效率,需要降低掃描數(shù)據(jù)庫的次數(shù)。
經(jīng)典Apriori算法在面對數(shù)據(jù)量較大的數(shù)據(jù)集時,會因為每次生成頻繁項集而多次掃描事務(wù)數(shù)據(jù)庫,造成算法效率降低。針對這一問題,我們設(shè)計了改進(jìn)的Apriori算法,采用一次性訪問數(shù)據(jù)庫策略,完成頻繁項集的生成。
算法設(shè)計思想:在對經(jīng)典的Apriori算法進(jìn)行研究時發(fā)現(xiàn),每生成一個候選項集就會對數(shù)據(jù)庫進(jìn)行一次訪問,沒有利用之前產(chǎn)生的數(shù)據(jù),而導(dǎo)致大部分信息被舍棄。因此,開辟新的存儲空間,一次訪問數(shù)據(jù)庫并記錄相關(guān)信息并利用頻繁項集的性質(zhì)進(jìn)行剪枝,減少候選項集的數(shù)量,加快頻繁項集的生成。
對上述改進(jìn)算法進(jìn)行對比試驗。給定一個4條記錄的事務(wù)數(shù)據(jù)集示例:(001,{1,2,3})、(002,{2,3,5})、(003,{1,2,3,4}、(004,{2,5})。設(shè)定最小支持度min_Support計數(shù)為2,則改進(jìn)的Apriori算法運(yùn)行過程如表1所示。
傳統(tǒng)算法與經(jīng)典Apriori算法對比情況如表2所示。
在食用菌商業(yè)數(shù)據(jù)集中,使用關(guān)聯(lián)規(guī)則挖掘算法對銷售數(shù)據(jù)進(jìn)行挖掘可以為制定銷售方案、貨品擺放和進(jìn)貨選擇提供支持決策。測試試驗以一個有20 000條食用菌銷售數(shù)據(jù)集為試驗數(shù)據(jù),表3僅給出示例數(shù)據(jù)展示,試驗比較Apriori和改進(jìn)的Apriori兩種算法在關(guān)聯(lián)規(guī)則挖掘時運(yùn)行時間的消耗情況。
對12 000條的食用菌銷售數(shù)據(jù)集,用Python語言分別對Apriori和改進(jìn)的Apriori算法進(jìn)行編程,兩種算法的運(yùn)行時間情況比較如圖2所示。
通過以上試驗結(jié)果可以看出,改進(jìn)后的Apriori算法,由于僅訪問一次數(shù)據(jù)庫,且不會增加候選項集,縮短了算法運(yùn)行時間,提高了算法效率,并具有較強(qiáng)的穩(wěn)定性。面對記錄多的海量食用菌商業(yè)數(shù)據(jù)集時具有明顯的優(yōu)勢。
表1 改進(jìn)的Apriori算法挖掘過程Tab.1 Modified apriorialgorithmic mining process
表2 傳統(tǒng)算法和改進(jìn)算法運(yùn)行情況對比Tab.2 Comparing traditional algorithm with improved algorithm
表3 部分購物記錄數(shù)據(jù)表Tab.3 Partial shopping record data table
食用菌商業(yè)數(shù)據(jù)挖掘主要通過各種數(shù)據(jù)挖掘算法來實現(xiàn),常用的商業(yè)數(shù)據(jù)挖掘涉及企業(yè)的各個方面,包括企業(yè)的經(jīng)營、銷售、產(chǎn)品開發(fā)、市場和客戶管理等,其中以客戶和市場營銷的數(shù)據(jù)挖掘為主。數(shù)據(jù)挖掘算法主要有分類、回歸、聚類、預(yù)測、關(guān)聯(lián)等機(jī)器學(xué)習(xí)算法。其中,關(guān)聯(lián)規(guī)則算法是商業(yè)信息數(shù)據(jù)挖掘中的重要算法,他可以反映食用菌電子商務(wù)中產(chǎn)品與其它產(chǎn)品之間的相互關(guān)系和關(guān)聯(lián)性,特別適合海量商業(yè)數(shù)據(jù)中挖掘出有價值的商品和客戶數(shù)據(jù),并發(fā)現(xiàn)他們之間的關(guān)聯(lián)關(guān)系。本文對數(shù)據(jù)挖掘的經(jīng)典Apriori算法進(jìn)行了改進(jìn),相比于經(jīng)典的Apriori算法,改進(jìn)的算法只需要對數(shù)據(jù)庫進(jìn)行一次訪問,節(jié)省了數(shù)據(jù)庫的訪問開銷,提升了數(shù)據(jù)挖掘的效率。該數(shù)據(jù)挖掘算法可以幫助食用菌企業(yè)分析客戶購買習(xí)慣、幫助經(jīng)銷商制定銷售策略。