黃宇承,吳麗麗
(1.甘肅農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院,甘肅 蘭州 730070;2.湖南都市職業(yè)學(xué)院,湖南 長沙 410137)
huangyu7630@sina.com;wull@gsau.edu.cn
在電商平臺(tái)銷售農(nóng)產(chǎn)品成為當(dāng)前農(nóng)產(chǎn)品流通的一種新型電子商務(wù)模式。商務(wù)部的數(shù)據(jù)顯示,2020 年上半年全國農(nóng)產(chǎn)品網(wǎng)絡(luò)零售額達(dá)1,937.7億元,同比增長39.7%,比2019 年上半年增速高了6 個(gè)百分點(diǎn)。特別是近兩年,更多的人愿意通過電商平臺(tái)購買農(nóng)產(chǎn)品。甘肅省是馬鈴薯及其制品的主要產(chǎn)地,馬鈴薯及其制品是典型的特色農(nóng)產(chǎn)品,通過電商平臺(tái)銷售是其主要的營銷渠道之一。馬鈴薯及其制品在電商平臺(tái)的銷售使傳統(tǒng)銷售中受種植環(huán)境、保存條件、南北差異等因素影響而導(dǎo)致農(nóng)民受損的情況得到改善,不僅使特色農(nóng)產(chǎn)品的銷售具有及時(shí)性和準(zhǔn)確性,同時(shí)降低了銷售成本和風(fēng)險(xiǎn)。關(guān)聯(lián)規(guī)則分析能挖掘出銷售記錄中與銷售量相關(guān)聯(lián)的屬性和強(qiáng)關(guān)聯(lián)規(guī)則記錄,對指導(dǎo)馬鈴薯及其制品的種植和加工具有實(shí)際意義。
關(guān)聯(lián)規(guī)則分析是發(fā)現(xiàn)大數(shù)據(jù)對象之間隱含的關(guān)聯(lián)關(guān)系、相互影響,以及根據(jù)一(多)個(gè)事件的發(fā)生對另一(多)個(gè)事件所產(chǎn)生的反應(yīng),通過現(xiàn)象發(fā)現(xiàn)本質(zhì),以便更好地為決策提供理論依據(jù)。針對馬鈴薯及其制品在電商平臺(tái)的銷售記錄,一方面品種、品種規(guī)格、品牌、產(chǎn)地和單價(jià)、月銷售量可以反映消費(fèi)者的購買意向;另一方面可以反映馬鈴薯及其制品的生產(chǎn)地所產(chǎn)出的不同產(chǎn)品的銷售量,可推斷出不同產(chǎn)地的何種馬鈴薯有利于銷售或指導(dǎo)種植生產(chǎn)。因此,本文采用Python語言運(yùn)行關(guān)聯(lián)規(guī)則算法Apriori算法、DHP算法和FP-Growth算法,從而比較三種算法中哪種算法運(yùn)算時(shí)間最短;將運(yùn)算時(shí)間最短的FP-Growth算法在馬鈴薯及其制品的銷售數(shù)據(jù)集中運(yùn)行得到頻繁項(xiàng)集,并找出其月銷售量和其他因素間的關(guān)聯(lián)關(guān)系,以期促進(jìn)特色農(nóng)產(chǎn)品在電商平臺(tái)中銷售的良性發(fā)展,同時(shí)指導(dǎo)特色農(nóng)產(chǎn)品的正確種植和加工。
特色農(nóng)產(chǎn)品在電商平臺(tái)銷售得好壞與產(chǎn)品的品種、規(guī)格、品牌建設(shè)與推廣、生產(chǎn)地及售價(jià)相關(guān)。搜集淘寶、拼多多等常用電商平臺(tái)中的馬鈴薯及其制品的銷售數(shù)據(jù),結(jié)合甘肅省農(nóng)業(yè)科學(xué)院馬鈴薯研究所對馬鈴薯品種的研究,經(jīng)過數(shù)據(jù)清洗后的馬鈴薯及其制品的部分銷售數(shù)據(jù)如表1所示,通過關(guān)聯(lián)規(guī)則分析得出月銷售量與品種、規(guī)格、品牌、產(chǎn)地、銷售價(jià)格之間的關(guān)系。
表1 馬鈴薯及其制品在電商平臺(tái)的銷售記錄(部分)Tab.1 Sales records of potatoes and their products on E-commerce platform (part)
支持度計(jì)算公式如下:
置信度計(jì)算公式如下:
Apriori算法采用逐層搜索的迭代方法,對數(shù)據(jù)集多次遍歷,并且將每次遍歷所得的頻繁項(xiàng)集作為搜索項(xiàng)集,產(chǎn)生新的候選項(xiàng)集,對候選項(xiàng)集進(jìn)行篩選,找到頻繁項(xiàng)集,依次循環(huán),直到?jīng)]有找到更長的頻繁項(xiàng)集為止。要找到最終頻繁項(xiàng)集需完成兩個(gè)步驟,即連接步和剪枝步,在頻繁項(xiàng)集中找出強(qiáng)關(guān)聯(lián)規(guī)則。
DHP算法是Apriori算法的優(yōu)化,基本過程與Apriori相同,生效于Apriori算法的剪枝步過程中。在第次掃描時(shí),生成每個(gè)事務(wù)的+1項(xiàng)集,代入一個(gè)Hash函數(shù)中,生成一個(gè)Hash表,建立項(xiàng)集的Hash表,同時(shí)記錄每個(gè)桶中的元素個(gè)數(shù)。
當(dāng)生成+1時(shí),將×自連接產(chǎn)生的結(jié)果先代入上述Hash函數(shù),若所落入該桶的計(jì)數(shù)小于最小支持閾值,則該元素必定不為頻繁項(xiàng)集,故可以過濾掉,不放入+1中。所有具有相同Hash值的項(xiàng)的總個(gè)數(shù)小于最小支持閾值,如:Hash(,)=4,Hash(,)=4,不妨假設(shè)4 號(hào)桶的元素個(gè)數(shù)小于最小支持閾值,則單個(gè)的(,)個(gè)數(shù)也必定小于最小支持閾值,故可排除。
FP-Growth算法巧妙地將樹型結(jié)構(gòu)引入算法中,它采取如下分治策略:提供頻繁項(xiàng)集的數(shù)據(jù)庫壓縮到一棵頻繁模式樹(FP-Tree),但仍保留項(xiàng)集關(guān)聯(lián)信息。該算法和Apriori算法最大的不同有兩點(diǎn):
第一,不產(chǎn)生候選集。
第二,只需要兩次遍歷數(shù)據(jù)集,大大提高了效率。
現(xiàn)在對馬鈴薯在電商平臺(tái)的部分銷售情況通過FPGrowth算法進(jìn)行關(guān)聯(lián)規(guī)則分析,分析流程用表2的事務(wù)數(shù)據(jù)集舉例說明,用代號(hào)I描述馬鈴薯及其制品品種、規(guī)格、品牌、產(chǎn)地、價(jià)格、月銷售量,假設(shè)最小支持度計(jì)數(shù)為2。
表2 事務(wù)數(shù)據(jù)集DTab.2 Transaction dataset D
FP-Growth算法對數(shù)據(jù)集只需要掃描兩次:
第一次掃描,先對事務(wù)數(shù)據(jù)集的所有項(xiàng)進(jìn)行支持度計(jì)數(shù),若有最小支持度小于2的項(xiàng)集則刪除。以支持度計(jì)數(shù)進(jìn)行降序排序,得到頻繁1-項(xiàng)集,如表3所示。
表3 頻繁1-項(xiàng)集Tab.3 Frequent 1-itemsets
第二次掃描數(shù)據(jù)集,構(gòu)建FP樹,如圖1所示。
圖1 構(gòu)建FP樹Fig.1 Building FP tree
然后挖掘頻繁項(xiàng)集:按照從下往上的順序,首先考慮I,得到條件模式基<(I,I:1)>,<(I,I,I:1)>構(gòu)造FP樹,刪除小于支持度的節(jié)點(diǎn),形成單條路徑后進(jìn)行組合,得到I的頻繁項(xiàng)集:{{I,I:2},{I,I:2},{I,I,I:2}}。其次考慮I,得到條件模式基<(I,I:1)>,<(I:1)>構(gòu)造條件FP樹,得到I的頻繁項(xiàng)集:{{I,I:2}}。第三考慮I,得到條件模式基<(I,I:2)>,<(I:2)>,<(I:2)>構(gòu)造條件FP樹,由于此樹不是單一路徑,需要遞歸挖掘I,從而得到I的條件模式基<(I:2)>,I和I的條件模式基為<(I:2)>構(gòu)造條件FP樹,得到I的頻繁項(xiàng)集{{I,I:4},{I,I:4},{I,I,I:2}}。最后考慮I,得到條件模式基<(I:4)>構(gòu)造條件FP樹,得到I的頻繁項(xiàng)集{I,I:4}。
Apriori算法、DHP算法和FP-Growth算法的性能在數(shù)據(jù)集記錄數(shù)固定的情況下與其運(yùn)算速度息息相關(guān)。在進(jìn)行馬鈴薯及其制品在電商平臺(tái)的銷售數(shù)據(jù)的關(guān)聯(lián)規(guī)則實(shí)驗(yàn)時(shí),在1,000余條銷售數(shù)據(jù)固定的情況下,設(shè)置置信度固定為80%,支持度有變化,分別設(shè)置為2%、4%、6%、8%、12%、14%、16%、18%、20%、22%,使三種算法在對馬鈴薯及其制品在電商平臺(tái)的銷售數(shù)據(jù)進(jìn)行挖掘時(shí),不同支持度下的運(yùn)行時(shí)間發(fā)生變化,所花時(shí)間越少,則證明該種算法的效率越高,性能也越高。圖2是Apriori、DHP和FPGrowth算法的運(yùn)行時(shí)間,通過實(shí)驗(yàn)得出FP-Growth算法更優(yōu)于Apriori算法和DHP算法。
圖2 三種算法運(yùn)行時(shí)間比較Fig.2 Comparison of running time of three algorithms
采用三種算法中運(yùn)行時(shí)間最短的FP-Growth算法對馬鈴薯及其制品在電商平臺(tái)的銷售數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘,設(shè)置最小置信度為80%,最小支持度為20%,得到一組強(qiáng)關(guān)聯(lián)規(guī)則記錄:{品種,規(guī)格,品牌,產(chǎn)地,單價(jià)},挖掘結(jié)果中部分置信度相對較大的記錄如表4所示。
表4 馬鈴薯及其制品在電商平臺(tái)的銷售關(guān)聯(lián)規(guī)則挖掘結(jié)果(部分)Tab.4 Association rule mining results of potatoes and their products sold on E-commerce platform (part)
根據(jù)挖掘結(jié)果得到甘肅省各地在電商平臺(tái)中銷售較好的馬鈴薯及其制品,如表5所示。通過表5間接反映各地銷售較好的品種是該地大面積種植和加工的農(nóng)產(chǎn)品,又表明各地銷售較好的品種受到消費(fèi)者的喜愛。(1)隴薯15號(hào)以產(chǎn)地蘭州市和定西市銷售較好,但均無品牌,蘭州市的價(jià)格在4.0 元/斤以下,定西市為1.0—4.0 元/斤。針對隴薯15號(hào),可以加大品牌建設(shè),定西市的價(jià)格跨度較大,蘭州市的價(jià)格在4.0 元/斤以下,在保證馬鈴薯品質(zhì)和低價(jià)穩(wěn)定不變的同時(shí)將高價(jià)降低0.5—1.0 元/斤,從而提高市場競爭力。(2)L1192-4銷量較好的是定西市,價(jià)格適中,但只有少量是有品牌的,可以加大品牌建設(shè)和推廣。(3)隴薯5號(hào)銷量較好的有定西市、平?jīng)鍪?、武威市,定西市的價(jià)格比平?jīng)鍪泻臀渫械?,但只有少量有品牌,平?jīng)鍪杏衅放?,武威市無品牌,可提升定西市和武威市無品牌土豆的品牌機(jī)制,將價(jià)格調(diào)整至定西市的價(jià)格水平,同時(shí)保證產(chǎn)品品質(zhì)。(4)隴薯7號(hào)是強(qiáng)關(guān)聯(lián)規(guī)則記錄中最多的,以定西市、平?jīng)鍪?、武威市銷量較佳,定西市大部分有品牌,平?jīng)鍪?、武威市有品牌,價(jià)格屬武威市最低,三市的價(jià)格差別不大,將該品種的土豆種植推廣至周邊其他市更有利于銷售。(5)大西洋(ck)以定西市、平?jīng)鍪?、隴南市銷量較好,定西市少數(shù)有品牌、平?jīng)鍪杏衅放?,隴南市無品牌,其中定西市的價(jià)格最低,隴南市的價(jià)格最高,價(jià)格差最高達(dá)3.5元/斤,在定西市對大西洋(ck)品種加大品牌推廣力度的同時(shí)保持價(jià)格穩(wěn)定,而在隴南市加大品牌推廣力度的同時(shí)則適當(dāng)降低價(jià)格。(6)土豆粉銷售較好的有蘭州市、定西市、臨夏回族自治州、天水市,價(jià)格差較大,僅定西市大部分有品牌,質(zhì)量難以把控,可在對其價(jià)格進(jìn)行監(jiān)督的同時(shí)對加工質(zhì)量進(jìn)行管控。(7)土豆片(薯片)僅蘭州市銷量較好,且建立有品牌機(jī)制,可在定西市等土豆產(chǎn)出較多的市增設(shè)加工廠,同時(shí)大力建立品牌機(jī)制。
表5 數(shù)據(jù)挖掘結(jié)果中各電商平臺(tái)月銷售較好的馬鈴薯及其制品Tab.5 Potatoes and their products with better monthly sales on E-commerce platforms from the results of data mining
(續(xù)表)
消費(fèi)者對農(nóng)產(chǎn)品的購買意向和興趣度相關(guān),關(guān)聯(lián)規(guī)則的興趣度有正關(guān)聯(lián)規(guī)則興趣度和負(fù)關(guān)聯(lián)規(guī)則興趣度。判斷消費(fèi)者對購買馬鈴薯及其制品的興趣度,求正關(guān)聯(lián)規(guī)則即可,即馬鈴薯及其制品關(guān)聯(lián)規(guī)則本身的置信度與它所包含的月銷售量的交易支持度的差,其公式是:
規(guī)則的興趣度=規(guī)則的置信度-月銷售量的支持度
由表4挖掘結(jié)果中所得的置信度和所設(shè)置的月銷售量的支持度之差,可以得出其興趣度,結(jié)果如表6所示。通過興趣度計(jì)算結(jié)果得出,強(qiáng)關(guān)聯(lián)規(guī)則的銷售記錄消費(fèi)者購買的興趣度在70%以上,推斷出消費(fèi)者在后期購買馬鈴薯及其制品時(shí)大部分人會(huì)選擇再次購買。
表6 消費(fèi)者的購買興趣度(部分)Tab.6 Consumers' purchase interest (part)
本文通過采用Python語言實(shí)現(xiàn)Apriori、DHP、FPGrowth三種算法,比較得出FP-Growth算法性能更優(yōu)于另外兩種算法。同時(shí),采用性能更優(yōu)的FP-Growth算法對馬鈴薯及其制品在電商平臺(tái)的銷售數(shù)據(jù)集進(jìn)行關(guān)聯(lián)規(guī)則分析,得到馬鈴薯及其制品在電商平臺(tái)銷售的強(qiáng)關(guān)聯(lián)規(guī)則記錄,將甘肅省各地銷售較好的品種進(jìn)行分析,以指導(dǎo)馬鈴薯及其制品的種植和加工,同時(shí)分析得出消費(fèi)者購買的興趣度在70%以上,由此可以推斷大多數(shù)消費(fèi)者的再次購買意向。