羅燕君
[摘 要] Excel 2007及以上版本可連接數(shù)據(jù)挖掘外接程序,實現(xiàn)數(shù)據(jù)挖掘功能。這為電子商務(wù)運營人員開展電子商務(wù)數(shù)據(jù)挖掘工作提供了簡便易學(xué)又好用的工具。該文從基于ARIMA模型的時間序列分析、基于線性回歸模型的定量分析和基于邏輯回歸模型的定性分析三方面,來闡述Excel數(shù)據(jù)挖掘技術(shù)在電商運營預(yù)測分析中的應(yīng)用研究。
[關(guān)鍵詞] Excel數(shù)據(jù)挖掘;電商運營;預(yù)測分析
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 19. 059
[中圖分類號] F713.36 [文獻標(biāo)識碼] A [文章編號] 1673 - 0194(2017)19- 0140- 03
1 引 言
對電商行業(yè)而言,數(shù)據(jù)分析在電子商務(wù)運營工作中是特別重要的,許多工作都需要使用到數(shù)據(jù)分析。而數(shù)據(jù)分析中的電商運營預(yù)測分析尤其重要。企業(yè)做預(yù)測,是為了更好地做決策,提高企業(yè)運營水平。電子商務(wù)從業(yè)人員需要通過預(yù)測來把握電商行業(yè)發(fā)展趨勢,以及電商市場動態(tài)變化,以減少未來不確定性,減少決策時面臨的風(fēng)險,使企業(yè)運營工作順利進行。
如今,數(shù)據(jù)挖掘作為一種更深入的數(shù)據(jù)分析方法,其使用領(lǐng)域越來越大,不過這種強大的數(shù)據(jù)分析方法,只有專業(yè)研究人員和少數(shù)企業(yè)在使用。大多數(shù)沒有進行數(shù)據(jù)分析專業(yè)培訓(xùn)的電子商務(wù)從業(yè)人員在面對深奧的專業(yè)軟件的時候,很多就退縮了。其實,大家忽略了就在身邊的方便易用且功能強大的數(shù)據(jù)挖掘工具——Excel[1]。本文介紹了如何運用Excel的數(shù)據(jù)挖掘技術(shù)對電子商務(wù)運營進行預(yù)測分析,從而為廣大電商從業(yè)人員在電商運營工作中發(fā)現(xiàn)新的更快捷簡便的數(shù)據(jù)分析與數(shù)據(jù)挖掘方法提供參考,對促進行業(yè)發(fā)展有重要意義。
2 Excel數(shù)據(jù)挖掘技術(shù)與電商運營預(yù)測分析
2.1 Excel數(shù)據(jù)挖掘技術(shù)簡介
數(shù)據(jù)挖掘,顧名思義就是從龐大的數(shù)據(jù)中挖掘?qū)毑兀ㄐ畔?、知識、見解、假設(shè)、課題等)的一種方法和過程[1]。它指從海量的實際應(yīng)用數(shù)據(jù)中,獲取隱含在其中的潛在有用信息和知識的過程。它是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)[2]。總之,數(shù)據(jù)挖掘就是一種更深入的數(shù)據(jù)分析方法。
Excel也可進行數(shù)據(jù)挖掘工作。在使用Excel數(shù)據(jù)挖掘工具前,先要裝好Excel數(shù)據(jù)挖掘外接程序,并且要有Microsoft SQL Server Analysis Services (SSAS) 的支持[3]。安裝好數(shù)據(jù)挖掘外接程序后,Excel菜單欄會比之前多出數(shù)據(jù)挖掘一項(見圖1)。
本文使用的系統(tǒng)環(huán)境和工具分別是Windows 7,Excel 2013和SQL Server 2012數(shù)據(jù)庫,數(shù)據(jù)挖掘外接程序版本是Microsoft SQL Server 2012 Office 2010。 Excel安裝數(shù)據(jù)挖掘外接程序再連接數(shù)據(jù)庫,可以很方便地運行算法,快速處理和執(zhí)行復(fù)雜的數(shù)據(jù)分析,且有助于揭示數(shù)據(jù)中隱藏的模式和關(guān)系,然后利用它們提高分析質(zhì)量[3]。
2.2 Excel數(shù)據(jù)挖掘技術(shù)與電商運營預(yù)測分析的關(guān)系
數(shù)據(jù)挖掘能從大量繁雜的數(shù)據(jù)中獲取隱含其中的信息,比如說對顧客分類,聚類,欺詐甄別,潛在顧客識別等,現(xiàn)在應(yīng)用領(lǐng)域非常廣,如設(shè)計、零售、金融、銀行、醫(yī)療、政府決策、企業(yè)財務(wù)、商業(yè)決策等國民經(jīng)濟生活中的各個領(lǐng)域[4]。電子商務(wù)相對以往商務(wù)形式,更能夠快速采集全面、準(zhǔn)確的數(shù)據(jù),能使工作人員從數(shù)據(jù)中獲取更多更有用的信息,因此,數(shù)據(jù)和分析的重要性越來越加大。只有通過數(shù)據(jù)分析預(yù)測電商企業(yè)運營與管理情況,客戶心理和行為方式,預(yù)測商品成交的趨勢規(guī)律和行業(yè)信息,才可以掌握電子商務(wù)企業(yè)總體運營狀況,才可以及時調(diào)整企業(yè)戰(zhàn)略及戰(zhàn)術(shù)的方針政策。
近年來電商行業(yè)在不斷的發(fā)展,所以電子商務(wù)企業(yè)面對的數(shù)據(jù)已經(jīng)越來越龐大和復(fù)雜,電子商務(wù)人員每天都要在巨量數(shù)據(jù)中去找尋有用的信息,所以行業(yè)需要大量具有數(shù)據(jù)分析和數(shù)據(jù)挖掘能力的人才。截止到 2016 年 12 月,中國電子商務(wù)服務(wù)企業(yè)直接從業(yè)人員超過 305 萬人,同比增長 8%[5]。這樣龐大的行業(yè)隊伍中的許多人其實并不具有很高的學(xué)歷,而具有專業(yè)的數(shù)據(jù)分析與統(tǒng)計分析能力的人更是少之又少,這顯然是不能滿足電商行業(yè)的數(shù)據(jù)分析與數(shù)據(jù)挖掘工作需要的。提起數(shù)據(jù)挖掘工具,就會想到SAS、SPSS等軟件。這些專業(yè)數(shù)據(jù)挖掘工具,與Excel相比,入門及使用難度都相對大許多,許多電商從業(yè)人員比較難接受。而Excel挖掘工具,既學(xué)習(xí)使用起來簡單易用,而且一般常用數(shù)據(jù)挖掘功能都具備,能滿足日常電商運營中數(shù)據(jù)挖掘工作的需要。所以掌握數(shù)據(jù)挖掘的方法,并不一定需要學(xué)習(xí)一些高深統(tǒng)計學(xué)知識,以及高深數(shù)據(jù)挖掘工具。其實只要使用日常所用的Excel再外接數(shù)據(jù)挖掘程序就行了。Excel以其功能強大的數(shù)據(jù)處理和分析功能以及簡單易用的特點,在電子商務(wù)運營數(shù)據(jù)分析工作中得到了廣泛應(yīng)用,已經(jīng)成為電子商務(wù)數(shù)據(jù)分析的重要工具之一。Excel可以進行各種常見的數(shù)據(jù)挖掘工作:包含數(shù)據(jù)分類、聚類、關(guān)聯(lián)、預(yù)測、估計等。其中的預(yù)測與估計功能在電商運營預(yù)測分析中可以有非常好的應(yīng)用。
3 Excel數(shù)據(jù)挖掘技術(shù)關(guān)于電商運營預(yù)測分析的方法和操作路徑
電商運營預(yù)測指的是,用各種先進的手段,對影響電商市場變化的多種因素進行科學(xué)研究、分析、判斷其趨勢,把握其發(fā)展的規(guī)律,為電商經(jīng)營決策者提供可靠的決策依據(jù)。電子商務(wù)運營當(dāng)中的很多評估和決策都要以預(yù)測為前提,可以用具體的預(yù)測數(shù)據(jù)來進行支持。及時準(zhǔn)確的數(shù)據(jù)可以幫助電商運營人員通過科學(xué)的預(yù)測方法減少決策的風(fēng)險并且降低對于員工個人能力的要求,幫助公司積累經(jīng)驗和競爭力。
Excel連接了數(shù)據(jù)挖掘外接程序,可以對數(shù)據(jù)進行時間序列、定性和定量等方面的預(yù)測分析。endprint
3.1 基于ARIMA模型的時間序列分析預(yù)測法
時間序列就是按時間順序排列的一組數(shù)據(jù)序列。時間序列分析就是發(fā)現(xiàn)這組數(shù)據(jù)變動規(guī)律并用于預(yù)測的統(tǒng)計技術(shù)。
其中ARIMA模型是重要的時間序列模型。ARIMA模型全稱為自回歸移動平均模型。該模型建立后就可以用時間序列中過去與現(xiàn)在的數(shù)據(jù)來預(yù)測未來的數(shù)據(jù)。
基于此模型的Excel數(shù)據(jù)挖掘方法在某種程度上已經(jīng)能夠幫助電商企業(yè)在運營中對未來進行預(yù)測。其利用時間數(shù)據(jù)變動規(guī)律來預(yù)測,主要可以應(yīng)用于預(yù)測銷量、點擊率、流量和銷售額等。
下面從圖2到圖6是使用Excel數(shù)據(jù)挖掘工具進行電商運營時間序列預(yù)測的典型應(yīng)用展示。將需要預(yù)測的數(shù)據(jù):某類目商品15年8月到16年7月的銷量(圖2),利用Excel數(shù)據(jù)挖掘中的預(yù)測工具(圖3)進行預(yù)測,得到圖4、圖5和圖6的預(yù)測結(jié)果,分別為圖形結(jié)果、模型結(jié)果和數(shù)據(jù)表格結(jié)果。其中圖6數(shù)據(jù)表格結(jié)果中的銷量是預(yù)測的銷量,標(biāo)準(zhǔn)偏差為預(yù)測值的誤差。
3.2 基于線性回歸模型的定量分析預(yù)測法
回歸分析是對客觀事物數(shù)量依存關(guān)系的分析,是數(shù)理統(tǒng)計中的一個常用的方法,是處理多個變量之間相互關(guān)系的一種數(shù)學(xué)方法。
所謂線性回歸模型就是指因變量和自變量之間的關(guān)系是直線型的。 回歸分析預(yù)測法中最簡單和最常用的就是線性回歸預(yù)測法。線性回歸分析是對客觀事物數(shù)量關(guān)系的分析,是一種重要的統(tǒng)計分析方法,可以被廣泛的用于電商運營工作中數(shù)據(jù)變量之間的影響因素和關(guān)聯(lián)的研究。
使用Excel數(shù)據(jù)挖掘的估計工具中的線性回歸算法參數(shù),可以通過利用數(shù)據(jù)變量之間的影響因素和關(guān)聯(lián)關(guān)系來預(yù)估其中某變量未來值。比如依據(jù)成交商品數(shù)和活躍商品數(shù)之間的關(guān)系規(guī)律預(yù)估未來的成交商品數(shù);依據(jù)成交量和高質(zhì)量寶貝的關(guān)系規(guī)律,預(yù)估未來成交量;依據(jù)銷量與點擊率的規(guī)律關(guān)系,預(yù)估未來銷量等等。
下面從圖7到圖11是運用Excel數(shù)據(jù)挖掘工具進行電商線性回歸預(yù)測的典型應(yīng)用展示。將需要預(yù)測的數(shù)據(jù):某類目商品15年8月到16年7月的成交商品數(shù)和活躍商品數(shù)(圖7),利用Excel數(shù)據(jù)挖掘中的估計工具(圖8)進行預(yù)測,算法參數(shù)選到線性回歸(圖9),得到圖10和圖11的預(yù)測結(jié)果,分別為模型結(jié)果和數(shù)據(jù)表格結(jié)果。其中圖11數(shù)據(jù)表格結(jié)果中的輸出1是預(yù)測的成交商品數(shù)。
3.3 基于邏輯回歸模型的二分類定性分析預(yù)測法
二分類,顧名思義,就是兩個分類狀態(tài),例如用戶是否購買商品、用戶是否流失等都屬于二分類;邏輯回歸是一項可用于預(yù)測二分類結(jié)果的統(tǒng)計方法,廣泛應(yīng)用于當(dāng)今社會各領(lǐng)域中,在電商運營數(shù)據(jù)分析中也應(yīng)用廣泛。
在實際電商運營工作中,電商運營人員會遇到諸如此類的情形:預(yù)測一個用戶是否會點擊某個商品或?qū)氊?、是否會購買某個類目商品,判斷客戶的性別、 判斷某條評論是好的還是壞的等等。這些判斷是或否,對或錯的預(yù)測稱為二分類預(yù)測。
使用Excel數(shù)據(jù)挖掘的估計工具中邏輯回歸算法參數(shù),可以很方便地在電商運營工作中進行二分類預(yù)測。
下面從圖12到圖16是使用Excel數(shù)據(jù)挖掘工具進行電商運營二分類預(yù)測的典型應(yīng)用展示。將不同地區(qū)買家,已購物金額、購買件數(shù)和是否重復(fù)購買等參數(shù)(圖12),利用Excel數(shù)據(jù)挖掘中的估計工具(圖13)對其他買家是否重復(fù)購買進行預(yù)估,預(yù)測算法參數(shù)選到邏輯回歸(圖14),得到圖15和圖16的預(yù)測結(jié)果,分別為模型結(jié)果和數(shù)據(jù)表格結(jié)果。其中圖16數(shù)據(jù)表格結(jié)果中的輸出1中的1表示會重復(fù)購買,0表示不會重復(fù)購買。
4 結(jié) 語
如上文所述Excel安裝好數(shù)據(jù)挖掘外接程序,結(jié)合SQL Server數(shù)據(jù)庫,在多種算法的支持下,具有很強的數(shù)據(jù)挖掘功能,并且將數(shù)據(jù)挖掘結(jié)果呈現(xiàn)給數(shù)據(jù)挖掘人員,對電商運營數(shù)據(jù)分析有重要作用,已能很大程度地滿足日常運營分析需要。
使用Excel數(shù)據(jù)挖掘工具能簡單且方便地對電商運營數(shù)據(jù)進行時間序列、定性和定量等方面的預(yù)測分析。其實除預(yù)測和估計分析外,Excel數(shù)據(jù)挖掘工具還能進行如分類、關(guān)聯(lián)、聚類等其他數(shù)據(jù)分析,因其簡單易學(xué)的特性,大大降低了電子商務(wù)從業(yè)人員進行數(shù)據(jù)分析與數(shù)據(jù)挖掘的門檻,是廣大電商從業(yè)者的福音。
當(dāng)然通過Excel數(shù)據(jù)挖掘工具得到的數(shù)據(jù)挖掘結(jié)果,還需要會解讀并執(zhí)行應(yīng)用到電商實際工作中才能產(chǎn)生真正的價值??偟膩碚f,Excel數(shù)據(jù)挖掘技術(shù)對于電子商務(wù)企業(yè)而言是巨大的財富。
主要參考文獻
[1][日]上田和明.用Excel學(xué)數(shù)據(jù)挖掘 [M].孫英英,譯.北京:科學(xué)出版社2012.
[2]吳玲敏.淺談數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用[J].中國商貿(mào),2009(10).
[3]徐軍偉,程國忠.Excel 2010數(shù)據(jù)挖掘工具的應(yīng)用研究[J].電腦知識與技術(shù),2014.
[4]Jiawei Han,Micheline Kanber,Jian Pei.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2007.
[5]中國電子商務(wù)研究中心.2016年度中國電子商務(wù)人才狀況調(diào)查報告[EB/OL].http://www.100ec.cn/zt/16rcbg/,2017-06-14.endprint