程軍鋒
(隴南師范高等專科學(xué)校 數(shù)信學(xué)院,甘肅 隴南 742500)
?
數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究
程軍鋒
(隴南師范高等??茖W(xué)校 數(shù)信學(xué)院,甘肅 隴南 742500)
[摘要]隨著Internet的日益普及,電子商務(wù)作為一種新型的商業(yè)形式,可以通過網(wǎng)絡(luò)進(jìn)行產(chǎn)品的推廣、銷售等。數(shù)據(jù)挖掘技術(shù)是一種有效的數(shù)據(jù)分析和處理技術(shù),通過相應(yīng)的關(guān)聯(lián)規(guī)則、分類、聚類、預(yù)測技術(shù)等對銷售數(shù)據(jù)進(jìn)行分析和處理,發(fā)現(xiàn)數(shù)據(jù)中隱含的知識,進(jìn)而可以為營銷策略的制定和產(chǎn)品開發(fā)提供決策,在電子商務(wù)中有著廣泛的應(yīng)用。
[關(guān)鍵詞]電子商務(wù);數(shù)據(jù)挖掘;聚類;個性推薦
0緒論
網(wǎng)絡(luò)技術(shù)的發(fā)展改變了人們的生活方式,現(xiàn)如今通過網(wǎng)上購物已經(jīng)成為一種潮流,網(wǎng)上購物占社會消費品總額的比重越來越大。電子商務(wù)區(qū)別于實體店購物形式,就是通常所說的借助互聯(lián)網(wǎng)面向消費者銷售產(chǎn)品或提供服務(wù)的一種新型商業(yè)模式。指個人或企業(yè)通過網(wǎng)絡(luò),以電子交易方式進(jìn)行和開展商務(wù)活動,包括廣告、銷售、付賬等服務(wù),通過線上的銷售和支付,然后再通過線下把物品送達(dá)或提供服務(wù)的一種商業(yè)模式。電子商務(wù)作為一種新的商業(yè)模式促使經(jīng)濟(jì)領(lǐng)域發(fā)生了重大變革,提供了一種快速、方便、低價等特點的新交易平臺,突破了傳統(tǒng)商務(wù)活動的時空限制。
電子商務(wù)活動的快速發(fā)展,使得網(wǎng)上相關(guān)數(shù)據(jù)爆炸性的增長。這些電子商務(wù)產(chǎn)生的數(shù)據(jù),數(shù)據(jù)量大,隱含巨大的商業(yè)價值,對開展電子商務(wù)有重要的指導(dǎo)意義。數(shù)據(jù)挖掘作為知識發(fā)現(xiàn)的重要一環(huán),為解決這一重要問題提供了可能。
1數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘是一門思想來源于計算機(jī)、統(tǒng)計學(xué)、人工智能,可視化技術(shù)等的交叉學(xué)科,就是從大量數(shù)據(jù)中發(fā)現(xiàn)隱含的模式和知識的過程,具有未知性,有效性和實用性三個特征。數(shù)據(jù)挖掘技術(shù)作為知識發(fā)現(xiàn)的一項重要的技術(shù),在電子商務(wù)中應(yīng)用前景廣闊。電子商務(wù)應(yīng)用中產(chǎn)生的大量交易和客戶等數(shù)據(jù),這些數(shù)據(jù)保存在電子商務(wù)網(wǎng)站的服務(wù)器上,隱含著有價值的知識。通過對顧客訪問過程中系統(tǒng)保留下來的日志文件和Cookie以及海量真實交易數(shù)據(jù)進(jìn)行挖掘,利用關(guān)聯(lián)規(guī)則和聚類、分類各種技術(shù),可以從中發(fā)現(xiàn)知識,最終找出客戶群體行為的相似度,進(jìn)行網(wǎng)頁結(jié)構(gòu)有針對性地動態(tài)調(diào)整,提供個性化界面,開發(fā)推薦系統(tǒng)[1],改進(jìn)Web服務(wù),滿足客戶的需求。
1.1.1關(guān)聯(lián)分析
關(guān)聯(lián)分析也叫做頻繁項集處理,是根據(jù)給定的支持度和可信度發(fā)現(xiàn)數(shù)據(jù)間的彼此關(guān)系,通常用于在已知數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的模式,包括頻繁項集、頻繁序列模式和頻繁子結(jié)構(gòu),也叫做關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的挖掘[2]廣泛應(yīng)用于購物籃數(shù)據(jù)和實務(wù)數(shù)據(jù)等。
1.1.2分類
分類是數(shù)據(jù)分析中最常用的方法,在數(shù)據(jù)分析的過程中經(jīng)常通過分類來歸納數(shù)據(jù)的特點。分類就是通過分析給定數(shù)據(jù)集中的數(shù)據(jù),根據(jù)這些數(shù)據(jù)集建立相應(yīng)的分類模型器。然后使用構(gòu)造的分類模型器對類別未知的待測試集中的數(shù)據(jù)進(jìn)行分類,產(chǎn)生它們的分類號,也就是預(yù)測出類標(biāo)號未定數(shù)據(jù)的類。分類中主要的決策樹算法主要用于客戶群體的細(xì)分、客戶流失的預(yù)測、大客戶特征的識別等方面。
1.1.3聚類
聚類分析技術(shù)根據(jù)數(shù)據(jù)之間的相似度量值,在沒有任何先驗知識點前提下,把有共性的數(shù)據(jù)自動分成若干類,使得同類數(shù)據(jù)盡可能相似,不同類數(shù)據(jù)盡可能不相似。也就是說同一簇內(nèi)部的點之間距離盡可能短,不同的簇中的點之間的距離盡可能大。聚類是一種無監(jiān)督的分類方法,分類前不需要任何先驗知識就可以自動產(chǎn)生分類號。在電子商務(wù)上,可以應(yīng)用于客戶群體的細(xì)分、大客戶特征的識別,資源聚類[3]等方面。
1.1.4回歸分析
回歸分析是用于確定變量之間相互依賴關(guān)系的一種分析方法,通過這種依賴關(guān)系,可以根據(jù)相關(guān)統(tǒng)計量總體參數(shù)做出推測,建立各種分析統(tǒng)計模型進(jìn)行統(tǒng)計預(yù)測。它類似于分類模式,區(qū)別在于分類模式的預(yù)測值是離散的,回歸模式的預(yù)測值是連續(xù)的?;貧w分析主要應(yīng)用于移動通信領(lǐng)域的業(yè)務(wù)預(yù)測等方面。
1.1.5離群點檢測
離群點數(shù)據(jù)檢測也叫做異常數(shù)據(jù)挖掘,通常用于發(fā)現(xiàn)行為和模型異常、區(qū)別與正常數(shù)據(jù)的數(shù)據(jù)。在大多數(shù)情況下,為了使得挖掘結(jié)果更加準(zhǔn)確,這些離群點數(shù)據(jù)一般作為噪聲和異常數(shù)據(jù)丟棄進(jìn)行處理,但這些數(shù)據(jù)在有些領(lǐng)域有著一定的應(yīng)用價值。例如,某商場把一類商品根據(jù)類型集中擺放在的某個區(qū)域,一般情況下大多數(shù)商品銷售良好,但是此類商品卻購買量很低,這類商品質(zhì)量可靠,價格也適中。這種異常現(xiàn)象的出現(xiàn)對于商場來說無疑是很好的值得思考的方面,找出其中原因,有利于商場的決策和管理。
1.1.6序列模式挖掘
序列挖掘通過分析時間數(shù)據(jù)的前后數(shù)據(jù)關(guān)系,發(fā)現(xiàn)這些數(shù)據(jù)隱含的一些模式,也可以進(jìn)行序列隨時間變化的趨勢分析和序列間的相似度量。通過時間序列搜索出重復(fù)發(fā)生概率比較高的模式,并且可以處理一些特殊的時間范圍,如具有周期性的星期、月、季、年等。它主要應(yīng)用于移動通信領(lǐng)域的客戶呼叫模式、業(yè)務(wù)量預(yù)測等方面。
數(shù)據(jù)挖掘是知識發(fā)現(xiàn)的重要一個環(huán)節(jié),為了得到高質(zhì)量的數(shù)據(jù)挖掘結(jié)果,在數(shù)據(jù)挖掘之前必須做好數(shù)據(jù)的預(yù)處理,以提高數(shù)據(jù)挖掘的算法的速度和結(jié)果的精度。
1.2.1數(shù)據(jù)清洗
高質(zhì)量的結(jié)果建立在高質(zhì)量的數(shù)據(jù)基礎(chǔ)之上,而收集的數(shù)據(jù)由于人工和設(shè)備等原因,這些數(shù)據(jù)通常并不一定是高質(zhì)量的,存在數(shù)據(jù)不完整、有噪聲和不一致的情況,數(shù)據(jù)的清洗就是去除和光滑噪聲數(shù)據(jù)和離群點數(shù)據(jù),填充數(shù)據(jù)的缺失值,糾正數(shù)據(jù)的不一致性。數(shù)據(jù)清洗通過使用模式識別和其他技術(shù),在原始數(shù)據(jù)轉(zhuǎn)換和移入數(shù)據(jù)倉庫之前來改進(jìn)原始數(shù)據(jù)質(zhì)量。
1.2.2數(shù)據(jù)集成
來自不同的數(shù)據(jù)源由于管理系統(tǒng)和數(shù)據(jù)模型等原因,由于形式不統(tǒng)一數(shù)據(jù)的不便于進(jìn)行挖掘。這個過程把從不同數(shù)據(jù)源獲取的數(shù)據(jù)逐個映射到新的數(shù)據(jù)結(jié)構(gòu),用于解決不同的數(shù)據(jù)源之間的數(shù)據(jù)不一致和冗余的問題,使不同數(shù)據(jù)源的數(shù)據(jù)保持統(tǒng)一的格式和結(jié)構(gòu)。
1.2.3數(shù)據(jù)歸約
通過數(shù)據(jù)歸約可以得到數(shù)據(jù)集的一種壓縮歸約表示,這種數(shù)據(jù)歸約的表示比原有數(shù)據(jù)集小的多,但依舊保持原有完整數(shù)據(jù)的特性。在這些歸約上面挖掘,可以得到和原數(shù)據(jù)集上十分相近或者幾乎相同的結(jié)果,但在歸約上處理效率更高。
1.2.4數(shù)據(jù)轉(zhuǎn)化
數(shù)據(jù)轉(zhuǎn)換從數(shù)據(jù)歸約階段接受數(shù)據(jù),由于集成和歸約得到的數(shù)據(jù)并不是可以挖掘的數(shù)據(jù)形式,通過數(shù)據(jù)轉(zhuǎn)換和映射,集成與歸約成的數(shù)據(jù)形式可以挖掘的。為了方便挖掘,數(shù)據(jù)轉(zhuǎn)換一般采用的方法是數(shù)據(jù)規(guī)范化技術(shù),對數(shù)據(jù)進(jìn)行規(guī)范處理。
1.2.5數(shù)據(jù)挖掘
就是利用各種數(shù)據(jù)挖掘的知識和技術(shù),挖掘數(shù)據(jù)集中潛在的知識和價值,隱含規(guī)則和模式。這當(dāng)中包含關(guān)聯(lián)規(guī)則算法、分類算法和聚類算法等技術(shù)。是知識發(fā)現(xiàn)的一種重要技術(shù),也是知識發(fā)現(xiàn)中最重要的一個環(huán)節(jié)。
1.2.6模式評估
通過數(shù)據(jù)挖掘技術(shù)得到的知識并不一定是有趣的,有些知識是沒有意義或者低價值的。必須對挖掘出來的知識進(jìn)行評估、優(yōu)化和篩選,篩選出有意義的知識。在此過程中必須有一套衡量標(biāo)準(zhǔn)對其做出判斷,甚至還涉及對結(jié)果的修正。
1.2.7知識表示
數(shù)據(jù)挖掘的結(jié)果往往是一些抽象的模式和知識表達(dá),通過可視化、計算機(jī)仿真和相關(guān)知識表示技術(shù)清晰有效地表示數(shù)據(jù)的特性,把數(shù)據(jù)挖掘得到的結(jié)果和知識給用戶表達(dá)出來,幫助用戶理解挖掘結(jié)果。
2數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用
電子商務(wù)中產(chǎn)生和收集的海量數(shù)據(jù),通過數(shù)據(jù)挖掘可以改進(jìn)營銷策略,發(fā)現(xiàn)潛在客戶、改進(jìn)產(chǎn)品開發(fā)等,提高企業(yè)和產(chǎn)品的競爭力。
通過了解顧客的個性經(jīng)驗來吸引長期顧客對于在線電子商店來說非常關(guān)鍵。使用分類和聚類對具有相似瀏覽行為的客戶進(jìn)行歸類,并分析類中客戶的共同特征,以便幫助電子商務(wù)的企業(yè)和個人更好地了解客戶,提供具有相同興趣的網(wǎng)頁,向客戶提供更吸引、更適合的服務(wù)。電子商務(wù)網(wǎng)站還可以根據(jù)實際用戶的瀏覽記錄、 Web日志文件來挖掘顧客的瀏覽行為,從中提取知識,最終找出客戶群體行為的相似度, 挖掘用戶感興趣的內(nèi)容,定期為用戶推送相關(guān)信息,對網(wǎng)頁結(jié)構(gòu)有針對性地動態(tài)調(diào)整,改變網(wǎng)站中網(wǎng)頁的內(nèi)容和鏈接結(jié)構(gòu),為用戶提供個性化界面和個人定制服務(wù),滿足客戶的需求,改進(jìn)Web服務(wù),提高顧客對網(wǎng)站的興趣。通常采用動態(tài)網(wǎng)頁設(shè)計技術(shù),Web服務(wù)器會自動更新知識數(shù)據(jù)庫,根據(jù)用戶的信息提供相應(yīng)的個性化主頁,進(jìn)行智能預(yù)測查詢[4]。
為顧客提供優(yōu)質(zhì)的個性化服務(wù),一方面能使顧客快速地檢索到所需商品,另一方面還能拉近企業(yè)和用戶的距離,更好地為用戶進(jìn)行服務(wù)。如淘寶網(wǎng)通過對用戶的搜索、點擊、收藏、瀏覽某些商品的頻率進(jìn)行挖掘和收集,把最近瀏覽過的一些商品和感興趣的一些相關(guān)商品推薦出來,增加電子商務(wù)站點的收益率。
對電子商務(wù)網(wǎng)站的瀏覽信息挖掘研究,可以發(fā)現(xiàn)用戶最頻繁的訪問模式和序列,為用戶頻繁訪問頁面間建立相關(guān)鏈接, 改進(jìn)站點結(jié)構(gòu)和布局,提高用戶訪問便捷性、忠誠度和滿意度。數(shù)據(jù)挖掘技術(shù)通過對 Web Log內(nèi)容的挖掘、日志文件和Cookie來發(fā)現(xiàn)該站點上的訪問者和客戶的瀏覽模式,挖掘結(jié)果可以作為優(yōu)化頁面之間鏈接和網(wǎng)站拓?fù)浣Y(jié)構(gòu)的依據(jù),也可以用作開展電子商務(wù)活動和進(jìn)行市場開發(fā)的依據(jù),還可以作為網(wǎng)站向用戶提供個性服務(wù)和構(gòu)建智能頁面的依據(jù)。利用路徑分析技術(shù)判定在一個Web站點中最頻繁的訪問路徑,對相互關(guān)聯(lián)的頁面之間建立導(dǎo)航鏈接,便于用戶的訪問,可以把十分相關(guān)的商品信息放在這些頁面中,改進(jìn)頁面布局和優(yōu)化網(wǎng)站結(jié)構(gòu)的設(shè)計,增加網(wǎng)頁對客戶的吸引力,提高銷售量,吸引商家投放廣告,增加網(wǎng)站的收益。
而且,通過日志挖掘可以改進(jìn)網(wǎng)站服務(wù)效率,電子商務(wù)的網(wǎng)頁設(shè)計者在設(shè)計網(wǎng)頁時可以依靠網(wǎng)站運行的實際情況進(jìn)行設(shè)計。找到平衡服務(wù)器的負(fù)荷,優(yōu)化傳輸,縮短用戶,減少阻塞等待時間,提高服務(wù)質(zhì)量和系統(tǒng)效率,同時還有助于提高網(wǎng)站的性能和安全性。
在電子商務(wù)網(wǎng)站中,用戶的瀏覽和訪問記錄是非常有價值的數(shù)據(jù)。運用Web數(shù)據(jù)挖掘中的序列模式發(fā)現(xiàn)技術(shù),通過對網(wǎng)上用戶購買數(shù)據(jù)進(jìn)行分析和挖掘,發(fā)現(xiàn)用戶的購買規(guī)律,在看似毫無關(guān)系的用戶購買行為中發(fā)現(xiàn)隱含的商品銷售關(guān)聯(lián),改進(jìn)頁面結(jié)構(gòu)和制定相應(yīng)運營策略,方便交易,有助于企業(yè)開拓了新的市場。在對客戶訪問信息的挖掘中,通過分類發(fā)現(xiàn),對己存在的訪問者和一個新的訪問者進(jìn)行分類,識別出這個新客戶,根據(jù)己經(jīng)分類的存在客戶的一些公共的描述,從而對這個新客戶進(jìn)行正確的描述,發(fā)現(xiàn)未來潛在的客戶。然后根據(jù)客戶的類型,就可以對不同客戶有針對性地動態(tài)地展示感興趣的頁面。
在電子商務(wù)網(wǎng)站中通過數(shù)據(jù)挖掘技術(shù)對大量商業(yè)活動行為進(jìn)行綜合分析,可精確地評價廣告手段帶來的增長率和產(chǎn)生的效益,并設(shè)計出最佳的商品廣告、推廣組合方案,依據(jù)用戶的訪問模式來確定廣告的排放位置,增強廣告針對性,提高廣告的效益。通過挖掘用戶的消費模式可以在不同群體中發(fā)掘共同消費喜好,從中加入其感興趣商品的某些廣告,可以大幅提高廣告效益和投資回報率。同樣,停留在網(wǎng)絡(luò)頁面上觀看廣告的用戶可能會成為未來潛在的新客戶,可以讓企業(yè)投資一部分資金做在線廣告吸引新客戶。而用戶訪問該網(wǎng)站時留下的大量及時被存儲在數(shù)據(jù)庫中的信息,可以通過數(shù)據(jù)挖掘技術(shù),挖掘關(guān)鍵信息有效了解用戶需求,幫助商家進(jìn)行個性化的營銷策略。而將潛在的客戶通過廣告的特點模糊分區(qū),分析客戶對廣告的關(guān)注情況,了解客戶需求,可提高對某些客戶群體更有針對性的服務(wù),并開發(fā)出相關(guān)產(chǎn)品。
3總結(jié)與展望
電子商務(wù)中產(chǎn)生的海量數(shù)據(jù)存在巨大的商業(yè)價值,通過一些基本的數(shù)據(jù)分析結(jié)果就可以帶來顯而易見的好處,而數(shù)據(jù)挖掘技術(shù)在此類產(chǎn)生價值的過程中將扮演著重要的角色。在未來的電子商務(wù)發(fā)展中,將會有更多數(shù)據(jù)挖掘需求產(chǎn)生,也必然帶來更多研究的出發(fā)點。
[參考文獻(xiàn)]
[1]馮永平.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究[D]. 成都:電子科技大學(xué),2012.
[2]祝文祥.B2C 電子商務(wù)中數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用[D].合肥:中國科學(xué)技術(shù)大學(xué),2011.
[3]王鐘莊,鄧倫丹,石文兵.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)推薦系統(tǒng)中的應(yīng)用研究[J].微電子學(xué)與計算機(jī),2007:197-199.
[4]劉麗霞,莊奕琪.電子商務(wù)系統(tǒng)的數(shù)據(jù)挖掘與智能推薦預(yù)測的研究[J].計算機(jī)科學(xué)與工程,2008:92-95.
[責(zé)任編輯:D]
Data Mining And Its Applications In Eleetronic Commerce
CHEN Jun-feng
(Department of Mathematies, Longnan Teachers' College,Longnan 742500,China)
Abstract:With the increasingly popularization of the Internet, e-commerce as a new form of business can realize promotion and sale of productst. Data mining technology is an effective data analysis and processing technology, it can find the implicit knowledge through the association rules, classification, clustering, forecast the sales data, which can provide decision-making for the formulation of the marketing strategy and product development, has been widely used in electronic commerce.
Key words:e-commerce;Data mining;clustering;Personal recommendation
[文獻(xiàn)標(biāo)識碼][中圖分類類]TP274A
[文章編號]1671-5330(2015)02-0040-04
[作者簡介]程軍鋒(1980—)男,甘肅禮縣人,講師,主要從事數(shù)據(jù)庫與數(shù)據(jù)挖掘.系統(tǒng)建模與仿真研究。
[基金項目]隴南師范高等??茖W(xué)校校級科研項目(2014LSZK02004)
[收稿日期]2015-01-10