郭澤穎 張斐斐
【摘要】電子商務(wù)是時下熱門的現(xiàn)代商業(yè)模式,數(shù)據(jù)挖掘是大數(shù)據(jù)背景下先進的信息處理技術(shù)。隨著用戶信息和商業(yè)需求的急劇增加,個性化服務(wù)的需求與日俱增。本文基于現(xiàn)今電子商務(wù)領(lǐng)域特別是客戶關(guān)系管理中對數(shù)據(jù)挖掘的應(yīng)用情況進行了研究與總結(jié),并分析了數(shù)據(jù)挖掘的功能和應(yīng)用流程,探討了數(shù)據(jù)挖掘在電子商務(wù)中應(yīng)用中可能存在的一些問題及其發(fā)展前景。
【關(guān)鍵詞】數(shù)據(jù)挖掘;電子商務(wù);客戶關(guān)系管理
1.引言
現(xiàn)代化科技飛速發(fā)展,商業(yè)模式也在不斷融入新技術(shù)以擴大企業(yè)盈利。因此具備智能化需求的電子商務(wù)也應(yīng)運而生。對電商企業(yè)而言,用戶的消費行為、購買習慣等信尤為重要的。在大量的用戶信息中抽取出隱含的、具有潛在價值的規(guī)律,分析用戶對產(chǎn)品的潛在偏好,這是數(shù)據(jù)挖掘的研究目的。如今,電子商務(wù)與數(shù)據(jù)挖掘的結(jié)合應(yīng)用已成為一大研究熱點。本文針對數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用情況,對相關(guān)技術(shù)進行介紹,分析其可行性,討論發(fā)展過程存在的一些問題,并闡述數(shù)據(jù)挖掘在該領(lǐng)域的發(fā)展前景。
2.電子商務(wù)與客戶關(guān)系管理
電子商務(wù)是傳統(tǒng)商業(yè)活動各環(huán)節(jié)的電子化、網(wǎng)絡(luò)化。交易雙方不需要見面就能夠進行各種商貿(mào)活動、交易活動、金融活動和相關(guān)的綜合服務(wù)活動。其中,客戶關(guān)系管理(簡稱 CRM)是企業(yè)活動面向長期的客戶關(guān)系,以求提升企業(yè)成功的管理方式,其目的之一是要協(xié)助企業(yè)管理銷售循環(huán)。
3.數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘,就是從大型數(shù)據(jù)庫中抽取有意義的(非平凡的,隱含的,以前未知的并且是有潛在價值的)信息或模式的過程。它融合了數(shù)據(jù)庫、人工智能、機器學習、統(tǒng)計學等多個領(lǐng)域的研究內(nèi)容。目前與商業(yè)問題相關(guān)的數(shù)據(jù)挖掘算法很多,比較典型的有關(guān)聯(lián)分析、聚類分析、分類分析、時間序列模式分析、回歸分析等。
4.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用
4.1 電子商務(wù)中數(shù)據(jù)挖掘過程
數(shù)據(jù)挖掘在電子商務(wù)中的運用過程中大致需要以下幾個階段:
4.1.1 業(yè)務(wù)對象的確定與問題定義
在電子商務(wù)領(lǐng)域中運用數(shù)據(jù)挖掘技術(shù),首先企業(yè)應(yīng)聯(lián)系實際,準確定義業(yè)務(wù)中存在的問題,確定在客戶關(guān)系管理(CRM)中的操作對象和所期望的商業(yè)目標,在此基礎(chǔ)上收集數(shù)據(jù),進行預(yù)處理工作,為后期建立預(yù)測模型夯實基礎(chǔ)。
4.1.2 數(shù)據(jù)準備
數(shù)據(jù)準備是非常重要的一步,數(shù)據(jù)質(zhì)量至關(guān)重要。這個過程包括數(shù)據(jù)收集、處理及轉(zhuǎn)換。1)數(shù)據(jù)收集:數(shù)據(jù)的選取階段目的是確定業(yè)務(wù)問題所涉及的操作數(shù)據(jù)對象。根據(jù)用戶需要從原始數(shù)據(jù)庫抽取與業(yè)務(wù)對象相關(guān)的數(shù)據(jù),并能夠及時和完整的訪問來自多個異構(gòu)數(shù)據(jù)源的數(shù)據(jù)對象。2)數(shù)據(jù)預(yù)處理:消除噪音,遺漏數(shù)據(jù)處理,重復數(shù)據(jù)刪除,目的是為了克服現(xiàn)有的數(shù)據(jù)挖掘技術(shù)和工具的局限性,對信息過濾清理和規(guī)范化,驗證其真實性、有效性及完整性。3)數(shù)據(jù)轉(zhuǎn)換:從初始特征中篩選出真正與挖掘任務(wù)相關(guān)聯(lián)的特征,將數(shù)據(jù)轉(zhuǎn)換成元數(shù)據(jù)模型。一個針對數(shù)據(jù)的數(shù)據(jù)挖掘算法建立的元數(shù)據(jù)模型決定了數(shù)據(jù)挖掘的成功與否。
4.1.3 建立數(shù)據(jù)挖掘模型
這是數(shù)據(jù)挖掘操作的核心步驟,包括學習算法的選擇,建立適當?shù)臄?shù)據(jù)挖掘模型等。企業(yè)根據(jù)業(yè)務(wù)需求和結(jié)構(gòu)、數(shù)據(jù)特點等綜合考慮多方面的因素以有效達到商業(yè)目標。通過選擇合適的挖掘算法、預(yù)測實例和訓練數(shù)據(jù),確定數(shù)據(jù)分析工具,應(yīng)用統(tǒng)計、事例推理、決策樹,甚至神經(jīng)網(wǎng)絡(luò)、遺傳算法等不同方法處理信息,得出有用的分析結(jié)果。
4.1.4 解釋和評價模型
這個過程是將數(shù)據(jù)挖掘的結(jié)果以易理解、執(zhí)行的方式展示,并評判該數(shù)據(jù)挖掘的質(zhì)量。通常用支持度和可信度做為評估指標,前者驗證實用性,后者驗證準確性。若評估結(jié)果不佳則可能需要重新進行模型的訓練和測試,整合數(shù)據(jù)或重新修正原有的模型,直至得到令人滿意的挖掘模型及測試集為止。
數(shù)據(jù)挖掘是不斷循環(huán)的動態(tài)過程,需要反復修正。原先建立的模型可能由于數(shù)據(jù)變動和系統(tǒng)等原因失效,需要重新建立。另外,電商企業(yè)商業(yè)目標的變化可能會產(chǎn)生新的數(shù)據(jù)挖掘應(yīng)用,因此數(shù)據(jù)挖掘在電子商務(wù)中的運用會根據(jù)客戶信息和業(yè)務(wù)需求的變動而改變。
4.2 數(shù)據(jù)挖掘在電子商務(wù)中的模式
4.2.1 關(guān)聯(lián)分析(Association)
關(guān)聯(lián)分析就是從大量數(shù)據(jù)中發(fā)現(xiàn)其間的聯(lián)系。在客戶關(guān)系管理的應(yīng)用中,它通過發(fā)現(xiàn)消費者消費的不同商品之間的聯(lián)系來分析其購買習慣,了解商品的購買頻率,這種關(guān)聯(lián)的發(fā)現(xiàn)與分析可以幫助賣家制定營銷策略。如在美國,年輕的父親去超市為嬰兒購買尿布時,總會順便為自己購買啤酒,這就出現(xiàn)啤酒與尿布這兩件看上去不相干的商品經(jīng)常會出現(xiàn)在同一個購物籃的現(xiàn)象。而沃爾瑪超市通過發(fā)現(xiàn)這一規(guī)律來改變商品銷售策略,從而獲得了很好的商品銷售收入。這就是著名的“啤酒與尿布”的故事。
4.2.2 聚類分析(Clustering)
從統(tǒng)計學的角度講,聚類分析是一種通過數(shù)據(jù)建模簡化數(shù)據(jù)的方法;從機器學習的觀點看,簇相當于隱藏模式。聚類是搜索簇的無監(jiān)督學習過程。這種探索性分析在分類的過程中,無需事先人為地給出分類的標準,它能夠以樣本數(shù)據(jù)為基礎(chǔ),自動進行分類。而這個過程中使用方法的不同也會得到不同的結(jié)論,因而所得到的聚類數(shù)未必一致。
聚類分析在客戶關(guān)系管理的應(yīng)用中,需要根據(jù)目標群體的年齡、消費水平和地區(qū)等來區(qū)分不同層次的目標群體,提高用戶體驗的針對性,以便于開展“一對一”營銷和個性化服務(wù)。
4.2.3 分類分析(Classification)
分類分析不同于聚類分析的觀察式學習過程,它的實例和操作的數(shù)據(jù)對象是有事先定義好的類別標記的。這種有監(jiān)督的學習過程,通過分析已有數(shù)據(jù)來為每個類作出準確描述并建立數(shù)據(jù)分析模型,總結(jié)出分類規(guī)則,并將這個規(guī)則用到其他數(shù)據(jù)庫中。這些數(shù)據(jù)庫中的記錄都有一個類別的標記。
用于分類分析的技術(shù)有很多,典型方法有統(tǒng)計方法的貝葉斯分類、機器學習的決策樹歸納分類、神經(jīng)網(wǎng)絡(luò)的后向傳播分類等。
4.3 數(shù)據(jù)挖掘技術(shù)在電子商務(wù)的應(yīng)用現(xiàn)狀
在電子商務(wù)的運用中,各種不同的分析方法互相支持、融合運用便能夠獲得系統(tǒng)中數(shù)據(jù)的分布狀況和特征,并可集中做進一步地分析。在電商企業(yè)對用戶的個性化需求管理中,它能分析客戶瀏覽和購物等習慣,這樣可以幫助電商企業(yè)及時調(diào)整企業(yè)網(wǎng)站的頁面展示及服務(wù)策略。同時,這也有利于對客戶更有效提供智能服務(wù)。
4.4 電子商務(wù)中數(shù)據(jù)挖掘應(yīng)用中可能存在的弊端、缺陷
4.4.1 數(shù)據(jù)挖掘涉及私有數(shù)據(jù)與信息安全
在大量的用戶數(shù)據(jù)中進行分析則必然存在著數(shù)據(jù)私有性與信息安全性的問題。電子商務(wù)領(lǐng)域中的信息包括了用戶消費、支付等相關(guān)數(shù)據(jù),這給數(shù)據(jù)挖掘中的信息處理帶來一定的困難,也要求數(shù)據(jù)分析人員應(yīng)當具備必要的職業(yè)操守,以防用戶信息的泄露。
4.4.2 數(shù)據(jù)趨勢的預(yù)測隱含不確定性
數(shù)據(jù)庫中的記錄到達一定的數(shù)量級時,就會顯露出其中隱含的變化趨勢。對電商企業(yè)而言,把握趨勢的預(yù)測即掌握了市場的先機。但現(xiàn)在并沒有為這些趨勢定義一個標準來準確的判斷某個趨勢的合理性,數(shù)據(jù)挖掘過程中大量的數(shù)據(jù)信息格式未被標準化,這些都是應(yīng)用過程中存在的問題。
針對這一問題,可以應(yīng)用前文提到的聚類分析方法,把相似行為的用戶集中成簇進行詳細分析,為不同特點的用戶簇進行業(yè)務(wù)、站點的動態(tài)改變,從而更靈活準確地預(yù)測數(shù)據(jù)趨勢。
4.4.3 數(shù)據(jù)模型的可靠性尚未成熟
數(shù)據(jù)模型包括概念數(shù)據(jù)模型、邏輯數(shù)據(jù)模型、物理模型,目前數(shù)據(jù)挖掘的模型也玲瑯滿目,但這些模型均并不成熟。上文討論過,數(shù)據(jù)模型相異、應(yīng)用方式的不同都可能產(chǎn)生截然不同的結(jié)果,這就涉及到數(shù)據(jù)可靠性的問題。因此,我們需要確保數(shù)據(jù)在處理過程中的準確性與實時性,從而保障挖掘結(jié)果的準確度。
5.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中應(yīng)用的前景
現(xiàn)在的數(shù)據(jù)挖掘技術(shù)在當前大數(shù)據(jù)時代的數(shù)據(jù)倉庫環(huán)境中已經(jīng)進入切實可用的階段,并在完善中走向成熟。其中,客戶關(guān)系管理顯得格外重要。
強烈的市場需求是數(shù)據(jù)挖掘技術(shù)在電子商務(wù)應(yīng)用中的必然結(jié)果,隨著Web技術(shù)的發(fā)展,各類電子商務(wù)網(wǎng)站風起云涌,電子商務(wù)業(yè)務(wù)的激烈競爭也與日俱增。每天電商網(wǎng)站用戶的在線交易量呈爆炸式增長,產(chǎn)生了大量數(shù)據(jù)記錄。要提高企業(yè)的競爭力,就要進行相關(guān)的數(shù)據(jù)挖掘與分析,為客戶提供周到的個性化服務(wù),這要求企業(yè)不斷完善自身網(wǎng)站建設(shè)與應(yīng)用的優(yōu)化。由此,電子商務(wù)中數(shù)據(jù)挖掘的應(yīng)用地位就變得舉足輕重。
6.結(jié)束語
良好的客戶關(guān)系管理是電子商務(wù)活動能夠更好地進行的基礎(chǔ),通過選擇恰當?shù)臄?shù)據(jù)挖掘技術(shù)和建立合適的數(shù)據(jù)模型來獲取有價值的信息,可建立企業(yè)的競爭優(yōu)勢,取得商業(yè)先機。同時,數(shù)據(jù)挖掘帶來的極大便利也使客戶稱為最大的贏家。隨著數(shù)據(jù)挖掘技術(shù)在電子商務(wù)應(yīng)用領(lǐng)域的不斷發(fā)展與完善,將會使得電商的用戶體驗越來越完美,對企業(yè)而言也意味著更為可觀的發(fā)展。
參考文獻
[1]王劍.數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用[J].北京信息科技大學學報(自然科學版),2010(2).
[2]曹先明.WEB數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用[J].科技傳播,2012(14).
[3]曹麗君.基于電子商務(wù)的數(shù)據(jù)挖掘探究[J].商場現(xiàn)代化,2008(5).
[4]魏宏昌.淺析Web數(shù)據(jù)挖掘在現(xiàn)代企業(yè)中的應(yīng)用[J].世界家苑,2012(10).
[5]Weiyang Lin,Sergio A.Alvarez.Carolina Ruiz,Efficient Adaptive-Support Association Rule Mining for Recommender Systems Data Mining and Knowledge Discovery.2002,1,1:45-78.
[6]劉三榮.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J].科技信息,2006(4).
作者簡介:
郭澤穎,(1993—),女,大學本科,現(xiàn)就讀于四川大學軟件學院。
張斐斐(1994—),女,大學本科,現(xiàn)就讀于四川大學計算機學院。