冷旭峰
引言:在電子商務(wù)中對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行應(yīng)用,能夠有效地組織利用豐富的數(shù)據(jù)源信息,挖掘出對(duì)電子商務(wù)有重要價(jià)值的信息。本文對(duì)電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)進(jìn)行了詳細(xì)的研究,分析了電子商務(wù)中對(duì)數(shù)據(jù)挖掘技術(shù)的應(yīng)用,然后從數(shù)據(jù)信息與挖掘任務(wù)兩個(gè)角度指出了數(shù)據(jù)挖掘技術(shù)的適用場(chǎng)合。
當(dāng)前,數(shù)據(jù)庫(kù)技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展日趨成熟,世界上傳統(tǒng)商務(wù)也正在經(jīng)歷一次重大的改革,電子商務(wù)成為發(fā)展重點(diǎn)。電子商務(wù)的一個(gè)重要應(yīng)用技術(shù)就是數(shù)據(jù)挖掘技術(shù),并且數(shù)據(jù)挖掘技術(shù)可以給正確的商業(yè)決定提供可靠的保證和強(qiáng)有力的支持,因此,數(shù)據(jù)挖掘技術(shù)被認(rèn)為是電子商務(wù)中必不可少的工具。
一、數(shù)據(jù)挖掘技術(shù)的概念和應(yīng)用
數(shù)據(jù)挖掘就是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的大量數(shù)據(jù)進(jìn)行挖掘,來找出有意義的新的關(guān)聯(lián)趨勢(shì)和關(guān)聯(lián)模式的過程。從商業(yè)的角度看,數(shù)據(jù)挖掘技術(shù)是一個(gè)對(duì)商業(yè)信息進(jìn)行處理的新技術(shù),具有能夠分析、轉(zhuǎn)換、抽取和其他模型化處理商業(yè)數(shù)據(jù)庫(kù)中大量業(yè)務(wù)數(shù)據(jù),從中提取出能夠輔助商業(yè)決定的關(guān)鍵性數(shù)據(jù)的特點(diǎn)。
因?yàn)閿?shù)據(jù)挖掘可以給電子商務(wù)帶來顯著的經(jīng)濟(jì)效益,所以其在電子商務(wù)中也有越來越廣泛的應(yīng)用。
數(shù)據(jù)挖掘應(yīng)用于零售業(yè),能夠幫助商家識(shí)別顧客的購(gòu)買行為,發(fā)現(xiàn)顧客的購(gòu)買趨勢(shì)和模式,從而可以幫助商家有針對(duì)性的提高服務(wù)質(zhì)量,獲得更好的顧客滿意度與顧客保持力,提高貨物的銷量,設(shè)計(jì)出更好的貨物分銷與運(yùn)輸方法,降低商業(yè)成本。
數(shù)據(jù)挖掘應(yīng)用于金融領(lǐng)域,能夠幫助管理者分析客戶的信用情況與償還能力,并對(duì)其進(jìn)行分類和評(píng)級(jí),從而降低放貸的錯(cuò)誤率,提升資金的使用效率。通過數(shù)據(jù)挖掘,還可以找到在償還中有決定作用的主導(dǎo)因素,制定相應(yīng)的金融策略,還能夠發(fā)現(xiàn)洗黑錢和其它金融犯罪活動(dòng)。
二、如何選擇正確的數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)庫(kù)方法、神經(jīng)網(wǎng)絡(luò)方法、機(jī)器學(xué)習(xí)方法和統(tǒng)計(jì)方法都是數(shù)據(jù)挖掘所使用的技術(shù)。本文將從可獲得的數(shù)據(jù)與數(shù)據(jù)挖掘任務(wù)兩個(gè)方面來說明如何選擇正確的數(shù)據(jù)挖掘技術(shù)。
2.1 可獲得的數(shù)據(jù)
數(shù)據(jù)挖掘可獲得的數(shù)據(jù)信息主要是內(nèi)容、記錄和字段類型之間的關(guān)系,并且對(duì)數(shù)據(jù)挖掘技術(shù)的選擇有影響的數(shù)據(jù)性質(zhì)有以下幾個(gè):
第一,數(shù)值字段:聚集檢測(cè)和MBR使用距離函數(shù)對(duì)數(shù)值字段進(jìn)行處理;神經(jīng)元網(wǎng)絡(luò)把所有的輸入轉(zhuǎn)化到0-1之間;決策樹使用splitter數(shù)值對(duì)數(shù)值字段進(jìn)行處理;關(guān)聯(lián)分析需要把數(shù)值變量區(qū)間轉(zhuǎn)化為種類變量區(qū)間,但是區(qū)間的選擇十分困難。
第二,種類字段:決策樹、連接分析、關(guān)聯(lián)分析都很適用于種類字段。
第三,多個(gè)非獨(dú)立的目標(biāo)字段:神經(jīng)元網(wǎng)絡(luò)可以很好地應(yīng)用于存在多個(gè)依賴變量的情況。
第四,自由文本數(shù)據(jù):采用MBR技術(shù)是最佳選擇。
第五,具有時(shí)間順序的數(shù)據(jù):關(guān)聯(lián)規(guī)則、神經(jīng)元網(wǎng)絡(luò)對(duì)有時(shí)間順序的數(shù)據(jù)有比較好的處理能力。時(shí)間順序也可以用決策樹處理,但是需要準(zhǔn)備較多的數(shù)據(jù)。
第六,每條記錄都有大量獨(dú)立的字段:關(guān)聯(lián)規(guī)則挖掘、MBR技術(shù)、神經(jīng)元網(wǎng)絡(luò)都會(huì)受到記錄中字段多的影響。但是決策樹就會(huì)受到程度較小的影響。
第七,變長(zhǎng)的記錄:只有連接分析和關(guān)聯(lián)規(guī)則能夠?qū)ψ冮L(zhǎng)的記錄進(jìn)行處理,而如果使用其它技術(shù),就需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理:把一條記錄拆分為幾條記錄,每個(gè)都含有記錄號(hào);能夠生成一些統(tǒng)計(jì)字段。
2.2 數(shù)據(jù)挖掘任務(wù)
從數(shù)據(jù)中發(fā)現(xiàn)模式是數(shù)據(jù)挖掘的任務(wù)。在對(duì)某種數(shù)據(jù)挖掘技術(shù)進(jìn)行選擇之前,第一,要把需要解決的商業(yè)問題轉(zhuǎn)化成正確的數(shù)據(jù)挖掘任務(wù);第二,依照數(shù)據(jù)挖掘的任務(wù)來決定使用幾種或者是哪一種數(shù)據(jù)挖掘技術(shù)。以下將以聚集和概念描述為例,對(duì)挖掘任務(wù)需要使用哪些挖掘技術(shù)進(jìn)行分析。
(1)聚集。聚集就是把整個(gè)數(shù)據(jù)庫(kù)分為不同的群組。其目的是使同一個(gè)群之間的數(shù)據(jù)盡量相似,而不同的群之間要有很明顯的差別。協(xié)助市場(chǎng)分析人員在客戶基本信息庫(kù)中找出不同的客戶群,并用購(gòu)買模式對(duì)不同客戶群的特征進(jìn)行刻畫是電子商務(wù)中對(duì)聚集的典型應(yīng)用。另外,聚類分析也能作為分類、特征等其他算法的預(yù)處理步驟,這些算法可以再在生成的簇上進(jìn)行處理。聚集與分類不同的是,在開始之前一般不知道該把數(shù)據(jù)分成幾組和怎樣分,所以要有一個(gè)對(duì)業(yè)務(wù)特別熟悉的人在聚集之后對(duì)這樣分群的意義進(jìn)行解釋。一般情況下,需要經(jīng)過幾次反復(fù)的增加或刪除變量才能得到理想的結(jié)果。
(2)概念描述。描述式數(shù)據(jù)挖掘的最基本形式就是概念描述。概念描述以簡(jiǎn)潔匯總的形式對(duì)給定的任務(wù)的相關(guān)數(shù)據(jù)集進(jìn)行描述,提供數(shù)據(jù)的一般特征。一般,通過數(shù)據(jù)庫(kù)來查詢收集用戶指定類的數(shù)據(jù)。有兩種概念特征化的一般方法:面向?qū)傩詺w納的方法和基于數(shù)據(jù)立方體OLAP的方法,這兩種方法都是基于維或?qū)傩缘母拍罨椒āR话闶褂妹嫦驍?shù)據(jù)庫(kù)的方法實(shí)行概念描述挖掘,并且還能夠采用機(jī)器學(xué)習(xí)方法中的基于范例學(xué)習(xí)的技術(shù)來進(jìn)行。
三、小結(jié)
選擇能夠解決電子商務(wù)中一些問題的數(shù)據(jù)挖掘技術(shù)的時(shí)候,需要根據(jù)具體問題的特點(diǎn)來選擇合適的技術(shù)方法,在選擇了符合數(shù)據(jù)模型的算法之后,就要確定正確的模型與參數(shù)。并且要想很好的發(fā)揮數(shù)據(jù)挖掘能夠幫助企業(yè)在激烈的競(jìng)爭(zhēng)中做出正確決定的作用,就必須選對(duì)合適的數(shù)據(jù)挖掘工具。
參考文獻(xiàn)
[1]胡永祥.電子商務(wù)系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)研究[J].電子世界,2013,(24):25-25.
[2]徐羨文,鄭廈君.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)推薦中的應(yīng)用[J].電腦知識(shí)與技術(shù),2011,07(27):65-66.
[3]楊波.淺談數(shù)據(jù)挖掘技術(shù)應(yīng)用[J].電腦知識(shí)與技術(shù),2010,06(24):82-83.
(作者單位:江西經(jīng)濟(jì)管理干部學(xué)院)