[摘要] 電子商務是現(xiàn)代商業(yè)的主流趨勢,基于數(shù)據(jù)挖掘技術可以充分利用企業(yè)的信息數(shù)據(jù),從海量數(shù)據(jù)中挖掘出對企業(yè)有用的信息。文中主要介紹了基于粗糙集的數(shù)據(jù)挖掘過程:數(shù)據(jù)預處理、約簡和規(guī)則提取。
[關鍵詞] 電子商務 粗集 數(shù)據(jù)挖掘 決策規(guī)則
一、引言
在當前信息化時代,世界電子商務發(fā)展速度非???,傳統(tǒng)行業(yè)的電子商務也得到了廣泛的應用。在日益激烈的電子商務買方市場競爭中,任何與消費者行為有關的信息對商家來說都是非常寶貴的。雖然電子商務網站的后臺數(shù)據(jù)庫能夠記錄下來豐富的交易信息和顧客相關的數(shù)據(jù),但是這些數(shù)據(jù)資源中所蘊涵的大量有益信息至今卻未能得到充分地挖掘和利用。粗糙集作為一種新的數(shù)據(jù)挖掘的手段,在這一領域的應用有不錯的前景。在數(shù)據(jù)挖掘的過程中,存在大量冗余數(shù)據(jù)影響我們的決策,粗糙集理論在得到的決策規(guī)則和推理過程方面是最有利的工具,它不但可以在不影響數(shù)據(jù)所表達的信息下使原來的數(shù)據(jù)量大為減少,而且可以產生決策規(guī)則,從而可以挖掘數(shù)據(jù)中的有效的模式。
二、基于粗集的數(shù)據(jù)挖掘方法
1.粗集的基本概念
粗糙集(Rough Set,簡稱RS)理論由波蘭邏輯學家Pawlak教授于1982年提出,由于它能有效處理不精確、不一致及不完整等不完備信息,并從中發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律,近年來越來越多的研究人員開始對它進行研究,從理論上建立了Rough集理論的數(shù)據(jù)模型,還提出了很多算法,在機器學習、數(shù)據(jù)挖掘、人工神經網絡等方面得到了廣泛應用。粗糙集理論和數(shù)據(jù)挖掘關系密切,它為數(shù)據(jù)挖掘提供了一種新的方法和工具。
在粗集理論中,“知識”被認為是一種將現(xiàn)實或抽象的對象進行分類的能力。關于U的一個知識庫可以理解為一個關系系統(tǒng),其中U為論域,R是U上的一簇等價關系。決策表信息系統(tǒng)又叫決策表,他是一類特殊而重要的知識表達系統(tǒng),也是一種特殊的信息表,它表示當滿足某些條件時決策(行為、操作、控制)應當如何進行。它是一張二維表格,每一行描述一個對象,每一列描述對象的一種屬性。屬性分為條件屬性和決策屬性,論域中的對象根據(jù)條件屬性的不同,被劃分到具有不同決策屬性的決策類。
2.基于粗集的數(shù)據(jù)挖掘過程
數(shù)據(jù)挖掘研究的實施對象多為關系型數(shù)據(jù)庫,關系表可被看作為粗糙集理論中的決策表,這給粗糙集方法的應用帶來極大的方便,現(xiàn)實世界中的規(guī)則有確定性,也有不確定性的,從數(shù)據(jù)庫中發(fā)現(xiàn)不確定性的知識,為粗糙集方法提供了用武之地。數(shù)據(jù)挖掘中采用的其它技術,如神經網絡的方法,不能自動地選擇合適的屬性集,而利用粗糙集方法進行預處理,去掉多余屬性,可提高發(fā)現(xiàn)效率,降低錯誤率?;诖植诩臄?shù)據(jù)挖掘過程主要有數(shù)據(jù)預處理、約簡(包括屬性約簡和屬性值約簡)及規(guī)則提取。
(1)數(shù)據(jù)預處理
在利用粗糙集進行自動規(guī)則獲取時,第一步要進行的工作是數(shù)據(jù)的預處理。 數(shù)據(jù)預處理主要包括兩個方面:數(shù)據(jù)的補齊和數(shù)據(jù)的離散化。運用粗糙集理論處理決策表時,要求決策表中各值用離散值表達。如果決策表中某些條件屬性或決策屬性的值域為連續(xù)取值(浮點數(shù)表達),則在處理前必須經過離散化。離散化在整個規(guī)則獲取過程中起著至關重要的作用,好的離散化算法不僅丟失信息很少,而且得到的規(guī)則的適應性較強。
(2)屬性約簡
基于粗糙集的數(shù)據(jù)挖掘方法的一個顯著的特點就是它具有顯式的知識表達形式。根據(jù)粗糙集理論中信息系統(tǒng)的定義,把屬性A分為了條件屬性C和決策屬性D,那么我們很容易根據(jù)信息表得到If C Then D的產生式規(guī)則。理論上我們針對信息系統(tǒng)中的每一條記錄,都可以得到這樣一條規(guī)則。但是直接由信息表得到的規(guī)則,條件項較多,規(guī)則的泛化能力弱,適用范圍窄。
一般情況下,信息系統(tǒng)中的條件屬性并不是同等重要的,有些條件屬性是多余的,刪除這些屬性并不影響原來的系統(tǒng)。屬性約簡就是在不影響原來的系統(tǒng)的情況下,刪除不相關或不重要的條件屬性,使原有的系統(tǒng)得到簡化。通過應用粗糙集理論對決策表約簡,就是約簡決策表中的條件屬性及屬性值,約簡后的決策表具有約簡前決策表相同功能,但條件屬性達到最小化從而使我們用最少的信息量即可做到一個正確的判斷,決策表的約簡很有意義。
(3)屬性值約簡
值約簡的目的是為了提取決策規(guī)則,那么這些缺失的屬性值是肯定要被約簡掉的,和屬性約簡不同,值約簡是針對每一個對象而言的。雖然對整個決策表來說沒有冗余的屬性,但對于每一個對象來說,仍然存在著屬性冗余,去掉這些屬性對今后決策規(guī)則的提取、規(guī)則的簡化有重要的作用。根據(jù)定義一般值約簡算法基本描述如下:對于規(guī)則集合中的每條規(guī)則,對于該規(guī)則中的任意條件屬性,如果去掉該屬性,該規(guī)則不和集合中的其他規(guī)則沖突,則可以從該規(guī)則中去掉該條件屬性。
(4)規(guī)則提取
對進行屬性約簡和值約簡后的信息表,就可以進行規(guī)則的獲取,使用一個約簡集RED從決策系統(tǒng)S=(U,A)中產生規(guī)則的過程相當直接。直觀地,將每個約簡用在決策表的每個對象上,只要簡單地從表中讀出適當?shù)膶傩灾祦硇纬蓻Q策規(guī)則。用類似邏輯語言中α→β的形式表示決策規(guī)則,α和β分別稱為決策規(guī)則的前件和后件,α代表條件屬性值的組合。
三、應用實例
1.數(shù)據(jù)收集與預處理
在數(shù)據(jù)挖掘中有一個很重要的步驟就是要為挖掘算法找到合適的數(shù)據(jù)。在客戶通過電子商務網站進行交易的過程中,企業(yè)獲取相關數(shù)據(jù)的來源主要有兩個方面:(1)服務器數(shù)據(jù);(2)客戶登記信息。在本應用實例中,將收集某企業(yè)的客戶登記信息進行基于粗集的數(shù)據(jù)挖掘, 對某企業(yè)的部分客戶資料信息經過初步處理,得到對決策屬性有潛在因果關系的條件屬性和決策屬性的字段列表,并對其進行編號。由于運用Rough set理論處理決策表時,要求決策表中各值用離散值,經過離散處理后得到如表1所示的決策表。S =< U,R,V, f>,設論域為抽取樣本,其中R=C∪D,設U={1,2,...},條件屬性C={年齡,性別,婚否,學歷,收入},決策屬性D={是否購買}。在用相應的算法進行屬性約簡前,所有的數(shù)據(jù)都必須是整型數(shù)據(jù)或浮點型數(shù)據(jù),將表1中的數(shù)據(jù)轉換為整型數(shù)據(jù),結果如表2。
2.約簡
屬性約簡的算法有很多,在本例中采用歸納屬性約簡,約簡后的決策表如表3。在該決策表中,約掉了性別、婚否兩個屬性,說明客戶中性別、婚否不是是否購買公司產品的決定性因素,年齡、學歷和收入才是決定性因素。
經過屬性約簡后的決策表中的每一個記錄可以作為一條規(guī)則,但其中包含著大量的冗余信息,即在約簡后的信息系統(tǒng),并不是每一條記錄的每一個屬性值都對信息系統(tǒng)最后決策規(guī)則的提取產生作用,必須對屬性約簡后的結果繼續(xù)簡化。剔除經過屬性約簡后的決策表中的冗余信息即為屬性值約簡。其實,屬性值的約簡是更進一步的約簡,是真正實現(xiàn)了決策表的最簡化,就實際意義而言,屬性值簡化了的決策表更突出了關鍵屬性及其關鍵屬性值對決策屬性的影響。采用啟發(fā)式屬性值約簡對表3進行屬性值約簡,得到表4。
3.決策規(guī)則提取
根據(jù)值約簡后的決策表,可得如下的規(guī)則:
規(guī)則1:IF (a4=3) THEN d=1
規(guī)則2:IF (a5=3) THEN d=1
規(guī)則3:IF (a1=3) AND (a4=4) AND (a5=4) THEN d=1
規(guī)則4:IF (a5=4) THEN d=1
規(guī)則5:IF (a1=1) AND (a4=1) THEN d=0
從規(guī)則1至規(guī)則4可以分析得到年齡在30歲~40歲之間,學歷為碩士以上且收入在4000元以上的客戶購買了公司的商品,規(guī)則5則說明了年齡在30以下,學歷為大專及以下的客戶沒有購買。由挖掘得到的規(guī)則,可以為公司在促銷和鎖定目標客戶的決策上起到重要作用。
四、結束語
電子商務是現(xiàn)代信息技術發(fā)展的必然結果,也是未來商業(yè)運作模式的必然選擇。利用基于粗集的數(shù)據(jù)挖掘技術,可以充分利用電子商務企業(yè)現(xiàn)有的信息數(shù)據(jù),從中發(fā)現(xiàn)有利的規(guī)則,為企業(yè)管理提供決策支持,使企業(yè)在在電子商務的潮流中立于不敗之地。隨著數(shù)據(jù)挖掘算法的不斷發(fā)展和成熟,數(shù)據(jù)挖掘一定會有更加廣闊的應用前景。
參考文獻:
[1]Pawlak Z. Rough set. International Journal of Computer and Information Sciences,1982,11(5):341~356
[2]王國胤:Rough集理論與知識獲取[M].西安:西安交通大學出版社,2001.1~167
[3]呂曉玲吳喜之:電子商務客戶網絡購物行為挖掘[J].統(tǒng)計與信息論壇,2007.5:29~32
[4]胡愛華等:電子商務中數(shù)據(jù)挖掘方法的應用[J].商場現(xiàn)代化,2007.4