[摘 要] 交叉銷售是非常常見的商業(yè)問題,它包括基于客戶當(dāng)前或之前的購(gòu)物籃中的產(chǎn)品來(lái)推薦新的產(chǎn)品列表。許多零售商,特別是在線零售商,采用這個(gè)特性來(lái)增加它們的銷售額。本文通過對(duì)電影交叉銷售的數(shù)據(jù)建模,介紹在SQL Server 2005中建立數(shù)據(jù)挖掘結(jié)構(gòu)和模型的詳細(xì)過程,展現(xiàn)決策樹算法的瀏覽圖,并使用決策樹算法在實(shí)例中進(jìn)行準(zhǔn)確性分析和一般預(yù)測(cè),說(shuō)明如何利用數(shù)據(jù)挖掘來(lái)解決商業(yè)問題。
[關(guān)鍵詞] 交叉銷售 SSAS 數(shù)據(jù)挖掘
一、SQL Server 2005數(shù)據(jù)挖掘簡(jiǎn)介及問題的提出
數(shù)據(jù)挖掘(Data Mining)經(jīng)過近十幾年的迅速發(fā)展,形成了融合數(shù)據(jù)庫(kù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù)的交叉學(xué)科。因其所涉及的知識(shí)領(lǐng)域眾多、應(yīng)用范圍廣泛,數(shù)據(jù)挖掘已成為研究人員和商業(yè)組織所關(guān)注的熱門領(lǐng)域。SQL Server 2005分析服務(wù)(SSAS)是微軟 SQL Server 2005中的多維聯(lián)機(jī)分析處理(OLAP)組件,它在商業(yè)智能(BI)分析方案中集成了關(guān)系型和OLAP數(shù)據(jù),是一種集成的商務(wù)智能、數(shù)據(jù)挖掘、分析和報(bào)表解決方案。
交叉銷售是非常常見的商業(yè)問題,它包括基于客戶當(dāng)前或之前的購(gòu)物籃中的產(chǎn)品來(lái)推薦新的產(chǎn)品列表。簡(jiǎn)單說(shuō)來(lái),就是向擁有本公司A產(chǎn)品的客戶推銷本公司B產(chǎn)品。交叉銷售對(duì)零售商是一個(gè)很重要的商業(yè)挑戰(zhàn)。許多零售商,特別是在線零售商,采用這個(gè)特性來(lái)增加它們的銷售額。比如,如果你到一個(gè)在線書店(如亞馬遜Amazon.com)去購(gòu)買書籍,你會(huì)注意到該網(wǎng)站會(huì)給你一系列相關(guān)書籍的推薦信息。這些推薦信息的提出,是基于購(gòu)物籃分析得出的。而購(gòu)物籃分析是針對(duì)數(shù)千個(gè)有相似購(gòu)物情況的客戶進(jìn)行的。好的推薦信息會(huì)改變客戶的購(gòu)物體驗(yàn),從而增加銷售額。差的推薦信息會(huì)使客戶感到煩惱,從而最終把他們趕走。
交叉銷售的難點(diǎn)在于如何向客戶提供一組正確的推薦信息。當(dāng)銷售產(chǎn)品種類比較少時(shí),基于銷售經(jīng)驗(yàn)來(lái)提供建議比較容易??墒?,當(dāng)產(chǎn)品比較多時(shí),問題就非常復(fù)雜了。
二、利用SQL Server 2005數(shù)據(jù)挖掘建立推薦模型
利用SQL SERVER 2005中的決策樹算法來(lái)構(gòu)建推薦模型,以說(shuō)明數(shù)據(jù)挖掘在交叉銷售中應(yīng)用。
基本步驟:
1.建立數(shù)據(jù)庫(kù)
啟動(dòng)SQL Server Management studio在其中建立名為movie survey的數(shù)據(jù)庫(kù),右擊它在彈出的快捷菜單中選擇“任務(wù)”中的“導(dǎo)入數(shù)據(jù)”導(dǎo)入movie survey數(shù)據(jù)集,該數(shù)據(jù)集是對(duì)Microsoft雇員的調(diào)查表,主要涉及被調(diào)查者的電影觀看行為,人口統(tǒng)計(jì)信息等,保存movie survey數(shù)據(jù)庫(kù)文件。
2.建立Analysis services項(xiàng)目
選擇商業(yè)智能項(xiàng)目中Analysis Services項(xiàng)目,建立movieSurvey項(xiàng)目。
3.建立數(shù)據(jù)源
數(shù)據(jù)源實(shí)際上是一個(gè)連接字符串,用于描述數(shù)據(jù)的位置,本項(xiàng)目的連接字符串為“Provider=SQLNCLI.1;Data Source=localhost;Integrated Security=SSPI;Initial Catalog=MovieSurvey“。
Movie Survey數(shù)據(jù)庫(kù)文件包括Survey表和Movies表,Survey表記錄了被調(diào)查者的年齡、教育水平,性別、收入、婚姻狀況、上網(wǎng)方式,上網(wǎng)頻率等信息,圖例中只截取了其中的部分屬性。Moives表只有兩個(gè)屬性Survey TakenID(客戶序號(hào)) 和movie(電影名)共45325條記錄。如圖1所示。
4.建立數(shù)據(jù)源視圖(DSV),將上面提及的“Survey”表“movies”表都選擇進(jìn)來(lái)
數(shù)據(jù)源視圖是數(shù)據(jù)在客戶端的一個(gè)抽象視圖,在DSV中可以選擇、組織、瀏覽數(shù)據(jù)源中的數(shù)據(jù)。在數(shù)據(jù)源視圖中建立事例表survey和嵌套表movies的一對(duì)多關(guān)系如圖2所示。
5.建立挖掘結(jié)構(gòu)
使用數(shù)據(jù)挖掘向?qū)?chuàng)建兩種對(duì)象:挖掘結(jié)構(gòu)和挖掘模型,挖掘結(jié)構(gòu)描述將用于挖掘列和訓(xùn)練數(shù)據(jù),挖掘模型是從挖掘結(jié)構(gòu)中選擇一些列,然后使用某一個(gè)算法,并且為該算法定義每一列的用法。SQL Server 2005 包括世界級(jí)的數(shù)據(jù)挖掘算法有7 種:Microsoft貝葉斯算法、Microsoft決策樹算法、Microsoft序列聚類算法、Microsoft聚類算法、Microsoft神經(jīng)網(wǎng)絡(luò)算法、Microsoft關(guān)聯(lián)規(guī)則算法、文本挖掘。
根據(jù)具體的商業(yè)問題,確定相應(yīng)的算法,本文的目標(biāo)是分析客戶將會(huì)一起購(gòu)買的電影。在獲得這些模式后,可以使用它們來(lái)提供推薦信息。該問題屬于關(guān)聯(lián)任務(wù)。最適合的兩個(gè)算法是Microsoft決策樹算法,Microsoft關(guān)聯(lián)規(guī)則算法。
圖3顯示了模型的定義。該模型是完全基于每個(gè)客戶的購(gòu)物籃來(lái)分析電影關(guān)聯(lián),同時(shí)分析電影與人口統(tǒng)計(jì)信息之間的關(guān)聯(lián)。
在處理了模型這后,得到一組決策樹,圖4顯示了預(yù)測(cè)電影English patient 的決策樹的一部分,從圖例看出只有2.2%的客戶購(gòu)買了該電影,該決策樹的第一個(gè)拆分基于Chocolat。在那些喜歡Chocolat的客戶中,大約有27%的客戶也喜歡English patient,與總的喜歡Einglish patient人數(shù)相比,比例增加13倍。在那些不喜歡English patient而喜歡Boot Das的客戶中有22%的客戶也都喜歡English patient。通過這棵樹,我們知道Boot Das和Chocolat是English patient比較好的預(yù)測(cè)器。
決策樹有兩個(gè)查看器,切換到依賴關(guān)系網(wǎng)絡(luò)查看器中,圖5顯示了決策樹模型的依賴關(guān)系網(wǎng)絡(luò),可以認(rèn)為該網(wǎng)絡(luò)是從森林的頂部進(jìn)行鳥瞰的視圖,每個(gè)節(jié)點(diǎn)都是一顆決策樹。當(dāng)雙擊任何節(jié)點(diǎn)時(shí),都可以看到底層樹的詳細(xì)信息。每條邊都代表兩棵樹之間的關(guān)系。每條邊都有一個(gè)方向,該方向指明了預(yù)測(cè)的方向。每條邊也都有一個(gè)權(quán)值,該權(quán)值代表預(yù)測(cè)的強(qiáng)度。例如,從圖中可以看出:Boot das預(yù)測(cè)English patient,Chocolat和English patient彼此預(yù)測(cè)。
三、小結(jié)
雖然數(shù)據(jù)挖掘在最近幾年談?wù)摫容^多,但它的市場(chǎng)相對(duì)比較小,數(shù)據(jù)挖掘依舊被認(rèn)為是一種高端的應(yīng)用功能。SQL SERVER 2005提供一系列方便而且功能全面的可視化工具,比如解決方案管理器、數(shù)據(jù)挖掘向?qū)А?shù)據(jù)挖掘設(shè)計(jì)器、模型查看器、編輯器等。它可以從各種數(shù)據(jù)源構(gòu)建挖掘模型,用戶利用模型查看器來(lái)解釋模型,利用模型編輯器修改參數(shù)的設(shè)置來(lái)調(diào)整模型,同時(shí)SQL SERVER 2005數(shù)據(jù)挖掘功能和SQL SERVER產(chǎn)品集成給我們的挖掘工作提供了便利。
參考文獻(xiàn):
[1]Zhaohui Tang,Jamie Maclennan.?dāng)?shù)據(jù)挖掘原理與應(yīng)用—SQL Server 2005 數(shù)據(jù)庫(kù)[M].北京:清華大學(xué)出版社,2007
[2]陳京民:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)[M].北京:電子工業(yè)出版社,2002