江霞
摘要:數(shù)據(jù)挖掘技術(shù)在網(wǎng)上書店系統(tǒng)中起著重要作用,使用數(shù)據(jù)挖掘技術(shù)分析訂單數(shù)據(jù),通過關(guān)聯(lián)規(guī)則挖掘得到相同種類圖書之間和不同種類圖書之間的關(guān)聯(lián)關(guān)系,根據(jù)分析結(jié)果可以在客戶下訂單時(shí),為客戶推薦相關(guān)書籍,從而增加銷售額。該文介紹網(wǎng)上書店訂單數(shù)據(jù)關(guān)聯(lián)分析的過程和結(jié)果。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;網(wǎng)上書店;商品推薦
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)36-8597-02
網(wǎng)上書店以其圖書數(shù)量大、品種多、檢索方便、價(jià)格相對(duì)便宜、突破了時(shí)間和空間的限制等優(yōu)勢(shì)吸引了讀者,圖書購(gòu)買的需求已是網(wǎng)上書店讀者的首要需求。為了能夠充分滿足以及了解使用者的需求,開發(fā)一套網(wǎng)上書店管理信息系統(tǒng)是必要的。從商務(wù)網(wǎng)站系統(tǒng)中得到的大量數(shù)據(jù)用數(shù)據(jù)庫(kù)保存起來,在競(jìng)爭(zhēng)日益激烈的知識(shí)經(jīng)濟(jì)環(huán)境下,數(shù)據(jù)庫(kù)不再只是用于查詢、輸出報(bào)表等一般的用途,還要在眾多的數(shù)據(jù)中挖掘出有用的知識(shí)以便作為決策支持。
1 數(shù)據(jù)挖掘在網(wǎng)上書店的應(yīng)用
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。它綜合利用了統(tǒng)計(jì)學(xué)、模式識(shí)別、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等學(xué)科的知識(shí),從大量信息中提取有用的模式和規(guī)律,以輔助決策。
考察書店中涉及許多交易的事務(wù):事務(wù) 1 中出現(xiàn)了書甲,事務(wù) 2 中出現(xiàn)了書乙,事務(wù) 3 中則同時(shí)出現(xiàn)了書甲和書乙。那么,書甲和書乙在事務(wù)中的出現(xiàn)相互之間是否有規(guī)律可循呢?在網(wǎng)上書店的前端訂單系統(tǒng)收集存儲(chǔ)了大量的購(gòu)書數(shù)據(jù),這些數(shù)據(jù)是一條條的購(gòu)買事務(wù)記錄,每條記錄存儲(chǔ)了事務(wù)處理時(shí)間,顧客購(gòu)買的書籍、物品的數(shù)量及金額等。這些數(shù)據(jù)中常常隱含形式如下的關(guān)聯(lián)規(guī)則:在購(gòu)買 JSP 書的顧客當(dāng)中,有 70%的人同時(shí)購(gòu)買了 Java 圖書。這些關(guān)聯(lián)規(guī)則很有價(jià)值,書店管理人員可以根據(jù)這些關(guān)聯(lián)規(guī)則更好地規(guī)劃書店,如把 Java 和 JSP 圖書其中一種促銷,能夠促進(jìn)另一種通圖書的銷售。
2 數(shù)據(jù)庫(kù)準(zhǔn)備
根據(jù)上面的數(shù)據(jù)庫(kù)需求分析及系統(tǒng)功能模塊的劃分,網(wǎng)上書店系統(tǒng)數(shù)據(jù)庫(kù)主要包括如下幾張表,其中用戶表和訂單表部分字段設(shè)置如表1、表2所示。
· _user(用戶)表 (表1),用來存儲(chǔ)用戶信息。
表1 _user表
[字段名\&數(shù)據(jù)類型\&備注\&userid\&Int not null\&用戶ID,自動(dòng)增加\&username\&Nvarchar(50) not null\&用戶名,主鍵\&useremail\&Nvarchar(50) not null\&用戶email\&password\&Nvarchar(50) not null\&用戶密碼\&]
· myorder(我的訂單)表 (表2),用來存儲(chǔ)用戶購(gòu)買圖書的信息。
表2 myorder表
[字段名\&數(shù)據(jù)類型\&備注\&Myorder_id\&int not null\&訂單ID,自動(dòng)增加,主鍵\&username\&Nvarchar(50)\&訂單的用戶名\&name\&Nvarchar(255)\&購(gòu)買的商品名稱\&]
3 數(shù)據(jù)分析
網(wǎng)上書店訂單數(shù)據(jù)的關(guān)聯(lián)規(guī)則頻繁項(xiàng)集挖掘可采用 Apriori 算法實(shí)現(xiàn)。假設(shè)當(dāng)日銷售的數(shù)據(jù)庫(kù)中的一段事務(wù)數(shù)據(jù),數(shù)據(jù)庫(kù)中有 10 個(gè)事務(wù),即|D|=10。Apriori 假定事務(wù)中的項(xiàng)按字典次序存放,Ik代表具體的書目或者一類圖書,比如I1-Java 類圖書,I2-JSP 圖書,I3-數(shù)據(jù)挖掘圖書,I4-C 語言圖書,I5-網(wǎng)頁制作圖書等等。
打開Microsoft SQL Server 2005中的Business Intelligence Development Studio, 在解決方案資源管理器中為數(shù)據(jù)庫(kù)ZT新建數(shù)據(jù)源、為view_myorder, view_user新建數(shù)據(jù)源視圖,新建挖掘結(jié)構(gòu)。
在解決資源管理器中基于ZT數(shù)據(jù)源和數(shù)據(jù)源視圖新建名為User.dmm的關(guān)聯(lián)規(guī)則挖掘結(jié)構(gòu)。選取“_user”為事例表,“myorder”為嵌套表,將事例表_user的username字段選取為鍵列,將嵌套表myorder的name字段選取為鍵列、輸入列和可預(yù)測(cè)列,勾選“運(yùn)行鉆取”,最后點(diǎn)擊“完成”按鈕。
先看看顧客的購(gòu)買記錄,如表3所示。
表3 顧客的購(gòu)買記錄表
[用戶名\&購(gòu)買的圖書\&C1\&數(shù)據(jù)庫(kù),數(shù)據(jù)結(jié)構(gòu),離散數(shù)學(xué),計(jì)算機(jī)網(wǎng)絡(luò),C語言程序設(shè)計(jì)案例教程,計(jì)算機(jī)組成原理\&C2\&操作系統(tǒng),離散數(shù)學(xué),C語言程序設(shè)計(jì)案例教程,計(jì)算機(jī)組成原理\&C3\&數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)庫(kù),計(jì)算機(jī)網(wǎng)絡(luò),C語言程序設(shè)計(jì)案例教程\&C4\&離散數(shù)學(xué),C語言程序設(shè)計(jì)案例教程\&]
點(diǎn)擊“挖掘模型查看器”,可以在“項(xiàng)集”這個(gè)選項(xiàng)中,設(shè)置“最低支持”和“最小項(xiàng)集大小”。
點(diǎn)擊“挖掘模型預(yù)測(cè)”,可以對(duì)顧客的購(gòu)買記錄進(jìn)行關(guān)聯(lián)、序列分析。
1) 查看哪些商品會(huì)一起購(gòu)買(針對(duì)關(guān)聯(lián)模型創(chuàng)建預(yù)測(cè)查詢)
首先在挖掘模型對(duì)話框中點(diǎn)擊“選擇模型”,選擇ZT下的User,點(diǎn)擊“確定”按鈕,在下面網(wǎng)格中“源”處,選擇“預(yù)測(cè)函數(shù)”,在“字段”處選擇“PredictAssociation”,將挖掘模型中的myorder托放到條件/參數(shù)中,并在后添加,3,點(diǎn)擊“結(jié)果”。
2) 給定一種商品或兩種商品,查看和它一起購(gòu)買的商品以及一起購(gòu)買此商品的概率(向單獨(dú)預(yù)測(cè)查詢添加輸入和概率)
單擊“單獨(dú)查詢按鈕”,在單獨(dú)查詢輸入中添加“C語言”,挖掘模型也選擇ZT下的User,在下面網(wǎng)格中“源”處,選擇“預(yù)測(cè)函數(shù)”,在“字段”處選擇“PredictAssociation”,將挖掘模型中的myorder托放到條件/參數(shù)中,并在后添加include_statistics6,點(diǎn)擊“結(jié)果”。
4 結(jié)束語
本文以網(wǎng)上書店為平臺(tái),介紹顧客購(gòu)書訂單模塊的數(shù)據(jù)庫(kù)的設(shè)計(jì),并用SQL Server 2005的Business intelligence development studio對(duì)商務(wù)網(wǎng)站交易數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,發(fā)現(xiàn)被顧客購(gòu)買的商品之間的關(guān)聯(lián),為商品導(dǎo)購(gòu)提供數(shù)據(jù)支持。
參考文獻(xiàn):
[1] 馬剛.關(guān)聯(lián)規(guī)則挖掘在電子商務(wù)中的研究與應(yīng)用[D].上海:上海交通大學(xué),2008:40-44.
[2] 魏建香,馮春輝.SQL Server 數(shù)據(jù)庫(kù)應(yīng)用技術(shù)[M].北京:中國(guó)計(jì)劃出版社,2007:8-9.
[3] 謝邦昌.商務(wù)智能與數(shù)據(jù)挖掘 Microsoft SQL Server應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2008:35-40.
[4] 左鳳朝.基于 Web 的數(shù)據(jù)庫(kù)訪問技術(shù)探析[J].計(jì)算機(jī)工程與應(yīng)用,2005,52(15).
[5] John H.Heinrichs,Jeen-Su Lim.Integrating Web-based Data Mining Tools with Business Models for Knowledge Management[J].Decision Support Systems,2003,35.endprint
摘要:數(shù)據(jù)挖掘技術(shù)在網(wǎng)上書店系統(tǒng)中起著重要作用,使用數(shù)據(jù)挖掘技術(shù)分析訂單數(shù)據(jù),通過關(guān)聯(lián)規(guī)則挖掘得到相同種類圖書之間和不同種類圖書之間的關(guān)聯(lián)關(guān)系,根據(jù)分析結(jié)果可以在客戶下訂單時(shí),為客戶推薦相關(guān)書籍,從而增加銷售額。該文介紹網(wǎng)上書店訂單數(shù)據(jù)關(guān)聯(lián)分析的過程和結(jié)果。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;網(wǎng)上書店;商品推薦
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)36-8597-02
網(wǎng)上書店以其圖書數(shù)量大、品種多、檢索方便、價(jià)格相對(duì)便宜、突破了時(shí)間和空間的限制等優(yōu)勢(shì)吸引了讀者,圖書購(gòu)買的需求已是網(wǎng)上書店讀者的首要需求。為了能夠充分滿足以及了解使用者的需求,開發(fā)一套網(wǎng)上書店管理信息系統(tǒng)是必要的。從商務(wù)網(wǎng)站系統(tǒng)中得到的大量數(shù)據(jù)用數(shù)據(jù)庫(kù)保存起來,在競(jìng)爭(zhēng)日益激烈的知識(shí)經(jīng)濟(jì)環(huán)境下,數(shù)據(jù)庫(kù)不再只是用于查詢、輸出報(bào)表等一般的用途,還要在眾多的數(shù)據(jù)中挖掘出有用的知識(shí)以便作為決策支持。
1 數(shù)據(jù)挖掘在網(wǎng)上書店的應(yīng)用
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。它綜合利用了統(tǒng)計(jì)學(xué)、模式識(shí)別、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等學(xué)科的知識(shí),從大量信息中提取有用的模式和規(guī)律,以輔助決策。
考察書店中涉及許多交易的事務(wù):事務(wù) 1 中出現(xiàn)了書甲,事務(wù) 2 中出現(xiàn)了書乙,事務(wù) 3 中則同時(shí)出現(xiàn)了書甲和書乙。那么,書甲和書乙在事務(wù)中的出現(xiàn)相互之間是否有規(guī)律可循呢?在網(wǎng)上書店的前端訂單系統(tǒng)收集存儲(chǔ)了大量的購(gòu)書數(shù)據(jù),這些數(shù)據(jù)是一條條的購(gòu)買事務(wù)記錄,每條記錄存儲(chǔ)了事務(wù)處理時(shí)間,顧客購(gòu)買的書籍、物品的數(shù)量及金額等。這些數(shù)據(jù)中常常隱含形式如下的關(guān)聯(lián)規(guī)則:在購(gòu)買 JSP 書的顧客當(dāng)中,有 70%的人同時(shí)購(gòu)買了 Java 圖書。這些關(guān)聯(lián)規(guī)則很有價(jià)值,書店管理人員可以根據(jù)這些關(guān)聯(lián)規(guī)則更好地規(guī)劃書店,如把 Java 和 JSP 圖書其中一種促銷,能夠促進(jìn)另一種通圖書的銷售。
2 數(shù)據(jù)庫(kù)準(zhǔn)備
根據(jù)上面的數(shù)據(jù)庫(kù)需求分析及系統(tǒng)功能模塊的劃分,網(wǎng)上書店系統(tǒng)數(shù)據(jù)庫(kù)主要包括如下幾張表,其中用戶表和訂單表部分字段設(shè)置如表1、表2所示。
· _user(用戶)表 (表1),用來存儲(chǔ)用戶信息。
表1 _user表
[字段名\&數(shù)據(jù)類型\&備注\&userid\&Int not null\&用戶ID,自動(dòng)增加\&username\&Nvarchar(50) not null\&用戶名,主鍵\&useremail\&Nvarchar(50) not null\&用戶email\&password\&Nvarchar(50) not null\&用戶密碼\&]
· myorder(我的訂單)表 (表2),用來存儲(chǔ)用戶購(gòu)買圖書的信息。
表2 myorder表
[字段名\&數(shù)據(jù)類型\&備注\&Myorder_id\&int not null\&訂單ID,自動(dòng)增加,主鍵\&username\&Nvarchar(50)\&訂單的用戶名\&name\&Nvarchar(255)\&購(gòu)買的商品名稱\&]
3 數(shù)據(jù)分析
網(wǎng)上書店訂單數(shù)據(jù)的關(guān)聯(lián)規(guī)則頻繁項(xiàng)集挖掘可采用 Apriori 算法實(shí)現(xiàn)。假設(shè)當(dāng)日銷售的數(shù)據(jù)庫(kù)中的一段事務(wù)數(shù)據(jù),數(shù)據(jù)庫(kù)中有 10 個(gè)事務(wù),即|D|=10。Apriori 假定事務(wù)中的項(xiàng)按字典次序存放,Ik代表具體的書目或者一類圖書,比如I1-Java 類圖書,I2-JSP 圖書,I3-數(shù)據(jù)挖掘圖書,I4-C 語言圖書,I5-網(wǎng)頁制作圖書等等。
打開Microsoft SQL Server 2005中的Business Intelligence Development Studio, 在解決方案資源管理器中為數(shù)據(jù)庫(kù)ZT新建數(shù)據(jù)源、為view_myorder, view_user新建數(shù)據(jù)源視圖,新建挖掘結(jié)構(gòu)。
在解決資源管理器中基于ZT數(shù)據(jù)源和數(shù)據(jù)源視圖新建名為User.dmm的關(guān)聯(lián)規(guī)則挖掘結(jié)構(gòu)。選取“_user”為事例表,“myorder”為嵌套表,將事例表_user的username字段選取為鍵列,將嵌套表myorder的name字段選取為鍵列、輸入列和可預(yù)測(cè)列,勾選“運(yùn)行鉆取”,最后點(diǎn)擊“完成”按鈕。
先看看顧客的購(gòu)買記錄,如表3所示。
表3 顧客的購(gòu)買記錄表
[用戶名\&購(gòu)買的圖書\&C1\&數(shù)據(jù)庫(kù),數(shù)據(jù)結(jié)構(gòu),離散數(shù)學(xué),計(jì)算機(jī)網(wǎng)絡(luò),C語言程序設(shè)計(jì)案例教程,計(jì)算機(jī)組成原理\&C2\&操作系統(tǒng),離散數(shù)學(xué),C語言程序設(shè)計(jì)案例教程,計(jì)算機(jī)組成原理\&C3\&數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)庫(kù),計(jì)算機(jī)網(wǎng)絡(luò),C語言程序設(shè)計(jì)案例教程\&C4\&離散數(shù)學(xué),C語言程序設(shè)計(jì)案例教程\&]
點(diǎn)擊“挖掘模型查看器”,可以在“項(xiàng)集”這個(gè)選項(xiàng)中,設(shè)置“最低支持”和“最小項(xiàng)集大小”。
點(diǎn)擊“挖掘模型預(yù)測(cè)”,可以對(duì)顧客的購(gòu)買記錄進(jìn)行關(guān)聯(lián)、序列分析。
1) 查看哪些商品會(huì)一起購(gòu)買(針對(duì)關(guān)聯(lián)模型創(chuàng)建預(yù)測(cè)查詢)
首先在挖掘模型對(duì)話框中點(diǎn)擊“選擇模型”,選擇ZT下的User,點(diǎn)擊“確定”按鈕,在下面網(wǎng)格中“源”處,選擇“預(yù)測(cè)函數(shù)”,在“字段”處選擇“PredictAssociation”,將挖掘模型中的myorder托放到條件/參數(shù)中,并在后添加,3,點(diǎn)擊“結(jié)果”。
2) 給定一種商品或兩種商品,查看和它一起購(gòu)買的商品以及一起購(gòu)買此商品的概率(向單獨(dú)預(yù)測(cè)查詢添加輸入和概率)
單擊“單獨(dú)查詢按鈕”,在單獨(dú)查詢輸入中添加“C語言”,挖掘模型也選擇ZT下的User,在下面網(wǎng)格中“源”處,選擇“預(yù)測(cè)函數(shù)”,在“字段”處選擇“PredictAssociation”,將挖掘模型中的myorder托放到條件/參數(shù)中,并在后添加include_statistics6,點(diǎn)擊“結(jié)果”。
4 結(jié)束語
本文以網(wǎng)上書店為平臺(tái),介紹顧客購(gòu)書訂單模塊的數(shù)據(jù)庫(kù)的設(shè)計(jì),并用SQL Server 2005的Business intelligence development studio對(duì)商務(wù)網(wǎng)站交易數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,發(fā)現(xiàn)被顧客購(gòu)買的商品之間的關(guān)聯(lián),為商品導(dǎo)購(gòu)提供數(shù)據(jù)支持。
參考文獻(xiàn):
[1] 馬剛.關(guān)聯(lián)規(guī)則挖掘在電子商務(wù)中的研究與應(yīng)用[D].上海:上海交通大學(xué),2008:40-44.
[2] 魏建香,馮春輝.SQL Server 數(shù)據(jù)庫(kù)應(yīng)用技術(shù)[M].北京:中國(guó)計(jì)劃出版社,2007:8-9.
[3] 謝邦昌.商務(wù)智能與數(shù)據(jù)挖掘 Microsoft SQL Server應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2008:35-40.
[4] 左鳳朝.基于 Web 的數(shù)據(jù)庫(kù)訪問技術(shù)探析[J].計(jì)算機(jī)工程與應(yīng)用,2005,52(15).
[5] John H.Heinrichs,Jeen-Su Lim.Integrating Web-based Data Mining Tools with Business Models for Knowledge Management[J].Decision Support Systems,2003,35.endprint
摘要:數(shù)據(jù)挖掘技術(shù)在網(wǎng)上書店系統(tǒng)中起著重要作用,使用數(shù)據(jù)挖掘技術(shù)分析訂單數(shù)據(jù),通過關(guān)聯(lián)規(guī)則挖掘得到相同種類圖書之間和不同種類圖書之間的關(guān)聯(lián)關(guān)系,根據(jù)分析結(jié)果可以在客戶下訂單時(shí),為客戶推薦相關(guān)書籍,從而增加銷售額。該文介紹網(wǎng)上書店訂單數(shù)據(jù)關(guān)聯(lián)分析的過程和結(jié)果。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;網(wǎng)上書店;商品推薦
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)36-8597-02
網(wǎng)上書店以其圖書數(shù)量大、品種多、檢索方便、價(jià)格相對(duì)便宜、突破了時(shí)間和空間的限制等優(yōu)勢(shì)吸引了讀者,圖書購(gòu)買的需求已是網(wǎng)上書店讀者的首要需求。為了能夠充分滿足以及了解使用者的需求,開發(fā)一套網(wǎng)上書店管理信息系統(tǒng)是必要的。從商務(wù)網(wǎng)站系統(tǒng)中得到的大量數(shù)據(jù)用數(shù)據(jù)庫(kù)保存起來,在競(jìng)爭(zhēng)日益激烈的知識(shí)經(jīng)濟(jì)環(huán)境下,數(shù)據(jù)庫(kù)不再只是用于查詢、輸出報(bào)表等一般的用途,還要在眾多的數(shù)據(jù)中挖掘出有用的知識(shí)以便作為決策支持。
1 數(shù)據(jù)挖掘在網(wǎng)上書店的應(yīng)用
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。它綜合利用了統(tǒng)計(jì)學(xué)、模式識(shí)別、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等學(xué)科的知識(shí),從大量信息中提取有用的模式和規(guī)律,以輔助決策。
考察書店中涉及許多交易的事務(wù):事務(wù) 1 中出現(xiàn)了書甲,事務(wù) 2 中出現(xiàn)了書乙,事務(wù) 3 中則同時(shí)出現(xiàn)了書甲和書乙。那么,書甲和書乙在事務(wù)中的出現(xiàn)相互之間是否有規(guī)律可循呢?在網(wǎng)上書店的前端訂單系統(tǒng)收集存儲(chǔ)了大量的購(gòu)書數(shù)據(jù),這些數(shù)據(jù)是一條條的購(gòu)買事務(wù)記錄,每條記錄存儲(chǔ)了事務(wù)處理時(shí)間,顧客購(gòu)買的書籍、物品的數(shù)量及金額等。這些數(shù)據(jù)中常常隱含形式如下的關(guān)聯(lián)規(guī)則:在購(gòu)買 JSP 書的顧客當(dāng)中,有 70%的人同時(shí)購(gòu)買了 Java 圖書。這些關(guān)聯(lián)規(guī)則很有價(jià)值,書店管理人員可以根據(jù)這些關(guān)聯(lián)規(guī)則更好地規(guī)劃書店,如把 Java 和 JSP 圖書其中一種促銷,能夠促進(jìn)另一種通圖書的銷售。
2 數(shù)據(jù)庫(kù)準(zhǔn)備
根據(jù)上面的數(shù)據(jù)庫(kù)需求分析及系統(tǒng)功能模塊的劃分,網(wǎng)上書店系統(tǒng)數(shù)據(jù)庫(kù)主要包括如下幾張表,其中用戶表和訂單表部分字段設(shè)置如表1、表2所示。
· _user(用戶)表 (表1),用來存儲(chǔ)用戶信息。
表1 _user表
[字段名\&數(shù)據(jù)類型\&備注\&userid\&Int not null\&用戶ID,自動(dòng)增加\&username\&Nvarchar(50) not null\&用戶名,主鍵\&useremail\&Nvarchar(50) not null\&用戶email\&password\&Nvarchar(50) not null\&用戶密碼\&]
· myorder(我的訂單)表 (表2),用來存儲(chǔ)用戶購(gòu)買圖書的信息。
表2 myorder表
[字段名\&數(shù)據(jù)類型\&備注\&Myorder_id\&int not null\&訂單ID,自動(dòng)增加,主鍵\&username\&Nvarchar(50)\&訂單的用戶名\&name\&Nvarchar(255)\&購(gòu)買的商品名稱\&]
3 數(shù)據(jù)分析
網(wǎng)上書店訂單數(shù)據(jù)的關(guān)聯(lián)規(guī)則頻繁項(xiàng)集挖掘可采用 Apriori 算法實(shí)現(xiàn)。假設(shè)當(dāng)日銷售的數(shù)據(jù)庫(kù)中的一段事務(wù)數(shù)據(jù),數(shù)據(jù)庫(kù)中有 10 個(gè)事務(wù),即|D|=10。Apriori 假定事務(wù)中的項(xiàng)按字典次序存放,Ik代表具體的書目或者一類圖書,比如I1-Java 類圖書,I2-JSP 圖書,I3-數(shù)據(jù)挖掘圖書,I4-C 語言圖書,I5-網(wǎng)頁制作圖書等等。
打開Microsoft SQL Server 2005中的Business Intelligence Development Studio, 在解決方案資源管理器中為數(shù)據(jù)庫(kù)ZT新建數(shù)據(jù)源、為view_myorder, view_user新建數(shù)據(jù)源視圖,新建挖掘結(jié)構(gòu)。
在解決資源管理器中基于ZT數(shù)據(jù)源和數(shù)據(jù)源視圖新建名為User.dmm的關(guān)聯(lián)規(guī)則挖掘結(jié)構(gòu)。選取“_user”為事例表,“myorder”為嵌套表,將事例表_user的username字段選取為鍵列,將嵌套表myorder的name字段選取為鍵列、輸入列和可預(yù)測(cè)列,勾選“運(yùn)行鉆取”,最后點(diǎn)擊“完成”按鈕。
先看看顧客的購(gòu)買記錄,如表3所示。
表3 顧客的購(gòu)買記錄表
[用戶名\&購(gòu)買的圖書\&C1\&數(shù)據(jù)庫(kù),數(shù)據(jù)結(jié)構(gòu),離散數(shù)學(xué),計(jì)算機(jī)網(wǎng)絡(luò),C語言程序設(shè)計(jì)案例教程,計(jì)算機(jī)組成原理\&C2\&操作系統(tǒng),離散數(shù)學(xué),C語言程序設(shè)計(jì)案例教程,計(jì)算機(jī)組成原理\&C3\&數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)庫(kù),計(jì)算機(jī)網(wǎng)絡(luò),C語言程序設(shè)計(jì)案例教程\&C4\&離散數(shù)學(xué),C語言程序設(shè)計(jì)案例教程\&]
點(diǎn)擊“挖掘模型查看器”,可以在“項(xiàng)集”這個(gè)選項(xiàng)中,設(shè)置“最低支持”和“最小項(xiàng)集大小”。
點(diǎn)擊“挖掘模型預(yù)測(cè)”,可以對(duì)顧客的購(gòu)買記錄進(jìn)行關(guān)聯(lián)、序列分析。
1) 查看哪些商品會(huì)一起購(gòu)買(針對(duì)關(guān)聯(lián)模型創(chuàng)建預(yù)測(cè)查詢)
首先在挖掘模型對(duì)話框中點(diǎn)擊“選擇模型”,選擇ZT下的User,點(diǎn)擊“確定”按鈕,在下面網(wǎng)格中“源”處,選擇“預(yù)測(cè)函數(shù)”,在“字段”處選擇“PredictAssociation”,將挖掘模型中的myorder托放到條件/參數(shù)中,并在后添加,3,點(diǎn)擊“結(jié)果”。
2) 給定一種商品或兩種商品,查看和它一起購(gòu)買的商品以及一起購(gòu)買此商品的概率(向單獨(dú)預(yù)測(cè)查詢添加輸入和概率)
單擊“單獨(dú)查詢按鈕”,在單獨(dú)查詢輸入中添加“C語言”,挖掘模型也選擇ZT下的User,在下面網(wǎng)格中“源”處,選擇“預(yù)測(cè)函數(shù)”,在“字段”處選擇“PredictAssociation”,將挖掘模型中的myorder托放到條件/參數(shù)中,并在后添加include_statistics6,點(diǎn)擊“結(jié)果”。
4 結(jié)束語
本文以網(wǎng)上書店為平臺(tái),介紹顧客購(gòu)書訂單模塊的數(shù)據(jù)庫(kù)的設(shè)計(jì),并用SQL Server 2005的Business intelligence development studio對(duì)商務(wù)網(wǎng)站交易數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,發(fā)現(xiàn)被顧客購(gòu)買的商品之間的關(guān)聯(lián),為商品導(dǎo)購(gòu)提供數(shù)據(jù)支持。
參考文獻(xiàn):
[1] 馬剛.關(guān)聯(lián)規(guī)則挖掘在電子商務(wù)中的研究與應(yīng)用[D].上海:上海交通大學(xué),2008:40-44.
[2] 魏建香,馮春輝.SQL Server 數(shù)據(jù)庫(kù)應(yīng)用技術(shù)[M].北京:中國(guó)計(jì)劃出版社,2007:8-9.
[3] 謝邦昌.商務(wù)智能與數(shù)據(jù)挖掘 Microsoft SQL Server應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2008:35-40.
[4] 左鳳朝.基于 Web 的數(shù)據(jù)庫(kù)訪問技術(shù)探析[J].計(jì)算機(jī)工程與應(yīng)用,2005,52(15).
[5] John H.Heinrichs,Jeen-Su Lim.Integrating Web-based Data Mining Tools with Business Models for Knowledge Management[J].Decision Support Systems,2003,35.endprint