遼寧對外經(jīng)貿(mào)學(xué)院 欒 陽
在當(dāng)今的人工智能領(lǐng)域之中,數(shù)據(jù)挖掘技術(shù)被稱為知識發(fā)現(xiàn)或數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD),也有人把數(shù)據(jù)挖掘技術(shù)視為是從數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個(gè)基本步驟。數(shù)據(jù)挖掘技術(shù)是一個(gè)從大量數(shù)據(jù)中抽取挖掘出未知的、有價(jià)值的模式或規(guī)律等知識的非平凡過程,因此它與數(shù)據(jù)倉庫有著密切的聯(lián)系。
圖1 數(shù)據(jù)挖掘系統(tǒng)原型
數(shù)據(jù)挖掘的分析方法大致有兩大種類。一類是直接數(shù)據(jù)挖掘,其目標(biāo)是利用可用的數(shù)據(jù)建立一個(gè)模型,這個(gè)模型對一個(gè)特定的變量(可以理解成數(shù)據(jù)庫中表的屬性,即列)進(jìn)行描述;另一類是間接數(shù)據(jù)挖掘,其目標(biāo)中沒有選出某一具體的變量來用模型進(jìn)行描述,而是在所有的變量中建立起某種關(guān)系。上面的分類、估值、預(yù)言屬于直接數(shù)據(jù)挖掘,后三種屬于間接數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的分析方法大致可分為以下幾種:
分類(Classification)。從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對于沒有分類的數(shù)據(jù)進(jìn)行分類。
例子:信用卡申請者,分類為低、中、高風(fēng)險(xiǎn)。
估值(Estimation)。估值與分類十分相似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類的類別是確定數(shù)目的,估值的量是不確定的。
例子:
a.根據(jù)購買模式,估計(jì)一個(gè)家庭孩子個(gè)數(shù)。
b.根據(jù)購買模式,估計(jì)一個(gè)家庭的收入。
c.估計(jì)real estate的價(jià)值。
預(yù)言(Prediction)。預(yù)言是通過分類或估值起作用的。及先通過分類或估值得出模型,然后再用該模型對未知變量的預(yù)言。
例子:海南航空引入領(lǐng)先的數(shù)據(jù)挖掘工具馬克威分析系統(tǒng),分析客流、燃油等變化趨勢,以航線收益為主題進(jìn)行數(shù)據(jù)挖掘,制定精細(xì)的銷售策略,有效提高了企業(yè)收益。
相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)。決定哪些事情將一起發(fā)生。
例子:
a.超市中客戶在購買A的同時(shí),經(jīng)常會購買B,即A=>B(關(guān)聯(lián)規(guī)則)。
b.客戶在購買A后,隔一段時(shí)間,會購買B(序列分析)。
聚集(Clustering)。聚集是對記錄分組,把相似的記錄在一個(gè)聚集里。聚集和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。
例子:
a.一些特定癥狀的聚集可能預(yù)示了一個(gè)特定的疾病。
b.租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群。
描述和可視化(Description and Visualization)。是對數(shù)據(jù)挖掘結(jié)果的表示方式。
在技術(shù)方面,根據(jù)數(shù)據(jù)挖掘的工作過程可分為數(shù)據(jù)的抽取、數(shù)據(jù)的存儲和管理、數(shù)據(jù)的展現(xiàn)。
數(shù)據(jù)的抽取:數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉庫的入口。數(shù)據(jù)的存儲和管理:數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)的展現(xiàn):在數(shù)據(jù)展現(xiàn)方面主要的方式有:
查詢:實(shí)現(xiàn)預(yù)定義查詢、動態(tài)查詢、OLAP查詢與決策支持智能查詢。
報(bào)表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報(bào)告以及各種綜合報(bào)表。
可視化:用易于理解的點(diǎn)線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動態(tài)模擬、計(jì)算機(jī)動畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系。
統(tǒng)計(jì):進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計(jì)分析。
挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的識。
首先應(yīng)識別潛在客戶,然后將他們轉(zhuǎn)化為客戶這時(shí)可以采用DM中的分類方法。首先是通過對數(shù)據(jù)庫中各數(shù)據(jù)進(jìn)行分析,從而建立一個(gè)描述已知數(shù)據(jù)集類別或概念的模型,然后對每一個(gè)測試樣本,用其已知的類別與學(xué)習(xí)所獲模型的預(yù)測類別做比較,如果一個(gè)學(xué)習(xí)所獲模型的準(zhǔn)確率經(jīng)測試被認(rèn)可,就可以用這個(gè)模型對未來對象進(jìn)行分類??蛻舯A魟t是留住老顧客,防止客戶流失的過程。對企業(yè)來說,獲取一個(gè)新顧客的成本要比保留一個(gè)老顧客的成本高。在保留客戶的過程中,非常重要的一個(gè)工作就是要找出顧客流失的原因。
客戶的忠誠意味著客戶不斷地購買公司的產(chǎn)品或服務(wù)。數(shù)據(jù)挖掘在客戶忠誠度分析中主要是對客戶持久性,牢固性和穩(wěn)定性進(jìn)行分析。比如大型超市通過會員的消費(fèi)信息,如最近一次消費(fèi),消費(fèi)頻率、消費(fèi)金額三個(gè)指標(biāo)對數(shù)據(jù)進(jìn)行分析,可以預(yù)測出顧客忠誠度的變化,據(jù)此對價(jià)格、商品的種類以及銷售策略加以調(diào)整和更新,以便留住老顧客,吸引新顧客。
數(shù)據(jù)挖掘技術(shù)可以用來分析和預(yù)測不同市場活動情況下客戶盈利能力的變化,幫助企業(yè)制定合適的市場策略。商業(yè)銀行一般會利用數(shù)據(jù)挖掘技術(shù)對客戶的資料進(jìn)行分析。找出對提高企業(yè)盈利能力最重要的客戶。進(jìn)而進(jìn)行針對性的服務(wù)和營銷。
隨著社會的不斷進(jìn)步,信息技術(shù)的不斷發(fā)展,企業(yè)將面臨越來越多的挑戰(zhàn),而傳統(tǒng)的訂單管理系統(tǒng)已經(jīng)不能滿足現(xiàn)在飛速發(fā)展的社會的需要。在這種壓力之下,各個(gè)企業(yè)都希望有一個(gè)更好的系統(tǒng)來對企業(yè)的客戶和訂單進(jìn)行管理,并且盡可能的發(fā)揮出數(shù)據(jù)的有用價(jià)值。從而,我們的基于數(shù)據(jù)挖掘技術(shù)的客戶訂單管理系統(tǒng)應(yīng)運(yùn)而生。作為一個(gè)客戶訂單管理系統(tǒng),它首先要有客戶管理模塊來對企業(yè)的客戶進(jìn)行管理,還需要一個(gè)訂單管理模塊來對客戶下的訂單進(jìn)行管理。在這基礎(chǔ)上,系統(tǒng)中數(shù)據(jù)挖掘模塊,來對企業(yè)的客戶數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,從未知的數(shù)據(jù)當(dāng)中發(fā)掘出有用的數(shù)據(jù),從而盡可能的提高企業(yè)在當(dāng)今社會中的生存能力。
在系統(tǒng)中包含了四個(gè)功能模塊,它們分別是:客戶管理模塊、訂單管理模塊、數(shù)據(jù)挖掘模塊和系統(tǒng)管理模塊,以及密碼修改、軟件鎖定和退出系統(tǒng)三個(gè)快捷按鈕。
其中文件菜單下包括數(shù)據(jù)庫連接、注銷和退出三個(gè)子菜單;客戶管理菜單下包括客戶信息的添加、修改、查詢和刪除四個(gè)子菜單;訂單管理菜單下包括訂單的查詢、添加、修改、刪除和維護(hù)五個(gè)子菜單;系統(tǒng)管理菜單下面包括數(shù)據(jù)導(dǎo)出和用戶管理兩個(gè)子菜單;密碼修改、軟件鎖定和退出系統(tǒng)三個(gè)按鈕分別可以進(jìn)行當(dāng)前用戶的密碼修改,軟件的臨時(shí)鎖定和退出系統(tǒng)。
系統(tǒng)利用數(shù)據(jù)挖掘進(jìn)行客戶盈利能力分析和預(yù)測,所采用的工具是著名的SAS Enterprise Miner 9.2,這是一種在我國的企業(yè)中廣泛使用的數(shù)據(jù)挖掘工具。SAS Enterprise Miner是一種通用的數(shù)據(jù)挖掘工具,按照“抽樣—探索—轉(zhuǎn)換—建模—評估”的方法進(jìn)行數(shù)據(jù)挖掘。可以與SAS數(shù)據(jù)倉庫和OLAP集成,實(shí)現(xiàn)從提出數(shù)據(jù)、抓住數(shù)據(jù)到得到解答的“端到端”知識發(fā)現(xiàn)。SAS軟件是模塊式結(jié)構(gòu),最常用的3個(gè)模塊分別是SAS/BASE(基礎(chǔ))、SAS/STAT(統(tǒng)計(jì))和SAS/GRAPH(圖形),還有SAS/ETS(預(yù)測)、SAS/IML(矩陣運(yùn)算)和SAS/QC(質(zhì)量控制)等約20個(gè)模塊。這些模塊可單獨(dú)使用、也可互相配合起來使用。
數(shù)據(jù)導(dǎo)入:常用的導(dǎo)入和導(dǎo)出數(shù)據(jù)格式包括:文本文件(txt格式)、純數(shù)據(jù)文件(dat格式)、EXCEL文件(xls格式)、ACCESS文件(mdb格式)。
數(shù)據(jù)分析:最簡單的SAS程序由一個(gè)SAS數(shù)據(jù)步(SAS DATA STEP)和一個(gè)SAS過程步(SAS PROCEDURESTEP)兩部分組成。數(shù)據(jù)步以DATA語句開頭,其作用是建立SAS數(shù)據(jù)集(SAS DATA SET)。具體地說,就是建立起變量與數(shù)據(jù)之間的聯(lián)系,使數(shù)據(jù)能方便地被SAS過程所利用;過程步以PROC語句開頭,其作用是激活SAS過程。
數(shù)據(jù)導(dǎo)出:分析完成后,選擇文件/導(dǎo)出數(shù)據(jù),輸入要導(dǎo)出的文件邏輯名稱和數(shù)據(jù)文件名稱后選擇導(dǎo)出的格式,下一步輸入導(dǎo)出的路徑和文件的名稱。最后進(jìn)入SAS Wizard界面,對輸出的table命名,點(diǎn)擊finish完成。通過“客戶分析”把SAS的分析結(jié)果導(dǎo)入到該系統(tǒng)中,客戶分析界面如圖2所示。
圖2 客戶分析圖
近年來,以互聯(lián)網(wǎng)為代表的計(jì)算機(jī)信息技術(shù)的迅速普及,使人們的生活條件和社會環(huán)境發(fā)生了巨大的變化。大量的數(shù)據(jù)庫被廣泛的應(yīng)用于企業(yè)管理,科學(xué)研究,電子商務(wù),金融預(yù)測,商品零售,醫(yī)藥化工,政府辦公以及工程開發(fā)等社會生活的各個(gè)領(lǐng)域,并且這一趨勢仍將繼續(xù)。
運(yùn)用數(shù)據(jù)挖掘技術(shù)和基于客戶訂單管理的相關(guān)理論,建立基于數(shù)據(jù)挖掘技術(shù)的客戶訂單管理框架,在客戶訂單管理系統(tǒng)的實(shí)現(xiàn)中融入數(shù)據(jù)挖掘技術(shù),使得系統(tǒng)在對數(shù)據(jù)訪問、數(shù)據(jù)分析和制定決策方面為用戶提供更強(qiáng)大的服務(wù),提高系統(tǒng)的可用性。鑒于客戶訂單系統(tǒng)解決方案建立在企業(yè)原有數(shù)據(jù)庫系統(tǒng)之上,通過分析各種數(shù)據(jù)之間的關(guān)聯(lián),針對不同的客戶建立不同的聯(lián)系,最大化挖掘訂單價(jià)值,為企業(yè)管理層提供正確的決策支持,提升企業(yè)的競爭能力和盈利能力。因此,客戶訂單管理系統(tǒng)的建設(shè)對于企業(yè)的發(fā)展有重大意義。充分利用企業(yè)的訂單數(shù)據(jù)資源,與數(shù)據(jù)挖掘技術(shù)相結(jié)合,從大量的數(shù)據(jù)中抽取有用的商業(yè)信息,實(shí)現(xiàn)經(jīng)營管理中的決策支持,從而提高客戶訂單管理系統(tǒng)的時(shí)效性。
[1]金周銀.服裝企業(yè)度身定制的客戶訂單管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].工業(yè)控制計(jì)算機(jī),2010(3):15-18.
[2]段曉華.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)客戶關(guān)系管理中的應(yīng)用研究[J].湖南文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2010(2):35-38.
[3]戴宏欽.基于CRM的訂單管理系統(tǒng)[J].電腦開發(fā)與應(yīng)用,2008(11):46-48.
[4]季明.客戶訂單項(xiàng)目的工作結(jié)構(gòu)及企業(yè)組織結(jié)構(gòu)[J].工業(yè)工程與管理.2007(增刊):34-37.
[5]DaimlerChrysler Corporation.Cross Industry Standard Process for Data Mining,2007(7):18-22.