【摘要】決策樹作為數據挖掘技術中一種重要的分類研究方法,其出色的數據分析效率、直觀易懂的結果展示,倍受廣大用戶的青睞。在此過程中,往往需要借助一些數據挖掘工具如:SAS的Enterprise Miner。本文對基于SAS的決策樹方法的行業(yè)應用進行綜述。
【關鍵詞】SAS 數據挖掘 決策樹
一、前言
隨著科學技術飛速的發(fā)展,在各個領域產生了大量的數據,如人類對太空的探索,銀行每天的巨額交易數據。怎么樣從這大量數據中挖掘有價值的信息,成為了巨大的挑戰(zhàn),數據挖掘就是在這種情況下應運而生的。
在數據挖掘的過程中,往往需要借助一些數理統(tǒng)計分析工具。SAS工具具有完備的數據訪問、管理、分析、呈現及應用開發(fā)功能,并能運用統(tǒng)計分析、時間序列、運籌決策等科學方法進行質量控制、財務管理、生產優(yōu)化、風險管理、市場調查和預測。
二、相關知識
(一)SAS/EM數據挖掘方法論
SAS/EM是SAS軟件包中的一個組件,是一個圖形化界面、菜單驅動的、拖拉式操作、對用戶非常友好且功能強大的數據挖掘集成環(huán)境。SAS的數據挖掘方法論是SEMMA,其包括5個步驟:Sample(數據抽樣)、Explore(數據探索)、Modify(數據修改)、Model(建立模型)、Assess(模型評估)。
(二)決策樹原理及相關算法
決策樹(Decision Tree)是一種主要解決實際應用中分類問題的數據挖掘方法。其基本思路是找出最有分辨能力的屬性,把數據劃分為許多子集(對應樹的一個分枝),構成一個分枝過程,然后對每一子集遞歸調用分枝過程,直到所有子集包含同一類型的數據。
目前比較流行的決策樹算法主要有C4.5、CART、CHAID,其中較常用的C4.5算法是通過SAS/EM工具,根據數據的特點建立相應的函數來盡可能地正確分類所有的觀察。
從表2.1我們可以看出:所列出的軟件盡管都具有決策樹功能,但各個軟件所采用的算法又各有所側重,以便其在同類軟件的比較和競爭中具有一定的優(yōu)勢。通過上面的比較來看Enterprise Miner、Mine Set擁有較為全面的決策樹算法。
三、國內外文獻綜述
(一)醫(yī)療衛(wèi)生領域
數據挖掘是近年來剛剛興起的一門新技術,國外已有不少成功應用的案例,但其在醫(yī)療衛(wèi)生領域的應用尚處于起步階段。
侯曉智(2004)[1]運用數據挖掘工具SAS Enterprise Miner,利用決策樹技術建立模型,研究了數據挖掘在肝膽惡性腫瘤單病種醫(yī)療費用方面的應用。朱寶(2012)[2]利用SAS9.1進行決策樹分析,構建病例組合模型,找到控制重點,為今后制定醫(yī)療費用控制政策提供依據。陳龍(2014)[3]利用SAS軟件的決策樹模型,對高血壓患者住院費用進行DRGs分組的方法學探索,得出在當地進行DRGs的相關研究總體上可行的結論。
(二)客戶流失問題
客戶流失,指某企業(yè)現有的客戶中止繼續(xù)購買其商品或服務,轉而購買其競爭對手的商品或服務。據統(tǒng)計電信運營商每年高達35%~50%的客戶流失,造成約數百億美元的經濟損失;而獲取1位新客戶的成本是保留1位老客戶的5~6倍。因此,國內外學者對客戶流失問題展開了大量研究。
Chiu-Ping Wei(2002)[4]開發(fā)了以決策樹方法為基礎、可以在合同水平上識別潛在流失者的分類組合預測技術;熊國民(2014)[5]以分析決策樹等理論和分類為原則,運用SAS9.2進行Logistic 逐步回歸運算,得出流失概率值,從中選取部分客戶為預測流失概率值較大的作為最終流失客戶。毛躍霖(2015)[6]通過研究客戶流失預測算法在其他行業(yè)中的應用情況,創(chuàng)新的設計了決策樹與LOGISTIC回歸模型相結合的方法對汽車服務企業(yè)進行建模,在SAS挖掘平臺下建立了流失預測模型。
(三)銀行客戶信用評分問題
信用評分法將借款人的特征進行量化,形成一套指標體系,克服了主觀隨意性的風險?,F代信用評分廣泛運用統(tǒng)計學、運籌學、決策樹、神經網絡等技術,不斷提高信用評分的精度。
在國外學者的研究中,Makowski(1985)第一次將決策樹算法應用于個人信用評分。近來,Lee等(2006)運用決策樹技術研究最小化信用風險問題。
國內對信用評分的研究也經歷了從定性到定性和定量相結合的過程。姜明輝(2003)[7]較早引入決策樹技術應用于個人信用評估。趙靜嫻等(2009)[8]把神經網絡技術和決策樹方法相結合,提高了信用評估的效率和客觀性。
隨著農村金融的重要性日益突出,在信用風險評估的研究中,以農戶小額信用貸款為研究對象的居多。蔡麗艷等(2011)[9]把決策樹算法引入到農戶小額貸款信用風險評估中,構建評估模型并對信用評估模型進行實證。沈術(2013)[10]運用決策樹算法,利用SAS Enterprise Miner,采用“SEMMA”方法,將傳統(tǒng)信用評級的定量指標由占比不到70%提高到94%,大大提升了農戶信用評級的精確度。
四、總結與思考
基于SAS的決策樹分析方法的實際應用于醫(yī)療衛(wèi)生領域,以及解決關于客戶流失、產品的精確營銷、銀行客戶信用評分等問題有很光明的前途。但綜其全文,不難發(fā)現還有以下地方需要進一步的完善:
(1)決策樹算法有待進一步改進。比如充分利用領域知識去除無關數據,或者利用領域知識進一步精煉所發(fā)現的模式,從而設計出更理想的知識算法,提高數據挖掘的效率。
(2)分類模型有待進一步研究。在應用領域的數據庫中,數據大多數是隨時間變化的。一般所建的模型僅僅依據當前數據進行預測,并不能從時間維度上預測一些重要的變化趨勢,這一步需要運用時間序列挖掘算法,因此值得我們進一步的研究。
(3)挖掘結果的提取。在對模型結果提取規(guī)則的時候,因對業(yè)務知識不熟悉,對挖掘結果的提取不能很好的完成。如果能提高系統(tǒng)對知識自動評估的能力,盡可能采用圖形表示、有向非循環(huán)圖結構的規(guī)則、自然語言生成以及數據和知識的可視化技術,提高挖掘的可理解性,自然對結果的提取也就相應提高了。
參考文獻
[1]侯曉智.基于數據挖掘技術的上海市肝膽腫瘤病例住院費用研究[D].第二軍醫(yī)大學,2004,7.
[2]朱寶.天津市糖尿病患者住院費用及病例組合研究[D].天津醫(yī)科大學,2012.
[3]陳龍.石河子地區(qū)高血壓患者DRGs分組研究[D].石河子大學,2014.
[4]Wei C P,Chiu IT.Turning telecommunications call details to churn prediction:a data mining approach[J].Expert Systems with Applications,2002,23:103-112.
[5]熊國民.基于SVM的商業(yè)銀行客戶流失預測[D].鄭州大學,2014,4.
[6]毛躍霖.汽車服務企業(yè)客戶流失預測模型的分析與應用[D].東華大學,2015.
[7]姜明輝,姜磊,王雅林.線性判別式分析在個人信用評估中的應用[J].管理觀察,2003,(1):200-203.
[8]趙靜嫻,杜子平.基于神經網絡和決策樹相結合的信用風險評估模型研究[J].北京理工大學學報,2009,(1):76-79.
[9]蔡麗艷,馮憲彬,丁蕊.基于決策樹的農戶小額貸款信用評估模型研究[J].安徽農業(yè)科學,2011,(02):1215-1217.
[10]沈術.決策樹算法在農村信用社農戶信用評級中的應用[D].湖南大學,2013,10.
作者簡介:王拓榮(1991-),女,漢族,河南新鄉(xiāng)人,就讀于首都經濟貿易大學,研究方向:業(yè)務流程管理、數據挖掘。endprint