王 億,徐 偉
(黑龍江職業(yè)學(xué)院,哈爾濱 150080)
決策樹是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。它提供一種在什么條件下會得到什么值的類似規(guī)則的方法。構(gòu)造決策樹的過程為:首先尋找初始分裂。決定哪個屬性域作為目前最好的分類指標(biāo)。一般的做法是窮盡所有的屬性域,對每個屬性域分裂的好壞做出量化,計算出最好的一個分裂。建決策樹,就是根據(jù)記錄字段的不同取值建立樹的分支,以及在每個分支子集中重復(fù)建立下層結(jié)點(diǎn)和分支。
由于現(xiàn)實(shí)世界中某些事物的屬性是很相近的,如果按照清晰的標(biāo)準(zhǔn)把它們分到不同的類別,可能會造成信息的丟失。例如:當(dāng)“車載重量”低于100時,認(rèn)為是“輕”,而高于100低于200時,則認(rèn)為是“中”,那么當(dāng)重量是臨界值的時候,用模糊的方法更適合。模糊綜合評判的過程包括:綜合考慮各種屬性,建立被評判對象的因素集;建立評判集,即評價的等級和評語;建立單因素評判,即對實(shí)際對象的因素集中的屬性運(yùn)用評判集進(jìn)行評價;根據(jù)實(shí)際情況,賦予不同因素以不同的權(quán)重;根據(jù)權(quán)重和單因素評判結(jié)果得出綜合評判的結(jié)果。
清晰算法是一種典型的決策樹歸納算法,這種算法在假定示例的屬性值和分類值是確定的前提下,使用信息熵作為啟發(fā)式建立一棵清晰的決策樹。針對現(xiàn)實(shí)世界中存在的不確定性,人們提出了另一種決策樹歸納算法,即模糊決策樹算法,它是清晰決策樹算法的一種推廣。這兩種算法在實(shí)際應(yīng)用中各有自己的優(yōu)劣之處,針對一個具體問題的知識獲取過程,選取哪一種算法目前還沒有一個較明確的依據(jù)。
清晰決策樹(CDT)知識表示可理解性差,沒有考慮現(xiàn)實(shí)中分類的不確定性,生成樹概括能力差,對空間的劃分過于細(xì)致,不易推廣。產(chǎn)生的知識具有一定的偏差,易受噪音影響,易產(chǎn)生過于適合現(xiàn)象。模糊決策樹(FDT)知識表示可理解性強(qiáng),充分考慮現(xiàn)實(shí)中分類的不確定性,生成樹的概括能力強(qiáng),對空間劃分適中,易于推廣。產(chǎn)生的知識表達(dá)較為準(zhǔn)確,抗噪音能力強(qiáng),避免產(chǎn)生過于適合現(xiàn)象。
CDT適用于符號值屬性和分類較清晰、噪音小的中小型數(shù)據(jù)庫。FDT適用于各種情況的數(shù)據(jù)庫,特別是對屬性和類模糊性強(qiáng),有噪音的數(shù)據(jù)庫。對模糊決策樹算法的評價決策樹對比神經(jīng)元網(wǎng)絡(luò)的優(yōu)點(diǎn)在于可以生成一些規(guī)則。當(dāng)進(jìn)行一些決策時,還需要相應(yīng)的理由的時候,使用神經(jīng)元網(wǎng)絡(luò)就不行了。
總之,在決策樹的算法當(dāng)中,模糊決策樹更符合現(xiàn)實(shí)世界,具有更廣泛的應(yīng)用空間。
在完成一個挖掘算法之后,常常會獲得成百上千的模式或規(guī)則。顯然這些規(guī)則中會有一小部分是有實(shí)際應(yīng)用價值的。那么如何對數(shù)據(jù)挖掘所獲得的挖掘結(jié)果進(jìn)行有效地評估,以便最終能夠獲得有價值的模式(規(guī)則)知識,這就給數(shù)據(jù)挖掘提出了許多需要解決的問題。
1.使一個模式有價值的因素是什么?評估一個模式(知識)是否有意義通常依據(jù)以下四條標(biāo)準(zhǔn):一是易于用戶理解;二是對新數(shù)據(jù)或測試數(shù)據(jù)能夠確定有效程度;三是具有潛在價值;四是新奇的。一個有價值的模式就是知識。
2.一個數(shù)據(jù)挖掘算法能否產(chǎn)生所有有價值的模式(知識)?這是指數(shù)據(jù)挖掘算法的完全性。期望數(shù)據(jù)挖算法能夠產(chǎn)生所有可能模式是不現(xiàn)實(shí)的。實(shí)際上一個模式搜索方法可以利用有趣性評價標(biāo)準(zhǔn)來幫助縮小模式的搜索范圍。因此通常只需要保證挖掘算法的完全性就可以了。
3.一個數(shù)據(jù)挖掘算法能否只產(chǎn)生有價值的模式?解釋評估所挖掘模式的趣味性標(biāo)準(zhǔn)對于有效挖掘出具有應(yīng)用價值的模式知識是十分重要的。這些標(biāo)準(zhǔn)可以直接幫助指導(dǎo)挖掘算法,獲取有實(shí)際應(yīng)用價值的模式知識,以及摒棄無意義的模式。更為重要的是這些模式評估標(biāo)準(zhǔn)將積極指導(dǎo)整個知識發(fā)現(xiàn)過程,通過及時清除無前途的搜索路徑,提高挖掘的有效性。判斷分類的好壞一般可從如下指標(biāo)進(jìn)行考慮:預(yù)測準(zhǔn)確率、速度、創(chuàng)建速度、使用速度、處理噪聲和丟失值、伸縮性、對磁盤駐留數(shù)據(jù)的處理能力、可解釋性、對模型的可理解性、規(guī)則好壞的評價、決策樹的大小和分類規(guī)則的簡明性。
其中預(yù)測準(zhǔn)確度是用得最多的一種比較尺度,特別是對于預(yù)測分類任務(wù)而言,目前公認(rèn)的方法是分層交叉驗(yàn)證的損失函數(shù)方法。交叉驗(yàn)證是一種模型評估方法。分類是有監(jiān)督學(xué)習(xí),通過學(xué)習(xí)可以對未知的數(shù)據(jù)進(jìn)行預(yù)測。在訓(xùn)練過程開始之前,將一部分?jǐn)?shù)據(jù)予以保留,在訓(xùn)練之后,利用這部分?jǐn)?shù)據(jù)對學(xué)習(xí)的結(jié)果進(jìn)行驗(yàn)證,這種模型評估方法為交叉驗(yàn)證。兩分法是交叉驗(yàn)證最易用的方法,數(shù)據(jù)集被分為兩個獨(dú)立的子集,稱為訓(xùn)練集及測試集,有時也稱為正集與反集,二分法交叉驗(yàn)證工作原理如圖1所示。
圖1 二分法交叉驗(yàn)證工作原理
通過二分法交叉驗(yàn)證,生成驗(yàn)證過后的有意義的決策樹數(shù)據(jù)表,以備知識表示的相對正確性。
以上各步的目的就是利用生成的規(guī)則來預(yù)測測試集中的未知數(shù)據(jù)是屬于哪一分類,并通過測試結(jié)果與實(shí)際情況相吻合的準(zhǔn)確率來判斷該決策樹是否有效,如果準(zhǔn)確率達(dá)到或超過預(yù)先確定的閾值,則認(rèn)為所建立的決策樹模型是有效的,能夠應(yīng)用于實(shí)際工作,否則該模型的分類效果不好,需要重新選定訓(xùn)練集生成新的決策樹,并繼續(xù)利用準(zhǔn)確率來判斷該決策樹模型的優(yōu)劣,直到準(zhǔn)確率達(dá)到預(yù)定的閾值為止。本模型準(zhǔn)確性評估如圖2所示。
圖2 模型準(zhǔn)確性評估的示意圖
在研究的過程中,經(jīng)過調(diào)研及專業(yè)分析,確定的準(zhǔn)確率閾值為84%,經(jīng)過對模型測試,其準(zhǔn)確率達(dá)到了89%,超過預(yù)定的準(zhǔn)確率閾值,能夠滿足用戶需求。
1.確定挖掘?qū)ο?、目?biāo)。清晰地定義出挖掘?qū)ο螅鞔_目標(biāo)是數(shù)據(jù)挖掘的重要一步。明確目標(biāo)就是定義分析的目的,要弄清所分析的現(xiàn)象并不總是容易的。一般情況下,各個系統(tǒng)的目標(biāo)是明確的,但是潛在的問題很難轉(zhuǎn)化為分析需要的具體目標(biāo)。對問題和目標(biāo)的明確描述是正確建立分析的先決條件,此時確定的目標(biāo)決定后面的方法如何組織,因此挖掘的對象和目標(biāo)一定要明確。
2.數(shù)據(jù)的收集。根據(jù)確定的數(shù)據(jù)分析對象抽象出在數(shù)據(jù)分析中所需要的特征信息,然后選擇合適的信息收集方法,將收集的信息存入到數(shù)據(jù)庫中。
3.數(shù)據(jù)預(yù)處理。對收集的數(shù)據(jù)進(jìn)行清理。因?yàn)樵跀?shù)據(jù)庫中的數(shù)據(jù)一般是不完整的、含噪聲的、不一致的,因此在這個階段中需要對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行清理,對數(shù)據(jù)進(jìn)行檢查,保證數(shù)據(jù)的完整性和數(shù)據(jù)的一致性,除去噪聲,填補(bǔ)丟失的域,刪除無效數(shù)據(jù)等,將完整、正確、一致的數(shù)據(jù)信息存入到數(shù)據(jù)庫中。
4.數(shù)據(jù)轉(zhuǎn)換。將選取的數(shù)據(jù)轉(zhuǎn)換成一個分析模型,建立一個真正適合挖掘算法的分析模型,不同的挖掘算法可能采用不同的分析數(shù)據(jù)模型。
5.分類挖掘知識和信息。目的是根據(jù)系統(tǒng)要實(shí)現(xiàn)的功能和任務(wù)來確定挖掘的分類模型。選擇合適的數(shù)據(jù)挖掘技術(shù)及算法,并使用適當(dāng)?shù)某绦蛟O(shè)計語言來實(shí)現(xiàn)該算法,在凈化和轉(zhuǎn)換過的數(shù)據(jù)集上進(jìn)行挖掘,得到有用的分析信息。
6.知識的表示——生成分類規(guī)則。將數(shù)據(jù)挖掘得到的分析信息進(jìn)行解釋和評價,生成分類規(guī)則呈現(xiàn)出來。
7.知識的應(yīng)用。將分析得到的規(guī)則應(yīng)用到日常管理中,管理人員可以利用所得到的知識改進(jìn)管理方法,調(diào)整管理策略,提高管理水平。