摘要:針對(duì)一個(gè)從模擬局域網(wǎng)中獲取的數(shù)據(jù)集,設(shè)計(jì)并實(shí)現(xiàn)了一種基于決策樹(shù)的連接類(lèi)型預(yù)測(cè)工具;在一般決策樹(shù)歸納算法的基礎(chǔ)上,根據(jù)訓(xùn)練數(shù)據(jù)集的統(tǒng)計(jì)特征進(jìn)行了預(yù)處理、改進(jìn)和優(yōu)化;對(duì)訓(xùn)練所得分類(lèi)模型的準(zhǔn)確率進(jìn)行了評(píng)估,并通過(guò)實(shí)驗(yàn)考察了訓(xùn)練數(shù)據(jù)集大小和屬性選擇度量對(duì)結(jié)果的影響;也考慮了輸入的測(cè)試數(shù)據(jù)存在的一些異常情況及解決辦法。
關(guān)鍵詞:決策樹(shù);分類(lèi);增益;入侵檢測(cè)
引言
分類(lèi)(data classmcaIion)是數(shù)據(jù)挖掘中對(duì)大量數(shù)據(jù)進(jìn)行分析的一種常用手段。數(shù)據(jù)分類(lèi)分兩步:第一步,建立模型,描述預(yù)定的數(shù)據(jù)類(lèi)集或概念集;第二步,使用模型進(jìn)行分類(lèi)。
數(shù)據(jù)分類(lèi)中的基本技術(shù)包括決策樹(shù)歸納、貝葉斯分類(lèi)和貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)等,其他分類(lèi)方法還有k一最臨近分類(lèi)、基于案例的推理、遺傳算法、粗糙集和模糊邏輯技術(shù)等。對(duì)分類(lèi)方法進(jìn)行比較和評(píng)估的標(biāo)準(zhǔn)有預(yù)測(cè)的準(zhǔn)確率、速度、強(qiáng)壯性、可伸縮性和可解釋性等。