許 智, 李紅嬌, 陳晶晶
(上海電力學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 上海 200090)
基于機(jī)器學(xué)習(xí)的用戶(hù)竊電行為預(yù)測(cè)
許 智, 李紅嬌, 陳晶晶
(上海電力學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 上海 200090)
新型智能電表普及后,為了準(zhǔn)確檢測(cè)出電網(wǎng)中的竊電用戶(hù),可以結(jié)合機(jī)器學(xué)習(xí)的方法.為此,選擇了支持向量機(jī)、隨機(jī)森林和迭代決策樹(shù)3種機(jī)器學(xué)習(xí)中較常用的大數(shù)據(jù)算法進(jìn)行分析,通過(guò)不斷調(diào)整試驗(yàn)數(shù)據(jù)集的大小,對(duì)3種算法的效率和準(zhǔn)確率進(jìn)行測(cè)試.對(duì)比分析結(jié)果發(fā)現(xiàn),隨機(jī)森林算法運(yùn)行的時(shí)間和數(shù)據(jù)量的大小基本呈線(xiàn)性關(guān)系,效率較高,且準(zhǔn)確率穩(wěn)定在86%以上,表現(xiàn)較好.
竊電; 智能電表; 隨機(jī)森林; 支持向量機(jī); 迭代決策樹(shù)
各種竊電行為在社會(huì)上時(shí)有發(fā)生,給電網(wǎng)帶來(lái)很大的損失,電網(wǎng)公司必須對(duì)竊電行為進(jìn)行檢測(cè)并做出預(yù)防.文獻(xiàn)[1]和文獻(xiàn)[2]中對(duì)竊電行為從宏觀上進(jìn)行了詳細(xì)的分類(lèi)和研究,并給出了防止竊電行為的方法.
在電網(wǎng)融合的大趨勢(shì)下,新型智能電表的產(chǎn)生具有重要意義[3]:一是它可以采集更多更精確的數(shù)據(jù),便于進(jìn)一步分析;二是無(wú)線(xiàn)通信技術(shù)的應(yīng)用擺脫了傳統(tǒng)手工抄表帶來(lái)的麻煩[4].這些新的特性一方面為傳統(tǒng)的數(shù)據(jù)處理帶來(lái)挑戰(zhàn),另一方面也使竊電行為進(jìn)一步多樣化、復(fù)雜化,電網(wǎng)公司為了解決這些問(wèn)題必須付出巨大的精力和財(cái)力.
隨著大數(shù)據(jù)時(shí)代的到來(lái),巨大且復(fù)雜的數(shù)據(jù)使分析手段進(jìn)一步提升,機(jī)器學(xué)習(xí)呈現(xiàn)出廣闊的應(yīng)用前景,電網(wǎng)數(shù)據(jù)也在其適用范圍內(nèi)[5].如果利用大數(shù)據(jù)的優(yōu)勢(shì)找到一種方法,可以直接從電網(wǎng)公司的數(shù)據(jù)中進(jìn)行分析,從而對(duì)用戶(hù)是否存在竊電行為做出判斷的話(huà),那么就相當(dāng)于從源頭上解決了該問(wèn)題.
大數(shù)據(jù)分析算法包括分類(lèi)、聚類(lèi)、回歸、關(guān)聯(lián)規(guī)則等幾大類(lèi),每類(lèi)算法實(shí)現(xiàn)的功能各不相同.預(yù)測(cè)用戶(hù)是否存在竊電行為屬于數(shù)據(jù)分類(lèi)問(wèn)題.
用于數(shù)據(jù)分類(lèi)的算法也有許多個(gè),較常用的有k-近鄰算法、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、隨機(jī)森林等.在不同數(shù)據(jù)量和數(shù)據(jù)復(fù)雜度下,各種算法的表現(xiàn)各有優(yōu)劣.
支持向量機(jī)(Support Vector Machine,SVM)是較早應(yīng)用于分類(lèi)問(wèn)題的算法之一,擁有較高的認(rèn)可度,因此選擇該算法進(jìn)行對(duì)比實(shí)驗(yàn).迭代決策樹(shù)(Gradient Boosting Decision Tree,GBDT)在其提出時(shí)就被認(rèn)為是與SVM一樣擁有較好的泛化能力的算法,對(duì)于多維度數(shù)據(jù)的處理表現(xiàn)優(yōu)異,所以選擇該算法進(jìn)行參照對(duì)比.隨機(jī)森林(Random Forest,RF)則是一種較新的算法,能很好地預(yù)測(cè)多達(dá)數(shù)千個(gè)變量的作用,是當(dāng)前非常熱門(mén)的算法之一.選擇這3種各具特色的算法進(jìn)行比較,希望能找出一種適合電網(wǎng)數(shù)據(jù)結(jié)構(gòu)的分析算法.
早在1995年,由Vapnik領(lǐng)導(dǎo)的貝爾實(shí)驗(yàn)室小組基于統(tǒng)計(jì)學(xué)習(xí)理論中的VC理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,提出了一種統(tǒng)計(jì)學(xué)習(xí)理論的新型通用學(xué)習(xí)方法,即為支持向量機(jī)算法[6].
SVM的基本思想是:存在一個(gè)訓(xùn)練樣本{(xi,yi)}(i=1,2,3,…,m),可以被某個(gè)超平面wx+b=0準(zhǔn)確地分類(lèi).其中,xi∈Rn,yi∈{-1,1},m為樣本個(gè)數(shù),Rn為n維實(shí)數(shù)空間.
但實(shí)際情況下,能將訓(xùn)練樣本劃分開(kāi)的超平面可能有很多,此時(shí)定義與不同類(lèi)樣本點(diǎn)距離最大的分類(lèi)超平面叫做最優(yōu)超平面,圖1中wx+b=0表示的就是最優(yōu)超平面.本文算法的目的就是為了找出這樣一個(gè)最優(yōu)超平面對(duì)數(shù)據(jù)進(jìn)行分類(lèi).
圖1 最優(yōu)超平面
在線(xiàn)性不可分的情況下,支持向量機(jī)通過(guò)某種事先選擇的非線(xiàn)性映射(核函數(shù))將輸入變量映射到一個(gè)高維特征空間,在這個(gè)空間中構(gòu)造最優(yōu)分類(lèi)超平面.在高維屬性空間中實(shí)現(xiàn)超平面的分割,避免了在原輸入空間中進(jìn)行非線(xiàn)性曲面的分割計(jì)算.
RF算法可以解決很多因變量Y受到眾多自變量(X1,X2,X3,…,Xk)影響而產(chǎn)生的作用[7].假如因變量Y中有N個(gè)觀察值,其中有k個(gè)與自變量相關(guān),那么在創(chuàng)建分類(lèi)樹(shù)時(shí),RF通過(guò)自助法(bootstrap)重采樣技術(shù),從最初的訓(xùn)練樣本集P中有放回地抽取k個(gè)樣本,生成新的訓(xùn)練集合,再由這些集合生成l個(gè)決策樹(shù)(Decision Tree,DT),形成一個(gè)隨機(jī)構(gòu)成的決策樹(shù)森林,而這些決策樹(shù)之間是沒(méi)有關(guān)聯(lián)的.一般RF算法會(huì)同時(shí)生成幾百到幾千個(gè)分類(lèi)樹(shù),形成森林.當(dāng)有新的樣本進(jìn)入時(shí),森林中的每棵決策樹(shù)都會(huì)對(duì)該樣本屬于哪一類(lèi)做出判斷,然后對(duì)所有的判斷結(jié)果進(jìn)行統(tǒng)計(jì),數(shù)量最多的結(jié)果,就是最終的預(yù)測(cè)結(jié)論[8].
在建立決策樹(shù)的過(guò)程中,需要注意采樣和完全分裂這兩個(gè)過(guò)程.采樣可以分為行采樣和列采樣兩個(gè)部分.
(1) 行采樣過(guò)程 假如有P個(gè)輸入樣本,那么行采樣的個(gè)數(shù)也為P個(gè),在采樣過(guò)程中,使用有放回的采樣方法,可以使算法不容易出現(xiàn)過(guò)擬合.
(2) 列采樣過(guò)程 從M種屬性中選擇出m個(gè)(m< 將經(jīng)過(guò)采樣的數(shù)據(jù)使用完全分裂的方法構(gòu)造決策樹(shù),決策樹(shù)的任一個(gè)葉子節(jié)點(diǎn)都不能再進(jìn)一步劃分.為了能準(zhǔn)確地表示出分裂屬性,使用信息增益和基尼(Gini)指數(shù)這兩個(gè)度量來(lái)表示決策樹(shù)的分裂程度. (1) 信息增益 RF算法模型中樣本分類(lèi)時(shí)的默認(rèn)期望值可以表示為: Y(S1,S2,S3,……,Sm)= ∑pi×log2pii=1,2,3,…,m (1) 式中:Si——數(shù)據(jù)集S中的某個(gè)種類(lèi),i=1,2,3,…,m; pi——第i類(lèi)樣本出現(xiàn)的概率,pi=|si/s|. 分類(lèi)時(shí)Y(S1,S2,S3,……,Sm)越小,表示這樣分類(lèi)的效果越明顯,所以在選擇分裂屬性時(shí),應(yīng)將具有最大信息增益的屬性作為分裂屬性. (2) 基尼指數(shù) 若集合T包含N個(gè)類(lèi)別的記錄,那么Gini指標(biāo)就是pj類(lèi)別j出現(xiàn)的頻率,如果集合T分成m個(gè)部分,即N1,N2,N3,…,Nm,且每個(gè)部分出現(xiàn)的概率是:p1,p2,p3,…,pm,那么這個(gè)分割的Gini就是: G=sumpi(1-pi)=1-sumpipi (2) 選擇分裂屬性時(shí),遍歷完所有的分類(lèi)屬性后,優(yōu)先選擇具有最小基尼指數(shù)的屬性作為分裂屬性. 實(shí)驗(yàn)中,由于數(shù)據(jù)屬性較少,故隨機(jī)森林選擇其中3個(gè)屬性進(jìn)行抽樣,并僅建立600棵決策樹(shù). 迭代決策樹(shù)是通過(guò)建立多棵樹(shù)對(duì)樣本進(jìn)行訓(xùn)練,然后預(yù)測(cè)出某個(gè)屬性值的分類(lèi)器算法[9].它是由多個(gè)分類(lèi)回歸樹(shù)(Classification And Regression Tree,CART)形成的,每棵樹(shù)使用的訓(xùn)練集是采用有放回的方式從總的訓(xùn)練集中抽取的.每棵樹(shù)的訓(xùn)練特征是從所有特征中隨機(jī)無(wú)放回選取.這個(gè)算法大致可以分為兩個(gè)部分. 1.3.1 回歸樹(shù) 決策樹(shù)分為回歸樹(shù)(Regression Decision Tree,RDT)和分類(lèi)樹(shù)(Classification Tree,CT)兩大類(lèi).前者用于預(yù)測(cè)實(shí)數(shù)值,如明天的溫度、用戶(hù)的年齡、網(wǎng)頁(yè)的相關(guān)程度等;后者用于分類(lèi)標(biāo)簽值,如晴天、陰天、霧、雨等.前者的結(jié)果可以相加減,如10歲+5歲-3歲=12歲;后者則不行,如男+男+女,結(jié)果并不具有意義.GBDT中的樹(shù)都是回歸樹(shù),不是分類(lèi)樹(shù),其核心在于累加所有樹(shù)的結(jié)果作為最終結(jié)果. 回歸樹(shù)在每個(gè)節(jié)點(diǎn)(不一定是葉子節(jié)點(diǎn))都會(huì)有一個(gè)預(yù)測(cè)值.以年齡為例,該預(yù)測(cè)值等于屬于這個(gè)節(jié)點(diǎn)的所有人年齡的平均值.分枝時(shí)窮舉每種屬性的每個(gè)閾值,找出最好的分割點(diǎn),但衡量最好的標(biāo)準(zhǔn)不再是最大熵,而是最小化均方差. 1.3.2 梯度迭代 梯度迭代(Gradient Boosting,GB),通俗地說(shuō)就是通過(guò)結(jié)合多棵樹(shù)的結(jié)論來(lái)共同決策.GBDT是將所有樹(shù)的結(jié)論累加起來(lái)變成最終結(jié)論,即每棵樹(shù)的結(jié)論都是前面所有樹(shù)結(jié)論的累加.GBDT的核心是,新的決策樹(shù)學(xué)習(xí)前一棵決策樹(shù)的結(jié)果,通過(guò)不斷修正前者的誤差,最后得到一個(gè)滿(mǎn)足精度要求的結(jié)果. 其中,每棵決策樹(shù)都需要滿(mǎn)足: (3) 式中:θ——函數(shù);Rj——區(qū)域;rj——某個(gè)深度上的返回值;I(x∈Rj)——函數(shù),當(dāng)x∈Rj成立時(shí),值為1,否則為0; J——可調(diào)參數(shù),表示樹(shù)的深度. 對(duì)3個(gè)算法的準(zhǔn)確率和效率進(jìn)行評(píng)估,實(shí)驗(yàn)在Window10系統(tǒng)下利用Python2.7開(kāi)發(fā)完成.實(shí)驗(yàn)用的電腦配置為:英特爾酷睿i7-3770@3.40 GHz處理器,DDR3 800 M Hz,4 GB內(nèi)存,7200轉(zhuǎn)機(jī)械硬盤(pán).實(shí)驗(yàn)數(shù)據(jù)為某電力公司一段時(shí)間內(nèi)用戶(hù)的用電情況,算法流程見(jiàn)圖2. 圖2 算法流程 數(shù)據(jù)集中的內(nèi)容是用戶(hù)每天的用電量信息,有的用戶(hù)給出的數(shù)據(jù)量比較多,包含了最近3個(gè)月的用電情況,而有的用戶(hù)給出的用電數(shù)據(jù)比較少,只有幾天的用電量.另外,數(shù)據(jù)集中還存在一定程度的缺失值. 該數(shù)據(jù)集中的數(shù)據(jù)一共有6種屬性,分別代表不同的信息,如表1所示. 表1 數(shù)據(jù)集的屬性 2.2.1 數(shù)據(jù)集拆分 不同的用戶(hù)擁有的信息量也不相同,因此可以按照不同的屬性將數(shù)據(jù)集進(jìn)行劃分,如時(shí)間、用電量、用戶(hù)ID等. 本實(shí)驗(yàn)將數(shù)據(jù)集按照用戶(hù)ID進(jìn)行劃分,生成很多個(gè)不等樣本數(shù)量的數(shù)據(jù)子集,每個(gè)子集代表一個(gè)用戶(hù)的用電情況. 2.2.2 提取特征值 由于各用戶(hù)的數(shù)據(jù)量不相等,為避免給實(shí)驗(yàn)造成影響,就需要從這些不對(duì)等的樣本中,提取出共性特征,通過(guò)這些特征對(duì)樣本進(jìn)行宏觀分析,使得不同數(shù)據(jù)量的個(gè)體都能擁有較平等的分析前提. 實(shí)驗(yàn)用4個(gè)參數(shù)來(lái)評(píng)估用戶(hù)的數(shù)據(jù)情況,分別是方差、均值、缺失值百分比和0數(shù)據(jù)百分比.方差,用來(lái)反映用戶(hù)在數(shù)據(jù)采集的時(shí)間段中用電量的波動(dòng)程度.均值,用來(lái)反映用戶(hù)日常的用電量.這兩個(gè)參數(shù)的選擇都是認(rèn)為用戶(hù)在一段時(shí)間里,每天的用電量是基本不變的.缺失值百分比表示的是數(shù)據(jù)中的缺失值占總數(shù)據(jù)量的百分比,雖然電表通信過(guò)程存在一些不可靠因素[10],但當(dāng)大量缺失值出現(xiàn)時(shí),很有可能是竊電行為所導(dǎo)致的.0數(shù)據(jù)百分比表示的是電表數(shù)據(jù)為0的情況占該用戶(hù)總數(shù)據(jù)量的百分比,雖然不排除有空閑房屋的存在,但畢竟是少數(shù),所以當(dāng)用戶(hù)用電量數(shù)據(jù)長(zhǎng)期為0時(shí),也需要考慮該用戶(hù)可能存在竊電行為. 通過(guò)對(duì)原有數(shù)據(jù)集的劃分和計(jì)算,得到了每個(gè)用戶(hù)用電量的4個(gè)特征值.將新的結(jié)果作為樣本進(jìn)行測(cè)試,此時(shí)的樣本中只包含6種屬性,這就使得每個(gè)用戶(hù)用于分析的信息不再完全受到原始數(shù)據(jù)數(shù)量的影響.新的數(shù)據(jù)集屬性見(jiàn)表2. 表2 新數(shù)據(jù)集的屬性 將處理好的數(shù)據(jù)樣本分成訓(xùn)練集和測(cè)試集.其中,訓(xùn)練集包含label列,而測(cè)試集的label列需要由算法給出,通過(guò)比較算法給出的label和原有l(wèi)abel的匹配率,就可以得出算法模型預(yù)測(cè)的準(zhǔn)確率kAUC. (4) 式中:nTP——算法正確識(shí)別出竊電用戶(hù)的數(shù)量; nTY——算法正確識(shí)別出非竊電用戶(hù)的數(shù)量; nFP——算法錯(cuò)誤識(shí)別出竊電用戶(hù)的數(shù)量; nFY——算法錯(cuò)誤識(shí)別出非竊電用戶(hù)的數(shù)量. 為了對(duì)算法進(jìn)行多樣化比較,各個(gè)算法的效率也被作為評(píng)價(jià)標(biāo)準(zhǔn). 通過(guò)改變樣本的數(shù)量來(lái)分析訓(xùn)練集的大小對(duì)算法準(zhǔn)確率和運(yùn)行效率的影響,而訓(xùn)練集和測(cè)試集各自所占樣本的百分比并未改變.進(jìn)行4次實(shí)驗(yàn),數(shù)據(jù)量從10 000個(gè)開(kāi)始,每次遞增10 000個(gè)數(shù)據(jù),實(shí)驗(yàn)結(jié)果如表3和表4所示.根據(jù)不同數(shù)據(jù)量訓(xùn)練模型,對(duì)測(cè)試集進(jìn)行測(cè)試,記錄每次實(shí)驗(yàn)結(jié)果的準(zhǔn)確率,考慮到實(shí)驗(yàn)數(shù)據(jù)較多且為了時(shí)間測(cè)量的準(zhǔn)確性,故并沒(méi)有采取交叉驗(yàn)證的辦法. 算法的效率是根據(jù)每一次的運(yùn)行時(shí)間來(lái)衡量的,即算法開(kāi)始執(zhí)行和運(yùn)行結(jié)束這兩個(gè)時(shí)間的差值就是算法的實(shí)際運(yùn)行時(shí)間. 表3 不同數(shù)據(jù)量時(shí)算法的準(zhǔn)確率情況 表4 不同數(shù)據(jù)量時(shí)算法的運(yùn)行時(shí)間 從表3和表4中可以看出,隨著訓(xùn)練集的增加,這3種算法始終都能維持較高且恒定的準(zhǔn)確率.這說(shuō)明3種算法并不需要很大的訓(xùn)練集,就可以達(dá)到較理想的效果.但3種算法的效率存在較大的差距. (1) 隨著數(shù)據(jù)量的增加,RF算法的運(yùn)行時(shí)間基本呈線(xiàn)性變化,較為理想,這是由于其建模過(guò)程中總是隨機(jī)地采集一定比例的數(shù)據(jù)量,數(shù)據(jù)量增加,采樣次數(shù)才相應(yīng)增加,因此在實(shí)驗(yàn)過(guò)程中始終擁有最短的運(yùn)行時(shí)間; (2) SVM算法需要找出數(shù)據(jù)中的最優(yōu)超平面,這就需要對(duì)數(shù)據(jù)進(jìn)行大量運(yùn)算,由于實(shí)驗(yàn)數(shù)據(jù)集本身的數(shù)據(jù)維度并不高,所以計(jì)算復(fù)雜度相對(duì)要低一些.但隨著數(shù)據(jù)量的增加,其中的弊端也逐漸顯露出來(lái),當(dāng)數(shù)據(jù)量增大到原來(lái)的4倍時(shí),運(yùn)行時(shí)間是原來(lái)的37倍; (3) GBDT始終是3種測(cè)試算法中運(yùn)行效率最低的,這是因?yàn)樵撍惴ńr(shí),新決策樹(shù)學(xué)習(xí)的是前一棵樹(shù)的結(jié)論和殘差,這樣所有的樹(shù)并不是一次性建好,而是在學(xué)習(xí)過(guò)程中逐漸建立的,所以當(dāng)數(shù)據(jù)量很大時(shí),這一過(guò)程就顯得特別漫長(zhǎng).從實(shí)驗(yàn)中可以看出,當(dāng)數(shù)據(jù)量增加到原來(lái)的4倍時(shí),運(yùn)行時(shí)間變?yōu)樵瓉?lái)的88倍. 隨著智能電表的普及,結(jié)合機(jī)器學(xué)習(xí)的方法對(duì)電網(wǎng)公司的數(shù)據(jù)進(jìn)行分析,可以有效地預(yù)測(cè)出電網(wǎng)中的竊電行為.優(yōu)秀的算法將大大簡(jiǎn)化這一過(guò)程,經(jīng)過(guò)實(shí)驗(yàn)測(cè)試,隨機(jī)森林算法表現(xiàn)較好,具有以下特點(diǎn):運(yùn)行時(shí)間和數(shù)據(jù)量基本呈線(xiàn)性關(guān)系,適合數(shù)據(jù)量較大的情況使用;算法準(zhǔn)確率基本穩(wěn)定維持在86%,但是否能滿(mǎn)足實(shí)際應(yīng)用仍有待進(jìn)一步的研究. [1] 劉強(qiáng).用電監(jiān)察中竊電和反竊電探析[J].通訊世界,2015(14):156-157. [2] 楊志友.用電監(jiān)察中竊電與反竊電技術(shù)分析.[J].電子世界,2015(15):193-194. [3] 于飛.智能電表發(fā)展前景及市場(chǎng)容量分析[J].工程技術(shù):全文版,2016(6):24-27. [4] 賀寧.智能電表故障大數(shù)據(jù)分析探究[J].中小企業(yè)管理與科技,2016(19):142-145. [5] 丁全.基于數(shù)據(jù)挖掘的電力信息分類(lèi)及搜索技術(shù)探析[J].通訊世界,2016(19):149-150. [6] LOSASSO F.Simulating water and smoke with an octree data structure[J].ACM SIGGRAPH,2004(23-3):457-462. [7] 向濤,李濤,趙雪專(zhuān),等.基于隨機(jī)森林的精確目標(biāo)檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用研究,2016(9):2 837-2 840. [8] 李欣海.隨機(jī)森林模型在分類(lèi)與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲(chóng)學(xué)報(bào),2013(4):1 190-1 197. [9] 王天華.基于改進(jìn)的GBDT算法的乘客出行預(yù)測(cè)研究[D].大連:大連理工大學(xué),2016. [10] 王媛媛.智能電表通信測(cè)試系統(tǒng)分析與研究[J].現(xiàn)代工業(yè)經(jīng)濟(jì)和信息化,2016(9):98-99. (編輯 白林雪) PredictionofUserStealingBehaviorBasedonMachineLearning XUZhi,LIHongjiao,CHENJingjing (SchoolofComputerScienceandTechnology,ShanghaiUniversityofElectricPower,Shanghai200090,China) Accurate detection of the power grid users can be combined with the machine learning method after the popularity of new smart meters.For this purpose,three kinds of machine learning more commonly used in large data algorithm are chosen for analysis:random forest,support vector machine and gradient boosting decision tree.The efficiency and accuracy of the three algorithms are tested by constantly adjusting the size of the test data set.Analysis of the results shows that the random forest algorithm runs in a linear relationship with the amount of time and the amount of data,while the accuracy rate of stability is higher than86%,with better performances. stealing electricity; smart meter; random forest; support vector machine; gradient boosting decision tree 10.3969/j.issn.1006-4729.2017.04.016 2017-03-09 許智(1992-),男,在讀碩士,山西晉中人.主要研究方向?yàn)殡娏π畔踩?E-mail:15801937317@163.com. 國(guó)家自然科學(xué)基金(61403247);上海市信息安全綜合管理技術(shù)研究重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題項(xiàng)目(AGK2015 005);上海市科學(xué)技術(shù)委員會(huì)地方能力建設(shè)項(xiàng)目(15110500700). TP18;TM715 A 1006-4729(2017)04-0389-051.3 迭代決策樹(shù)
2 實(shí)驗(yàn)過(guò)程
2.1 數(shù)據(jù)集說(shuō)明
2.2 數(shù)據(jù)預(yù)處理
2.3 評(píng)價(jià)參數(shù)說(shuō)明
2.4 實(shí)驗(yàn)數(shù)據(jù)
2.5 結(jié)果分析
3 結(jié) 語(yǔ)