• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于數(shù)據(jù)集相似性的分類算法推薦

    2016-09-08 10:30:45李洪奇徐青松朱麗萍戚雪晨
    計算機應(yīng)用與軟件 2016年8期
    關(guān)鍵詞:集上特征向量相似性

    李洪奇 徐青松 朱麗萍 戚雪晨

    (中國石油大學(xué)石油數(shù)據(jù)挖掘北京市重點實驗室 北京 102249) (中國石油大學(xué)計算機系 北京 102249)

    ?

    基于數(shù)據(jù)集相似性的分類算法推薦

    李洪奇徐青松朱麗萍戚雪晨

    (中國石油大學(xué)石油數(shù)據(jù)挖掘北京市重點實驗室北京 102249) (中國石油大學(xué)計算機系北京 102249)

    近年來,隨著大數(shù)據(jù)分析需求的急劇增長,分類算法的運用也越來越廣泛,如何為用戶選擇適用的分類算法成為數(shù)據(jù)挖掘技術(shù)在應(yīng)用上亟待解決的難題。相關(guān)研究表明,同一算法在相似數(shù)據(jù)集上具有相近的分類效果。根據(jù)這一理論,構(gòu)建基于數(shù)據(jù)集相似性的分類算法選擇模型。首先采用數(shù)據(jù)集離散化方法來對數(shù)據(jù)集進(jìn)行特征提取,構(gòu)建樣本庫,然后結(jié)合鄰近相似的原則為數(shù)據(jù)集推薦合適的分類算法。通過UCI數(shù)據(jù)集上的算法實驗,結(jié)果表明大多數(shù)情況下推薦得到的分類算法具有良好的性能。

    數(shù)據(jù)挖掘分類算法數(shù)據(jù)集特征性能評價算法推薦

    0 引 言

    分類問題是數(shù)據(jù)挖掘領(lǐng)域一個重要的研究方向,目前已有大量的算法被提出,其中包括懶惰模型(如k-NN)、基于關(guān)聯(lián)規(guī)則模型(如Apriori,LIG等)、基于決策樹模型、(如ID3、C4.5、CART、SLIQ等),基于概率統(tǒng)計模型(Naive Bayes、Bayesian Networks、TAN等)、基于規(guī)則模型、(CN2,PART)、支持向量機模型等。不同算法在同一數(shù)據(jù)集上的分類效果差異很大,而普通用戶對這些算法并沒有深入的了解,從中選擇能獲得最優(yōu)分類結(jié)果的算法是困難的。因此,為一個給定的數(shù)據(jù)集選擇合適的分類算法是相當(dāng)重要的。

    分類算法在具有某些特定特征的數(shù)據(jù)集上的性能表現(xiàn)是有規(guī)律可循的,而這種規(guī)律和分類算法的原理有關(guān),如Bayes的獨立性假設(shè),使其適用于屬性關(guān)聯(lián)性較低的數(shù)據(jù);神經(jīng)網(wǎng)絡(luò)對訓(xùn)練樣本的需求很大,這導(dǎo)致它在小樣本數(shù)據(jù)上的分類結(jié)果很差;k-NN在不平衡樣本上的糟糕表現(xiàn)等。Weiss和Kapouleas發(fā)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)在Appendicitis和Iris數(shù)據(jù)集上的分類精度優(yōu)于決策樹,而在Breast cancer和Thyroid數(shù)據(jù)集上則不如決策樹[1];Duin比較了k-NN和ANN算法,同樣得出了它們在不同數(shù)據(jù)集上的分類精度各有優(yōu)劣的結(jié)果[2];Ali和Smith通過更為系統(tǒng)的數(shù)據(jù)實驗表明,沒有哪一種算法在所有數(shù)據(jù)集上都有優(yōu)于其他算法的分類效果[3]。

    盡管算法性能存在不一致性,但是大量研究表明,相似的數(shù)據(jù)集在算法適用性上存在相關(guān)性。Gama和Brazdil利用統(tǒng)計和信息論的方法提取數(shù)據(jù)集特征,并用C4.5產(chǎn)生推薦規(guī)則,其結(jié)果證實統(tǒng)計相似的數(shù)據(jù)集可推薦相同的分類算法[4]。Bernado′-Mansilla等利用一系列指標(biāo)描述分類問題的復(fù)雜程度,通過分析這些指標(biāo)和算法性能之間的關(guān)系得出推薦規(guī)則,將其用于選擇合適的分類算法[5]。Kwon和Sim研究了數(shù)據(jù)集特征對分類算法性能的影響,他們將算法性能視為因變量,數(shù)據(jù)集特征作為自變量,利用多元回歸的方法得到它們之間的關(guān)系因子[6]。Cano則提出了一系列衡量數(shù)據(jù)集復(fù)雜性的參數(shù),并逐個分析它們對分類算法性能的影響[7]。Reif等利用元學(xué)習(xí)的思想,通過分析5類不同的數(shù)據(jù)集特征與算法之間的關(guān)系,在模式識別系統(tǒng)中實現(xiàn)了算法的自動選擇[8]。

    最近,Tatti等人提出一種基于匯總統(tǒng)計的方法來衡量數(shù)據(jù)集的相似性[9],Song等在其基礎(chǔ)上提出了一種全新的特征提取方法,將數(shù)據(jù)集離散化并統(tǒng)計其特征頻率,得到數(shù)據(jù)集的特征向量,然后通過k-鄰近識別相似數(shù)據(jù)集,將相似數(shù)據(jù)集的分類算法推薦給新數(shù)據(jù)集,取得了較好的推薦效果[10]。本文采用這種新的離散化特征提取方法,構(gòu)建算法推薦模型,并在相似數(shù)據(jù)集的判定和推薦規(guī)則上進(jìn)行了改進(jìn)和優(yōu)化,然后通過UCI數(shù)據(jù)集上的算法推薦實驗來檢驗該模型的有效性。

    1 數(shù)據(jù)集的相似性判斷

    本文構(gòu)建的分類算法推薦模型,其關(guān)鍵點在于相似數(shù)據(jù)集的判斷,如果我們提取的特征能很好地描述數(shù)據(jù)集,就能通過比較這些特征向量來判斷數(shù)據(jù)集之間的相似性。傳統(tǒng)的特征提取方法一般是基于統(tǒng)計學(xué)和信息論得到的一些特征,已被很多學(xué)者應(yīng)用于機器學(xué)習(xí)領(lǐng)域。而Song等人已經(jīng)證明他們提出的離散化方法構(gòu)造的特征向量在算法推薦上要優(yōu)于傳統(tǒng)的特征向量。因此,本文將采用這種方法來提取數(shù)據(jù)集的特征向量。

    1.1數(shù)據(jù)集的二進(jìn)制化

    下面簡單介紹Song等提出的特征提取方法:首先將原數(shù)據(jù)集D轉(zhuǎn)換成二進(jìn)制數(shù)據(jù)集DB(所有屬性值只為0或1),再分別計算DB的單項目集和雙項目集的特征頻率,將其組合得到的一組向量即為原數(shù)據(jù)集D的特征向量。

    為了保證原數(shù)據(jù)集在二進(jìn)制化的過程中沒有語義信息的丟失,需要將其屬性個數(shù)進(jìn)行擴充,原數(shù)據(jù)集中的每一個屬性取值將被轉(zhuǎn)換成一個新的二進(jìn)制屬性。具體過程如下:

    給定數(shù)據(jù)集D,其屬性集合為:

    VA={A1,A2,…,An}

    類標(biāo)簽C(假定C只有3種類別)集合表示為:

    VClass={C1,C2,C3}

    圖1 數(shù)據(jù)集的二進(jìn)制化

    假定A1屬性值集合為:

    VA1={A11,A12}

    A2屬性值集合為:

    VA2={A21,A22,A23}

    將每個實例的屬性或類標(biāo)簽用一個二進(jìn)制向量表示,如第一個實例的A1屬性的取值為A11,可表示為:

    這樣數(shù)據(jù)集D就轉(zhuǎn)化為一個二進(jìn)制數(shù)據(jù)集DB,主要過程如圖1所示。

    1.2特征頻率的計算和向量歸一化

    原數(shù)據(jù)集在二進(jìn)制化之后,統(tǒng)計每個新屬性值中“1”出現(xiàn)的頻率,可以得到單項目集的特征頻率。由圖1(c)計算可得:

    VⅠ={0.5,0.5,0.4,…,0.3,0.4,0.3,0.3}

    對DB中兩個不同屬性Ai和Aj取異或操作可得雙項目集的特征頻率:

    VⅡ={VAi⊕VAj|1≤i≤j≤n}

    (1)

    將兩個向量融合得到VⅠ&Ⅱ={VⅠ,VⅡ},即為數(shù)據(jù)集的特征向量。

    由于數(shù)據(jù)集的屬性數(shù)以及屬性的取值數(shù)各不相同,用上述方法得到的特征向量的長度也不同,無法直接比較它們的相似性。為了解決這一問題,采用一種簡單的統(tǒng)計方法——擴展的五數(shù)概括法對VⅠ和VⅡ進(jìn)行歸一化處理。首先將VⅠ和VⅡ分別按升序排列,計算出各自的最小值點、1/8分位點、2/8分位點、……、7/8分位點和最大值點,然后組合為統(tǒng)一的特征向量。

    對于每一個數(shù)據(jù)集,都可以通過上述方法來進(jìn)行特征提取,得到一個唯一確定的18維向量,因此,數(shù)據(jù)集相似性的判定就變成了比較向量之間的位置關(guān)系。

    1.3相似數(shù)據(jù)集

    k-NN算法常用于判斷實例間的相似性,描述實例的特征被看作向量,計算向量之間的距離來確定實例之間的距離。類似地,k-NN可以用于判斷數(shù)據(jù)集的k個相似數(shù)據(jù)集:特征向量之間的距離越小,數(shù)據(jù)集的相似度越高。

    本文采用歐氏距離的計算方法作為數(shù)據(jù)集間相似度對比的依據(jù),這是最常用的且易于理解的一種計算距離的方法,是歐氏空間中兩點間的真實距離。若有兩個M維向量di={Wi1,Wi2,…,WiM}、dj={Wj1,Wj2,…,WjM},則它們間的歐氏距離如式(2)所示:

    (2)

    在得到新數(shù)據(jù)集對于樣本庫中所有歷史數(shù)據(jù)集的相似度后,將其按降序排列,然后相似度最高的k個數(shù)據(jù)集即為新數(shù)據(jù)集的k個相似數(shù)據(jù)集。

    2 算法推薦原理

    2.1算法推薦模型

    我們已經(jīng)知道數(shù)據(jù)集相似性和分類算法適用性之間存在相關(guān)性,也就是說,如果某些數(shù)據(jù)集是相似的,那么分類算法在這些數(shù)據(jù)集上的性能也是相似的。根據(jù)這一理論及其相關(guān)分析,我們提出了基于數(shù)據(jù)集相似性的分類算法推薦模型。具體流程如下:預(yù)先提取全部歷史數(shù)據(jù)集的特征向量,分析其適用的分類算法,并將這些信息存入歷史數(shù)據(jù)集樣本庫中;對于新的用戶數(shù)據(jù)集D,提取其特征向量并與歷史數(shù)據(jù)樣本進(jìn)行相似性匹配,找出k個相似數(shù)據(jù)集,再通過一定的規(guī)則在這些相似數(shù)據(jù)集的適用分類算法中進(jìn)行篩選并推薦給D。該流程可概括為如圖2所示。

    圖2 適用分類算法推薦模型

    2.2適用分類算法分析

    在歷史數(shù)據(jù)集樣本庫的構(gòu)建過程中,需要分析出在每個歷史數(shù)據(jù)集上取得良好性能的分類器,作為該數(shù)據(jù)集的適用算法。具體策略如下:對每一個歷史數(shù)據(jù)集,依次應(yīng)用算法庫中的每個分類算法,然后對算法的性能進(jìn)行評估,取得較好預(yù)測結(jié)果的算法即為適用分類算法。Brazdil等人提出了一種結(jié)合分類精度和執(zhí)行時間(包括訓(xùn)練階段和測試階段)的算法性能評價標(biāo)準(zhǔn)[11],計算如下:

    (3)

    式中PAlg,D表示算法Alg在數(shù)據(jù)集D上的性能參數(shù),AccAlg,D表示利用該算法進(jìn)行建模預(yù)測得到的分類準(zhǔn)確率,RTimeAlg,D為算法執(zhí)行時間。α為用戶自定義的關(guān)系因子,α≥0。當(dāng)α增大時,意味著以犧牲一定準(zhǔn)確率的代價來換取更快的執(zhí)行速度。為了更為精細(xì)的實驗效果,本文在分析算法性能時采用了10折交叉驗證的方法以提高其精度。

    2.3基于相似性的算法推薦規(guī)則

    根據(jù)以上相似性推薦的論斷,借助歷史數(shù)據(jù)集樣本庫的信息,我們就能夠為新數(shù)據(jù)集推薦分類算法,該推薦方法基于k-NN思想。

    對于新數(shù)據(jù)集,它的k個相似數(shù)據(jù)集對應(yīng)的適用分類算法可能會不同,因此還需要一定的策略在這些候選算法列表中做出篩選。Song等人提出了一種結(jié)合“Win/Draw/Loss Record”[12]和算法性能均值的方法來評估候選算法。候選算法的性能輪流進(jìn)行兩兩比較并記錄其結(jié)果,勝者將推薦給新數(shù)據(jù)集,其思想類似于足球賽中的單循環(huán)賽制。這種做法過于復(fù)雜且效率低下,我們提出了一種改進(jìn)的基于距離權(quán)值的評估方法,這種方法也正好利用了k-NN的思想。

    對于新數(shù)據(jù)集D,我們在找到它的k個相似數(shù)據(jù)集之后,根據(jù)特征向量確定的距離來計算最優(yōu)的分類算法:

    假設(shè)數(shù)據(jù)集D的k個相似數(shù)據(jù)集為:D1,D2,…,Dk,它們與D的距離分別為:d1,d2,…,dk,則距離加權(quán)因子wi:

    (4)

    算法加權(quán)性能Pj:

    (5)

    式(4)中,di表示數(shù)據(jù)集提取的特征向量之間的距離;式(5)中,Pi,j表示算法j在數(shù)據(jù)集i上的性能。通過這樣的方法,可以直接計算出候選算法的加權(quán)性能,具有較高算法加權(quán)性能計算值的候選算法將被推薦給新數(shù)據(jù)集。

    3 實驗研究

    3.1實驗準(zhǔn)備

    ①實驗數(shù)據(jù)集:120個UCI數(shù)據(jù)集,其中85個作為歷史數(shù)據(jù)集構(gòu)建樣本庫,剩下的35個作為檢驗集進(jìn)行算法推薦的實驗。UCI數(shù)據(jù)庫[13]是一個常用的標(biāo)準(zhǔn)測試數(shù)據(jù)集,可以用來測試數(shù)據(jù)挖掘算法和建模應(yīng)用等。為了便于特征向量的計算,對于包含連續(xù)屬性的數(shù)據(jù)集,采用MDL方法[14]將其轉(zhuǎn)換為離散值。

    ②分類算法庫:采用11種算法在數(shù)據(jù)集上進(jìn)行分類,即:k-NN,樸素貝葉斯,貝葉斯網(wǎng)絡(luò),AODE,C4.5,ID3,CART,Decision Stump,規(guī)則歸納,神經(jīng)網(wǎng)絡(luò)MLP,支持向量機。

    ③相似數(shù)據(jù)集個數(shù)k:一般取奇數(shù)且在歷史數(shù)據(jù)集樣本總數(shù)的10%~15%的范圍內(nèi)具有最佳效果,在本實驗中取k=9。

    ④算法性能關(guān)系因子α:分為三種情況下的取值:α=0,α=0.05%和α=0.1%,并對三種取值下的結(jié)果進(jìn)行比較。

    3.2算法評價標(biāo)準(zhǔn)

    為了評價算法推薦的效果,我們使用分類精度和推薦準(zhǔn)確率來對推薦算法進(jìn)行評價:

    分類精度:在所有分類問題中,分類精度是最重要的一個考慮要素。如果所推薦的分類算法和數(shù)據(jù)集本身適用的算法之間的精度誤差越小,那么就證明這種推薦方法很好。

    推薦準(zhǔn)確率(RA):推薦算法的分類精度高并不能總是推薦理想的,因為有可能所有候選算法的性能都很好,且它們之間的差異很小。另一方面,我們需要知道和其他的候選算法相比,所推薦的算法其性能如何,所以RA的計算如下:

    (6)

    式中,PRec,D表示推薦給數(shù)據(jù)集D的分類算法的性能,PBest,D表示最佳分類算法的性能,PWorst,D表示最差分類算法的性能。

    3.3實驗過程和結(jié)果分析

    1) 數(shù)據(jù)集的特征向量

    表1顯示了部分測試數(shù)據(jù)集采用二進(jìn)制化特征提取方法得到的向量VⅠ&Ⅱ。

    表1 數(shù)據(jù)集二進(jìn)制化得到的特征向量VⅠ&Ⅱ

    2) 算法推薦精度對比

    圖3顯示了35個測試數(shù)據(jù)集的分類算法推薦結(jié)果(α=0),其中橫坐標(biāo)表示測試數(shù)據(jù)集名稱(已按算法精度升序排列,圖中未全部顯示),縱坐標(biāo)表示算法的分類精度,Best代表該數(shù)據(jù)集實際最佳分類算法的精度,Rec_1、Rec_2、Rec_3分別表示由推薦規(guī)則得到的并按照優(yōu)先程度推薦給目標(biāo)集的算法的精度。

    圖3 實際最佳分類算法與推薦算法精度對比

    由圖3可知,在所有測試集中,只有credit-screening、flags、hayes-roth和tae這4個數(shù)據(jù)集的推薦結(jié)果不夠理想,其他數(shù)據(jù)集推薦算法的精度與其最佳算法的精度非常接近,88.57%的推薦是有效的。當(dāng)關(guān)系因子α的取值變化時,算法性能的計算結(jié)果會有上下浮動,但是整體推薦效果不受影響,接近90%的推薦算法是有效的。

    3) 推薦準(zhǔn)確率(RA)

    如表2所示,該表統(tǒng)計了測試集的推薦準(zhǔn)確率RA,以第一推薦算法Rec_1為參考值。由該表可知,所有測試集的平均推薦準(zhǔn)確率ARA為82.10%,且大部分?jǐn)?shù)據(jù)集的RA值都在80%以上,證明了該推薦方法的有效性。由于在RA的計算上只考慮了Rec_1,而我們?yōu)槟繕?biāo)集推薦的分類算法不止1個,所以實際的推薦準(zhǔn)確率要比表2給出的值更高。

    表2 第一推薦算法(Rec_1)的推薦準(zhǔn)確率

    4) 推薦命中率

    在實驗的過程中我們注意到,要想保證推薦的算法恰好是該數(shù)據(jù)集的最佳算法是非常困難的,所以為了保證推薦的有效性,一般來說需要為目標(biāo)集推薦若干個可能的算法,并且允許推薦算法的性能和最佳算法之間有一定的誤差。由此我們引入了推薦命中率的概念:如果推薦的算法性能在允許的誤差范圍δ內(nèi),視為其命中,推薦命中率β為:

    (7)

    式中,Nh表示推薦命中的數(shù)據(jù)集數(shù)目,N表示測試用的所有數(shù)據(jù)集總數(shù)。

    表3 測試數(shù)據(jù)集的推薦命中率

    表3顯示了35個測試數(shù)據(jù)集在誤差δ內(nèi)的推薦命中率??梢钥闯?,要想得到80%以上的命中率,k至少為2,δ至少取5%。在實際應(yīng)用中,δ取值一般在5%~10%間,所以在本文推薦3個算法的情況下(即k=3),推薦命中率不低于85.71%。

    5) 推薦結(jié)果對比

    將本文的基于距離加權(quán)Dw(Distance-weighted)的算法推薦結(jié)果與文獻(xiàn)[10]采用“win-draw-loss”策略(WDL)的推薦結(jié)果進(jìn)行比較,表4顯示了兩種方法得到的推薦算法的平均分類精度。由該表可知,本文提出的算法推薦方法更優(yōu),平均分類精度高出約0.3%~1%。

    表4 不同α取值下兩種算法推薦方法的平均分類精度(%)對比

    6) 錯誤推薦

    我們注意到,圖3和表2中有個別數(shù)據(jù)集的推薦結(jié)果很差,如flags數(shù)據(jù)集的推薦精度誤差δ高達(dá)43%,voting-records數(shù)據(jù)集的推薦準(zhǔn)確率RA=0(即推薦的算法是該數(shù)據(jù)集的最差算法)。其原因在于目標(biāo)集在樣本庫中匹配到的相似數(shù)據(jù)集并沒有那么“相似”,導(dǎo)致錯誤的算法被推薦給了目標(biāo)集。至于這個問題的解決方案,可以不斷更新樣本庫,擴大其覆蓋面,最大限度地減少錯誤推薦的發(fā)生。

    4 結(jié) 語

    本文在文獻(xiàn)[10]的研究基礎(chǔ)上,進(jìn)一步深挖分類算法和數(shù)據(jù)集相似性之間的聯(lián)系,提出了一種改進(jìn)的基于k-NN和數(shù)據(jù)集相似性的分類算法推薦方法。實驗結(jié)果表明,大多數(shù)情況下推薦的分類算法在目標(biāo)集上都有較好的性能結(jié)果,平均推薦準(zhǔn)確率和推薦命中率都能達(dá)到85%~90%,相比文獻(xiàn)[10]的方法要高出3%~5%,推薦算法的分類精度比文獻(xiàn)[10]的方法要高出0.3%~1%。

    通過研究我們得出這樣的結(jié)論:依據(jù)相似性為數(shù)據(jù)集推薦合適的分類算法在原理上是可行的,但其在實際應(yīng)用上也存在一定的局限性。首先這一方法非常依賴于歷史樣本庫,樣本庫構(gòu)建的豐富程度將明顯地影響算法推薦的效果。其次,只依據(jù)最相似數(shù)據(jù)集為目標(biāo)集推薦唯一一個算法的方式是行不通的,必須要在其多個鄰居的適用算法列表里做進(jìn)一步篩選,并為其推薦多個可能的適用算法??傊?,關(guān)于這個問題的研究已有一定的成果,但還有很多難題未能解決。進(jìn)一步的研究包括:如何能夠不依賴樣本庫為數(shù)據(jù)集做推薦,能否直接分析數(shù)據(jù)集的特征然后將其劃分為某一類數(shù)據(jù)集,將數(shù)據(jù)集直接和分類算法聯(lián)系起來等問題。

    [1] Weiss M S,Kapouleas I.An Empirical Comparison of Pattern Recognition,Neural Nets,and Machine Leaning Classification Methods[C]//Proc of the 11th International Joint Conference on Artificial Intelligence.Detroit,USA,1989: 781-787.

    [2] Duin R P W.A note on comparing classifiers[J].Pattern Recognition Letters, 1996,17 (5): 529-536.

    [3] Ali S,Smith K A.On learning algorithm selection for classification[J].Applied Soft Computing,2006,6 (2): 119-138.

    [4] Gama J,Brazdil P.Characterization of classification algorithms[C]//Progress in Artificial Intelligence,1995: 189-200.

    [5] Bernado′-Mansilla E,Ho T K.Domain of competence of xcs classifier system in complexity measurement space[J].IEEE Transactions on Evolutionary Computation,2005,9 (1): 82-104.

    [6] Kwon O,Sim J M.Effects of data set features on the performances of classification algorithms[J].Expert Systems with Applications,2013,40 (5): 1847-1857.

    [7] Cano J R.Analysis of data complexity measures for classification[J].Expert Systems with Applications,2013,40 (12): 4820-4831.

    [8] Reif M,Shafait F,Goldstein M,et al.Automatic classifier selection for non-experts[J].Pattern Analysis and Applications,2014,17 (1): 83-96.

    [9] Tatti N.Distances between data sets based on summary statistics[J].Journal of Machine Learning Research,2007,8 (1): 131-154.

    [10] Song Qinbao,Wang Guangtao,Wang Chao.Automatic recommendation of classification algorithms based on data set characteristics[J].Pattern Recognition,2012,45 (7): 2672-2689.

    [11] Brazdi P Bl,Soares C,Da Costa J P.Ranking learning algorithms: using IBL and meta-learning on accuracy and time results[J].Machine Learning,2003,50 (3): 251-277.

    [12] Webb G I.Multiboosting: a technique for combining boosting and wagging[J].Machine Learning,2000,40 (2): 159-196.

    [13] Blake C,Merz C J.UCI repository of machine learning databases[DB/OL].[2011-06-20].http://archive.ics.uci.edu/ml/.

    [14] Fayyad U,Irani K.Multi-interval discretization of continuous-valued attributes for classification learning [C]//Bajcsy R.Proceedings of the 13th International Joint Conference on Artificial Intelligence,Chambery,France,1993: 1022-1027.

    CLASSIFICATION ALGORITHMS RECOMMENDATION BASED ON DATASET SIMILARITY

    Li HongqiXu QingsongZhu LipingQi Xuechen

    (KeyLabofPetroleumDataMining,ChinaUniversityofPetroleum,Beijing102249,China) (DepartmentofComputer,ChinaUniversityofPetroleum,Beijing102249,China)

    In recent years,with the rapid growth of big data analysis demand,the use of classification algorithms is more and more widespread as well,it becomes an urgent application problem of data mining technology to be solved that how to select appropriate classification algorithms for users.Correlated studies have shown that the same classifier has similar performance on similar datasets.According to this theory,we build a dataset similarity-based classification algorithms selection model.First,it extracts features of datasets using dataset discretisation method to create the sample base,then it recommends the appropriate classification algorithms for datasets in combination with the principle of nearest neighbour similarity.Experiment of algorithm has been carried out on datasets of UCI repository,results show that the recommended classifiers perform well in most cases.

    Data miningClassification algorithmDataset featuresPerformance evaluationAlgorithm recommendation

    2015-03-18。十二五國家重大專項(2011ZX05020-009);北京市重點實驗室階梯計劃項目(Z121109009212008)。李洪奇,教授,主研領(lǐng)域:石油數(shù)據(jù)挖掘。徐青松,碩士生。朱麗萍,副教授。戚雪晨,碩士生。

    TP18

    A

    10.3969/j.issn.1000-386x.2016.08.014

    猜你喜歡
    集上特征向量相似性
    二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
    一類上三角算子矩陣的相似性與酉相似性
    克羅內(nèi)克積的特征向量
    淺析當(dāng)代中西方繪畫的相似性
    河北畫報(2020年8期)2020-10-27 02:54:20
    Cookie-Cutter集上的Gibbs測度
    鏈完備偏序集上廣義向量均衡問題解映射的保序性
    一類特殊矩陣特征向量的求法
    復(fù)扇形指標(biāo)集上的分布混沌
    EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
    低滲透黏土中氯離子彌散作用離心模擬相似性
    最新在线观看一区二区三区| 国语自产精品视频在线第100页| 国产v大片淫在线免费观看| 欧美又色又爽又黄视频| 国产精品久久电影中文字幕| 亚洲国产色片| 狂野欧美白嫩少妇大欣赏| 免费人成视频x8x8入口观看| 久久久久久久久大av| 亚洲国产欧洲综合997久久,| 国产一区二区亚洲精品在线观看| 国产精品爽爽va在线观看网站| 一级毛片久久久久久久久女| 欧美激情在线99| 69人妻影院| 日日撸夜夜添| 男女下面进入的视频免费午夜| 波多野结衣高清无吗| 国产老妇女一区| 窝窝影院91人妻| 乱码一卡2卡4卡精品| 尤物成人国产欧美一区二区三区| 国产精品美女特级片免费视频播放器| 日本 av在线| 国产精品久久久久久精品电影| 一进一出好大好爽视频| 亚洲一级一片aⅴ在线观看| 亚洲国产欧洲综合997久久,| 男女边吃奶边做爰视频| 日日干狠狠操夜夜爽| 亚洲五月天丁香| 高清毛片免费观看视频网站| 夜夜爽天天搞| 久久午夜福利片| 男插女下体视频免费在线播放| 三级毛片av免费| 国产午夜精品久久久久久一区二区三区 | 九九爱精品视频在线观看| 色av中文字幕| 免费看日本二区| 欧洲精品卡2卡3卡4卡5卡区| 国产麻豆成人av免费视频| 日韩欧美三级三区| 夜夜爽天天搞| 极品教师在线免费播放| 99九九线精品视频在线观看视频| 国产精品精品国产色婷婷| 一级毛片久久久久久久久女| 性插视频无遮挡在线免费观看| 春色校园在线视频观看| 麻豆成人午夜福利视频| 久久精品国产亚洲网站| 欧美中文日本在线观看视频| 老师上课跳d突然被开到最大视频| 国产高清三级在线| 99热精品在线国产| 欧美激情国产日韩精品一区| 看十八女毛片水多多多| 亚洲中文字幕日韩| 精品人妻偷拍中文字幕| 亚洲成人中文字幕在线播放| 88av欧美| 精品久久国产蜜桃| 热99在线观看视频| 日本色播在线视频| 色综合亚洲欧美另类图片| 久久亚洲精品不卡| 九九久久精品国产亚洲av麻豆| 91在线精品国自产拍蜜月| 午夜亚洲福利在线播放| 夜夜爽天天搞| 午夜激情福利司机影院| 亚洲av电影不卡..在线观看| 十八禁国产超污无遮挡网站| 国产色婷婷99| 尾随美女入室| 免费无遮挡裸体视频| 一区二区三区激情视频| 亚洲电影在线观看av| 成人av一区二区三区在线看| 日本五十路高清| 国产主播在线观看一区二区| 亚洲av成人av| 日本免费a在线| 午夜精品在线福利| 国产精品伦人一区二区| 亚洲欧美日韩高清在线视频| 国产精品亚洲美女久久久| 久久精品91蜜桃| 国产三级在线视频| 亚洲综合色惰| 久久人人爽人人爽人人片va| 亚洲七黄色美女视频| 午夜爱爱视频在线播放| 亚洲图色成人| 国产激情偷乱视频一区二区| 99久久九九国产精品国产免费| 国产精品久久久久久亚洲av鲁大| 亚洲综合色惰| 日韩欧美免费精品| 亚洲av免费高清在线观看| 很黄的视频免费| 精品一区二区三区av网在线观看| 国产色婷婷99| av福利片在线观看| 国产高潮美女av| 成人国产麻豆网| 噜噜噜噜噜久久久久久91| 国模一区二区三区四区视频| 在线免费十八禁| 九九爱精品视频在线观看| 老司机午夜福利在线观看视频| 一级av片app| 国产在线精品亚洲第一网站| av专区在线播放| 亚洲无线观看免费| 免费无遮挡裸体视频| 久久精品人妻少妇| 99国产极品粉嫩在线观看| 他把我摸到了高潮在线观看| 国产精品女同一区二区软件 | 91在线观看av| 亚洲成人久久性| 99热网站在线观看| 欧美性感艳星| videossex国产| 啦啦啦啦在线视频资源| 成人综合一区亚洲| 少妇熟女aⅴ在线视频| 麻豆av噜噜一区二区三区| 国产精品久久久久久久久免| 精品人妻一区二区三区麻豆 | av女优亚洲男人天堂| av国产免费在线观看| 国产私拍福利视频在线观看| 亚洲最大成人av| 高清毛片免费观看视频网站| 韩国av在线不卡| 亚洲人成网站高清观看| 黄色配什么色好看| av天堂在线播放| 天堂动漫精品| 色精品久久人妻99蜜桃| 美女 人体艺术 gogo| 在线观看午夜福利视频| 国内精品久久久久久久电影| 亚洲人成网站高清观看| 国产黄片美女视频| 亚洲乱码一区二区免费版| 国产国拍精品亚洲av在线观看| 亚洲狠狠婷婷综合久久图片| 麻豆国产av国片精品| 可以在线观看的亚洲视频| 久99久视频精品免费| 91精品国产九色| 精品国内亚洲2022精品成人| 午夜日韩欧美国产| 国产熟女欧美一区二区| 国产男靠女视频免费网站| 精品乱码久久久久久99久播| 免费大片18禁| 成人性生交大片免费视频hd| 观看免费一级毛片| 亚洲国产日韩欧美精品在线观看| 久久香蕉精品热| 99久久精品热视频| 观看美女的网站| 国产成人av教育| 亚洲精品乱码久久久v下载方式| 精品久久久久久久久久免费视频| 又黄又爽又免费观看的视频| 亚洲 国产 在线| 女生性感内裤真人,穿戴方法视频| 给我免费播放毛片高清在线观看| 欧美成人免费av一区二区三区| 亚洲中文日韩欧美视频| 亚洲中文字幕一区二区三区有码在线看| 18禁黄网站禁片免费观看直播| 在线免费观看的www视频| 中国美女看黄片| 色av中文字幕| 国产伦一二天堂av在线观看| 老师上课跳d突然被开到最大视频| 国产人妻一区二区三区在| 日本三级黄在线观看| 久久久久久久久中文| 国产乱人视频| 丰满人妻一区二区三区视频av| 欧美成人一区二区免费高清观看| 国产单亲对白刺激| 国产精品人妻久久久久久| 一进一出抽搐gif免费好疼| 色综合站精品国产| 国产高清激情床上av| 精品免费久久久久久久清纯| 性欧美人与动物交配| 日韩欧美在线乱码| 日本免费一区二区三区高清不卡| 久久精品久久久久久噜噜老黄 | 亚洲一级一片aⅴ在线观看| 久久亚洲真实| 亚洲男人的天堂狠狠| h日本视频在线播放| 少妇被粗大猛烈的视频| 校园人妻丝袜中文字幕| 又爽又黄无遮挡网站| 日韩在线高清观看一区二区三区 | 亚洲精品色激情综合| 中国美女看黄片| 国内久久婷婷六月综合欲色啪| 亚洲国产精品合色在线| 无遮挡黄片免费观看| 在线观看美女被高潮喷水网站| 亚洲成a人片在线一区二区| 午夜视频国产福利| 国产女主播在线喷水免费视频网站 | 桃色一区二区三区在线观看| 欧美最黄视频在线播放免费| 欧美日韩黄片免| 美女黄网站色视频| a在线观看视频网站| 九九爱精品视频在线观看| 国产乱人伦免费视频| 热99在线观看视频| 午夜老司机福利剧场| 天堂影院成人在线观看| 在线a可以看的网站| 自拍偷自拍亚洲精品老妇| 国内毛片毛片毛片毛片毛片| 精品午夜福利视频在线观看一区| 久久久久国产精品人妻aⅴ院| 精品一区二区三区人妻视频| 久久精品夜夜夜夜夜久久蜜豆| 听说在线观看完整版免费高清| 久久久久性生活片| 看黄色毛片网站| 精品人妻偷拍中文字幕| 精品久久国产蜜桃| 成人av在线播放网站| 麻豆一二三区av精品| 日韩一本色道免费dvd| 变态另类丝袜制服| 桃红色精品国产亚洲av| 中文字幕人妻熟人妻熟丝袜美| 国产老妇女一区| 香蕉av资源在线| 久久九九热精品免费| 亚洲男人的天堂狠狠| 黄色配什么色好看| 成人国产一区最新在线观看| 99九九线精品视频在线观看视频| 国产日本99.免费观看| 亚洲精华国产精华液的使用体验 | 国内久久婷婷六月综合欲色啪| av天堂中文字幕网| 久久久成人免费电影| 超碰av人人做人人爽久久| 99久国产av精品| 99久久九九国产精品国产免费| 国内揄拍国产精品人妻在线| 69av精品久久久久久| 天堂影院成人在线观看| 亚洲中文字幕一区二区三区有码在线看| 国产精品久久久久久精品电影| 一本久久中文字幕| 乱码一卡2卡4卡精品| 身体一侧抽搐| 欧美日韩中文字幕国产精品一区二区三区| 可以在线观看的亚洲视频| 国产精品不卡视频一区二区| 少妇高潮的动态图| 香蕉av资源在线| 成年人黄色毛片网站| 日韩欧美在线乱码| 精品人妻视频免费看| 日本 欧美在线| 99热这里只有是精品50| 免费在线观看影片大全网站| a级毛片免费高清观看在线播放| 狂野欧美白嫩少妇大欣赏| 日日摸夜夜添夜夜添av毛片 | 亚洲四区av| 免费观看精品视频网站| 波多野结衣高清无吗| 精品免费久久久久久久清纯| 日本欧美国产在线视频| 国产aⅴ精品一区二区三区波| 午夜福利在线观看免费完整高清在 | 蜜桃亚洲精品一区二区三区| 国产毛片a区久久久久| 久久久久久伊人网av| 最后的刺客免费高清国语| 联通29元200g的流量卡| 免费看a级黄色片| а√天堂www在线а√下载| 国产精品永久免费网站| 国产精品一区二区性色av| av在线天堂中文字幕| 午夜日韩欧美国产| 亚洲真实伦在线观看| 日本免费a在线| 一卡2卡三卡四卡精品乱码亚洲| 久久久久国产精品人妻aⅴ院| 国产精品免费一区二区三区在线| 午夜福利视频1000在线观看| 窝窝影院91人妻| 亚洲国产精品sss在线观看| 校园人妻丝袜中文字幕| 欧美高清性xxxxhd video| 国产高清不卡午夜福利| 国产男人的电影天堂91| 国产视频内射| 精品福利观看| 国产精品免费一区二区三区在线| 亚洲四区av| 亚洲,欧美,日韩| 日日撸夜夜添| 好男人在线观看高清免费视频| 日日摸夜夜添夜夜添av毛片 | 亚洲人成网站在线播| 国产老妇女一区| 久久久久久久午夜电影| 国产69精品久久久久777片| 亚洲av二区三区四区| 99热网站在线观看| 别揉我奶头~嗯~啊~动态视频| 中文资源天堂在线| 搡女人真爽免费视频火全软件 | 最近视频中文字幕2019在线8| 免费看av在线观看网站| 婷婷精品国产亚洲av| 国产精品av视频在线免费观看| 久久久国产成人免费| 国产亚洲精品综合一区在线观看| 日韩精品有码人妻一区| 亚洲欧美日韩高清专用| 久久精品国产亚洲av涩爱 | 成熟少妇高潮喷水视频| 不卡一级毛片| 精品免费久久久久久久清纯| 亚洲在线自拍视频| 搡老岳熟女国产| 国产精品一区www在线观看 | 嫩草影院入口| 成人欧美大片| 草草在线视频免费看| 无人区码免费观看不卡| 国产黄片美女视频| 国产一区二区在线av高清观看| 国产v大片淫在线免费观看| 熟女电影av网| 亚洲av日韩精品久久久久久密| 成熟少妇高潮喷水视频| 国内少妇人妻偷人精品xxx网站| 深爱激情五月婷婷| 成人鲁丝片一二三区免费| 国产精品亚洲一级av第二区| 国产精品三级大全| 男人狂女人下面高潮的视频| 国产一区二区三区视频了| 狠狠狠狠99中文字幕| 午夜免费男女啪啪视频观看 | 国产欧美日韩精品亚洲av| 男插女下体视频免费在线播放| 免费在线观看日本一区| 亚洲经典国产精华液单| 午夜老司机福利剧场| 看黄色毛片网站| 丰满人妻一区二区三区视频av| 夜夜夜夜夜久久久久| 国产午夜福利久久久久久| 99九九线精品视频在线观看视频| 日韩欧美在线二视频| 成人av一区二区三区在线看| 欧美激情在线99| 人人妻人人看人人澡| www.色视频.com| 99热这里只有是精品在线观看| av.在线天堂| 女生性感内裤真人,穿戴方法视频| 直男gayav资源| 亚洲自拍偷在线| 午夜精品久久久久久毛片777| 欧美不卡视频在线免费观看| a级毛片免费高清观看在线播放| av黄色大香蕉| 成人国产一区最新在线观看| 女人十人毛片免费观看3o分钟| 午夜日韩欧美国产| 99热只有精品国产| 欧美成人免费av一区二区三区| 一区二区三区高清视频在线| 丰满乱子伦码专区| 免费黄网站久久成人精品| 日本五十路高清| 亚洲最大成人手机在线| 欧美人与善性xxx| 国产欧美日韩精品亚洲av| 最新在线观看一区二区三区| netflix在线观看网站| 国产欧美日韩精品亚洲av| 精品人妻一区二区三区麻豆 | 欧美最新免费一区二区三区| 日韩强制内射视频| av在线老鸭窝| 久久精品夜夜夜夜夜久久蜜豆| 日本黄色片子视频| 国产免费一级a男人的天堂| 精品免费久久久久久久清纯| 最近最新中文字幕大全电影3| 亚洲自拍偷在线| 免费看a级黄色片| 亚洲中文字幕日韩| 日日干狠狠操夜夜爽| 国内精品久久久久精免费| 国产精品av视频在线免费观看| 97超级碰碰碰精品色视频在线观看| 国产精品一区二区性色av| 日韩av在线大香蕉| 人人妻人人看人人澡| 国产精品人妻久久久影院| 日韩欧美在线二视频| av在线观看视频网站免费| 1024手机看黄色片| 国产高清不卡午夜福利| 日韩欧美免费精品| 中文字幕高清在线视频| 久久精品夜夜夜夜夜久久蜜豆| 日本黄色片子视频| 日韩欧美 国产精品| 俺也久久电影网| 黄色一级大片看看| 亚洲最大成人av| 99精品在免费线老司机午夜| 精品一区二区免费观看| 男人狂女人下面高潮的视频| 久久久久久九九精品二区国产| 亚洲精品影视一区二区三区av| 亚洲,欧美,日韩| 听说在线观看完整版免费高清| 国产男靠女视频免费网站| 国产高清激情床上av| 女人被狂操c到高潮| 亚洲 国产 在线| 久久久色成人| 免费av不卡在线播放| 听说在线观看完整版免费高清| 夜夜看夜夜爽夜夜摸| 欧美+亚洲+日韩+国产| 久久天躁狠狠躁夜夜2o2o| 亚洲最大成人中文| 国国产精品蜜臀av免费| 亚洲男人的天堂狠狠| 九九在线视频观看精品| 亚洲性夜色夜夜综合| 三级毛片av免费| 免费看光身美女| 亚洲无线在线观看| 亚洲在线观看片| 国产私拍福利视频在线观看| 日韩欧美在线二视频| 美女大奶头视频| 欧美中文日本在线观看视频| 国产精品久久久久久亚洲av鲁大| 麻豆成人午夜福利视频| 动漫黄色视频在线观看| 一区二区三区免费毛片| 国产免费男女视频| 中文字幕熟女人妻在线| 国产精品野战在线观看| 国产男人的电影天堂91| 天堂影院成人在线观看| 黄色女人牲交| 成熟少妇高潮喷水视频| 国产一区二区三区av在线 | 男女下面进入的视频免费午夜| 干丝袜人妻中文字幕| 婷婷精品国产亚洲av在线| 非洲黑人性xxxx精品又粗又长| 三级国产精品欧美在线观看| a在线观看视频网站| 国产熟女欧美一区二区| videossex国产| 国产精品1区2区在线观看.| 岛国在线免费视频观看| 国产伦在线观看视频一区| 男女做爰动态图高潮gif福利片| 日本欧美国产在线视频| 亚洲电影在线观看av| 99riav亚洲国产免费| 国产乱人伦免费视频| 丝袜美腿在线中文| 人人妻人人看人人澡| a级毛片免费高清观看在线播放| 日日摸夜夜添夜夜添小说| 国产一区二区在线av高清观看| 国产精品永久免费网站| 国产精品av视频在线免费观看| 国产精品久久久久久久久免| 色在线成人网| 成人性生交大片免费视频hd| 成人av一区二区三区在线看| 精品欧美国产一区二区三| 动漫黄色视频在线观看| 校园人妻丝袜中文字幕| 如何舔出高潮| 国产白丝娇喘喷水9色精品| 日韩精品中文字幕看吧| 午夜福利欧美成人| 看十八女毛片水多多多| 简卡轻食公司| 在现免费观看毛片| 欧美激情国产日韩精品一区| 日本精品一区二区三区蜜桃| 精品人妻一区二区三区麻豆 | 韩国av一区二区三区四区| 麻豆国产97在线/欧美| 日韩一区二区视频免费看| 国产一区二区在线av高清观看| 国产欧美日韩精品一区二区| 麻豆国产97在线/欧美| 国产激情偷乱视频一区二区| 丰满乱子伦码专区| 国产精品不卡视频一区二区| 黄色视频,在线免费观看| 在线播放无遮挡| 99九九线精品视频在线观看视频| 免费av观看视频| 偷拍熟女少妇极品色| 老司机深夜福利视频在线观看| 狠狠狠狠99中文字幕| 老熟妇乱子伦视频在线观看| 女人十人毛片免费观看3o分钟| 亚洲国产精品合色在线| 搡老妇女老女人老熟妇| 欧美人与善性xxx| а√天堂www在线а√下载| 欧美日韩瑟瑟在线播放| 一个人免费在线观看电影| 成人高潮视频无遮挡免费网站| av视频在线观看入口| 看十八女毛片水多多多| 亚洲aⅴ乱码一区二区在线播放| 国产欧美日韩精品一区二区| 久久久久久大精品| 日韩一区二区视频免费看| 露出奶头的视频| 国产午夜精品论理片| av视频在线观看入口| 亚洲精品一卡2卡三卡4卡5卡| 97热精品久久久久久| 动漫黄色视频在线观看| 久久九九热精品免费| 一区二区三区高清视频在线| 桃红色精品国产亚洲av| 不卡一级毛片| 国产精品美女特级片免费视频播放器| 91午夜精品亚洲一区二区三区 | 神马国产精品三级电影在线观看| 久久精品国产亚洲网站| 美女免费视频网站| 色av中文字幕| 黄色女人牲交| 亚洲av成人精品一区久久| 麻豆国产97在线/欧美| 色综合婷婷激情| 制服丝袜大香蕉在线| 成人国产综合亚洲| 亚洲精华国产精华精| 久久香蕉精品热| 麻豆成人午夜福利视频| 此物有八面人人有两片| 男人狂女人下面高潮的视频| 男人舔女人下体高潮全视频| 国产久久久一区二区三区| 亚洲一级一片aⅴ在线观看| 欧美最黄视频在线播放免费| 舔av片在线| 成年版毛片免费区| 99久久精品国产国产毛片| 国产乱人视频| 一级av片app| 国产免费av片在线观看野外av| 国产高清三级在线| 九色成人免费人妻av| 日韩一区二区视频免费看| 日韩强制内射视频| 日本熟妇午夜| 天天躁日日操中文字幕| 欧美不卡视频在线免费观看| 亚洲欧美清纯卡通| 日本免费一区二区三区高清不卡| 免费看av在线观看网站| 热99在线观看视频| 真实男女啪啪啪动态图| 91麻豆av在线| 亚洲精品日韩av片在线观看| 色尼玛亚洲综合影院| 国产精品人妻久久久影院| 色综合婷婷激情| 91在线精品国自产拍蜜月| 国产视频一区二区在线看| 最近在线观看免费完整版| 国产精品久久久久久亚洲av鲁大| 女人被狂操c到高潮| 国产蜜桃级精品一区二区三区| 亚洲在线观看片| 俄罗斯特黄特色一大片| 久久久久国产精品人妻aⅴ院| 天天躁日日操中文字幕| 国产一区二区三区视频了| 麻豆精品久久久久久蜜桃| 国产高清激情床上av| 大又大粗又爽又黄少妇毛片口| 听说在线观看完整版免费高清|