• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種針對(duì)異常點(diǎn)的自適應(yīng)回歸特征選擇方法

      2019-07-30 11:26:46郭亞慶王文劍蘇美紅
      關(guān)鍵詞:估計(jì)值特征選擇集上

      郭亞慶 王文劍 蘇美紅

      1(山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 太原 030006)2(計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室(山西大學(xué)) 太原 030006)

      一些實(shí)際學(xué)習(xí)任務(wù)的數(shù)據(jù)集中常含有大量不相關(guān)特征和冗余特征,特征數(shù)目巨大,如基因組分析、文本分類和圖像檢索等,故會(huì)導(dǎo)致維數(shù)災(zāi)難和學(xué)習(xí)任務(wù)難度提高等問題,以至于學(xué)習(xí)效果不好或?qū)W得模型可解釋性差.此外,觀測某些特征代價(jià)昂貴,若這些特征為無關(guān)特征,則會(huì)造成大量不必要開銷.解決上述問題的一種有效途徑是特征選擇.特征選擇是將可以代表整體的含有關(guān)鍵性度量信息的部分特征挑選出來的過程,它使得后續(xù)學(xué)習(xí)過程僅需在一部分特征上構(gòu)建模型[1-2].另外,現(xiàn)有針對(duì)回歸問題的特征選擇方法,當(dāng)數(shù)據(jù)集含異常點(diǎn)時(shí),對(duì)其敏感或自適應(yīng)能力不佳,導(dǎo)致特征選擇和學(xué)習(xí)效果較差.故如何自適應(yīng)地進(jìn)行穩(wěn)健回歸特征選擇仍然是一個(gè)挑戰(zhàn)性的課題.

      針對(duì)分類問題的特征選擇方法已有很多,常用的方法可分為2類:一類為過濾式(如Relief(relevant features)、mRMR(max-relevancy, min-redundancy)和Relief-F等);另一類為包裹式(如LVM(Las Vegas wrapper)、SFFS(sequential floating forward selection)、SFS(sequential feature selection)和LRS(Plus-L-Minus-R search)等)[3-6].這些方法都是先對(duì)數(shù)據(jù)集進(jìn)行特征選擇,再訓(xùn)練學(xué)習(xí)器,其中過濾式方法特征選擇過程與后續(xù)學(xué)習(xí)器無關(guān),導(dǎo)致最終學(xué)習(xí)器性能不好;包裹式方法雖然在選擇特征時(shí)考慮了學(xué)習(xí)器性能,但因?yàn)槎啻斡?xùn)練學(xué)習(xí)器造成了大量時(shí)間開銷.

      上述面向分類的特征選擇方法往往不能直接用于回歸問題或應(yīng)用后效果不好.目前針對(duì)回歸問題的特征選擇方法較少,其代表性方法分為兩大類:

      1) 先對(duì)數(shù)據(jù)集進(jìn)行特征選擇,然后再訓(xùn)練學(xué)習(xí)器,如向前選擇法(forward-stepwise selection)、向后剔除法(backward-stepwise selection)和逐步篩選法(forward-stagewise regression)等,這些方法不僅具有分類特征選擇方法的某些缺點(diǎn),還不適用于特征數(shù)目巨大和有相關(guān)特征的數(shù)據(jù)集,適用范圍較小,故并不常用[7].

      2) 將特征選擇過程與學(xué)習(xí)器訓(xùn)練過程融為一體同時(shí)完成,提高了最終學(xué)習(xí)器的性能,降低了開銷,其典型方法有LASSO[8]、LAD-LASSO(least absolute deviation)[9]、L1/2正則化[10]、嶺回歸(ridge regression)[11]、Elastic Net[12]、Group Lasso[13]、SCAD(smoothly clipped absolute deviation)[14]和MCP(minimax concave penalty)[15]等.其中嶺回歸因使用L2正則項(xiàng)而不易于獲得稀疏解;L1/2正則化的實(shí)現(xiàn)算法效率較低;Elastic Net適用于特征之間相關(guān)性較高的數(shù)據(jù)集;Group Lasso適用于協(xié)變量之間存在組結(jié)構(gòu)的回歸數(shù)據(jù)集;SCAD和MCP雖然降低了LASSO的泛化誤差,但正則項(xiàng)復(fù)雜,較難求解,故LASSO和LAD-LASSO這2種方法更為常用.LASSO可以較為準(zhǔn)確地完成特征選擇,并且計(jì)算快捷,故被廣泛使用.

      上述回歸特征選擇方法對(duì)異常點(diǎn)(數(shù)據(jù)集中與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對(duì)象)極其敏感,導(dǎo)致對(duì)于含有異常點(diǎn)的數(shù)據(jù)集,其穩(wěn)健性和稀疏性都有所下降.目前提出的穩(wěn)健回歸特征選擇方法不多且大多針對(duì)含有噪聲的數(shù)據(jù)集,如分位數(shù)回歸及其改進(jìn)方法[16-18]和LAD-LASSO等,其中分位數(shù)回歸及其改進(jìn)方法模型復(fù)雜.針對(duì)異常點(diǎn)的穩(wěn)健回歸估計(jì)方法有WLAD(weight least absolute deviation)[19]和LTS(least trimmed squares estimator)[20]等,在其基礎(chǔ)上WLAD-LASSO[19],LTS-LASSO[20],reweighted LTS-LASSO[20],WLAD-CATREG(categorical regres-sion model) adoptive elastic net[21]和WLAD-SCAD[22]等被相繼提出,這些方法增加了易于獲得稀疏解的正則項(xiàng),可以同時(shí)完成特征選擇和學(xué)習(xí)器訓(xùn)練.其中LTS-LASSO通過將訓(xùn)練誤差較小的數(shù)據(jù)集子集作為訓(xùn)練集來降低異常點(diǎn)影響,但其時(shí)間開銷較大;其余針對(duì)異常點(diǎn)的回歸特征選擇方法通過給損失函數(shù)加權(quán)來提高其穩(wěn)健性,其中reweighted LTS-LASSO將LTS-LASSO求得的回歸系數(shù)作為參數(shù)初值,WLAD-LASSO,WLAD-CATREG和WLAD-SCAD根據(jù)數(shù)據(jù)集穩(wěn)健位置估計(jì)量、數(shù)據(jù)集散點(diǎn)估計(jì)量和各樣本的穩(wěn)健距離得樣本權(quán)重,上述通過加權(quán)來提高穩(wěn)健性的回歸特征選擇方法都是先計(jì)算好樣本損失函數(shù)權(quán)重,再進(jìn)行特征選擇和學(xué)習(xí)器訓(xùn)練,樣本權(quán)重在整個(gè)算法執(zhí)行過程中固定不變,故它們無法在特征選擇和學(xué)習(xí)器訓(xùn)練過程中根據(jù)學(xué)習(xí)效果多次自主修改權(quán)重來進(jìn)一步提高算法性能,算法自適應(yīng)能力不佳.此外,針對(duì)現(xiàn)有回歸特征選擇方法當(dāng)數(shù)據(jù)集含異常點(diǎn)時(shí)性能較差這一固有問題,近年來并沒有很好的研究成果.

      鑒于此,本文提出一種能不斷根據(jù)數(shù)據(jù)集和學(xué)習(xí)效果自主更新樣本權(quán)重的用于線性回歸的穩(wěn)健特征選擇方法AWLASSO(adaptive weight LASSO),其使用在[0,1]中連續(xù)變化的自適應(yīng)權(quán)重以更好地提高自適應(yīng)性.該方法將特征選擇與學(xué)習(xí)器訓(xùn)練過程融為一體同時(shí)完成,以提高學(xué)習(xí)器性能和降低模型復(fù)雜度.AWLASSO算法通過閾值確定樣本的損失函數(shù)權(quán)重;一方面可以使迭代過程總朝著較好的回歸系數(shù)估計(jì)值方向進(jìn)行;另一方面能保證訓(xùn)練集含有足夠的樣本,同時(shí)可以排除異常點(diǎn)的影響.本文在構(gòu)造數(shù)據(jù)和標(biāo)準(zhǔn)數(shù)據(jù)上驗(yàn)證了提出方法的有效性.

      1 預(yù)備知識(shí)

      為便于理解本文提出方法及與LASSO和LAD-LASSO進(jìn)行比較,本節(jié)簡要介紹LASSO和LAD-LASSO.

      (1)

      其中,正則化參數(shù)λ>0.求解LASSO的方法有Homotopy[23]、LARS(Least Angle RegresSion)[24]、坐標(biāo)下降法[25-26]等.

      與LASSO方法相比,LAD-LASSO方法以絕對(duì)值誤差為損失函數(shù),其優(yōu)化目標(biāo)為

      (2)

      將其轉(zhuǎn)化成線性規(guī)劃問題即可求解[27].

      2 針對(duì)異常點(diǎn)的自適應(yīng)回歸特征選擇方法

      2.1 AWLASSO模型

      對(duì)于不含異常點(diǎn)的數(shù)據(jù)集,LASSO和LAD-LASSO方法都具有良好的性能,然而對(duì)于含有異常點(diǎn)的數(shù)據(jù)集,這2種方法沒有區(qū)別對(duì)待異常點(diǎn),可能使得回歸系數(shù)估計(jì)值與真實(shí)回歸系數(shù)相差較大,導(dǎo)致特征選擇和學(xué)習(xí)器訓(xùn)練效果不好.此外,LASSO使用平方誤差作為損失函數(shù),相比LAD-LASSO以絕對(duì)值誤差為損失函數(shù),可能會(huì)使異常點(diǎn)的影響被放大,故其穩(wěn)健性和稀疏性被破壞更為嚴(yán)重.

      本文提出的AWLASSO首先根據(jù)更新后的回歸系數(shù)更新樣本誤差,并通過自適應(yīng)正則項(xiàng)將誤差大于當(dāng)前閾值的樣本的損失函數(shù)賦予較小權(quán)重,誤差小于閾值的樣本的損失函數(shù)賦予較大權(quán)重,再在更新了權(quán)重的加權(quán)損失函數(shù)下重新估計(jì)回歸系數(shù).通過不斷迭代上述過程,它每次在較優(yōu)樣本權(quán)重估計(jì)值下完成回歸系數(shù)估計(jì),在較優(yōu)回歸系數(shù)估計(jì)值下完成樣本權(quán)重估計(jì).多次自主修正權(quán)重后其在合適的加權(quán)損失函數(shù)下完成特征選擇和學(xué)習(xí)器訓(xùn)練.本文在第1次迭代時(shí)隨機(jī)挑選部分樣本作為訓(xùn)練集,該訓(xùn)練集可能含有異常點(diǎn),故為防止異常點(diǎn)進(jìn)入下一次迭代,在下一輪迭代中得到較好的回歸系數(shù)估計(jì)值,AWLASSO閾值初始值取較小值.在上述迭代過程中,閾值不斷增大,被誤判為異常點(diǎn)的樣本有機(jī)會(huì)重新進(jìn)入訓(xùn)練集,以保證訓(xùn)練集含有足夠的樣本和保留多種樣本信息.相比閾值由大到小進(jìn)行迭代,上述閾值選取方式,大量異常點(diǎn)進(jìn)入訓(xùn)練集的可能性較小,不會(huì)出現(xiàn)即使減小閾值,由于各樣本誤差累積,仍無法對(duì)樣本損失函數(shù)準(zhǔn)確賦權(quán)重,最終得到偏差較大的回歸系數(shù)估計(jì)值的情況.AWLASSO當(dāng)達(dá)到最大閾值時(shí)迭代停止,此時(shí)它將誤差大于最大閾值,即學(xué)習(xí)代價(jià)較大,會(huì)嚴(yán)重影響學(xué)習(xí)效果的樣本視作異常點(diǎn),令其損失函數(shù)權(quán)重為0,以降低異常點(diǎn)的影響.

      AWLASSO具體模型為

      (3)

      1) 更新樣本權(quán)重.首先根據(jù)當(dāng)前的回歸系數(shù)估計(jì)值更新各樣本誤差,然后更新自適應(yīng)正則化參數(shù),最后利用更新后的各參數(shù)和自適應(yīng)正則項(xiàng)更新樣本權(quán)重,此時(shí),誤差大于當(dāng)前閾值的樣本的損失函數(shù)被賦予較小權(quán)重,誤差小于閾值的樣本的損失函數(shù)被賦予較大權(quán)重,并利用更新后的權(quán)重修正加權(quán)損失函數(shù).

      2) 更新回歸系數(shù).求解更新后的目標(biāo)函數(shù),即完成特征選擇和學(xué)習(xí)器訓(xùn)練,并反饋回歸系數(shù)估計(jì)值.

      AWLASSO算法多次迭代上述2個(gè)階段,不斷根據(jù)數(shù)據(jù)集和學(xué)習(xí)效果自主更新樣本權(quán)重.在上述迭代過程中,閾值不斷增大,當(dāng)達(dá)到最大閾值時(shí)迭代停止,此時(shí)AWLASSO將誤差大于最大閾值的樣本視作異常點(diǎn),令其損失函數(shù)權(quán)重為0,以降低異常點(diǎn)的影響,提高算法性能.其在處理異常點(diǎn)時(shí),不僅不需要較好地回歸系數(shù)參數(shù)初值,也不只依賴數(shù)據(jù)集,算法具有較好的自適應(yīng)能力.

      2.2 樣本權(quán)重確定

      (4)

      通過優(yōu)化

      可得自適應(yīng)向量各分量為

      (5)

      2.3 模型求解

      本文使用交替迭代方法求解AWLASSO模型,每次迭代先固定v求β,再固定β求v,直到獲得較為滿意的結(jié)果為止.固定v求β時(shí),AWLASSO的優(yōu)化目標(biāo)為

      (6)

      與常規(guī)的LASSO相同,本文也選用坐標(biāo)下降法[25]求解該優(yōu)化目標(biāo),即:

      對(duì)βj求導(dǎo)得:

      (7)

      其中,βj∈[0,z)或(z,0],且當(dāng)z≠0時(shí)βj與λ有關(guān),當(dāng)λ值較大時(shí),βj有可能成為0.

      在下次迭代過程中,通過式(5)更新v.

      2.4 算法描述

      求解AWLASSO的主要步驟如算法1所示.

      算法1.AWLASSO模型求解算法.

      輸入:訓(xùn)練集X∈Rn×p和Y∈Rn、自適應(yīng)參數(shù)初始值k0、自適應(yīng)參數(shù)終止值kend、正則化參數(shù)λ,且k0>kend,μ>1;

      輸出:回歸系數(shù)β.

      Step1. 初始化自適應(yīng)向量v為一個(gè)固定值(一般隨機(jī)令v一半分量為0,另一半分量為1),自適應(yīng)參數(shù)k=k0;

      Step2. 當(dāng)自適應(yīng)參數(shù)k>kend時(shí),循環(huán)執(zhí)行以下步驟:

      Step2.1. 更新回歸系數(shù)β;

      Step2.3. 將各參數(shù)帶入式(5),更新v;

      3 實(shí)驗(yàn)結(jié)果及分析

      3.1 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

      為驗(yàn)證本文提出方法AWLASSO的有效性,分別在2個(gè)構(gòu)造數(shù)據(jù)集和4個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并與LASSO和LAD-LASSO進(jìn)行對(duì)比.

      Table 1 Artificial Datasets表1 構(gòu)造數(shù)據(jù)集

      Table 2 Benchmark Datasets表2 標(biāo)準(zhǔn)數(shù)據(jù)集

      Fig. 1 Feature selection results on D1圖1 在D1數(shù)據(jù)集上的特征選擇結(jié)果

      實(shí)驗(yàn)中AWLASSO方法的參數(shù)γ=0.4,μ=1.2,k初始值為2.5,終止值為0.000 1.在構(gòu)造數(shù)據(jù)集上,實(shí)驗(yàn)重復(fù)進(jìn)行100次,取平均值作為最終結(jié)果.

      本文用平均平方誤差(MSE)作為評(píng)價(jià)算法穩(wěn)健性的性能指標(biāo),用MSE1表示回歸系數(shù)估計(jì)值β*與βtrue的差別,即:

      (8)

      用MSE2表示回歸系數(shù)估計(jì)值β*與βfalse的差別,即:

      (9)

      (10)

      其中,w表示實(shí)驗(yàn)重復(fù)次數(shù),Yt表示第t次實(shí)驗(yàn)得到的回歸向量預(yù)測值.如果某種方法的MSE1較小且MSE2較大或MSE3較小,說明該方法估計(jì)出的回歸系數(shù)與真實(shí)回歸系數(shù)相差較小,與干擾回歸系數(shù)相差較大,其穩(wěn)健性較好,反之穩(wěn)健性較差.同時(shí)本文用無關(guān)特征選擇正確個(gè)數(shù)的平均表現(xiàn)來評(píng)估這3種方法的稀疏性,其值越接近真實(shí)回歸系數(shù)含0總數(shù),對(duì)應(yīng)方法稀疏性越好,反之則越差.

      所有實(shí)驗(yàn)用MATLABR2014a實(shí)現(xiàn).實(shí)驗(yàn)環(huán)境為4 GB內(nèi)存,Intel?CoreTM2 Quad處理器,2.66 GHz,Windows10操作系統(tǒng).

      3.2 構(gòu)造數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

      3.2.1 特征選擇結(jié)果

      首先比較LASSO,LAD-LASSO和AWLASSO這3種方法特征選擇的結(jié)果.由于這3種方法在構(gòu)造數(shù)據(jù)集D1和D2上特征選擇結(jié)果基本一致,故本文只給出構(gòu)造數(shù)據(jù)集D1上的實(shí)驗(yàn)結(jié)果.圖1為構(gòu)造數(shù)據(jù)集D1上的特征選擇結(jié)果,圖1(a)是選出無關(guān)特征的個(gè)數(shù)的平均結(jié)果,圖1(b)給出了無關(guān)特征選擇正確個(gè)數(shù)的平均結(jié)果與選出無關(guān)特征的個(gè)數(shù)的平均結(jié)果的比例r.在D1數(shù)據(jù)集上,真實(shí)回歸系數(shù)有4個(gè)分量為0,即有4個(gè)無關(guān)特征,故在圖1(a)中選出無關(guān)特征的個(gè)數(shù)的平均結(jié)果越接近4,對(duì)應(yīng)方法特征選擇效果越好.由于LASSO在各污染率下無關(guān)特征選擇正確個(gè)數(shù)的平均結(jié)果和選出無關(guān)特征的個(gè)數(shù)的平均結(jié)果皆為0,且LAD-LASSO和AWLASSO在各污染率下當(dāng)λ>25時(shí),得到的回歸系數(shù)估計(jì)值各分量皆為0或極小的數(shù),方法失效,故未在圖1中給出上述實(shí)驗(yàn)特征選擇結(jié)果.從圖1(a)中可以看出,在不同污染率下,LASSO和LAD-LASSO在不同λ值下選出無關(guān)特征的個(gè)數(shù)的平均結(jié)果都接近于0,嚴(yán)重偏離4;AWLASSO當(dāng)λ取值較小時(shí)接近于4.由于LAD-LASSO并未完成特征選擇,圖1(b)只給出AWLASSO方法的r,r值應(yīng)介于0到1之間.由圖1(b)可知AWLASSO方法當(dāng)選出無關(guān)特征的個(gè)數(shù)的平均結(jié)果接近于4時(shí)其r都接近于1,即它正確選出了無關(guān)特征,特征選擇結(jié)果較好,但它對(duì)參數(shù)λ較為敏感,當(dāng)λ值增大到一定程度后,其得到的回歸系數(shù)估計(jì)值各分量都為0,r=1/2,無法完成特征選擇.

      3.2.2 穩(wěn)健性比較

      本文還比較了3種方法的穩(wěn)健性.由于這3種方法在構(gòu)造數(shù)據(jù)集D1和D2上實(shí)驗(yàn)結(jié)果基本一致,故本文只給出構(gòu)造數(shù)據(jù)集D2上的實(shí)驗(yàn)結(jié)果.圖2是構(gòu)造數(shù)據(jù)集D2在不同污染率下MSE1和MSE2的比較結(jié)果,其中不含空心圓的曲線表示各方法的MSE1,含空心圓的曲線表示各方法的MSE2.從圖2中可以看出,在不同污染率下,無論是MSE1還是MSE2,LASSO方法都較大,說明其對(duì)含有異常點(diǎn)的數(shù)據(jù)處理能力較差.對(duì)于MSE1,AWLASSO方法在一定的λ值之下,都小于LAD-LASSO,當(dāng)λ值繼續(xù)增大時(shí),LAD-LASSO的MSE1才減小至與AWLASSO的相同.對(duì)于MSE2,在絕大多數(shù)情況下AWLASSO要高于LAD-LASSO,當(dāng)λ大于一定值之后,2種方法的MSE2才相同.實(shí)驗(yàn)結(jié)果表明,AWLASSO方法估計(jì)出的回歸系數(shù)都與回歸系數(shù)真實(shí)值相差較小(MSE1較小),與干擾回歸系數(shù)相差較大(MSE2較大),它不會(huì)像LAD-LASSO方法那樣受干擾回歸系數(shù)的影響,故AWLASSO方法的穩(wěn)健性更好.

      Fig. 2 Comparisons of MSE1 and MSE2 on D2圖2 3種方法在D2數(shù)據(jù)集上的MSE1和MSE2比較結(jié)果

      為了更好地說明AWLASSO方法與LAD-LASSO方法的穩(wěn)健性,通過對(duì)比圖2各分圖可得它們?cè)跇?gòu)造數(shù)據(jù)集D2上污染率取不同值時(shí)MSE1的比較結(jié)果.從中可以看出,當(dāng)其他參數(shù)取值相同時(shí),LAD-LASSO方法對(duì)應(yīng)的MSE1隨著污染率的增大而顯著增大,AWLASSO方法對(duì)應(yīng)的MSE1并沒有隨著污染率的增大而顯著增大,而是一直處于某一值附近,其性能不會(huì)隨著數(shù)據(jù)集中被污染數(shù)據(jù)的增加而顯著變差,即AWLASSO方法相比LAD-LASSO方法更穩(wěn)健.

      在構(gòu)造數(shù)據(jù)集上的所有實(shí)驗(yàn)結(jié)果表明:無論數(shù)據(jù)分布如何,異常點(diǎn)分布如何,AWLASSO都比LASSO和LAD-LASSO更穩(wěn)健更稀疏.

      3.3 標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

      Table 3 Experiment Results of Three Methods on Benchmark Datasets表3 3種方法在標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

      Note: “↓” represents the most robust method is the one having the lowestSE3.

      1) 原始數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

      由表3知,LASSO在上述標(biāo)準(zhǔn)數(shù)據(jù)集上的32個(gè)回歸系數(shù)估計(jì)值中有10個(gè)不含無關(guān)特征,LAD-LASSO的有16個(gè)不含無關(guān)特征,AWLASSO的有6個(gè)不含無關(guān)特征.AWLASSO在Eunite2001數(shù)據(jù)集上,當(dāng)λ=70時(shí),選出了9個(gè)無關(guān)特征;在Housing數(shù)據(jù)集上,當(dāng)λ=80時(shí),選出了9個(gè)無關(guān)特征;在Mpg數(shù)據(jù)集上,當(dāng)λ=50時(shí),選出了5個(gè)無關(guān)特征;在Tiazines據(jù)集上,當(dāng)λ=30時(shí),選出了58個(gè)無關(guān)特征,即其在各數(shù)據(jù)集上選出無關(guān)特征最多,且沒有將所有特征視作無關(guān)特征.在各數(shù)據(jù)集上,AWLASSO方法對(duì)參數(shù)λ較為敏感,它只在某些λ值下特征選擇效果好,學(xué)習(xí)器訓(xùn)練效果中等;LAD-LASSO方法在各λ值下學(xué)習(xí)器訓(xùn)練效果都好,但特征選擇效果都不好;LASSO方法在數(shù)據(jù)集Eunite2001,Housing和Triazines上,特征選擇和學(xué)習(xí)器訓(xùn)練效果都不好,但在數(shù)據(jù)集MPG上,當(dāng)參數(shù)λ取某些值時(shí),其特征選擇和學(xué)習(xí)器訓(xùn)練效果較好.

      由于LASSO方法整體表現(xiàn)不穩(wěn)定,所以后邊實(shí)驗(yàn)只比較了LAD-LASSO和AWLASSO方法的性能.表4給出了這2種方法在各自較優(yōu)參數(shù)范圍內(nèi)的實(shí)驗(yàn)結(jié)果比較,“0”表示在較優(yōu)參數(shù)范圍內(nèi)求得的各回歸系數(shù)估計(jì)值無重疊無關(guān)特征.由表4知,當(dāng)參數(shù)λ在較優(yōu)參數(shù)范圍內(nèi)時(shí),LAD-LASSO方法在4個(gè)數(shù)據(jù)集上都沒有重疊無關(guān)特征,它在各較優(yōu)參數(shù)λ下只有少數(shù)回歸系數(shù)估計(jì)值含有少量0分量,其選出的無關(guān)特征較少.AWLASSO在所有的數(shù)據(jù)集上都有大量重疊無關(guān)特征,其在較優(yōu)參數(shù)范圍內(nèi)得到的各回歸系數(shù)都含大量的0分量,它選出了大量無關(guān)特征且不會(huì)將所有特征視作無關(guān)特征.AWLASSO方法的最小SE3和最大SE3要稍大于LAD-LASSO方法的.故在標(biāo)準(zhǔn)數(shù)據(jù)集上AWLASSO沒有LAD-LASSO穩(wěn)健,但比LAD-LASSO稀疏.

      2) 含異常點(diǎn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

      Table 4 Experiment Results with Fitted Parameter λ on Benchmark Datasets表4 較優(yōu)參數(shù)λ下的標(biāo)準(zhǔn)數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

      由表5可知,在上述標(biāo)準(zhǔn)數(shù)據(jù)集上,LAD-LASSO在各θ下的50個(gè)回歸系數(shù)估計(jì)值都沒有重疊無關(guān)特征.它在各數(shù)據(jù)集上所有參數(shù)組合下的200個(gè)回歸系數(shù)估計(jì)值,在Eunite2001上有174個(gè)不含無關(guān)特征,有26個(gè)有無關(guān)特征但無重疊無關(guān)特征;在Housing數(shù)據(jù)集上有193個(gè)不含無關(guān)特征,有7個(gè)有無關(guān)特征但無重疊無關(guān)特征;在Triazines數(shù)據(jù)集上有75個(gè)不含無關(guān)特征,有125個(gè)有無關(guān)特征但無重疊無關(guān)特征;在MPG數(shù)據(jù)集上有197個(gè)不含無關(guān)特征,有3個(gè)有無關(guān)特征但無重疊無關(guān)特征.而AWLASSO只在MPG數(shù)據(jù)集上當(dāng)污染率θ=0.5時(shí)沒有重疊無關(guān)特征,剩余情況下,其皆有大量重疊無關(guān)特征,而且它重疊無關(guān)特征數(shù)小于數(shù)據(jù)集特征總數(shù),即AWLASSO沒有將所有特征視作無關(guān)特征.

      Table 5 Feature Selection Results on Benchmark Datasets with Outliers表5 含異常點(diǎn)的標(biāo)準(zhǔn)數(shù)據(jù)集特征選擇結(jié)果

      Fig. 3 Comparisons of MSE3 on benchmark datasets with outliers圖3 含異常點(diǎn)的標(biāo)準(zhǔn)數(shù)據(jù)集上MSE3的比較結(jié)果

      由圖3可知當(dāng)異常點(diǎn)含量為20%時(shí),AWLASSO方法只在MPG數(shù)據(jù)集上MSE3比LAD-LASSO的小,但在Triazines數(shù)據(jù)集上兩者M(jìn)SE3相差不大.當(dāng)異常點(diǎn)含量為30%~50%時(shí),AWLASSO方法的MSE3要比LAD-LASSO的小很多,且它不會(huì)像LAD-LASSO那樣其MSE3隨著污染率的增大而顯著增大.在標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明當(dāng)數(shù)據(jù)集含異常點(diǎn)時(shí),AWLASSO方法的特征選擇能力更強(qiáng)、穩(wěn)健性更好.

      3.4 高維數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

      為驗(yàn)證AWLASSO方法在特征數(shù)量較多的數(shù)據(jù)集上的性能,本文構(gòu)造高維數(shù)據(jù)集D3和D4,其構(gòu)造方法與構(gòu)造數(shù)據(jù)集的構(gòu)造方法相同.高維數(shù)據(jù)集的真實(shí)回歸系數(shù)βtrue=(1,2.5,1.5,2,0,…,0)T,數(shù)據(jù)集如表6所示:

      Table 6 High Dimensional Datasets表6 高維數(shù)據(jù)集

      高維數(shù)據(jù)集上LASSO,LAD-LASSO和AWL-ASSO這3種方法特征選擇的結(jié)果如圖4所示.由于LASSO未完成特征選擇,故在圖中未給出其結(jié)果.由圖4(a)(b)可知,當(dāng)λ取合適值時(shí),LAD-LASSO幾乎沒有選出無關(guān)特征,AWLASSO在D3和D4數(shù)據(jù)集上選出無關(guān)特征數(shù)目的均值接近于數(shù)據(jù)集所含無關(guān)特征總數(shù),且它正確選出了無關(guān)特征.

      圖5和圖6分別是3種模型在不同污染率下MSE1和MSE2的比較結(jié)果.從圖5和圖6中可以看出,在不同污染率下,相比LASSO和LAD-LASSO,絕大多數(shù)情況下AWLASSO方法MSE1都較小,MSE2都較大,且其對(duì)應(yīng)的MSE1并沒有隨著污染率的增大而顯著增大.高維數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,當(dāng)數(shù)據(jù)集含大量特征時(shí),AWLASSO方法仍有較好的穩(wěn)健性和特征選擇能力.

      Fig. 4 Feature selection results on high dimensional data sets圖4 在高維數(shù)據(jù)集上的特征選擇結(jié)果

      Fig. 5 Comparisons of MSE1 and MSE2 on D3圖5 3種方法在D3數(shù)據(jù)集上的MSE1和MSE2比較結(jié)果

      Fig. 6 Comparisons of MSE1 and MSE2 on D4圖6 3種方法在D4數(shù)據(jù)集上的MSE1和MSE2比較結(jié)果

      4 結(jié) 語

      目前針對(duì)回歸問題的特征選擇方法研究較少,特別地,當(dāng)數(shù)據(jù)集含有異常點(diǎn)時(shí),現(xiàn)有的特征選擇方法幾乎都不能很好地選出有效特征.本文提出的面向異常點(diǎn)的穩(wěn)健回歸特征選擇方法AWLASSO,通過自適應(yīng)正則項(xiàng)自主更新?lián)p失函數(shù)權(quán)重,進(jìn)而迭代估計(jì)回歸系數(shù).AWLASSO的迭代過程總是朝著較好的回歸系數(shù)估計(jì)值方向進(jìn)行,在迭代后期其訓(xùn)練集含有足夠的樣本,因而其獲得了較好的實(shí)驗(yàn)結(jié)果.此外算法可以排除異常點(diǎn)的影響,故其能較好地同時(shí)完成特征選擇和學(xué)習(xí)器訓(xùn)練.與經(jīng)典的LASSO和LAD-LASSO相比,本文提出方法更穩(wěn)健、更稀疏,即使異常點(diǎn)含量較多該方法依然有效.然而該方法中的正則參數(shù)λ對(duì)方法性能有一定影響,如何進(jìn)一步提高方法的穩(wěn)健性是我們未來的研究工作.

      猜你喜歡
      估計(jì)值特征選擇集上
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      一道樣本的數(shù)字特征與頻率分布直方圖的交匯問題
      統(tǒng)計(jì)信息
      2018年4月世界粗鋼產(chǎn)量表(續(xù))萬噸
      復(fù)扇形指標(biāo)集上的分布混沌
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
      基于二元搭配詞的微博情感特征選擇
      麦盖提县| 尤溪县| 温州市| 山西省| 信宜市| 聂荣县| 阜宁县| 关岭| 深水埗区| 青田县| 东城区| 蒙自县| 衡山县| 碌曲县| 贵港市| 平和县| 阳高县| 弥渡县| 惠州市| 隆昌县| 井冈山市| 大名县| 遂溪县| 临泽县| 胶南市| 浏阳市| 禄丰县| 涟水县| 永城市| 井研县| 久治县| 赣州市| 扶绥县| 肥东县| 大同市| 中山市| 陕西省| 平乡县| 河源市| 北京市| 神池县|