于娜
摘 ?要:數(shù)據(jù)化的信息時(shí)代, 人們一直期待能夠?qū)]有代表性的冗余的特征去除, 從而使獲得的數(shù)據(jù)是通常由有效的、具有代表性的特征表示的。通過特征篩選去建立一個(gè)預(yù)測(cè)精度高的可解釋模型。正則化下的稀疏模型是識(shí)別積極活躍特征的一種流行技術(shù)??傮w來說,特征篩選目標(biāo)為: 剔除不具代表性的冗余特征, 識(shí)別積極的有效特征; 可解釋性好的高準(zhǔn)度預(yù)測(cè)模型。篩選出有效的特征不僅可以提高計(jì)算效率, 還能提高預(yù)測(cè)模型的精準(zhǔn)度。
關(guān)鍵詞:安全篩選 ?啟發(fā)式篩選方法 ?SASVI 篩選方法 ?DPP篩選方法
中圖分類號(hào):O177.5 ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-3791(2020)12(c)-0231-03
Research on Common Feature Screening Methods
YU Na*
(Heilongjiang College of Business and Technology, Harbin, Heilongjiang Province,150025 China)
Abstract: In the information age of data, people have been expecting to remove redundant featurethat is not representative, so that the obtained data is generally represented by effective and representative feature. A high-precision prediction is established by feature filtering ?explainable model. The sparse model under regularization is a popular technique for identifying active features. In general, the goal of feature selection is to remove redundant feature that is not representative and identify positive, effective feature high-precision prediction model and good interpretability. Screening out effective features can not only improve the calculation efficiency, but also improve the accuracy of the prediction model.
Key Words: Security screening; Heuristic screening approach; The SASVI approach; The DPP approach
1996年Tibshirani[1]提出了一種基于正則(罰)的Lasso模型,模型如下:
(1)
其中,權(quán)重表示模型系數(shù)。
特征篩選能夠通過加速計(jì)算,降低模型維度成為解決稀疏或結(jié)構(gòu)化稀疏正則化學(xué)習(xí)模型的重要步驟。針對(duì)于LASSO一類的篩選方法[2-6]主要分為啟發(fā)式篩選方法和安全篩選方法兩類。啟發(fā)式篩選方法無法保證在優(yōu)化問題的最優(yōu)解向量中移除都是非積極特征。啟發(fā)式篩選方法之一是“強(qiáng)規(guī)則”篩選,它基于某種假設(shè)推導(dǎo)其篩選規(guī)則,并且無法保證該假設(shè)總是存在的。而安全篩選方法則能有效地完善這一問題。安全指的就是可以保證剔除的特征都是非積極特征。安全篩選方法通過估測(cè)對(duì)偶最優(yōu)解得到篩選規(guī)則,估測(cè)的值越精確,可以剔除掉的非積極特征越多。一種安全篩選方法是2012年El Ghaoui[3]和他的同事提出的SAFE篩選規(guī)則,該方法可以識(shí)別在解向量中系數(shù)為零的預(yù)測(cè)變量,進(jìn)而在優(yōu)化問題中排除無效的預(yù)測(cè)變量或特征以減小模型的復(fù)雜程度。2013年Wang Jie等人在此基礎(chǔ)上提出了DPP[2]篩選規(guī)則,該方法利用對(duì)偶問題的可行集是一個(gè)閉凸多面體的幾何特性提出的。2014年Liu Jun等人提出的SASVI[5]篩選規(guī)則,利用了變分不等式為對(duì)偶問題提供優(yōu)化條件,構(gòu)建的可行集更加嚴(yán)格。篩選規(guī)則的關(guān)鍵在于如何構(gòu)造對(duì)偶問題的最優(yōu)解集的可行域,可行域越緊嚴(yán)格,越接近精確的對(duì)偶最優(yōu)解,篩選越有效。該文以一類Fused Lasso[2]模型為例,對(duì)比這幾類篩選規(guī)則??紤]當(dāng)系數(shù)懲罰項(xiàng)的正則參數(shù)為零時(shí)的模型:
1 ?對(duì)偶問題
該文主要研究的是如下優(yōu)化問題:
其中,表示模型系數(shù),是設(shè)計(jì)矩陣,為差分矩陣形式如下:
初始問題(3)式,得到對(duì)偶問題如下:
相當(dāng)于對(duì)下式進(jìn)行優(yōu)化:
(4)
2 ?SASVI篩選規(guī)則
下面主要談一談關(guān)于可行集建立問題。
定理1 設(shè)f( )是一個(gè)可微凸函數(shù),C是一個(gè)閉凸集,是約束優(yōu)化問題:
的最優(yōu)解當(dāng)且僅當(dāng)。
對(duì)于對(duì)偶問題來說,在時(shí),無法通過簡(jiǎn)單的運(yùn)算,求得到對(duì)偶最優(yōu)解。由此,考慮利用定理1中的變分不等式構(gòu)建一個(gè)緊的對(duì)偶可行集??尚屑缦拢?/p>
通過分析可知,當(dāng)參數(shù)越靠近,可行集越緊。當(dāng) 時(shí),有,該可行集為一個(gè)單點(diǎn)集里
只含有一個(gè)元素。
因?yàn)?,通過構(gòu)建的篩選規(guī)則:
可以通過下式來估測(cè)
(5)
通過計(jì)算(3)式得到結(jié)果,當(dāng)結(jié)果小于1時(shí),由篩選規(guī)則知,有 ? ? ? ? ? 。由此可以識(shí)別出相鄰特征中具有相同系數(shù)的特征。
3 ?常用的篩選方法
3.1 強(qiáng)規(guī)則篩選方法
定理2 設(shè)C是一個(gè)非空閉凸集,滿足‖Pc(x1)-Pc(x2)‖2≤‖x1-x2‖2,x2,x2∈C,則稱投影映射是連續(xù)且非擴(kuò)張的。
Tibshirani首先提出了利用假設(shè)特征和與殘差之間的線性函數(shù)對(duì)于參數(shù)是非擴(kuò)張的構(gòu)建了可行集如下。
當(dāng)時(shí),有:
由此,可以有如下估測(cè):
不難發(fā)現(xiàn),它們都是依賴于前j個(gè)特征的和與對(duì)偶
變量的內(nèi)積的絕對(duì)值來進(jìn)行估測(cè)的,其中。通過對(duì)可行域的估測(cè)發(fā)現(xiàn),強(qiáng)規(guī)則方法的估測(cè)的域要更松、更大,并且無法保證該規(guī)則安全,即篩除的特征都是沒有代表性的冗余特征。為了保證篩選的準(zhǔn)確性后續(xù)也提出了用KKT方法進(jìn)行修正,但也需要反復(fù)地去削弱條件,增加了計(jì)算的復(fù)雜度。
3.2 SAFE篩選方法
令,該方法利用的是一種對(duì)偶標(biāo)準(zhǔn)去估測(cè)模型上界,有
通過求解上式,可以得到
最優(yōu)解
將該方法構(gòu)建的可行集與SASVI篩選規(guī)則比較如下:
令θ=s*θ1*有變分不等式有
通過對(duì)比兩篩選規(guī)則知,SAFE所定義的球域是包大于SASVI所定義的區(qū)域的,相對(duì)于SASVI的可行域,該區(qū)域要更松弛。
3.3 DPP篩選方法
該方法是將初始優(yōu)化問題的對(duì)偶問題表述成一個(gè)投影問題,該方法是投影算子非擴(kuò)張性的直接應(yīng)用。
由于,
所以有,
該方法利用了投影算子在閉凸多面體上的性質(zhì),為L(zhǎng)asso模型帶來了新的篩選規(guī)則,該方法優(yōu)點(diǎn)是可以推廣到Group Lasso、Fused Lasso等模型上去。適用的模型多,極大地提高了計(jì)算效率。與SASVI比較可知,該方法構(gòu)建的可行集不等式可由SASVI的不等式放縮得到,比SASVI 的可行集松弛。
4 ?結(jié)語
該文系統(tǒng)地介紹了常用的特征篩選方法的篩選規(guī)則,通在理論上說明了這幾種篩選規(guī)則的優(yōu)缺點(diǎn), 其中有利用假設(shè)構(gòu)建篩選規(guī)則的方法,也有利用投影算子在幾何上的具體應(yīng)用對(duì)可行集進(jìn)行構(gòu)建的方法, 在文中將這幾種方法分別進(jìn)行了討論。可以看出, SASVI篩選規(guī)則估測(cè)的可行集可以更加緊,估測(cè)的對(duì)偶問題最優(yōu)解更為精確, 該篩選規(guī)則在排除特征方面更有效。DPP方法可以適用更多的模型,特征篩選也被廣泛地應(yīng)用到各個(gè)領(lǐng)域[6]。
參考文獻(xiàn)
[1] rob.Tibshirani.Regression Shrinkage and Selection Via the Lasso[J].journal of the royal statistical society.series b:methodological,1996,58(1):267-288.
[2] wang jie,fan wei,ye jieping.Fused Lasso Screening Rules via the Monotonicity of Subdifferentials[J].IEEE transactions on pattern analysis and machine intelligence,2015, 37(9):1806-1820.
[3] lauren el ghaoui,vivien viallon,tarek robbani.Safe Feature Elimination in Sparse Supervised Learning[J].pacific journal of optimization,2012(8): 667-698.
[4] 張環(huán).Fused-LASSO懲罰最小一乘回歸的統(tǒng)計(jì)分析與優(yōu)化算法[D].北京交通大學(xué),2016.
[5] Lu Jianhui,Li Yachao,Chen Shaonan. Degrees of freedom in lasso problems[J]. Open Access Library Journal,2016,3(3):1-10.
[6] nataliya. Sokolovska,yann. Chevaleyre, karine. Clement,et al. The Fused Lasso Penalty for Learning Interpretable Medical Scoring Systems[c]//2017 international joint conference on neural networks lijcnn.2017.
[7] 孫健.淺談?dòng)?jì)算計(jì)工程設(shè)計(jì)中數(shù)據(jù)的挖掘特征以及相關(guān)算法[J].科技資訊,2018,16(31):30,32.
[8] MA Chi,huang Jian. Asymptotic properties of Lasso in high-dimensional partially linear models[J].science china cmathemati-cs,2016,59(4):769-788.