李淞淋,李 揚(yáng),c,易丹輝,c
(中國(guó)人民大學(xué)a.統(tǒng)計(jì)學(xué)院;b.應(yīng)用統(tǒng)計(jì)科學(xué)研究中心;c.統(tǒng)計(jì)咨詢研究中心,北京 100872)
有監(jiān)督Group MCP方法的穩(wěn)健性研究
李淞淋a,b,李 揚(yáng)a,b,c,易丹輝a,b,c
(中國(guó)人民大學(xué)a.統(tǒng)計(jì)學(xué)院;b.應(yīng)用統(tǒng)計(jì)科學(xué)研究中心;c.統(tǒng)計(jì)咨詢研究中心,北京 100872)
采用模擬研究的方法,分別在回歸預(yù)測(cè)和分類判別兩種環(huán)境中討論有監(jiān)督Group MCP方法在不同結(jié)構(gòu)錯(cuò)誤率下進(jìn)行變量選擇和結(jié)果預(yù)測(cè)的穩(wěn)健性,并通過實(shí)例分析討論本研究的實(shí)用價(jià)值。研究結(jié)果顯示:忽略解釋變量的內(nèi)部結(jié)構(gòu)進(jìn)行變量選擇會(huì)導(dǎo)致很多重要解釋變量被疏漏,而有監(jiān)督Group MCP方法考慮了解釋變量的內(nèi)部結(jié)構(gòu),在結(jié)構(gòu)錯(cuò)誤率低于5%時(shí)會(huì)以不低于98%的概率選出有效解釋變量,并盡量降低冗余變量被選擇的可能性。此研究成果為有監(jiān)督Group MCP方法的合理使用奠定了基礎(chǔ)。
有監(jiān)督Group MCP方法;穩(wěn)健性;亞健康
有監(jiān)督 Group MCP (Minmax Concave Penalized method,MCP)是一種成組變量選擇的正則化方法(縮減方法或懲罰函數(shù)法),可用于經(jīng)濟(jì)、生物基因、醫(yī)學(xué)診 斷 等 多 個(gè) 領(lǐng) 域[1-2][3]43-638[4]。該 方 法 采用Group MCP從解釋變量具有群組結(jié)構(gòu)的訓(xùn)練資料中學(xué)習(xí)或建立一個(gè)模式(函數(shù)/模型),以便尋找關(guān)鍵的影響因素或?qū)σ蜃兞康奈磥?lái)取值進(jìn)行預(yù)測(cè),有效地解決了訓(xùn)練數(shù)據(jù)帶有多層結(jié)構(gòu)的問題。例如基因工程中,研究基因?qū)膊〉挠绊憰r(shí)通常對(duì)基因序列這一整體的效果進(jìn)行討論,而不是對(duì)每對(duì)堿基對(duì)進(jìn)行單獨(dú)分析[5];在中醫(yī)療效研究中,中醫(yī)師判斷并治療疾病的基礎(chǔ)——證候,是基于多個(gè)可測(cè)癥狀群構(gòu)成的一個(gè)整體潛變量,而疾病與癥狀群的關(guān)系則是重點(diǎn)研究問題之一。有監(jiān)督Group MCP方法在使用時(shí)考慮了變量?jī)?nèi)部結(jié)構(gòu),有效地控制了計(jì)算量和參數(shù)估計(jì)的偏差,具有良好的 Oracle性質(zhì)[6-8]。此方法通過向損失函數(shù)中加入帶群組結(jié)構(gòu)的MCP懲罰函數(shù),使某些回歸系數(shù)的估計(jì)值趨于零,從而完成對(duì)成組變量的正則化選擇,輸出結(jié)果是一個(gè)連續(xù)的值(回歸分析),或是預(yù)測(cè)一個(gè)分類標(biāo)簽(分類判別)[9]。
有監(jiān)督Group MCP方法的研究步驟可綜述歸納為:確定解釋變量的群組結(jié)構(gòu)→基于群組結(jié)構(gòu)構(gòu)建Group MCP罰函數(shù)和目標(biāo)似然函數(shù)→極大化似然函數(shù)求解顯著的變量組→確定最終模型的形式→預(yù)測(cè)和判別”的流程。確定解釋變量的群組結(jié)構(gòu)是整個(gè)研究的前提,也是構(gòu)建群組懲罰函數(shù)的基礎(chǔ),它可以通過定性研究的方法依據(jù)相關(guān)知識(shí)理論確定,也可以通過聚類分析等定量方法依據(jù)訓(xùn)練資料確定,或者由定性與定量相結(jié)合的方法確定。在現(xiàn)實(shí)研究中真實(shí)的群組結(jié)構(gòu)是未知的,能獲得的群組結(jié)構(gòu)都是對(duì)真實(shí)結(jié)構(gòu)的一種逼近,這就對(duì)有監(jiān)督Group MCP能否在實(shí)踐應(yīng)用中準(zhǔn)確選擇有顯著解釋效果的變量組并得到精確的模型預(yù)測(cè)結(jié)果提出了考驗(yàn),即有監(jiān)督Group MCP方法的穩(wěn)健性已成為實(shí)踐應(yīng)用中所面臨的一個(gè)重要問題。
有監(jiān)督Group MCP方法在使用時(shí)需要解釋變量的群組結(jié)構(gòu)被預(yù)先確定,并要求用于構(gòu)建模型的訓(xùn)練資料充分包含自變量和因變量的信息,且因變量沒有缺失值。有監(jiān)督Group MCP方法獲得的學(xué)習(xí)模式可以被外推確定新樣本的因變量取值。
于是,基于有監(jiān)督Group MCP的一般回歸模型需要最小化目標(biāo)函數(shù)式(4)來(lái)求解參數(shù)估計(jì)值并選擇解釋變量。
基于有監(jiān)督Group MCP的Logistic回歸模型則需要最小化目標(biāo)函數(shù)式(5):
2.參數(shù)估計(jì)的算法實(shí)現(xiàn)。極小化損失函數(shù)式(4)與式(5)在求解待估參數(shù)時(shí)需要充分考慮解釋變量之間的關(guān)系結(jié)構(gòu),于是傳統(tǒng)的統(tǒng)計(jì)計(jì)算算法將不再適用,建議使用局部群組梯度下降算法。
3.冗余參數(shù)的確定。有監(jiān)督Group MCP方法的討厭參數(shù)有正則參數(shù)λ和調(diào)整參數(shù)α,這兩個(gè)參數(shù)共同確定了Group MCP懲罰函數(shù)的大小和范圍。討厭參數(shù)的不同取值將造成參數(shù)的不同估計(jì)結(jié)果,于是為了準(zhǔn)確地選擇解釋變量,要先確定冗余參數(shù)的合理取值。筆者建議可以使用基于Grid估計(jì)的迭代計(jì)算方法,具體計(jì)算步驟為:首先給出λ和α在其支撐集上的一系列取值;然后計(jì)算給定λ和α取值下模型參數(shù)的估計(jì)值,從而得到AIC、BIC或GCV評(píng)價(jià)指標(biāo)的得分;最后根據(jù)AIC、BIC或GCV最小值來(lái)確定討厭參數(shù)的合理取值。
4.模型估計(jì)結(jié)果的分析。MCP懲罰函數(shù)的引入會(huì)使較小的參數(shù)估計(jì)值收縮為0,也就是說(shuō)對(duì)因變量解釋效果越小的群組變量的回歸系數(shù)越容易收縮為0,于是回歸系數(shù)不為0的群組變量即為選出的變量?;谶x出的變量組可以構(gòu)建最終模型,根據(jù)此模型的預(yù)測(cè)效果即可以評(píng)價(jià)變量選擇及所建模型的準(zhǔn)確度。
成組變量選擇方法的穩(wěn)健性研究與單個(gè)變量選擇不同。單變量選擇方法的穩(wěn)健性研究通??紤]當(dāng)數(shù)據(jù)包含異常值時(shí),該方法是否仍可以準(zhǔn)確地選出顯著的解釋變量;成組變量選擇方法的穩(wěn)健性則多討論因理論知識(shí)不完備、或數(shù)據(jù)包含測(cè)量誤差造成解釋變量的群組結(jié)構(gòu)與真實(shí)結(jié)構(gòu)不同時(shí),亦即當(dāng)群組結(jié)構(gòu)不可避免地存在一定錯(cuò)誤率的情況下,該方法仍然能夠準(zhǔn)確地選擇有顯著解釋作用的變量,而且還能夠得到良好預(yù)測(cè)效果的性質(zhì)。
有監(jiān)督Group MCP方法的穩(wěn)健性研究的本質(zhì),在于討論此方法對(duì)解釋變量的群組結(jié)構(gòu)錯(cuò)誤率的容忍程度。所謂結(jié)構(gòu)錯(cuò)誤率或變量錯(cuò)分率,是指實(shí)際分析中被錯(cuò)誤分組的變量個(gè)數(shù)占變量總個(gè)數(shù)的比例,即“結(jié)構(gòu)錯(cuò)誤率=被錯(cuò)誤分組的變量個(gè)數(shù)/變量總個(gè)數(shù)”。有監(jiān)督Group MCP方法對(duì)結(jié)構(gòu)錯(cuò)誤率的容忍度越大則穩(wěn)健性越強(qiáng)。值得注意的是,對(duì)有監(jiān)督Group MCP方法的穩(wěn)健性進(jìn)行研究時(shí)需要充分考慮現(xiàn)實(shí)環(huán)境的復(fù)雜多變,具體體現(xiàn)在解釋變量類型的多樣性、結(jié)構(gòu)錯(cuò)誤率的非確定性以及被錯(cuò)分變量的隨機(jī)性等。變量類型的多樣性是指解釋變量可以是連續(xù)的、離散的、名義的或多種類型的混合;結(jié)構(gòu)錯(cuò)誤率的非確定性是指實(shí)際研究中解釋變量群組結(jié)構(gòu)的錯(cuò)誤率是預(yù)先未知的,且在不同研究中結(jié)構(gòu)錯(cuò)誤率也不同;被錯(cuò)分變量的隨機(jī)性是指各種類型的變量都可能被錯(cuò)誤分類。
為了盡可能地貼近現(xiàn)實(shí)情況來(lái)研究有監(jiān)督Group MCP的穩(wěn)健性,本文參考國(guó)外學(xué)者的研究和模擬方法,模擬生成多套具有不同結(jié)構(gòu)錯(cuò)誤率且被隨機(jī)錯(cuò)分的解釋變量,這些解釋變量可以是連續(xù)的、離散的或名義的[11-12]。對(duì)模擬數(shù)據(jù)進(jìn)行分析的重點(diǎn)是,討論有監(jiān)督Group MCP方法在不同結(jié)構(gòu)錯(cuò)誤率下的變量選擇和模擬預(yù)測(cè)效果。
模擬研究包括模擬生成數(shù)據(jù)、分析數(shù)據(jù)和結(jié)果討論三個(gè)主要環(huán)節(jié):模擬生成數(shù)據(jù)環(huán)節(jié)將模擬產(chǎn)生具有不同結(jié)構(gòu)錯(cuò)誤率的、包含離散變量和連續(xù)變量等不同類型的隨機(jī)數(shù)據(jù)作為解釋變量,基于真實(shí)模型對(duì)模擬生成的解釋變量進(jìn)行計(jì)算得到每個(gè)樣本的因變量取值;分析數(shù)據(jù)環(huán)節(jié)將使用有監(jiān)督Group MCP方法對(duì)模擬數(shù)據(jù)進(jìn)行分析;結(jié)果討論環(huán)節(jié)則分析討論解釋變量被選出的頻率、模型的預(yù)測(cè)效果,即回歸分析中以“預(yù)測(cè)偏倚=abs(預(yù)測(cè)值的期望-觀測(cè)值的均值)”、“預(yù)測(cè)殘差的方差=Var(預(yù)測(cè)值-真實(shí)值)”、“預(yù)測(cè)均方誤差MSE=預(yù)測(cè)偏倚的平方+預(yù)測(cè)殘差的方差”作為評(píng)價(jià)準(zhǔn)則,分類判別中以靈敏度、特異度和AUC均值作為評(píng)價(jià)準(zhǔn)則。在某一結(jié)構(gòu)錯(cuò)誤率下,有監(jiān)督Group MCP方法若能高概率地選出對(duì)因變量有顯著解釋效果的變量,低概率地選出沒有顯著解釋效果的變量,且所得模型預(yù)測(cè)效果較好,即可說(shuō)明有監(jiān)督Group MCP方法對(duì)此結(jié)構(gòu)錯(cuò)誤率有很強(qiáng)的容忍性。
表1 基于Group MCP回歸模型預(yù)測(cè)效果匯總表
圖1 基于Group MCP線性回歸模型的變量選擇頻數(shù)圖
圖2 基于Group MCP的Logistic模型的變量選擇頻數(shù)圖
表2 基于Group MCP的Logistic模型分類效果匯總表
表2中AUC是指ROC曲線下面積,AUC取值越高說(shuō)明分類效果的準(zhǔn)確度越高;靈敏度是指真實(shí)值為1且預(yù)測(cè)結(jié)果為1的概率;特異度是指真實(shí)值為0且預(yù)測(cè)結(jié)果為0的概率。
1.解釋變量之間的關(guān)系結(jié)構(gòu)準(zhǔn)確可知時(shí),Group MCP方法能夠正確地選擇變量組。從圖1(a)與圖2(a)可知,當(dāng)解釋變量之間的關(guān)系結(jié)構(gòu)準(zhǔn)確可知時(shí),Group MCP方法在回歸預(yù)測(cè)或分類判別中都能夠以近100%的概率精準(zhǔn)地選出對(duì)因變量有顯著解釋效果的變量組。
2.結(jié)構(gòu)錯(cuò)誤率在5%以下時(shí),Group MCP方法具有較好的穩(wěn)健性。分析圖1(b)與圖2(b)可知,當(dāng)結(jié)構(gòu)錯(cuò)誤率在5%時(shí),對(duì)因變量有顯著影響的解釋變量可以被以高于98/100=98%的概率被選出,其他非顯著解釋變量會(huì)被以不高于60/100=60%的概率選出。比較分析圖1和圖2以及表1和表2發(fā)現(xiàn),結(jié)構(gòu)錯(cuò)誤率越高選出無(wú)解釋效果變量的可能性就越大,而選擇具有顯著解釋效果變量的準(zhǔn)確度就越低。由于選出的解釋變量較多,模型預(yù)測(cè)效果沒有受到明顯的影響,于是可知當(dāng)結(jié)構(gòu)錯(cuò)誤率在5%以下時(shí),有監(jiān)督Group MCP方法具有良好的穩(wěn)健性。
3.忽略解釋變量?jī)?nèi)部結(jié)構(gòu)將不利于準(zhǔn)確選擇變量及變量組。比較分析圖1(d)與圖2(d)可知,忽略解釋變量的群組結(jié)構(gòu)會(huì)遺漏許多重要的解釋變量,同時(shí)也會(huì)選出一些不重要的解釋變量,不利于找出對(duì)因變量有顯著解釋效果的變量及變量組。
證候是中醫(yī)領(lǐng)域的一個(gè)重要概念,是指疾病過程中一定階段的病位、病因、病性、病勢(shì)及肌體抗病能力的強(qiáng)弱等與本質(zhì)有機(jī)聯(lián)系的反應(yīng)狀態(tài),由多個(gè)證素單元組成,而每個(gè)證素具體表現(xiàn)為臨床可被觀察到的一系列癥狀。亞健康狀態(tài)是介于健康與疾病之間的一個(gè)物理狀態(tài),主要表現(xiàn)有身體不太舒服、虛弱、無(wú)精力,具體表現(xiàn)為精力衰退、肢體功能和能動(dòng)性衰弱,但是還達(dá)不到疾病診斷的嚴(yán)重程度。中醫(yī)善于“治未病”,認(rèn)為亞健康是陰、氣、血、臟、腑出現(xiàn)不均衡所致,并認(rèn)為與虛、火、瘀阻、濕四個(gè)證素有關(guān)[13](見表3)。由于患者的體質(zhì)不同,即使都是亞健康人群,不同患者的主證不同,起關(guān)鍵作用的證素也不同。準(zhǔn)確判斷患者的證素有助于深度了解患者的體質(zhì)和疾病狀態(tài),是后續(xù)治療的基礎(chǔ)。本研究將對(duì)影響肝郁脾虛證的亞健康人群的關(guān)鍵證素及相應(yīng)癥狀進(jìn)行探索分析。
此研究采用分層抽樣的方法,從6家臨床中心隨機(jī)選取了307個(gè)亞健康受試者,剔除缺失診斷結(jié)果的4人,共有303個(gè)受試者進(jìn)入研究,其中57人為肝郁脾虛證的亞健康患者,占18.81% 。納入模型的解釋變量及其結(jié)構(gòu)見表3。
從表3的描述統(tǒng)計(jì)結(jié)果可知,這些癥狀在肝郁脾虛證的亞健康人群中的分布概率大于非肝郁脾虛人群中的分布概率;瘀阻所包含的癥狀在兩類分群中的分布差異更為明顯;每個(gè)癥狀的發(fā)生頻率都較低,因某個(gè)單一癥狀無(wú)法區(qū)分肝郁脾虛人群,故本文采用成組變量選擇法進(jìn)行分析。
表3 亞健康診斷研究關(guān)注的癥狀及證候結(jié)構(gòu)表
基于表3所列解釋變量的群組結(jié)構(gòu)建立Group MCP Logistic模型,分析得知對(duì)肝郁脾虛證的亞健康患者起重要影響的證素為瘀阻和濕證,這兩個(gè)證素包含的癥狀及相應(yīng)參數(shù)估計(jì)結(jié)果見表4。根據(jù)五折交叉驗(yàn)證方法,計(jì)算得AUC均值為0.737 7,標(biāo)準(zhǔn)差為0.085 7,平均靈敏度為0.857 1,平均特異度為0.760 4。
表4 基于解釋變量群組結(jié)構(gòu)的肝郁脾虛證診斷模型參數(shù)估計(jì)結(jié)果表
如果不考慮癥狀之間的群組結(jié)構(gòu)而構(gòu)建一般的Logistic模型,選出的癥狀指標(biāo)及其相應(yīng)參數(shù)估計(jì)結(jié)果見表5。使用五折交叉驗(yàn)證方法計(jì)算得AUC均值為0.753 1,標(biāo)準(zhǔn)差為0.082 9,平均靈敏度為0.824 7,平均特異度為0.717 1。
表5 不考慮解釋變量群組結(jié)構(gòu)時(shí)肝郁脾虛證診斷模型參數(shù)估計(jì)結(jié)果表
比較分析表4和表5的變量選擇和參數(shù)估計(jì)結(jié)果可知:
第一,兩類模型研究目的不同,導(dǎo)致了變量選擇結(jié)果的不同?;谟斜O(jiān)督Group MCP的Logistic模型的研究目的,在于合理處理變量之間的相關(guān)關(guān)系,選擇有顯著解釋意義的變量組,此方法有效地指出了在本研究所調(diào)查的亞健康人群中,瘀阻和虛證(主要是腎陽(yáng)虛)是影響肝郁脾虛證診斷的兩大重要證素;傳統(tǒng)Logistic模型在選擇有顯著解釋意義單個(gè)變量時(shí)并不考慮變量之間的關(guān)系,于是在本實(shí)例分析中此方法可用于疾病預(yù)測(cè),但不利于研究亞健康人群中對(duì)肝郁脾虛證影響顯著的證素。
第二,基于有監(jiān)督Group MCP的Logistic模型具有較好的解釋性。比較表4和表5可知,基于Group MCP的Logistic模型選出對(duì)亞健康人群中肝郁脾虛證的診斷起顯著作用的是瘀阻和虛證,且瘀阻類癥狀的系數(shù)符號(hào)都為正,虛證所包含癥狀的系數(shù)有正有負(fù),說(shuō)明本研究調(diào)查的亞健康人群中肝郁脾虛證的癥狀以肝郁為主,氣虛的癥狀越重表明更偏向于單證的虛證,而非兼證肝郁脾虛證與中醫(yī)理論相符。基于MCP的Logistic模型同時(shí)選出便秘和大便稀溏,且系數(shù)都為正值,不易于解釋。
第三,解釋變量具有內(nèi)部結(jié)構(gòu)時(shí),基于Group MCP的Logistic模型對(duì)數(shù)據(jù)有更好的擬合及預(yù)測(cè)效果。從AUC、特異度、靈敏度等評(píng)價(jià)指標(biāo)上看,基于Group MCP的Logistic模型的AUC均值為0.767 1,平均靈敏度為 0.851 4,平均特異度為0.74,高于基于Group MCP的Logistic模型,這是因?yàn)榛贕roup MCP的Logistic模型考慮了解釋變量?jī)?nèi)部結(jié)構(gòu),充分使用數(shù)據(jù)信息,對(duì)數(shù)據(jù)有更好的解釋和預(yù)測(cè)效果。同時(shí),前者AUC的標(biāo)準(zhǔn)差為0.068 9,低于后者,說(shuō)明Group MCP方法有更好的穩(wěn)健性。
成組變量的選擇問題在經(jīng)濟(jì)、生物基因、醫(yī)學(xué)診斷等實(shí)際問題研究中極為常見。有監(jiān)督Group MCP是在給定解釋變量的群組結(jié)構(gòu)的基礎(chǔ)上進(jìn)行Group MCP分析的一種數(shù)據(jù)挖掘方法。此方法考慮變量的內(nèi)部結(jié)構(gòu),提高了變量選擇結(jié)果的準(zhǔn)確性,有效降低計(jì)算量和計(jì)算偏差,具有良好的Oracle性質(zhì)。但此方法的穩(wěn)健性問題尚未得到充分研究,而一個(gè)方法的穩(wěn)健性即對(duì)異常情況的容忍程度,是決定此方法能否被廣泛使用的關(guān)鍵因素。為此,本文重點(diǎn)研究和討論有監(jiān)督的Group MCP方法的穩(wěn)健性問題。
本文根據(jù)有監(jiān)督Group MCP方法的相關(guān)理論,確定本次穩(wěn)健性研究的目的、研究方法和評(píng)價(jià)標(biāo)準(zhǔn),采用模擬研究討論有監(jiān)督Group MCP方法在不同結(jié)構(gòu)錯(cuò)誤率下進(jìn)行變量選擇和模型預(yù)測(cè)的穩(wěn)健性,通過實(shí)例分析說(shuō)明本研究的應(yīng)用價(jià)值。
第一,基于Group MCP的Logistic模型合理地處理了變量之間的相關(guān)關(guān)系,能夠準(zhǔn)確地選擇對(duì)因變量有顯著解釋意義的變量組或潛變量。例如本文的實(shí)例分析部分,選出了對(duì)亞健康人群中肝郁脾虛證的辨證起關(guān)鍵作用的證素有瘀阻和虛,這也是此方法與單變量選擇方法在研究目的上的本質(zhì)區(qū)別。
第二,解釋變量存在群組結(jié)構(gòu)時(shí),有監(jiān)督Group MCP方法在分類判別和回歸預(yù)測(cè)中都可以準(zhǔn)確地選擇有顯著解釋變量的變量組,所得模型具有良好的解釋和預(yù)測(cè)效果。
第三,解釋變量結(jié)構(gòu)的準(zhǔn)確度越高,變量選擇和模擬預(yù)測(cè)效果越精準(zhǔn)。當(dāng)解釋變量的關(guān)系結(jié)構(gòu)的先驗(yàn)信息出現(xiàn)略微錯(cuò)誤時(shí),若結(jié)構(gòu)錯(cuò)誤率不超過5%,有監(jiān)督Group MCP方法仍然可以準(zhǔn)確選出顯著的變量組,模型預(yù)測(cè)效果也有很好的穩(wěn)健性。
但是,有監(jiān)督Group MCP方法仍存在局限性。例如有監(jiān)督Group MCP方法會(huì)將顯著的群組內(nèi)的所有變量都選出,增加冗余變量個(gè)數(shù),提高模型復(fù)雜度;此方法假定解釋變量存在群組結(jié)構(gòu),但在實(shí)際問題中解釋變量的內(nèi)部結(jié)構(gòu)可能是更加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),此時(shí)Group MCP方法的群組結(jié)構(gòu)假設(shè)將不再適用,需要引入Liu等人提出的基于網(wǎng)絡(luò)結(jié)構(gòu)的協(xié)變量研究方法進(jìn)行分析[14];Group MCP方法的研究重點(diǎn)是顯著變量的群組選擇,而不是單個(gè)解釋變量,當(dāng)研究既關(guān)注解釋變量的內(nèi)部結(jié)構(gòu)又關(guān)注單個(gè)變量時(shí),此方法的使用效果不再完美,還有待于在未來(lái)的研究中進(jìn)一步改進(jìn)和完善。
[1] 薛薇,陳歡歌.文本聚類中罰多項(xiàng)混合模型的特征選擇及其在互聯(lián)網(wǎng)輿情分析中的應(yīng)用.[J]統(tǒng)計(jì)與信息論壇,2012(1).
[2] Tibshirani R.Regression Shrinkage and Selection Via the Lasso [J].Journal of the Royal Statistical Society:Series B-Methodological,1996(1).
[3] Hastie T,Tibshirani R,F(xiàn)riedman J H.The Elements of Statistical Learning:Data Mining,Inference,and Prediction[M].New York:Springer Verlag,2001.
[4] 李揚(yáng),朱建鋒,謝邦昌.變量選擇方法及其在健康食品市場(chǎng)研究中的應(yīng)用探究[J].統(tǒng)計(jì)與信息論壇,2013(10).
[5] Frank I E,F(xiàn)riedman J H.A Statistical View of Some Chemometrics Regression Tools[J],Technometrics,1993(2).
[6] Yuan M,Lin Y.Model Selection and Estimation in Regression With Grouped Variables [J].Journal of the Royal Statistical Society:Series B(Statistical Methodology),2006(1).
[7] Huang J,Ma S,Xie H,et al.A Group Bridge Approach for Variable Selection[J].Biometrika,2009(2).
[8] Zhang C.Nearly Unbiased Variable Selection Under Minimax Concave Penalty[J].Annals of Statistics,2010(2).
[9] Ma S,Sang X,Huang J.Supervised Group Lasso With Applications to Microarray Data Analysis[J].BMC Bioinformatics,2007(8).
[10]Breheny P,Huang J.Penalized Methods for bi-level Variable Selection[J].Statistics and Its Interface.2009(3).
[11]Koppula S H.Study and Improvement of Robustness of Overlay Networks[D].Department of Computer Science &Engineering.Indian Institute of Technology- Kharagpur,2008.
[12]John M M J,Lishout V F,Gusareva S E,et al.A Robustness Study of Parametric and Non-Parametric Tests in Model-Based Multifactor Dimensionality Reduction for Epistasis Detection[J].BioData Mining.2013(6).Published online.
[13]Wang L,Zhao X,Wu X,et al.Diagnosis Analysis of 4TCM Patterns in Suboptimal Health Status:A Structural Equation Modelling Approach[J].Evidence-Based Complementary and Alternative Medicine,2012.published online.
[14]Liu J,Huang J,Ma S.Incorporating Network Structure in Integrative Analysis of Cancer Prognosis Data[J].Genetic Epidemiology,2013(2).
Robustness of the Supervised Group MCP in Variable Selection
LI Song-lina,b,LI Yanga,b,c,YI Dan-huia,b,c
(a.School of Statistics;b.Center for Applied Statistics;c.Statistical Consulting Center,Renmin University of China,Beijing 100872,China)
The structure got from either the qualitative or the quantitative method is an approximation of the real one,and has a structural error rate.So whether or not the supervised Group MCP having robustness property is an urgent problem.In this paper,we simulate sets of data with different structure error rates in both regressions and classifications and analyze them by supervised Group MCP to discuss Group MCP method's robustness in selecting variables and model's predictions.And then a practical application is used to test this study's pragmatic value.These results show that selecting variables without considering the latent structure of the explaining variables will result in the omission of significant features,and that Supervised Group MCP takes the explaining variables'structures into consideration and evidently selects the important variables and reduce the probability of selecting redundant variables when the structural error rate is lower than 5%,which lay foundations for supervised Group MCP method's appropriate use.
supervised Group MCP;robustness;sub-health
O212.1∶F224.0
A
1007-3116(2014)05-0011-07
2013-11-23;修復(fù)日期:2014-04-14
國(guó)家自然科學(xué)基金青年項(xiàng)目《預(yù)測(cè)模型的結(jié)構(gòu)化變量選擇方法研究》(71301162);中國(guó)人民大學(xué)應(yīng)用統(tǒng)計(jì)科學(xué)研究中心自主項(xiàng)目《高維異質(zhì)性數(shù)據(jù)的特征選擇方法研究》(26213800)
李淞淋,女,河南濮陽(yáng)人,博士生,研究方向:預(yù)測(cè)與決策,數(shù)據(jù)挖掘;
李 揚(yáng),男,北京人,經(jīng)濟(jì)學(xué)博士,副教授,研究方向:相關(guān)型數(shù)據(jù)分析,潛變量建模;
易丹輝,女,湖南汩羅人,教授,研究方向:風(fēng)險(xiǎn)管理與保險(xiǎn),預(yù)測(cè)與決策。
book=17,ebook=200
(責(zé)任編輯:郭詩(shī)夢(mèng))