福建農(nóng)林大學(xué)計算機與信息學(xué)院(350002) 林雨婷 莊虹莉 李立婷 溫永仙
根據(jù)已有的數(shù)據(jù)建立模型,是預(yù)測目標(biāo)對象走勢和影響因素的關(guān)鍵,建立的模型的好壞直接關(guān)系到預(yù)測的精度。任何一種單項預(yù)測方法,在評估解釋變量對預(yù)測目標(biāo)的影響力的反映上并不能盡善盡美。單項預(yù)測模型的選擇容易受到選擇過程中的不確定因素的影響而具有不穩(wěn)定性,選擇一個預(yù)測模型就可能導(dǎo)致遺失其他未被選中的預(yù)測模型中的有用信息。為解決上述問題,學(xué)者們提出多種解決方法,其中組合預(yù)測是最常用的方法之一。組合預(yù)測模型是以單項預(yù)測模型為基礎(chǔ),對多個不同的單項預(yù)測模型根據(jù)不同的方法組合在一起,所以能綜合利用單項預(yù)測模型有用信息,減小受單項模型選擇中不確定因素的影響。
1969年,Bates和Granger[1]指出組合預(yù)測模型的均方誤差比任何一個被組合的單項模型小,并將其運用于航空客運中,被許多學(xué)者認(rèn)為是組合預(yù)測的起步。李勤[2]在文中分析研究線性組合預(yù)測和非線性組合預(yù)測,指出組合預(yù)測方法將越來越豐富。近年來,關(guān)于組合預(yù)測的方法研究主要有Gao等[3]提出刪組的最優(yōu)模型平均方法,Zhang等[4]提出的廣義線性模型的最優(yōu)模型平均方法。組合方法在航空客運量預(yù)測、城市流動人口預(yù)測、金融股票等方面都得到了廣泛應(yīng)用。近期有徐敏捷等[5]將組合模型用于網(wǎng)絡(luò)輿情數(shù)據(jù)分析,提高了對輿情的發(fā)展勢態(tài)的預(yù)測效果。目前國內(nèi)外學(xué)者將組合預(yù)測模型運用到疾病診斷領(lǐng)域的研究還較少,本文將組合預(yù)測模型運用到Arrhythmia數(shù)據(jù)的分析中。
本文對四種基于logistic回歸懲罰函數(shù)的變量選擇方法進(jìn)行組合并用十折交叉驗證方法計算其精度,比較得到組合模型的優(yōu)劣性。通過不同類型數(shù)據(jù)的模擬,得出基于logistic模型的L2-group MCP與group bridge的組合具有優(yōu)良的分類精度的結(jié)論。
1.logistic回歸分析模型
logistic回歸分析模型是一種廣義線性回歸分析模型,其響應(yīng)變量為二分類變量或某事件發(fā)生的概率,常用于疾病診斷、數(shù)據(jù)挖掘、金融經(jīng)濟(jì)預(yù)測及風(fēng)險預(yù)測等,在疾病中主要探索疾病的發(fā)生概率和引發(fā)疾病的相關(guān)因素等。
假設(shè)有m個解釋變量X=(x1,x2,…,xm),其響應(yīng)變量y為二元變量,有n個觀測樣本(yi,xi1,xi2,…,xim),i=1,2,…,n,設(shè)pi=P(yi=1|Xi)為給定條件下得到y(tǒng)i=1的概率,同樣地,yi=0的概率為P(yi=0|Xi)=1-pi,令Xi=(xi1,xi2,…,xim),i=1,2,…,n,則X=(X1,X2,…,Xn)T為n×m的觀測樣本矩陣,令其相應(yīng)觀測值為y=(y1,y2,…,yn)T。
對于普通logistic回歸模型,條件概率可表示為:
(1)
其中β0為常數(shù)項系數(shù),βj(j=1,2,…,m)為第i個解釋變量對應(yīng)的系數(shù),β則為由這m個系數(shù)所組成的系數(shù)向量β=(β1,β2,…,βm)T,ε~N(0,σ2)。
在logistic回歸分析模型中,通常是通過最大似然法估計參數(shù)。logistic回歸模型的似然函數(shù):
ln[1+exp(β0+Xiβ)]}
(2)
2.基于懲罰函數(shù)組合預(yù)測模型
莊虹莉等[6]研究了L2-group MCP-logistic、SCAD-logistic、group bridge-logistic、composite MCP-logistic等方法。本文在此基礎(chǔ)上應(yīng)用組變量選擇方法L2-group MCP-logistic(簡寫為gMCP-L)、單變量選擇方法SCAD-logistic(簡寫為SCAD-L)、雙層變量選擇方法group bridge-logistic(簡寫為GB-L)和composite MCP-logistic(簡寫為cMCP-L)進(jìn)行組合。其中g(shù)MCP-L、SCAD-L、GB-L三種懲罰函數(shù)的原理見文獻(xiàn)[6],由于文獻(xiàn)[6]未提及cMCP-L,所以我們首先對composite MCP-logistic進(jìn)行描述。
(1)composite MCP-logistic
由于group bridge在某些點的不可微,給求解計算帶來了極大的困難,因此Brenheny和Huang[7]提出了cMCP(composite MCP的簡稱),cMCP也是雙層變量選擇的另一經(jīng)典方法,同樣是組內(nèi)懲罰和組間懲罰的復(fù)合函數(shù)。假設(shè)已知分有J組變量,分別為A1,A2,…,AJ,每組的變量數(shù)為m1,m2,…,mJ,則復(fù)合函數(shù)形式為:
cMCP懲罰方法的定義如下:
(3)
將cMCP加載到logistic模型中,就得到cMCP-logistic。
(4)
cMCP方法在變量選擇與預(yù)測精度中具有較好的表現(xiàn),因此本文將其選入作為單項預(yù)測模型之一。
(2)組合預(yù)測模型
組合預(yù)測模型是將多個不同的預(yù)測模型根據(jù)不同的方法組合在一起,再對研究目標(biāo)進(jìn)行預(yù)測,避免了因預(yù)測誤差大的模型被淘汰而造成此模型中有用信息的損失,綜合利用單項預(yù)測模型的有用信息,提高預(yù)測的精度。設(shè)有M個單項預(yù)測模型fi(x),i=1,2,…,M,其組合預(yù)測基本模型可表示為:
(5)
由式(5)可以知道在組合預(yù)測模型中,除了單項預(yù)測模型的選擇,權(quán)重的確定也是其中一個重要的研究問題。按權(quán)重系數(shù)的計算方法可以分為兩類:最優(yōu)權(quán)重系數(shù)法和非最優(yōu)權(quán)重系數(shù)法。
最優(yōu)權(quán)重系數(shù)法就是將按照某種規(guī)則確定的目標(biāo)函數(shù),通過一定的限定條件使其得到最大值或最小值,從而求得權(quán)重系數(shù)。不同的目標(biāo)函數(shù)將對應(yīng)一組不同的權(quán)重系數(shù)。用數(shù)學(xué)規(guī)劃的方法表示最優(yōu)權(quán)重系數(shù)法,如下:
(6)
其中Φ(w1,w2,…,wM)為目標(biāo)函數(shù)。
非最優(yōu)權(quán)重系數(shù)法是一種比較直接的、力求簡單的確定權(quán)重的方法。主要有算數(shù)平均方法、方差倒數(shù)法、遞歸等權(quán)加權(quán)法等。本文未運用非最優(yōu)權(quán)重系數(shù)法進(jìn)行權(quán)重系數(shù)的選擇,因此在此并不對其展開描述。
本文采用單項預(yù)測方法有g(shù)MCP-L、SCAD-L、GB-L和cMCP-L。莊虹莉等在對Arrhythmia數(shù)據(jù)集進(jìn)行分析研究時指出方法gMCP-L對患病的人的判別能力更為突出,而SCAD-logistic方法和group bridge-logistic方法對正常人的計算精度更高。SCAD-L方法作為典型的雙層變量選擇方法之一,在變量的選擇方面具有很好的效果。因此,本文對方法gMCP-L分別與SCAD-L、GB-L和cMCP-L三個方法組合,并且對cMCP-L與SCAD-L方法進(jìn)行組合研究。
gMCP-L方法與SCAD-L、cMCP-L和GB-L方法的組合模型:
(7)
cMCP-L方法與SCAD-L方法的組合模型:
(8)
(3)精度計算
本文將模型的預(yù)測精度分為三類:
3.權(quán)重選擇
(9)
本文根據(jù)解釋變量之間不同的數(shù)據(jù)結(jié)構(gòu)類型通過蒙特卡洛方法產(chǎn)生模擬數(shù)據(jù),再通過十折交叉驗證方法產(chǎn)生訓(xùn)練集和測試集,分別計算出訓(xùn)練集和測試集的精度。分析比較L2-group MCP-logistic與SCAD-logistic的組合方法(簡寫為gMCP+SCAD-L)、L2-group MCP-logistic與group bridge-logistic的組合方法(簡寫為gMCP+CB-L)、L2-group MCP-logistic與cMCP-logistic的組合方法(簡寫為gMCP+cMCP-L)以及cMCP-logistic和SCAD-logistic的組合方法(簡寫為cMCP+SCAD-L)的優(yōu)劣。由于變量選擇、參數(shù)估計和分類精度的結(jié)果受解釋變量的類型、分組情況和樣本量的影響,并且為了比較組合預(yù)測模型和單項模型的預(yù)測精度,故本文與文獻(xiàn)[6]一樣設(shè)置了六組不同的模擬數(shù)據(jù)。
1.模擬數(shù)據(jù)[6]
建立logistic模型:
模擬數(shù)據(jù)1:變量之間存在弱相關(guān)關(guān)系且內(nèi)部不存在組結(jié)構(gòu)的數(shù)據(jù),取Xi~N(0,1)且變量Xi和Xj之間的相關(guān)系數(shù)為Rij=0.1|i-j|,設(shè)定的300個解釋變量其中有8個顯著變量,其對應(yīng)的參數(shù)為:
β300×1=(-2,1,1,0.5,-1,1,2,3.5,0,0,…,0)T
模擬數(shù)據(jù)2和模擬數(shù)據(jù)3則分別是解釋變量之間存在相關(guān)關(guān)系和強相關(guān)關(guān)系,本文將解釋變量之間的相關(guān)系數(shù)中的R0分別取值為0.5和0.8,其他的設(shè)置與模擬1保持相同。
模擬數(shù)據(jù)4:在模擬數(shù)據(jù)1的基礎(chǔ)上,加入了變量之間的多重共線性關(guān)系,即解釋變量存在如下關(guān)系:
X1=2X2+4X3+2X4。
模擬數(shù)據(jù)5:考慮解釋變量之間存在組結(jié)構(gòu)及變量之間的多重共線性關(guān)系,且顯著變量組內(nèi)沒有零系數(shù)。與Wei和Huang[9]的相同,將變量分成60組,此時有X=(X1,X2,…,X60),其中Xi=(X5(i-1)+1,…,X5(i-1)+5),1≤i≤60,即每組有5個變量,每組參數(shù)的系數(shù)為其中設(shè)定有10個顯著變量:
β1=(0.5,1,1.5,2,2.5)T,β2=(2,2,2,2,2)T,
β3=…=β60=(0,0,0,0,0)T
模擬數(shù)據(jù)6:顯著變量的組內(nèi)存在零系數(shù),數(shù)據(jù)的產(chǎn)生與模擬數(shù)據(jù)5 類似,不同的是不同變量之間的具體分組不一樣,模擬數(shù)據(jù)6將解釋變量分為74組,前四組每組的變量數(shù)為5,后70組每組的變量數(shù)為4,其中設(shè)定15個顯著變量。即
β1=(-3,-2,-1,1,2)T,β2=(-3,-2,-1,1,0)T,β3=β4=(0,0,0,0,0)T,β5=(2,-2,1,1.5)T,β6=(-1.5,1.5,0,0)T,β7=…=β74=(0,0,0,0)T
通過計算機分別模擬這6種不同的數(shù)據(jù)類型,樣本容量分別取n=1000,500,200,每種樣本容量下重復(fù)100次。分別用gMCP+SCAD-L、gMCP+GB-L、gMCP+cMCP-L和cMCP+SCAD-L方法對模擬數(shù)據(jù)進(jìn)行變量選擇和參數(shù)估計,并且得到訓(xùn)練集和測試集的分類精度。借助R語言中的glmnet包、ncvreg包和grpreg包實現(xiàn)變量選擇和參數(shù)估計,進(jìn)一步得到訓(xùn)練集和測試集的分類精度。
2.模擬結(jié)果
根據(jù)所產(chǎn)生的六類不同的模擬數(shù)據(jù),gMCP+SCAD-L、gMCP+GB-L、gMCP+cMCP-L和cMCP+SCAD-L四種方法分析結(jié)果見表1和表2。
表1 組合預(yù)測模型中解釋變量之間存在各種相關(guān)且無組結(jié)構(gòu)模擬的分類精度(模擬1到模擬3的分類精度)
*:表中SCAD-L、gMCP-L、GB-L分類精度數(shù)據(jù)摘自文獻(xiàn)[6]?!?”表示yi取值為0的樣本的預(yù)測精度;“1”表示yi取值為1的樣本的預(yù)測精度;“總體”表示樣本的總體預(yù)測精度;“訓(xùn)練集”表示由訓(xùn)練集計算得到的分類精度;“測試集”表示由測試集得到的分類精度。
由表1可知,與單項預(yù)測模型相比,解釋變量之間存在弱相關(guān)性時,gMCP+SCAD-L、gMCP+GB-L、gMCP+cMCP-L和cMCP+SCAD-L四個組合方法相同樣本量下的分類精度均比單項預(yù)測模型的分類精度高。解釋變量之間存在相關(guān)時,組合方法的分類精度在樣本量n=1000,500時均比單項預(yù)測的更高。解釋變量之間存在強相關(guān)時,組合預(yù)測只在樣本量n=1000時,才表現(xiàn)出更高的分類預(yù)測精度。由此可見解釋變量之間存在相關(guān)和強相關(guān)時,樣本量越大,組合預(yù)測模型的優(yōu)勢才會體現(xiàn)出來。從總體上看,組合預(yù)測模型的分類精度相比于單項預(yù)測模型的分類精度更高。
組合預(yù)測模型之間,當(dāng)解釋變量之間存在不同強度的相關(guān)性時,所有方法計算的精度都隨著樣本量的減小而降低,且所有的計算方法對于樣本中y值為1的預(yù)測精度均偏小,樣本量相同時,gMCP+GB-L方法相比于其他方法均具有更高的精確度。當(dāng)解釋變量之間存在強相關(guān)性時,gMCP+SCAD-L、gMCP+GB-L、gMCP+cMCP-L和cMCP+SCAD-L四個組合方法的分類預(yù)測精度波動幅度均比解釋變量之間存在弱相關(guān)和解釋變量之間存在相關(guān)時大。其中解釋變量之間存在不同強度的相關(guān)性時,gMCP+GB-L方法的分類預(yù)測精度波動幅度都為最小。
由表2可知,與單項預(yù)測模型相比,當(dāng)解釋變量存在多重共線性且無組結(jié)構(gòu)時,單項預(yù)測模型中測試集的最高總體預(yù)測精度為93%,而組合預(yù)測模型中測試集的最低總體預(yù)測精度為93.2%,總體上看,組合預(yù)測模型的分類預(yù)測精度相比于單項預(yù)測模型有明顯的提高。當(dāng)解釋變量存在組結(jié)構(gòu)且顯著變量組內(nèi)沒有零系數(shù)時,樣本量n=500時,組合預(yù)測才具有明顯的優(yōu)勢。當(dāng)解釋變量存在組結(jié)構(gòu)且顯著變量組內(nèi)沒有零系數(shù)時,相同樣本量下組合預(yù)測模型的分類預(yù)測精度高于單項預(yù)測模型的分類預(yù)測精度。
組合預(yù)測模型之間,相比于前三類模擬數(shù)據(jù),當(dāng)解釋變量存在多重共線性時,所有方法的計算精度都有顯著提高,對y值為1的預(yù)測也更為精確。組合預(yù)測模型計算精度隨樣本量的減小而提升,其中分類預(yù)測精度最高且變化幅度最小的組合預(yù)測方法是gMCP+GB-L方法。解釋變量存在組結(jié)構(gòu)且顯著變量組內(nèi)有零系數(shù)時,組合預(yù)測模型的分類預(yù)測精度隨樣本量的增加而提升,而顯著變量組內(nèi)沒有零系數(shù)的數(shù)據(jù)集的計算精度則在樣本量n=500時為最高。其中g(shù)MCP+GB-L方法在解釋變量存在組結(jié)構(gòu)且顯著變量組內(nèi)有零系數(shù)和沒有零系數(shù)時,都具有最高的分類預(yù)測精度和最小的波動幅度。
綜上所述,組合預(yù)測模型總體上比單項預(yù)測模型有更優(yōu)的表現(xiàn)。在解釋變量存在的相關(guān)性越強時,樣本量越大,組合預(yù)測模型的優(yōu)勢才更為凸顯出來。解釋變量存在多重共線性且無組結(jié)構(gòu)和存在組結(jié)構(gòu)且顯著變量組內(nèi)沒有零系數(shù)和有零系數(shù)時,相同樣本量下,組合預(yù)測模型比單項預(yù)測模型有更高的分類精度。組合預(yù)測模型由基于組間變量選擇的gMCP-L方法和基于雙層變量選擇GB-L方法組合對于各數(shù)據(jù)類型都具有優(yōu)良的性質(zhì)。本文推薦在實際應(yīng)用中使用gMCP+GB-L組合方法。
表2 組合預(yù)測模型中解釋變量之間存在多重共線性和存在組結(jié)構(gòu)(模擬4到模擬6的分類精度)
*:表中SCAD-L、gMCP-L、GB-L的分類精度數(shù)據(jù)摘自文獻(xiàn)[6]?!岸嘀毓簿€性”表示解釋變量之間存在多重共線性且無組結(jié)構(gòu);“組結(jié)構(gòu)且組內(nèi)無零系數(shù)”表示解釋變量存在組結(jié)構(gòu)且顯著變量組內(nèi)沒有零系數(shù);表中“組結(jié)構(gòu)且組內(nèi)有零系數(shù)”表示解釋變量存在組結(jié)構(gòu)且顯著變量組內(nèi)有零系數(shù)。
3.假設(shè)檢驗
本文利用Studentt檢驗和Wilcoxon秩和檢驗,通過六種模擬數(shù)據(jù)得到訓(xùn)練集總體精度檢驗文章中組合方法之間的差異的統(tǒng)計學(xué)意義。Studentt檢驗和Wilcoxon秩和檢驗均得到gMCP+GB-L方法與gMCP+SCAD-L、gMCP+cMCP-L和cMCP+SCAD-L方法具有顯著差異。而gMCP+SCAD-L、gMCP+cMCP-L和cMCP+SCAD-L方法兩兩之間不存在顯著差異。其檢驗得到的P值如表3。
表3 Student t檢驗和Wilcoxon秩和檢驗得到的P值
*:1代表gMCP+SCAD-L方法;2代表gMCP+cMCP-L方法;3代表gMCP+GB-L方法;4代表cMCP+SCAD-L方法;“-”表示其左右兩端數(shù)字對應(yīng)的方法進(jìn)行比較。
本文用UCI 數(shù)據(jù)庫中Arrhythmia 數(shù)據(jù)集進(jìn)行實證分析,該數(shù)據(jù)集有452個樣本,每個樣本包括了279個屬性,其中包括年齡、性別、心率、身高等。在該數(shù)據(jù)集中,由于每個樣本的第14個屬性幾乎都是缺失的,因此將這一屬性剔除;另外再剔除屬性數(shù)據(jù)缺失的樣本,最后得到420個樣本,278個屬性。該數(shù)據(jù)集的屬性維度較高,對數(shù)據(jù)進(jìn)行不同的分類時,每個類別的樣本量又較少,有的甚至沒有樣本。因此將420個樣本分為兩類:心律失常病人和正常人,其中有183個心律失常的病人,并將此作為類別0的數(shù)據(jù)集;有237個正常人作為類別1的數(shù)據(jù)集。
表4 Arrhythmia 數(shù)據(jù)集的組合預(yù)測分析的分類精度
*:()中的數(shù)值為組合預(yù)測模型文中式(7)到(10)的權(quán)重w的值。表中SCAD-L、gMCP-L、GB-L的分類精度數(shù)據(jù)摘自文獻(xiàn)[6]。
由表4可得,在對Arrhythmia 數(shù)據(jù)集的實證分析中,組合預(yù)測模型對訓(xùn)練集的總體預(yù)測精度均高于單項預(yù)測模型的總體預(yù)測精度。在訓(xùn)練集中,對比單項預(yù)測模型,除了gMCP+cMCP-L方法外,gMCP+SCAD-L、gMCP+GB-L、cMCP+SCAD-L方法得到的總體預(yù)測精度有所提升,其中對測試集總體的預(yù)測中g(shù)MCP+GB-L方法的分類精度達(dá)到79.1%。比單項預(yù)測模型中最高分類精度77.9%高出1.2%。
從測試集的分類預(yù)測精度來看,除了gMCP+cMCP-L方法外,gMCP+SCAD-L、gMCP+GB-L、cMCP+SCAD-L方法對病人(即y值為0數(shù)據(jù)集)和正常人(即y值為1的數(shù)據(jù)集)的預(yù)測精度都介于組成它的兩個單項預(yù)測方法對應(yīng)的預(yù)測精度之間;而gMCP+cMCP-L方法對心律失常的人的預(yù)測精度比gMCP-L和cMCP-L方法的預(yù)測精度都低。其中g(shù)MCP+GB-L方法對病人診斷的精確率最高。
總體來看,組合預(yù)測模型一定程度上平均了單項預(yù)測模型的優(yōu)點和缺點。在對Arrhythmia數(shù)據(jù)集的分析中,gMCP+GB-L方法依然保持了最優(yōu)的分類預(yù)測精度。
本文通過最小絕對誤差和法的權(quán)重選擇方法建立了gMCP+SCAD-L、gMCP+cMCP-L、gMCP+GB-L、cMCP+SCAD-L四個組合方法,并從模擬研究和實證分析兩方面對這四個組合方法進(jìn)行比較。從結(jié)果上看,gMCP+GB-L方法在模擬研究和實證分析中均顯示出了更高預(yù)測精度。模擬研究表明,解釋變量存在的相關(guān)性越強,樣本量越大,組合預(yù)測模型的優(yōu)勢更為明顯;解釋變量存在多重共線性且無組結(jié)構(gòu)和存在組結(jié)構(gòu)且顯著變量組內(nèi)沒有零系數(shù)時,相同樣本量下,組合預(yù)測模型比單項預(yù)測模型有更高的分類精度。在實證分析中,組合方法對正常人的預(yù)測精度普遍更高,對患病者的預(yù)測gMCP+GB-L方法最高為76.4%,其他方法在57.5%~58.0%之間。
目前,組合方法在各個領(lǐng)域中得到越來越多的重視,各種形式的模型組合得以不斷地研究,權(quán)重的選擇方法也不斷地發(fā)展。本文僅用了最小絕對誤差和法進(jìn)行權(quán)重選擇,在今后的研究中,可以選用多種權(quán)重選擇方法,比較其效果;二是可以在變量選擇的模型內(nèi)組合多個懲罰項。
[1] Bates JM,Granger CWJ.The Combination of Forecasts.Journal of the Operational Research Society,1969,20(4):451-468.
[2] 李勤.組合預(yù)測方法研究綜述.價值工程,2012,31(29):23-25.
[3] Gao Y,Zhang X,Wang S,et al.Model averaging based on leave-subject-out cross-validation.Journal of Econometrics,2016,192(1):139-151.
[4] Zhang X,Yu D,Zon G,et al.Optimal Model Averaging Estimation for Generalized Linear Models and Generalized Linear Mixed-Effects Models.Journal of the American Statistical Association,2016,111(516):1775-1790.
[5] 徐敏捷,蘭月新,劉冰月.基于組合預(yù)測的網(wǎng)絡(luò)輿情數(shù)據(jù)預(yù)測模型研究.情報科學(xué),2016,34(12):40-45+87.
[6] 莊虹莉,李立婷,林雨婷,等.基于logistic回歸懲罰函數(shù)的疾病診斷.中國衛(wèi)生統(tǒng)計,2017,34(1):139-143.
[7] Huang J,Breheny P,Ma S.A Selective Review of Group Selection in High-Dimensional Models.Statistical Science,2012,27(4):481-499.
[8] 高少龍.幾種變量選擇方法的模擬研究和實證分析.山東大學(xué),2014.
[9] Wei F,Huang J.Consistent group selection in high-dimensional linear regression.Bernoulli:official journal of the Bernoulli Society for Mathematical Statistics and Probability,2010,16(4):1369-1384.