王小玉,賈 杰,常明明
(1.鄭州工商學(xué)院 公共基礎(chǔ)教學(xué)部,河南 鄭州 450001;2.河南師范大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,河南 新鄉(xiāng) 453007)
邏輯損失函數(shù)在數(shù)學(xué)上具有二階可微的特點(diǎn),同時(shí)在統(tǒng)計(jì)學(xué)方面應(yīng)用意義較為良好,從而使得正則化的邏輯回歸模型在二分類以及多分類問題中具有廣泛的應(yīng)用[1-5]。
在解決二分類問題的過程中,通過結(jié)合不同的損失函數(shù)以及懲罰函數(shù),可以形成不同優(yōu)化性能的模型,從而解決二分類問題中的稀疏性問題。文獻(xiàn)[1]通過將邏輯回歸損失與L2范數(shù)懲罰函數(shù)結(jié)合起來,提出了一種正則化邏輯回歸模型,該模型可以產(chǎn)生離散因子,又能準(zhǔn)確描述重要的基因及其內(nèi)在結(jié)構(gòu)。通過從平衡數(shù)據(jù)集中提取相關(guān)的訓(xùn)練樣本,文獻(xiàn)[2]提出了一種新的混合k-mer邏輯回歸模型,該模型潛在的顯示出了不同基因所攜帶的DNA序列特征。利用引入內(nèi)點(diǎn)的方法,文獻(xiàn)[4]提出了一種新的L1正則化邏輯回歸,并以此為依據(jù),證明了L1正則化邏輯回歸方法,在稀疏性能方面更優(yōu)于其他模型。通過將邏輯回歸與L1/2范數(shù)懲罰函數(shù)相結(jié)合,文獻(xiàn)[5]進(jìn)一步提出了稀疏性能更優(yōu)異的邏輯回歸模型。
若將邏輯回歸函數(shù)推廣并應(yīng)用于多分類問題中,就轉(zhuǎn)化為多項(xiàng)式回歸模型問題。由于微陣列技術(shù)可以生成的樣品數(shù)量相對(duì)較少,而且每一個(gè)樣品都包含有成千上萬個(gè)基因,因而產(chǎn)生的結(jié)果就是,基因數(shù)目遠(yuǎn)遠(yuǎn)多于樣本的數(shù)量。因此,嚴(yán)格進(jìn)行特征識(shí)別是微陣列數(shù)據(jù)多分類研究的一大特點(diǎn)[6-8],而稀疏的多項(xiàng)式回歸模型的產(chǎn)生,為此類問題提供了合理的應(yīng)用及方法。通過構(gòu)造出具有soft-max連接函數(shù)的泛化線性函數(shù),文獻(xiàn)[6]提出了一種稀疏多項(xiàng)式邏輯回歸模型,該模型采用了拉普拉斯算子,因此大大提高了自身的稀疏性能。利用帶有高斯?jié)撛谧兞康臄?shù)據(jù)增強(qiáng)的方法,文獻(xiàn)[7]提出了一種變異的貝葉斯多項(xiàng)式概率回歸模型,該模型的特點(diǎn)是可以減少預(yù)測(cè)中誤差。通過引入彈性網(wǎng)絡(luò)懲罰,文獻(xiàn)[8]提出了一種相關(guān)突變的正則化多項(xiàng)式回歸模型(Correlated Mutations via Regularized Multinomial Regression),簡稱RMRCM,將該模型應(yīng)用于蛋白質(zhì)多重序列比對(duì)中,可以有效的確保在多重序列數(shù)據(jù)中預(yù)測(cè)鏈數(shù)目的有限性,防止過度預(yù)測(cè)情況的發(fā)生?;谏鲜鏊枷?,并結(jié)合多類自適應(yīng)彈性網(wǎng)絡(luò)懲罰函數(shù)本身具有自適應(yīng)群體基因選擇性能的特點(diǎn),我們將多類自適應(yīng)彈性網(wǎng)絡(luò)懲罰函數(shù)與多項(xiàng)式似然損失函數(shù)擬合,從而得到了一種新的自適應(yīng)多項(xiàng)式回歸學(xué)習(xí)機(jī)。
(1)
對(duì)于二分類問題中通常的線性回歸模型,輸出響應(yīng)Y能被預(yù)測(cè)為:
(2)
其中,偏差向量用b=(b1,…,bK)T表示,參數(shù)矩陣用w表示,即:
其中wk=(wk1,…,wkp)T和w(j)=(w1j,…,wkj)T分別表示參數(shù)矩陣w的第k個(gè)行向量和第j個(gè)列向量。從而上面的線性邏輯回歸函數(shù)可形成一個(gè)多分對(duì)數(shù)模型。
現(xiàn)將其推廣為K個(gè)分對(duì)數(shù)的情形。那么就可以得到通項(xiàng)公式:
(3)
其中(bk,wk)表示對(duì)應(yīng)于樣本(Y=k|x)的一對(duì)參數(shù),bk∈R1,wk∈Rp。多分類問題中,已知類條件概率為:
(4)
建立模型,首先我們利用正則化的多項(xiàng)式似然函數(shù),擬合前面所提出的已知類條件概率模型。即pk=Pr(Y=k|xi),yi∈{1,2,…,K}分別表示第i個(gè)響應(yīng)值。則有:
令Y表示n*K階的響應(yīng)矩陣,其中的元素為yik=I(yi=k),即:
由于logpyi(xi)<0,我們選擇-logpyi(xi)做損失函數(shù)。即:
(5)
其中yik=I(yi=k)即:
yik=I(yi=k)={1,yi=k0,yi≠k
其中k=1,2,…,K,j=1,2,…,p
因此,多分類彈性網(wǎng)絡(luò)懲罰可以表示為:
(6)
然而在上述過程中,我們發(fā)現(xiàn),對(duì)應(yīng)非重要基因的懲罰因子較大,而對(duì)應(yīng)重要基因的懲罰因子卻較小,由此產(chǎn)生的結(jié)果使得在實(shí)際應(yīng)用會(huì)形成較大的誤差。
改進(jìn)模型的過程中,我們通過將上述自適應(yīng)彈性網(wǎng)絡(luò)懲罰函數(shù),應(yīng)用于多項(xiàng)式損失函數(shù)中,提出了一種新的自適應(yīng)多類多項(xiàng)式回歸模型:
(7)
s.t1Tb=0,1Twj=0,(j=1,2,…,p)
微陣列分類研究中,識(shí)別數(shù)據(jù)中相關(guān)的基因是非常重要的。而自適應(yīng)多類多項(xiàng)式回歸模型中,所有對(duì)應(yīng)基因j的參數(shù)可以采用相同的權(quán)重tj。由于加權(quán)的L1懲罰的意義在于自適應(yīng)的將所有對(duì)應(yīng)于不重要基因的參數(shù)收縮為0,與此同時(shí),可以減小對(duì)應(yīng)重要基因的參數(shù)偏差,從而產(chǎn)生良好的稀疏性能。加權(quán)的L2范數(shù)懲罰的意義在于通過估計(jì)K類分類的重要性的基因排序來成群的選擇基因。接下來,我們將通過下面的定理1,證明所給自適應(yīng)多類多項(xiàng)式回歸模型,在實(shí)際應(yīng)用中可以進(jìn)行群體基因選擇,從而達(dá)到在基因群組中成群的辨識(shí)重要基因的效果。
首先,化簡模型。將約束條件代入自適應(yīng)多類多項(xiàng)式回歸模型(7),可以化簡得到:
(8)
(9)
證明:首先,構(gòu)造向量和矩陣指標(biāo)如下:
(10)
注意到Lki滿足利普希茨條件,從而有:
運(yùn)用反證法,易證不等式
(11)
成立。因此可得:
(12)
放大懲罰函數(shù),從而一范數(shù)懲罰項(xiàng)可化為:
(13)
二范數(shù)懲罰項(xiàng)可以轉(zhuǎn)化為:
(14)
結(jié)合(10),(12),(13),(14)可得:
(15)
即:
(16)
等價(jià)于:
(17)
(18)
求解算法:我們?cè)谶@里選用順向坐標(biāo)下降算法來求解上述自適應(yīng)多項(xiàng)式回歸模型。解決步驟如下:首先,將模型轉(zhuǎn)換為:
(19)
然后固定參數(shù)α,在參數(shù)λ的取值范圍中計(jì)算正則化路以求解自適應(yīng)多項(xiàng)式回歸模型關(guān)于參數(shù)的解路。通常在解決線性回歸或者多項(xiàng)式回歸問題的過程中,針對(duì)常見的懲罰函數(shù)分別為L1范數(shù)和L2范數(shù)懲罰或者彈性網(wǎng)絡(luò)懲罰函數(shù)類的模型問題,通常選擇使用坐標(biāo)下降算法。該算法可以應(yīng)用于大型數(shù)據(jù)集如微陣列數(shù)據(jù),通過利用特征集合稀疏性的優(yōu)勢(shì)以及順向坐標(biāo)下降算法來計(jì)算正則化路的方法,可以快速并有效地求解彈性網(wǎng)絡(luò)的相關(guān)模型。
邏輯回歸模型在二分類問題以及多分類問題中有著廣泛的應(yīng)用,但是該模型存在一定局限性。針對(duì)這一問題,本文通過在模型中引入具有自適應(yīng)群體基因選擇性能的多分類自適應(yīng)彈性網(wǎng)絡(luò)懲罰函數(shù),提出了一種新的自適應(yīng)多項(xiàng)式回歸學(xué)習(xí)機(jī)器,并且證明了該學(xué)習(xí)機(jī)器可以在構(gòu)建分類器的過程中有效地激勵(lì)群體效應(yīng),并成群地選擇相關(guān)的重要基因。