龔 斌,趙 凝,鄭 靜
(杭州電子科技大學(xué)經(jīng)濟(jì)學(xué)院,浙江 杭州 310018)
然而,單一的概率模型無法滿足實(shí)際的應(yīng)用需求,于是有學(xué)者Pearson K[4]首次提出概率混合模型的概念。概率混合模型可以使用多個(gè)獨(dú)立的概率分布去描述一個(gè)復(fù)雜的、使用單一概率模型無法描述,并且更符合現(xiàn)實(shí)中實(shí)際情況的數(shù)據(jù)分布。相比于單一的概率模型,混合模型具有諸多優(yōu)點(diǎn),因此若是能夠?qū)我坏腖ogistic回歸模型推廣到Logistic混合模型,不僅能夠處理應(yīng)對(duì)更復(fù)雜的數(shù)據(jù)集,同時(shí)也能擴(kuò)大模型在一些熱門領(lǐng)域的應(yīng)用。
變分貝葉斯方法(Variational Bayesian Inference)[5][6][7]作為目前最有效的確定性近似方法,由于其計(jì)算成本小、收斂速度快、可用于大規(guī)模數(shù)據(jù)集處理而備受關(guān)注,常被用于解決概率混合模型的參數(shù)估計(jì)問題。鄭丹陽(yáng)等人[8]提出了一種基于變分推斷的聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)算法,用于解決關(guān)于雷達(dá)鄰近多目標(biāo)跟蹤的問題,結(jié)果表明新算法具備更高的位置精度,且能有效地避免因鄰近目標(biāo)數(shù)量增多而引起的計(jì)算上的組合爆炸問題。劉連等人[9]針對(duì)傳統(tǒng)的字典學(xué)習(xí)算法收斂速率慢、受到噪聲干擾等問題提出一種基于變分推斷的字典學(xué)習(xí)算法,顯著提高了字典學(xué)習(xí)效率以及對(duì)測(cè)試圖像的去噪效果和重構(gòu)精度。
對(duì)于一組d維數(shù)據(jù)x=(x1,x2,…,xd)T,y∈{-1,1},假設(shè)w=(w1,…,wd)T為d維系數(shù),則Logistic回歸模型的密度函數(shù)p(y|x,w)可以表示為
p(y|x,w)=σ(ywTx)
(1)
接下來將其擴(kuò)展至兩分量Logistic混合模型。假設(shè)有N組d維數(shù)據(jù),X={x1,x2,…,xN},xi∈Rd,i=1,2,…N,對(duì)應(yīng)的應(yīng)變量為Y={y1,y2,…,yN}。假設(shè)W={w1,w2}為系數(shù)參數(shù),π={π1,π2}為權(quán)重參數(shù),則兩分量Logistic混合模型的密度函數(shù)為
(2)
(3)
得到似然函數(shù)為
(4)
為方便起見,假設(shè)π={π1,π2}的先驗(yàn)分布是參數(shù)為α=(α0,α0)T的Dirichlet分布[10],即
(5)
同時(shí)假設(shè)wk服從協(xié)方差矩陣相同,均值不同的正態(tài)分布,即
(6)
兩分量Logistic混合模型中各隨機(jī)變量的關(guān)系如圖一所示,其中隨機(jī)變量用圓表示,變量之間的關(guān)系用有向箭頭表示。綜上(2)-(6)式,根據(jù)貝葉斯規(guī)則,可以得到觀測(cè)值D和各個(gè)隨機(jī)變量Θ={Z,W,π}之間的聯(lián)合密度函數(shù)。
p(Z,W|D)∝p(Z,W,D)=p(Z,W,π,D)=p(D|Z,W)p(Z|π)p(π)p(W)
(7)
圖1 兩分量Logistic混合模型中各隨機(jī)變量的關(guān)系示意圖
通常在使用概率混合模型解決實(shí)際問題時(shí),還需要解決參數(shù)估計(jì)和模型選擇這兩個(gè)方面的問題。本文通過將模型分量數(shù)固定為兩分量來解決模型選擇的問題,后續(xù)將問題聚焦于如何解決兩分量Logistic混合模型的參數(shù)估計(jì)上。而常用的混合模型往往會(huì)因?yàn)槟P徒Y(jié)構(gòu)過于復(fù)雜而難以求解目標(biāo)后驗(yàn)分布,因此通常使用變分貝葉斯推斷方法來近似后驗(yàn)分布。
變分貝葉斯的主要思想是選擇一族容易處理的分布族q(Θ)來近似真實(shí)的后驗(yàn)分布p(Θ|D)。首先假設(shè)變分分布族滿足平均場(chǎng)理論,即
q(Θ)=q(Z,W,π)=q(Z)q(W)q(π)
(8)
又由貝葉斯定理得到
(9)
(10)
σ(z)≤exp[ξ*z-H(ξ)]
(11)
其中H(ξ)=-ξ*ln(ξ)-(1-ξ)*ln(1-ξ)
通過(11)將(10)中包含Logistic函數(shù)的部分轉(zhuǎn)化為近似表示,即
(12)
(13)
1.2.1 q(Z)的變分推斷
(14)
(15)
其中
(16)
且對(duì)于離散分布q(Z)而言,可以得到E(Z)(Znk)=rnk。
1.2.2q(π)的變分推斷
(17)
因此
(18)
其中αN=(αN1,αN2)T
(19)
1.2.3 q(W)的變分推斷
(20)
可得
其中Σk=I
(21)
進(jìn)一步可得
(22)
根據(jù)上述推導(dǎo)得到的3個(gè)變分參數(shù)分布,進(jìn)一步可得其中參數(shù)的期望:
E(W)(wk)=vk
(23)
E(π)(lnπk)=ψ(αNk)-ψ(αN1+αN2)
(24)
E(Z)(Znk)=rnk
(25)
其中ψ(·)為digamma函數(shù)。
(26)
其中
(27)
(28)
(29)
(30)
(31)
(32)
整理得到
(33)
1.2.5 參數(shù)ξn的估計(jì)
通過將推導(dǎo)得到的(33)關(guān)于參數(shù)ξn求一階導(dǎo)并令為0,得到ξn的參數(shù)估計(jì),即
(34)
可得
(35)
由于
(36)
(37)
對(duì)等式(37)兩邊同時(shí)關(guān)于ξn求導(dǎo)得到r′nk:
(38)
其中
其中ψ′(·)為digamma函數(shù)的一階導(dǎo)。
同樣對(duì)等式(36)兩邊同時(shí)關(guān)于ξn求導(dǎo)得到ρ′nk:
(39)
綜上根據(jù)(35)、(38)、(39),就得到了參數(shù)ξn的估計(jì)表達(dá)式:
(40)
其中
為了驗(yàn)證本文提出的兩分量Logistic混合模型變分貝葉斯算法的性能,通過將收集到的以下兩組數(shù)據(jù)集按不同比例的混合來進(jìn)行擬合檢驗(yàn)。其中數(shù)據(jù)集1為Iris(鳶尾花)數(shù)據(jù)集,該數(shù)據(jù)集中每個(gè)樣本有四個(gè)屬性和一個(gè)類別標(biāo)簽,一共3個(gè)類別,為了更好地滿足對(duì)上述模型算法的檢驗(yàn),選擇其中兩類作為第一組二分類數(shù)據(jù)集;數(shù)據(jù)集2為Banknote(紙幣驗(yàn)證)數(shù)據(jù)集,該數(shù)據(jù)集也是一組每個(gè)樣本擁有四個(gè)屬性以及一個(gè)類別標(biāo)簽的二分類數(shù)據(jù)集。
實(shí)驗(yàn)中,將超參數(shù)進(jìn)行如下初始化:α0初始化為1,μk為樣本均值,wk用numpy庫(kù)中的random函數(shù)進(jìn)行隨機(jī)初始化,權(quán)重系數(shù)πk都初始化為0.5。接下來將以上兩組數(shù)據(jù)集按三種不同比例的混合,分別運(yùn)用本文提出的變分貝葉斯算法來進(jìn)行模擬驗(yàn)證。其中數(shù)據(jù)集A的混合比例為0.5,0.5;數(shù)據(jù)集B的混合比例為0.7,0.3;數(shù)據(jù)集C的混合比例為0.4,0.6。它們各自的變分下界變化趨勢(shì)如下圖所示。
圖2 數(shù)據(jù)集A的變分下界趨勢(shì)圖
圖3 數(shù)據(jù)集B的變分下界趨勢(shì)圖
圖4 數(shù)據(jù)集C的變分下界趨勢(shì)圖
從上述趨勢(shì)圖中可以發(fā)現(xiàn),隨著迭代次數(shù)的增加,變分下界很快就開始收斂,之后逐漸趨于平穩(wěn)。
將變分下界進(jìn)入收斂后的各個(gè)超參數(shù)以及參數(shù)的估計(jì)值結(jié)果整理如下表:
表1 三組混合數(shù)據(jù)集模型擬合結(jié)果
從表一的擬合結(jié)果來看,該算法在變分下界收斂達(dá)到平穩(wěn)后得到的權(quán)重系數(shù)估計(jì)值跟實(shí)際的混合比例非常接近,說明該模型算法能在快速收斂的同時(shí)實(shí)現(xiàn)較為精確的混合分類數(shù)據(jù)集的混合比例估計(jì)。
傳統(tǒng)的變分貝葉斯推斷在處理混合模型的參數(shù)估計(jì)時(shí),通常需要依賴平均場(chǎng)理論以及分布之間的共軛關(guān)系,對(duì)于無共軛分布的混合模型便無法進(jìn)行有效的參數(shù)估計(jì)。本文通過將Logistic混合模型與變分貝葉斯推斷法結(jié)合在一起,并借助Logistic函數(shù)的近似表示來解決不構(gòu)成共軛分布的問題,提出一種能用于解決Logistic混合模型參數(shù)估計(jì)的貝葉斯推斷算法,并給出了詳細(xì)的變分推導(dǎo)過程。實(shí)證結(jié)果表明,該算法能夠在保證精確估計(jì)混合比例的同時(shí),實(shí)現(xiàn)快速收斂的效果。后續(xù)將針對(duì)如何實(shí)現(xiàn)拓展至多分類混合模型的變分貝葉斯推斷進(jìn)行深入研究。