劉邱云,王璐璐,黃 濤
(1.江西師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,江西 南昌 330022;2.江西經(jīng)濟(jì)管理干部學(xué)院財(cái)務(wù)與金融學(xué)院,江西 南昌 330088)
Logistic回歸[1-3]模型分類方法是在統(tǒng)計(jì)分析領(lǐng)域中基于具體模型的分類方法,它在處理分類問題時(shí),既能對(duì)樣本所屬的類別進(jìn)行預(yù)測(cè),又能對(duì)分類的相關(guān)概率信息進(jìn)行計(jì)算.此方法常被用于疾病診斷、經(jīng)濟(jì)預(yù)測(cè)及數(shù)據(jù)挖掘等領(lǐng)域[4-5].
證據(jù)理論[6]作為不確定性推理的一種重要方法,能較好地表達(dá)及融合決策層的不確定信息,較廣泛地應(yīng)用在決策分析、信息融合以及模式識(shí)別等領(lǐng)域[7-9]中.使用證據(jù)理論做不確定性推理,首先要解決如何表示不確定性信息,即構(gòu)造基本信度分配(BBA)函數(shù)問題.
在運(yùn)用證據(jù)理論時(shí),基本信度分配函數(shù)作為一種集值隨機(jī)變量即隨機(jī)集[10],它的構(gòu)造方式與具體運(yùn)用緊密相關(guān).李世誠(chéng)等[11]利用馬爾可夫隨機(jī)場(chǎng)(MRF)構(gòu)造BBA函數(shù),建立了圖像鄰域證據(jù)場(chǎng).童濤等[12]借助SVM分類結(jié)果作為獨(dú)立證據(jù)生成BBA函數(shù),解決了對(duì)SAR圖像目標(biāo)的有效分類.李新德等[13]結(jié)合PNN網(wǎng)絡(luò)生成目標(biāo)識(shí)別矩陣以獲取BBA函數(shù),提出了一種面向多特征飛機(jī)圖像目標(biāo)的信息融合方法.S. Petit-Renaud等[14]基于非參數(shù)回歸分析針對(duì)已知的輸入向量,預(yù)測(cè)輸出變量的值,得到模糊信任分配(FBA)函數(shù),并構(gòu)造為集值模糊集上的一個(gè)BBA函數(shù).XU Peida等[15]用一種非參數(shù)方法生成BBA函數(shù),以處理測(cè)試樣本與概率間的關(guān)系模型中的分類問題.M.C. Garrido等[16]針對(duì)不完全信息和異構(gòu)的分類問題,基于回歸方法構(gòu)造了不完整數(shù)據(jù)集上的證據(jù)函數(shù).就以上研究趨勢(shì)可以發(fā)現(xiàn):基本信度分配函數(shù)的構(gòu)造側(cè)重利用問題內(nèi)在的不確定性[17],尤其是對(duì)無法用概率描述的不確定性建立模型,以體現(xiàn)證據(jù)理論在處理不確定性問題中的優(yōu)勢(shì).與以上研究相比較,Logistic回歸是一種更簡(jiǎn)單的模型,尤其對(duì)于大規(guī)模的線性分類,操作更方便.Logistic回歸利用非線性映射,將離分類平面比較遠(yuǎn)的點(diǎn)的權(quán)重大大降低,而與分類更相關(guān)的數(shù)據(jù)點(diǎn)的權(quán)重就得到了相對(duì)提高.基于此,本文結(jié)合Logistic回歸分類,提出一種新的證據(jù)理論基本信度分配函數(shù)的構(gòu)造方法.
本文的主要貢獻(xiàn)有如下2方面:(i)首先以多類Logistic回歸分類法輸出的樣本后驗(yàn)概率和分類正確率建立證據(jù)權(quán)重系數(shù),其次再建立加權(quán)的基本信度分配函數(shù),最后通過加權(quán)D-S證據(jù)融合進(jìn)行決策,判別樣本所屬的類別;(ii)將構(gòu)造的新方法應(yīng)用于多特征圖像分類.
假設(shè)n個(gè)訓(xùn)練樣本是{x,y},其中x=(x1,x2,…,xn),xi是d維的樣本特征向量,y={y1,y2,…,yn},此處用1和0作為類別標(biāo)簽,分別表示正類和負(fù)類,則將樣本x歸入類別中正類的“概率”為
p(y=1|x;θ)=g(θTx)=1/(1+e-θTx),
這里θ是d維的模型參數(shù),也就是回歸系數(shù),g(θTx)是Logistic函數(shù).
本文使用極大似然估計(jì)方法來求解模型參數(shù),由于直接對(duì)似然函數(shù)進(jìn)行最大化通常較麻煩,因此先將似然函數(shù)取對(duì)數(shù),再最大化.這里,
進(jìn)一步,轉(zhuǎn)換成代價(jià)函數(shù):
事實(shí)上,對(duì)代價(jià)函數(shù)最小化就相當(dāng)于對(duì)似然估計(jì)最大化,再結(jié)合梯度下降法對(duì)l(θ)的極大值進(jìn)行求解,最終得到參數(shù)θ.
為了將2類回歸分類法推廣為多類回歸分類法,這里使用one-vs-all策略,即假設(shè)分類問題中有c個(gè)類,將其中某一個(gè)類作為一類,而其余的類作為另一類,以此建立一個(gè)2類分類器,按這種方式一共可以建立c個(gè)2類分類器.假設(shè)類別標(biāo)簽y∈{1,2,…,c},c個(gè)參數(shù)θi(i=1,2,…,c),則
(1)
定義2設(shè)同一識(shí)別框架Θ上有2個(gè)獨(dú)立證據(jù),其基本信度分配函數(shù)分別為m1和m2,則用D-S組合規(guī)則融合后的證據(jù)m=m1⊕m2為
(2)
定義3假設(shè)有Q個(gè)樣本,其中所屬類分類正確的樣本個(gè)數(shù)為q,則樣本分類正確率為
E=q/Q.
(3)
定義4假設(shè)分類器包含c個(gè)類,其識(shí)別框架為Θ={L1,L2,…,Lc},E(Li)為分類器對(duì)第i類的分類正確率,則第i類的權(quán)重系數(shù)分配函數(shù)為
(4)
其中n=|Θ|,這里正整數(shù)k越大表明分類正確率越高,即賦予的權(quán)重越大.由此可見權(quán)重系數(shù)W(Li)體現(xiàn)了各證據(jù)的可靠程度.
定理1假設(shè)分類訓(xùn)練樣本集的樣本共有n個(gè)特征,使用Logistic回歸分類法對(duì)第j個(gè)特征進(jìn)行訓(xùn)練,由式(3)得分類正確率為Ej(Li),由式(4)得權(quán)重系數(shù)為Wj(Li)(j=1,2,…,n;i=1,2,…,c),xs為待識(shí)別樣本,利用式(1)代入第j個(gè)特征可求得pj(y=i|xs),引入折扣因子α(α≥1)有
于是建立第j個(gè)特征對(duì)應(yīng)的權(quán)重BBA函數(shù)mWj為
(5)
步驟如下:
(i)提取樣本的若干個(gè)特征(假設(shè)有n個(gè));
(ii)利用訓(xùn)練樣本集中類別已知的樣本,求解回歸參數(shù)θi(i=1,2,…,c);
(iii)通過式(5)建立加權(quán)的基本信度分配函數(shù)mW(Li);
(iv)利用式(2)對(duì)這些基本信度分配函數(shù)做D-S證據(jù)融合mW1⊕mW2⊕…⊕mWn(Li),最后根據(jù)argmaxmW1⊕mW2⊕…⊕mWn(Li)=Li0做決策,即將待分類樣本xs歸入第i0類.
為了將上述新方法應(yīng)用于圖像分類,本文選取在Scene 15場(chǎng)景分類數(shù)據(jù)集中的kitchen(K)、livingroom(L)及bedroom(B) 3類室內(nèi)場(chǎng)景圖像作為分類對(duì)象.每個(gè)類型含200幅圖像,隨機(jī)選取100幅圖像作為訓(xùn)練樣本,另外100幅圖像作為驗(yàn)證樣本.對(duì)比模型為Hu不變矩、單一紋理特征和加權(quán)D-S證據(jù)融合特征.
由于在圖像分類中,圖像的Hu不變矩與紋理特征相互獨(dú)立,所以使用加權(quán)D-S證據(jù)融合的做法是合理的.
模型應(yīng)用于圖像分類的流程圖如圖1所示,其步驟如下:
(i)提取場(chǎng)景圖像樣本的特征量——Hu不變矩和紋理特征;
(ii)根據(jù)2個(gè)特征量,對(duì)類別已知的100幅圖像進(jìn)行訓(xùn)練,求解出Logistic回歸參數(shù)θi(i=1,2,3),并依次計(jì)算出2個(gè)特征量的正確率和權(quán)重系數(shù),然后借助式(1)將驗(yàn)證樣本中提取的特征代入,得到p(y=Li|x),其中Li∈(K,L,B);
(iii)通過式(5)構(gòu)造加權(quán)的基本信度分配函數(shù)mW(Li),其中Li∈(K,L,B);
(iv)最后通過式(2)做D-S證據(jù)融合,并根據(jù)argmaxmW1⊕mW2(Li)判定驗(yàn)證樣本的類別.
圖1 圖像分類流程圖
對(duì)于圖像分類,本文提取在圖像矩特征量中的Hu不變矩及在紋理特征中的灰度共生矩陣.
3.1.1 Hu不變矩 圖像的矩特征是以圖像分布的各階矩來描述灰度的統(tǒng)計(jì)特征的方法,它具有較好的平移、旋轉(zhuǎn)和比例不變性.借助2階和3階中心矩,M.K. Hu構(gòu)造了如下表達(dá)式的7個(gè)不變矩:
f1=η20+η02,
f3=(η30-3η12)2+(3η21-η03)2,
f4=(η30+η12)2+(η21+η03)2,
f5=(η30-3η12)(η30-η12)((η30+η12)2-3(η30+η12)2)+(3η21-η03)(η21+η03)(3(η30+η12)2-(η03+η21)2),
f6=(η20-η02)((η30+η12)2-(η03+η21)2)+η11(η30+η12)(η03+η21),
f7=(3η21-η03)(η30+η12)((η30+η12)2-3(η03+η21)2)+(3η12-η30)(η21+η03)(3(η30+η12)2-(η03+η21)2),
其中ηpq(p,q=0,1,2,3)表示歸一化中心矩.用100個(gè)訓(xùn)練樣本和100個(gè)驗(yàn)證樣本的7個(gè)Hu不變矩特征構(gòu)造出圖像的矩特征向量為
FA=(f1,f2,f3,f4,f5,f6,f7).
3.1.2 紋理特征 圖像的紋理特征通過灰度共生矩陣的4個(gè)指標(biāo)(熵T1、能量T2、對(duì)比度T3、相關(guān)性T4)來描述.其中熵T1描述了紋理的復(fù)雜程度和非均勻程度,能量T2描述了圖像的紋理粗細(xì)度和灰度分布的均勻程度,對(duì)比度T3描述了某像素值的亮度與其領(lǐng)域像素值的亮度的對(duì)比情況,相關(guān)性T4描述了紋理的一致性.它們的表達(dá)式分別為
其中Pi, j即為P((i,j)/d,θ).這里θ表示方向;d表示距離;P為灰度共生矩陣;μi表示灰度共生矩陣各行的均值,μj表示各列的均值;σi表示灰度共生矩陣各行的標(biāo)準(zhǔn)差,σj表示各列的標(biāo)準(zhǔn)差.構(gòu)造出圖像的紋理特征向量為FB=(T1,T2,T3,T4).
首先從提取到的3類室內(nèi)場(chǎng)景圖像樣本的Hu不變矩和紋理特征中隨機(jī)選出100個(gè)訓(xùn)練樣本,利用多類Logistic回歸分類法進(jìn)行參數(shù)學(xué)習(xí),以獲得優(yōu)化參數(shù)θi(i=1,2,3);再把訓(xùn)練樣本代入訓(xùn)練好的模型中以獲取上述3類樣本的分類正確率Ej(Li),結(jié)果如表1所示.
表1 各特征的分類正確率
然后以上述特征為證據(jù)體(k=2),按照定義4處理得到2個(gè)特征的加權(quán)系數(shù),結(jié)果如表2所示.
表2 各特征的加權(quán)系數(shù)
最后對(duì)100個(gè)驗(yàn)證樣本進(jìn)行測(cè)試,針對(duì)不同的折扣因子α值,分別得到樣本單一特征的平均分類正確率與加權(quán)融合的平均分類正確率,結(jié)果如圖2所示.
圖2 α取不同值的各特征的分類正確率
由圖2可知:通過加權(quán)D-S證據(jù)融合后的平均分類正確率高于單一特征的平均分類正確率;根據(jù)單一的紋理特征或Hu不變矩特征分類的正確率不穩(wěn)定,尤其是單一的紋理特征起伏更加明顯,而加權(quán)D-S證據(jù)融合特征分類的正確率高且相當(dāng)穩(wěn)定,因此可信度較高.
當(dāng)折扣因子α=3.5時(shí),各特征的分類正確率和F均值結(jié)果如表3所示.其中圖像bedroom(B)樣本采用2種單一特征分類的正確率分別為0.64、0.72,采用加權(quán)D-S證據(jù)融合特征后正確率提高到0.86;圖像livingroom(L)樣本的分類結(jié)果類似,采用2種單一特征分類的正確率分別為0.79、0.78,采用加權(quán)D-S證據(jù)融合特征后正確率提高到0.84;而圖像kitchen(K)樣本的Hu不變矩的分類正確率低于加權(quán)D-S證據(jù)融合特征后的分類正確率,K樣本的紋理特征的分類正確率高于加權(quán)D-S證據(jù)融合特征后的分類正確率,恰好與D-S證據(jù)理論的特點(diǎn)相符,即降低證據(jù)之間的沖突程度,增大可信度.根據(jù)F均值分析數(shù)據(jù)可得類似結(jié)果.
表3 各特征的正確率混合矩陣
本文提出了一種新的基于Logistic回歸分類模型的基本信度分配函數(shù)的構(gòu)造方法,并且在多特征圖像分類上驗(yàn)證了該方法的有效性.這種新方法利用多類Logistic回歸分類法,分別基于單一紋理特征和Hu不變矩對(duì)圖像樣本進(jìn)行初步識(shí)別,并以Logistic回歸分類法輸出的后驗(yàn)概率與分類正確率建立證據(jù)權(quán)重系數(shù),從而構(gòu)造出加權(quán)的基本信度分配函數(shù);最后利用加權(quán)D-S證據(jù)理論對(duì)樣本的各個(gè)特征信息進(jìn)行有效融合,并根據(jù)融合后的最大值對(duì)樣本所屬的類別做決策.實(shí)驗(yàn)結(jié)果顯示:本文提出的新方法實(shí)現(xiàn)了多特征的有效融合,既提高了分類的正確率,又改正了使用單特征導(dǎo)致的分類正確率的不穩(wěn)定的缺點(diǎn).