李歡,王士同
(江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無(wú)錫 214000)
傳統(tǒng)模式識(shí)別主要針對(duì)測(cè)試模式為單觀測(cè)樣本的情況。然而,隨著人工智能技術(shù)的飛速發(fā)展,數(shù)據(jù)采集工作變得越來(lái)越容易,人們常??梢垣@取某特定模式在不同時(shí)刻或不同條件下的多個(gè)觀測(cè)樣本。例如,日常生活中,可以用攝像頭獲取一個(gè)物體或一個(gè)人在不同時(shí)刻、不同光照條件下的圖像數(shù)據(jù),也可以借用多個(gè)攝像頭從不同的角度獲取圖像數(shù)據(jù)。此外,即使是相同的觀測(cè)數(shù)據(jù),若用不同的方法進(jìn)行數(shù)據(jù)轉(zhuǎn)換,得到的特征值也不一樣,這些就構(gòu)成了同一模式的多觀測(cè)樣本。多觀測(cè)樣本相對(duì)于單觀測(cè)樣本能提供更多關(guān)于測(cè)試模式的信息,從而提高分類精度[1]。由此可以預(yù)見(jiàn),多觀測(cè)樣本分類問(wèn)題將得到國(guó)內(nèi)外研究學(xué)者的廣泛關(guān)注。
目前,多觀測(cè)樣本的分類方法主要有2類:一類是基于參數(shù)模型的方法。例如,文獻(xiàn)[2]提出了基于概率密度的KLD(KL-divergence),該方法把所有樣本集看作是獨(dú)立的,并且服從高斯分布,然后通過(guò)計(jì)算測(cè)試樣本集和各個(gè)訓(xùn)練樣本集間的KL散度來(lái)確定多觀測(cè)樣本的類別。但是此方法僅僅對(duì)那些服從單高斯分布的樣本集比較適用,難以精確地描述數(shù)據(jù)呈非線性分布的情況。針對(duì)這一情況,O.Arandjelovic 等[3]提出了半?yún)?shù)混合高斯模型,并將其應(yīng)用在KL散度的計(jì)算中,從而解決了非線性分布的多觀測(cè)樣本分類問(wèn)題。然而,此方法的計(jì)算復(fù)雜度相對(duì)較大。F.Cardinaux 等[4]通過(guò)嵌入局部特征來(lái)擴(kuò)展GMM(Gaussian mixture model),在保證低復(fù)雜度的同時(shí)進(jìn)一步提高了分類性能。文獻(xiàn)[5]提出了一種基于核函數(shù)的分類方法,該方法利用信息論的相關(guān)知識(shí),把RAD(resistor-average distance)看作是多觀測(cè)樣本間的相似度來(lái)完成多觀測(cè)樣本的分類。以上這些方法的不足在于它們不但要解決復(fù)雜的參數(shù)估計(jì)問(wèn)題,而且當(dāng)多觀測(cè)樣本和測(cè)試樣本集之間的統(tǒng)計(jì)相關(guān)性較弱時(shí),它們的性能會(huì)有大的波動(dòng)。另一類是基于非參數(shù)模型的方法,其中最具代表性的是基于子空間的方法,此類方法把子空間的相似度作為多觀測(cè)樣的分類依據(jù),例如,文獻(xiàn)[6]提出的MSM (mutual subspace method),首先用PCA特征子空間來(lái)表示每一類的訓(xùn)練樣本集和多觀測(cè)樣本,再利用子空間之間的主成分角作為相似性度量,最后用子空間的典型相關(guān)性(canonical correlation)來(lái)實(shí)現(xiàn)多觀測(cè)樣本的分類,但該算法對(duì)數(shù)據(jù)的變化較為敏感。為此,K.Fukui 等[7]又提出CMSM(constraint mutual subspace method)來(lái)消除MSM的數(shù)據(jù)敏感性,將原空間的所有樣本集都映射到同一約束子空間,在此約束空間中計(jì)算樣本集間的主成分角,再用子空間的典型相關(guān)性完成多觀測(cè)樣本的分類。但上述2種方法并沒(méi)有考慮到數(shù)據(jù)的非線性分布問(wèn)題,針對(duì)這一問(wèn)題,H.Sakano 等[8]提出KMSM(kernel mutual subspace method)算法,L.Wolf 等[9]提出KPA(kernel principal angles)算法,使用核函數(shù)來(lái)解決數(shù)據(jù)的非線性問(wèn)題,進(jìn)而完成多觀測(cè)樣本的分類。雖然KMSM和KPA考慮了數(shù)據(jù)的非線性分布,但是這2種方法用到的核函數(shù)對(duì)參數(shù)的依賴性較大。以上這些方法都沒(méi)有考慮到通過(guò)轉(zhuǎn)換數(shù)據(jù)可以提取到更多的判別信息,T.K.Kim 等[10]提出DCC(discriminant canonical correlation)算法,其首先通過(guò)訓(xùn)練獲得一個(gè)能使類內(nèi)典型相關(guān)性最大而類間典型相關(guān)性最小的判別轉(zhuǎn)換矩陣,然后把原空間數(shù)據(jù)映射到新的子空間上,在此基礎(chǔ)上把典型差分相關(guān)性作為相似度量進(jìn)行分類,此方法存在未考慮數(shù)據(jù)非線性分布的缺點(diǎn)。一些研究者曾認(rèn)為所有典型相關(guān)性對(duì)分類的貢獻(xiàn)是相同的,即權(quán)值相等。但后來(lái) T.K.Kim 等[11]發(fā)現(xiàn)在分類中不同的典型相關(guān)性所起的作用是不同的,繼而提出了BoMPA(boosted manifold principal angles)算法,該算法首先通過(guò)PPCA(probabilistic PCA)搜索局部線性模塊,并將得到的所有模塊表示成PCA子空間的形式,進(jìn)而計(jì)算子空間之間的典型相關(guān)性,然后把訓(xùn)練集表示為正負(fù)樣本特征的形式,同時(shí)采用AdaBoost算法得到相應(yīng)的權(quán)值,最后用加權(quán)后的主成分角來(lái)度量子空間的相似性,實(shí)現(xiàn)多觀測(cè)樣本的分類。在此基礎(chǔ)上,X.Li 等[12]提出Boosted全局和局部主成分角聯(lián)合的分類算法。文獻(xiàn)[13]提出MMD (manifold-manifold distance)方法,該方法將典型相關(guān)性和局部線性模塊結(jié)合起來(lái),首先用聯(lián)合局部線性模型的集合來(lái)表示子空間所描述的流形,從而把MMD轉(zhuǎn)換為線性模塊的組合,最終通過(guò)MMD的計(jì)算來(lái)對(duì)觀測(cè)樣本進(jìn)行分類,但該方法的計(jì)算量和復(fù)雜度相對(duì)較大。W.S.Chu[14]提出KDT(kernel discriminant transformation)來(lái)解決多觀測(cè)樣本的分類問(wèn)題,該方法用核子空間來(lái)表示每個(gè)樣本集,同時(shí)定義一個(gè)能使類內(nèi)核子空間相似性最大而類間核子空間相似性最小的KDT矩陣,從而把多觀測(cè)樣本的分類問(wèn)題轉(zhuǎn)換為尋求KDT矩陣的最優(yōu)解問(wèn)題。近來(lái),E.Kokiopoulou 等[15]在標(biāo)記傳播算法的基礎(chǔ)上提出了MASC(mAniflod-based smoothing under constrain)算法,該算法將k-近鄰圖運(yùn)用到多觀測(cè)樣本的分類問(wèn)題中,但是k-近鄰圖的邊權(quán)值的計(jì)算采用了歐式距離下的高斯核函數(shù),而基于歐式距離的測(cè)度無(wú)法全面反映數(shù)據(jù)的空間分布特性。
由上述可知,目前的多觀測(cè)樣本分類算法都有一定的不足和局限性。本文在經(jīng)典SVM算法的基礎(chǔ)上,用SVM的相關(guān)理論來(lái)實(shí)現(xiàn)多觀測(cè)樣本的分類。與傳統(tǒng)的SVM算法相同,本文方法適用于小樣本情況,利用核函數(shù)解決了非線性問(wèn)題和維數(shù)問(wèn)題,其算法復(fù)雜度與樣本維數(shù)無(wú)關(guān)。然而,與傳統(tǒng)分類方法的不同在于,該方法無(wú)需對(duì)分類器進(jìn)行訓(xùn)練或提前對(duì)訓(xùn)練集進(jìn)行特征表示,而是將測(cè)試集和訓(xùn)練集作為一個(gè)整體,充分利用特征空間中同類樣本連續(xù)分布這一特點(diǎn),使得分類更加準(zhǔn)確。
多觀測(cè)樣本形成示意圖如圖1所示。在多觀測(cè)樣本的二分類問(wèn)題中,若假設(shè)測(cè)試模式為s,則該問(wèn)題就是將測(cè)試模式的多觀測(cè)樣本確定為2種類別中的一類。
圖1 多觀測(cè)樣本形成示意圖Fig.1 Schematic diagram of producing multiple observations
假定測(cè)試模式s的多測(cè)樣本為
(1)
式中:上標(biāo)(u)表示各個(gè)觀測(cè)樣本是未標(biāo)記的,m表示觀測(cè)樣本的數(shù)目,oi(s)表示模式s的第i個(gè)單觀測(cè)樣本,它可能是模式s經(jīng)過(guò)平移、旋轉(zhuǎn)、縮放或者是透視投影得到的,也可能是模式s在某一特定時(shí)刻的觀察記錄。
綜上所述,多觀測(cè)樣本二分類問(wèn)題可正式定義為:給定已知標(biāo)簽的樣本集X(l)和未知標(biāo)簽的樣本集X(u),而X(u)對(duì)應(yīng)于模式s的多觀測(cè)樣本, 即X(u)?{xj(u)=oj(s),j=1,2,…,m},問(wèn)題就是確定未知標(biāo)簽的多觀測(cè)樣本的正確類別。其實(shí),多觀測(cè)樣本二分類問(wèn)題就是一種特殊的半監(jiān)督學(xué)習(xí),限制測(cè)試集中的所有樣本屬于同一類別,進(jìn)而把多觀測(cè)樣本作為一個(gè)整體進(jìn)行測(cè)試。而在一般的半監(jiān)督學(xué)習(xí)所解決的分類問(wèn)題中,測(cè)試集中的樣本是屬于多個(gè)類別的。因此,經(jīng)典的半監(jiān)督學(xué)習(xí)分類算法并不適合解決多觀測(cè)樣本二分類問(wèn)題。同時(shí),目前已有的多觀測(cè)樣本算法都存在著一定的不足。針對(duì)上問(wèn)題,本文提出了一種新的算法,即基于SVM的多觀測(cè)樣本二分類算法。
支持向量機(jī)(support vector machine, SVM)是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化(structural risk minimization,SRM)原理,在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展起來(lái)的機(jī)器學(xué)習(xí)方法[16]。SVM的基本實(shí)現(xiàn)方法就是在原空間或者經(jīng)過(guò)投影后的高維空間中構(gòu)造最優(yōu)分類面,并將此分類面作為分類決策面進(jìn)行數(shù)據(jù)分類。
SVM最基本的理論是用來(lái)解決二分類問(wèn)題的,SVM的目標(biāo)就是構(gòu)造線性最優(yōu)分類超平面,使其將2類樣本完全正確地分開(kāi),同時(shí)使分類間隔最大。對(duì)于給定的樣本集,(xi,yi),i=1,2,…,l,xi∈Rd,yi=±1,當(dāng)樣本集線性可分時(shí),對(duì)應(yīng)的線性判別函數(shù)的一般形式為:g(x)=(wTx)+b,其中w、b為n維向量,對(duì)判別函數(shù)作歸一化處理,使離分類面最近的樣本滿足|g(x)|=1,則分類間隔等于2/‖w‖,使分類間隔最大等價(jià)于使‖w‖2最??;要求分類面能將所有樣本正確分類,也就是要求它滿足:
yi(wTxi+b)≥1,i=1,2,…,n
(2)
且使‖w‖2最小的分類面就是最優(yōu)分類面。
綜上所述,最優(yōu)分類面的求解問(wèn)題等價(jià)于在式(2)的約束下最小化式(3):
(3)
而這一問(wèn)題可以通過(guò)定義拉格朗日函數(shù)(式(4))來(lái)求解:
(4)
式中:αi≥0為L(zhǎng)agrange系數(shù),則問(wèn)題轉(zhuǎn)換成對(duì)w和b求Lagrange函數(shù)的最小值。式(4)分別對(duì)w、b求偏微分,并令結(jié)果為零,則有
(5)
將式(5)代入式(4),則原問(wèn)題可以進(jìn)一步轉(zhuǎn)化為凸二次規(guī)劃的對(duì)偶問(wèn)題:
(6)
f(x)=sgn((w*)Tx+b*)=
最終的分類函數(shù)為
在線性不可分的問(wèn)題中,SVM還引入了懲罰因子C和松弛變量ξ,此時(shí)最優(yōu)分類面的求解問(wèn)題可描述為
同樣地,通過(guò)定義拉格朗日函數(shù)的方法可以將原問(wèn)題轉(zhuǎn)換為凸二次規(guī)劃的對(duì)偶問(wèn)題:
對(duì)應(yīng)的最優(yōu)分類函數(shù)為
由于支持向量機(jī)具有結(jié)構(gòu)簡(jiǎn)單、推廣性能好、優(yōu)化求解時(shí)具有惟一最優(yōu)解等優(yōu)點(diǎn),本文將用SVM的相關(guān)理論來(lái)解決多觀測(cè)樣本二分類問(wèn)題,確定多觀測(cè)樣本的類別。根據(jù)SVM的原理可知,SVM要解決的數(shù)學(xué)問(wèn)題為
(7)
而從多觀測(cè)樣本二分類問(wèn)題的描述可知,二分類問(wèn)題中的所有數(shù)據(jù)只屬于2個(gè)類別,數(shù)據(jù)的標(biāo)簽集為{-1,+1},設(shè)多觀測(cè)樣本集X(u)的標(biāo)簽為y,則y=-1或y=+1。因此可以通過(guò)假設(shè)多觀測(cè)樣本的標(biāo)簽來(lái)增加式(7)的約束條件:
(8)
可以先假設(shè)y=-1,求解得到目標(biāo)函數(shù)值g1。再假設(shè)y=+1,求解得到目標(biāo)函數(shù)值g2。只有當(dāng)假設(shè)的標(biāo)簽與多觀測(cè)樣本的實(shí)際標(biāo)簽相同時(shí),相應(yīng)得到的目標(biāo)函數(shù)值才是最優(yōu)解。因此,可以通過(guò)比較兩次得到的目標(biāo)函數(shù)值來(lái)確定待測(cè)試的多觀測(cè)樣本的標(biāo)簽。如式(9)所示:
(9)
為求解式(8)所述的優(yōu)化問(wèn)題,引入拉格朗日函數(shù)L:
(10)
式中:αi、βi、ri為L(zhǎng)agrange系數(shù),αi≥0,βi≥0,ri≥0,ξi≥0。 要使函數(shù)L關(guān)于w、b、ξi最小化,由極值存在的必要條件可知,函數(shù)L的極值滿足下列條件:
(11)
解方程(11)可得
(12)
將式(12)代入式(10)得到優(yōu)化問(wèn)題式(8)的對(duì)偶形式,即關(guān)于αi、βj的最大化函數(shù):
(13)
(14)
可以看到,通過(guò)求解式(14)可以能得到兩次標(biāo)簽假設(shè)對(duì)應(yīng)的目標(biāo)函數(shù)值g1和g2,從而根據(jù)式(9)確定待測(cè)試的多觀測(cè)樣本的標(biāo)簽。
基于SVM的多觀測(cè)樣本二分類的算法如下:
輸入:
X(l)、Y(l):已標(biāo)記樣本集和它的標(biāo)簽集;
X(u):多觀測(cè)樣本集;
l:已標(biāo)記樣本的數(shù)目;
m:多觀測(cè)樣本數(shù)目。
輸出:
處理:
1)由X(l)和X(u)得到樣本矩陣X,X?Rn×d,由Y(l)得到標(biāo)簽矩陣Y;
2)計(jì)算樣本矩陣X對(duì)應(yīng)的核矩陣K;
3)設(shè)y=-1, 求解優(yōu)化問(wèn)題:maxOA-AT((YYT)·K)A/2,得到g1;設(shè)y=+1,求解優(yōu)化問(wèn)題:maxOA-AT((YYT)·K)A/2,得到g2;
為了驗(yàn)證基于SVM的多觀測(cè)樣本二分類算法的有效性,首先在手寫(xiě)數(shù)字?jǐn)?shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn)。同類數(shù)字不同形式的手寫(xiě)圖像組成多觀測(cè)樣本集,對(duì)此類樣本集進(jìn)行分類。實(shí)驗(yàn)中,使用2種不同的數(shù)據(jù)庫(kù):Binary手寫(xiě)數(shù)字?jǐn)?shù)據(jù)庫(kù)和USPS手寫(xiě)數(shù)字?jǐn)?shù)據(jù)庫(kù)。Binary數(shù)據(jù)庫(kù)包含0~9共10類數(shù)字的手寫(xiě)圖像,每類數(shù)字有39個(gè)樣本,每個(gè)樣本用大小為20×16的二值圖像表示。USPS數(shù)據(jù)庫(kù)由0~9共10類手寫(xiě)數(shù)字組成,每類數(shù)字有1 100個(gè)樣本,每個(gè)樣本用大小為16×16的灰度圖像表示。
模式變換的魯棒性是多觀測(cè)樣本分類的一種重要特性??梢允褂锰摂M樣本來(lái)擴(kuò)充已標(biāo)記樣本集,從而加強(qiáng)分類算法的抗變換性。虛擬樣本一般通過(guò)原始樣本的變換產(chǎn)生,虛擬樣本的類別與原始樣本相同,因此是已知標(biāo)簽的已標(biāo)記樣本。通過(guò)在數(shù)據(jù)集中添加虛擬樣本,分類算法對(duì)測(cè)試樣本的魯棒性更強(qiáng)。因此,在本文所提的算法中使用這一方法,在原始數(shù)據(jù)集中添加大小為nvs的樣本集X(vs),數(shù)據(jù)集變?yōu)椋篨={X(l),X(vs),X(u)}。實(shí)驗(yàn)中,核函數(shù)選用高斯核函數(shù),即:k(x,y)=exp(-‖x-y‖2/2σ2)。為計(jì)算參數(shù)σ的大小,在數(shù)據(jù)集X中隨機(jī)選取1 000個(gè)樣本,并計(jì)算兩兩樣本之間的歐式距離,σ設(shè)置為所有距離的中值的1/2。
對(duì)于每類數(shù)字,首先從對(duì)應(yīng)樣本中隨機(jī)抽取2個(gè)樣本組成訓(xùn)練集,剩下的樣本組成測(cè)試集。再對(duì)訓(xùn)練集中的每個(gè)樣本做連續(xù)的4次旋轉(zhuǎn)變換,得到的樣本放在訓(xùn)練集中,其中旋轉(zhuǎn)角θ從[-40°,40°]的均勻采樣序列中得到。這樣的區(qū)間能避免“6”和“9” 2類數(shù)字的混淆。為了建立每類數(shù)字的多觀測(cè)樣本數(shù)據(jù)集X(u),從每類數(shù)字的測(cè)試集中隨機(jī)選取一個(gè)樣本并對(duì)這個(gè)樣本進(jìn)行旋轉(zhuǎn)變換,旋轉(zhuǎn)角θ∈[-40°,40°]。每次測(cè)試時(shí),選取2類不同的數(shù)字進(jìn)行實(shí)驗(yàn),共有45種組合,即(0,1),(0,2),…,(7,8),(7,9),(8,9)。再由這2類數(shù)字的訓(xùn)練樣本共同組成算法的訓(xùn)練集X(t),而對(duì)應(yīng)的測(cè)試集作為算法的測(cè)試集,即多觀測(cè)樣本。該實(shí)驗(yàn)對(duì)不同大小的多觀測(cè)樣本進(jìn)行了實(shí)驗(yàn),樣本數(shù)m=[5:5:40]。對(duì)于不同大小的數(shù)據(jù)集X(u),45種組合中的每個(gè)組合進(jìn)行10次隨機(jī)實(shí)驗(yàn),每個(gè)組合要對(duì)2個(gè)測(cè)試集進(jìn)行測(cè)試,所以實(shí)驗(yàn)中的每個(gè)結(jié)果都是900次隨機(jī)實(shí)驗(yàn)的均值,如圖2所示。
(a) 在Binary數(shù)據(jù)庫(kù)上的平均識(shí)別率
(b) 在USPS數(shù)據(jù)庫(kù)上的平均識(shí)別率圖2 在2種手寫(xiě)數(shù)字?jǐn)?shù)據(jù)庫(kù)上的識(shí)別率Fig.2 Classification results measured on two different handwritten digit data sets
從實(shí)驗(yàn)結(jié)果可以看出本文SVM算法在Binary數(shù)據(jù)庫(kù)和USPS數(shù)據(jù)庫(kù)上的識(shí)別率很高,尤其在USPS數(shù)據(jù)庫(kù)上,當(dāng)樣本不少于10時(shí)識(shí)別率為100%,這就說(shuō)明基于SVM的多觀測(cè)樣本二分類算法的可行性。分析數(shù)據(jù)可得:算法的識(shí)別率隨著多觀測(cè)樣本數(shù)目的增大而提高,因?yàn)樵黾佣嘤^測(cè)樣本的數(shù)目能提供更多的某特定類別的信息,從而更加準(zhǔn)確地判斷類別。
下面在物體圖像數(shù)據(jù)庫(kù)上驗(yàn)證基于SVM的多觀測(cè)樣本二分類算法的有效性,實(shí)驗(yàn)中同一物體的不同觀測(cè)圖像作為此類物體的多觀測(cè)樣本。并將本文算法與經(jīng)典的多觀測(cè)樣本分類算法進(jìn)行對(duì)比:
1)KLD[2](KL-divergence):該方法是典型的基于密度估計(jì)的統(tǒng)計(jì)方法,把所有樣本集看作是獨(dú)立同分布的高斯隨機(jī)變量,然后通過(guò)計(jì)算樣本集間KL散度完成多觀測(cè)樣本的分類。實(shí)驗(yàn)中,協(xié)方差矩陣特征向量的長(zhǎng)度按能量的96%來(lái)選取。
2)MSM[6](mutual subspace method):MSM是典型的子空間方法,該方法中的每個(gè)圖像集用子空間來(lái)表示,而子空間通過(guò)主成分即協(xié)方差矩陣獲得,把訓(xùn)練集與測(cè)試集之間的主成分角[17]作為相似性度量。實(shí)驗(yàn)中,當(dāng)樣本數(shù)目小于9時(shí)候,協(xié)方差矩陣的特征向量長(zhǎng)度等于樣本數(shù)目,否則設(shè)為9。
3)KMSM[8](kernel mutual subspace method):KMSM是MSM在非線性空間的擴(kuò)展,該方法考慮了圖像集的非線性。與MSM不同的是,在用線性子空間建模之前,KMSM需要先把圖像樣本非線性地映射到高維特征空間。也就是說(shuō),KMSM用KPCA來(lái)取代PCA,從而獲得了數(shù)據(jù)的非線性。KMSM方法中,使用高斯核函數(shù)k(x,y)=exp(-‖x-y‖2/2σ2),其中σ的選取與本文所提的算法相同。
實(shí)驗(yàn)選用ETH-80物體識(shí)別數(shù)據(jù)庫(kù),ETH-80含有8個(gè)種類的圖像:蘋(píng)果、車子、牛、杯子、狗、馬、梨和西紅柿(如圖3(a)所示)。每個(gè)種類又含有10個(gè)物體類(例如,狗有10個(gè)不同的品種),每個(gè)物體類中包含該物體不同角度的41張圖像,例如圖3(b)顯示了狗這一種類中一個(gè)物體類的所有圖像。數(shù)據(jù)庫(kù)中的所有圖像大小為128×128,為了簡(jiǎn)化計(jì)算,對(duì)圖像重新采樣,使其大小為32×32。
(a)ETH-80
(b)ETH-80中一個(gè)物體類的41張圖片圖3 ETH-80數(shù)據(jù)庫(kù)的樣本圖像Fig.3 Sample images from the ETH-80 database
每個(gè)種類的訓(xùn)練樣本集由其10個(gè)物體類均隨機(jī)抽取的10張圖像組成,即每個(gè)種類的訓(xùn)練樣本集含有100個(gè)樣本,而剩余的31張圖像組成每個(gè)物體類的測(cè)試集。實(shí)驗(yàn)中,從八大種類中選取2個(gè)不同的種類進(jìn)行分類測(cè)試,共有28種組合,即(1,2),(1,3),…,(6,7),(6,8),(7,8)。由這2個(gè)種類的訓(xùn)練樣本共同組成算法的訓(xùn)練集X(l),再分別為這2個(gè)種類構(gòu)建測(cè)試集:從每個(gè)種類對(duì)應(yīng)的10個(gè)物體類中隨機(jī)選取一個(gè)物體類,再?gòu)拇宋矬w類中選取10個(gè)樣本組成多觀測(cè)樣本,即為該種類的測(cè)試集。對(duì)28種組合中的每個(gè)組合進(jìn)行10次隨機(jī)實(shí)驗(yàn),每個(gè)組合要對(duì)2個(gè)測(cè)試集進(jìn)行測(cè)試,所以實(shí)驗(yàn)中的每個(gè)結(jié)果都是560次隨機(jī)實(shí)驗(yàn)的均值,如表1所示。
表1 在ETH-80數(shù)據(jù)庫(kù)上的識(shí)別率
實(shí)驗(yàn)結(jié)果表明,本文SVM算法在ETH-80數(shù)據(jù)庫(kù)上的識(shí)別率很高,并且該算法優(yōu)于其他3種算法,這就說(shuō)明了基于SVM的多觀測(cè)樣本二分類算法的有效性。
為了驗(yàn)證基于SVM的多觀測(cè)樣本二分類算法的有效性,在基于視頻序列的人臉識(shí)別問(wèn)題中進(jìn)行實(shí)驗(yàn),把視頻中不同的視頻幀作為同一個(gè)人的多觀測(cè)樣本。由于視頻中人的頭部姿勢(shì),人臉表情和光照都是變化的,所以本節(jié)是在真實(shí)的環(huán)境中驗(yàn)證所提算法的有效性。把所提算法與4.2節(jié)中描述的KLD,MSM和KMSM進(jìn)行比較。由于實(shí)驗(yàn)中所用視頻序列的視頻幀在時(shí)間上是連續(xù)的,因此,該算法同樣適用于基于圖像集的人臉識(shí)別問(wèn)題。
實(shí)驗(yàn)中,使用2個(gè)數(shù)據(jù)庫(kù):VidTIMIT數(shù)據(jù)庫(kù)[18]和Honda/UCSD[19]數(shù)據(jù)庫(kù)的第1部分。VidTIMIT數(shù)據(jù)庫(kù)包含了43個(gè)人在3個(gè)時(shí)間段的人臉視頻序列,其中第1個(gè)和第2個(gè)時(shí)間段間隔7天,第2和第3個(gè)時(shí)間段間隔6天。每一個(gè)視頻序列中,被拍攝者頭部在不斷運(yùn)動(dòng):向左,向右,回到中間,再向下,向上,再回到中間位置。Honda/UCSD數(shù)據(jù)庫(kù)包含了20個(gè)人的59個(gè)視頻序列,每個(gè)人有2~5個(gè)視頻序列。與VidTIMIT數(shù)據(jù)庫(kù)不同的是,Honda/UCSD數(shù)據(jù)庫(kù)的被拍攝者以不同的速度自由移動(dòng)頭部,同時(shí)臉部表情也在不斷地變化。在兩個(gè)數(shù)據(jù)庫(kù)的預(yù)處理中,首先用Viola P的人臉檢測(cè)方法[20]從視頻序列的視頻幀中提取人臉區(qū)域。為了簡(jiǎn)化計(jì)算,把得到的人臉圖像重新采樣,使其大小為32×32。
首先在VidTIMIT數(shù)據(jù)庫(kù)上對(duì)本文算法進(jìn)行測(cè)試。圖4顯示了VidTIMIT數(shù)據(jù)庫(kù)中一些樣本圖像。
圖4 VidTIMIT數(shù)據(jù)庫(kù)中的樣本圖像Fig.4 Sample images in the VidTIMIT database
由于數(shù)據(jù)庫(kù)含有3個(gè)時(shí)間段的視頻序列,因此采用下面的標(biāo)準(zhǔn)度量算法的性能:
表2 在VidTIMIT數(shù)據(jù)庫(kù)上的識(shí)別率
圖5用柱形圖表示了實(shí)驗(yàn)結(jié)果,本文SVM算法在VidTIMIT數(shù)據(jù)庫(kù)上的識(shí)別率很高。由圖5可知,對(duì)不同數(shù)目的觀測(cè)樣本,KLD、MSM和KMSM 3種算法的識(shí)別率變化較大,而本文SVM算法的識(shí)別率變化不大,這說(shuō)明基于SVM的多觀測(cè)樣本二分類算法對(duì)不同數(shù)目的多觀測(cè)樣本具有更好的魯棒性。
圖5 在VidTIMIT數(shù)據(jù)庫(kù)上的識(shí)別率Fig.5 Recognition results on the VidTIMIT database
在Honda/UCSD數(shù)據(jù)庫(kù)上進(jìn)一步驗(yàn)證本文SVM算法的有效性。圖6顯示了Honda/UCSD數(shù)據(jù)庫(kù)中一些樣本圖像。實(shí)驗(yàn)中,選取19個(gè)人所對(duì)應(yīng)的視頻序列進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)中,選取2種不同類別的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),共有171種組合,即(1,2),(1,3),…,(17,18),(17,19),(18,19)。由這2類數(shù)據(jù)的訓(xùn)練樣本共同組成算法的訓(xùn)練集X(l),而對(duì)應(yīng)的測(cè)試集作為算法的測(cè)試集,即多觀測(cè)樣本。該實(shí)驗(yàn)對(duì)不同大小的多觀測(cè)樣本進(jìn)行了實(shí)驗(yàn),m=[4:4:16]。對(duì)于不同大小的數(shù)據(jù)集X(u),171種組合中的每個(gè)組合都有2個(gè)測(cè)試集,因此每個(gè)組合要進(jìn)行2次測(cè)試。所以實(shí)驗(yàn)中的每個(gè)結(jié)果都是342次實(shí)驗(yàn)的均值,如表3所示,并用柱形圖表出來(lái)(如圖7)。
圖6 Honda/UCSD數(shù)據(jù)庫(kù)中的樣本圖像Fig.6 Sample images in the Honda/UCSD database
實(shí)驗(yàn)結(jié)果表明,相比于以往的KLD、MSM和KMSM算法,本文SVM算法獲得最高的識(shí)別率。這進(jìn)一步說(shuō)明了基于SVM的多觀測(cè)樣本二分類算法的有效性。
表3 在Honda/UCSD數(shù)據(jù)庫(kù)上的識(shí)別率
圖7 在Honda/UCSD數(shù)據(jù)庫(kù)上的識(shí)別率Fig.7 Recognition results on the Honda/UCSD database
本文提出基于SVM的多觀測(cè)樣本分類算法,該算法首先進(jìn)行類別假設(shè),然后求解優(yōu)化問(wèn)題得到相應(yīng)的目標(biāo)函數(shù)值,把目標(biāo)函數(shù)值作為分類依據(jù)來(lái)實(shí)現(xiàn)多觀測(cè)樣本的二分類。實(shí)驗(yàn)結(jié)果表明本文算法在手寫(xiě)數(shù)字識(shí)別、物體識(shí)別和人臉識(shí)別中都能取得較好的分類效果,為模式識(shí)別問(wèn)題提供了一種新的方法。但是本文針對(duì)的是二分類問(wèn)題,如何在該算法的基礎(chǔ)上實(shí)現(xiàn)多分類仍是需要進(jìn)一步的研究。
參考文獻(xiàn):
[1]KIM T K, KITTLER J, CIPOLLA R. On-line learning of mutually orthogonal subspaces for face recognition by image sets[J]. IEEE Transactions on Signal Processing, 2010, 19(4): 1067-1074.
[2]SHAKHNAROVICH G, FISHER J W, DARREL T. Face recognition from long-term observations[C]//European Conference on Computer Vision(ECCV). San Diego, USA, 2002, 3: 851-868.
[3]ARANDJELOVIC O, SHAKHNAROVICH G, FISHER J, et al. Face recognition with image sets using manifold density divergence[C]//IEEE International Conference on Computer Vision and Pattern Recognition(CVPR). San Diego, USA, 2005, 1: 581-588.
[4]CARDINAUX F, SANDERSON C, BENGIO S. User authentication via adapted statistical models of face images[J]. IEEE Transactions on Signal Processing, 2006, 54(1): 361-373.
[5]ARANDJELOVIC O, CIPOLLA R. Face recognition from face motion manifolds using robust kernel resistor-average distance[C]//IEEE Workshop on Face Processing in Video. Washington D C, USA, 2004, 5: 88-93.
[6]YAMAGUCHI O, FUKUI K, MAEDA K, et al. Face recognition using temporal image sequence[C]//IEEE International Conference on Automatic Face and Gesture Recognition. Nara, Japan, 1998: 318-323.
[7]FUKUI K, YAMAGUCHI O. Face recognition using multi-viewpoint patterns for robot vision[C]//International Symposium on Robotics Research. Siena, Italy, 2005, 15: 192-201.
[8]SAKANO H, MUKAWA N. Kernel mutual subspace method for robust facial image recognition[C]//Fourth International Conference on Knowledge-based Intelligent Engineering Systems and Allied Technologies. [S.l.], 2000, 1: 245-248.
[9]WOLF L, SHASHUA A. Learning over sets using kernel principal angles[J]. Machine Learning Research, 2003, 4(10): 913-931.
[10]KIM T K, KITTLER J, CIPOLLA R. Discriminative learning and recognition of image set classes using canonical correlations[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(6): 1005-1018.
[11]KIM T K, ARANDJELOVIC O, CIPOLLA R. Boosted manifold principal angles for image set-based recognition[J]. Pattern Recognition, 2007, 40(9): 2475-2484.
[12]LI X, FUKUI K, ZHENG N N. Image-set based face recognition using boosted global and local principal angles[C]//9th Asian Conference on Computer Vision(ACCV).Xi’an, 2010: 323-332.
[13]WANG R P, SHAN S G, CHEN X L, et al. Manifold-manifold distance with application to face recognition based on image Set[C]//IEEE International Conference on Computer Vision and Pattern Recognition(CVPR). Anchorage, Alaska, USA, 2008: 1-8.
[14]CHU W S, CHEN J C, LIEN J. Kernel discriminant transformation for image set-based face recognition[J]. Pattern Recognition, 2011, 44(8): 1567-1580.
[15]KOKIOPOULOU E, PIRILLOS S, BROSSARD P. Graph-based classification of multiple observation sets[J]. Pattern Recognition, 2010, 43(12): 3988-3997.
[16]VAPNIK V. The nature of statistical learning theory[M]. New York: Springer-Verlag, 1995: 21-32.
[17] GOLUB G H, LOAN C V. Matrix computations[M].3rd ed. Baltimore: The John Hopkins University Press, 1996: 15-16.
[18]SANDERSON C. Biometric person recognition: face, speech and fusion, VDM-Verlag, 2008.
[19]LEE K C, HO J, YANG M H, et al. Video-based face recognition using probabilistic appearance manifolds[C]//IEEE International Conference on Computer Vision and Pattern Recognition (CVPR). Madison, USA, 2003: 313-320.
[20]VIOLA P, JONES M. Robust real-time face detection[J]. International Journal of Computer Vision, 2004, 57 (2) : 137-154.