林克正++鐘巖++程衛(wèi)月
摘要:針對(duì)已有的局部保留投影(locality preserving projections,LPP)算法可能將相似的類別誤投影到一起,導(dǎo)致正確識(shí)別率降低的問題.在局部保留投影算法的基礎(chǔ)上,提出了一種基于代價(jià)敏感學(xué)習(xí)的稀疏局部保留投影算法(cost-sensitive sparse locality preserving projections,CSLPP).該算法將代價(jià)敏感學(xué)習(xí)引入到人臉識(shí)別中,首先對(duì)樣本進(jìn)行代價(jià)敏感思考,然后再將樣本稀疏化,最后求得最優(yōu)投影向量.通過在YALE人臉庫(kù)和FERET人臉庫(kù)上實(shí)驗(yàn),結(jié)果表明CSLPP算法在投影之前將代價(jià)考慮進(jìn)去,有效的避免了高風(fēng)險(xiǎn),該算法在最近鄰分類器上的的識(shí)別率明顯高出其它算法的識(shí)別率.
關(guān)鍵詞:局部保留投影;人臉識(shí)別;代價(jià)敏感;稀疏化
DOI: 10.15938/j.jhust.2015.03.009
中圖分類號(hào):TP391.4
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1007-2683(2015)03-0045-06
O 引 言
在自動(dòng)化智能化程度日益提高、通訊高度發(fā)達(dá)的信息社會(huì)里,信息安全受到了空前的重視,身份識(shí)別已經(jīng)成為人們?nèi)粘I钪胁豢苫蛉钡闹匾侄?隨著信息安全技術(shù)的迅速發(fā)展,生物特征識(shí)別中的人臉識(shí)別技術(shù)漸漸取代了傳統(tǒng)的身份識(shí)別技術(shù),人臉識(shí)別因其方式友好并且最接近人類視覺認(rèn)知同時(shí)采集十分方便而受到廣泛的關(guān)注,近幾年,人臉識(shí)別是生物特征識(shí)別技術(shù)領(lǐng)域比較熱的研究課題.
在過去的一段時(shí)間,稀疏編碼技術(shù)已經(jīng)在信號(hào)處理、圖像識(shí)別等領(lǐng)域得到廣泛的應(yīng)用.稀疏表示可以用較少的數(shù)據(jù)來充分表示出圖像的重要信息,結(jié)合LPP,一種新的線性降維方法——稀疏保留投影(sparse preserving projections,SPP)算法被提出來,人臉識(shí)別的魯棒性問題也已經(jīng)被該算法很好地解決.
近年來,代價(jià)敏感學(xué)習(xí)方法成為機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域的一個(gè)研究熱點(diǎn).其主要考慮在分類中,當(dāng)不同的分類錯(cuò)誤會(huì)導(dǎo)致不同的懲罰力度時(shí)如何訓(xùn)練分類器.在實(shí)際現(xiàn)實(shí)中,不同的錯(cuò)誤分類往往會(huì)帶來不同的錯(cuò)分損失.例如基于人臉識(shí)別的門禁系統(tǒng),將入侵者錯(cuò)分成合法者的損失要大于將合法者錯(cuò)分成入侵者的損失,而將合法者錯(cuò)分成入侵者的損失又要大于將合法者錯(cuò)分成其他合法者的損失,因此,代價(jià)敏感學(xué)習(xí)更應(yīng)該應(yīng)用到人臉識(shí)別中,
因此,本文在稀疏保持投影( sparse preservingprojections,SPP)的基礎(chǔ)上,提出了代價(jià)敏感學(xué)習(xí)的稀疏局部保留投影(cost - sensitive sparse localitypreserving projections,CSLPP)算法.這種方法不但繼承了局部保持的含義——使那些原本離目標(biāo)樣本近的樣本在投影后還是保持離目標(biāo)樣本較近,而且對(duì)樣本進(jìn)行代價(jià)敏感思考,有效的避免高風(fēng)險(xiǎn).將該算法應(yīng)用到人臉識(shí)別領(lǐng)域,有較好的表現(xiàn).
1 代價(jià)敏感學(xué)習(xí)算法
常用的代價(jià)敏感學(xué)習(xí)方法主要有3類:
第一類,構(gòu)造一個(gè)代價(jià)敏感的學(xué)習(xí)模型,包括決策樹、Boosting、神經(jīng)網(wǎng)絡(luò)、代價(jià)敏感的支持向量機(jī)分類算法等,
第二類,按照傳統(tǒng)的學(xué)習(xí)方法進(jìn)行學(xué)習(xí),然后對(duì)其分類,結(jié)果利用貝葉斯理論進(jìn)行調(diào)整,減少損失.
第三類,學(xué)習(xí)原始的數(shù)據(jù),通過學(xué)習(xí),改變?cè)嫉臉颖痉植?,得到新的代價(jià)敏感模型.
給定數(shù)據(jù)集 表示第i類樣本的總數(shù),數(shù)據(jù)集D是均衡的當(dāng)且僅當(dāng) ,否則稱D為不均衡的.
代價(jià)(cost)是指某一事情的完成結(jié)果對(duì)這個(gè)事情所引起的風(fēng)險(xiǎn),假設(shè)有c類樣本,將第i類樣本劃分正確的可能性為1%,劃分成第c類的可能性為99%.所以將第i類樣本錯(cuò)誤分類為第c類的可能性要大許多,或者將第c類樣本錯(cuò)分成第i類樣本的可能性要小許多,但是這兩種情況的代價(jià)是不同的,為了降低風(fēng)險(xiǎn),我們?cè)诜诸悤r(shí)需要將代價(jià)考慮進(jìn)去,代價(jià)敏感學(xué)習(xí)能有效地提高稀有類的識(shí)別率,很多時(shí)候,稀有類是識(shí)別的重點(diǎn),正確識(shí)別出稀有類樣本更有價(jià)值.
將表1中的數(shù)學(xué)符號(hào)做如下說明,設(shè):
1)觀察x是d維隨機(jī)向量 ,其中 為一維隨機(jī)變量.
2)c個(gè)自然狀態(tài)組成了狀態(tài)空間,狀態(tài)空間由c個(gè) 組成.
3)a個(gè)決策 組成了決策空間,這里a和c不同,是由于除了對(duì)c個(gè)類別有c種不同的決策外,還允許采取其他決策,如采取“拒絕”的決策時(shí),這時(shí)就有a=c+1.
4)損失函數(shù)為 表示當(dāng)真實(shí)狀態(tài)為 而采取的決策為 時(shí)所帶來的損失.
2基于代價(jià)敏感學(xué)習(xí)的稀疏局部保留投影
2.1理論基礎(chǔ)
局部保留投影算法和稀疏保留投影算法僅僅是追求最低的識(shí)別錯(cuò)誤率,因此這兩種算法在對(duì)樣本進(jìn)行分類的過程中都假設(shè)了錯(cuò)分代價(jià)是相同的,然而這種假設(shè)應(yīng)用到人臉識(shí)別中往往是不成立的,人臉識(shí)別是一種代價(jià)敏感問題.
相比于LPP算法,SPP通過稀疏重構(gòu)處理,不僅兼顧了樣本的全局和局部屬性,并且保留了樣本的稀疏重構(gòu)關(guān)系,能夠獲得相對(duì)穩(wěn)定的投影,SPP算法是一種無監(jiān)督的方法.
SPP算法尋找最優(yōu)的投影向量,使原始圖像在投影向量上的投影與稀疏重構(gòu)后樣本在向量上的投影的差值最小.假設(shè)樣本集 ,其中xi是已經(jīng)對(duì)原始圖像進(jìn)行過列向量化的,首先將二維圖像轉(zhuǎn)化為一維圖像,然后對(duì)轉(zhuǎn)化后的一維向量列向量化,就得到了 ,對(duì)某個(gè)訓(xùn)練樣本,利用剩余樣本對(duì)其稀疏表示, ,求得稀疏表示稀疏si,其最優(yōu)投影方向w計(jì)算如下:
記 為n維的單位向量且第i個(gè)元素為1,其余為0,則式(2)等效為:
則式(1)可以優(yōu)化成如下問題:
為方便起見將式(3)轉(zhuǎn)化成求最大投影向量的問題:
其中 對(duì)式(4)應(yīng)用拉格朗日算法求解,式(4)可以轉(zhuǎn)化為:
最后所求的SPP的最優(yōu)投影向量 的d個(gè)最大特征值所對(duì)應(yīng)的特征向量,所以SPP首先通過構(gòu)建稀疏權(quán)值矩陣s,再計(jì)算投影矩陣w,SPP在實(shí)際中很容易使用,因此也為基于代價(jià)敏感學(xué)習(xí)的稀疏局部保留投影算法提供了基礎(chǔ).
2.2算法的設(shè)計(jì)
CSLPP是在SPP的基礎(chǔ)上提出來的,SPP通過稀疏重構(gòu)處理,保持了樣本的內(nèi)在局部信息,CSLPP繼承了SPP算法的優(yōu)點(diǎn),又將樣本進(jìn)行代價(jià)敏感思考,所以,可以有效的避免高風(fēng)險(xiǎn). 存在數(shù)據(jù)集 是此樣本集中的第i個(gè)樣本,將xi稀疏重構(gòu)之后得到樣本集 ,其中, 的定義如下:
將SPP的目標(biāo)函數(shù)進(jìn)行優(yōu)化,得到CSLLPP的目標(biāo)函數(shù):
其中A表示稀疏系數(shù):
其中: 表示把第i類樣本誤分為第J類樣本的代價(jià);I為樣本所含類別總數(shù);N為訓(xùn)練集中樣本的總數(shù); 為類別 中的樣本總數(shù); 。為規(guī)范化因子,用來保證修改后的樣本權(quán)重總和仍然等于N; 為最優(yōu)投影方向;x為訓(xùn)練樣本集.S是無監(jiān)督的近鄰圖,其表示如下:
Sij和兩近鄰樣本的距離變化圖為圖1,Sij的數(shù)值由小變大,表示在近鄰樣本中,當(dāng)兩者的距離較近時(shí),稀疏較大,當(dāng)兩者的距離較遠(yuǎn)時(shí),稀疏較小.
代價(jià)敏感學(xué)習(xí)主要考慮將樣本錯(cuò)誤分類時(shí)需要付出的代價(jià),為了表示分類的不平衡問題,先用一個(gè)代價(jià)矩陣來表示,表2是兩類代價(jià)矩陣表:
根據(jù)代價(jià)矩陣的定義, .可得:
D為對(duì)角陣, 是Laplacian矩陣 是來衡量Yi重要性, 越大相對(duì)應(yīng)的Yi越重要,填加式子(11)作為約束條件:
問題轉(zhuǎn)化為式(12)此最小化問題可以轉(zhuǎn)化為求解如下特征方程的特征值問題,式(13)最小解即為最小特征值相應(yīng)的特征向量:
CSLPP算法的設(shè)計(jì)流程圖如圖2:
3 實(shí)驗(yàn)結(jié)果與分析
3.1不同分類器的識(shí)別結(jié)果
本實(shí)驗(yàn)選擇在模糊k近鄰分類器、神經(jīng)網(wǎng)絡(luò)與貝葉斯分類器、最近鄰分類器、支持向量機(jī)分類器4種分類器下,對(duì)4種算法的識(shí)別率進(jìn)行了比較,圖3為將樣本代價(jià)敏感稀疏表示后樣本標(biāo)簽和稀疏系數(shù)之間的關(guān)系.
為了尋找最優(yōu)分類器,觀察表4、表5、表6、表7,可以發(fā)現(xiàn)YALE人臉庫(kù)的識(shí)別率普遍比FERET人臉庫(kù)的識(shí)別率高,原因是YALE人臉庫(kù)的圖片比FERET人臉庫(kù)的圖片簡(jiǎn)單.在識(shí)別率方面,CSLPP算法的識(shí)別率最高,LPP、SPP、概率距離判據(jù)的特征提取算法和歐式測(cè)量的特征提取算法的識(shí)別率偏低.其中LPP只考慮樣本的局部,忽略了一些全局的特征,同樣的,SPP算法考慮的是全局特征,忽略了局部的一些局部的特征,相同實(shí)驗(yàn)設(shè)置下,CSLPP算法的識(shí)別率更高一些,由下面4個(gè)表可以看出,各種算法在使用最近鄰分類器的情況下識(shí)別效果最好,
3.2不同人臉庫(kù)的實(shí)驗(yàn)
根據(jù)3.1的實(shí)驗(yàn)結(jié)果,在接下來的實(shí)驗(yàn)中選擇最近鄰分類器.圖4為5種特征提取方法在FE-RET人臉庫(kù)上,不同維數(shù)的情況下的識(shí)別效果,圖4中a代表代價(jià)敏感學(xué)習(xí)的稀疏局部保留投影b表示稀疏局部保留算法c表示局部保留投影算法,圖4中d表示按概率距離判據(jù)的特征提取算法的識(shí)別效果,e表示按歐式測(cè)量的特征提取的識(shí)別效果.
圖5為5種特征提取算法在YALE人臉庫(kù)上的識(shí)別效果.圖6為5種特征提取算法在JAFFE人臉庫(kù)上的識(shí)別效果.圖中橫坐標(biāo)表示特征維數(shù),縱坐標(biāo)表示識(shí)別率,兩個(gè)人臉庫(kù)下由圖可以看出,本文所提出的代價(jià)敏感學(xué)習(xí)的局部保留投影的識(shí)別率比其他4種特征提取算法平均高出15%,并且在YALE和FERET人臉庫(kù)上最高識(shí)別率已經(jīng)超過95%,大約可以到達(dá)98%上下,在JAFFE表情庫(kù)上也比其它3種算法高出10%左右的識(shí)別率,這些數(shù)據(jù)表明代價(jià)敏感學(xué)習(xí)是值得與人臉識(shí)別技術(shù)聯(lián)系在一起的.
由于YALE人臉庫(kù)的圖片較少,接下來的實(shí)驗(yàn)的可行性比較高,考慮在YALE人臉庫(kù)中,不同訓(xùn)練樣本集下,各算法的識(shí)別性能,采用隨機(jī)選擇訓(xùn)練樣本,每一個(gè)類隨機(jī)地選擇Z個(gè)樣本作為訓(xùn)練樣本,剩余(II—l)個(gè)為測(cè)試樣本,獨(dú)立地訓(xùn)練10次,求取平均識(shí)別率.m為特征維數(shù),設(shè)置近鄰數(shù)k=2.表8中a、b、c、d、e分別代表5種算法,表8表示在選取不同個(gè)數(shù)訓(xùn)練樣本集的情況下,各算法的最高識(shí)別率及相應(yīng)的特征維數(shù)的比較.可以看出隨著樣本數(shù)的不斷增加,同時(shí)各算法的識(shí)別率也在增加,不難發(fā)現(xiàn),樣本數(shù)量越多越有利于分類,并且算法a的優(yōu)勢(shì)十分明顯.
從以上的實(shí)驗(yàn)數(shù)據(jù)可以看出,CSLPP算法在YALE人臉庫(kù)和FERET人臉庫(kù)上,比較與其他4種算法,有著不可超越的高識(shí)別率,
4 結(jié) 語
本文提出了一種新的特征提取算法——代價(jià)敏感學(xué)習(xí)的稀疏局部保留投影(CSLPP)算法.CSLPP算法引入了代價(jià)敏感學(xué)習(xí),使其一方面保持了樣本稀疏重構(gòu)后的全局和局部屬性,另一方面,該算法將錯(cuò)分代價(jià)融入SPP模型中,使算法滿足錯(cuò)分代價(jià)最小化準(zhǔn)則,降低了樣本的錯(cuò)分風(fēng)險(xiǎn).同時(shí),該算法在維數(shù)較低的情況下就有著與其他算法相比較高的識(shí)別率.在YALE和FERET人臉數(shù)據(jù)庫(kù)上的試驗(yàn)結(jié)果表明了CSLPP算法的可行性和有效性,