• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于相關(guān)性和支持度分析的人臉識(shí)別方法

      2020-02-02 04:57:32劉鴻雁姚明海
      關(guān)鍵詞:特征選擇類(lèi)別分類(lèi)

      劉鴻雁,姚明海

      (1.渤海大學(xué) 研究生學(xué)院,遼寧 錦州 121013;2.渤海大學(xué) 信息科學(xué)與技術(shù)學(xué)院,遼寧 錦州 121013)

      0 引言

      人臉識(shí)別技術(shù)是解決網(wǎng)絡(luò)安全和有效身份認(rèn)證的重要手段之一,如何利用人的臉部基礎(chǔ)特征進(jìn)行身份認(rèn)證已經(jīng)成為機(jī)器學(xué)習(xí)和信息安全領(lǐng)域研究的熱點(diǎn)問(wèn)題.隨著電子技術(shù)的不斷發(fā)展,拍攝人臉圖像數(shù)據(jù)的手段和方式越來(lái)越豐富,圖像像素質(zhì)量也越來(lái)越高,獲取數(shù)據(jù)維度大幅度提升.

      如何對(duì)高維數(shù)據(jù)進(jìn)行降維,提高識(shí)別算法的計(jì)算速率和識(shí)別可靠性成為了身份認(rèn)證領(lǐng)域面臨的又一難題.高維數(shù)據(jù)的降維從來(lái)都是機(jī)器學(xué)習(xí)和生物認(rèn)證領(lǐng)域研究的重點(diǎn)課題,而特征選擇是降低高維數(shù)據(jù)維度的有效辦法,通過(guò)對(duì)特征數(shù)據(jù)進(jìn)行選擇不僅可以降低高維數(shù)據(jù)的維度,而且可以有效的去除特征中存在的大量冗余信息,提高認(rèn)證方法的效率和準(zhǔn)確性[1?3].

      隨著科技的不斷發(fā)展,各種各樣的特征選擇方法被提出.例如基于Fisher Score特征選擇算法[4],該方法基于同類(lèi)樣本數(shù)據(jù)間具有較高的相似度,不同類(lèi)別樣本數(shù)據(jù)間的相似度較差的原理對(duì)特征進(jìn)行評(píng)價(jià).但是Fisher Score算法僅僅分析了特征數(shù)據(jù)對(duì)樣本數(shù)據(jù)分類(lèi)問(wèn)題的支持,而沒(méi)有充分考慮特征數(shù)據(jù)之間的相關(guān)性對(duì)分類(lèi)的影響.基于主成分分析的特征選擇方法是將高維數(shù)據(jù)投影到低維空間實(shí)現(xiàn)數(shù)據(jù)的降維,僅考慮了特征自身的貢獻(xiàn)率,沒(méi)有考慮特征對(duì)類(lèi)別的支持.還有僅考慮局部結(jié)構(gòu)特征保持的特征選擇方法,這類(lèi)方法認(rèn)為相對(duì)于全局的結(jié)構(gòu)信息局部的特征對(duì)于分類(lèi)更重要.但是這些方法都是從單一的角度對(duì)特征數(shù)據(jù)進(jìn)行評(píng)價(jià),沒(méi)有將特征數(shù)據(jù)與類(lèi)別之間的相關(guān)性和特征數(shù)據(jù)之間的相關(guān)性進(jìn)行全方位考慮.

      因此,本文基于相關(guān)性和支持度提出了全新的特征選擇方法.針對(duì)特征數(shù)據(jù)與樣本類(lèi)別和特征數(shù)據(jù)之間的相關(guān)性角度和相互支持角度進(jìn)行分析.基于同一類(lèi)別內(nèi)樣本相似度較高,不同類(lèi)樣本之間相似度較低的出發(fā)點(diǎn)分析特征對(duì)分類(lèi)的支持度.基于互信息理論來(lái)分析特征數(shù)據(jù)與樣本類(lèi)別及特征數(shù)據(jù)之間的相關(guān)性[5].通過(guò)對(duì)皮爾遜相關(guān)系數(shù)的計(jì)算和分析來(lái)對(duì)特征的冗余度進(jìn)行分析[6].最終通過(guò)多角度分析實(shí)現(xiàn)對(duì)特征數(shù)據(jù)的有效評(píng)價(jià),最終挖掘出最優(yōu)特征數(shù)據(jù)集合.本文特征選擇流程如圖1所示.

      1 相關(guān)性與支持度分析

      進(jìn)行特征選擇的主要目的就是挖掘空間中最優(yōu)的特征集合來(lái)優(yōu)化后續(xù)算法性能和提高算法精度.從特征對(duì)分類(lèi)的支持角度來(lái)看,特征對(duì)類(lèi)別的支持度越高,說(shuō)明其辨識(shí)度越好.但是往往由這些類(lèi)別支持度高的特征構(gòu)成的特征集合分類(lèi)效果并不理想,這是因?yàn)樘卣鏖g還存在相互作用,也就是特征之間存在相關(guān)性.為了有效挖掘出特征集合中的最優(yōu)特征組合,所有特征都需要進(jìn)行相關(guān)性和支持度的分析.

      1.1 相關(guān)性分析

      對(duì)于我們要挖掘的最優(yōu)特征組合,其包含的特征數(shù)據(jù)必須是與樣本類(lèi)別的相關(guān)性較高,而相互之間相關(guān)性較低.這樣的特征組合才有利于對(duì)樣本數(shù)據(jù)進(jìn)行分類(lèi).互信息判斷一個(gè)特征數(shù)據(jù)的重要程度是判斷這個(gè)特征數(shù)據(jù)能給樣本數(shù)據(jù)的分類(lèi)帶來(lái)多大的支持,特征攜帶的有利于分類(lèi)的信息越多說(shuō)明其越重要.基于互信息的方法可以有效地表述特征數(shù)據(jù)之間的相關(guān)性.此類(lèi)方法主要是通過(guò)信息熵確定特征數(shù)據(jù)包含信息量的多少.具體公式如下:

      這里,H(X)為信息熵,X表示離散的隨機(jī)特征集,p(x)為X取值為x的概率.

      信息熵雖然表述了特征中含有信息的多少,但是信息熵不能描述不同特征間所包含信息的關(guān)系.聯(lián)合熵可以用來(lái)表示特征之間所含有的共同信息的多少.其定義如下:

      這里p(x,y)表示X和Y所對(duì)應(yīng)聯(lián)合隨機(jī)變量的概率分布,H(X,Y)表示了特征X和Y所包含的共同信息的多少.聯(lián)合熵不能描述特征之間的依賴(lài)關(guān)系,對(duì)于描述特征之間的依賴(lài)程度的強(qiáng)弱,我們使用條件熵來(lái)表示.其定義如下:

      其中,p(x,y)表示變量x與變量y的聯(lián)合概率分布情況,p(x| y)是已知變量y時(shí),x在其條件下的概率分布.由此我們可以用公式(4)來(lái)描述兩個(gè)變量之間的相關(guān)性.

      I(X,Y)的數(shù)值越大則代表變量X對(duì)Y的依賴(lài)性就越高,也就是X與Y共同擁有的信息所占比例非常高.反之,它們所共同包含的信息就非常少.

      1.2 類(lèi)別支持度分析

      通過(guò)特征對(duì)類(lèi)內(nèi)和類(lèi)間散度的支持程度來(lái)判斷其對(duì)樣本數(shù)據(jù)類(lèi)別的支持度.本文采用的方法是計(jì)算特征的Fisher Score.通過(guò)分析特征在不同類(lèi)別上的均值和方差來(lái)計(jì)算其Fisher Score,從而判斷其重要性.基于Fisher Score的支持度計(jì)算方法可以很好的判斷特征對(duì)類(lèi)別的支持度.一個(gè)特征對(duì)類(lèi)別有較好的支持度,那么這個(gè)特征和同一類(lèi)別樣本間的方差應(yīng)該是盡可能的小,而和其它類(lèi)樣本間的方差應(yīng)該盡可能的大.

      Fisher準(zhǔn)則一方面是要求不同類(lèi)別間的相識(shí)度非常小,另一方面是同一類(lèi)別內(nèi)的相識(shí)度非常大,是一種基于全局考慮的線(xiàn)性準(zhǔn)則.對(duì)于集合F來(lái)說(shuō),在第k個(gè)特征數(shù)據(jù)條件下類(lèi)內(nèi)離散程度如公式(5)所示.

      其中C表示樣本數(shù)據(jù)的類(lèi)別數(shù)量,ni表示第i類(lèi)樣本的樣本數(shù)量代表了i類(lèi)樣本數(shù)據(jù)在第k個(gè)特征數(shù)據(jù)條件下的方差.在第k個(gè)特征條件下的類(lèi)間離散程度如公式(6)所示.

      Fisher(Fk)為特征集F中第k個(gè)特征的Fisher Score,對(duì)于分類(lèi)問(wèn)題,能夠滿(mǎn)足數(shù)據(jù)樣本之間具有較小的類(lèi)內(nèi)散度和較大的類(lèi)間散度的特征數(shù)據(jù)就是對(duì)分類(lèi)支持度較大的特征數(shù)據(jù),通過(guò)公式(7)我們可以看出,F(xiàn)isher(Fk)計(jì)算的結(jié)果越高,就表示該特征數(shù)據(jù)對(duì)分類(lèi)的支持度就越好.

      1.3 特征冗余性分析

      特征數(shù)據(jù)間的冗余性是對(duì)不同特征數(shù)據(jù)進(jìn)行分析,樣本數(shù)據(jù)中兩個(gè)特征數(shù)據(jù)的相關(guān)性如果非常高,那么他們就存在冗余性.基于這種假設(shè)采用皮爾遜相關(guān)系數(shù)作為判別兩個(gè)特征數(shù)據(jù)之間線(xiàn)性相關(guān)程度的計(jì)算方法,如果特征數(shù)據(jù)之間的皮爾遜相關(guān)系數(shù)越大,則表示他們之間具有較高的冗余度.對(duì)于特征Fi和Fj來(lái)說(shuō),他們的皮爾遜相關(guān)系數(shù)計(jì)算公式如下:

      這里,n為樣本總量,F(xiàn)ik表示樣本k在特征Fi下的取值,F(xiàn)jk表示樣本k在特征Fj下的取值表示樣本在特征Fi和Fj下的均值.當(dāng) PFiFj為正時(shí),稱(chēng)Fi和Fj為正相關(guān),當(dāng)PFiFj為負(fù)時(shí),稱(chēng)Fi和Fj為負(fù)相關(guān)的大小代表Fi和Fj相關(guān)度,當(dāng)值為0時(shí),代表兩個(gè)特征變量是線(xiàn)性不相關(guān),那么也就不存在冗余性.相反當(dāng)值為1時(shí),代表兩個(gè)特征是線(xiàn)性相關(guān)的,冗余度也就非常高.

      2 特征評(píng)價(jià)函數(shù)

      對(duì)于特征重要程度的界定有方法有很多,并且這些方法在不同領(lǐng)域都有著非常廣泛的應(yīng)用.本文主要從有無(wú)監(jiān)督的角度判斷特征對(duì)類(lèi)別的支持程度、特征數(shù)據(jù)與數(shù)據(jù)類(lèi)別的相關(guān)性和特征數(shù)據(jù)的冗余性.

      監(jiān)督評(píng)價(jià)主要是分析特征數(shù)據(jù)對(duì)數(shù)據(jù)類(lèi)別的支持度及其與數(shù)據(jù)類(lèi)別的相關(guān)性,利用公式(7)來(lái)計(jì)算特征數(shù)據(jù)對(duì)分類(lèi)的支持度.即這里S描述的是第k個(gè)特征數(shù)據(jù)條件下的類(lèi)別之間離散程度,S表bw示在第k個(gè)特征條件下的類(lèi)內(nèi)離散程度.對(duì)于分類(lèi)問(wèn)來(lái)說(shuō),如果一個(gè)特征的類(lèi)間離散程度非常大,而類(lèi)內(nèi)離散程度非常小,那么我們就說(shuō)該特征對(duì)于類(lèi)別有較高的支持度.

      在特征數(shù)據(jù)與數(shù)據(jù)類(lèi)別的相關(guān)性評(píng)價(jià)上我們采用互信息方法來(lái)進(jìn)行評(píng)價(jià),通過(guò)公式(4)來(lái)計(jì)算k與c的相關(guān)性I(k,c).對(duì)特征k來(lái)說(shuō),其與數(shù)據(jù)類(lèi)別的相關(guān)程度越高分類(lèi)效果就越準(zhǔn)確.對(duì)類(lèi)別的支持度和相關(guān)性,我們將其進(jìn)行加權(quán)融合.具體計(jì)算公式如下:

      對(duì)于特征k,其S(k,c)結(jié)果越高表示其分類(lèi)的效果就會(huì)更好.

      無(wú)監(jiān)督評(píng)價(jià)主要分析特征之間的冗余性,利用公式(8)來(lái)對(duì)特征的冗余性進(jìn)行評(píng)價(jià),計(jì)算每個(gè)特征的冗余度得分Pk,對(duì)于特征選擇來(lái)說(shuō)其冗余度越低,相互間影響就越小.因此這里Pk的值越小越好.

      特征選擇就是在所有特征數(shù)據(jù)集合中選擇出k個(gè)具較好支持度、類(lèi)別相關(guān)性和較小冗余性的特征集合.因此本文的最終特征評(píng)價(jià)函數(shù)定義如下:

      這里S(k,c)表示特征k的最終得分,Pk表示特征的冗余度得分,F(xiàn)Sk為特征k的最終得分.

      3 實(shí)驗(yàn)結(jié)果與分析

      為驗(yàn)證本文特征選擇方法的效果,將其與一些經(jīng)典的特征選擇算法在多個(gè)標(biāo)準(zhǔn)人臉數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)對(duì)比,同時(shí)也與單一考慮類(lèi)別支持度和相關(guān)性的方法進(jìn)行了比較.具體方法包括:Fisher得分法、T檢驗(yàn)、卡方檢驗(yàn)(ChiSquare)、支持度評(píng)價(jià)方法和相關(guān)性評(píng)價(jià)方法.為檢驗(yàn)本文方法的實(shí)驗(yàn)效果,實(shí)驗(yàn)采用KNN分類(lèi)器進(jìn)行分類(lèi)結(jié)果預(yù)測(cè),以KNN分類(lèi)器的預(yù)測(cè)準(zhǔn)確率作為衡量算法有效性的依據(jù).

      3.1 在AR數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果

      AR數(shù)據(jù)庫(kù)中存儲(chǔ)了100個(gè)人的1400張人臉圖像[7].仿真實(shí)驗(yàn)中通過(guò)每次隨機(jī)抽取一個(gè)人的8張人臉圖像構(gòu)建訓(xùn)練數(shù)據(jù)集合,其余構(gòu)建測(cè)試數(shù)據(jù)集合.所有圖像都調(diào)整為30×32大小.由圖2可以看出,在AR數(shù)據(jù)庫(kù)上本文方法在特征選擇維度在50~100維時(shí),識(shí)別效果明顯好于其它方法,在其它維度下也基本具備較好的效果.

      3.2 在ORL數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果

      ORL數(shù)據(jù)庫(kù)[8]由40個(gè)人的400張圖片構(gòu)成,包括了不同表情、狀態(tài)、戴眼鏡等不同面部狀態(tài)變化下的面部圖像.為了便于計(jì)算,本節(jié)實(shí)驗(yàn)同樣將人臉圖像調(diào)整為30×32大小.由圖3可以看出,當(dāng)選取的特征維數(shù)不到50維的時(shí)候,本文提出的方法識(shí)別準(zhǔn)確率就已明顯高于其它方法.隨著特征維度增加,本文提出方法識(shí)別準(zhǔn)確率有著顯著的提升,且始終位于其它方法之上.

      3.3在CMU PIE數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果

      CMU PIE數(shù)據(jù)[9]庫(kù)由68人,共41368張包括不同表情、姿態(tài)和光照等變化的人臉圖像.為了便于計(jì)算,本文采用了文獻(xiàn)[10]中的預(yù)處理方式.首先選取每一個(gè)人同一姿勢(shì)同一表情不同光照的21張圖像,然后根據(jù)眼睛位置裁剪出臉部區(qū)域,并將其調(diào)整為30×32大小.由圖4可以看出本文方法、Fisher得分法、ChiSquare方法和支持度評(píng)價(jià)方法性能明顯優(yōu)于T檢驗(yàn)方法和相關(guān)性評(píng)價(jià)方法.其中,本文方法在特征維度為100維的時(shí)候取得了比其它算法都明顯優(yōu)異的最高準(zhǔn)確率.

      3.4 在UMIST數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果

      UMIST數(shù)據(jù)庫(kù)[11]由20個(gè)人共575張圖片構(gòu)成,包括了從側(cè)面到正面不同角度、不同姿態(tài)變化的圖像.由圖5就能夠看出,隨著選擇的特征數(shù)量的不斷增加,包括本文方法在內(nèi)的五種方法都具有較高性能.但本文提出的方法性能優(yōu)勢(shì)更為明顯,當(dāng)選取的特征維數(shù)不到50維的時(shí)候,本文提出的方法識(shí)別準(zhǔn)確率就已明顯高于其它方法.

      3.5 在Yaleb數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果

      Yaleb數(shù)據(jù)庫(kù)[12]由38個(gè)人,每人約64張圖片構(gòu)成,包含了面部表情、光照條件等變化的圖像.同樣,在進(jìn)行實(shí)驗(yàn)前將圖片進(jìn)行截取并調(diào)整為30×32大小的預(yù)處理操作.由圖6可以看出本文方法、Fisher得分法和ChiSquare方法明顯優(yōu)于支持度評(píng)價(jià)方法、T檢驗(yàn)方法和相關(guān)性評(píng)價(jià)方法.其中,本文提出的方法在較少維度的情況下就表現(xiàn)出了優(yōu)異的識(shí)別性能,并且隨著維數(shù)的增加快速的趨于穩(wěn)定,可以更好的進(jìn)行維數(shù)縮減.

      4 總結(jié)

      為了將高維數(shù)據(jù)降維,提高識(shí)別算法的計(jì)算效率及識(shí)別準(zhǔn)確性,提出了一種基于相關(guān)性和支持度分析的特征數(shù)據(jù)選擇方法.該算法充分挖掘特征數(shù)據(jù)相互之間、特征數(shù)據(jù)和類(lèi)別之間的關(guān)系,選擇出具有最大類(lèi)別支持度、最大類(lèi)別相關(guān)且具有最小冗余度的特征集合.在AR、ORL、CMU PIE、UMIST和Yaleb五個(gè)數(shù)據(jù)庫(kù)上與其它方法進(jìn)行了比較,比較結(jié)果證明了本文方法在分類(lèi)準(zhǔn)確性上明顯好于其它方法,但如何挖掘相關(guān)性和支持度仍是未來(lái)研究的重點(diǎn)之一.

      猜你喜歡
      特征選擇類(lèi)別分類(lèi)
      分類(lèi)算一算
      分類(lèi)討論求坐標(biāo)
      數(shù)據(jù)分析中的分類(lèi)討論
      教你一招:數(shù)的分類(lèi)
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      服務(wù)類(lèi)別
      論類(lèi)別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類(lèi)別全科醫(yī)師培養(yǎng)模式的探討
      基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
      济南市| 南平市| 新沂市| 永昌县| 自贡市| 凤冈县| 南乐县| 秦皇岛市| 汝州市| 奉新县| 香河县| 新建县| 阿尔山市| 瑞丽市| 翼城县| 清丰县| 青川县| 平遥县| 河曲县| 五常市| 习水县| 平潭县| 揭阳市| 昌都县| 苏尼特左旗| 九台市| 柳江县| 怀仁县| 黄龙县| 武平县| 宜宾市| 清镇市| 石泉县| 那曲县| 武鸣县| 吴江市| 南华县| 屏山县| 汝州市| 乡宁县| 抚松县|