申小敏, 李保俊, 孫 旭, 徐維超
(廣東工業(yè)大學(xué) 自動(dòng)化學(xué)院, 廣東 廣州 510006)
?
基于卷積神經(jīng)網(wǎng)絡(luò)的大規(guī)模人臉聚類
申小敏, 李???, 孫 旭, 徐維超
(廣東工業(yè)大學(xué) 自動(dòng)化學(xué)院, 廣東 廣州 510006)
大規(guī)模人臉聚類不僅要求高效的人臉特征,還要求聚類算法在保持高準(zhǔn)確率的同時(shí)耗時(shí)短.本文通過構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)高效提取人臉特征,并采用經(jīng)典K-means算法和現(xiàn)階段新穎的CFSFDP(Clustering by Fast Search and Find of Density Peaks)算法進(jìn)行大規(guī)模人臉聚類.實(shí)驗(yàn)在聚類數(shù)目遞增的情況下進(jìn)行,并通過隨機(jī)指標(biāo)(Rand Index,RI)、信息熵、F1-measure和混淆矩陣可視化來(lái)綜合評(píng)估聚類的質(zhì)量.結(jié)果表明,在大規(guī)模人臉聚類的情況下,卷積神經(jīng)網(wǎng)絡(luò)特征融合K-means的人臉聚類算法速度和準(zhǔn)確率均優(yōu)于CFSFDP算法.這一結(jié)論對(duì)大規(guī)模人臉聚類的實(shí)際應(yīng)用具有重要的指導(dǎo)意義.
大規(guī)模人臉聚類; 卷積神經(jīng)網(wǎng)絡(luò); K-means; 隨機(jī)指標(biāo);信息熵;F1-測(cè)試值; 混淆矩陣可視化
因其廣泛的應(yīng)用潛力,人臉聚類近年來(lái)受到越來(lái)越多的關(guān)注,目前主要用于人臉檢索與標(biāo)注[1-2]、人臉識(shí)別的預(yù)處理[3-4]和人臉數(shù)據(jù)庫(kù)的構(gòu)建[5-6].另外,通過在檢索的基礎(chǔ)上融合時(shí)間、地點(diǎn)等信息,人臉聚類還能用于追蹤罪犯和尋找失蹤人口等.一般來(lái)說,人臉聚類效果的優(yōu)劣,主要受到所采用的特征提取方法和聚類算法的影響.傳統(tǒng)的特征提取方法主要有PCA[7]、LDA[8]、ICA[9]、LBP[10]等.基于PCA的“特征臉”方法把所有樣本 (包括光照等外來(lái)因素) 作為一個(gè)整體去尋找均方誤差最小意義下的最優(yōu)線性投影,而忽略其類別屬性,所以在該投影方向下的人臉不一定具有可分性.基于LDA的“Fisher臉”則引入了類間離散度和類內(nèi)離散度的概念,它是一種以可分性為目的的算法,但這種方法存在小樣本問題,且只利用了人臉的二階統(tǒng)計(jì)特性.ICA進(jìn)一步考慮了人臉高階信息,但它需要依靠經(jīng)驗(yàn)來(lái)選取對(duì)分類有用的獨(dú)立元,且計(jì)算復(fù)雜度較高.上述方法都只是對(duì)人臉圖像進(jìn)行簡(jiǎn)單的線性變換,而實(shí)際上人臉的類內(nèi)和類間變化是復(fù)雜、高度非線性的.核PCA[11]和核Fisher判別[12]利用非線性映射把原空間的樣本映射到隱特征空間中去,再對(duì)樣本作分析,考慮了人臉信息的非線性特性,但依然存在可分性不強(qiáng)和小樣本問題.考慮到人臉的局部細(xì)節(jié)信息重要性,LBP提取人臉的局部紋理特征,具有灰度不變性和旋轉(zhuǎn)不變性,但該特征具有較高的維數(shù).
以上傳統(tǒng)的特征提取方法都是通過淺層的模型提取特征,特征的好壞很大程度依賴經(jīng)驗(yàn),且沒有綜合考慮人臉變化的復(fù)雜性、高度非線性和高階性.此外,為了使特征對(duì)光照、姿勢(shì)、表情等具有較好的魯棒性,這些方法還需要進(jìn)行直方圖均衡、光照補(bǔ)償、姿勢(shì)矯正等處理,增加了模型的復(fù)雜性.
卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Networks,CNN) 是在近幾年發(fā)展起來(lái)的,并引起廣泛重視的一種高效識(shí)別方法.由于其深層的結(jié)構(gòu)、強(qiáng)大的學(xué)習(xí)能力和分層非線性映射,被廣泛應(yīng)用于人臉特征提取[13-15],并成為人臉識(shí)別領(lǐng)域的主流方法[6].
在人臉聚類任務(wù)中,除了要求提取到有效特征信息外,還需要選取合適的聚類算法.目前文獻(xiàn)中有大量聚類算法.其中,K-means算法是最為經(jīng)典,同時(shí)也是應(yīng)用最為廣泛的算法之一.它具有原理簡(jiǎn)單、收斂速度快、計(jì)算時(shí)間復(fù)雜度是關(guān)于樣本數(shù)的線性量級(jí)等優(yōu)點(diǎn),但是,其也存在參數(shù)k需要事先給定,聚類形狀接近球形等缺點(diǎn).最近,文獻(xiàn)[16]提出了一種快速搜索密度極點(diǎn)的聚類算法 (Clustering by Fast Search and Find of Density Peaks,CFSFDP) ,該算法通過構(gòu)建決策圖的可視化方法,達(dá)到快速確定聚類中心數(shù)目和位置的目的.在聚類中心點(diǎn)確定后,其余各點(diǎn)的類標(biāo)簽分配可以一次完成,且聚類形狀不局限于球形.但是,其在計(jì)算樣本兩兩之間的相關(guān)性度量指標(biāo)時(shí),時(shí)間復(fù)雜度為樣本數(shù)量的平方量級(jí).這就意味著,當(dāng)樣本數(shù)量比較大時(shí),該算法運(yùn)算效率偏低,而這一缺點(diǎn)容易被現(xiàn)有文獻(xiàn)忽略.
鑒于CNN在人臉識(shí)別任務(wù)中的優(yōu)越性能,本文采用CNN作為人臉特征提取方法,并在此基礎(chǔ)上探討了大規(guī)模人臉聚類情境下,K-means和CFSFDP哪一種聚類算法更優(yōu)的問題.此外,為了更加直觀地顯示CNN特征提取的有效性,本文在實(shí)驗(yàn)中還加入基于全局特征PCA算法作對(duì)比.本文采用MSRA-CFW人臉數(shù)據(jù)庫(kù)作為實(shí)驗(yàn)數(shù)據(jù)集,選取RI、信息熵和F1-measure三種聚類指標(biāo)作為評(píng)估聚類算法優(yōu)劣的標(biāo)準(zhǔn),并對(duì)聚類效果進(jìn)行了可視化處理.實(shí)驗(yàn)結(jié)果表明,在聚類類別數(shù)目足夠大且兩種聚類算法聚類中心點(diǎn)數(shù)目選取準(zhǔn)確的情況下,經(jīng)典的K-means算法的效果顯著優(yōu)于原理相對(duì)比較復(fù)雜的CFSFDP算法.值得注意的是,K-means算法在計(jì)算時(shí)間復(fù)雜度上同樣顯著優(yōu)于CFSFDP算法.因此,CNN特征融合K-means的人臉聚類算法更適用于大樣本的情況.這一結(jié)論對(duì)大規(guī)模人臉聚類的實(shí)際應(yīng)用具有重要的指導(dǎo)意義.
1.1 卷積神經(jīng)網(wǎng)絡(luò)的原理和優(yōu)點(diǎn)
20世紀(jì)60年代,Hubel和Wiesel發(fā)現(xiàn)貓腦皮層用于局部敏感和方向選擇的獨(dú)特網(wǎng)絡(luò)結(jié)構(gòu)有助于降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性[17],繼而提出了卷積神經(jīng)網(wǎng)絡(luò).它主要包括卷積層、池化層和全接連層.卷積的目的是使用不同的卷積核提取不同的特征,池化層則對(duì)卷積層的特征進(jìn)行重要特征采樣.全連接層的主要作用是把低層特征抽象成維數(shù)更高的高層特征.CNN以分類誤差作為損失函數(shù),迭代反饋傳播誤差調(diào)整網(wǎng)絡(luò)參數(shù),直至分類誤差最小.具體過程見1.2節(jié).
CNN能夠利用大量的樣本通過其自身深層的非線性網(wǎng)絡(luò)結(jié)構(gòu)來(lái)學(xué)習(xí)數(shù)據(jù)特征表示,具有較強(qiáng)的泛化能力.其獨(dú)特的結(jié)構(gòu) (局部感受野、權(quán)值共享、池化) 大大減少了神經(jīng)網(wǎng)絡(luò)參數(shù)的數(shù)量,降低了復(fù)雜度,并對(duì)位移、縮放和旋轉(zhuǎn)等扭曲具有一定的不變性.和采用全連接結(jié)構(gòu)的傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)相比,參數(shù)選擇不過分依賴經(jīng)驗(yàn),且學(xué)習(xí)深度更深.與傳統(tǒng)算法相比,對(duì)光照、表情、姿勢(shì)等具有較好的魯棒性,另外二維圖像可直接作為網(wǎng)絡(luò)的輸入,避免了特征提取和分類過程中數(shù)據(jù)重建的復(fù)雜過程.
1.2 卷積神經(jīng)網(wǎng)絡(luò)模型
本文受文獻(xiàn)[18]啟發(fā),構(gòu)建一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)人臉特征.卷積層和池化層之間采用maxout激活函數(shù).具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.
該深度卷積神經(jīng)網(wǎng)絡(luò)主要包括4個(gè)卷積層,4個(gè)maxout層,4個(gè)池化層和2個(gè)全連接層.輸入圖像是128×128的人臉圖像,采用96個(gè)核大小為9×9的卷積核掃描輸入圖像,對(duì)于每張人臉圖像的不同位置,都采用相同的卷積核進(jìn)行掃描.因此,在卷積層1得到96個(gè)特征,即2組120×120×48的特征圖.再經(jīng)過maxout激活函數(shù)篩選得到1組120×120×48的特征圖,然后采用池化區(qū)域大小為2×2的maxpooling來(lái)池化這組特征,得到1組60×60×48的池化特征.maxout和maxpooling操作都是為了進(jìn)一步減少網(wǎng)絡(luò)參數(shù),防止網(wǎng)絡(luò)過擬合.
以上步驟重復(fù)3次,這樣經(jīng)過一系列的卷積提取特征,池化聚合特征等操作,在池化層4得到了5×5×192全局化的特征圖.這192張?zhí)卣鲌D的每個(gè)位置,都是來(lái)自不同特征的單元得到的不同類型的特征.最后兩層為全連接層,全連接層1是1組256×1的特征,全連接層2是1組10 575×1的特征.本文采用的人臉特征是全連接層1的特征,而全連接層2的特征用來(lái)作為softmax分類層的輸入.
在該網(wǎng)絡(luò)搭建的過程中涉及3個(gè)重要的數(shù)學(xué)表達(dá)式,它們分別為卷積層輸出表達(dá)式、maxpool池化函數(shù)9表達(dá)式和maxout激活函數(shù)表達(dá)式.具體見公式(1)、(2)、(3).
卷積層輸出的表達(dá)式為
(1)
maxpool池化函數(shù)的表達(dá)式為
(2)
maxout激活函數(shù)的表達(dá)式為
(3)
2.1 聚類原理
聚類分析是根據(jù)數(shù)據(jù)集之間的相似度將其劃分為若干類或簇,使得同一類之間的數(shù)據(jù)相似度盡可能大,不同類之間的數(shù)據(jù)相似度盡可能小.與分類最大的區(qū)別是,聚類分析是一種無(wú)監(jiān)督的學(xué)習(xí)方法,學(xué)習(xí)不依賴標(biāo)簽的數(shù)據(jù).
2.2 基于K-means的聚類算法
K-means是聚類分析中使用最廣泛的算法之一,其算法原理如下:
(1) 隨機(jī)選取k個(gè)樣本點(diǎn)作為初始中心點(diǎn),共有k個(gè)類;
(2) 計(jì)算其余各點(diǎn)到這k個(gè)中心點(diǎn)的距離,樣本點(diǎn)歸屬于距離最小的中心點(diǎn),距離計(jì)算可選擇歐氏距離、馬氏距離、余弦距離等,其中文獻(xiàn)[19]提出一種新的距離在人臉識(shí)別中的應(yīng)用;
(3) 重新計(jì)算各類的質(zhì)心作為中心點(diǎn);
(4) 迭代步驟(2)和(3)直到目標(biāo)函數(shù)達(dá)到最優(yōu)或達(dá)到最大的迭代次數(shù).使用不同的距離公式,目標(biāo)函數(shù)不同.目標(biāo)函數(shù)一般誤差平方和表示為
(4)
其中k是聚類數(shù)目,ci是樣本i所歸屬的類別,dist是指具體的距離度量方式.
對(duì)于大規(guī)模數(shù)據(jù),K-means算法是相對(duì)可伸縮和高效的[20].其時(shí)間復(fù)雜度為O(nkt),其中n為樣本數(shù)量,k為聚類數(shù)目,t為迭代次數(shù).一般來(lái)說,knn,tnn.因此,就時(shí)間復(fù)雜度而言,K-means算法適用于大數(shù)據(jù)聚類.另外,由于K-means的聚類形狀為球形,也就是說,當(dāng)樣本的特征空間符合歐氏距離,聚類是密集且不同類別之間的區(qū)別較為明顯時(shí),K-means聚類能取得較好的效果.
圖1 基于人臉特征的卷積神經(jīng)網(wǎng)絡(luò)
2.3 基于密度極點(diǎn)的聚類算法
CFSFDP是一種基于密度極點(diǎn)的聚類算法,該算法通過局部密度極點(diǎn)來(lái)挖掘潛在聚類中心,再根據(jù)就近原則一次完成其余樣本點(diǎn)的類標(biāo)簽分配. 其基本思想是:聚類中心點(diǎn)被局部密度較小的鄰域包圍,而與其他局部密度較高的樣本點(diǎn)保持相對(duì)較大的距離.值得注意的是,雖然該算法只需計(jì)算樣本點(diǎn)的兩個(gè)屬性值:局部密度值ρi和距離δi,但涉及這兩個(gè)值計(jì)算的dij的時(shí)間復(fù)雜度為O(n2),n為樣本數(shù)量.屬性值具體如公式(5)和(6)所示.
(5)
當(dāng)x<0時(shí),χ(x)=1; 當(dāng)x>0時(shí); χ(x)=0.dc是一個(gè)截?cái)嗑嚯x.
(6)
當(dāng)ρi達(dá)到最大值時(shí),δi=maxj(dij).CFSFDP的聚類中心點(diǎn)必須符合:δ值高,ρ值相對(duì)較高,即所有數(shù)據(jù)的密度相對(duì)極點(diǎn),而這兩個(gè)值只與數(shù)據(jù)之間的距離dij有關(guān).因此,該算法的準(zhǔn)確率依賴于dij.對(duì)于結(jié)構(gòu)清晰,即不同類別之間的區(qū)別明顯,且聚類數(shù)目較少的特征空間來(lái)說,該算法選擇聚類中心點(diǎn)的準(zhǔn)確率總是很高.如圖2(a)所示,由于ORL人臉數(shù)據(jù)庫(kù)聚類數(shù)目較少,變化模式單一,CFSFDP能準(zhǔn)確地選取其聚類中心點(diǎn).然而,在實(shí)際生活中,存在著變化模式復(fù)雜,且聚類數(shù)目和樣本規(guī)模較大的數(shù)據(jù)庫(kù),該算法在處理這一類數(shù)據(jù)庫(kù)時(shí),只能主觀地選取中心點(diǎn).例如,圖2(b)和圖2(c)是同一個(gè)數(shù)據(jù)庫(kù)不同聚類數(shù)目的樣本點(diǎn)通過CFSFDP算法得出的決策圖.圖2(b)的聚類中心點(diǎn)明顯,但隨著聚類數(shù)目和樣本數(shù)量的增大,聚類中心點(diǎn)與其余樣本點(diǎn)的區(qū)別并不明顯,如圖2(c)所示.
本文采用CASIA-WebFace人臉數(shù)據(jù)庫(kù)作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)集.CASIA-WebFace數(shù)據(jù)集有10 575個(gè)人,共494 414張圖像,圖像需要經(jīng)過簡(jiǎn)單的預(yù)處理,其步驟具體如下:
(1) 人臉區(qū)域檢測(cè)、人臉關(guān)鍵點(diǎn)檢測(cè)和人臉對(duì)齊,具體方法參考文獻(xiàn)[21].
(2) 轉(zhuǎn)化為灰度圖像,歸一化圖像為128×128大小.
在網(wǎng)絡(luò)訓(xùn)練的過程中,為了防止過擬合,在卷積層、池化層和全連接層1中,權(quán)值衰減系數(shù)設(shè)置為5×10-4,在全連接層2中設(shè)置為5×10-3.全連接層采用比率為0.7的dropout操作.整個(gè)網(wǎng)絡(luò)的學(xué)習(xí)速率從10-3逐漸減小到5×10-5.
整個(gè)模型在GPU:GTX Titan X上訓(xùn)練,大約耗時(shí)3 d.該模型在LFW人臉數(shù)據(jù)庫(kù)上人臉驗(yàn)證準(zhǔn)確率的AUC為98.58%,可見該神經(jīng)網(wǎng)絡(luò)模型提取的人臉特征較好.
聚類實(shí)驗(yàn)數(shù)據(jù)來(lái)源于MSRA-CFW人臉數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)有1 583人,每人10~1 000張圖像不等,共202 792張圖像.由于該數(shù)據(jù)庫(kù)規(guī)模較大,本文只選用部分?jǐn)?shù)據(jù):66人,每人250~350張圖像,共19 109張圖像.
圖2 CFSFDP決策圖
為了驗(yàn)證在大規(guī)模數(shù)據(jù)的情況下,基于CNN算法提取的人臉特征的有效性,并進(jìn)一步對(duì)比K-means和CFSFDP算法聚類效果的優(yōu)劣性,本文設(shè)計(jì)了兩組對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)在聚類數(shù)目和樣本規(guī)模遞增的情況下進(jìn)行.具體實(shí)驗(yàn)如下:
(1) 提取CNN特征,分別采用CFSFDP和K-means算法進(jìn)行聚類;
(2) 提取PCA特征,分別采用CFSFDP和K-means算法進(jìn)行聚類.
其中CFSFDP算法和K-means算法均以余弦距離來(lái)度量樣本之間的相似性.以上實(shí)驗(yàn)的聚類效果使用RI、信息熵(Entropy)和F1-measure三種指標(biāo)進(jìn)行評(píng)價(jià).由于數(shù)據(jù)規(guī)模較大,本文只將聚類數(shù)目為66的聚類結(jié)果進(jìn)行可視化.
3.1 RI評(píng)價(jià)指標(biāo)及結(jié)果分析
RI是一種用排列組合原理計(jì)算聚類后的數(shù)據(jù)集與原數(shù)據(jù)集相似性的評(píng)價(jià)手段.其定義為
(7)
其中,TP(Ture Positive)、TN(Ture Negative)、FP(False Positive)和FN(False Negative)分別表示同一類的數(shù)據(jù)被分到同一簇,不同類的數(shù)據(jù)被分到不同簇,不同類的數(shù)據(jù)被分到同一簇,同一類的數(shù)據(jù)被分到不同簇的數(shù)目.圖3為不同聚類結(jié)果的RI指標(biāo)比較.
由圖3可以看出:(1) CNN+CFSFDP的RI指標(biāo)隨著聚類數(shù)目的遞增而下降,而CNN+K-means的RI指標(biāo)隨著聚類數(shù)目的遞增而上升,當(dāng)聚類數(shù)目大于42時(shí),后者的指標(biāo)明顯高于前者;(2) PCA+K-means的RI指標(biāo)遠(yuǎn)高于PCA+CFSFDP的指標(biāo);(3) CNN+K-means的RI指標(biāo)與PCA+K-means的指標(biāo)差別不大,當(dāng)聚類數(shù)目大于42時(shí),兩者幾乎重疊.
RI指標(biāo)有一個(gè)缺陷,就是只適用于聚類數(shù)目較少的情況.當(dāng)聚類數(shù)目較大時(shí),由于RI把TP和TN看得同等重要,TN的增大也有可能使RI的值上升,但此時(shí)并不代表聚類質(zhì)量好.因?yàn)門N強(qiáng)調(diào)不同類的數(shù)據(jù)分到不同的簇,沒有考慮分布的混雜程度.因此,本文用熵和F1-measure來(lái)進(jìn)一步評(píng)價(jià)聚類質(zhì)量.
圖3 不同聚類結(jié)果的RI指標(biāo)
3.2 信息熵評(píng)價(jià)指標(biāo)及結(jié)果分析
信息熵(entropy)是信息論中用來(lái)衡量系統(tǒng)有序化程度的度量.在聚類評(píng)價(jià)中,信息熵表示聚類的混雜程度.信息熵越低,表示聚類后每一簇的類別數(shù)目越少,聚類的混雜程度越高,反之聚類的混雜程度越低.其定義為
(8)
其中Pij=mij/mi,mij是第i個(gè)簇中類別j的數(shù)目,mi是第i個(gè)簇的樣本總數(shù).圖4為不同聚類結(jié)果的信息熵比較.
由圖4可以看出:(1) 由于數(shù)量規(guī)模的增大,就整體而言,信息熵隨著聚類數(shù)目的遞增而上升;(2)由PCA特征得到的信息熵明顯高于由CNN特征得到的信息熵,這表明前者聚類的混雜程度較高,后者聚類的混雜程度較低;(3) 當(dāng)聚類數(shù)目大于42時(shí),CNN+K-means的信息熵低于CNN+CFSFDP的信息熵,說明在聚類數(shù)目較大的情況下,前者聚類的混雜程度更低.綜上所述,當(dāng)聚類數(shù)目較大時(shí),由CNN特征融合K-means算法聚類的混雜程度較低.
圖4 不同聚類結(jié)果的信息熵指標(biāo)
3.3 F1-measure評(píng)價(jià)指標(biāo)及結(jié)果分析
精度(Precision)和召回率(Recall)是信息檢索和統(tǒng)計(jì)分類領(lǐng)域用來(lái)評(píng)價(jià)檢索或分類結(jié)果質(zhì)量的度量.在聚類評(píng)價(jià)中,聚類后每一簇的精度是指某一類別的數(shù)目與該簇總樣本數(shù)目的比率,衡量的是聚類結(jié)果的查準(zhǔn)率.而每一類的召回率是指在聚類后的指定簇中,某一類別的數(shù)目與該類別樣本總數(shù)的比率,衡量的是聚類結(jié)果的查全率.精度和召回率兩者越高越好,但實(shí)際上隨著樣本規(guī)模的增大,兩者是相互制約的,即精度高時(shí),召回率低,召回率高時(shí),精度低.F1-measure是綜合精度和召回率的評(píng)價(jià)指標(biāo),反映了整體的聚類質(zhì)量.當(dāng)F1-measure值較高時(shí)說明相應(yīng)的聚類方法比較有效.其定義為
(9)
圖5 不同聚類結(jié)果的F1-measure指標(biāo)
由圖5可以看出:(1) CNN特征得到的F1值明顯高于PCA特征得到的F1值,這表明前者的整體綜合性能優(yōu)于后者; (2) 當(dāng)聚類數(shù)目大于42時(shí),CNN+K-means的F1值高于CNN+CFSFDP的F1
值,這表明在聚類數(shù)目較大的情況下,前者的綜合性能優(yōu)于后者.綜上所述,當(dāng)聚類數(shù)目較大時(shí),由CNN特征融合K-means聚類算法綜合性能更加優(yōu)秀.
3.4 聚類結(jié)果可視化
本文通過混淆矩陣來(lái)可視化聚類效果.其中每一行代表聚類前樣本的真實(shí)歸屬類別,每一列代表聚類后樣本的預(yù)測(cè)類別.通過混淆矩陣行歸一化,可以衡量聚類后每一簇分布的混雜程度;通過列歸一化可以衡量原類別分布的混雜程度.圖6、圖7分別是行歸一化和列歸一化混淆矩陣的可視化結(jié)果.圖中的正方形越黑則代表對(duì)應(yīng)的比值越大,分布越集中.可視化結(jié)果越接近對(duì)角線,則說明聚類效果越出色.
由圖6可以看出:(1) PCA+K-means的效果比較差,聚類后的每一簇混雜程度最高;(2)PCA+CFSFDP的樣本主要聚集在幾個(gè)簇中,且每個(gè)簇的混雜程度較高,多數(shù)的簇只有少量樣本;(3) CNN+CFSFDP的聚類效果一般,雖然每一簇的混雜程度較低,但接近一半的簇只聚集到少量樣本;(4) CNN+K-means的聚類效果最好,絕大多數(shù)的簇混雜程度低,且同一類別的樣本基本聚集到同一簇中,只有少部分的簇聚集了多類別樣本.
同理,由圖7可以看出:(1) PCA+K-means的聚類效果比較差,原類別分布混雜;(2) PCA+CFSFDP的聚類效果一般,多數(shù)原類別分布的混雜程度較低;(3) CNN+CFSFDP的效果在整體上比PCA+CFSFDP的好;(4) CNN+K-means的聚類效果最出色,絕大多數(shù)原類別分布的混雜程度低,且同一類別的樣本基本聚集到同一簇中,只有少部分的原類別分散到不同的簇中.
圖6 行歸一混淆矩陣可視化
圖7 列歸一混淆矩陣可視化
本文通過CNN提取人臉特征,然后融合CFSFDP和K-means算法分別進(jìn)行人臉聚類.為了對(duì)比聚類數(shù)目和樣本規(guī)模對(duì)實(shí)驗(yàn)的影響,實(shí)驗(yàn)都在其遞增的情況下進(jìn)行.另外,實(shí)驗(yàn)所選取的人臉數(shù)據(jù)庫(kù)來(lái)源于因特網(wǎng),變化模式復(fù)雜,更接近于實(shí)際情況.本文采用RI、信息熵和F1-measure三種聚類評(píng)價(jià)指標(biāo)去評(píng)估聚類的質(zhì)量,結(jié)果表明在聚類數(shù)目較少情況下,CNN特征融合CFSFDP算法略優(yōu)于CNN特征融合K-means算法,但在聚類數(shù)目較多的情況下,后者明顯優(yōu)于前者.另外,考慮到CFSFDP計(jì)算的時(shí)間復(fù)雜度為樣本數(shù)量的平方量級(jí),而K-means計(jì)算的時(shí)間復(fù)雜度接近線性,因此,在大規(guī)模人臉聚類的情境下,CNN特征融合K-means聚類算法更為有效.
本文的不足之處在于實(shí)驗(yàn)的人臉數(shù)據(jù)庫(kù)分布較均勻,即每人的圖像數(shù)量都在一定范圍內(nèi).下一步重點(diǎn)研究非均勻分布下的大規(guī)模人臉聚類.
[1] 楊之光, 艾海舟. 基于聚類的人臉圖像檢索及相關(guān)反饋[J]. 自動(dòng)化學(xué)報(bào), 2008, 34(9): 1033-1039.
YANG Z G, AI H Z. Cluster-based face image retrieval and its relevance feedback[J]. Acta Automatica Sinica, 2008, 34(9): 1033-1039.
[2] 劉勝宇, 劉家鋒, 黃慶成, 等. 基于改進(jìn)AP聚類算法的人臉標(biāo)注技術(shù)研究[J]. 智能計(jì)算機(jī)與應(yīng)用, 2011, 01(3): 35-38.
LIU S Y, LIU J F, HUANG Q C, et al. Research on annotation technology of face based on improved AP clustering algorithm[J]. Intelligent Computer and Application, 2011, 01(3): 35-38.
[3] 劉帥, 林克正, 孫旭東, 等. 基于聚類的SIFT人臉檢測(cè)算法[J]. 哈爾濱理工大學(xué)學(xué)報(bào), 2014, 19(1): 31-35.
LIU S, LIN K Z, SUN X D, et al. Scale-invariant feature transform based on clustering in face recognition[J]. Journal of Harbin University of Science and Technology, 2014, 19(1): 31-35.
[4] 高璐, 李文輝, 王瑩. 基于模糊聚類分析和多特征融合的人臉識(shí)別方法[J]. 吉林大學(xué)學(xué)報(bào)(理學(xué)版), 2012, 50(2): 293-298.
GAO L, LI W H, WANG Y. A face recognition method based on Fuzzy clustering analysis and multi-feature fusion[J]. Journal of Jilin University (Science Edition), 2012, 50(2): 293-298.
[5] ZHU C, WEN F, SUN J. A rank-order distance based clustering algorithm for face tagging[C]∥2013 IEEE Conference on Computer Vision and Pattern Recognition. Providence, RI: IEEE, 2011: 481-488.
[6] YI D, LEI Z, LIAO S, et al. Learning face representation from scratch[J]. arXiv preprint arXiv:14117923, 2014,
[7] TURK M, PENTLAND A. Eigenfaces for recognition[J]. Journal of Cognitive Neuroscience, 1991, 3(1): 71-86.
[8] BELHUMEUR P N, HESPANHA J P, KRIEGMAN D J. Eigenfaces vs. Fisherfaces: Recognition Using Class Specific Linear Projection[M]. Berlin: Springer, 1996.
[9] BARTLETT MS, MOVELLAN JR, SEJNOWSKI T J. Face recognition by independent component[J]. Neural Networks IEEE Transactions on, 2002, 13(6): 1450-1464.
[10] TIMO A, ABDENOUR H, MATTI P I. Face description with local binary patterns: application to face recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2006, 28(12): 2037-2041.
[11] 高緒偉. 核PCA特征提取方法及其應(yīng)用研究[D].南京:南京航空航天大學(xué)民航學(xué)院, 2009.
[12] 劉曉亮, 王福龍, 黃誠(chéng), 等. 一種加權(quán)的核Fisher鑒別分析在人臉識(shí)別中的應(yīng)用[J]. 廣東工業(yè)大學(xué)學(xué)報(bào), 2009, 26(4): 65-69.
LIU X L, WANG F L, HUANG C, et al. A kind of weighted kernel Fisher discrimination analysis applied in face recognition[J]. Journal of Guangdong University of Technology, 2009, 26(4): 65-69.
[13] CHEUNG B. Convolutional neural networks applied to human face classification[C]∥Machine Learning and Applications (ICMLA), 2012 11th International Conference on. Boca Raton, FL: IEEE, 2012: 580-583.
[14] SUN Y, WANG X, TANG X. Deep learning face representation from predicting 10,000 classes[C]∥ Proceedings of the Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, Columbus, OH:IEEE, 2014.
[15] SUN Y, WANG X, TANG X. Hybrid deep learning for face verification[C]∥Proceedings of the 2013 IEEE International Conference on Computer Vision. Sydney, NSW: IEEE, 2013: 1489-1496.
[16] RODRIGUEZ A, LAIO A. Clustering by fast search and find of density peaks[J]. Science, 2014, 344(6191): 1492-1496.
[17] HUBEL D H, WIESEL T N. Receptive fields, binocular interaction and functional architecture in the cat′s visual cortex[J]. Journal of Physiology, 1962, 160(1): 106-154.
[18] WU X. Learning Robust Deep Face Representation[J]. arXiv preprint arXiv:150704844, 2015.
[19] 蔡正, 王福龍, 徐愛輝. 一種新的圖像距離在人臉識(shí)別中的應(yīng)用[J]. 廣東工業(yè)大學(xué)學(xué)報(bào), 2010, 27(3): 64-67.
CAI Z, WANG F L, XU A H. A new distance applied in face recognition[J]. Journal of Guangdong University of Technology, 2010, 27(3): 64-67.
[20] 李應(yīng)安. 基于MapReduce的聚類算法的并行化研究[D].廣州:中山大學(xué)信息科學(xué)與技術(shù)學(xué)院, 2010.
[21] KAZEMI V, SULLIVAN J. One millisecond face alignment with an ensemble of regression trees[C]∥ Computer Vision and Pattern Recognition, 2014 IEEE Conference on Columbus, OH: IEEE, 2014: 1867-1874.
Large Scale Face Clustering Based on Convolutional Neural Network
Shen Xiao-min, Li Bao-jun, Sun Xu, Xu Wei-chao
(School of Automation, Guangdong University of Technology, Guangzhou 510006, China)
The key challenge of large scale face clustering is to extract effective facial features and construct an accurate model with less time complexity. In this research, effective features are first extracted based on convolutional neural network (CNN). Then K-means, a classical cluster algorithm, and a state-of-art algorithm named CFSFDP (Clustering by Fast Search and Find of Density Peaks) are used to cluster large scale face images. Rand Index, entropy,F1-measure and the visualization of confusion matrix are further applied to comprehensively assess clustering quality. All the tests are under the condition of the increasing numbers of clustering centers. Experiment results demonstrate that K-means has a better performance as well as a much higher speed than CFSFDP. This conclusion is believed to shed new light in the area of face clustering.
large scale face clustering; convolutional neural network; K-means; rand index(RI); entropy;F1-measure; visualization of confusion matrix
2016- 03- 02
國(guó)家自然科學(xué)基金資助項(xiàng)目(61271380);廣東省自然科學(xué)基金資助項(xiàng)目(S2012010009870,2014A030313515)
申小敏(1990-),女,碩士研究生,主要研究方向?yàn)槟J阶R(shí)別.
徐維超(1970-),男,教授,博士生導(dǎo)師,主要研究方向?yàn)榻y(tǒng)計(jì)信號(hào)處理、統(tǒng)計(jì)模式識(shí)別.E-mail:wcxu@gdut.edu.cn
10.3969/j.issn.1007- 7162.2016.06.014
TP181
A
1007-7162(2016)06- 0077- 08