盧瀅宇, 金 錱
(1. 寧波職業(yè)技術學院, 浙江 寧波 315800; 2. 浙江大學 寧波理工學院, 浙江 寧波 315100)
?
基于特征表示與學習的圖像集合分類算法
盧瀅宇1, 金 錱2
(1. 寧波職業(yè)技術學院, 浙江 寧波 315800; 2. 浙江大學 寧波理工學院, 浙江 寧波 315100)
當前大多數(shù)圖像集合分類方法對圖像集合進行表示時往往做出部分先驗假設,然而在許多實際應用中,這些假設可能無法成立,尤其是當集合內(nèi)部存在大量復雜的數(shù)據(jù)變化時更是如此。此外,基于這些假設進行模型學習時可能會丟失部分區(qū)分性分類信息。針對這一問題,本文提出一種基于特征表示與學習的圖像集合分類方法。對每個圖像集合,首先將計算它的多階統(tǒng)計量作為特征表示。對每階統(tǒng)計量,計算一個內(nèi)核矩陣來衡量兩個圖像集合的相似性。然后,通過利用局部多內(nèi)核指標學習(LMKML)方法來學習一種距離指標,進而將不同階統(tǒng)計量綜合起來。最后,利用最近鄰分類器進行分類?;?種常用圖像集合數(shù)據(jù)庫的實驗結果驗證了本文算法的有效性。
圖像集合分類; 多階統(tǒng)計量; 特征表示; 內(nèi)核矩陣; 近鄰分類器
圖像集合分類可廣泛應用于可視化監(jiān)視和多視角圖像分析問題,是計算機視覺和模式識別領域的重要研究課題[1-4]。圖像集合分類的典型應用便是基于視頻的人臉識別問題,每個走廊(gallery)和探測(probe)人臉視頻可看成是一個圖像集合,利用圖像集合的特征進行人體識別。傳統(tǒng)的圖像分類問題中,每個訓練和測試樣本是單幅圖像,但在本文圖像集合分類問題中,每個訓練和測試樣本包括一組圖像實例。與單幅圖像相比,圖像集合可提供更多的目標對象描述信息。然而,由于同一圖像集合內(nèi)往往存在較大規(guī)模的類內(nèi)變化,造成對圖像數(shù)據(jù)集的區(qū)分性信息加以利用的難度增大。
人們已經(jīng)對圖像集合分類問題進行了大量研究[5-14]。其中文獻[7]提出了一種低秩描述下的圖像集合分類方法。文獻[8]通過基于最優(yōu)標號和次優(yōu)標號的主動學習來挖掘對當前分類器模型最具價值的樣本進行人工標注,并借助帶約束條件的自學進一步利用樣本集中大量的未標注樣本,使得在花費較小標注代價情況下,能夠獲得良好的分類性能。文獻[9]提出一種基于稀疏編碼的多核學習圖像分類方法。該方法在利用非線性SVM方法進行圖像分類時,空間金字塔的各層分別形成一個核矩陣,使用多核學習方法求解各個核矩陣的權重,通過核矩陣的線性組合來獲取能夠對整個分類集區(qū)分能力最強的核矩陣。文獻[10-14]等方法對圖像集合進行表示時往往做出部分先驗假設,比如服從單高斯、高斯混合模型、子空間或流形(manifold)模型。然而在許多實際應用中,這些假設可能無法成立,尤其是當集合內(nèi)部存在大量復雜的數(shù)據(jù)變化時更是如此。此外,基于這些假設進行模型學習時可能會丟失部分區(qū)分性分類信息。
本文提出一種新的圖像集合分類算法。已知圖像集合,計算其整體多階統(tǒng)計量作為特征進行集合表示。與當前大多數(shù)圖像集合分類方法相比[11,13],本文多階統(tǒng)計量特征不需進行參數(shù)估計,可更為穩(wěn)健地從總體上描述集合內(nèi)圖像實例的分布。此外,提取出來的統(tǒng)計量特征中帶噪樣本可被有效濾除,這些多階統(tǒng)計量特征對噪聲的敏感度較低。為了更好地利用從不同階統(tǒng)計量中提取出來的信息,本文提出一種局部多內(nèi)核指標學習算法,以便學習一種距離指標,將不同階統(tǒng)計量有效融合起來,且有更多區(qū)分性信息用于分類?;?種常用圖像集合數(shù)據(jù)庫的實驗結果證明了本文算法的有效性。本文算法的基本思路見圖1。
圖1 圖像集合分類算法的基本思路
對每個圖像集合,本文首先在集合建模時提取出多個不同階統(tǒng)計變量。對每階統(tǒng)計量,計算一個內(nèi)核矩陣以衡量2個圖像集合間的相似性。然后,提出LMKML算法學習一種區(qū)分性局部距離指標,綜合不同階上的統(tǒng)計信息。最后,利用最近鄰分類器進行分類。
1.1 基于多階統(tǒng)計量的集合建模
(1) 一階統(tǒng)計量。計算圖像集合的均值向量m,表示圖像集合在高維空間中的平均位置:
(1)
(2) 二階統(tǒng)計量。計算圖像集合的協(xié)方差矩陣C,表示圖像集合中每對圖像樣本2個特征間的相關性:
(2)
(3) 三階統(tǒng)計量。計算圖像集合協(xié)方差矩陣C和均值m的外積,形成一個三階張量以衡量協(xié)方差矩陣和均值向量2個元素間的相關性:
T=C?m
(3)
其中:m表示1個d維向量;C表示1個d×d矩陣;T表示1個d×d×d張量。其中,“?”表示2個矩陣的直積。請注意,對每個圖像集合可計算更多更高階的統(tǒng)計量。本文方法之所以只考慮這3種,是因為計算更高階統(tǒng)計量特征的成本太高。與先前圖像集合表示方法相比,利用多階統(tǒng)計量信息對圖像集合建模具有如下優(yōu)勢:① 無需對數(shù)據(jù)分布做出假設,無論圖像集合包括多少樣本,均可計算出統(tǒng)計量特征。② 不同階的統(tǒng)計量信息可從不同角度描述圖像集合。例如,均值向量可粗略反映對象在高維空間的位置,協(xié)方差矩陣可表示對角線元素各個特征的方差并衡量非對角線元素不同特征間的相關性。因此,這些統(tǒng)計量特征為圖像集合的表示提供了補充性信息。
圖2給出一個簡單示例來闡明不同階的統(tǒng)計量可為圖像集合的分類貢獻不同的區(qū)分性信息。在該圖中,圓形和三角形表示2個不同的圖像集合。(a)中一階統(tǒng)計量相同但二階統(tǒng)計量不同,而(b)中一階統(tǒng)計量不同但二階統(tǒng)計量相同。因此,可以看出,使用不同階的統(tǒng)計量將為圖像集合的分類貢獻不同的區(qū)分性和補充性信息。
圖2 不同階統(tǒng)計量對圖像集合分類的重要性示意圖
1.2 局部多內(nèi)核指標學習
提取出多階統(tǒng)計量特征后,利用最近鄰分類器進行分類,此時需要計算2個圖像集合間的相似性。本文對內(nèi)核空間中的2個統(tǒng)計特征進行比較,這等價于將原始的統(tǒng)計特征映射到新的空間上,并計算新空間上的點積。具體而言,將第p個統(tǒng)計變量特征的新特征表示為φp,且映射函數(shù)為Rdp→F,其中Rdp表示原始的特征空間,F(xiàn)p表示映射后的高維空間。然后,將證明利用內(nèi)核方法后,根據(jù)內(nèi)核數(shù)值可對基于φp的各種操作進行表示。
與文獻[15]類似,假設不同階統(tǒng)計變量可映射到共同的高維特征空間上。本文試圖學習一種距離指標,以便在該學習指標空間上,要求同一類別的對象比較靠近而不同類別的對象相距較遠。與文獻[15]不同之外在于,文獻[15]假設不同類型特征(此處為不同階統(tǒng)計特征)的權重對所有對象均相同,但本文認為權重應該具有數(shù)據(jù)自適應性。例如,如果一個圖像集合的均值向量為區(qū)分性向量,則與其他階特征相比,應該為其分配較高權重。基于這一思想將本文學習問題建模為局部多內(nèi)核指標學習(LMKML)問題。
(4)
為了學習距離指標M,實現(xiàn)類間變化最大,類內(nèi)變化最小。目標函數(shù)定義為:
(5)
M=WWT
(6)
將式(5)和式(6)結合起來,J簡化為如下形式:
(7)
其中:
(8)
(9)
(10)
(11)
(12)
其中:
(13)
(14)
緊接著選擇如下函數(shù)作為門限函數(shù)[15]:
(15)
(16)
然后,門限函數(shù)可寫為:
(17)
其中:ap∈RN×1和bp∈R1為參數(shù)。因為本文的目標是學習U同時還需推斷出ap和bp,所以式(12)中的優(yōu)化問題沒有閉合形式的解。受到文獻[17]類似于EM的多內(nèi)核學習算法的啟發(fā),本文采取迭代策略求解這一問題:首先固定ap和bp,更新U;然后反過來固定U,更新ap和bp。
首先利用較小的隨機數(shù)對ap和bp初始化,且1≤p≤P,通過求解式(12)中的最小化問題確定U。引入約束UTU=I以便對U的尺度施加限制,于是式(12)中關于W的優(yōu)化問題得到適定(well-posed)。然后,求解如下特征值問題即可獲得U。
(18)
(19)
(20)
算法1:LMKML。
輸入:訓練集:根據(jù)N個圖像集合計算而得的P個。N×N內(nèi)核,迭代次數(shù)T,特征維度d,收斂誤差ε。
輸出:轉換矩陣U,參數(shù)ap和bp。
步驟2(局部優(yōu)化)。
fort=1,2,…,T重復:
步驟3 (輸出變換矩陣和參數(shù)):
輸出矩陣U及參數(shù)ap和bp。
1.3 分 類
(21)
(22)
結合2個圖像集合分類問題評估本文算法的性能:基于圖像集合的人臉識別和對象分類。下面介紹具體的實驗內(nèi)容和結果。
2.1 數(shù)據(jù)集
使用Honda/UCSD[18]、 CMU MoBo[19]和YouTube Celebrities[20]3種公開的人臉數(shù)據(jù)集進行基于圖像集的人臉識別。這3種數(shù)據(jù)集中的每個視頻序列包括1個數(shù)據(jù)集合。Honda/UCSD數(shù)據(jù)集包括20個不同對象的59個視頻序列,每個視頻包括覆蓋了平面外人頭運動和臉部表情劇烈變化的約400個圖像幀。CMU MoBo數(shù)據(jù)集包括24個對象96個視頻序列。對每個對象,采集4個視頻序列,每個序列對應不同的走動模式。每個序列大約有300幀。YouTube Celebrities數(shù)據(jù)集包括YouTube采集的47位名人(演員和政客)1910個視頻序列。大多數(shù)視頻的分辨率較低,拍攝時的壓縮率較高,導致視頻幀帶噪且圖像質量較差。視頻片段包含不同數(shù)量的視頻幀(8-400)。利用文獻[21]中的人臉識別方法實現(xiàn)每幀中人臉圖像的自動識別,然后尺寸自動調整為20×20亮度圖像。采用直方圖均衡方法作為預處理方法來減輕光照的影響。
對于對象分類,使用文獻[22]中的ETH-80數(shù)據(jù)集。該數(shù)據(jù)集含有蘋果、汽車、奶牛、杯子、狗、桃子和西紅柿在內(nèi)8種不同類別的視覺對象圖像。每種類別有10個對象實例,每個對象實例有不同視角的41幅圖像,進而形成一個圖像集合。我們的任務是將對象實例的每個圖像集識別為已知類別。與先前文獻[21]類似,從簡單的背景中分割出對象圖像,并調整為20 × 20尺寸,然后進行分類。
2.2 實驗配置
為了與先前方法做公平比較,采用與文獻[11-14]相同的協(xié)議。隨機選擇走廊(gallery)/探測(probe)組合進行10次實驗,然后計算并比較不同方法的平均識別率。具體來說,對Honda和MoBo數(shù)據(jù)集,隨機選擇每個人體的一個圖像集作為gallery集,其余圖像集作為probe。對于YouTube數(shù)據(jù)集,將整個數(shù)據(jù)集分為5份(重疊最小)。每份包含每個對象的9個視頻序列。在每份中,每個對象隨機選擇3個數(shù)據(jù)集作為gallery,其余6個作為probe。對于ETH-80數(shù)據(jù)集,每個類別有5個對象作為gallery,其余5個對象作為probe。
2.3 結果和分析
與當前圖像集合分類方法的比較:將本文算法與其他文獻提出的圖像集分類算法做比較,包括:判別規(guī)范相關性分析算法(DCC)[10],多對多距離算法(MMD)[11],多重判別分析(MDA)算法[12],基于仿射包的圖像集距離算法(AHISD)和基于凸包的圖像集距離算法(CHISD)[13],稀疏近似最近鄰點(SANP) 算法[23],協(xié)方差判別學習算法(CDL)[14]。
表1給出了4種數(shù)據(jù)集條件下不同圖像集分類算法的識別結果??梢钥闯?,本文算法的性能優(yōu)于其他7種算法,尤其是對難度最大的Youtube人臉數(shù)據(jù)集,性能提升更為明顯。這是因為其他大多數(shù)算法均需要對圖像集合的表示做出一定假設,而這些假設對于難度較大的Youtube數(shù)據(jù)集可能并不成立。然而,本文算法不需任何假設,因此性能更優(yōu)。
表1 4種數(shù)據(jù)集下不同圖像集分類算法的識別率/%
(1) 與不同階統(tǒng)計特征的比較。比較了不同階統(tǒng)計特征的圖像集分類性能。對于每種階數(shù)的統(tǒng)計變量特征,利用了NN分類器進行圖像集分類。表2給出了不同階統(tǒng)計特征的分類率。可以發(fā)現(xiàn),三階統(tǒng)計變量特征的性能要優(yōu)于其他兩階統(tǒng)計變量特征的性能,因為三階統(tǒng)計特征對一階和二階統(tǒng)計信息進行了編碼。同時,一階和二階統(tǒng)計變量對三階統(tǒng)計變量具有補充作用。
表2 4種數(shù)據(jù)集下不同階統(tǒng)計變量特征的識別率/%
表3 不同數(shù)據(jù)集下不同多內(nèi)核指標學習算法的識別率/%
(3) 穩(wěn)健性分析。還評估了數(shù)據(jù)集含有帶噪數(shù)據(jù)時本文算法的穩(wěn)健性。對于帶噪數(shù)據(jù)問題,根據(jù)文獻[13-14]進行了3組實驗,通過使集合包含另一類別的一幅圖像來使gallery/probe集合人為遭受干擾。與文獻[14]類似,原始干凈數(shù)據(jù)及3個帶噪數(shù)據(jù)集分別稱為“干凈”數(shù)據(jù),“NG”數(shù)據(jù)(只有gallery集合含有帶噪數(shù)據(jù)),“NP”數(shù)據(jù)(只有probe集合含有帶噪數(shù)據(jù))。圖3給出了不同圖像集分類算法在數(shù)據(jù)帶噪情況下的識別率。從該圖中可以看出,本文算法的穩(wěn)健性均較高,算法性能只有少量下降。這是因為我們使用不同階統(tǒng)計變量特征來進行集合表示,而且這些特征相對于集合輪廓和集合中的樣本數(shù)量具有穩(wěn)健性。因此,帶噪樣本帶來的影響得到緩解。
(4) 參數(shù)分析。因為本文算法是迭代算法,所以我們評估了不同迭代次數(shù)下的算法性能。圖4給出了對于Youtube數(shù)據(jù)集,迭代次數(shù)不同時本文算法的識別精度??梢钥闯?,本文算法在不同迭代次數(shù)條件下性能穩(wěn)定。
圖3 數(shù)據(jù)帶噪情況下不同算法的識別率
圖4 本文算法對于Yoube數(shù)據(jù)集采用不同的迭代次數(shù)時的識別率
表4給出了不同數(shù)據(jù)集采用不同類型的內(nèi)核時本文算法的識別精度??梢钥闯?,本文算法的性能與內(nèi)核類型的選擇無關。
(5) 計算時間。最后,比較了不同的圖像集分類算法對Youtube數(shù)據(jù)集的計算復雜度。為了進行測試,我們給出了將1個probe圖像集與所有gallery圖像集進行匹配時的分類時間。實驗的硬件配置為2.8-GHz CPU,10GB RAM。表5給出了Matlab平臺下這些算法的訓練和測試時間??梢钥闯觯瑢τ诎―CC、MDA和本文算法在內(nèi)的區(qū)分性學習算法,只需要訓練時間??梢钥闯觯疚乃惴ǖ挠嬎銖碗s度總體來說要略高于其他算法。這是因為本文算法在進行圖像集合的表示時計算了多階統(tǒng)計變量特征,因此需要更多的代數(shù)運算,導致計算復雜度上升。
表4 不同數(shù)據(jù)集下不同多內(nèi)核指標學習算法的識別率對于多項式內(nèi)核,參數(shù)設置為2 /%
表5 不同算法對于Youtube數(shù)據(jù)集的訓練和測試計算時間(只對一個圖像集分類) /s
提出一種新的基于特征表示與學習的圖像集合分類算法。利用人臉識別和對象分類兩種分類場景對本文算法的性能進行了評估。基于4種常用數(shù)據(jù)集的實驗結果表明,本文算法在準確性和穩(wěn)健性方面的性能要優(yōu)于其他最新算法。在下步工作中,將設計更為高效的內(nèi)核計算方法以便提升本文算法的運行速度,同時利用更高階的統(tǒng)計特征并與本文中的這些特征相結合,以便進一步提升識別性能。
[1] Camps-Valls G, Tuia D, Bruzzone L,etal. Advances in hyperspectral image classification: Earth monitoring with statistical learning methods [J]. Signal Processing Magazine, IEEE, 2014, 31(1): 45-54.
[2] Cui Z, Shan S, Zhang H,etal. Image sets alignment for video-based face recognition[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012: 2626-2633.
[3] Hu Y, Mian A S, Owens R. Face recognition using sparse approximated nearest points between image sets [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(10): 1992-2004.
[4] Akata Z, Perronnin F, Harchaoui Z,etal. Good practice in large-scale learning for image classification [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(3): 507-520.
[5] Ji R, Gao Y, Hong R,etal. Spectral-spatial constraint hyperspectral image classification [J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(3): 1811-1824.
[6] Pasolli E, Melgani F, Tuia D,etal. SVM active learning approach for image classification using spatial information[J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(4): 2217-2233.
[7] 呂 煊, 王志成, 趙衛(wèi)東, 等. 一種基于低秩描述的圖像集分類方法[J]. 同濟大學學報(自然科學版), 2013, 41(2): 271-276.
[8] 陳 榮, 曹永鋒, 孫 洪. 基于主動學習和半監(jiān)督學習的多類圖像分類[J]. 自動化學報, 2011, 37(8): 954-962.
[9] 亓曉振, 王 慶. 一種基于稀疏編碼的多核學習圖像分類方法[J]. 電子學報, 2012, 40(4): 773-779.
[10] Kim T K, Kittler J, Cipolla R. Discriminative learning and recognition of image set classes using canonical correlations [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 29(6): 1005-1018.
[11] Wang R, Shan S, Chen X,etal. Manifold-manifold distance with application to face recognition based on image set[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Columbus, USA:IEEE, 2014: 1-8.
[12] Wang R, Chen X. Manifold discriminant analysis[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE, 2013: 429-436.
[13] Cevikalp H, Triggs B. Face recognition based on image sets[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco,USA:IEEE, 2010: 2567-2573.
[14] Wang R, Guo H, Davis L S,etal. Covariance discriminative learning: A natural and efficient approach to image set classification[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012: 2496-2503.
[15] G?nen M, Alpaydin E. Localized multiple kernel learning[C]//Proceedings of the 25th International Conference on Machine Learning. New York, USA: ACM, 2008: 352-359.
[16] Baudat G, Anouar F. Generalized discriminant analysis using a kernel approach [J]. Neural Computation, 2010, 12(10): 2385-2404.
[17] Lin Y Y, Liu T L, Fuh C S. Multiple kernel learning for dimensionality reduction [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2011, 33(6): 1147-1160.
[18] Lee K C, Ho J, Yang M H,etal. Video-based face recognition using probabilistic appearance manifolds[C]// Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Madison, USA:IEEE, 2003:313-320.
[19] Wang R, Shan S, Chen X,etal. Manifold-manifold distance with application to face recognition based on image set[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Anchorage, USA:IEEE, 2008: 1-8.
[20] Kim M, Kumar S, Pavlovic V,etal. Face tracking and recognition with visual constraints in real-world videos[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Anchorage, USA:IEEE, 2008: 1-8.
[21] Viola P, Jones M J. Robust real-time face detection [J]. International Journal of Computer Vision, 2004, 57(2): 137-154.
[22] Leibe B, Schiele B. Analyzing appearance and contour based methods for object categorization[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Madison, USA: IEEE, 2003:215-222.
[23] Hu Y, Mian A S, Owens R. Sparse approximated nearest points for image set classification[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Colorado Springs, USA:IEEE, 2011: 121-128.
[24] Lu J, Zhou X, Tan Y P,etal. Neighborhood repulsed metric learning for kinship verification [J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2014, 36(2): 331-345.
On Image Set Classification Algorithm Based on Feature Representation and Learning
LUYing-yu1,JINZhen2
(1. Ningbo Polytechnic, Ningbo 315800, China; 2. Ningbo Institute of Technology,Zhejiang University, Ningbo 315100, China)
Most existing image set classification methods usually need to make some prior assumptions. However, in many practical applications, these assumptions may not be held, especially when there are large and complex data variations within a set. Moreover, the models learned based on these assumptions may also lose some discriminative information for classification. To solve this problem, this paper proposes an image set classification method based on feature representation and learning. For each image set, we first compute its multiple order statistics as feature representation. For each order statistic, we compute a kernel matrix to measure the pairwise similarity of two image sets. Then, we learn a distance metric by using the localized multi-kernel metric learning method to combine the different order statistics. Lastly, the nearest neighbor classifier is used for classification. Experimental results on four widely used image set datasets are presented to show the efficacy of our proposed approach.
image set classification; multiple order statistics; feature representation; kernel matrix; nearest neighbor classifier
2015-07-10
盧瀅宇(1988-),女,浙江麗水人,碩士,助教,主要研究最優(yōu)化與控制理論。
Tel.: 15888005151; E-mail lyy_nbpt@sina.com
TP 391
A
1006-7167(2016)02-0128-07