馬忠麗,劉權(quán)勇,武凌羽,張長毛,王雷
圖像分類是視覺領(lǐng)域研究的重要內(nèi)容,基于表示的分類方法是圖像分類方法中一種重要的分類方法,對表示方法而言,將目標圖像恰當?shù)乇硎境鰜?,對于提高圖像分類的性能非常有幫助[1-3]。因此,在基于表示的圖像分類方法中,為圖像找到一種合適的表示方法是非常重要且有意義的。
圖像分類性能會受到很多因素的影響,其中的兩個主要問題是由光照引起的像素強度變化和小樣本問題。為解決光照問題帶來的影響,文獻[4]中提出光照補償方法克服Lambertian模型的局限性;文獻[2-3]通過對原始圖像進行處理來得到其虛擬圖像,減弱光照的影響,然后利用此互補圖像來提高圖像分類的準確率。為解決小樣本問題,文獻[5]通過提出基于虛擬樣本圖像的核協(xié)作表示分類方法來減小訓(xùn)練樣本不足對圖像分類帶來的影響;文獻[6]通過使用原始圖像和其對應(yīng)的鏡像圖像來克服小樣本問題的影響提高分類識別率。此外,文獻[7-8]的研究也表明,通過利用原始圖像相鄰列的像素得到虛擬圖像對提高圖像分類準確率非常有益。
傳統(tǒng)的表示分類方法能直接利用原始圖像來表示待測圖像,且能夠取得較為滿意的分類結(jié)果,然而這是在具有充足的訓(xùn)練樣本的前提下得到的結(jié)果,實際情況中經(jīng)常會遇到訓(xùn)練樣本不足(小樣本問題)的情況,這時就會影響表示分類的效果。文獻[2]雖然利用了虛擬圖像和原始圖像聯(lián)合進行分類,一定程度緩解了小樣本問題的影響,但是其得到的虛擬圖像沒有突出目標圖像的特征信息。此外,傳統(tǒng)的表示分類方法利用計算較為復(fù)雜的1范數(shù)進行求解,不利于實際應(yīng)用。針對此情況,文獻[9]提出的改進的表示方法利用2范數(shù)替代1范數(shù),并使用兩步策略得到了表示求解的快速實現(xiàn)。
針對以上問題以及原始圖像中較大或較小像素過多給圖像分類帶來不良影響的問題,本文提出一種新的圖像表示方法。本方法利用圖像中相鄰像素之間的聯(lián)系,通過簡單的數(shù)學(xué)方法將過大或過小像素轉(zhuǎn)化為包含有目標更多特征信息的中等強度像素得到虛擬圖像,然后同時在原始圖像和虛擬圖像上應(yīng)用分類方法,最后融合得分進行分類。與其他傳統(tǒng)方法相比,這種新的圖像表示方法不僅能提高圖像中等強度像素的占比,弱化光照變化帶來的影響,而且可以較好地利用原始圖像中相鄰像素的相關(guān)性的特點,提高目標特征的辨識度。此外,聯(lián)合方法還通過虛擬樣本增加樣本的數(shù)量,充分利用目標特征信息,提高了圖像分類識別的準確率。
常用的圖像表示方法有協(xié)作表示分類法(CRC)[10]和線性回歸分類(LRC)[11]以及SRC[12]方法中的l1正則化最小二乘法(l1_ls)[13]等。
假設(shè)數(shù)據(jù)集中總共有c類樣本,且每類樣本都有n個列向量形式的訓(xùn)練樣本。假設(shè)表示由第i類的訓(xùn)練樣本組成的矩陣,且Xi的每一列表示第i類的一個訓(xùn)練樣本,其中m表示數(shù)據(jù)集中圖像樣本的大??;假設(shè)數(shù)據(jù)集中總共有N個訓(xùn)練樣本,那么由所有訓(xùn)練樣本組成的矩陣為。假設(shè)y表示測試樣本。那么測試樣本y可以被近似地表示為
在SRC(l1_ls)中,為了獲得稀疏解,式(2)轉(zhuǎn)化為式(3)的最優(yōu)化問題:
再根據(jù)平切牛頓法[13]來求解式(5)即可得到稀疏解。
在CRC方法中是根據(jù)l2范數(shù)來求解式(2)的表示解的,所以式(2)可轉(zhuǎn)化為式(6)所示的最優(yōu)化問題:
SRC(l1_ls)和CRC方法在求解得到表示系數(shù)之后,分別計算測試樣本和每類由訓(xùn)練樣本和其表示系數(shù)構(gòu)成的重構(gòu)圖像之間的殘差:
那么測試樣本y就被分類到第k類。
LRC方法是用每一類訓(xùn)練樣本表示測試樣本:
求解式(10)得到表示系數(shù)為
最后再按照式(8)和式(9)分類測試樣本。
基于聯(lián)合表示的圖像分類方法主要包含兩個步驟:1)利用原始樣本得到其對應(yīng)的虛擬樣本;2)聯(lián)合原始樣本和其對應(yīng)的虛擬樣本進行分類。
令I(lǐng)表示原始灰度圖像,Iij表示I的第i行第j列的像素強度;v表示一幅灰度圖像中像素最大值,那么對于通常的灰度圖像則有。由原始樣本得到虛擬樣本的像素表達式如下:
式中:Jij表示得到的虛擬樣本J的第i行第j列的像素強度。由于得到的Jij遠大于v,因而在計算得到Jij之后對其采取規(guī)范化措施,使其值范圍處于灰度圖像的像素范圍內(nèi)。從得到虛擬圖像的定義知:
1)如果Iij很大,那么不論I(i+1)j的值是大還是小,計算得到的Jij都會很小;
2)如果Iij很小,那么Jij的值將會隨著I(i+1)j的值得變化而變化;而且當Iij與I(i+1)j相差非常大時,Jij會很大,這時將會突出顯示圖像邊緣信息;
3)如果Iij的值為中等大小,那么不論I(i+1)j的值是大還是小,計算得到的Jij的值也將會是中等大小。
在得到虛擬樣本之后,將表示分類方法分別應(yīng)用到原始樣本和虛擬樣本上,然后分別計算得到它們的測試樣本和重構(gòu)樣本之間的殘差。
1)將數(shù)據(jù)庫分為兩個子集,即訓(xùn)練樣本子集、測試樣本子集;
2)由式(12)計算得到兩個子集中所有原始樣本對應(yīng)的虛擬樣本,并將所有樣本轉(zhuǎn)換為單位列向量;
3)表示分類方法分別應(yīng)用到原始樣本和虛擬樣本中求得表示系數(shù)后,按照式(13)分別得到對應(yīng)的和;
4)由式(14)得到最后的聯(lián)合表示殘差;
5)由式(9)將測試樣本分類到具有最小殘差的類別。
在圖像分類中,可以利用所有圖像像素的子集代表圖像的主要特征來進行圖像分類[15-16]。通常一幅圖像的重要特征主要集中在中等強度像素區(qū)域[2],基于聯(lián)合表示的圖像分類方法正是基于上述思想進行圖像分類。
3.1.1 方法特點分析
1) 由(12)式得出的結(jié)論中可知,在得到的新的表示(虛擬樣本)中,中等強度像素區(qū)域?qū)黾樱怀诉吘墔^(qū)域之外,擁有非常大或小的像素區(qū)域在虛擬樣本中的值相對較小。
2) 由原始樣本得到虛擬樣本的過程是一個非線性變換過程。相比于通過線性變換得到的虛擬樣本,由非線性變換得到的虛擬樣本與其對應(yīng)的原始樣本有更多的互補性,即原始樣本和其虛擬樣本合在一起比它們之中任何一個單獨所包含的信息都要多。
3) 基于原始樣本和虛擬樣本的聯(lián)合表示來完成圖像分類時,可以通過式(14)中融合系數(shù)a的設(shè)置調(diào)整原始樣本和虛擬樣本的分類結(jié)果的可靠性。如:a值的設(shè)置較大時,原始樣本的分類結(jié)果比虛擬樣本的分類結(jié)果要可靠。
由于聯(lián)合表示的方法是先通過產(chǎn)生虛擬樣本,再聯(lián)合虛擬樣本與原始樣本進行表示目標圖像的,顯然,聯(lián)合表示的方法在算法的時間復(fù)雜度上和稀疏表示的復(fù)雜度相同,只是重復(fù)計算了圖像的殘差表示結(jié)果,因而使得計算時間比原始稀疏表示長。
3.1.2 方法合理性分析
以O(shè)RL數(shù)據(jù)庫[17]為例進行方法合理性分析。ORL數(shù)據(jù)庫包含來自40個人的總共400張圖像,其中每個人均有10張不同的圖像。數(shù)據(jù)庫的所有圖像均在不同時間、不同光照以及不同表情和細節(jié)(比如戴眼鏡和不戴眼鏡)下采集。圖像大小均為92×112。圖1中,第1行是ORL數(shù)據(jù)庫中第1類圖像的原始圖像;第2行是采用本文方法得到的對應(yīng)第1行的虛擬圖像;第3行采用文獻[2]方法得到的對應(yīng)第1行的虛擬圖像。
由圖1中圖像可以看出,雖然虛擬圖像與原始圖像直接相關(guān),但是它們之間存在明顯區(qū)別:本文方法得到的虛擬圖像比原始圖像對于光照細節(jié)的敏感度低,且在虛擬圖像重要特征處(示例中的是眼睛和嘴巴等)比原始圖像明顯,而利用文獻[2]方法得到的虛擬圖像則更多地反映出光照信息,且在圖像重要特征處的標示顯示的不明顯。由于原始圖像和虛擬圖像包含了同一類的不同方面的信息,因而同時使用它們能夠得到更好的識別效果。
圖1 原始圖像和利用本文方法以及文獻[2]中方法得到的對應(yīng)的虛擬圖像Fig. 1 The original images and their virtual images obtained by our method and the method proposed in literature [2]
ORL數(shù)據(jù)庫中第1類的第1幅原始圖像以及使用本文方法和文獻[2]方法得到的其虛擬圖像的灰度直方圖如圖2所示??梢钥闯霰疚姆椒ǖ玫教摂M圖像的過程是一個非線性變換過程。此外,圖2(b)和2(c)顯示本文方法得到的虛擬圖像的像素強度主要集中在中等強度區(qū)域,而文獻[2]得到的虛擬圖像的像素強度則主要偏向于高等強度區(qū)域。這說明在利用原始圖像像素方面,本文方法更為合理。
圖2 原始圖像和用不同方法得到的虛擬圖像的灰度直方圖Fig. 2 The gray histograms of the original image and virtual images obtained by using different methods
雖然單獨使用原始圖像或虛擬圖像進行分類可能得到滿意的結(jié)果,但若能夠?qū)⑺鼈兟?lián)合,識別率將得到明顯提升,這是因為如果一個來自原始圖像的測試圖像被分類錯誤,但其虛擬圖像對應(yīng)的測試樣本能夠被正確分類,則按照式(14)將兩種圖像融合之后,測試樣本也能被正確分類,識別率也更高;同樣,當虛擬圖像的測試樣本分類錯誤,而其對應(yīng)的原始圖像的測試樣本被正確分類時,按照式(14)的融合方法也能得到正確的分類結(jié)果。以O(shè)RL數(shù)據(jù)庫為例來驗證上述分析結(jié)果。
圖3顯示的是不同類別的重構(gòu)樣本與所有測試樣本之間的距離。
圖3 不同類別的重構(gòu)樣本與所有的測試樣本之間的距離Fig. 3 The distances between reconstitution samples of different classes and all test samples
圖3 (a)是在訓(xùn)練樣本數(shù)為8,測試樣本數(shù)為2的情況下得到的;圖3(b)是在訓(xùn)練樣本數(shù)為7,測試樣本數(shù)為3的情況下得到的。
在圖3(a)中,重構(gòu)圖像屬于第10類。在原始數(shù)據(jù)庫下,可以明顯看到第9個和第10個測試樣本(這兩個編號的測試樣本屬于第5類)下的距離最小,故在原始數(shù)據(jù)庫中,給出的測試樣本被識別為第5類,而事實上給出的測試樣本屬于第10類,所以在原始數(shù)據(jù)庫上分類錯誤;在虛擬數(shù)據(jù)庫下,第19個和第20個測試樣本(這兩個編號的測試樣本屬于第10類)下的距離最小,故在虛擬數(shù)據(jù)庫中,給出的測試樣本被識別為第10類,則分類正確;聯(lián)合方法得到的結(jié)果與在虛擬庫中得到的結(jié)果一致,因而最后的分類結(jié)果也是正確的。在圖3(b)中,重構(gòu)圖像屬于第31類。同理,在原始數(shù)據(jù)庫下,第31類的測試樣本被正確分類到第31類;在虛擬數(shù)據(jù)庫下,測試樣本被分類到第30類,分類錯誤;聯(lián)合分類方法最后也將測試樣本分類到第31類,即最后的結(jié)果也是正確的。
上述結(jié)果均表明,聯(lián)合使用原始樣本與虛擬樣本一起來進行分類,比使用單一樣本能夠獲得更好的分類結(jié)果。
為驗證聯(lián)合表示方法的優(yōu)良性能,分別在ORL數(shù)據(jù)庫、FERET 數(shù)據(jù)庫[18]、COIL-20 數(shù)據(jù)庫[19]和COIL-100數(shù)據(jù)庫[20]上進行測試,所結(jié)合的表示方法為CRC、SRC(l1_ls)和LRC算法,對比方法為文獻[2]所提出的方法。
FERET數(shù)據(jù)庫包含超過200人的圖像樣本,本文實驗中選取其中200個人的總計1 400張圖像樣本,其中每個人有7張不同的圖像。數(shù)據(jù)庫分別在不同光照和表情條件下,在相對正面人臉的±15°、±25°的條件下采集得到,圖像的大小均為40×40;COIL-20數(shù)據(jù)庫包含20個不同類別的物體圖像,每類物體每隔5°采集一幅圖像,每類物體包含72幅圖像,整個數(shù)據(jù)庫包含1 440張標準灰度圖像。本文實驗中挑選每類樣本中的18幅圖像共360幅圖像,圖像大小均為128×128;COIL-100數(shù)據(jù)庫和COIL-20數(shù)據(jù)庫類似,其中包含100個不同類別的物體的圖像,本文實驗中選擇方式同COIL-20數(shù)據(jù)庫,圖像大小均為128×128。圖4分別以這4種數(shù)據(jù)庫中的一類圖像作為代表展示了它們的特點。
圖4 種不同數(shù)據(jù)庫中的原始圖像Fig. 4 The original images of the different four databases
在本實驗中,對所有的數(shù)據(jù)庫,聯(lián)合表示方法在每類中均隨機挑選若干樣本作為訓(xùn)練樣本,剩下的為測試樣本,重復(fù)10次再取均值作為最終結(jié)果。對ORL數(shù)據(jù)庫,每類分別選取3~5個樣本作為訓(xùn)練樣本,剩下的樣本作為測試樣本,且對于CRC、SRC(l1_ls)和LRC 3種分類方法均設(shè)置,其實驗結(jié)果如表1所示。在表格中,L2M表示文獻[2]中提出的方法,下同。
表1 ORL數(shù)據(jù)庫上的不同方法的識別率Table 1 The classification rates of different methods on the ORL database %
對FERET數(shù)據(jù)庫,每類分別選取2~4個圖像作為訓(xùn)練樣本,每類剩下的樣本作為測試樣本,且對于CRC、SRC(l1_ls)和LRC 3種分類方法均設(shè)置,其實驗結(jié)果如表2所示。
表2 FERET數(shù)據(jù)庫上的不同算法的識別率Table 2 The classification rates of different methods on the FERET database %
對于COIL-20數(shù)據(jù)庫,每類分別選取7~9個樣本作為訓(xùn)練樣本,每類剩下的樣本作為測試樣本,且對于CRC分類算法設(shè)置,而對于SRC(l1_ls)和LRC分類算法均設(shè)置,其實驗結(jié)果如表3所示。
表3 COIL-20數(shù)據(jù)庫上的不同算法的識別率Table 3 The classification rates of different methods on the COIL-20 database %
對于COIL-100數(shù)據(jù)庫,每類分別選取5~7個圖像作為訓(xùn)練樣本,每類剩下的樣本作為測試樣本,且對于CRC分類算法設(shè)置,而對于SRC(l1_ls)和LRC分類算法均設(shè)置,其實驗結(jié)果如表4所示。
表4 COIL-100數(shù)據(jù)庫上的不同算法的識別率Table 4 The classification rates of different methods on the COIL-100 database %
在文獻[2]的方法中,使用常規(guī)方式選取訓(xùn)練樣本,即選取每類樣本中編號的前若干個樣本作為訓(xùn)練樣本,剩下的則作為測試樣本,則對于每一種訓(xùn)練樣本,利用文獻[2]中方法得出的實驗結(jié)果只有一個。從表1~4可以看出,本文方法與CRC方法、LRC方法和SRC(l1_ls)方法結(jié)合之后,其分類正確率有明顯提升。例如,對于ORL數(shù)據(jù)庫,當每類的訓(xùn)練樣本數(shù)為4時,單純使用CRC算法進行分類得到的平均識別率為93.00%,而本文方法與CRC算法結(jié)合后進行分類,其平均識別率提升到為94.58%;對于FERET數(shù)據(jù)庫,當每類的訓(xùn)練樣本數(shù)為4時,單純使用LRC方法分類得到的平均識別率為77.67%,而本文方法與LRC結(jié)合后進行分類時,其平均識別率提高到78.67%;對于COIL-100數(shù)據(jù)庫,當每類的訓(xùn)練樣本數(shù)為5時,單純使用SRC(l1_ls)方法進行分類平均識別率為54.77%,本文方法與SRC(l1_ls)方法結(jié)合后進行分類時,其平均識別率提升到為56.28%。另外,相比于同樣是使用虛擬樣本的文獻[2]的方法而言,在訓(xùn)練樣本數(shù)相同的情況下,除了少數(shù)情況以外,本文方法得到的識別率都比其高。這些都充分說明了本文方法對于提升表示分類方法識別率具有優(yōu)良性能。
針對圖像分類問題中的光照和小樣本問題,提出了一種新的圖像分類表示方法。這種方法能通過聯(lián)合原始樣本和虛擬樣本的信息來提升分類性能。這里得到的虛擬圖像不僅能夠有效地利用原始圖像中相鄰像素之間的信息,突出顯示目標的重要特征,且其對于光照信息不敏感。另外,由于同時利用了原始樣本和虛擬樣本,因而,其在增加訓(xùn)練樣本個數(shù),減小由小樣本問題帶來的影響方面也有幫助。本文方法還通過與其他表示分類方法相結(jié)合來提升該方法的分類效果。本文的方法的不足之處在于,不能自適應(yīng)地選取聯(lián)合系數(shù),因此,下一階段的工作就是找到一種方法,能夠自適應(yīng)地選取聯(lián)合系數(shù)來進行分類。
[1]CHEN Jie, SHAN Shiguang, HE Chu, et al. WLD: a robust local image descriptor[J]. IEEE transactions on pattern analysis and machine intelligence, 2010, 32(9): 1705–1720.
[2]XU Yong, ZHANG B, ZHONG Zuofeng. Multiple representations and sparse representation for image classification[J]. Pattern recognition letters, 2015, 68: 9–14.
[3]祝志遠, 張慶輝. 基于視覺感知的人體輪廓捕獲及自動調(diào)焦[J]. 應(yīng)用科技, 2016, 6(2): 50–53.ZHU Zhiyuan, ZHANG Qinghui. An auto focus method for capturing body contours based on visual perception[J]. Applied science and technology, 2016, 6(2): 50–53.
[4]JIAN M, LAM K M, DONG J. Illumination compensation and enhancement for face recognition[C]//Proceedings of Asia—Pacific Signal and Information Processing Association Annual Summit and Conference. Xi’an: APSIPA,2011.
[5]HUANG Wei, WANG Xiaohui, MA Yanbo, et al. Robust kernel collaborative representation for face recognition[J].Optical engineering, 2015, 54(5): 53103.
[6]XU Yong, LI Xuelong, YANG Jian, et al. Integrate the original face image and its mirror image for face recognition[J].Neurocomputing, 2014, 131: 191–199.
[7]PAYNE T, NICELY M C. Non-rectangular and/or non-orthogonal arrangement of gambling elements in a gaming apparatus[P]. US: US6241607, 2001.
[8]MA Zhongli, LIU Quanyong, HAO Liangliang. Multiple collaborative representations for face recognition[C]//Proceedings of 2016 IEEE International Conference on Mechatronics and Automation. Harbin, China: 2016: 1655–1660.[9]XU Yong, ZHANG D, YANG Jian, et al. A two-phase test sample sparse representation method for use with face recognition[J]. IEEE transactions on circuits and systems for video technology, 2011, 21(9): 1255–1262.
[10]ZHANG Lei, YANG Meng, FENG Xiangchun. Sparse representation or collaborative representation: which helps face recognition?[C]//Proceedings of 2011 International Conference on Computer Vision. Barcelona, Spain: IEEE,2011: 471–478.
[11]NASEEM I, TOGNERI R, BENNAMOUN M. Robust regression for face recognition[J]. Pattern recognition, 2012,45(1): 104–118.
[12]WRIGHT J, MA Yi, MAIRAL J, et al. Sparse representation for computer vision and pattern recognition[J]. Proceedings of the IEEE, 2010, 98(6): 1031–1044.
[13]KOH K, KIM S J, BOYD S. An interior-point method for large-scale l1-regularized logistic regression[J]. The journal of machine learning research, 2007, 8: 1519–1555.
[14]PORTUGAL L F, RESENDE M G C, VEIGA G, et al. A truncated primal-infeasible dual-feasible network interior point method[J]. Networks, 2000, 35(2): 91–108.
[15]SMIELIK I, KUHNERT K D. Statistical dependence of pixel intensities for pattern recognition[C]//IEEE International Conference on Industrial Technology. Cape Town,South Africa: IEEE, 2013: 1179–1183.
[16]吳鵬, 徐洪玲, 宋文龍. 結(jié)合小波金字塔的快速NCC圖像匹配算法[J]. 哈爾濱工程大學(xué)學(xué)報, 2017, 5(38):791–796.WU Peng, XU Hongling, SONG Wenlong. A fast NCC image matching algorithm based on wavelet pyramid search strategy[J]. Journal of harbin engineering university, 2017,5(38): 791–796.
[17]SAMARIA F S, HARTER A C. Parameterisation of a stochastic model for human face identification[C]//Proceedings of 1994 IEEE Workshop on Applications of Computer Vision. Sarasota, FL: IEEE, 1994: 138–142.
[18]PHILLIPS P J, MOON H, RIZVI S A, et al. The FERET evaluation methodology for face-recognition algorithms[J].IEEE transactions on pattern analysis and machine intelligence, 2000, 22(10): 1090–1104.
[19]NENE S A, NAYAR S K, MURASE H. Columbia object image library (COIL-20), CUCS-005-96[R]. 2011.
[20]NENE S A, NAYAR S K, MURASE H. Columbia object image library (COIL-100), CUCS-006-96[R]. Columbia:Columbia University, 1996.