王 莉,龔文輝,李沁穎
(1.南昌交通學(xué)院,江西 南昌 330100;2.江西農(nóng)業(yè)大學(xué)南昌商學(xué)院,江西 共青城 332020;3.江西師范大學(xué),江西 南昌 330022)
建立有效的自然圖像生成模型是計算機視覺中的關(guān)鍵問題之一,其目的是通過根據(jù)潛在的自然圖像分布來改變一些潛在參數(shù),從而生成各種逼真的圖像[1]。因此,需要一個理想的分類識別模型來捕獲基礎(chǔ)數(shù)據(jù)分布。但是細粒度圖像樣本的集合可能位于非常復(fù)雜的流形上,分類識別實現(xiàn)過程存在一定困難[2],是現(xiàn)今圖像處理領(lǐng)域的研究重點。
關(guān)于細粒度圖像分類,汪榮貴等[3]提出一種深度遷移學(xué)習(xí)模型,將大規(guī)模有標簽細粒度數(shù)據(jù)集上學(xué)習(xí)到的圖像特征有效地遷移至微型細粒度數(shù)據(jù)集中。通過銜接域定量計算域間任務(wù)的關(guān)聯(lián)度;根據(jù)關(guān)聯(lián)度選擇適合目標域的遷移特征;使用細粒度數(shù)據(jù)集視圖類標簽進行輔助學(xué)習(xí),采用聯(lián)合學(xué)習(xí)所有屬性來獲取更多的特征表示。但該方法遷移過程速率緩慢,計算效率有待優(yōu)化。袁建平等[4]設(shè)計一個端到端的分類模型來解決細粒度圖像分類問題,使用深度卷積神經(jīng)網(wǎng)絡(luò)獲取圖像視覺特征,并依據(jù)提出的端到端文本識別網(wǎng)絡(luò),提取圖像的文本信息,使用相關(guān)性計算模塊合并視覺特征與文本特征,傳輸至分類網(wǎng)絡(luò)中。但該方法特征提取精度有待完善。
由此文章提出一種基于約束稀疏表達的細粒度圖像分類識別方法。通過圖像預(yù)處理防止無關(guān)信息干擾,提升分類效率,代入分布結(jié)構(gòu)約束項構(gòu)建約束稀疏表達分類模型,采用交替方向乘子法實施模型求解,獲得高質(zhì)量圖像分類識別結(jié)果。
為節(jié)省細粒度圖像分類識別時間,利用在線硬示例挖掘(Online Hard Example Mining,OHEM)篩選對識別影響結(jié)果較多的信息,并預(yù)防無關(guān)數(shù)據(jù)的侵擾。在區(qū)域建議網(wǎng)絡(luò)中輸入一張待分類圖像,輸出置信度序列前N個目標可能存在的范圍。OHEM擁有兩個不同的感興趣區(qū)域網(wǎng)絡(luò)。左側(cè)的感興趣區(qū)域網(wǎng)絡(luò)僅負責前向傳播推導(dǎo)誤差,右側(cè)的感興趣區(qū)域網(wǎng)絡(luò)從左側(cè)網(wǎng)絡(luò)中通過誤差排序[5],挑選誤差最高的樣本當作右側(cè)網(wǎng)絡(luò)輸入。設(shè)定區(qū)域建議網(wǎng)絡(luò)輸出的矩形目標框是Di,其相對得分的推算過程為
(1)
式(1)中,Si表示重疊框相交的面積,S是重疊框的并集面積。非最大抑制算法是區(qū)域建議網(wǎng)絡(luò)內(nèi)最關(guān)鍵的構(gòu)成部分。區(qū)域建議網(wǎng)絡(luò)輸出一系列檢測框Di的相對的分數(shù)fi。非最大抑制算法要設(shè)定一個常數(shù)閾值τ,若檢測框得分高于閾值τ,則把它安放在最終的檢測結(jié)果集合E中。與此同時,集合E內(nèi)所有和檢測框的重疊部分高于重疊閾值τ的檢測框會被強制歸零并刪除[6-7]。在相近的檢測框分數(shù)都被強制歸零后,假如實際物體在重疊范圍出現(xiàn),會致使對此物體的檢測失敗,同時會降低圖像分類識別精度。
不將高于閾值的相近目標框得分設(shè)定成0,而是乘以某個衰減函數(shù),這樣就能降低假陰性幾率,剔除對圖像識別具有干擾性的信息。計算過程為
(2)
如果擁有b個類型的訓(xùn)練樣本圖像,將其描述成如下兩種形式
Bi=[bi1,bi2,…,bij]∈Km
(3)
B=[b1,b2,…,bA]∈Km×ni
(4)
式(3)、(4)均為是第i類訓(xùn)練樣本圖像矢量組成的矩陣,式(3)中bij∈Km代表第i類第j個訓(xùn)練樣本圖像矢量。m是訓(xùn)練樣本圖像矢量維數(shù)。式(4)中A是訓(xùn)練樣本圖像類型個數(shù),ni是第i類訓(xùn)練樣本數(shù)量。
設(shè)定矩陣B是字典,將待分類樣本圖像矢量e使用字典B表示,得到e=Bo。o是待分類樣本圖像矢量e在字典B下的表達系數(shù)矢量。在稀疏表達方法中,檢測樣本圖像矢量e可通過和自身相同類型的訓(xùn)練樣本圖像矢量進行表述,并在樣本圖像充足狀況下[8],e在B下呈現(xiàn)出稀疏表達形式,稀疏性越高,越有助于圖像分類識別處理。
(5)
class(e)=argminiti(e)
(6)
在實際操作中,圖像分類識別通常包括光照、姿態(tài)與遮擋等偏差,并極有可能被噪聲污染。所以稀疏表達在字典內(nèi)代入單位陣I∈Km×m來闡明圖像偏差及噪聲。將式(5)的l1-范式最優(yōu)化問題轉(zhuǎn)變成
(7)
同樣利用式(8)算出e的類關(guān)聯(lián)重構(gòu)偏差,對圖像矢量e進行分類識別。
(8)
上述過程為常用的稀疏表達圖像分類識別手段,由于分布結(jié)構(gòu)[9]是精準分類圖像的先決條件,為此文章將分布結(jié)構(gòu)當作稀疏表達最小優(yōu)化式中的約束項,并構(gòu)建細粒度圖像分類識別模型。運算流程如圖1所示。
圖1 分布結(jié)構(gòu)約束稀疏表達下的分類識別流程
采用原始訓(xùn)練樣本數(shù)據(jù)當作碼書時,會存在一定數(shù)量的噪聲信息。為防止該降低圖像的噪聲,在約束稀疏表達下提取圖像的方向梯度圖,這樣就等同于對圖像實施濾波處理,不但能去除噪聲,還能明確圖像局部內(nèi)容,將圖像表示為直方圖特征矢量。
直方圖交叉能衡量圖像直方圖特征相似性。把圖像的分布結(jié)構(gòu)利用圖像之間的相似矩陣W進行描述,Wi,j是W的i行j列的因子,將其記作
(9)
式(9)中,D表示圖像直方圖特征維數(shù),Hi表示第i個圖像的直方圖特征,Hi與Hj是最接近的鄰域。挑選各圖像的6個最近領(lǐng)域產(chǎn)生圖像樣本的相似矩陣,此矩陣能呈現(xiàn)出圖像樣本的分布結(jié)構(gòu)信息,明確相似圖像樣本之間的耦合關(guān)聯(lián)。對圖像進行分類識別就要按照訓(xùn)練樣本的分布結(jié)構(gòu)相似程度確立樣本類標記的從屬性[10],由此證明了分布結(jié)構(gòu)約束項對圖像分類識別具有至關(guān)重要的現(xiàn)實意義。
在分布結(jié)構(gòu)約束項基礎(chǔ)上,組建全新的約束稀疏表達模型,針對待檢測樣本y,基于約束稀疏表達的圖像分類是運用l1-范式約束與編碼保持樣本分布結(jié)構(gòu)約束下,讓編碼誤差為最低,利用訓(xùn)練樣本集X對y編碼,得到最優(yōu)編碼系數(shù)為
(10)
式(10)中,αi與αj是α內(nèi)的隨機系數(shù),Wi,j是訓(xùn)練樣本的分布結(jié)構(gòu),將分布結(jié)構(gòu)信息儲存于稀疏編碼系數(shù)內(nèi)。構(gòu)建式(10)的前提是創(chuàng)建檢測樣本的訓(xùn)練樣本線性系數(shù)表征模型y=Xα。按照拉普拉斯矩陣特征,將式(10)等效記作
(11)
式(11)中
L=D-W
(12)
D=∑iWi,j
(13)
將式(11)變換最終式(14),即可獲得圖像分類識別模型的最終形式
(14)
式(14)中
S(α)=(y-Xα)2+βL
(15)
交替方向乘子法是一種處理可分離凸規(guī)劃問題的方法,擁有迭代形式簡便、儲存量小和高效率等獨特優(yōu)勢。交替方向乘子法能把原有問題的目標函數(shù)等價分解成多個容易探尋的局部解子問題實施交替分析,迭代獲得問題全局最優(yōu)解,文章利用該算法完成細粒度圖像分類識別模型求解任務(wù)。構(gòu)建相似度衡量函數(shù)。圖像分類識別就是對不同的環(huán)境下的圖像目標進行關(guān)聯(lián),匹配相等的內(nèi)容。設(shè)計一種度量學(xué)習(xí)方法(keep it simple and straightforward metric,KISSME)方法,針對固定圖像對(p,q),將其特征記作(up,uq),則圖像相似度計算公式為
(16)
式(16)中,Vs(up,uq)代表(p,q)從屬相關(guān)圖像對的幾率,Vd(up,uq)代表(p,q)不屬于相關(guān)圖像對的幾率。使用全局與局部相融合手段獲得最終相似度函數(shù),將局部與全局相似度依次記作
(17)
(18)
局部相似度函數(shù)與全局相似度函數(shù)的總和即為最終的相似度函數(shù)
δ(li,lj)=δlocal(li,lj)+γδglobal(li,lj)
(19)
式(19)中,γ表示調(diào)整局部與全局相似度函數(shù)的超參。利用式(19)構(gòu)建正則化測度矩陣,得到
(20)
式(20)中
(21)
將圖像分類識別問題等效為排序問題,若兩個圖像是相同內(nèi)容能獲得更多的分數(shù)提高排名,組建三元損失函數(shù)
(22)
ltriplet(ln,li,lj)=[δ(ln,li)-δ(ln,lj)+α]
(23)
按照式(20)與式(22)獲得圖像分類識別目標函數(shù)
c=1,…,C;r=1,…,R
(24)
(25)
(26)
(27)
(28)
由此可知,一次迭代共分為四部分:首先計算和U1有關(guān)的最小化問題,更新變量U1,再算和U2有關(guān)的最小化問題,更新變量U2,計算和U3有關(guān)的最小化問題,更新變量U3,最終更新兩個對偶變量Λ1、Λ2,完成精準的圖像分類識別目標。
以人臉細粒度圖像作為分類目標,在FaceScrub人臉數(shù)據(jù)庫上進行實驗,證明所提方法可靠性。挑選人臉數(shù)據(jù)庫內(nèi)的50人,每人擁有5張不同表情、光照等變化的正臉圖像。圖像大小從初始160×115像素剪裁成60×50像素。.并設(shè)定常數(shù)閾值τ為127,配置Intel core i7 5960X 型號CPU,32 G內(nèi)存,及RX5950XT 型號顯卡的工作站。
為了驗證所研究方法的分類識別的效果,隨機選取上文數(shù)據(jù)庫中的三幅不同人臉、不同表情的人臉圖像。將所研究方法與文獻[3](基于深度遷移學(xué)習(xí)的微型細粒度圖像分類)和文獻[4](基于文本與視覺信息的細粒度圖像分類)進行對比仿真,測試三種方法的分類如圖2所示。
圖2 人臉細粒度圖像分類識別結(jié)果
由圖2可知,文獻[3]方法的分類結(jié)果失去了多樣性和結(jié)構(gòu)信息,文獻[4]方法的分類結(jié)果同樣丟失了結(jié)構(gòu)信息,而所研究結(jié)果,顯示了現(xiàn)實,多樣化和類別保持的結(jié)果。因為所研究方法在約束稀疏表達下提取圖像的方向梯度圖,從而保證了圖像分類識別結(jié)構(gòu)的完整性。
為了驗證在不同光照環(huán)境下所研究方法的分類識別性能,將所研究方法與文獻[3]和文獻[4]進行對比仿真實驗,為進一步明確不同實驗環(huán)境下三種方法的分類識別性能,將圖像分為三組,每組50幅圖像:正面無表情及光照改變的圖像(1組)、只有表情變化的圖像(2組)和只有光照改變的圖像(3組),測試結(jié)果如表1所示。
表1 三種方法的峰值信噪比與分類時間對比
從表1可知,所研究方法分類后的峰值信噪比高于對比的兩種文獻方法,峰值信噪比越高說明圖像質(zhì)量越好,其平均峰值信噪比為28.9,說明分類的圖像質(zhì)量較高。圖像分類時間上所研究方法遠低于對比的其他兩種方法,平均分類時間為5.71s。這是因為所研究方法在稀疏表達中引入了分布結(jié)構(gòu)約束項,并在圖像預(yù)處理階段運用在線硬示例挖掘方法將檢測樣本中的干擾信息剔除,提高了方法分類識別能力與效率。
針對細粒度圖像分類識別精度不高、計算繁瑣等問題,提出基于約束稀疏表達的細粒度圖像分類識別方法。該方法運算簡便、有效處理稀疏編碼分布結(jié)構(gòu)缺失問題,分類后的圖像質(zhì)量得到顯著提升,擁有廣闊的應(yīng)用前景。但在圖像預(yù)處理過程中,對不同子類差異特征的提取能力有待增強,這也是后續(xù)研究的關(guān)鍵內(nèi)容。