孟欠欠,沈龍鳳,李曉,胡賀軍
(淮北師范大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽淮北235000)
圖像分類是計(jì)算機(jī)應(yīng)用研究領(lǐng)域的一項(xiàng)基礎(chǔ)研究,廣泛應(yīng)用于現(xiàn)實(shí)生活中,如圖像檢索、視頻監(jiān)控及疾病類別診斷等,具有重要的研究價(jià)值.對圖像表示方法的研究首先是基于低層特征的研究,如利用方向梯度直方圖(HOG)提取圖像的紋理特征[1],局部不變特征轉(zhuǎn)換(SIFT)提取局部特征[2],以及加速穩(wěn)健特征(SURF)方法進(jìn)一步學(xué)習(xí)局部描述子等[3].低層特征雖然分辨率更高,包含更多位置、細(xì)節(jié)信息,但其語義性更低,噪聲更多,很難高效地表示圖像.圖像的高層特征具有更強(qiáng)的語義信息,因而很多機(jī)器學(xué)習(xí)方法用圖像的高層表示,解決圖像分類問題.稀疏編碼作為一種經(jīng)典的圖像表示方法,能提取圖像的高層特征,提高量化準(zhǔn)確率[4].Gao等[5]提出的拉普拉斯編碼(LSC)在稀疏編碼基礎(chǔ)上引入拉普拉斯項(xiàng),有效改善了編碼的不穩(wěn)定性.Zheng等[6]將其擴(kuò)展為圖正則化稀疏編碼(GSC),保留了圖像特征的相似性.Long等[7]首次把遷移學(xué)習(xí)引入稀疏編碼,提出遷移稀疏編碼(TSC),挖掘域間共同特征,解決了跨域分類問題.以上編碼方法不斷改進(jìn),形成了成熟的特征表示方法.然而,在對圖像進(jìn)行分類時(shí),同類圖像在不同拍攝環(huán)境中,圖像內(nèi)容變化較大,學(xué)習(xí)的特征分布也不同,利用傳統(tǒng)的編碼方法學(xué)習(xí)編碼,得到的編碼無法抓取形態(tài)或定位對象,因而需要提取合適的局部特征表示圖像.K均值聚類[8]是比較經(jīng)典的局部特征提取方法,該方法主要通過K近鄰學(xué)習(xí)的方法實(shí)現(xiàn)對圖像局部特征的編碼,取得較好的分類效果.為更進(jìn)一步提高分類準(zhǔn)確率,很多研究學(xué)者將傳統(tǒng)特征編碼方法與編碼的局部性約束相結(jié)合,如Yu等[9]認(rèn)為局部性比稀疏性更重要,提出局部坐標(biāo)編碼(LCC);Wang等[10]將稀疏編碼與局部約束項(xiàng)相結(jié)合,提出局部線性編碼(LLC),不僅能保證編碼稀疏性還能保證重構(gòu)誤差最小化;Min等[11]在LLC基礎(chǔ)上加入拉普拉斯正則化項(xiàng),提出基于拉普拉斯正則化項(xiàng)的局部線性編碼算法(LapLLC),進(jìn)一步保證了編碼的魯棒性.然而以上方法需要源域與目標(biāo)域數(shù)據(jù)服從同一特征分布,無法處理跨域分類問題.基于此,本文將遷移稀疏編碼與局部約束項(xiàng)相結(jié)合,提出一種遷移局部線性編碼的跨域圖像表示方法.通過K均值聚類學(xué)習(xí)初始字典基,利用圖拉普拉斯正則化項(xiàng)保留數(shù)據(jù)集的幾何特征,同時(shí)考慮源域與目標(biāo)域的特征差異,實(shí)現(xiàn)源域到目標(biāo)域的遷移性學(xué)習(xí),解決跨域圖像分類問題.此外,方法利用局部約束項(xiàng)最小化特征的重構(gòu)編碼,使學(xué)習(xí)的編碼更具有局部平滑性和特征重構(gòu)性,提高了跨域分類效率.
傳統(tǒng)稀疏編碼主要由過完備字典基和編碼系數(shù)組成,雖然能夠提高量化的準(zhǔn)確率,卻忽略了特征之間的局部信息.為進(jìn)一步提取圖像的稀疏性局部特征,局部線性編碼將局部約束項(xiàng)引入到稀疏編碼特征公式中,最終目標(biāo)模型為
考慮到LLC編碼過程中沒有考慮圖像本身的幾何特征,相似的特征有可能會(huì)被編碼成不同的碼字,導(dǎo)致編碼不穩(wěn)定.為進(jìn)一步保證編碼的穩(wěn)定性,LapLLC在LLC基礎(chǔ)上引入拉普拉斯正則化項(xiàng),以保證編碼的一致性.其目標(biāo)模型為
式(2)中:tr(ZLZT)為拉普拉斯正則化項(xiàng),γ為拉普拉斯參數(shù),L為拉普拉斯矩陣,通過計(jì)算樣本局部特征的列差加權(quán)平方和來表示數(shù)據(jù)集的相似度,其計(jì)算公式為
式(3)中:W為樣本數(shù)據(jù)集的權(quán)值矩陣,D為度矩陣,且L=D-W.局部線性編碼和基于拉普拉斯正則化項(xiàng)的稀疏編碼均考慮了圖像特征的局部信息,在處理圖像分類時(shí)取得較好的量化效果.
然而,當(dāng)源域數(shù)據(jù)與目標(biāo)域數(shù)據(jù)不服從同一特征分布時(shí),會(huì)極大影響跨域圖像的分類精度,為進(jìn)一步解決該問題,學(xué)習(xí)更魯棒性和局部性的編碼特征,本文將遷移稀疏編碼與局部約束項(xiàng)相結(jié)合,在保留編碼局部性同時(shí)解決跨域分類問題.可以得到基于遷移局部線性約束編碼的圖像表示數(shù)學(xué)模型為
式(4)中:μ為均值差參數(shù),tr(ZMZT)為最大均值差項(xiàng),可用于實(shí)現(xiàn)源域到目標(biāo)域的特征遷移,本文采用源域與目標(biāo)域的一階矩差值進(jìn)行計(jì)算,公式為
式(5)中:M為數(shù)據(jù)域間距離,也稱之為最大均值差,有
本文模型主要包括兩個(gè)正則化項(xiàng)和一個(gè)局部約束項(xiàng),其中拉普拉斯正則化項(xiàng)和最大均值差正則化項(xiàng),分別用于保留數(shù)據(jù)集的幾何特征以及實(shí)現(xiàn)源域到目標(biāo)域的遷移性學(xué)習(xí);而局部約束項(xiàng),則用于保證編碼的局部平滑性和特征重構(gòu)性.
本文方法為保證編碼的局部性以及解決數(shù)據(jù)域特征分布不一致問題,將局部約束項(xiàng)和遷移稀疏編碼相結(jié)合,保證相似編碼局部平滑性和縮小數(shù)據(jù)域分布差異,使數(shù)據(jù)域樣本保留各自的內(nèi)部屬性,較好地解決了跨域圖像分類問題.先通過K均值聚類方法學(xué)習(xí)簇心個(gè)數(shù)為k的字典B0,然后將目標(biāo)模型轉(zhuǎn)化為如下兩個(gè)子問題的求解:編碼系數(shù)優(yōu)化與字典優(yōu)化,直至目標(biāo)函數(shù)收斂.算法流程圖見圖1.
圖1 LMLLC算法流程Fig.1 The algorithm flowchart of LMLLC
學(xué)習(xí)初始字典基后,為更新編碼系數(shù),需要固定字典B,最優(yōu)化編碼Z,目標(biāo)函數(shù)轉(zhuǎn)化為線性最小二乘優(yōu)化問題,利用特征符號搜索算法求解,優(yōu)化模型為
假定xi為單個(gè)樣本點(diǎn),zi為每個(gè)樣本點(diǎn)的待編碼特征,此時(shí)目標(biāo)模型公式(7)可改為
因僅考慮待編碼特征zi的最優(yōu)化問題,為求解方便,同時(shí)避免梯度下降時(shí)函數(shù)不收斂,將公式(9)轉(zhuǎn)化為
字典優(yōu)化問題等價(jià)等價(jià)于固定編碼A,相應(yīng)的優(yōu)化模型轉(zhuǎn)化為
式(12)是一個(gè)帶二次約束的最小二乘問題.一般來說,這種約束優(yōu)化問題可通過迭代投影的梯度下降法解決.為更有效求解,根據(jù)文獻(xiàn)[4]將式(12)轉(zhuǎn)化為拉格朗日對偶問題,得到
首先介紹5個(gè)標(biāo)準(zhǔn)的圖像數(shù)據(jù)集,包括Amazon、Caltech-256、Webcam、USPS和MNIST等數(shù)據(jù)集[12].其中Amazon包含958幅圖像,Caltech包含1 123幅圖像,Webcam包含295幅圖像,實(shí)驗(yàn)在3個(gè)數(shù)據(jù)集中隨機(jī)抽取10類,把每幅圖像表示成800維向量.從MNIST數(shù)據(jù)集和USPS數(shù)據(jù)集中隨機(jī)抽取2 000和1 800幅圖像,共10類,把每幅圖像表示為256維的向量.通過處理共定義3個(gè)跨域分類任務(wù):Amazon vs Caltech、Amazon vs Webcam和USPS vs MNIST,本文實(shí)驗(yàn)主要在這3個(gè)跨域圖像數(shù)據(jù)集上進(jìn)行.每個(gè)分類任務(wù)中前者作為有標(biāo)記訓(xùn)練集,后者作為無標(biāo)記測試集.
本文所提的遷移局部約束線性編碼方法主要包括兩個(gè)過程:字典優(yōu)化和編碼優(yōu)化,兩者交替迭代直至目標(biāo)模型收斂.對于字典的優(yōu)化學(xué)習(xí),利用K均值聚類學(xué)習(xí)初始字典基,此時(shí)設(shè)置簇心個(gè)數(shù)K=128,即固定字典的尺寸為128;在編碼優(yōu)化模型中的涉及的3個(gè)參數(shù)μ,γ,λ統(tǒng)一設(shè)置為μ=1×105,γ=1,λ=0.01;對于實(shí)驗(yàn)迭代次數(shù)NT,將其值NT=10.在對比實(shí)驗(yàn)選擇中,將本文提出的方法與LR方法、PCA方法、SC方法、GSC方法、TSC方法、LLC方法和LapLLC方法等6種經(jīng)典的圖像表示方法進(jìn)行對比,并將平均分類精度作為評價(jià)標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如表1所示.
表1 平均分類精度Tab.1 The average classification accuracy %
與傳統(tǒng)編碼方法僅考慮圖像的稀疏性不同,本文方法主要考慮編碼的局部性,由表1中可以看出,LLC方法比SC的平均分類精度高3.65個(gè)百分點(diǎn),LapLLC比GSC高出3.37個(gè)百分點(diǎn),均表明編碼的局部性比稀疏性更重要.究其原因,編碼的局部性不僅能保證稀疏性,亦能保證編碼的局部平滑性,生成的圖像表示更具代表性.為了驗(yàn)證拉普拉斯正則化項(xiàng)對分類精度影響,在表1中,GSC的平均分類精度比SC的平均分類精度高2.52個(gè)百分點(diǎn),而LapLLC比LLC高出2.24個(gè)百分點(diǎn),都表明圖拉普拉斯正則化項(xiàng)重要意義,該正則化項(xiàng)能保留數(shù)據(jù)集的幾何內(nèi)蘊(yùn)結(jié)構(gòu),一定程度上改善改善了編碼的不穩(wěn)定性,從而提高了圖像的分類精度.此外,TSC和LMLLC的平均分類精度比GSC和LapLLC分別高4.56個(gè)百分點(diǎn)和4.99個(gè)百分點(diǎn),主要因?yàn)樽畲缶挡铐?xiàng)能實(shí)現(xiàn)源域到目標(biāo)域的遷移學(xué)習(xí),解決數(shù)據(jù)域特征分布不一致的問題,從而有效提高跨域分類精度.
在3個(gè)跨域圖像數(shù)據(jù)集上,本文提出的LMLLC方法的平均分類精度比其他6種對比方法的分類精度高.分析其原因,本文LMLLC方法中既考慮了域間分布差異和圖像幾何特征,又引入了局部線性約束,使學(xué)習(xí)的編碼具有局部平滑性和更強(qiáng)的魯棒性,最終提高了跨域圖像分類精度.
為進(jìn)一步驗(yàn)證圖拉普拉斯參數(shù)γ、遷移性參數(shù)μ和局部性參數(shù)λ對跨域分類精度的影響,本文對這3個(gè)參數(shù)分別取不同值并記錄其對圖像分類精度的影響,如圖2至圖4所示.為驗(yàn)證迭代次數(shù)對目標(biāo)函數(shù)的收斂度的影響,取NT=20,觀察其對目標(biāo)函數(shù)的影響,如圖5所示.
對于圖正則化參數(shù) γ,設(shè)置 K=128,μ=1×105,λ=0.01,將 γ 分別取 0、0.01、0.1、1、10 和 100,觀察其分類精度對分類效果的影響,結(jié)果如圖2所示.可以看到在γ取[0.1,1]時(shí)分類效果較好,而在?。?.1或>10的值時(shí)效果較差,主要是因?yàn)閳D正則化參數(shù)用于控制圖像的幾何特征,γ過小或過大均會(huì)影響圖像的分類精度.
圖2 正則化參數(shù)γ對分類精度的影響Fig.2 Influence of regularization parameters on classification accuracy
對于遷移性參數(shù),設(shè)置K=128,γ=1,=0.01,結(jié)果如圖3所示.可以發(fā)現(xiàn)μ取1×105時(shí)具有較好的分類效果;μ趨向于0時(shí),即不考慮兩域的分布差異,會(huì)導(dǎo)致分類精度降低;μ取值過大時(shí),會(huì)忽略特征的幾何特征和局部性,亦會(huì)導(dǎo)致分類精度的下降.
圖3 遷移性參數(shù)μ對分類精度的影響Fig.3 Influence of transfer parameters on classification accuracy
對于稀疏性參數(shù)λ,固定K=128,μ=1×105,γ=1,實(shí)驗(yàn)結(jié)果如圖4所示.可以發(fā)現(xiàn)在λ取0.01和0.1時(shí)分類效果較好;該參數(shù)主要用于控制編碼的局部性特征,λ過小,忽略圖像的局部性信息;λ過大,會(huì)導(dǎo)致編碼中零向量增多,這些情況均會(huì)影響圖像的分類精度.
圖4 局部性性參數(shù)λ對分類精度的影響Fig.4 Influence of local parameters on classification accuracy
同時(shí)為了檢驗(yàn)迭代次數(shù)對目標(biāo)模型的收斂度的影響,設(shè)NT=20,觀察目標(biāo)函數(shù)收斂值的變化趨勢,可以發(fā)現(xiàn)目標(biāo)模型是逐漸收斂的,如圖5所示,表明了本文方法的有效性和可行性.
圖5 迭代次數(shù)NT對目標(biāo)函數(shù)收斂度的影響Fig.5 Influence of iteration times on convergence of objective function
本文提出一種遷移局部線性編碼的圖像表示方法,該方法將遷移稀疏編碼與局部約束項(xiàng)相結(jié)合,保留數(shù)據(jù)域的幾何特征和最小化域間分布差異,且進(jìn)一步引入編碼的局部約束項(xiàng),將樣本集映射到本地坐標(biāo)系中以最小化特征的重構(gòu)編碼,學(xué)習(xí)更具代表性的圖像表示,保證了編碼的局部平滑性和良好的特征重構(gòu)性,進(jìn)一步提高了跨域圖像分類精度.在目標(biāo)模型的求解上,本文利用特征符號搜索法和拉格朗日乘子法分別求解稀疏局部編碼和字典基.在三個(gè)跨域圖像數(shù)據(jù)集USPS vs MNIST、Amazon vs Webcam和Amazon vs Caltech上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了本文方法的有效性.