李青彥,彭進(jìn)業(yè),2
(1.西北工業(yè)大學(xué)電子信息學(xué)院,西安 710072;2.西北大學(xué)信息科學(xué)與技術(shù)學(xué)院,西安 710127)
隨著衛(wèi)星遙感探測(cè)技術(shù)的發(fā)展,越來(lái)越多高分辨率空間遙感圖像需要進(jìn)行識(shí)別分類。探索建立準(zhǔn)確、高效的針對(duì)大規(guī)模圖像分類算法成為了近幾年圖像分類領(lǐng)域的研究熱點(diǎn)??臻g遙感圖像分類要求根據(jù)圖像的內(nèi)容進(jìn)行語(yǔ)義標(biāo)注,用于區(qū)分如:城市、森林、機(jī)場(chǎng)等不同自然場(chǎng)景。高分辨率空間遙感圖像存在圖像像素高,圖像特征提取復(fù)雜,圖像顯著特征不明顯等特點(diǎn)。同時(shí),遙感圖像像素普遍較高,特征表達(dá)維度較高,運(yùn)算難度大。為克服實(shí)際應(yīng)用中的種種不足,人們已做了大量的研究工作。在參考前人成果的基礎(chǔ)上,在此提出一種主成分降維圖像分類算法,以多尺度詞典的空間金字塔匹配核作為SVM 的核函數(shù),并使用PCA 方法進(jìn)行降維。算法在遙感圖像集 UMLU(UC Merced Land Use Dataset)上進(jìn)行了驗(yàn)證,和已有的部分算法進(jìn)行了對(duì)比,結(jié)果表明算法具有良好的可行性,有效提高了圖像分類精度。
文獻(xiàn)[1-3]將 BoW(Bag of words)、SPM(Spatial pyramid matching)及其衍生的圖像分類算法運(yùn)用在了空間遙感圖像集上,取得了很好的結(jié)果。文獻(xiàn)[3]較早將SPM 方法引入遙感圖像分類領(lǐng)域。文獻(xiàn)[1]提出了一種圖像特征無(wú)監(jiān)督表達(dá)學(xué)習(xí)方法來(lái)獲得圖像的多尺度特征,使用SPM 方法進(jìn)行聚類,并用SVM進(jìn)行圖像分類。文獻(xiàn)[2,4]分別提出了一種多尺度局部二值模式算子(MS-LBP,Multi-scale Local Binary Patterns descriptor) 和完全二值模式算子(CLBP,Completed Binary Patterns descriptor)進(jìn)行圖像特征提取,然后使用極限學(xué)習(xí)機(jī)(ELM,Extreme Learning Machine)進(jìn)行圖像分類。
為有效提高算法性能,對(duì)圖像特征降維同樣非常重要。文獻(xiàn)[5]重點(diǎn)討論了AIB 和DITC 兩種降維方法在圖像分類中的應(yīng)用,證明DITC 方法在不降低分類精度的同時(shí)能夠降低特征維度,運(yùn)算性能比AIB 更加高效。文獻(xiàn)[6]使用DITC 方法對(duì)SPM 圖像特征降維,獲得了很好的分類效果。文獻(xiàn)[7]提出了一種PCA-SIFT 方法,將主成分分析(PCA,Principle Component Analysis)的概念引入到圖像處理領(lǐng)域。文獻(xiàn)[8]提出了一種SPM-PCA 算法,利用主成分分析方法對(duì)SPM 圖像特征進(jìn)行降維,獲得了成功。
在圖像分類中,關(guān)鍵一步是選擇合適的分類算法,將提取出來(lái)的圖像特征分類。眾多分類算法中,支持向量機(jī)[9](SVM,Support vector machine)是運(yùn)用最廣泛的方法之一。使用SVM 進(jìn)行圖像分類最關(guān)鍵是核函數(shù)的選擇。所提算法的核心,即是利用多尺度詞典的空間金字塔匹配核作為SVM 的核函數(shù)。
算法過(guò)程可簡(jiǎn)單描述為如下四個(gè)步驟:
第一步,建立大小為M,2×M,...,N×M 的多尺度圖像詞典;
第二步,基于不同的圖像詞典,利用空間金字塔方法進(jìn)行特征提取,獲得圖像在不同詞典尺度的特征表達(dá):SPM(1),SPM(2),...,SPM(N);
第三步,求取圖像之間的多詞典空間金字塔匹配核函數(shù)MPMK,然后利用主成分分析進(jìn)行圖像特征降維,這一步是本算法的核心;
第四步,利用SVM 進(jìn)行分類計(jì)算。
K.Grauman 在2005年提出了金字塔匹配核函數(shù)[10](PMK,Pyramid match kernel),并將其應(yīng)用在圖像分類領(lǐng)域。假設(shè)在d 維空間中,X 和Y 分別代表兩個(gè)向量集,金字塔匹配核可以用來(lái)表示這兩個(gè)向量之間的近似度。金字塔匹配對(duì)特征空間進(jìn)行網(wǎng)格分割,分割密度逐層增加,并針對(duì)不同的分割密度賦予不同的權(quán)重值。在任一種分割密度條件下,如果兩個(gè)特征點(diǎn)落到了同個(gè)一格子,那么就說(shuō)這兩個(gè)點(diǎn)是相匹配的,并為較高密度的分割賦予較高的權(quán)值。例如,構(gòu)造級(jí)別分別為0~L-1 的L 個(gè)網(wǎng)格密度,那么在l 級(jí)別層上,每一維上被劃分成個(gè)格子,該層共計(jì)個(gè)單元格(cell),每層單元格個(gè)數(shù)L 層單元格個(gè)數(shù)總數(shù)可表示為下式:
具體到圖像處理中,每幅圖像均按照橫向或縱向2 個(gè)維度進(jìn)行分割,即d 取值為2。用表示X 和Y 的統(tǒng)計(jì)直方圖,那么分別代表在l 層X 類和Y 類落入第i 個(gè)網(wǎng)格單元格的特征點(diǎn)數(shù)量。則在第l 層的匹配函數(shù)可以用直方圖內(nèi)插函數(shù)表示,其表達(dá)式如下:
也就是說(shuō),上式以X 和Y 類落在l 層第i 個(gè)單元格的數(shù)量的最小值來(lái)表示其在l 層的匹配程度。很明顯,第l 層中的所有匹配點(diǎn)包含了l+1 層中找到的匹配點(diǎn),所以,當(dāng)計(jì)算l 層新發(fā)現(xiàn)的匹配點(diǎn)數(shù)量時(shí),要用來(lái)表示。因?yàn)樵谳^低層中,面積更大的單元格里包含更多的不同特征,所以l 層的權(quán)重設(shè)置為該值和該層網(wǎng)格的分割密度成正比,即分割密度越大,單元格越小,權(quán)重越高。
把每層匹配點(diǎn)數(shù)量乘以相應(yīng)權(quán)重然后求和,就得到金字塔匹配核PMK,如下式:
多詞典空間金字塔核即MPMK(Multi-scale PMK)。設(shè)初始詞典尺度為M,其余詞典尺度均為M 的整數(shù)倍,即得到詞典空間為 M、2×M、…、N×M,分別用 M1,M2,…,MN表示。設(shè)有圖像集X,其基于詞典M 的SPM 特征表示為SPM(X1,M),則圖像X1基于不同詞典獲得的特征可以表示為SPM(X1,n),n∈N。
很明顯,當(dāng)詞典尺度N=3 時(shí),圖像維度擴(kuò)充為原來(lái)的6 倍。當(dāng)詞典尺度M1=200,金字塔層級(jí)L=3時(shí),使用了MPMK 核函數(shù)的圖像維度從4200 維擴(kuò)充到了6×4200=25200 維。圖像特征維度大幅度增加要消耗大量的運(yùn)算資源,需要更多的計(jì)算時(shí)間,為此,采用PCA 方法對(duì)圖像特征進(jìn)行降維。
為保證圖像特征維數(shù)相同,以圖像集子類為單位進(jìn)行兩次PCA 降維操作。第一次PCA 操作目的在于比較貢獻(xiàn)率大于閾值的所有圖像的主成分維數(shù),尋找不同圖像集子類在空間金字塔為l 尺度下的最大維Nl,在保證所有圖像的顯著特征都能得到保留的情況下,使得算法所獲得的圖像特征維數(shù)保持統(tǒng)一,即為第二次PCA 操作是為求取維數(shù)的圖像轉(zhuǎn)化特征Ci。在試驗(yàn)中,當(dāng)貢獻(xiàn)率thresh 取值為100%時(shí),算法即還原成了原始方法。將此法應(yīng)用到MPMK 核函數(shù)中,算法過(guò)程如下:
算法1: MPMK 算法過(guò)程
Input:圖像集I,空間金字塔尺度L,視覺單詞數(shù)量M,詞典分辨率N
Output: MPMK 圖像特征表示C
For each image Iido
%提取圖像i 的DenseSIFT 描述子
Xi=denseSIFT(Ii)
End for
%獲得由M 個(gè)視覺單詞組成的視覺詞典
B=kmeans(X,M)
For each image Iido
%用PMK-SPM 方法對(duì)圖像進(jìn)行向量量化,獲取圖像特征表示
Hi=PMK-SPM(Xi,B,L,N)% Hi為矩陣
End for
For each image set I=[1,j]do
For n=[1,N-1]
%對(duì)圖像子類所有分辨率詞典進(jìn)行貢獻(xiàn)率為thresh 的PCA 操作
Hj(n)=PCA(n)([H1(n),H2(n),...,Hj(n)],thresh)
End for
P(n,j)=size(Hj(n))
End for
Pn=Max(P(n,j))
For each image Iido
For n∈[1,N-1]do %最小分辨率詞典(n=0)不進(jìn)行降維
Hi'(n)=PCA'(n)(Hi(n),Pn)%對(duì)所有圖像提取其前Pn維主成分
End for
End for
Ci=
實(shí)驗(yàn)在高分辨率數(shù)據(jù)集UC Merced Land Use dataset(UCML)上進(jìn)行,它由21 種陸地常用的類組成,包括:農(nóng)田、機(jī)場(chǎng)、棒球場(chǎng)、沙灘、樓房、灌木叢、密集住宅、森林、中密度住宅、高爾夫球場(chǎng)、船塢、交叉路口、高速公路、房車基地、立交橋、停車場(chǎng)、河流、機(jī)場(chǎng)跑道、稀疏住宅、儲(chǔ)存罐和網(wǎng)球場(chǎng)。每個(gè)圖像類包含100 幅圖像,圖像大小為256×256 像素。這個(gè)圖像集所有圖像均是真實(shí)的陸地場(chǎng)景圖像。每一類的樣本圖像如圖1所示。實(shí)驗(yàn)從每一個(gè)子類中隨機(jī)選取80 幅圖像用于訓(xùn)練,剩下的用于測(cè)試。
圖1 UCML 數(shù)據(jù)集
實(shí)驗(yàn)固定詞典初始尺寸M 為200,N 選取{1,2,3,4,5},PCA 閾值選取{97%,98%,99%,100%}。每次實(shí)驗(yàn)進(jìn)行10 次之后,取其平均值作為實(shí)驗(yàn)結(jié)果。所得到的分類精度和PCA 閾值關(guān)系如圖2。
圖2 圖像分類精度與PCA 閾值關(guān)系
實(shí)驗(yàn)中可以看出,隨著詞典尺度N 的增加,實(shí)驗(yàn)精度逐漸上升。N=4 時(shí),獲得最好分類精度;N=5時(shí)分類精度出現(xiàn)下降趨勢(shì)。隨著PCA 閾值的增加,分類精度呈現(xiàn)先升后降,當(dāng)閾值為98%時(shí),圖像的冗余特征得到了充分消除,獲得了最好的分類效果。
以UCML 作為實(shí)驗(yàn)集,將本算法與BoW、SPM、CLBP、PMK-SPM 算法分類效果進(jìn)行比較。各算法分類精度見表1。
表1 各算法在UCML 數(shù)據(jù)集上的分類效果
針對(duì)大規(guī)模圖像分類存在的特征維數(shù)高的特點(diǎn),所提出的這種基于空間金字塔的多尺度圖像詞典的特征降維算法MPMK,將采用不同尺度詞典的圖像空間金字塔特征融合起來(lái),通過(guò)兩次主成分分析方法實(shí)現(xiàn)降維,對(duì)MPMK 中的重要參數(shù)也進(jìn)行了驗(yàn)證。實(shí)驗(yàn)證明,在大規(guī)模遙感圖像集UCML 進(jìn)行驗(yàn)證時(shí),當(dāng)初始詞典大小為200,詞典尺度為4,PCA閾值為98%時(shí),算法獲得了最佳性能。通過(guò)與其他算法比較,該算法獲得了很好的分類結(jié)果。