, ,, ,,
(1.長江科學(xué)院 水土保持研究所,武漢 430010;2.長江水利委員會 網(wǎng)絡(luò)與信息中心,武漢 430010;3.武漢大學(xué) 測繪遙感信息工程國家重點實驗室,武漢 430079)
隨著航空航天和傳感器技術(shù)的高速發(fā)展,高分辨率遙感影像的數(shù)量正呈現(xiàn)幾何級數(shù)增長。但實際上,在這個遙感數(shù)據(jù)泛濫的時代,多源海量遙感數(shù)據(jù)的利用率極其低下,從中獲得并使用的信息更少[1]。美國議會曾指責(zé)NASA:“迄今積累的遙感數(shù)據(jù),有95%就從來沒有人看過”[2]。通過分析遙感數(shù)據(jù)的應(yīng)用現(xiàn)狀,不難發(fā)現(xiàn)其中的2個關(guān)鍵原因:①對高分辨率遙感數(shù)據(jù)的信息提取不足;②對高分辨率遙感數(shù)據(jù)的檢索能力不足。
傳統(tǒng)遙感影像一般基于人工標(biāo)注、遙感影像元數(shù)據(jù)或基本內(nèi)容(如顏色、形狀、紋理等)進(jìn)行檢索的。其中,人工標(biāo)注非常耗費時間和人力,遙感影像元數(shù)據(jù)對內(nèi)容信息描述太粗略,基于基本內(nèi)容多以統(tǒng)計方式為主,對遙感影像的細(xì)節(jié)信息考慮不足。同時,以上方法都沒考慮語義信息,無法應(yīng)對高分辨率遙感影像的海量地物類型及其復(fù)雜關(guān)系。為了在一定程度上解決以上問題,本文擬借鑒文本信息檢索思想,引入計算機視覺領(lǐng)域的視覺特征和自然語言處理領(lǐng)域的概率主題模型,提出一種基于LDA的高分辨率遙感影像檢索方法。
在自然語言處理領(lǐng)域中,有2個經(jīng)典問題:一義多詞(synonymy)和一詞多義(polysemy)問題[3]。為了解決這2個問題,研究者們先后提出了潛在語義分析(Latent Semantic Analysis,LSA)[4]、概率潛在語義分析(Probabilistic Latent Sematic Analysis,PLSA)[5]和Latent Dirichlet Allocation(LDA)[6]等多種模型,并探索性地開創(chuàng)了一個新的語義學(xué)分支——概率主題模型(Probabilistic Topic Models)[7]。
LDA是當(dāng)前概率主題模型領(lǐng)域理論基礎(chǔ)最扎實和研究最廣泛的模型。它不僅能很好地解決一義多詞和一詞多義的問題,具有穩(wěn)實的統(tǒng)計學(xué)基礎(chǔ),更重要的是它引入最符合自然規(guī)律的概率分布——狄里克雷分布(Dirichlet Distribution),來描述文檔集的生成概率,具備較好的擴展性。
LDA本質(zhì)上是一個3層貝葉斯模型。它通過基于概率的有限混合組織詞項、主題和文檔3個層次。每個文檔可以表示為多個主題的有限概率混合,而每個主題對應(yīng)于詞匯表上的一個多項式分布,主題被文檔集中的所有文檔所共享。基于LDA的文檔集生成過程如下。
假定文檔集D中的文檔W的生成過程為:
(1) 選擇文檔字?jǐn)?shù)N,N~Possion(ξ),即文檔的長度。
(2) 選擇θ,θ~Dir(α),θ是一個列向量,表示主題發(fā)生的概率。
(3) 對于所選的N個詞項中的每一個詞項wn有:①選擇一個主題zn,zn~Multinomial(θ),即當(dāng)前選中的主題;②根據(jù)概率p(wn|zn,β),選擇一個詞項wn,其中p(wn|zn,β)是在主題zn條件下的一個多項式概率。
假設(shè)主題個數(shù)為K,詞匯表大小為V,那么上式中,β是一個K×V的矩陣,βij=p(wj=1|zi=1),即第i個主題條件下生成第j個詞項的概率。
若采用模型描述,LDA的圖模型如圖1所示。其中,空心圓表示潛在變量,而實心圓表示觀察變量;2個矩形框表示重復(fù)過程。內(nèi)矩形表示文檔中的N個詞項從以β為參數(shù)的多項式分布生成的過程,外矩形表示文檔集中的M個文檔中的主題從以α為參數(shù)的狄里克雷分布生成的過程。
圖1 LDA圖模型[6]
圖1中,α和β是文檔集級的參數(shù),在生成1個文檔集過程中只需要采樣1次;θd是文檔級的變量,每個文檔需采樣1次;wdn和zdn是詞項級的變量,對每個文檔中的每個詞項都要采樣1次。
借鑒文本信息檢索思路,本文提出的處理框架可大致分為3個部分(如圖2所示)。
圖2 基于LDA的高分辨率遙感影像檢索框架
(1) 預(yù)處理。基于文本信息檢索中的詞袋模型(Bag of Words,BoW),采用視覺特征聚類生成視覺詞匯,構(gòu)建高分辨率遙感影像集的視覺詞匯-遙感影像共現(xiàn)矩陣。
(2) 主題分析。采用LDA對預(yù)處理后的遙感影像集進(jìn)行潛在語義分析,建立概率檢索模型。
(3) 檢索查詢。根據(jù)視覺詞匯-遙感影像之間的潛在語義聯(lián)系,對用戶需要檢索的圖像進(jìn)行相似性計算,最終實現(xiàn)結(jié)果排序與顯示。
圖3 預(yù)處理流程
在信息檢索中詞袋模型,將文本看作是一個詞的集合或組合,忽略其詞序、語法和句法。文本中每個詞的出現(xiàn)都是獨立的,不依賴于其他詞是否出現(xiàn)。
在詞袋模型基礎(chǔ)上預(yù)處理可分4個步驟(如圖3所示):①視覺特征選?。虎谝曈X特征提??;③視覺詞匯表生成;④視覺詞匯——遙感影像共現(xiàn)矩陣生成。其中最為核心的部分是視覺特征選取。
為更好地對高分辨率遙感影像和人工地物進(jìn)行描述,使同類型的人工地物能被更好地歸類,不同類型的人工地物能被更好地區(qū)分,本文擬選用Affine Covariant Regions(仿射協(xié)變區(qū)域)[8],如MSER[9],Harris-Affine[10],Hessian-Affine[11],Salient Regions[12]等,來描述高分辨率遙感影像。仿射協(xié)變區(qū)域具有如下優(yōu)點:①通過像素梯度計算而來,具有多尺度視點不變描述性;②從像素層次對強度信息有較好的表達(dá),對指定區(qū)域有較好的描述穩(wěn)定性;③使用像素間差異對區(qū)域進(jìn)行描述,對輻射變化具有較好的容錯性。通過大量實驗對比,本文選用對高分辨率遙感影像的描述效果較好的MSER和Harris-Affine特征。
由于Scale Invariant Feature Transform(SIFT)[13]特征描述器對仿射變換、輻射變換、視點變換等都具有一定的魯棒性,是一種公認(rèn)的穩(wěn)定可靠的圖像局部特征描述器,故在此選用SIFT特征描述器來對仿射協(xié)變區(qū)域進(jìn)行描述。
本文借鑒計算機視覺中圖像視覺詞匯,引入遙感影像視覺詞匯的概念。通過聚類分析(如Kmeans聚類),海量遙感影像視覺特征被劃分為可接受數(shù)量級的視覺特征類型,每個類別的聚類中心對應(yīng)一個量化的遙感影像視覺詞項,由此便可獲得數(shù)量有限的遙感影像視覺詞匯表。
最后再通過k-Nearest Neighbor(KNN)算法將遙感影像視覺特征集映射到遙感影像視覺詞匯表,生成視覺詞匯-遙感影像共現(xiàn)矩陣。
本文以LDA模型為概率主題模型代表,提出基于LDA的高分辨率遙感影像主題分析流程,如圖4所示。
圖4 基于LDA的主題分析流程
首先,進(jìn)行遙感影像集級參數(shù)α,β求解。此時,需要對LDA模型人工設(shè)定主題數(shù)K和遙感影像集級參數(shù)α,β初始值。對于這種聯(lián)合分布維度較高的問題,使用Gibbs采樣的方法處理起來比較簡單。根據(jù)概率推導(dǎo),從全條件分布采樣一個主題zi的概率公式如式(1)。
(1)
通過公式(2)反復(fù)迭代就可對參數(shù)α,β進(jìn)行求解。
(2)
然后,對主題數(shù)K進(jìn)行求解。一般情況下,LDA的主題數(shù)K是依賴于人工設(shè)置的固定數(shù)值。但是為了獲得最優(yōu)模擬,可通過人工設(shè)定逐漸增大的主題數(shù)K,估算出多組參數(shù)α,β,獲得多個高分辨率遙感影像集的LDA模型,再通過比較各種主題數(shù)K時訓(xùn)練集的困惑度(perplexity)[14]來獲取最優(yōu)主題數(shù)K。
在傳統(tǒng)自然語言模型中,困惑度是模型對未見數(shù)據(jù)生成能力的一種量度,其定義為訓(xùn)練文檔集與給定模型相似度的幾何平均倒數(shù)。假設(shè)訓(xùn)練集Dtest={W1,W2,…,WM}為M個文檔集合,則其困惑度計算公式如式(3)。
(3)
式中:p(Wd)為第d個文檔出現(xiàn)的概率;Nd為第d個文檔的詞項個數(shù)。因為困惑度是隨著訓(xùn)練集的相似度增大而單調(diào)遞減的,所以困惑度越低說明模型的生成效果越好。因此,一般情況下,可以取困惑度局部極小值對應(yīng)的主題數(shù)K作為最優(yōu)主題數(shù)K。
通過LDA模型的主題分析,高分辨率遙感影像集的視覺詞項-遙感影像共現(xiàn)概率矩陣F,可分解成視覺詞項-主題概率矩陣φ與主題-遙感影像概率矩陣θ的乘積,如圖5所示。
圖5 視覺詞項-遙感影像共現(xiàn)概率矩陣的概率主題分解[7]
如圖6所示,通過對待查高分辨率遙感影像進(jìn)行視覺特征檢測與描述及視覺詞項映射,可將待查高分辨率遙感影像轉(zhuǎn)化成視覺詞項序列向量,即一個視覺詞項的索引序列。通過從視覺詞項-主題概率矩陣φ中取出相應(yīng)的行,可得待查高分辨率遙感影像中視覺詞項與所有主題的概率關(guān)系矩陣φq。與主題-遙感影像概率矩陣θ相乘,可得待查高分辨率遙感影像中各視覺詞項與高分辨率遙感影像中各遙感影像的概率關(guān)系矩陣Fq=φqθ。
圖6 檢索查詢處理流程
(4)
式中:p(q|dj)為待查遙感影像與第j張遙感影像的相似概率;p(wi|dj)為待查遙感影像中第i個視覺詞項在第j張遙感影像中出現(xiàn)的概率。
最后,對得出的待查遙感影像與高分辨率遙感影像庫中各幅遙感影像的相似概率行向量,按數(shù)值進(jìn)行排序,相似程度由高到低返回高分辨率遙感影像檢索結(jié)果。
本實驗環(huán)境:操作系統(tǒng)為Ubuntu10.04,開發(fā)工具為Matlab R2009b,高分辨率遙感影像視覺特征的檢測和描述工具為Visual Geometry Group(VGG)提供的LINUX環(huán)境下的3個LN應(yīng)用程序[15]。
本實驗原始數(shù)據(jù):2009年北京順義區(qū)一幅GeoEye—10.41m的8 192×8 192像素的高分辨率遙感影像。對該幅高分辨率遙感影像通過規(guī)則格網(wǎng)劃分成256×256像素的小影像塊共計1 024幅,構(gòu)建高分辨率遙感影像集。
本實驗所使用的視覺詞匯表是采用Kmeans聚類方法生成的MSER和Harris-Affine的2種類型視覺詞匯各1 000個,共計2 000個。
本實驗分別設(shè)定LDA模型的主題數(shù)為10,50,100,200四種情況,輸入的檢索遙感影像如圖7所示。
圖7 檢索遙感影像
檢索效果如圖8所示,分別是4種主題數(shù)時前10幅遙感影像檢索結(jié)果,按照從左往右、從上到下的順序相似度逐漸降低。
圖8 4種主題數(shù)時前10幅檢索結(jié)果
在本檢索實驗結(jié)果中,當(dāng)主題數(shù)為10時,檢索影像就已出現(xiàn)在檢索結(jié)果第2位,但其它遙感影像的相似度不高。在主題數(shù)為50時,檢索影像排到檢索結(jié)果第1,并且其它遙感影像的相似度很高??傮w上看,隨著主題數(shù)的增多,檢索結(jié)果相似度越來越高。
本實驗還對10~200個主題數(shù)時LDA模型對高分辨率遙感影像集描述的評價指標(biāo)——困惑度進(jìn)行計算,得到結(jié)果如圖9所示。困惑度越小說明描述準(zhǔn)確度越高,其值為1表示最理想的描述程度。
圖9 主題數(shù)10~200時困惑度
圖9說明,主題數(shù)越多,訓(xùn)練獲得的LDA模型對高分辨率遙感影像集的描述困惑度越接近1,即表示其準(zhǔn)確度越高。其中,主題數(shù)為0~60時,描述準(zhǔn)確度增加迅速;在60~100之間,描述準(zhǔn)確度增加平緩;而主題數(shù)在100以后,困惑度基本趨近于穩(wěn)定。故在具體實現(xiàn)中,高分辨率遙感影像集的主題數(shù)可選取100。一方面能有較高地描述準(zhǔn)確度,另一方面可以適當(dāng)降低模型訓(xùn)練的計算復(fù)雜度,是一種折衷的選擇。
對實驗所建立的高分辨率遙感影像集的1 024幅遙感影像進(jìn)行人工統(tǒng)計,其中與實驗中使用的檢索影像相似的共有78幅。不同主題數(shù)時,對檢索結(jié)果前50幅中包含高大建筑物的遙感影像進(jìn)行統(tǒng)計,計算出主題數(shù)為10~160時的查準(zhǔn)率如圖10所示。
圖10 不同主題數(shù)時基于LDA模型的查準(zhǔn)率
圖10表明,隨著主題數(shù)增加,基于LDA的高分辨率遙感影像檢索方法查準(zhǔn)率增加迅速。當(dāng)主題數(shù)達(dá)到40時,其查準(zhǔn)率已達(dá)到0.9,而后穩(wěn)定保持在0.9以上。這說明基于LDA的高分辨率遙感影像檢索方法不僅降維效果好,而且檢索準(zhǔn)確度高。
本文借鑒文本信息檢索思想,引入計算機視覺領(lǐng)域的視覺特征和自然語言處理領(lǐng)域的概率主題模型,提出了一種基于LDA的高分辨率遙感影像檢索方法。通過一組多主題個數(shù)的高分辨率遙感影像檢索實驗證明,該方法在主題個數(shù)較少時,能達(dá)到較好的檢索效果,較高的查準(zhǔn)率,而且在主題個數(shù)繼續(xù)增加時,能保持查準(zhǔn)率在0.9左右。
但本方法在模型結(jié)合時,還未能充分考慮高分辨率遙感影像的特點,下一步研究將結(jié)合更多信息處理和數(shù)據(jù)挖掘等技術(shù)展開。
參考文獻(xiàn):
[1] 朱先強.融合視覺顯著特征的遙感圖像檢索研究[D].武漢:武漢大學(xué), 2011.(ZHU Xian-qiang.Remote Sensing Imagery Retrieval Based on Integrating Visual Saliency Features[D].Wuhan: Wuhan University, 2011.(in Chinese))
[2] 李小文.定量遙感的發(fā)展與創(chuàng)新[J].河南大學(xué)學(xué)報(自然科學(xué)版), 2005, 35(4): 49-56.(LI Xiao-wen.Retrospect, Prospect and Innovation in Quantitative Remote Sensing[J].Journal of Henan University(Natural Science), 2005, 35(4): 49-56.(in Chinese))
[3] MANNING C D, RAGHAVAN P, SCHUTZE H.Introduction to Information Retrieval [M].Cambridge, England: Cambridge University Press, 2009.
[4] DEERWESTER S, DUMAIS S T, FURNAS G W,etal.Indexing by Latent Semantic Analysis [J].Journal of the American Society for Information Science, 1990, 41(6): 391-407.
[5] HOFMANN T.Probabilistic Latent Semantic Analysis [C]∥ Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence, Stockholm, Sweden, July 30-August 1, 1999: 289-296.
[6] BLEI D M, NG A Y, JORDAN M I.Latent Dirichlet Allocation [J].Journal of Machine Learning Research, 2003, 3(4/5): 993-1022.
[7] STEYVERS M, GRIFFITHS T.Probabilistic Topic Models In Handbook of Latent Semantic Analysis [M].UK: Lawrence Erlbaum Associates, 2007.
[8] SIVIC J, RUSSELL B C, EFROS A A,etal.Discovering Objects and Their Location in Images[C]∥Proceedings of the International Conference on Computer Vision, Beijing, China, October 17-21, 2005: 370-377.
[9] MATAS J, CHUM O, URBAN M,etal.Robust Wide Baseline Stereo from Maximally Stable Extremal Regions[C]∥Proceedings of the 13th British Machine Vision Conference, Cardiff, September 2-5, 2002: 384-396.
[10] MIKOLAJCZYK K, SCHMID C.An Affine Invariant Interest Point Detector[C]∥Proceedings of the 7th European Conference on Computer Vision, Copenhagen, Denmark, May 28-31, 2002: 128-142.
[11] MIKOLAJCZYK K, SCHMID C.Scale & Affine Invariant Interest Point Detectors[J].International Journal of Computer Vision, 2004, 60(1): 63-86.
[12] KADIR T, ZISSERMAN A, BRADY M.An Affine Invariant Salient Region Detector[C]∥Proceedings of the European Conference on Computer Vision, Prague, Czech Republic, May 11-14, 2004: 228-241.
[13] LOWE G D.Object Recognition from Local Scale-Invariant Features [C]∥Proceedings of the International Conference on Computer Vision, Corfu, Greece, September 20-25, 1999: 1150-1157.
[14] BROWN P F, PIETRA V J D, MERCER R L,etal.An Estimate of an Upper Bound for the Entropy of English [J].Computational Linguistics, 1992, 18(1): 31-40.
[15] VGG.Affine Covariant Regions [EB/OL].(2007-07-15) [2013-05-10] http:∥www.robots.ox.ac.uk/~vgg/research/affine/index.html.