李 杰,曹付斌
(長春大學(xué) a.教務(wù)處;b.研究生部,長春 130022)
基于Hadoop云平臺的無人機(jī)遙感圖像分割
李 杰a,曹付斌b
(長春大學(xué) a.教務(wù)處;b.研究生部,長春 130022)
針對現(xiàn)有的圖像分割方法對于無人機(jī)遙感圖像分割速度慢實(shí)時性差的問題,本文展開了對基于Hadoop平臺進(jìn)行無人機(jī)遙感圖像分割方法的研究。在分析了Hadoop云平臺的結(jié)構(gòu)特性以及其組件MapReduce編程思想的基礎(chǔ)上,提出了一種利用OpenCV和Hadoop云平臺相結(jié)合進(jìn)行圖像分割的方法。實(shí)驗(yàn)結(jié)果表明基于Hadoop云平臺的無人機(jī)遙感圖像分割,在保證較好的效果的前提下在分割速率上相比MATLAB有了很大提高,在圖像分割的實(shí)效性上有了很大的提升。
無人機(jī)遙感圖像;Hadoop平臺;圖像分割;MeanShift算法
由于無人機(jī)遙感具有快速、便捷、不受天氣影響等特點(diǎn)[1],使其廣泛應(yīng)用到海洋測繪、電力勘察設(shè)計、山區(qū)水利測繪、臺風(fēng)災(zāi)害監(jiān)測國民生產(chǎn)生活的多個領(lǐng)域[2]。無人機(jī)遙感圖像數(shù)據(jù)量巨大,必須將其圖像數(shù)據(jù)進(jìn)行分割和分類才能進(jìn)行有效的利用。圖像分割是進(jìn)行圖像分析、識別、理解的基礎(chǔ),圖像分割質(zhì)量的好壞和速度的快慢會對后續(xù)圖像處理產(chǎn)生重要的影響,甚至?xí)绊憻o人機(jī)遙感圖像數(shù)據(jù)采集任務(wù)的成敗[3-4],而借助于大數(shù)據(jù)平臺可以有效的提高信息處理的速度[5]。
Hadoop平臺具備優(yōu)秀的大規(guī)模數(shù)據(jù)處理能力、較高的容錯性以及可靠性高、低成本等優(yōu)勢[6],能夠提供分布式的數(shù)據(jù)存儲和分析的解決方案,為并行地處理海量圖像數(shù)據(jù)提供了基礎(chǔ)。目前,Hadoop云平臺在圖像處理相關(guān)的領(lǐng)域的應(yīng)用研究已有一定進(jìn)展,如圖像分類系統(tǒng)[7]、字符識別系統(tǒng)[8]、圖像管理系統(tǒng)[9]、人臉檢測[10]等。
目前的圖像分割算法對于無人機(jī)遙感圖像的分割存在著各種問題[11],比如:分割邊緣模糊化、過分割、邊界解析不明顯等。MeanShift圖像分割算法是利用圖像的像素信息進(jìn)行分割圖像的具體空間坐標(biāo),將收斂于同一極大值的所有像素點(diǎn)歸為一類,將符合設(shè)定條件參數(shù)的類合并為圖像分割的結(jié)果[12]。MeanShift圖像分割算法可以基本保留灰度圖像的特征,并且能較好地區(qū)分不同的區(qū)域,在彩色圖像分割上表現(xiàn)優(yōu)異,圖像邊界清晰分類較為明顯,并且算法耗費(fèi)時間較短[12-13]。
本文主要研究基于大數(shù)據(jù)平臺實(shí)現(xiàn)無人機(jī)遙感圖像分割問題,采用MeanShift圖像分割算法,搭建基于MeanShift分割算法的Hadoop圖像處理平臺。實(shí)驗(yàn)表明:與傳統(tǒng)的MATLAB算法實(shí)現(xiàn)相比,在Hadoop圖像處理平臺上進(jìn)行圖像分割具有明顯的時效優(yōu)勢。
1.1 基于Hadoop的圖像處理
Hadoop是Apache基金會開源的一套分布式存儲計算框架,是基于云體系中的一套云計算平臺,為用戶提供分布式存儲和計算的編程環(huán)境。Hadoop主要由兩大核心組件HDFS和MapReduce組成。HDFS是Hadoop Distributed FileSystem的簡稱,是Hadoop平臺的數(shù)據(jù)存儲基礎(chǔ);MapReduce是一種分布式程序設(shè)計模型,用于在集群中對海量數(shù)據(jù)進(jìn)行并行處理[14]。
基于Hadoop的圖像處理平臺,輸入的圖像數(shù)據(jù)是存儲在HDFS上的遙感數(shù)據(jù),MapReduce框架會從HDFS中加載圖像數(shù)據(jù)。MapReduce編程模型中包含程序開發(fā)的各種實(shí)體類和接口,其中InputFormat類用于對輸入文件進(jìn)行有效性檢查,將文件進(jìn)行邏輯切片并分發(fā)給不同的mapper進(jìn)行處理,并且它還提供了RecordReader的實(shí)現(xiàn),從數(shù)據(jù)切片中讀取數(shù)據(jù)并生成鍵值對[9]。
為了處理圖像數(shù)據(jù),需要自定義改寫圖像處理接口,即ImageInputFormat和ImageRecordReader。讓ImageInputFormat和ImageRecordReader分別繼承InputFormat和RecordReader,ImageInputFormat對輸入的圖像數(shù)據(jù)進(jìn)行檢查校驗(yàn),重寫isSplitable()方法,將該方法返回值設(shè)置為False以將整幅圖像作為一個split,不對圖像進(jìn)行切分,否則會對圖像的信息造成損壞。Hadoop框架會調(diào)用ImageRecordReader將讀入的每一個圖像文件生成相應(yīng)的鍵值對,map函數(shù)調(diào)用圖像處理的相關(guān)算法對圖像進(jìn)行處理。
圖像的讀入是以二進(jìn)制數(shù)據(jù)流的形式讀取的,而圖像輸出時我們需要將圖像以可視化的形式存儲,以便于查看,所以需要自定義圖像的輸出類型,以便于圖像在HDFS中進(jìn)行存儲。自定義圖像的輸出類,將ImageRecordWriter類繼承抽象類RecordWriter
1.2 基于MeanShift的圖像分割算法
1.2.1 MeanShift圖像分割算法的原理
Mean Shift算法的原理對于數(shù)字圖像X像素為xi采用均值漂移算法,x點(diǎn)的均值漂移向量Mh(x)可以用下式表示:
(1)
式中:G表示核函數(shù),w為權(quán)重。均值漂移向量的方向和核函數(shù)的概率密度方向是一致的。
Comaniciu已經(jīng)證明了MeanShift算法在滿足一定條件下最終一定可以收斂到最近的概率密度函數(shù)的穩(wěn)態(tài)點(diǎn)[15],所以沿著均值漂移向量的方向不斷更換核函數(shù)的中心位置直至收斂,就會找到臨近模值點(diǎn)的位置。
而在彩色圖像分割中,MeanShift算法的特征空間通常包括二維的地理位置信息和三維的色度空間信息。因此在彩色圖像等額中,均值漂移算法的核函數(shù)可以定義為[16]:
(2)
式中:xr是三維值域中的三維彩色特征向量;xs是二維空間的位置坐標(biāo);hs是空域窗寬;hr是色度域窗寬;C是歸一化常量。
不同hs和hr對圖像分割的細(xì)節(jié)以及色度有著不同的影響,所以對不同分辨率的圖像會選用不同的hs和hr的值。加入核函數(shù)后,x像素點(diǎn)處的均值飄移向量為[16]:
(3)
當(dāng)且僅當(dāng)mh,G(x)=0時可以得出新的圓心坐標(biāo):
(4)
通過對圖像中的每一個像素點(diǎn),利用均值飄移算法進(jìn)行計算偏移向量,不斷偏移直至收斂,就得到了各自特征的模式,實(shí)現(xiàn)對彩色圖像像素點(diǎn)特征空間的聚類,進(jìn)而獲得分割圖像[17]。
1.2.2 基于Hadoop的MeanShift算法圖像分割
MeanShift算法是基于聚類的迭代算法,其復(fù)雜性對計算機(jī)性能要求較高。而Hadoop集群是基于分布式的數(shù)據(jù)處理系統(tǒng),在理論上可以無限擴(kuò)展其計算能力,這對于聚類算法有著直接的好處[18]。在Hadoop上實(shí)現(xiàn)MeanShift算法分割圖像的步驟歸結(jié)如下:
(1)設(shè)計圖像的輸入類型,自定義圖像輸入類型ImageInputForamt,自定義圖像文件的切割方法;
(2)設(shè)計圖像的輸出類型,自定義ImageRecordWriter類,實(shí)現(xiàn)數(shù)據(jù)的圖像形式的存儲;
(3)在圖像數(shù)據(jù)特征空間中,以點(diǎn)x為中心,h為半徑作一個高緯球,得到落在球內(nèi)的所有點(diǎn)xi;
(4)利用公式(3)計算mh,G(x);
(5)如果mh,G(x)<ε,退出程序(ε為容許誤差,取值范圍為0到1);
(6)如果mh,G(x)>ε,利用公式(4)得到的新圓心坐標(biāo)x返回步驟(3);
經(jīng)過上述步驟的迭代計算和賦值操作,均值漂移窗口不斷移動,經(jīng)過窗口變換后收斂到數(shù)據(jù)峰值的所有點(diǎn)都會連通起來,形成圖像分割,并在Reduce階段將數(shù)據(jù)輸出至HDFS進(jìn)行保存。
2.1 遙感圖像分割帶寬選取實(shí)驗(yàn)
圖像數(shù)據(jù)為無人機(jī)航拍圖像,圖像尺寸為7360×4912,大小為20M左右。實(shí)驗(yàn)設(shè)備為一臺Dell INSPIRON9518電腦,內(nèi)存12G。通過虛擬機(jī)安裝配置3個Linux系統(tǒng),這里安裝的是centos6.4版本的系統(tǒng)。利用3個Linux系統(tǒng)搭建三個節(jié)點(diǎn)的Hadoop集群,一個master節(jié)點(diǎn)和兩個slaver節(jié)點(diǎn),同時master節(jié)點(diǎn)也作為數(shù)據(jù)節(jié)點(diǎn),每個節(jié)點(diǎn)的系統(tǒng)物理配置都是一樣的,并且預(yù)裝實(shí)驗(yàn)所需要的軟件,在主節(jié)點(diǎn)上安裝OpenCV2.4.11,進(jìn)行Hadoop集群的搭建。Hadoop版本選擇的是原生Hadoop-2.6.0。
MeanShift算法的兩個關(guān)鍵參數(shù)是空間域半徑sr(即公式(2)中的hs)和顏色域半徑sp(公式(2)中的hr),首先選取不同的空間半徑和色域半徑進(jìn)行圖像分割,以觀察兩者對分割結(jié)果的影響。
實(shí)驗(yàn)選取的是無人機(jī)航拍圖像,具有明確的分類信息和邊緣特征信息,圖像中有道路、房屋、樹木、車子以及樹木的陰影等,信息量較為豐富,顏色對比以及過渡信息明顯,并且形狀特征明確。這樣的圖像選取出來的分割帶寬,無論對于特征簡單還是特征信息復(fù)雜的圖像都具有很好的適應(yīng)性。
取sr為10、20、30,sp為20、30、40,得到9種組合,原始測試圖像及不同的sr和sp分割結(jié)果如圖1所示。
圖1-0 原始測試圖像
圖1-1 sr=10,sp=20
圖1-2 sr=10,sp=30
圖1-3 sr=10,sp=40
圖1-4 sr=20,sp=20
圖1-5 sr=20,sp=30
圖1-6 sr=20,sp=40
圖1-7 sr=30,sp=20
圖1-8 sr=30,sp=30
圖1-9 sr=30,sp=40
由上述分割結(jié)果圖可以看出,顏色域半徑sp對結(jié)果的影響比空間域半徑sr對結(jié)果的影響更大。sp和sr越小,細(xì)節(jié)保留得越多,sp和sr越大,平滑力度越大,邊緣和顏色突變的區(qū)域的特征保留的較好。
因?yàn)镸eanShift算法要對每個像素點(diǎn)進(jìn)行操作,所以花費(fèi)時間很多。對于本文所選用的遙感圖像(7360×4912),分割時的顏色域半徑和空間域半徑選取為sr=20,sp=40時對圖像分割的效果最好,圖像清晰度、細(xì)節(jié)保留、邊緣特征以及顏色變換區(qū)域的特征更加豐富效果更好。
2.2 基于Hadoop和MATLAB平臺的圖像分割實(shí)驗(yàn)
為了比較基于Hadoop和MATLAB平臺的圖像分割實(shí)驗(yàn),選取六幅圖像,其紋理特征復(fù)雜度、內(nèi)容信息豐富性、顏色對比強(qiáng)烈程度、分割的復(fù)雜性依次增大,以代表圖像分割圖像從簡易到復(fù)雜的程度。
根據(jù)2.1的實(shí)驗(yàn)結(jié)果,取空間域半徑sr=20、顏色域半徑sp=40,用來對本文選取的無人機(jī)遙感圖像進(jìn)行分割。
由于灰度圖像可以更好的保持圖像的紋理特性,并且能夠節(jié)省圖像處理的時間,這里使用MATLAB進(jìn)行圖像分割是先將圖像進(jìn)行灰度化,忽略掉顏色特征信息。
原始圖像以及不同平臺分割的圖像結(jié)果如圖2所示。
圖2-1(a)原始圖像
圖2-1(b)Hadoop平臺
圖2-1(c)MATLAB平臺
圖2-2(a)原始圖像
圖2-2(b)Hadoop平臺
圖2-2(c)MATLAB平臺
圖2-3(a)原始圖像
圖2-3(b)Hadoop平臺
圖2-3(c)MATLAB平臺
圖2-4(a)原始圖像
圖2-4(b)Hadoop平臺
圖2-4(c)MATLAB平臺
圖2-5(a)原始圖像
圖2-5(b)Hadoop平臺
圖2-5(c)MATLAB平臺
圖2-6(a)原始圖像
圖2-6(b)Hadoop平臺
圖2-6(c)MATLAB平臺
從實(shí)驗(yàn)結(jié)果看,大數(shù)據(jù)平臺上運(yùn)行MeanShift算法對于圖像分割的效果顏色和邊緣信息保留較好分割區(qū)域較為明顯,而MATLAB分割的圖像在分割細(xì)節(jié)方面效果更好。
基于Hadoop平臺的圖像分割時間與MATLAB的圖像分割時間以及兩者比率對比如表1所示。
表1 不同平臺圖像分割耗時
從實(shí)驗(yàn)結(jié)果可以看出:在MATLAB平臺下,即使忽略掉了圖像的顏色特征信息,大數(shù)據(jù)平臺上運(yùn)行MeanShift算法速度仍然更快。
實(shí)驗(yàn)表明:在滿足實(shí)際需求情況下,在圖像分割細(xì)節(jié)不影響實(shí)際使用的情況下,基于Hadoop平臺的圖像分割有更好的實(shí)效性。從表1可以看出,實(shí)驗(yàn)中,在每一幅圖像的分割中基于Hadoop平臺的分割速度都比MATLAB平臺的分割速度快很多,基于Hadoop平臺的分割速度與MATLAB平臺分割速度的比值,平均為1:93。
本文在Hadoop云平臺上實(shí)現(xiàn)了無人機(jī)遙感圖像的MeanShift分割算法,并與常用的MATLAB平臺進(jìn)行實(shí)驗(yàn)對比。結(jié)果表明:
(1)基于Hadoop平臺完成的圖像分割,處理后的圖像可以保持較為豐富的元數(shù)據(jù)信息,在紋理特征上表現(xiàn)更好,在色度明亮的區(qū)域表現(xiàn)更為突出,比如圖像中的道路、屋頂、農(nóng)田交接處等表現(xiàn)出了較好的分割效果。而MATLAB處理后的圖像在信息的豐富度上保留的不明顯,在兩種區(qū)域的分界處還有一些模糊,但在細(xì)節(jié)紋理上表現(xiàn)較好,對區(qū)域的分割表現(xiàn)更為細(xì)膩。
(2)本文實(shí)驗(yàn)統(tǒng)計Hadoop平臺上圖像的分割速度比MATLAB平臺平均快了93倍,如果在專業(yè)的Hadoop平臺上以本文的實(shí)驗(yàn)方法做圖像分割,在速率上會有更大的提升。
可見基于Hadoop平臺的無人機(jī)遙感圖像分割,在圖像分割效果和分割速率上都大大優(yōu)于單機(jī)MATLAB平臺的實(shí)驗(yàn)結(jié)果,很好的解決了傳統(tǒng)處理方法速度慢實(shí)效性低的問題。
[1] 高奮生. 低空無人機(jī)遙感的應(yīng)用及發(fā)展[J]. 農(nóng)業(yè)網(wǎng)絡(luò)信息,2014(12):75-78.
[2] 龔明飛. 無人機(jī)影像處理技術(shù)在測繪工程中的應(yīng)用[J]. 黑龍江科技信息,2016(6):92.
[3] 王愛民,沈蘭蓀. 圖像分割研究綜述[J]. 測控技術(shù),2000(5):1-6+16.
[4] 王玉鵬. 無人機(jī)低空遙感影像的應(yīng)用研究[D].鄭州:河南理工大學(xué),2011.
[5] 田野,蘇紅旗,田棟. Hadoop下海量遙感數(shù)據(jù)的處理[J]. 軟件,2014(3):91-93.
[6] 霍樹民. 基于Hadoop的海量影像數(shù)據(jù)管理關(guān)鍵技術(shù)研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2010.
[7] 朱義明. 基于Hadoop平臺的圖像分類[J]. 西南科技大學(xué)學(xué)報,2011(2):70-73.
[8] 楊超. 基于Hadoop平臺的字符識別的研究[D].西安:西安電子科技大學(xué),2012.
[9] 安春燕. 基于云計算的數(shù)字圖像處理平臺[J]. 數(shù)字技術(shù)與應(yīng)用,2015(1):88.
[10] 呂聯(lián)盟. 基于云計算的人臉識別系統(tǒng)研究與設(shè)計[D].西安:長安大學(xué),2014.
[11] 張晶,王黎,高曉蓉,等. 數(shù)字圖像處理中的圖像分割技術(shù)及其應(yīng)用[J]. 信息技術(shù),2010(11):36-39+43.
[12] Comaniciu D, Meer P. Mean Shift Analysis and Applications[C]// International Conference on Computer Vision. IEEE Computer Society, 1999:1197-1203.
[13] 吳靜靜,宋淑娟,安偉,等. 一種基于meanshift的多通道圖像分割算法[J]. 包裝工程,2015(21):89-94.
[14] 張功榮. 基于云計算的海量圖像處理研究[D].福州:福建師范大學(xué),2015.
[15] DorinComaniciu,Peter Meer. Mean Shift: A Robust Approach Toward Feature Space Analysis.[J]. IEEE Trans. Pattern Anal. Mach. Intell.,2002,24(5):603-605.
[16] 王新華,畢篤彥. Mean Shift算法在圖像分割中的應(yīng)用研究[J]. 微計算機(jī)信息,2009(9):290-292.
[17] Duan L Y, Xu M, Tian Q, et al. Mean shift based video segment representation and applications to replay detection[C]// IEEE International Conference on Acoustics, Speech, and Signal Processing, 2004. Proceedings. IEEE, 2004:V-709-12.
[18] 周家香,朱建軍,梅小明,等. 多維特征自適應(yīng)MeanShift遙感圖像分割方法[J]. 武漢大學(xué)學(xué)報(信息科學(xué)版),2012(4):419-422+440.
責(zé)任編輯:程艷艷
Remote Sensing Image Segmentation of UAV Based on Hadoop Cloud Platform
LI Jiea, CAO Fubinb*
(a. Academic Affairs Office;b. Graduate School, Changchun University,Changchun 130022, China)
In view of the problems that remote sensing image segmentation speed is slow and the real-time performance is poor, this paper makes a research on the remote sensing image segmentation method based on Hadoop platform. On the basis of analyzing the structural characteristics of Hadoop cloud platform and its component MapReduce programming idea, it presents a method of image segmentation with the combination of OpenCV and Hadoop cloud platform. The experimental results show that the remote sensing image segmentation of UAV based on Hadoop cloud platform not only has better results than MATLAB, but also improves segmentation rate, which improves the effectiveness greatly in image segmentation.
UAV remote sensing image; Hadoop platform; image segmentation; MeanShift algorithm
2017-11-08
李杰(1969-),女,吉林白山人,教授,博士,主要從事圖像處理與視覺方面研究。
TP391.41
A
1009-3907(2017)02-0010-06