方 雷,姚申君,包航成,康俊峰,劉 婷
1. 復(fù)旦大學(xué)環(huán)境科學(xué)與工程系,上海 200438; 2. 華東師范大學(xué)地理科學(xué)學(xué)院,上海 200241; 3. 金華市規(guī)劃與地理信息中心,浙江 金華 321000; 4. 江西理工大學(xué)建筑與測(cè)繪工程學(xué)院,江西 贛州 341000; 5. 杭州師范大學(xué)理學(xué)院,浙江 杭州 311121
海量空間信息處理和應(yīng)用具有信息密集和運(yùn)算密集的特征,目前廣泛依賴于并行技術(shù)和高性能計(jì)算機(jī)的應(yīng)用。遙感影像處理(如影像的校正、配準(zhǔn)、識(shí)別)是并行技術(shù)在空間信息處理領(lǐng)域的一大主要應(yīng)用。早在10年前,國(guó)內(nèi)外就已廣泛開(kāi)展圖像的并行化處理研究[1-10],在該領(lǐng)域取得多方面的成果。例如,結(jié)合并行技術(shù)和遺傳算法有學(xué)者提出利用低分辨率相機(jī)獲取高分辨率圖像的方法[6];部分研究人員提出能高效實(shí)現(xiàn)遙感圖像預(yù)處理的分布式共享存儲(chǔ)并行處理系統(tǒng)[7]、遙感衛(wèi)星圖像幾何粗校正的數(shù)據(jù)并行方法[8]、基于小波的遙感圖像全局配準(zhǔn)算法[9]、遙感多圖像配準(zhǔn)中自動(dòng)提取特征點(diǎn)的并行算法[10]、基于GPU的并行算法[11-12]等,此外還有針對(duì)遙感影像識(shí)別、分割、分類、融合等高性能算法[13-18]。針對(duì)數(shù)據(jù)量呈指數(shù)增長(zhǎng)的全球遙感圖像,必須研究基于并行化的快速、有效、高精度的自動(dòng)圖像配準(zhǔn)算法,為此,有學(xué)者提出了相應(yīng)的遙感圖像自動(dòng)配準(zhǔn)的并行策略[19-20]。而隨著遙感影像并行化方法的研究深入,近5年來(lái),越來(lái)越多的學(xué)者不滿足于某一類操作或者數(shù)據(jù)的并行化處理算法,而傾向于提出并行算法的通用模型[21-24]。
可以看出,目前研究主要還是利用遙感圖像的矩陣可分解性質(zhì),設(shè)計(jì)了大量關(guān)于影像并行算法和并行處理的環(huán)境。但是,在云計(jì)算環(huán)境下,一份遙感數(shù)據(jù)存在多個(gè)冗余備份,具備同步并行處理多個(gè)計(jì)算任務(wù),解決了對(duì)一份數(shù)據(jù)處理時(shí)輸入輸出(I/O)資源爭(zhēng)用的問(wèn)題。例如,可以同時(shí)對(duì)同一份遙感數(shù)據(jù)的不同備份進(jìn)行數(shù)據(jù)劃分和壓縮操作,快速生成金字塔索引。過(guò)往并沒(méi)有針對(duì)該環(huán)境的最佳并行處理路徑選擇的深入研究。本文在總結(jié)前人研究的基礎(chǔ)上,給出一個(gè)一般情況下的基于數(shù)據(jù)劃分的最佳并行處理路徑的數(shù)學(xué)模型,實(shí)現(xiàn)了在相同的遙感影像處理算法和同等的計(jì)算資源條件下,計(jì)算機(jī)自主選擇最優(yōu)處理路徑,達(dá)到最優(yōu)的遙感影像處理效率。
并行分為功能分解和數(shù)據(jù)分解?;跀?shù)據(jù)分解的并行處理,在遙感圖像的并行處理中使用較為普遍。例如,創(chuàng)建金字塔索引時(shí),對(duì)原始影像劃分的過(guò)程中同時(shí)伴隨著數(shù)據(jù)壓縮。本文根據(jù)柵格數(shù)據(jù)的可分解性給出柵格影像數(shù)據(jù)并行處理的相關(guān)定義,最后提出最佳并行處理路徑選擇算法的數(shù)學(xué)模型,即旋轉(zhuǎn)門(mén)模型。
一般的柵格影像劃分存儲(chǔ)及并行處理過(guò)程均可以抽象成如圖1所示的模型。它包含以下4個(gè)要素:數(shù)據(jù)態(tài)Ri、元素個(gè)數(shù)ni、相對(duì)信息量rj、映射f及其對(duì)應(yīng)的單位信息量下的計(jì)算代價(jià)φp。
圖1 柵格影像的一般并行處理過(guò)程Fig.1 General parallel processing model of a raster image
如果要想從源數(shù)據(jù)態(tài)Ri, j生成3個(gè)數(shù)據(jù)態(tài)(Ri, j+1、Ri+1, j和Ri+1, j+1)必須經(jīng)過(guò)一次f和f′操作以及一次Ri, j到Ri+1, j的操作;或一次f′和f操作以及一次Ri, j到Ri, j+1的操作。這兩次操作可以是串行的操作也可以是并行的操作。任何一條獨(dú)立的處理鏈無(wú)法同時(shí)(并行的)獲得3個(gè)結(jié)果數(shù)據(jù)態(tài),所以并行操作必須將圖中x方向和y方向的操作相結(jié)合,形成多路并行處理過(guò)程:既生成3個(gè)結(jié)果數(shù)據(jù)態(tài),又可以充分利用云計(jì)算平臺(tái)中的多個(gè)計(jì)算節(jié)點(diǎn)的計(jì)算資源,提高數(shù)據(jù)處理效率。此外,雖然有兩條處理路徑均能生成數(shù)據(jù)態(tài)Ri+1, j+1,但是這種情況在實(shí)際的并行過(guò)程中顯然是不被允許的,因?yàn)樵摲绞皆斐闪擞?jì)算資源的浪費(fèi)。于是對(duì)并行模型進(jìn)行化簡(jiǎn),得到縱向并行和橫向并行。
圖2給出了更為一般的縱向并行和橫向并行處理,顯示了從源數(shù)據(jù)態(tài)經(jīng)過(guò)處理鏈得到的不同的數(shù)據(jù)態(tài)(劃分?jǐn)?shù)據(jù)態(tài)和其他數(shù)據(jù)態(tài))的過(guò)程。圖2(a)和(b)均是一個(gè)不完全二叉樹(shù)。易知,不完全二叉樹(shù)上的每一個(gè)分叉都表示一種實(shí)行并行的可能性。若將每一個(gè)映射過(guò)程視為一個(gè)并行任務(wù),則并行維數(shù)為d的映射過(guò)程,可以形成d條并行的子任務(wù)。若生成所有的數(shù)據(jù)態(tài),均有橫向并行和縱向并行兩種并行路徑的選擇。易知,若映射f不發(fā)生變化,并行路徑不發(fā)生改變。在具體的并行處理實(shí)施過(guò)程中,如何讓計(jì)算機(jī)根據(jù)映射f動(dòng)態(tài)選擇最佳的并行路徑將是“遙感影像并行處理并對(duì)處理后的數(shù)據(jù)進(jìn)行分布式存儲(chǔ),再對(duì)存儲(chǔ)后的遙感影像進(jìn)行下一次的并行處理”這種循環(huán)往復(fù)操作的關(guān)鍵問(wèn)題。
圖2 一般性縱向并行與橫向并行處理Fig.2 General longitudinal and horizontal parallel processing
經(jīng)過(guò)推導(dǎo)[25],采用式(1)對(duì)并行處理路徑進(jìn)行選擇
(1)
(2)
即①劃分的計(jì)算代價(jià)大于壓縮時(shí),采用橫向并行(先劃分再壓縮);②劃分的計(jì)算代價(jià)小于壓縮時(shí),采用縱向并行(先壓縮再劃分);③劃分與壓縮的計(jì)算代價(jià)近似時(shí),為臨界狀態(tài),采用橫向并行和縱向并行均可。
(3)
圖3 生成四叉樹(shù)索引(4層)Fig.3 Generating quadtree spatial index to image pyramid
圖4 柵格影像目標(biāo)識(shí)別Fig.4 Detection and recognition parallel processing of target
(3) 橫向并行和縱向并行的多種并行操作組合(圖5)。上述兩個(gè)示例均為一個(gè)并行操作和劃分操作組合的并行策略分析,本文提出的最佳并行策略可以推廣到多個(gè)并行。例如,圖5(a)給出了3個(gè)并行操作和劃分操作,包含了兩個(gè)縱向并行和一個(gè)橫向并行組合,稱為旋轉(zhuǎn)門(mén)模型。旋轉(zhuǎn)門(mén)模型是解決多個(gè)并行處理操作組合策略的問(wèn)題,本質(zhì)上是最優(yōu)路徑規(guī)劃,而不是先后組合的問(wèn)題。與“傳統(tǒng)的、沒(méi)有路徑規(guī)劃的”并行算法相比,旋轉(zhuǎn)門(mén)模型的優(yōu)勢(shì)在于:可以實(shí)現(xiàn)在相同的遙感影像處理算法和同等的計(jì)算資源條件下,計(jì)算機(jī)自主選擇最優(yōu)處理路徑,達(dá)到最優(yōu)的遙感影像處理效率。旋轉(zhuǎn)門(mén)模型以遙感影像數(shù)據(jù)劃分為基礎(chǔ),是這個(gè)旋轉(zhuǎn)門(mén)的主軸,每一扇門(mén)都是一個(gè)縱向或橫向的選擇(必定包含數(shù)據(jù)劃分操作部分),并且由于數(shù)據(jù)有多個(gè)冗余備份,每一扇門(mén)與其他扇門(mén)的操作都是可以同時(shí)進(jìn)行的、獨(dú)立并行的關(guān)系。如果不以劃分為軸,這種組合起來(lái)的策略還可變成一個(gè)彼此為邊的立方體模型(圖5(b))。
此外,進(jìn)一步討論式(2)和式(3)可知,旋轉(zhuǎn)門(mén)模型的路徑判斷準(zhǔn)則可簡(jiǎn)單概括為“何種操作的單位計(jì)算代價(jià)大則先進(jìn)行何種操作”。即,要獲得全級(jí)別的柵格影像這一前提下,要實(shí)現(xiàn)多種并行處理操作組合的時(shí)間最優(yōu),則要優(yōu)先進(jìn)行計(jì)算代價(jià)大的操作。這一結(jié)論與傳統(tǒng)的認(rèn)知和經(jīng)驗(yàn)不同,是旋轉(zhuǎn)門(mén)模型的另一理論貢獻(xiàn)。
圖6 算法流程Fig.6 Algorithm flow diagram
總之,通過(guò)實(shí)現(xiàn)算法的描述可知,旋轉(zhuǎn)門(mén)模型原理簡(jiǎn)單實(shí)用,可以使計(jì)算機(jī)集群平臺(tái)自動(dòng)根據(jù)用戶輸入的遙感影像和指定的遙感影像處理程序準(zhǔn)確地得到并行處理時(shí)間最短的最優(yōu)路徑,解決了將并行技術(shù)應(yīng)用于海量遙感影像分布式存儲(chǔ)和處理領(lǐng)域時(shí)其處理模型所具有的多路可達(dá)性所引起的路徑動(dòng)態(tài)、最優(yōu)選擇問(wèn)題,滿足了并行處理時(shí)耗時(shí)最短、最高效的要求。
特別的,在云計(jì)算或集群平臺(tái)上,圖2的縱向并行和橫向并行的旋轉(zhuǎn)門(mén)模型在計(jì)算節(jié)點(diǎn)上的實(shí)際運(yùn)行過(guò)程示意圖如圖7所示。由圖7可知,在實(shí)際運(yùn)行過(guò)程中,除第1個(gè)計(jì)算節(jié)點(diǎn)之外,旋轉(zhuǎn)門(mén)模型分配每個(gè)計(jì)算節(jié)點(diǎn)“非常有秩序地”都在做相同的操作,而且任何一個(gè)節(jié)點(diǎn)又都是一個(gè)不完全二叉樹(shù)的子節(jié)點(diǎn)的根節(jié)點(diǎn),它們遵守相同的規(guī)則,環(huán)環(huán)嵌套。這樣的“秩序”是根據(jù)“計(jì)算時(shí)間最少”這一標(biāo)準(zhǔn),由公式自動(dòng)計(jì)算出來(lái),沒(méi)有人工干預(yù)。每個(gè)節(jié)點(diǎn)都做同樣的操作對(duì)龐大的云計(jì)算平臺(tái)有著諸多優(yōu)勢(shì)。例如,在同一個(gè)計(jì)算節(jié)點(diǎn)內(nèi),若指令快速緩沖存儲(chǔ)區(qū)(cache)和數(shù)據(jù)cache都有限時(shí),做同樣的事情可以有機(jī)會(huì)讓代碼和數(shù)據(jù)一直在cache里,從而提高效率;再如,減少數(shù)據(jù)傳輸次數(shù),規(guī)避數(shù)據(jù)傳輸瓶頸;還有,容錯(cuò)率高,不會(huì)影響其他計(jì)算節(jié)點(diǎn)的計(jì)算結(jié)果,容易找到出錯(cuò)節(jié)點(diǎn)或問(wèn)題所在,容易恢復(fù)中斷的處理和操作等等。綜上,旋轉(zhuǎn)門(mén)模型雖然是遙感影像處理領(lǐng)域的一個(gè)算法,但是從一個(gè)側(cè)面反映了“秩序即效率”的自然或社會(huì)規(guī)律。
圖7 縱向并行與橫向并行的旋轉(zhuǎn)門(mén)模型在計(jì)算節(jié)點(diǎn)上的實(shí)際運(yùn)行過(guò)程Fig.7 Longitudinal and horizontal parallel processing on compute nodes
前文已經(jīng)通過(guò)嚴(yán)密的理論論證提出了旋轉(zhuǎn)門(mén)模型。旋轉(zhuǎn)門(mén)模型的本質(zhì)是多種并行處理的組合基礎(chǔ)上的最優(yōu)路徑選擇策略。前文在分析傳統(tǒng)的遙感影像并行處理的缺點(diǎn)時(shí),已經(jīng)指出現(xiàn)有的并行處理策略只注重單一操作的并行處理,若完成數(shù)據(jù)劃分、目標(biāo)識(shí)別、數(shù)據(jù)壓縮、投影變換、特征提取等處理過(guò)程,只能依次先完成數(shù)據(jù)劃分再進(jìn)行目標(biāo)識(shí)別,然后數(shù)據(jù)壓縮等。所以,第2節(jié)的理論模型就是在“多種遙感影像處理并行策略一定優(yōu)于這些并行處理過(guò)程各自完成再串行”這一前提假設(shè)的基礎(chǔ)上提出的。即旋轉(zhuǎn)門(mén)模型與現(xiàn)有并行處理策略相比具有天然的優(yōu)勢(shì)。換句話說(shuō),旋轉(zhuǎn)門(mén)模型可以實(shí)現(xiàn)在相同的遙感影像處理算法和同等的計(jì)算資源條件下,計(jì)算機(jī)自主選擇最優(yōu)處理路徑,達(dá)到最優(yōu)的遙感影像處理效率。所以本文試驗(yàn)的目的是為論證實(shí)際遙感影像并行處理過(guò)程中基于數(shù)據(jù)劃分的最佳并行路徑選擇模型的正確性及其性能,并未重點(diǎn)測(cè)試比較旋轉(zhuǎn)門(mén)模型與現(xiàn)有并行處理策略的高低(討論部分間接說(shuō)明了旋轉(zhuǎn)門(mén)模型與現(xiàn)有并行處理策略的優(yōu)勢(shì))。試驗(yàn)內(nèi)容以四叉樹(shù)金字塔并行生成過(guò)程和目標(biāo)識(shí)別為例,測(cè)試了“先壓縮再劃分和先劃分再壓縮”、“先識(shí)別再劃分和先劃分再識(shí)別”的運(yùn)行時(shí)間,最后結(jié)合壓縮算法、目標(biāo)識(shí)別算法和劃分算法的計(jì)算代價(jià),對(duì)上述兩個(gè)測(cè)試結(jié)果進(jìn)行深入分析。需要說(shuō)明的是,數(shù)據(jù)量和軟硬件環(huán)境不同會(huì)影響測(cè)試時(shí)間,但是最優(yōu)路徑的選擇結(jié)果和結(jié)論不會(huì)發(fā)生變化。
測(cè)試采用名字節(jié)點(diǎn)3個(gè),配置為表1中第1及第2類共3臺(tái)PC機(jī);計(jì)算節(jié)點(diǎn)32個(gè),配置為表1中8類共32臺(tái)PC機(jī)。本文試驗(yàn)的軟件環(huán)境簡(jiǎn)單,Windows操作系統(tǒng)運(yùn)行穩(wěn)定、操作方便、安全性較高,為保證系統(tǒng)的正常運(yùn)行,服務(wù)器端操作系統(tǒng)采用Windows 2008 Server(64 bits)或Windows 2003 Server(32 bits)。其中,選擇Windows 2008 Server是為運(yùn)行Dryad平臺(tái),選擇Windows 2003 Server(32 bits)是用其作為UDDI的服務(wù)目錄服務(wù)器。對(duì)客戶端理論上沒(méi)有要求,任何安裝了網(wǎng)絡(luò)瀏覽器的普通PC機(jī)均可作為客戶端。
數(shù)據(jù)選擇表2所示數(shù)據(jù),其數(shù)據(jù)量從200 MB到5.58 GB不等。
表1 PC機(jī)及網(wǎng)絡(luò)設(shè)備配置
表2 試驗(yàn)用柵格數(shù)據(jù)
3.2.1 生成四叉樹(shù)金字塔(壓縮和劃分組合策略測(cè)試)
測(cè)試1:使用10個(gè)計(jì)算節(jié)點(diǎn),對(duì)測(cè)試數(shù)據(jù)A采用先壓縮再劃分的并行策略,構(gòu)建8、10、12層四叉樹(shù)金字塔,記錄總時(shí)間;使用10個(gè)計(jì)算節(jié)點(diǎn),對(duì)測(cè)試數(shù)據(jù)A采用先劃分再壓縮的并行策略,同樣構(gòu)建8、10、12層四叉樹(shù)金字塔,記錄總時(shí)間。
測(cè)試2:測(cè)定壓縮和劃分操作的單位信息量下的計(jì)算代價(jià)φp。分別請(qǐng)求壓縮和劃分操作,則云端的計(jì)算節(jié)點(diǎn)分別使用ENVI/IDL算法執(zhí)行壓縮(將一份影像數(shù)據(jù)按四叉樹(shù)金字塔的壓縮方法進(jìn)行壓縮)和劃分(將同一份影像數(shù)據(jù)劃分64份)處理,分別記錄柵格數(shù)據(jù)A—F壓縮和劃分時(shí)間,并計(jì)算出相同環(huán)境下單位信息量下的計(jì)算代價(jià)。
3.2.2 目標(biāo)識(shí)別(目標(biāo)識(shí)別和劃分組合策略測(cè)試)
測(cè)試1:本文采用Tensorflow與CNN卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的目標(biāo)識(shí)別方法*,使用10個(gè)計(jì)算節(jié)點(diǎn),對(duì)測(cè)試數(shù)據(jù)F采用先目標(biāo)識(shí)別再劃分的并行策略,構(gòu)建2、3、4層數(shù)據(jù),最終將4、16、64份數(shù)據(jù)均勻存儲(chǔ)在計(jì)算節(jié)點(diǎn)上為止,記錄1—2級(jí)、2—3級(jí)、3—4級(jí)的時(shí)間;使用10個(gè)計(jì)算節(jié)點(diǎn),對(duì)測(cè)試數(shù)據(jù)F采用先劃分再目標(biāo)識(shí)別的并行策略,同樣構(gòu)建2、3、4層數(shù)據(jù),最終將4、16、64份數(shù)據(jù)均勻存儲(chǔ)在計(jì)算節(jié)點(diǎn)上為止,記錄1—2級(jí)、2—3級(jí)、3—4級(jí)的時(shí)間。
測(cè)試2:測(cè)定目標(biāo)識(shí)別和劃分操作的單位信息量下的計(jì)算代價(jià)φp。分別請(qǐng)求目標(biāo)識(shí)別和劃分操作,則云端的計(jì)算節(jié)點(diǎn)分別使用ENVI/IDL算法執(zhí)行目標(biāo)識(shí)別(將一份影像數(shù)據(jù)按Tensorflow與CNN卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的目標(biāo)識(shí)別方法進(jìn)行目標(biāo)識(shí)別)和劃分(將同一份影像數(shù)據(jù)劃分64份)處理,分別記錄柵格數(shù)據(jù)A—F目標(biāo)識(shí)別和劃分時(shí)間,并計(jì)算出相同環(huán)境下單位信息量下的計(jì)算代價(jià)。
為了客觀起見(jiàn),本測(cè)試試驗(yàn)運(yùn)行50~100次,取其均值作為試驗(yàn)結(jié)果。表3和表5結(jié)果為實(shí)際并行處理過(guò)程模擬,故包含傳輸時(shí)間。
3.3.1 生成四叉樹(shù)金字塔(壓縮和劃分組合策略測(cè)試)
柵格數(shù)據(jù)A采用不同的并行策略獲得的測(cè)試結(jié)果如表3所示。
表3 柵格數(shù)據(jù)A構(gòu)建四叉樹(shù)金字塔并行策略測(cè)試結(jié)果
Tab.3 Results of building quadtree pyramid parallel processing of dataAmin
測(cè)定壓縮和劃分操作的單位信息量下的計(jì)算代價(jià)如表4所示。
表4 單位信息量下的計(jì)算代價(jià)測(cè)定結(jié)果
3.3.2 目標(biāo)識(shí)別(目標(biāo)識(shí)別與劃分組合策略測(cè)試)
柵格數(shù)據(jù)F采用不同的并行策略獲得的測(cè)試結(jié)果如表5所示。
測(cè)定目標(biāo)識(shí)別和劃分操作的單位信息量下的計(jì)算代價(jià)如表6所示。
表5 柵格數(shù)據(jù)F目標(biāo)識(shí)別并行策略測(cè)試結(jié)果
Tab.5 Results of target detection and recognition parallel processing of dataFh
表6 單位信息量下的計(jì)算代價(jià)測(cè)定結(jié)果
3.4.1 生成四叉樹(shù)金字塔(壓縮和劃分組合策略測(cè)試)
由圖3可知,若創(chuàng)建n級(jí)金字塔索引,則該索引中的文件總數(shù)Sn為
(4)
那么,柵格數(shù)據(jù)A在構(gòu)建8級(jí)、10級(jí)、12級(jí)金字塔索引過(guò)程中新生成29 123份、466 029份、7 456 535份圖像文件。同理,若原始圖像的數(shù)據(jù)量為a,則數(shù)據(jù)總量m為
(5)
3.4.2 目標(biāo)識(shí)別(目標(biāo)識(shí)別和劃分組合策略測(cè)試)
目標(biāo)識(shí)別是一個(gè)數(shù)據(jù)量增加的過(guò)程,易從表5結(jié)果獲知“先識(shí)別再劃分”的并行策略遠(yuǎn)遠(yuǎn)優(yōu)于“先劃分再識(shí)別”的并行策略。從表6可知,目標(biāo)識(shí)別的單位信息量下的計(jì)算代價(jià)遠(yuǎn)遠(yuǎn)大于劃分,所以進(jìn)行先識(shí)別再劃分的策略是正確的?!跋葎澐衷僮R(shí)別”的策略(橫向并行),相對(duì)“先識(shí)別再劃分”策略會(huì)讓計(jì)算節(jié)點(diǎn)過(guò)多地處理復(fù)雜的識(shí)別處理操作,從而會(huì)降低整體的計(jì)算效率。此外,從表6可知,由于目標(biāo)識(shí)別算法的單位計(jì)算代價(jià)過(guò)大,且與數(shù)據(jù)量和像元數(shù)量正相關(guān),所以傳統(tǒng)方法中,將原數(shù)據(jù)分割成幾份再進(jìn)行并行目標(biāo)識(shí)別會(huì)減少數(shù)據(jù)處理的總時(shí)間。但是,旋轉(zhuǎn)門(mén)模型卻告訴我們,在生成全級(jí)別的柵格影像并同時(shí)實(shí)現(xiàn)目標(biāo)識(shí)別操作時(shí),要“先識(shí)別再劃分”,然后再將各級(jí)別的結(jié)果分布存儲(chǔ)于云計(jì)算平臺(tái)上,既能保證數(shù)據(jù)完整性和目標(biāo)識(shí)別的準(zhǔn)確性,又能保證效率最高。
3.4.3 目標(biāo)識(shí)別、數(shù)據(jù)壓縮和數(shù)據(jù)劃分綜合并行操作組合
綜上,若同時(shí)進(jìn)行目標(biāo)識(shí)別、數(shù)據(jù)壓縮和數(shù)據(jù)劃分綜合并行組合操作,生成全級(jí)別的柵格影像時(shí),最優(yōu)路徑應(yīng)是“目標(biāo)識(shí)別—數(shù)據(jù)壓縮—數(shù)據(jù)劃分”或“目標(biāo)識(shí)別—數(shù)據(jù)劃分”與“數(shù)據(jù)壓縮—數(shù)據(jù)劃分”兩種選擇,此路徑即能保證時(shí)間效率最高,又能保證數(shù)據(jù)操作的正確性。若先進(jìn)行數(shù)據(jù)壓縮或數(shù)據(jù)劃分操作,則目標(biāo)識(shí)別則需要重新訓(xùn)練樣本,除時(shí)間效率低下之外,還會(huì)增加多余的操作時(shí)間。
得益于云計(jì)算理論和技術(shù)的提出,遙感影像的處理可以實(shí)現(xiàn)對(duì)同一份數(shù)據(jù)進(jìn)行多任務(wù)的并行處理。本文在此前提下,深入研究了基于數(shù)據(jù)劃分的遙感影像并行處理問(wèn)題,提出了8個(gè)定義(數(shù)據(jù)態(tài)、信息量、元素、映射過(guò)程、表達(dá)式、并行維數(shù)、計(jì)算代價(jià)與縱向/橫向并行),6個(gè)性質(zhì)(有向性、傳遞性、繁殖性、多維性、同一性與多路可達(dá)性)。以這些定義和性質(zhì)為基礎(chǔ),從相鄰數(shù)據(jù)態(tài)之間的一次映射逐步推導(dǎo)致“基于數(shù)據(jù)劃分的遙感影像并行處理”的一般情況,提出最佳并行路徑選擇模型——旋轉(zhuǎn)門(mén)模型,用于解決將并行技術(shù)應(yīng)用于遙感影像分布式存儲(chǔ)和處理領(lǐng)域時(shí),其處理模型所具有的多路可達(dá)性所引起的路徑動(dòng)態(tài)、最優(yōu)選擇問(wèn)題。本文的貢獻(xiàn)在于:在批量處理海量遙感數(shù)據(jù)的情形下,同時(shí)實(shí)現(xiàn)遙感數(shù)據(jù)生成、目標(biāo)識(shí)別等并行任務(wù)時(shí),最優(yōu)并行路徑的選擇只與平均計(jì)算和數(shù)據(jù)態(tài)的相對(duì)信息量、元素個(gè)數(shù)的比值這一標(biāo)志有關(guān),而且從原始數(shù)據(jù)(源數(shù)據(jù)態(tài)1)到最終數(shù)據(jù)(最終數(shù)據(jù)態(tài)n)的諸多并行路徑中,看似復(fù)雜,其實(shí)只有獨(dú)立上行和獨(dú)立下行組成的單向最優(yōu)路徑。
本文還進(jìn)一步給出四叉樹(shù)索引并行生成、基于四叉樹(shù)的目標(biāo)識(shí)別并行處理的研究結(jié)果。指出在四叉樹(shù)索引并行生成過(guò)程中,如果劃分的計(jì)算代價(jià)大于壓縮時(shí),采用先劃分再壓縮的橫向并行;如果劃分的計(jì)算代價(jià)小于壓縮時(shí),采用先壓縮再劃分的縱向并行。基于四叉樹(shù)的目標(biāo)識(shí)別并行處理操作中,當(dāng)檢測(cè)結(jié)果很多時(shí),無(wú)論劃分映射過(guò)程和目標(biāo)識(shí)別映射過(guò)程的效率如何,采用縱向并行(先目標(biāo)識(shí)別再劃分)的策略才能實(shí)現(xiàn)最優(yōu)化并行。
本文提出了基于數(shù)據(jù)劃分的遙感影像并行處理問(wèn)題的基本概念和性質(zhì),最終立足于最佳并行路徑選擇問(wèn)題上。在模型的提出上,使用了簡(jiǎn)單直觀的遙感影像二維矩陣來(lái)抽象表示遙感數(shù)據(jù)(可以理解為T(mén)IFF格式),并在此基礎(chǔ)上提出概念、性質(zhì)和公式推導(dǎo),最后得出結(jié)論。實(shí)際上,遙感數(shù)據(jù)在云計(jì)算平臺(tái)中存儲(chǔ)方式多樣,如果把一個(gè)二維矩陣按行重新組織成一維直線(1個(gè)像元高度)。原本二維矩陣?yán)镒x取一行或一列都很方便,現(xiàn)在,在一維直線中讀取一行可以直接根據(jù)偏移量連續(xù)讀取,但是如果讀一列需要先算好起始點(diǎn)和長(zhǎng)度,然后每隔固定像元讀取一個(gè)像元,這種情況下就無(wú)法批量讀??;同樣如果將二維矩陣按列重新組織成一維直線,則按行批量讀取時(shí)也會(huì)有問(wèn)題。得益于云計(jì)算環(huán)境中同一份數(shù)據(jù)的多個(gè)冗余備份特性,在實(shí)際應(yīng)用中,將遙感影像既按行存儲(chǔ)也按列存儲(chǔ),并設(shè)計(jì)調(diào)度器對(duì)不同的遙感影像處理程序進(jìn)行調(diào)度,依據(jù)需要來(lái)處理按行存儲(chǔ)或按列存儲(chǔ)的一維數(shù)據(jù)。所以,實(shí)際存儲(chǔ)方式并不影響本文提出的算法模型及相關(guān)理論。只是基于不同的遙感數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)或存儲(chǔ)方式,需要對(duì)模型進(jìn)行具體化。同時(shí)針對(duì)不同的遙感影像處理方法,也需要對(duì)模型進(jìn)行具體化,還要考慮很多算法在實(shí)際應(yīng)用時(shí)的細(xì)節(jié),特別是容錯(cuò)性和健壯性問(wèn)題,這些都將是未來(lái)的研究工作的重點(diǎn)。此外,基于本文提出的概念和性質(zhì),遙感影像并行處理問(wèn)題還有很多其他的內(nèi)容可以研究,例如,負(fù)載均衡、質(zhì)量檢驗(yàn)等,而這些將在未來(lái)的研究工作中深入展開(kāi)。