王建樂 ,朱建華 ,何宇清 ,宋占杰
(1.天津大學(xué)電視與圖像信息研究所,天津 300072;2.國家海洋技術(shù)中心,天津 300112)
基于SOM的海表溫度遙感數(shù)據(jù)集的EOF算法重構(gòu)
王建樂1,朱建華2,何宇清1,宋占杰1
(1.天津大學(xué)電視與圖像信息研究所,天津 300072;2.國家海洋技術(shù)中心,天津 300112)
針對海表溫度數(shù)據(jù)集的數(shù)據(jù)缺失,提出了一種基于自組織映射算法(SOM)和經(jīng)驗(yàn)正交函數(shù)算法(EOF)有機(jī)結(jié)合的重構(gòu)缺失值的新方法。該方法應(yīng)用了SOM的非線性估計(jì),能夠很好的反映數(shù)據(jù)集的非線性結(jié)構(gòu),并把SOM估計(jì)的結(jié)果用于EOF算法的初始化,克服了EOF對數(shù)據(jù)集初始化敏感的問題。在處理過程中,對奇異值分解使用了lanczos算子分解矩陣,提高了程序運(yùn)行效率。此外,該方法還引入蒙特卡羅交叉校正集,確定最佳重構(gòu)的EOF模態(tài)數(shù),最終高精度計(jì)算出重構(gòu)誤差。使用AQUA遙感衛(wèi)星海表溫度數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果表明該方法能夠很好地重構(gòu)出缺失率高達(dá)83.23%的數(shù)據(jù)集,且重構(gòu)精度高。
遙感;海表溫度SST;SOM算法;EOF算法;lanczos算子
中分辨率成像光譜儀 (MODIS)是美國國家航空航天局(NASA)對地觀測系統(tǒng)(EOS)計(jì)劃中最有特色的傳感器之一。MODIS每兩天連續(xù)提供地球上任何地點(diǎn)白天反射圖像和晝夜的發(fā)光光譜圖像數(shù)據(jù),包括對地球陸地、海洋和大氣觀測的可見光和紅外波譜數(shù)據(jù)。MODIS在紅外大氣窗的5個(gè)波段可以用來反演SST[1]。相比其他海洋表面溫度的獲取方式,衛(wèi)星遙感具有大面積同步觀測、動(dòng)態(tài)與長期觀測、實(shí)時(shí)或者準(zhǔn)實(shí)時(shí)等特點(diǎn),同時(shí)具備費(fèi)用相對較低,可以監(jiān)測船舶、浮標(biāo)不易到達(dá)的海區(qū)等諸多優(yōu)點(diǎn)[2]。但是受氣候隨機(jī)變化的影響,數(shù)據(jù)的缺失給遙感產(chǎn)品的使用帶來了很大的限制。多數(shù)情況下傳統(tǒng)檢測雖然可以容忍部分?jǐn)?shù)據(jù)的缺失,但隨科技的發(fā)展,許多部門對完整的遙感數(shù)據(jù)集的需求越來越大。目前已經(jīng)發(fā)展了許多種方法來解決填充缺失值的問題,諸如最優(yōu)插值法(OI)、經(jīng)驗(yàn)正交函數(shù)分解法(EOF)、自組織映射法(SOM)、本征模態(tài)分解法(POD)、期望最大化法(EM)、奇異譜分析法(SSA)等等。這些方法大致可以分為兩類:確定性的方法和隨機(jī)性的方法[3]。本文旨在利用搭載在AUQA衛(wèi)星上的MODIS傳感器測得的遙感數(shù)據(jù)對我國長江口附近海域的海表溫度缺失數(shù)據(jù)進(jìn)行反演重構(gòu)研究,進(jìn)而分析該海域的物理現(xiàn)象。
自組織映射算法[3](Self-Organizing Maps,SOM)是一種非線性、隨機(jī)、可以對相同特性的個(gè)體進(jìn)行分類,強(qiáng)調(diào)各類別之間的相鄰結(jié)構(gòu)的算法。它模擬人腦中處于不同區(qū)域的神經(jīng)細(xì)胞分工不同的特點(diǎn),即不同區(qū)域具有不同的響應(yīng)特征,而且這一過程是自動(dòng)完成的。該算法基于無監(jiān)督學(xué)習(xí)法則,其訓(xùn)練完全是隨機(jī)的、數(shù)據(jù)之間的。自組織映射算法允許高維數(shù)據(jù)向低維網(wǎng)格數(shù)據(jù)的估計(jì)。盡管該估計(jì)聚焦在數(shù)據(jù)的拓?fù)涮匦陨?,但是SOM算法可以對缺失數(shù)據(jù)進(jìn)行非線性插值。
經(jīng)驗(yàn)正交函數(shù)算法[2](Empirical Orthogonal Functions,EOF)是一種線性、確定性、無參數(shù),并利用了遙感數(shù)據(jù)集時(shí)間和空間的相關(guān)性,能夠?qū)Ω呔S空間數(shù)據(jù)進(jìn)行線性估計(jì)的算法。EOF算法可以對缺失數(shù)據(jù)進(jìn)行連續(xù)地線性插值,而且與傳統(tǒng)的最優(yōu)插值(OI)相比,不需要遙感數(shù)據(jù)集的先驗(yàn)信息。但是由于其運(yùn)行時(shí)數(shù)據(jù)集不能有缺失值,所以對于數(shù)據(jù)集中缺失值的初始化比較敏感,這給EOF的應(yīng)用增加了負(fù)擔(dān)。
本文提出了一種基于SOM的EOF算法來重構(gòu)遙感數(shù)據(jù)集缺失值,該方法兼顧了自組織映射算法和經(jīng)驗(yàn)正交函數(shù)算法的優(yōu)點(diǎn)。首先利用SOM算法的非線性特性對原始數(shù)據(jù)去噪,隨后利用其運(yùn)行結(jié)果作為EOF算法處理時(shí)對數(shù)據(jù)集的初始化,再利用EOF算法對數(shù)據(jù)集進(jìn)一步去噪,最后利用其連續(xù)插值特性有效地重構(gòu)缺失數(shù)據(jù)。
SOM算法是一種基于無監(jiān)督的學(xué)習(xí)原則的算法,即訓(xùn)練完全是基于數(shù)據(jù)自身的,不需要輸入數(shù)據(jù)的信息的算法。針對此方法,本文使用了一個(gè)二維的網(wǎng)絡(luò),該網(wǎng)絡(luò)由形狀是矩形格子框架的c個(gè)單元(或編碼向量)組成。網(wǎng)絡(luò)的每一個(gè)單元都有數(shù)量和學(xué)習(xí)數(shù)據(jù)樣本xn(n=1,2,…,N)的長度T一樣多的權(quán)重。網(wǎng)絡(luò)的所有單元可以由一個(gè)權(quán)重矩陣m(t)=[m1(t),m2(t),…,mc(t)]組成,其中 mi(t)是在時(shí)間 t的 i單元的T維權(quán)重向量,t代表學(xué)習(xí)過程的步驟。每一個(gè)單元都通過鄰域函數(shù)λ(mi,mj,t)和其相鄰單元相連接,該鄰域函數(shù)定義了在時(shí)間t時(shí)鄰域的形狀和大小。該鄰域在整個(gè)學(xué)習(xí)過程中可以不變,也可以改變。
首先,學(xué)習(xí)過程開始于隨機(jī)的初始化網(wǎng)絡(luò)節(jié)點(diǎn)的權(quán)重。然后,再隨機(jī)的選擇樣本xt+1,進(jìn)而計(jì)算權(quán)重最接近樣本的神經(jīng)元——最佳匹配單元BMU(Best Matching Unit)。BMU定義為:
式中:I是網(wǎng)絡(luò)節(jié)點(diǎn)索引的集合。BMU指出了最佳匹配節(jié)點(diǎn)的索引,‖·‖是標(biāo)準(zhǔn)的歐式范數(shù)。
但是,如果隨機(jī)選擇的樣本包含缺失值,我們就不能完全地求解BMU。此時(shí),使用Cottrell和Letremy[4]的調(diào)整的SOM算法來代替。含有缺失值的隨機(jī)選擇的樣本xt+1分為兩個(gè)子集,其中前者是沒有缺失值的子集,后者是含有缺失值的子集。在沒有缺失值的子集上定義范數(shù):
式中:xt+1,k,k=[1,2,…,T]表示已選擇的數(shù)據(jù)向量的第 k個(gè)值;mi,k(t),k=[1,2,…,T],i=[1,2,…,c]表示第i個(gè)編碼向量的第k個(gè)值。k在沒有缺失值的子集遍歷所有的索引。然后,再計(jì)算BMU。
在找到了最佳匹配單元BMU后,網(wǎng)絡(luò)權(quán)重調(diào)整為:
式中:ε(t)是調(diào)整后獲得的參數(shù),值域?yàn)閇0,1],隨時(shí)間的增加而減小。在更新權(quán)重時(shí),需要考慮的神經(jīng)元數(shù)依賴于鄰域函數(shù)λ(mi,mj,t),需要權(quán)重調(diào)整的神經(jīng)元數(shù)通常是隨著時(shí)間減少的。
在更新權(quán)重后,下一個(gè)樣本被隨機(jī)地從數(shù)據(jù)矩陣中選出,程序通過尋找樣本的BMU被再次執(zhí)行。當(dāng)SOM算法收斂的時(shí)候,就停止遞歸的學(xué)習(xí)程序。此時(shí),得到了填充缺失值后的數(shù)據(jù)集。
Beckers[2]等在2003年提出了一種無參數(shù)的基于經(jīng)驗(yàn)正交分解(EOF)方法來重構(gòu)時(shí)間序列數(shù)據(jù)中缺失值。相比經(jīng)典的最優(yōu)插值(OI)法,有著不需要相關(guān)函數(shù)矩陣,信噪比(SNR)和相關(guān)長度等先驗(yàn)信息的優(yōu)勢。Alvera-Azcarate[5]等在2005年提出了基于EOF分解的數(shù)據(jù)插值方法——DINEOF(Data Interpolating Empirical Orthogonal Functions),對1995年5月9日到10月22日的6個(gè)月的AVHRR衛(wèi)星數(shù)據(jù)(剔除了其中數(shù)據(jù)缺失比例小于5%的圖像)進(jìn)行了缺失值重構(gòu),并且引進(jìn)了交叉校正集,允許建立EOF過程中的最優(yōu)截?cái)嗪蛯θ笔≈档墓烙?jì)誤差(從交叉校正集中獲得)。并且與最優(yōu)插值法(Optimal Interpolation,OI)進(jìn)行了比較,DINEOF 法與 OI法有相似的重構(gòu)精度,但是后者程序的運(yùn)行時(shí)間比前者高了30多倍。
本文使用了Alvera-Azcarate[5-6]的DINEOF,其工作原理如下:
假設(shè)X0為m×n維的二維數(shù)據(jù)矩陣,其中m>n(m是空間維,n是時(shí)間維),X0中包括一些缺失值,本文用NaN表示缺失值。
數(shù)據(jù)的去均值和初始化。計(jì)算X0中有效數(shù)據(jù)的均值0,令 X=X0-0;隨機(jī)挑選部分有效數(shù)據(jù)點(diǎn)集 Xcv作為獲取最佳重構(gòu)模態(tài)數(shù)的交叉校正集(本文使用蒙特卡羅交叉校正集[7]);對X中的處于交叉校正集的位置的值賦值為NaN;對X中所有的NaN用0代替,使缺失值的初始值為數(shù)據(jù)集的無偏估計(jì)值。同時(shí),令k=1。
對X使用式(5)進(jìn)行奇異值分解SVD,得到最主要的k個(gè)模態(tài),使用式(6)計(jì)算缺失點(diǎn)的重構(gòu)值。
式中:U,S,V分別對應(yīng)SVD分解后數(shù)據(jù)集的空間模態(tài)矩陣、奇異值矩陣和時(shí)間模態(tài)矩陣;T表示矩陣的轉(zhuǎn)置。
式中:i,j為矩陣的空間與時(shí)間下標(biāo);up和vp分別是空間模態(tài)U和時(shí)間模態(tài)V的第p列;ρp為相應(yīng)的奇異值,p=1,2,…,k。該過程迭代N次(N為運(yùn)行程序前設(shè)定的最大的迭代次數(shù)),并且計(jì)算交叉校正集Xcv的重構(gòu)值與原始值的均方根誤差RMS。
令k=2,…,kmax,重復(fù)上述步驟,計(jì)算出對應(yīng)的均方根誤差,比較得出均方根誤差值最小時(shí)對應(yīng)的模態(tài)數(shù)P,其中,kmax是根據(jù)時(shí)間維數(shù)n確定的(kmax≤n)。缺失點(diǎn)集的值用P模態(tài)時(shí)計(jì)算的重構(gòu)值替換,交叉校正點(diǎn)集Xcv處的值用原始值替換,令 k=P,重復(fù)公式(5)、(6)對 X 的分解與重構(gòu),計(jì)算出所有點(diǎn)的重構(gòu)值,仍記為X。再令X=X+0,此時(shí)就得到了重構(gòu)的數(shù)據(jù)集。
針對EOF算法執(zhí)行過程中奇異值分解SVD大矩陣效率低的問題,本文引入lanczos算子[8]加速SVD分解過程。又針對EOF算法的迭代過程效率低(一般預(yù)先設(shè)定的迭代次數(shù)都比實(shí)際使用的次數(shù)多)的問題,使用丁又專[9]提出的迭代收斂準(zhǔn)則,實(shí)驗(yàn)表明,該迭代準(zhǔn)則能夠很大程度上提高程序運(yùn)行效率。
本文將上述兩種方法進(jìn)行有機(jī)結(jié)合。首先運(yùn)行非線性估計(jì)的SOM算法重構(gòu)缺失值,然后用SOM估計(jì)的結(jié)果作為運(yùn)行EOF方法的初始化值。
對于SOM算法,需要選擇最優(yōu)的網(wǎng)格大小c;對于EOF算法,需要選擇奇異值和奇異向量的最優(yōu)數(shù)p。這兩個(gè)參數(shù)的選擇是為了使用蒙特卡羅交叉校正集[7],并且對于c和p這兩個(gè)參數(shù)的所有組合都使用相同的交叉校正集。最后,使用給出最小交叉校正誤差的SOM和EOF的參數(shù)組合來最終重構(gòu)數(shù)據(jù)的缺失值。
該算法中使用的蒙特卡羅交叉校正集的每一個(gè)校正集的均方根誤差的計(jì)算公式為:
式中:dataFilled表示插值后的測試數(shù)據(jù);testdata表示插值前的測試數(shù)據(jù);N表示插值數(shù)據(jù)的總數(shù)。
本文使用MODIS衛(wèi)星數(shù)據(jù)反演長江入??诟浇S?,從2010年8月1日到2010年11月8日的海表溫度(SST)數(shù)據(jù)集(http://oceancolor.gsfc.nasa.gov/cgi/browse.pl?sen=am)。選擇裝載在AQUA遙感衛(wèi)星上的MODIS L2海表溫度產(chǎn)品。為了更好地利用數(shù)據(jù)的時(shí)間空間相關(guān)性,鑒于海表溫度的保守性,數(shù)據(jù)是每隔約3 d取1次的衛(wèi)星遙感海表溫度資料,總共37幅圖像。選擇長江入??谧鳛楸疚难芯繀^(qū)域進(jìn)行試驗(yàn),其坐標(biāo)范圍為 26°N~34°N,120°E~128°E,觀測數(shù)據(jù)像素點(diǎn)的分辨率是1 km。而且,為了避免白天海洋表面熱氣等因素的影響,增加重構(gòu)精度,研究中只選擇使用夜間的數(shù)據(jù)。
首先對最原始的下載的數(shù)據(jù)壓縮包進(jìn)行解壓縮,然后利用seadas軟件導(dǎo)出每一張圖像的數(shù)據(jù)。由于系列圖像的數(shù)據(jù)值的經(jīng)緯度坐標(biāo)存在偏差,需要利用surfer軟件對數(shù)據(jù)進(jìn)行網(wǎng)格化操作來校正坐標(biāo)。另外,原始數(shù)據(jù)中包含有陸地,還需要剔除陸地值以減少數(shù)據(jù)的重構(gòu)誤差。本文利用ArcGIS軟件做出研究區(qū)域的陸地模板,剔除每一天圖像中的陸地部分,就構(gòu)成了可以進(jìn)行處理的海表溫度的原始數(shù)據(jù)集。處理后的數(shù)據(jù)包含37幅含有云覆蓋的圖像,每幅圖像包含121×121 個(gè)像素,覆蓋區(qū)域是 26°N~34°N,120°E~128°E。
經(jīng)過上述處理后,數(shù)據(jù)集中的云的平均覆蓋率高達(dá)83.23%,有些時(shí)刻的數(shù)據(jù)缺失率接近100%,亦即該天的遙感數(shù)據(jù)基本沒有,最高的也只不過是42.00%。與J MBeckers(2003)的數(shù)據(jù)預(yù)處理不同,本文沒有剔除云覆蓋率在95%以上的圖像。
利用該算法重構(gòu)長江口附近海域的SST。從原始數(shù)據(jù)中選取五重交叉校正集作為蒙特卡羅交叉校正集,每個(gè)交叉校正集的數(shù)據(jù)占原始數(shù)據(jù)集的比例是5%,初始化方法是把每一時(shí)間維的平均值作為該列數(shù)據(jù)中的缺失值的代替值。預(yù)設(shè)定的最大EOF數(shù)是10(由于使用的數(shù)據(jù)集的缺失率很高,故選取的EOF數(shù)比較小,但是符合客觀情況)。
圖1是重構(gòu)前后的對比圖[1]。其中,圖1A為2010年8月1日的SST,圖1B為2010年9月21日的SST,圖1C為2010年10月27日的SST;圖1D、1E和1F分別為對應(yīng)的數(shù)據(jù)重構(gòu)后的結(jié)果。9月到10月的時(shí)間段正是海表溫度逐漸降低的過程,從圖1E和圖1F可以看出,重構(gòu)后的海溫分布圖很好地體現(xiàn)了這一海溫漸變的過程,同時(shí)海洋的流場形態(tài)能夠保持,未因重構(gòu)后的插值而破壞。而更值得注意的是這3張?jiān)紙D像,每一幅圖的數(shù)據(jù)缺失率都是相當(dāng)高的,分別是42.00%(本實(shí)驗(yàn)中缺失率最低的)、81.39%和97.53%。尤其是在存在大面積空缺時(shí),傳統(tǒng)的插值方法難以達(dá)到這樣的補(bǔ)缺效果,特別是圖1C,采用一般的重構(gòu)算法無法進(jìn)行補(bǔ)缺。而本文中提出的算法在首先經(jīng)過SOM插值結(jié)果對EOF的初始化,再經(jīng)過經(jīng)驗(yàn)正交函數(shù)來提取數(shù)據(jù)在空間及時(shí)間域上的物理特征,通過保留最佳的模態(tài)數(shù)可對缺失的物理觀測數(shù)據(jù)進(jìn)行有效地重構(gòu),同時(shí)保持了數(shù)據(jù)的時(shí)空分布特征,而在本實(shí)驗(yàn)中數(shù)據(jù)集的總體缺失率高達(dá)83.23%,相對缺失率比較低的數(shù)據(jù)集存在更多噪聲的情況下,也能夠達(dá)到這樣的效果。
圖1 重構(gòu)前后對比圖
本實(shí)驗(yàn)數(shù)據(jù)集的最佳模態(tài)數(shù)為2,兩個(gè)模態(tài)對原始數(shù)據(jù)中總方差的解釋比例分別為89.92%和2.93%。前2個(gè)模態(tài)已經(jīng)解釋了原始數(shù)據(jù)中總方差的92.85%。最主要的2個(gè)空間模態(tài)如圖2所示。第1空間模態(tài)(圖2A)的SST在空間上大致呈現(xiàn)出西北方向海域至東南海域方向數(shù)值依次增加的趨勢,正好反映了該研究區(qū)域內(nèi)溫度分布從西北到東南海域方向依次遞增的客觀情況,而且在30°N的水平方向上呈現(xiàn)出臺灣暖流與東海水團(tuán)相遇的狀態(tài)。而這種情況符合該海域的水溫變化趨勢。第2空間模態(tài)(圖2B)還刻畫了江蘇沿岸流和長江入??趯氐挠绊?。冬季陸地溫度比海洋溫度低,而沿岸水溫受大陸影響,溫度比鄰近海域偏低。
雖然SOM可以單獨(dú)重構(gòu)數(shù)據(jù),但本文給出的新算法重構(gòu)出的交叉校正誤差更小,見圖3。
圖2 本試驗(yàn)SST的2個(gè)最主要特征模態(tài)圖
圖3 SOM與SOM+EOF的對比
圖4 測試數(shù)據(jù)和重構(gòu)后數(shù)據(jù)的散點(diǎn)圖
由于該區(qū)域空間變異較大,使用幾個(gè)空間模態(tài)來重構(gòu),而且該原始數(shù)據(jù)集的缺失率相當(dāng)高,質(zhì)量受到多方面的干擾而較差,使得重構(gòu)后的數(shù)據(jù)集表現(xiàn)出來的特征不明顯,對空間變異大的地方解釋能力也不強(qiáng)。
在選擇測試數(shù)據(jù)和校正數(shù)據(jù)后,這些數(shù)據(jù)在原始數(shù)據(jù)集中都當(dāng)做缺失值處理,而且原始數(shù)據(jù)中也包含噪聲,這樣勢必增加了數(shù)據(jù)處理時(shí)的數(shù)據(jù)的缺失率,又因?yàn)樵緮?shù)據(jù)集的缺失率就很高(高達(dá)83.23%),所以在重構(gòu)的結(jié)果中就反映出來了。但是,不可否認(rèn),本算法作用于該遙感數(shù)據(jù)集后(37幅圖像的數(shù)據(jù)集,總共有數(shù)據(jù)點(diǎn)909 577個(gè),缺失數(shù)據(jù)點(diǎn)總共798 239個(gè)),重構(gòu)的誤差為0.408 3℃,這個(gè)數(shù)值的確已經(jīng)滿足需求(Alvera-Azcárate[5]的算法,其誤差為0.744 0℃)。測試數(shù)據(jù)和重構(gòu)后數(shù)據(jù)的散點(diǎn)圖更好地說明了實(shí)驗(yàn)結(jié)果,如圖4(由于實(shí)驗(yàn)數(shù)據(jù)點(diǎn)數(shù)量很大,所以只選取了前100個(gè))。
SOM通過尋找最優(yōu)參考矢量集合來對輸入模式集合進(jìn)行分類。每個(gè)參考矢量為一輸出單元對應(yīng)的連接權(quán)向量。SOM能夠通過其輸入樣本學(xué)會檢測其規(guī)律性和輸入樣本相互之間的關(guān)系,并且根據(jù)這些輸入樣本的信息自適應(yīng)調(diào)整網(wǎng)絡(luò),使網(wǎng)絡(luò)以后的響應(yīng)與輸入樣本相適應(yīng)。SOM神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)能夠識別成組的相似輸入向量,使網(wǎng)絡(luò)層中緊鄰的神經(jīng)元對相似的輸入向量產(chǎn)生響應(yīng)。自組織映射神經(jīng)網(wǎng)絡(luò)不但能學(xué)習(xí)輸入向量的分布情況,還可以學(xué)習(xí)輸入向量的拓?fù)浣Y(jié)構(gòu),其單個(gè)神經(jīng)元對模式分類不起決定性作用,要靠多個(gè)神經(jīng)元的協(xié)同。
傳統(tǒng)意義上講,SOM和EOF都能各自的填充缺失數(shù)據(jù),但是實(shí)驗(yàn)表明聯(lián)合使用這兩種方法的效果更好。首先,SOM算法可以非線性估計(jì)。在這種意義上,即使數(shù)據(jù)集有復(fù)雜的非線性結(jié)構(gòu),SOM的編碼向量也能夠成功地捕捉數(shù)據(jù)的非線性特性。同時(shí),該估計(jì)法是在低維的網(wǎng)格(本文是二維的)操作的,這很可能失去數(shù)據(jù)的內(nèi)在信息。其次,EOF算法是使用奇異值分解SVD進(jìn)行的線性估計(jì)。正因?yàn)槿绱?,EOF算法將不能反映數(shù)據(jù)集的非線性結(jié)構(gòu),但是其估計(jì)的空間維數(shù)可以像輸入數(shù)據(jù)一樣高,而且該算法還是連續(xù)估計(jì)的。鑒于此,采取這兩種算法的聯(lián)合的新算法揚(yáng)長避短,最終使得數(shù)據(jù)集的重構(gòu)效果更好。
在下一步的研究工作中,如需要處理更大型的數(shù)據(jù)矩陣時(shí),還需要做一些附加的優(yōu)化工作,例如整個(gè)算法處理過程中,數(shù)據(jù)集的數(shù)據(jù)點(diǎn)的有效性的判斷以減少整個(gè)數(shù)據(jù)集的污染,SOM算法的訓(xùn)練法則的改進(jìn)以及EOF收斂準(zhǔn)則的改善以提高整個(gè)程序的效率等。在將來的研究工作中,還會考慮利用該算法應(yīng)用于其他一些海洋遙感要素進(jìn)行重構(gòu),例如海水鹽度、懸浮物濃度、葉綠素濃度等。
[1]盛崢,石漢青,丁又專.利用DINEOF方法重構(gòu)缺測的衛(wèi)星遙感海溫?cái)?shù)據(jù)[J].海洋科學(xué)進(jìn)展,2009,27(2):243-249.
[2]BECKERSJ,RIXENM.EOF calculations and data fillingfromincomplete oceanographic datasets[J].Journal ofAtmospheric and Oceanic Technology,2003,20(12):1839-1856.
[3]SORJAMAAA,MERLINP,MAILLETB,et al.SOM+EOF for findingmissingvalues[C]//European Symposiumon Artificial Neural Networks.Bruges,Belgium:d-side publication.,2007:115-120.
[4]COTTRELL M,LETREMY P.Missingvalues:Processingwith the kohonen algorithm[C]//Dans ASMDA 2005 CD-ROMProceedings-ASMDA 2005,Brest,France,2005:489-496.
[5]ALVERA-AZCARATE A,BARTH A,RIXEN M,et al.Reconstruction of incomplete oceanographic data sets using Empirical Orthogonal Functions:Application tothe Adriatic Sea surface temperature[J].Ocean Modelling,2005,9(4):325-346.
[6]ALVERA-AZCARATE A,BARTH A,BECKERS J,et al.Multivariate reconstruction ofmissingdata in sea surface temperature,chlorophyll,and wind satellite fields[J].Journal ofGeophysical Research,2007,112:C03008.
[7]LENDASSE A,WERTZ V,VERLEYSEN M.Model selection with cross-validations and bootstraps-application to time series prediction with rbfn models[J].LNCSSpringer-Verlag,2003,2714:573-580.
[8]TOUMAZOU V,CRETAUX J.Using a Lanczos eigensolver in the computation of empirical orthogonal functions[J].Monthly Weather Review,2001,129(5):1243-1250.
[9]丁又專.衛(wèi)星遙感海表溫度與懸浮泥沙濃度的資料重構(gòu)及數(shù)據(jù)同化試驗(yàn)[D].南京:南京理工大學(xué),2009.
EOF Method to Reconstruct SST Remote Sensing Dataset Based on SOM
WANG Jian-le1,ZHU Jian-hua2,HE Yu-qing1,SONG Zhan-jie1
(1.Institute of TV and Image Information,Tianjin University,Tianjin 300072,China;2.National Ocean Technology Center,Tianjin 300112,China)
For the missing data of SST dataset,a method based on SOM and EOF algorithms to reconstruct the missing data was proposed,which could use the nonlinear estimation of SOM to reflect the nonlinear structure of dataset and could initialize the input of EOF algorithm utilizing the result of SOM to get rid of the sensitivity problem of EOF initialization to dataset.In the process of SVD,Lanczos operator was used to decompose matrix so as to enhance the efficiency of procedure.Monte-Carlo cross validation was introduced to assure the optimal mode EOF number and calculate the error of reconstruction.After using AQUA satellite remote sensing SST data,the result shows that this method can reconstruct the dataset with missing rate of 83.23%and have a high reconstruction precision.
remote sensing;SST;SOM algorithm;EOF algorithm;Lanczos operator
TP75
A
1003-2029(2012)01-0067-05
2011-05-24
國家自然科學(xué)基金資助項(xiàng)目(60872161)
王建樂(1986-),男,碩士生,主要研究方向?yàn)殡S機(jī)信號處理和海態(tài)參數(shù)估計(jì)。
何宇清(1973-),男,博士,講師,主要研究方向?yàn)閿?shù)字信號處理和數(shù)字圖像處理。