陳艷攏,王曉嵐,李 恩,宋梅萍,包海默
1. 中國石油大學(華東)地球科學與技術學院,山東 青島 266580 2. 國家海洋環(huán)境監(jiān)測中心,遼寧 大連 116023 3. 大連海事大學信息科學技術學院,遼寧 大連 116026 4. 大連民族大學設計學院,遼寧 大連 116600
高光譜遙感可以利用成像光譜儀納米級的光譜分辨率,獲取大量窄且連續(xù)的光譜圖像數(shù)據(jù),同步得到地物的空間、輻射和光譜信息,在地物的細節(jié)描述和種類識別方面具有其他傳感技術不可比擬的優(yōu)勢,被廣泛應用于土地資源利用、災害監(jiān)測、地質評估、環(huán)境保護和農林調查等領域。 大量連續(xù)波段在刻畫地物屬性的同時,也產生出龐大的圖像數(shù)據(jù)量,給數(shù)據(jù)分析和傳輸帶來嚴重負擔。 波段選擇技術只保留包含更多有用細節(jié)信息的波段子集,不破壞原始數(shù)據(jù)的光譜特性和物理意義,在相關研究中備受關注。
波段的選擇原則,通常是根據(jù)波段信息量和波段間關系進行定義,如方差、信息熵、信息散度、相關性等,主要以降低數(shù)據(jù)量且保持多樣性為目的[1]; 也可以面向后續(xù)數(shù)據(jù)分析任務的特性進行定義,如高光譜解混任務中的最大單形體體積[2],異常探測任務中的高階統(tǒng)計量等[3],以加快執(zhí)行速度且利于任務效果為目的。 在面向任務的波段選擇中,針對監(jiān)督式情況下分類任務的研究較多[4],而對非監(jiān)督情況下目標檢測、定量分析等任務的研究卻相對不足[5]。
另一方面,水是人類賴以生存、生活、生產的基礎,然而,隨著工農業(yè)經(jīng)濟的高速發(fā)展,大量的工農業(yè)廢水、污水未經(jīng)處理排入江、河、湖、海,特別是與人們日常用水密切相關的內陸河、近海河口等位置。 水的流動性加劇了水質的惡化,破壞了自然生態(tài)系統(tǒng),威脅到了人類的正常用水,水質的污染問題已經(jīng)成為制約我國經(jīng)濟可持續(xù)發(fā)展的關鍵因素,因此,對水污染的治理以及對水體的動態(tài)監(jiān)測顯得極為必要與緊迫。 傳統(tǒng)的河流、湖泊水質監(jiān)測主要是采用實地采樣和實驗室分析等方法,需要進行現(xiàn)場取點采樣后送至實驗室,通過化學分析技術進行分析,獲得局部水域的水質情況。 這種監(jiān)測方法雖然精確度高,但需耗費大量的人力、物力,且涵蓋區(qū)域有限,不能對整體水域的水質情況進行實時監(jiān)測與管理。
隨著遙感技術的發(fā)展和成熟,遙感影像數(shù)據(jù)被廣泛運用于水質監(jiān)測中,彌補了水面采樣的不足,能發(fā)現(xiàn)一些常規(guī)方法難以揭示的污染源的分布。 國內外許多學者陸續(xù)開展了通過遙感影像數(shù)據(jù)反演并估算水質參數(shù)含量的相關研究,如王麗艷[6]等利用MODIS數(shù)據(jù)反演呼倫湖水體總磷濃度并進行富營養(yǎng)化評價; 溫新龍等[7]基于環(huán)境一號衛(wèi)星數(shù)據(jù)對太湖的葉綠素a濃度進行反演; 馮馳等[8]利用GOCI影像和水體光學分類對葉綠素a濃度進行估算; 杜成功等[9]基于遙感數(shù)據(jù)反演太湖總磷濃度并研究其日內變化; 王云霞等[10]基于Landsat衛(wèi)星影像研究總磷濃度反演; 馬馳[11]基于遙感影像,采用回歸分析的方法對松嫩平原水體的葉綠素a和懸浮物含量進行反演研究。 隨著高光譜遙感技術的不斷發(fā)展,其高分辨率、多波段、圖譜合一的獨特優(yōu)點被廣泛應用于水質監(jiān)測,如潘潔等[12]通過提取高光譜遙感信息對射陽河口懸浮泥沙濃度定量反演; 徐良將等[13]利用實測光譜數(shù)據(jù),通過微分法和波段比值法對總氮總磷濃度的反演等高光譜遙感在水質監(jiān)測中的應用為水質的監(jiān)測與管理提供了更多的數(shù)據(jù)支持,大大提高了水質參數(shù)的估算精度。
本研究針對待分析目標,面向數(shù)據(jù)分析任務研究有效的波段選擇方法。 然后,將該方法用于水質中特定成分的定量分析。 使用六旋翼無人機搭載Nano微型機載高光譜成像儀(光譜范圍為400~1 000 nm,共有270個波段),以遼河口為實驗區(qū)進行高光譜數(shù)據(jù)采集,結合實地采樣的數(shù)據(jù),對遼河口的水質參數(shù)含量建立反演模型,進行系統(tǒng)的驗證與估算。
高光譜數(shù)據(jù)波段數(shù)量多,信息量豐富,但特定地物的感興趣因素通常集中表現(xiàn)在有限的光譜屬性中,選擇對待分析目標敏感的波段組合,可以更有效地建立反演和預測模型,常用基于皮爾遜相關系數(shù)進行波段選擇。
皮爾遜相關系數(shù)(Pearson correlation coefficient, PCC),又稱皮爾遜積矩相關系數(shù),是用于度量兩個變量X和Y之間的相關程度,其值介于-1與1之間; 皮爾遜相關系數(shù)定義為兩個變量之間的協(xié)方差和標準差的商,常用英文小寫字母r代表,如式(1)
(1)
傳統(tǒng)的波段選擇方法是將各波段的光譜反射率信息與濃度作為兩個變量,通過PCC度量二者之間的相關程度,選擇若干具有代表性的波段進行建模。
若將由待分析目標的定量變化值組成的向量看作目標信號,將所有光譜波段值組成的向量看作觀測信號,采用信號匹配濾波器方法可以找出與目標向量匹配度高,且具有干擾抑制作用的波段集合。
約束能量最小化(constrained energy minimization, CEM)算法是有效的高光譜目標檢測算法,基于該算法可以檢測出與濃度向量匹配度高的波段集合。 但因為波段(尤其是相鄰波段)間的相關性,所檢波段集合存在冗余度高的問題。 為此擬結合正交原理,對候選波段集合中的觀測向量進行正交投影,最大程度地選擇與濃度向量匹配度高且與已有波段向量冗余度低的波段,具體算法原理和流程如下所述。
1.2.1 CEM算法原理
CEM算法是在已知目標而未知背景的情況下對目標進行檢測的算法,其思想是先進行背景抑制然后進行匹配濾波,從而增強目標強度而抑制削弱背景或其他干擾信號,進而實現(xiàn)目標識別。 當目標信息占總成分的比例很小的時候,CEM算法檢測效果更突出,適用于在未知的復雜背景下,對已知感興趣目標的檢測。
CEM算法流程圖如圖1所示,基本步驟如下:
(1) 對高光譜數(shù)據(jù)進行預處理,得到歸一化后的二維數(shù)據(jù)r(L×Ν);
(2) 根據(jù)高光譜數(shù)據(jù)r,計算其自相關矩陣R;
(3) 確定目標向量d;
(5) 將歸一化后的數(shù)據(jù)經(jīng)過FIR濾波器,根據(jù)以下公式得到輸出信號yi。
圖1 CEM算法步驟Fig.1 Algorithmic steps of CEM
1.2.2 基于CEM的波段選擇算法
本波段選擇算法是利用CEM算法結合正交子空間投影(orthogonal subspace projection, OSP)進行波段選擇。
正交子空間投影是將端元光譜矩陣M分為兩部分: 感興趣部分和非感興趣部分,即Μ=[P,U],P代表感興趣部分,U代表非感興趣部分,在眾多數(shù)據(jù)中,為了突出感興趣部分而對非感興趣部分進行抑制,OSP算法針對于非感興趣部分U構造正交投影算子表達形式如(2)
U#=(UTU)-1UT
(2)
(3)
圖2 CBS算法步驟Fig.2 Algorithmic steps of CBS
遼河是中國七大河流之一,位于中國東北地區(qū)南部,界于東經(jīng)117°00′—125°30′,北緯40°30′—45°10′之間,發(fā)源于河北省平泉縣七老圖山脈的光頭山,流經(jīng)河北、內蒙古、吉林、遼寧,全長1 345 km,注入渤海,被稱為遼寧人民的“母親河”。 但近年來由于大量非法排污,遼河成為我國污染最嚴重的河流之一,導致遼河水域生物無法存活,無法灌溉農業(yè),威脅到了當?shù)鼐用裾o嬎?故本研究區(qū)域選在遼寧省盤錦市盤山紅海岸附近,位于遼河的入??冢颂幱屑t海灘景觀和世界最大的蘆葦蕩,是國家級自然保護區(qū),水質的好壞也影響到了保護區(qū)的生態(tài)環(huán)境。
2.2.1 水樣采集與分析
2018年10月11日在研究區(qū)內進行現(xiàn)場取樣,規(guī)劃了8個點位進行現(xiàn)場水樣的采集,將取樣用的采樣瓶置入水中,采樣過程中嚴禁水中雜質進入采樣瓶,采集結束后做好密封操作,將采樣瓶置于陰涼處,待八個點均取樣結束后,盡快將水樣送回實驗室進行化學分析與水質參數(shù)含量測定。
2.2.2 高光譜遙感數(shù)據(jù)的采集
2018年10月11日(天氣晴朗,采光條件良好),在現(xiàn)場水樣提取的同時,進行高光譜數(shù)據(jù)的采集。 將Nano微型機載高光譜成像儀搭載在大疆公司的六旋翼無人機MATRICE600PRO上,飛行區(qū)域大小為1.5 km×0.5 km,飛行高度設置在飛行區(qū)上空400 m處,飛行速度控制在7.7 m·s-1。 采集結束后,利用Hyperspec Ⅲ高光譜數(shù)據(jù)分析軟件對圖像進行反射率校準和幾何校準,然后在ENVI遙感圖像處理平臺上對圖像進行拼接與裁剪操作,得到涵蓋8個采樣點的高光譜圖像。
現(xiàn)場一共采取8個水樣,選擇5個樣點用于總磷反演模型的構建,另外3個樣點用來檢驗模型的反演精度。
3.1.1 基于PCC波段選擇的總磷反演模型的構建
根據(jù)各個樣點的經(jīng)緯度信息在高光譜遙感圖像上獲取對應點的光譜反射率,再與總磷濃度進行皮爾遜相關性,如圖3所示為總磷濃度與光譜反射率在不同波段處的相關程度。
圖3 總磷濃度與反射率在不同波段的相關程度Fig.3 Relevance between concentrationof TPand reflectivity in different bands
圖4 各波段與總磷濃度矩陣的匹配程度Fig.4 Matching degree of each band withTP concentration matrix
選擇10個相關系數(shù)較高的波段進行模型的構建,分別為:R19,R31,R43,R49,R57,R58,R75,R155,R161,R167,其中,Ri(i=1,…,270)代表各波段對應的反射率,考慮到總磷濃度受多個變量的影響,故將這些波段同時作為變量進行逐步回歸分析,建立多元線性回歸模型,其基本思想是將變量逐個引入模型,進行F檢驗,對選入的變量逐個進行T檢驗,若檢驗表明回歸效果顯著,則引入回歸方程,若回歸效果不顯著,則剔除作用不顯著的變量,更新回歸方程,這一過程反復迭代,直到?jīng)]有不顯著變量從回歸方程中剔除,也沒有顯著變量引入為止。 實驗最終篩選出3個顯著變量,即3個敏感波段,分別為R19,R31,R43,多元回歸模型為
Y=-149 835R19-5 965.82R31+83 337.6R43+62.859 5
其中,Y為濃度預測值,該模型的擬合度R2為0.975 27,均方根誤差RMSE為3.544 7,表明該模型擬合效果良好。
3.1.2 基于CEM波段選擇的總磷反演模型的構建
圖4是利用CEM算法得到的各波段與總磷濃度矩陣的匹配程度,選擇的匹配程度最高的波段信號R140。
最終通過顯著性波段選擇算法選擇出6個具有代表性的波段,分別為R140,R80,R95,R161,R94,R131,同理將這些波段同時作為變量進行逐步回歸分析,建立多元線性回歸模型,最終篩選出3個敏感波段,分別為R95,R161,R131,多元回歸模型為
Y=7 524.18R95+7 960.14R161-15 614.8R131+106.823
該模型的擬合度R2為0.866 899,均方根誤差RMSE為8.223 54,表明該模型擬合效果較好。
3.1.3 總磷反演模型精度檢驗
前兩小節(jié)分別利用PCC和基于CEM的波段選擇算法(CEM-based Band Selection,CBS)兩種方法對高光譜圖像進行波段選擇,然后利用選擇好的波段進行建模,本小節(jié)對2種方法反演的模型進行精度檢驗,表1是3個檢驗樣點在兩種方法下的總磷濃度的反演值與實測值的對比,其中,相對誤差為|(反演值-實測值)|/實測值。
表1 在2種方法下的總磷濃度的反演值與實測值的對比Table 1 Comparison of inversion values and measured values of TP concentration using two methods
由表1可知,利用CBS方法選擇波段構造的反演的模型,雖然擬合度不高,但預測值更為準確,反演的濃度更接近實測值,相對誤差最高為11.3%,最低為3.1%,平均相對誤差為8.17%。
同總磷,選擇5個樣點用于總氮反演模型的構建,另外3個樣點用來檢驗模型的反演精度。
3.2.1 基于PCC波段選擇的總氮反演模型的構建
將各波段的光譜反射率與總氮濃度進行皮爾遜相關性分析,如圖5所示為總氮濃度與光譜反射率在不同波段處的相關程度。
圖5 總氮濃度與反射率在不同波段的相關程度Fig.5 Relevance between concentration of TNand reflectivity in different bands
選擇10個相關系數(shù)較高的波段建模,這10個波段分別為:R164,R165,R200,R203,R204,R207,R209,R211,R215,R227,同理,這些波段同時作為變量進行逐步回歸分析,建立多元線性回歸模型,最終篩選出2個變量,即2個敏感波段,分別為R209,R215,多元回歸模型為
Y=-1 300 870R209+1 453 550R215+898.555
該模型的擬合度R2為0.965 618,均方根誤差RMSE為53.550 9,表明該模型擬合效果良好。
3.2.2 基于CEM波段選擇的總氮反演模型的構建
圖6是利用CEM算法得到的各波段與總氮濃度矩陣的匹配程度,選擇的匹配程度最高的波段信號為R80。
圖6 各波段與總氮濃度矩陣的匹配程度Fig.6 Matching degree of each band withTN concentration matrix
最終通過顯著性波段選擇算法選擇出6個具有代表性的波段,分別為R80,R58,R156,R95,R94,R78,同理將這些波段同時作為變量進行逐步回歸分析,建立多元線性回歸模型,最終篩選出3個敏感波段,分別為R80,R58,R156,多元回歸模型為
Y=-158 206R80+115 568R58+98 478.1R156+1 048.31
該模型的擬合度R2為0.994 887,均方根誤差RMSE為29.206,表明該模型擬合效果較好。
3.2.3 總氮反演模型精度檢驗
前兩小節(jié)分別利用PCC和CBS兩種方法對高光譜圖像進行波段選擇,然后利用選擇好的波段進行建模,本小節(jié)對2種方法反演的模型進行精度檢驗,表2是3個檢驗樣點在2種方法下的總氮濃度的反演值與實測值的對比。
表2 在2種方法下的總氮濃度的反演值與實測值的對比Table 2 Comparison of inversion values and measured values of TN concentration using two methods
由表2可知,利用CBS方法選擇波段反演的模型更為準確,反演的濃度最接近實測值,相對誤差最高為23.4%,最低為4.4%,平均相對誤差為12.4%。
基于高光譜遙感數(shù)據(jù),研究有效波段的選擇方法,提出了一種基于CEM的濃度敏感波段選擇方法,深入探討分析了不同波段選擇方法對氮磷濃度反演模型精度的影響。
(1)總磷含量的反演中,對比了PCC和CBS兩種波段選擇方法下反演模型的精度,利用CBS方法選擇波段構造的反演模型,雖然擬合度不高,但預測值更為準確,平均相對誤差為8.17%。
(2)總氮含量的反演中,利用CBS方法選擇波段構造的反演模型,擬合效果優(yōu)于PCC,且預測值也更為準確,平均相對誤差為12.4%。
本工作的創(chuàng)新之處在于提出了基于CEM的濃度敏感波段選擇方法,該方法能夠最大程度地選擇與濃度向量匹配度高且與已有波段向量冗余度低的波段,氮磷數(shù)據(jù)的分析比較表明了CBS的波段選擇能力優(yōu)于PCC,這一方法對高光譜數(shù)據(jù)的波段選擇也具有一定的指導作用。