李曼,徐楠楠
(南京郵電大學(xué)通信與信息工程學(xué)院,南京210000)
準(zhǔn)確地預(yù)知降水量的時(shí)空分布對(duì)農(nóng)業(yè)、畜牧業(yè)、放牧、能源生產(chǎn)有著重要且直接的影響,與臺(tái)風(fēng)、洪水、干旱和泥石流等災(zāi)害也存在密切聯(lián)系。受地形、水汽來(lái)源等多因素影響,降水的時(shí)空差異性較大[1],因此,如何精確估計(jì)降水的時(shí)空特征仍然面臨著巨大的挑戰(zhàn)。降水的測(cè)量包括傳統(tǒng)的地面氣象站的測(cè)量,以及衛(wèi)星遙感監(jiān)測(cè)[2]。在偏遠(yuǎn)山區(qū),氣象站的雨量計(jì)相對(duì)稀少且分布不佳導(dǎo)致降雨量的測(cè)量困難。近幾十年來(lái),衛(wèi)星遙感監(jiān)測(cè)在不斷地發(fā)展與進(jìn)步,新一代的全球衛(wèi)星降水(Global Precipitation Measurement,GPM)計(jì)劃[3],與以往的降水產(chǎn)品相比具有更高的精度,更大的覆蓋范圍,更高的時(shí)空分辨率[4]。但是衛(wèi)星降水產(chǎn)品使用的是可見(jiàn)光/紅外傳感器、微波估計(jì)降雨量,其間接估計(jì)的性質(zhì),不可避免存在區(qū)域和季節(jié)性系統(tǒng)偏差和隨機(jī)誤差[5-6]。氣象測(cè)量站空間分布的局限性以及衛(wèi)星遙感數(shù)據(jù)較低的準(zhǔn)確性使極端天氣事件的預(yù)報(bào)、氣候預(yù)報(bào)、洪水、干旱和泥石流等災(zāi)害的預(yù)報(bào)有很大的困難[7]。
關(guān)于衛(wèi)星降水校準(zhǔn)方法的研究已有許多,并取得了一些成果且發(fā)現(xiàn)地理位置、高層、季節(jié)、溫度均有助于衛(wèi)星降雨量的校準(zhǔn)[8-9]。如:Yang 等人從數(shù)字高程模型中提取地形變量,確定其旋轉(zhuǎn)主分量,建立調(diào)整TMPA 降水量的逐步回歸模型,還建立了反傳播(BP)神經(jīng)網(wǎng)絡(luò)來(lái)校正TMPA 降水量[8]。Shi 等基于EVI 和TRMM月降水?dāng)?shù)據(jù)研究了一種統(tǒng)計(jì)降尺度校準(zhǔn)程序,利用EVI(Enhanced Vegetation Index)、海拔、坡度、坡向、緯度、經(jīng)度與降水相關(guān)的非參數(shù)統(tǒng)計(jì)關(guān)系,實(shí)現(xiàn)了從0.25°到1km 的空間降尺度并且采用加法(additive method)對(duì)降尺度降水資料進(jìn)行了校正[9]。
近年來(lái),許多研究表明降水與植被覆蓋[10]關(guān)系密切。植被是連結(jié)土壤、大氣和水分的自然“紐帶”,在全球變化研究中起到“指示器”作用[11]。Chen 等人提出了一種新的降尺度方法——地理加權(quán)回歸(GWR),通過(guò)對(duì)TRMM、歸一化植被指數(shù)(NDVI)、數(shù)字高程模型(DEM)數(shù)據(jù)集進(jìn)行分析和探索,能更準(zhǔn)確地生成降尺度的降雨數(shù)據(jù)[12]。因此在進(jìn)行衛(wèi)星降水校準(zhǔn)方面的研究時(shí),應(yīng)將植被作為一個(gè)重要的考慮因素。此外,衛(wèi)星降水?dāng)?shù)據(jù)的偏差和誤差與季節(jié)季風(fēng)有很大的相關(guān)性[13-14]。Prakash 等人廣泛評(píng)估印度地區(qū)的TMPA 產(chǎn)品,通過(guò)分析季風(fēng)前、季風(fēng)中和季風(fēng)后的降雨量,表明將TMPA 數(shù)據(jù)集應(yīng)用到水文領(lǐng)域之前,需要對(duì)TMPA 數(shù)據(jù)集進(jìn)行適當(dāng)?shù)膮^(qū)域和季節(jié)相關(guān)偏差校正[14]。
近年來(lái),遺傳編程技術(shù)作為遺傳算法的分支,被廣泛的應(yīng)用于數(shù)據(jù)分析、數(shù)據(jù)挖掘方面。Rampone 等人利用人工神經(jīng)網(wǎng)絡(luò)和遺傳編程預(yù)測(cè)未來(lái)季節(jié)平均氣溫[15]。Kisi 等人利用小波-遺傳編程(Wavelet-Genetic Programming)和小波-神經(jīng)模糊(Wavelet-Neuro-Fuzzy)結(jié)合模型進(jìn)行日降水預(yù)報(bào)[16]。從這些研究可得,遺傳編程技術(shù)能夠進(jìn)一步發(fā)現(xiàn)影響衛(wèi)星降水產(chǎn)品測(cè)量的相關(guān)變量之間可能存在的關(guān)系。然而,目前從遺傳編程角度分析降雨量的研究很少。
大多數(shù)衛(wèi)星降水產(chǎn)品的校準(zhǔn)和評(píng)估都是基于月尺度和年尺度,很少對(duì)日降水尺度的數(shù)據(jù)進(jìn)行分析。因此,考慮植被對(duì)降水的影響,在本研究中,我們利用遺傳編程挖掘衛(wèi)星降水?dāng)?shù)據(jù)、全國(guó)氣象站降水?dāng)?shù)據(jù)與相關(guān)因素(經(jīng)緯度、高程、溫度、時(shí)間、植被類型)之間的關(guān)系,構(gòu)建了一種校正方法,以提高我國(guó)衛(wèi)星日尺度降水?dāng)?shù)據(jù)的精度。
在本研究中,主要用到數(shù)據(jù)包括:全國(guó)氣象站點(diǎn)數(shù)據(jù),GPM 降水?dāng)?shù)據(jù)集和全國(guó)植被區(qū)劃數(shù)據(jù)集。
(1)氣象站點(diǎn)數(shù)據(jù)選取來(lái)源于中國(guó)氣象數(shù)據(jù)網(wǎng)(http://data.cma.cn/)的日尺度數(shù)據(jù)集,選取全國(guó)地區(qū)氣象站點(diǎn)2016 年1 月至2016 年12 月的日降水序列,其中研究區(qū)內(nèi)氣象站點(diǎn)660 個(gè)(見(jiàn)圖1 全國(guó)站點(diǎn)分布)。
圖1全國(guó)站點(diǎn)分布
(2)GPM 數(shù)據(jù)集通過(guò)美國(guó)國(guó)家航空航天局戈達(dá)德航天飛行中心(NASA-GSFC)獲取(https://pmm.nasa.gov/precipitation-measurement-missions),收集2016 年1 月至2016 年12 月的日尺度降水序列,覆蓋范圍為17.95N~54.95N,72.05E~133.95E,空 間 分 辨 率 為0.1°×0.1°。
(3)全國(guó)植被區(qū)劃數(shù)據(jù)來(lái)源于中國(guó)科學(xué)院資源環(huán)境科學(xué)數(shù)據(jù)中心(http://www.resdc.cn),該數(shù)據(jù)根據(jù)植被和氣候類型,將全國(guó)劃分為八個(gè)區(qū)域。為了方便統(tǒng)計(jì),本研究將八個(gè)植被區(qū)域用數(shù)值1-8 代替,替換結(jié)果如表1 所示。
表1 植被區(qū)劃數(shù)值表
根據(jù)全國(guó)氣象站2016 年的可用數(shù)據(jù)以及對(duì)衛(wèi)星校準(zhǔn)方面的研究分析,我們考慮8 個(gè)評(píng)價(jià)降水條件的參數(shù)(表2)。所有的特性都表示為數(shù)值變量。
表2 參數(shù)列表
遺傳編程是在遺傳算法的基礎(chǔ)上引入自動(dòng)程序設(shè)計(jì)的一種算法,它可以通過(guò)自身的學(xué)習(xí)快速發(fā)現(xiàn)數(shù)據(jù)與數(shù)學(xué)表達(dá)式之間的關(guān)系,通常由樹(shù)形結(jié)構(gòu)表示[7]。遺傳編程開(kāi)始于一群由隨機(jī)生成的千百萬(wàn)個(gè)計(jì)算機(jī)程序組成的“人群”,然后根據(jù)一個(gè)程序完成給定的任務(wù)的能力來(lái)確定某個(gè)程序的適合度,應(yīng)用達(dá)爾文的自然選擇(適者生存)確定勝出的程序。計(jì)算機(jī)程序間也模擬兩性組合、變異、基因復(fù)制,基因刪除等代代進(jìn)化,直到達(dá)到預(yù)先確定的某個(gè)中止條件為止[17]。遺傳編程流程圖如圖2 所示。
圖2 遺傳編程流程圖
本研究中由于地形、高程、溫度、氣候類型,植被覆蓋等因素對(duì)衛(wèi)星降雨測(cè)量產(chǎn)品的影響不明確,將遺傳編程用作挖掘降水與相關(guān)因素之間關(guān)系的工具。在運(yùn)用遺傳編程前,需要確定所需的數(shù)據(jù)集和函數(shù)集。PA(氣象站降水)為遺傳編程的目標(biāo),輸入數(shù)據(jù)集包括X(緯度)、Y(經(jīng)度)、E(高程)、t(時(shí)間)、T(溫度)和PS(衛(wèi)星降水)。函數(shù)集如下:
利用遺傳編程生成校準(zhǔn)公式的步驟為:
(1)將數(shù)據(jù)集隨機(jī)分為兩個(gè)獨(dú)立的集合:訓(xùn)練集和驗(yàn)證集。設(shè)置函數(shù)集PA= f(PS,X,Y,E,T,t),產(chǎn)生初始的校準(zhǔn)群體。初始種群由數(shù)據(jù)集和函數(shù)集隨機(jī)生成。
(2)數(shù)據(jù)集隨機(jī)分為兩個(gè)獨(dú)立的集合:訓(xùn)練集和驗(yàn)證集,訓(xùn)練集經(jīng)過(guò)遺傳操作(選擇、交叉、變異)得到初步的校準(zhǔn)公式。
(3)定義種群的適應(yīng)度函數(shù),用于評(píng)估種群中的每個(gè)公式的適應(yīng)度。在本研究中,我們使用均方根誤差(RMSE)作為適應(yīng)度函數(shù)。驗(yàn)證集用于評(píng)估步驟(2)中公式的適應(yīng)度。
其中i 為氣象站點(diǎn)秩數(shù),M 為氣象站總數(shù),PS 為衛(wèi)星降水?dāng)?shù)據(jù),PA 為氣象站降水?dāng)?shù)據(jù)。
(4)重復(fù)步驟(2-3),直到訓(xùn)練時(shí)間達(dá)到停止準(zhǔn)則(本研究中為500 小時(shí))。
(5)程序結(jié)束,由公式得到的校準(zhǔn)后的降水量與實(shí)際衛(wèi)星降水量的擬合優(yōu)度判定系數(shù)R2選出最終最優(yōu)公式。
受季風(fēng)影響,我國(guó)降水季節(jié)特征顯著。基于此,本研究按照季節(jié)尺度(春、夏、秋、冬)對(duì)2016 年GPM 日降水量進(jìn)行校準(zhǔn)。各季節(jié)的最終最優(yōu)校準(zhǔn)公式如表3所示。
表3 2016 年全國(guó)區(qū)域最終校準(zhǔn)公式
我們使用泰勒?qǐng)D來(lái)表示春夏秋冬四個(gè)季節(jié)的衛(wèi)星降雨量原始數(shù)據(jù)和校準(zhǔn)值與氣象站實(shí)測(cè)日降水?dāng)?shù)據(jù)之間的對(duì)應(yīng)程度(圖3)。它利用了相關(guān)系數(shù)(CC)和標(biāo)準(zhǔn)差(SD)之間的三角轉(zhuǎn)換關(guān)系??梢钥闯觯合那锒l(wèi)星日降水量原始數(shù)據(jù)與氣象站實(shí)測(cè)日降水量的相關(guān)系數(shù)均在0.4-0.5 之間,經(jīng)過(guò)遺傳編程校準(zhǔn)后校準(zhǔn)值和實(shí)測(cè)值的相關(guān)系數(shù)在0.5-0.7 之間,CC 提高了10%左右,且標(biāo)準(zhǔn)差和均方根誤差均明顯降低。總的來(lái)說(shuō),對(duì)于日降水量的校準(zhǔn),夏季校準(zhǔn)效果較好一些,冬季校準(zhǔn)雖然CC 較大,SD 較小,但由于部分校準(zhǔn)值出現(xiàn)了負(fù)值,總體校準(zhǔn)效果較差。主要是因?yàn)槎緶囟容^低,冰雹、雪固體降雨量難測(cè)量,氣象站的實(shí)際測(cè)量與衛(wèi)星遙感數(shù)據(jù)偏差較大,導(dǎo)致校準(zhǔn)精度不高。而夏季降雨量充沛,校準(zhǔn)精度相對(duì)較高。
圖3 春夏秋冬的GPM日降水量與氣象站實(shí)測(cè)日降水量的泰勒分布圖
上面的結(jié)論充分利用了衛(wèi)星降水?dāng)?shù)據(jù)空間分辨率高,探測(cè)范圍廣的特點(diǎn),但仍存在部分地區(qū)校準(zhǔn)效果不佳。造成這種校準(zhǔn)效果不佳的原因較多,主要是因?yàn)榈乩砦恢谩囟?、植被覆蓋、氣候類型存在較大的不同。故本研究根據(jù)植被和氣候類型,將全國(guó)劃分為八種區(qū)域,分別進(jìn)行衛(wèi)星日降水量的校準(zhǔn),進(jìn)而提升衛(wèi)星降水產(chǎn)品的可靠性。
將2016 年的數(shù)據(jù)集按照植被區(qū)劃分為八個(gè)獨(dú)立的數(shù)據(jù)集分別進(jìn)行校準(zhǔn)。不同的植被區(qū)域校準(zhǔn)的效果不同,其中熱帶季風(fēng)雨林區(qū)域(區(qū)域4)和亞熱帶常綠闊葉林區(qū)域(區(qū)域8)校準(zhǔn)效果較好,溫帶草原(區(qū)域5)、溫帶荒漠(區(qū)域6)效果較差。
表4 2016 年植被區(qū)劃最終校準(zhǔn)公式
圖4 分別給出了八個(gè)植被區(qū)域的衛(wèi)星降水量原始數(shù)據(jù)和校準(zhǔn)值與站點(diǎn)實(shí)測(cè)日降水?dāng)?shù)據(jù)的泰勒分布??梢钥闯?,八個(gè)植被區(qū)域衛(wèi)星日降水量的原始數(shù)據(jù)與站點(diǎn)實(shí)測(cè)日降水量的相關(guān)系數(shù)相差較大,分布在0.3-0.6之間,校準(zhǔn)值和實(shí)測(cè)值的相關(guān)系數(shù)主要分布在0.4-0.8之間。八個(gè)植被區(qū)域校準(zhǔn)值的均方根誤差和標(biāo)準(zhǔn)差均比原始數(shù)據(jù)減少了50%左右,相關(guān)系數(shù)提高15%左右。其中,熱帶季風(fēng)林和亞熱帶常綠闊葉林的校準(zhǔn)后的相關(guān)系數(shù)均大于其他地區(qū),而溫帶荒漠與溫帶草原植被區(qū)校準(zhǔn)后的相關(guān)系數(shù)相對(duì)較小。暖溫帶落葉闊葉林、溫帶針葉落葉闊葉混交林、青藏高原高寒植被區(qū)域校準(zhǔn)效果一般。
圖4 全國(guó)植被區(qū)域的GPM日降水量與站點(diǎn)實(shí)測(cè)日降水量的泰勒分布圖
綜上分析,基于遺傳編程的衛(wèi)星降水量的校準(zhǔn)適合降水量充沛的中國(guó)東南部地區(qū)的校準(zhǔn),降水量越大,相關(guān)性越大,校準(zhǔn)效果越好。即在考慮植被對(duì)GPM 降水產(chǎn)品影響的基礎(chǔ)上,遺傳編程對(duì)GPM 衛(wèi)星降水量的校準(zhǔn)有了進(jìn)一步的改進(jìn)。
本研究從日降水尺度的數(shù)據(jù)出發(fā),利用遺傳編程挖掘數(shù)據(jù),得出衛(wèi)星降水量與影響因素中的潛在關(guān)系,生成直觀的公式,實(shí)現(xiàn)了衛(wèi)星降水量的校準(zhǔn)。研究表明,空間分布、季節(jié)和溫度對(duì)衛(wèi)星降水量的校正具有重要價(jià)值。夏季溫度高且降水量較多,校準(zhǔn)后CC 提高了15%左右,校準(zhǔn)效果最好;中國(guó)東部和南部,溫度偏高,降水量充沛,衛(wèi)星降水容易高估數(shù)據(jù),CC 相比其他地區(qū)提高10%-20%;中國(guó)西部和北部地區(qū)降水量相對(duì)少,溫度普遍較低,冰雹、雪固體降水量難測(cè)量,且土壤濕度低,降水量蒸發(fā)較快,衛(wèi)星降水容易低估數(shù)據(jù),導(dǎo)致校準(zhǔn)效果較差?;谶z傳規(guī)劃的衛(wèi)星降水量的校準(zhǔn)適合降水充沛季節(jié)和地區(qū)的校準(zhǔn),降水量越大,相關(guān)性越大,校準(zhǔn)效果越好。