袁定波 ,艾 萍 ,2,熊傳圣
(1. 河海大學(xué)水文水資源學(xué)院,江蘇 南京 210098;2. 河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇 南京 211100)
隨著對(duì)地觀測(cè)技術(shù)的發(fā)展,以及計(jì)算機(jī)運(yùn)算存儲(chǔ)能力的不斷提高,數(shù)據(jù)產(chǎn)生和采集的速度越來(lái)越快,數(shù)據(jù)量級(jí)越來(lái)越大,因此亟需能夠從海量數(shù)據(jù)中快速提取信息的技術(shù)和方法,以揭示隱藏在這些數(shù)據(jù)背后的潛在有用信息,為決策部門(mén)在決策制定過(guò)程中提供重要的參考依據(jù)。為了解決這個(gè)在信息領(lǐng)域具有普遍性的“知識(shí)發(fā)現(xiàn)”問(wèn)題(KDD,Knowledge Discovery in Database),數(shù)據(jù)挖掘(DM,Data Mining)技術(shù)應(yīng)運(yùn)而生[1]。水文學(xué)研究的對(duì)象是水文現(xiàn)象,是降水和蒸發(fā)等氣象現(xiàn)象與地形、地貌、土壤、植被、水文地質(zhì)等下墊面條件共同作用或相互作用的產(chǎn)物。水文現(xiàn)象作為地球上最復(fù)雜的自然現(xiàn)象之一,具備很強(qiáng)的時(shí)間和空間屬性。時(shí)空序列(Space-Time Series)是時(shí)間序列在空間上的擴(kuò)展,指在空間上有相關(guān)關(guān)系的多個(gè)時(shí)間序列的集合[2]。水文時(shí)空序列分析是揭示和認(rèn)識(shí)水文過(guò)程變化特性的有效手段和重要途徑。時(shí)空數(shù)據(jù)挖掘是指從時(shí)空數(shù)據(jù)中提取出隱含的、未知的、有用的信息及知識(shí)的過(guò)程,然而,時(shí)間和空間維度增加了其挖掘過(guò)程的復(fù)雜性。
將數(shù)據(jù)挖掘技術(shù)應(yīng)用于水文時(shí)空序列數(shù)據(jù)分析領(lǐng)域,可發(fā)現(xiàn)時(shí)空序列數(shù)據(jù)中蘊(yùn)藏的相似性,能夠更合理地反映區(qū)域水文時(shí)空變化規(guī)律和趨勢(shì)。利用數(shù)據(jù)挖掘技術(shù)建立水文時(shí)空序列分析理論和模型,發(fā)現(xiàn)各類水文要素在時(shí)間和空間維度的變化規(guī)律,為有效預(yù)測(cè)水文情勢(shì)的變化提供相關(guān)依據(jù),在防汛抗旱、水資源分配與調(diào)度、水資源管理等方面具有重要參考價(jià)值和現(xiàn)實(shí)指導(dǎo)意義。
數(shù)據(jù)挖掘是從大量、不完全、有噪聲、模糊、隨機(jī)的數(shù)據(jù)集中提取隱含在其中的,人們事先不知道的,但卻又是潛在有用的信息和知識(shí)的過(guò)程,所提取到的結(jié)果可表示為概念、規(guī)則、規(guī)律和模式等形式。數(shù)據(jù)挖掘是一種決策支持過(guò)程:分析各組織原有的數(shù)據(jù),做出歸納推理,從中挖掘出潛在的模式。數(shù)據(jù)挖掘方法結(jié)合了數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等領(lǐng)域的知識(shí),常見(jiàn)的數(shù)據(jù)挖掘方法有關(guān)聯(lián)規(guī)則、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、粗糙集法、分類聚類方法、遺傳算法和統(tǒng)計(jì)分析方法等。在不同的應(yīng)用領(lǐng)域,需要針對(duì)具體的問(wèn)題采用不同的數(shù)據(jù)挖掘技術(shù)和方法。
自地理信息系統(tǒng)誕生以來(lái),空間分析的方法框架和技術(shù)體系逐漸建立并完善,已成為地理信息系統(tǒng)應(yīng)用的核心,而其中所涉及的空間和時(shí)間序列分析方法是水文時(shí)空序列分析與建模的基礎(chǔ)[3]。時(shí)空數(shù)據(jù)挖掘方法是在有效組織時(shí)空數(shù)據(jù)的基礎(chǔ)上,采用各種數(shù)據(jù)分析工具、技術(shù)和模型研究和挖掘時(shí)空數(shù)據(jù)庫(kù)中隱含的信息和規(guī)律[4]。按照挖掘的任務(wù),時(shí)空數(shù)據(jù)挖掘可分為以下主要幾類:時(shí)空的模式挖掘、聚類、分類、異常檢測(cè)等。挖掘時(shí)空數(shù)據(jù)中有價(jià)值的模式,如頻繁、周期、共現(xiàn)、關(guān)聯(lián)等模式,一直是時(shí)空數(shù)據(jù)挖掘研究中的重要課題。人們感興趣的是從一個(gè)時(shí)空序列里發(fā)現(xiàn)頻繁重復(fù)的路徑,即時(shí)空頻繁模式。時(shí)空共現(xiàn)模式是指 2 種(或 2 種以上)對(duì)象實(shí)例在空間和時(shí)間上處于近鄰。時(shí)空關(guān)聯(lián)模式主要研究空間對(duì)象隨時(shí)間發(fā)生變化的規(guī)律,即在傳統(tǒng)關(guān)聯(lián)分析的基礎(chǔ)上加上時(shí)間和空間約束,發(fā)現(xiàn)時(shí)空數(shù)據(jù)中處于一定時(shí)間間隔和空間位置的關(guān)聯(lián)規(guī)則。時(shí)空數(shù)據(jù)聚類是指基于空間和時(shí)間相似度把具有相似行為的時(shí)空對(duì)象劃分到同一組中,使組間差別盡量大,而組內(nèi)差別盡量小,時(shí)空聚類可用于天氣預(yù)測(cè)、交通擁擠預(yù)測(cè)、動(dòng)物遷移分析、移動(dòng)計(jì)算和異常點(diǎn)分析等方面。時(shí)空分類主要是基于時(shí)空對(duì)象的特征構(gòu)建分類模型預(yù)測(cè)時(shí)空對(duì)象所屬類別和對(duì)象所在的具體空間位置。若某一個(gè)對(duì)象和它在空間上相鄰并在一段連續(xù)時(shí)間內(nèi)出現(xiàn)的鄰居有著顯著的差異,則稱該對(duì)象為時(shí)空異常對(duì)象。
國(guó)外學(xué)者在時(shí)空序列數(shù)據(jù)挖掘方面的研究比較早,數(shù)據(jù)挖掘最通用的方法主要包括人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、遺傳算法和最近鄰算法[5]。Babovic基于城市供水管網(wǎng)爆裂數(shù)據(jù)庫(kù)所記錄的管網(wǎng)使用壽命、直徑、材料、土壤類型、溫度和交通負(fù)荷等數(shù)據(jù),利用數(shù)據(jù)挖掘方法確定區(qū)域供水管網(wǎng)爆裂的風(fēng)險(xiǎn)[6]。Bessler 通過(guò)利用 C5.0 決策樹(shù)方法挖掘研究區(qū)域的水庫(kù)調(diào)控規(guī)則,結(jié)果表明,不同決策樹(shù)方法決定了數(shù)據(jù)挖掘結(jié)果的好壞[7]。Kim 使用數(shù)據(jù)挖掘算法和實(shí)時(shí)數(shù)據(jù)了解環(huán)境因素對(duì)建筑能效設(shè)計(jì)和評(píng)分的影響,并選用了亞利桑那州立大學(xué)的 3 座建筑物作為實(shí)時(shí)能源實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了驗(yàn)證分析[8]。Han和 Koperski 開(kāi)發(fā)了一個(gè)空間數(shù)據(jù)挖掘系統(tǒng)原型:GeoMiner[9]。一些傳統(tǒng)的數(shù)據(jù)挖掘算法往往在時(shí)空數(shù)據(jù)挖掘方面表現(xiàn)得很差,Shekhar 發(fā)現(xiàn)當(dāng)參數(shù)假設(shè)檢驗(yàn)(如正態(tài)分布)不通過(guò)時(shí),參數(shù)分類器如最大似然分類器(MLC)要比非參數(shù)分類器的表現(xiàn)更遜色;當(dāng)特征自相關(guān)時(shí),基于像素的分類器性能要比馬爾科夫隨機(jī)域的性能差[10]。時(shí)空數(shù)據(jù)的挖掘需要有明確的主題和問(wèn)題導(dǎo)向[11]。Vaswani 使用了一種改進(jìn)的 K 均值聚類算法,通過(guò)考慮聚類要素的各方面因素,進(jìn)行了空間數(shù)據(jù)的挖掘[12]。Kovashka 利用領(lǐng)域特征的時(shí)空層次結(jié)構(gòu)分析人類行為[13]。Fasbender基于 Bayesian 數(shù)據(jù)融合方法對(duì)柏林的 NO_2 在時(shí)空尺度上進(jìn)行了的預(yù)測(cè)[14]。Ghaemi 利用數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)算法對(duì)公共交通中的時(shí)空數(shù)據(jù)進(jìn)行了分析,并指出針對(duì)具體應(yīng)用的相關(guān)度量是未來(lái)研究的方向[15]。Anderson 等利用 HELCOM 富營(yíng)養(yǎng)化評(píng)估工具(HEAT3.0)挖掘了波羅地海富營(yíng)養(yǎng)化的時(shí)間和空間趨勢(shì)[16]。Boschetti 通過(guò)分析中等分辨率遙感影像序列數(shù)據(jù)中的光譜指數(shù)挖掘研究區(qū)水稻在時(shí)空趨勢(shì),并實(shí)現(xiàn)了基于衛(wèi)星時(shí)序數(shù)據(jù)的水稻時(shí)間和空間信息的自動(dòng)提取[17]。Dube 等使用 Landsat 衛(wèi)星數(shù)據(jù)分析了土地退化的時(shí)空特性,并驗(yàn)證了 Landsat 數(shù)據(jù)和機(jī)器學(xué)習(xí)算法用于土壤侵蝕時(shí)空特征挖掘的可行性[18]。Yusof 使用多維序列模式挖掘繪制了風(fēng)速剖面模式的時(shí)空特征[19]。Andrade 等基于社交網(wǎng)絡(luò)Twitter 挖掘巴西圣保羅市的降雨時(shí)空模式,結(jié)果表面,雨量站的時(shí)序數(shù)據(jù)與推特上相關(guān)的降雨時(shí)序數(shù)據(jù)并不同步,存在一個(gè)(-10~+10)min 的時(shí)間延遲[20]。目前,移動(dòng)位置服務(wù)、遙感信息處理、精細(xì)農(nóng)業(yè)、智能交通、氣象等研究領(lǐng)域已經(jīng)成為時(shí)空挖掘的重要應(yīng)用部分,各行業(yè)和領(lǐng)域?qū)r(shí)空數(shù)據(jù)挖掘技術(shù)的巨大需求也推動(dòng)了時(shí)空數(shù)據(jù)挖掘理論和方法的不斷發(fā)展和完善。
著名水文學(xué)家 Yevjevich 認(rèn)為水文時(shí)間序列主要包括確定性和隨機(jī)性成分,因此,在進(jìn)行水文時(shí)空序列數(shù)據(jù)挖掘的時(shí)候必須考慮挖掘?qū)ο蟮拇_定性和隨機(jī)性。確定性成分主要基于一定的物理機(jī)制形成,例如地球公轉(zhuǎn)和自轉(zhuǎn)使水文時(shí)空序列數(shù)據(jù)包含確定性(年、月和日)周期成分;人類活動(dòng)、氣候變化等影響流域產(chǎn)匯流模式,使水文序列存在趨勢(shì)和跳躍等暫態(tài)成分。隨機(jī)成分是由許多隨機(jī)和不確定性因素綜合作用引起的不規(guī)則震蕩,很難從物理機(jī)制的角度加以解釋和描述。具有水文信息的時(shí)空序列數(shù)據(jù)(尤其各類傳感器、遙感數(shù)據(jù))與一般的時(shí)間序列和空間數(shù)據(jù)相比,不僅組成復(fù)雜,而且特性也復(fù)雜多變,具有海量、動(dòng)態(tài)、高維、多尺度、時(shí)空相關(guān)和異構(gòu)性、時(shí)空異質(zhì)性、非線性等特征。將數(shù)據(jù)挖掘的思想和方法引入到水文時(shí)空序列分析中,從水文時(shí)空序列中挖掘相關(guān)隱含特性,從而獲取正確、有潛在價(jià)值和可理解的水文模式,這個(gè)過(guò)程叫做水文時(shí)空序列數(shù)據(jù)挖掘,其目的是從水文時(shí)空數(shù)據(jù)集中發(fā)現(xiàn)有用的規(guī)律和知識(shí)。水文時(shí)間序列數(shù)據(jù)挖掘包括水文序列的相似性查找、洪峰傳播時(shí)間估計(jì)、水文時(shí)間序列中關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)、水位和流量序列的異常模式檢測(cè)等。由于水文學(xué)科的特殊性,結(jié)合時(shí)空數(shù)據(jù)挖掘理論與算法,構(gòu)造水文時(shí)空數(shù)據(jù)挖掘模型的技術(shù)要點(diǎn)主要包括 3 個(gè)環(huán)節(jié):
1)水文時(shí)空序列相似性分析。水文時(shí)空序列相似性分析也稱水文時(shí)空序列相似性查找,即在歸一化處理后的水文時(shí)空序列中找出各類相似的序列。這種相似性包括了氣候特征、流域下墊面等與流域水文循環(huán)相關(guān)要素的特點(diǎn)和發(fā)展趨勢(shì),可用于降雨徑流過(guò)程的預(yù)測(cè)、水文過(guò)程規(guī)律分析等方面。而水文時(shí)空序列相似性分析的關(guān)鍵技術(shù)問(wèn)題主要有時(shí)空序列的模式識(shí)別(特征提?。┖拖嗨菩远攘康木嚯x標(biāo)準(zhǔn) 2 個(gè)方面。
2)水文時(shí)空數(shù)據(jù)建模。水文時(shí)空序列的預(yù)測(cè)主要依靠預(yù)測(cè)模型來(lái)進(jìn)行,預(yù)測(cè)模型的實(shí)質(zhì)是一個(gè)基于線性回歸的多維擴(kuò)展模型,原理可用如下公式表示:
式中:系數(shù)βij是自變量Xij在i時(shí)刻的第j個(gè)系數(shù),表示自變量Xij對(duì)于目標(biāo)變量Yij的影響程度;Zij作為線性擬合殘差,是目標(biāo)變量變化中用自變量線性組合無(wú)法表示的部分,可用于在自回歸(Autoregressive,AR)模型中捕捉時(shí)間自相關(guān)性,進(jìn)而用于描述空間的相關(guān)性。
3)水文時(shí)空數(shù)據(jù)預(yù)測(cè)?;貧w分析是定量分析多要素之間關(guān)系常用的方法,由于時(shí)空變量的諸多特殊性質(zhì),在很多情況下不能直接用回歸分析方法研究時(shí)空問(wèn)題,因此,分析水文時(shí)空變量之間的關(guān)系需要在回歸分析模型的基礎(chǔ)上建立能夠描述時(shí)空變量特征的回歸分析模型。基于時(shí)空自回歸移動(dòng)平均模型建模的原理和方法,從模型識(shí)別、參數(shù)估計(jì)、模型檢驗(yàn)、精度評(píng)估等方法構(gòu)造適合水文時(shí)空數(shù)據(jù)分析的時(shí)空數(shù)據(jù)預(yù)測(cè)模型,用來(lái)預(yù)測(cè)未來(lái)一段時(shí)間在分析范圍中任何地理位置上的水文信息目標(biāo)值,如區(qū)域水資源分布時(shí)空變化趨勢(shì)等。
事實(shí)證明,試圖依賴現(xiàn)有的物理定律和數(shù)學(xué)方程認(rèn)識(shí)、預(yù)測(cè)、預(yù)報(bào)復(fù)雜的水文現(xiàn)象依舊困難重重,人們已經(jīng)發(fā)現(xiàn)“大數(shù)據(jù)”技術(shù)在分析水文現(xiàn)象時(shí)空分布特征,揭示水文特征在時(shí)空維度與地貌特征之間的關(guān)系,構(gòu)建真正的分布式或者精細(xì)流域水文模型等方面所擁有的巨大優(yōu)勢(shì)。隨著遙感技術(shù)的發(fā)展,以及多源遙感影像在水文分析應(yīng)用中的普及,其所蘊(yùn)藏的信息也越來(lái)越豐富,因此,可構(gòu)造面向某一具體水文業(yè)務(wù)應(yīng)用的水文時(shí)空序列集合,并使用數(shù)據(jù)挖掘技術(shù)進(jìn)行時(shí)空信息的挖掘,從大量數(shù)據(jù)中提取所隱含的特征與規(guī)則,發(fā)現(xiàn)以前未知的模式,從而預(yù)測(cè)未來(lái)的趨勢(shì)和行為。
數(shù)據(jù)挖掘技術(shù)在水文時(shí)空序列的應(yīng)用研究中發(fā)展空間巨大,應(yīng)用大數(shù)據(jù)技術(shù)分析水文現(xiàn)象的變化規(guī)律,為相關(guān)決策提支撐信息均有著重要的指導(dǎo)意義。隨著數(shù)據(jù)挖掘技術(shù)尤其是時(shí)空數(shù)據(jù)挖掘技術(shù)的發(fā)展與完善,數(shù)據(jù)挖掘技術(shù)在水文時(shí)空序列的應(yīng)用研究中將得到進(jìn)一步的擴(kuò)展和提高,而與水文時(shí)空序列研究的具體結(jié)合,也將推動(dòng)數(shù)據(jù)挖掘技術(shù)本身的發(fā)展,使大數(shù)據(jù)體系中的數(shù)據(jù)挖掘技術(shù)在水文科學(xué)發(fā)展中凸顯出更加真切的價(jià)值和意義。目前,時(shí)空數(shù)據(jù)挖掘還缺乏一個(gè)令人滿意的理論框架,可度量和不可度量的空間關(guān)系,以及時(shí)間關(guān)系都需要在未來(lái)的數(shù)據(jù)挖掘中加以考慮,而這也將會(huì)是未來(lái)時(shí)空數(shù)據(jù)挖掘重點(diǎn)研究的方向之一。
[1] FAYYAD U M, PIATETSKY-SHAPIRO G, SMYTH P, et al. Advances in knowledge discovery and data mining[M].Menlo Park: AAAI, 1996.
[2] RODDICK J F, SPILIOPOULOU M. A bibliography of temporal, spatial and spatio-temporal data mining research[J].ACM SIGKDD Explorations Newsletter, 1999, 1 (1): 34-38.
[3] MILLER H J, HAN J. Geographic data mining and knowledge discovery[M]. Boca Raton: CRC Press, 2009.
[4] BECKER R A, EICK S G, MILLER E O, et al. Dynamic graphics arrangement for displaying spatial-time-series data:United States, 5623590 [P]. 1997.
[5] SATHIYAMOORTHI V. Data mining and data warehousing:introduction to data mining and data warehousing[M]. Hershey:IGI Global, 2017: 312-337.
[6] BABOVIC V, DRéCOURT J, KEIJZER M, et al. A data mining approach to modelling of water supply assets[J].Urban Water, 2002, 4 (4): 401-414.
[7] BESSLER F T, SAVIC D A, WALTERS G A. Water reservoir control with data mining[J]. Journal of water resources planning and management, 2003, 129 (1): 26-34.
[8] JONGHOON K, JIN-YOUNG H, WAI K C, et al. Understanding the effects of environmental factors on building energy efficiency designs and credits: Case studies using data mining and real-time data[J]. Journal of Engineering, Design and Technology, 2017, 15 (3): 270-285.
[9] HAN J, KOPERSKI K, STEFANOVIC N. GeoMiner: a system prototype for spatial data mining[J]. ACM Sigmod Record: 1997, 26 (2): 553-556.
[10] SHEKHAR S, LI Y, ALI R Y, et al. Spatial and Spatiotemporal Data Mining[M]. Chapman & Hall/CRC, 2011: 10-12.
[11] MENNIS J, GUO D. Spatial data mining and geographic knowledge discovery—An introduction[J]. Computers,Environment and Urban Systems, 2009, 33 (6): 403-408.
[12] VASWANI K, KARANDIKAR A M. An algorithm for spatial data mining using clustering[J]. International Journal of Computer & Mathematical Sciences, 2017, 6 (8): 226-231.
[13] KOVASHKA A, GRAUMAN K. Learning a hierarchy of discriminative space-time neighborhood features for human action recognition[J]. Computer Vision and Pattern Recognition,2010, 23 (3): 2046-2053.
[14] FASBENDER D, BRASSEUR O, BOGAERT P. Bayesian data fusion for space-time prediction of air pollutants: The case of NO_2 in Belgium[J]. Atmospheric Environment,2009, 43 (30): 4632-4645.
[15] GHAEMI M S, AGARD B, NIA V P, et al. Challenges in spatial-temporal data analysis targeting public transport?[J]. IFAC-PapersOnLine, 2015, 48 (3): 442-447.
[16] ANDERSEN J H, CARSTENSEN J, CONLEY D J, et al.Long-term temporal and spatial trends in eutrophication status of the Baltic Sea[J]. Biological Reviews, 2017, 92 (1):135-149.
[17] BOSCHETTI M, BUSETTO L, MANFRON G, et al.PhenoRice: A method for automatic extraction of spatiotemporal information on rice crops using satellite data time series[J]. Remote Sensing of Environment, 2017, 194:347-365.
[18] DUBE T, MUTANGA O, SIBANDA M, et al. Use of Landsat series data to analyse the spatial and temporal variations of land degradation in a dispersive soil environment:A case of King Sabata Dalindyebo local municipality in the Eastern Cape Province, South Africa[J]. Physics and Chemistry of the Earth, Parts A/B/C, 2017,100: 112-120.
[19] YUSOF N, ZURITA-MILLA R. Mapping frequent spatiotemporal wind profile patterns using multi-dimensional sequential pattern mining[J]. International Journal of Digital Earth, 2017,10 (3): 238-256.
[20] ANDRADE S C D, RESTREPO-ESTRADA C, DELBEM A C B, et al. Mining rainfall spatio-temporal patterns in twitter: A temporal approach[C]//NR Modala. International Conference on Geographic Information Science. Berlin:Springer, 2017: 19-37.