岳兆新 ,廖亨利 ,陳彬彬
(1. 河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇 南京 211100;2. 河海大學(xué)水文水資源學(xué)院,江蘇 南京 210098)
全國(guó)各級(jí)水利部門已經(jīng)存貯入庫(kù)的數(shù)據(jù)粗略估計(jì)已經(jīng)達(dá)到 PB 級(jí)以上[1–2],如果物聯(lián)網(wǎng)將所有水利對(duì)象都連入網(wǎng)絡(luò),則水利數(shù)據(jù)的量將遠(yuǎn)遠(yuǎn)超過一般認(rèn)為的“大數(shù)據(jù)”量標(biāo)準(zhǔn)。
海量的數(shù)據(jù)中蘊(yùn)含著水利發(fā)展與管理所需要的巨大價(jià)值,但水利數(shù)據(jù)具有的時(shí)空特征和自然與人類相互影響的特點(diǎn),也給水利大數(shù)據(jù)的應(yīng)用帶來(lái)巨大挑戰(zhàn),迫切需要應(yīng)用非傳統(tǒng)的理論、方法與技術(shù)構(gòu)造相應(yīng)的應(yīng)用解決方案。
粒計(jì)算(Granular computing)是以外部世界和用戶為中心而建立的一種方法論,方便認(rèn)識(shí)物理的和虛擬的世界。以此為基礎(chǔ),在求解問題的過程中,用粒度合適的“粒”作為處理對(duì)象,從而在保證求得滿意解的前提下,提高解決問題的效率[3–4]。自 1979 年以來(lái),眾多學(xué)者對(duì)粒理論和模型進(jìn)行了深入研究,并將其與人工智能、數(shù)據(jù)挖掘等技術(shù)相結(jié)合,取得了諸多成果[5–8]。近年來(lái),研究人員提出結(jié)合粒理論可以更好地處理大數(shù)據(jù)相關(guān)問題,并梳理出兩者之間的諸多切合點(diǎn),為粒理論在大數(shù)據(jù)分析應(yīng)用方面提供了指導(dǎo)[9–11]。因此,在水利大數(shù)據(jù)背景下,如何結(jié)合粒理論,實(shí)現(xiàn)水利大數(shù)據(jù)場(chǎng)景數(shù)據(jù)融合,以及在多模態(tài)數(shù)據(jù)場(chǎng)景下,根據(jù)不同問題的“粒度”大小,尋求合適的解決方法,從而降低復(fù)雜多時(shí)空尺度問題求解的時(shí)間和計(jì)算復(fù)雜度,是討論的重點(diǎn)。
20 世紀(jì) 90 年代,Zadeh 和 Lin 教授首次提出粒度計(jì)算的概念,并將其用于模糊的、不完整的和海量信息的處理或問題求解。從哲學(xué)的角度看,人類在認(rèn)知、度量、形成概念和推理時(shí),都離不開粒度。Zadeh 教授[12]指出粒計(jì)算是模糊信息?;?、粗糙集理論和區(qū)間計(jì)算的超集,是粒數(shù)學(xué)的子集。Yao教授認(rèn)為粒計(jì)算是使用有關(guān)“粒度”的所有理論、方法、技術(shù)和工具解決相關(guān)問題,是一種方法論而不是一個(gè)具體的模型或方法,涉及的具體模型主要有粗糙集、商空間、云模型等。此外,粒計(jì)算是當(dāng)前智能信息處理領(lǐng)域中一種新的計(jì)算范式,并與大數(shù)據(jù)挖掘具有高度契合性。Chen 等[13]曾提出將粒計(jì)算作為大數(shù)據(jù)分析挖掘的一種重要方法。
粒是粒計(jì)算的基本要素,是依照不可區(qū)分性和相似性及功能標(biāo)簽聚集到一起的論域中的子集、類、簇、元素。粒計(jì)算的算法步驟為:首先確定具體模型,然后再進(jìn)行信息粒化。粒的解釋是粒構(gòu)造的語(yǔ)義方面,需要回答“為什么兩個(gè)對(duì)象能放在一個(gè)粒里”。眾多研究人員對(duì)粒及其語(yǔ)義問題進(jìn)行了比較系統(tǒng)的研究,比如復(fù)雜數(shù)據(jù)的?;瘷C(jī)理、粒的類型分類等[14–17]。
信息粒化分為構(gòu)建和分解兩部分。構(gòu)建主要考慮如何將更細(xì)的或底層的粒合并成為較粗或上層的粒;分解則相反,是將較粗的或上層的粒分解成更細(xì)的低層的粒。信息粒化的目的是從原始數(shù)據(jù)中得到合適于問題的粒。數(shù)據(jù)?;惴ㄖ饕譃閮刹剑?)找到最相容的 2 個(gè)粒,并合成 1 個(gè);2)一直重復(fù)達(dá)到滿意的抽象標(biāo)準(zhǔn)。
粒的相容程度的定義很關(guān)鍵,即滿足什么條件的對(duì)象可以劃分到同一個(gè)粒內(nèi)。這個(gè)相容程度可以是幾何的、密度的或者是相似性(形狀和方向)的。
粒計(jì)算作為人工智能研究領(lǐng)域中的一種新理念方法,包含了與粒度相關(guān)的理論、方法和技術(shù),可作為有效的工具挖掘處理海量、不確定性信息,求解復(fù)雜問題[18–19]。粒計(jì)算的核心在于合適粒度的選擇,目的在于降低問題求解的復(fù)雜度。粒計(jì)算作為一種方法論,目的在于有效地建立基于外部世界、以用戶為中心的概念,從而方便認(rèn)識(shí)物理的和虛擬的世界。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)是對(duì)最細(xì)粒度的原始數(shù)據(jù)分析,選擇與問題相適應(yīng)的粒度空間可提升求解的質(zhì)量和時(shí)空效率[20–21]。
問題本身及背景決定選擇何種粒度,合適粒度的選擇對(duì)粒計(jì)算算法設(shè)計(jì)具有重要影響。自粒計(jì)算提出以來(lái),大量研究人員對(duì)粒計(jì)算智能相關(guān)模型、數(shù)據(jù)挖掘應(yīng)用等方面進(jìn)行了比較深入的研究。根據(jù)運(yùn)用“?!鼻蠼鈫栴}時(shí)對(duì)粒度層次的使用特征,相關(guān)研究主要包括以下幾點(diǎn):
1)粒度空間優(yōu)化。粒度空間優(yōu)化是指針對(duì)問題性質(zhì)和計(jì)算的約束條件(時(shí)間、計(jì)算資源和通信帶寬等),在問題數(shù)據(jù)的多粒度表示空間中選擇合適的粒層。合適粒度的選擇可能基于問題本身也可能從問題背景推測(cè)。這個(gè)由問題本身和背景決定的滿意解的粒度,簡(jiǎn)稱為問題粒度。最后計(jì)算得出的解本身也有粒度,從問題粒度到解的粒度存在著映射關(guān)系 MPS,解的粒度應(yīng)該等于問題粒度或者比問題粒度更細(xì)。而要得到特定粒度上的解,在求解過程中,計(jì)算對(duì)象就應(yīng)該選擇在合適的粒度層次上。將計(jì)算過程中所處理的信息粒的粒度簡(jiǎn)稱為計(jì)算粒度。從解的粒度到計(jì)算粒度,存在著映射關(guān)系 MSC,這個(gè)關(guān)系是由信息的?;P秃突谛畔⒘5膯栴}求解模型二者共同決定的。利用 MPS 和MSC,可以得出從問題粒度到計(jì)算粒度的映射關(guān)系MPC。粒度空間優(yōu)化的實(shí)質(zhì)就是求得映射 MPC。粒度空間優(yōu)化結(jié)構(gòu)圖如圖 1 所示。
圖 1 粒度空間優(yōu)化結(jié)構(gòu)圖
2)粒度層次切換。粒度層次切換是指在各個(gè)不同的粒層上求得的問題的解,研究的重點(diǎn)是在相鄰粒層上解的快速重構(gòu)方法,如圖 2 所示。圖 2 中,G′(V′,E′) 和G(V,E) 是 2 個(gè)粒層,f是從G(V,E) 到G′(V′,E′) 的映射關(guān)系,S′是問題Problem在粒層G′ 上的解,S是問題Problem在粒層G上的解,函數(shù)h( ) 表示求解過程。已知粒層映射和問題,在較粗粒層G′ 上問題的解可以從 2 種途徑算得,其中一種先找出問題Problem和粒層關(guān)系f所決定的不同粒層上解之間的映射關(guān)系f′ ,再算得S′=f′(S);另外一種是S′=h′(Problem(G′)),該方法是在G′上直接“從頭求解”。因?yàn)镚′ 和G之間擁有相對(duì)簡(jiǎn)單的數(shù)學(xué)邏輯關(guān)系,所以可以通過S′=f′(S) 重構(gòu)出解,這樣比從頭求解效率更高。這個(gè)問題的關(guān)鍵是如何求得f′。
3)多粒度聯(lián)合計(jì)算。類似于大數(shù)據(jù)“分而治之”的思想,多粒度聯(lián)合計(jì)算,是把一個(gè)任務(wù)分解為多個(gè)子任務(wù)來(lái)求解,即將復(fù)雜問題的解分配到數(shù)據(jù)表示的多個(gè)粒度層次上計(jì)算,且將各個(gè)粒度層次上相對(duì)簡(jiǎn)單的功能協(xié)同起來(lái),最終完成求解。
圖 2 不同粒層求解結(jié)構(gòu)圖
近年來(lái),各國(guó)學(xué)者對(duì)粒理論在大數(shù)據(jù)中的應(yīng)用進(jìn)行了比較深入的研究,并將其成功應(yīng)用到眾多領(lǐng)域。Ye 等[22]基于粒計(jì)算思想,提出一種分層抽樣方法,選擇具有高維數(shù)據(jù)特征的隨機(jī)森林子空間,實(shí)現(xiàn)數(shù)據(jù)和特征空間的粒化,完成大規(guī)模數(shù)據(jù)的聚類分析。實(shí)驗(yàn)結(jié)果表明該方法性能優(yōu)于 SVM(支持向量機(jī)),隨機(jī)森林的 4 種變體(RF,ERT,enrich-RF,oblique-RF),以及最近鄰(NN)算法。Chang等[23]基于粒計(jì)算思想,提出一種決策樹的大數(shù)據(jù)分解方法,通過在每個(gè)分解的數(shù)據(jù)粒上分別學(xué)習(xí) SVM分類器,極大提高了 SVM 的學(xué)習(xí)效率,并提高了測(cè)試精度。Liang 等[24]提出一種針對(duì)大規(guī)模數(shù)據(jù)集的高效粗糙特征選擇算法,將大數(shù)據(jù)集拆分為多個(gè)易于處理的信息粒,通過求解和融合每個(gè)信息粒,實(shí)現(xiàn)大數(shù)據(jù)集的特征有效選擇。實(shí)驗(yàn)結(jié)果表明,該算法對(duì)大型數(shù)據(jù)集具有一定的可行性和有效性。梁吉業(yè)等[10]針對(duì)大數(shù)據(jù)挖掘任務(wù),對(duì)數(shù)據(jù)?;⒍嗔6饶J桨l(fā)現(xiàn)與融合、多粒度/跨粒度推理等方面取得的一些進(jìn)展進(jìn)行梳理和剖析,并針對(duì)天文和微博2 個(gè)數(shù)據(jù)挖掘典型示范應(yīng)用領(lǐng)域的初步研究進(jìn)行了總結(jié),以期為大數(shù)據(jù)挖掘領(lǐng)域的研究做出有益的探索。梁吉業(yè)等[11]針對(duì)大數(shù)據(jù)呈現(xiàn)的大規(guī)模性、多模態(tài)性及快速增長(zhǎng)性等特征,分析論述了以粒計(jì)算應(yīng)對(duì)大數(shù)據(jù)挖掘挑戰(zhàn)的可行性,認(rèn)為粒計(jì)算有望為大數(shù)據(jù)挖掘提供一條極具前途的嶄新途徑。徐計(jì)等[16]綜述了大數(shù)據(jù)處理的研究現(xiàn)狀,根據(jù)運(yùn)用粒計(jì)算方法解決問題的不同特征,歸納了粒計(jì)算的 3 種基本模式,討論粒計(jì)算應(yīng)用于大數(shù)據(jù)處理的可行性與優(yōu)勢(shì),并探討在大數(shù)據(jù)的粒計(jì)算處理框架中需要解決的各個(gè)關(guān)鍵問題。
綜上所述,當(dāng)前應(yīng)用粒計(jì)算思想求解大數(shù)據(jù)問題還處于探索階段,比較成功的還是結(jié)合粗糙集、模糊理論等軟計(jì)算工具,用于模糊的、不完整的和海量信息的處理,應(yīng)用領(lǐng)域也主要集中在圖像處理、故障診斷、互聯(lián)網(wǎng)等領(lǐng)域,其他領(lǐng)域尤其是水利領(lǐng)域目前還沒有發(fā)現(xiàn)相關(guān)研究成果。
隨著物聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)等信息技術(shù)的發(fā)展,一些學(xué)者發(fā)現(xiàn)大數(shù)據(jù)挖掘的計(jì)算框架與粒計(jì)算所蘊(yùn)含的計(jì)算范式具有高度契合性,并認(rèn)為粒計(jì)算將為大數(shù)據(jù)挖掘提供一條嶄新途徑。此外,新一代信息技術(shù)的發(fā)展應(yīng)用,全面拓展了水利信息的時(shí)空尺度和要素類型,使得水利大數(shù)據(jù)具有顯著的時(shí)空數(shù)據(jù)集合的眾多特點(diǎn),為在水利領(lǐng)域?qū)崿F(xiàn)大數(shù)據(jù)技術(shù)的應(yīng)用提供了數(shù)據(jù)基礎(chǔ)。因此,面對(duì)水利大數(shù)據(jù)分析的問題,結(jié)合粒理論,構(gòu)建數(shù)據(jù)場(chǎng)景,將在未來(lái)的水利大數(shù)據(jù)分析中起到重要作用[25–27]。粒理論在水利大數(shù)據(jù)分析中的應(yīng)用主要包括以下方面:
1)水利場(chǎng)景數(shù)據(jù)?;治觥T诙嗄B(tài)水利大數(shù)據(jù)場(chǎng)景下,根據(jù)不同問題的“粒度”大小,尋求合適的解決方法,從而降低復(fù)雜多時(shí)空尺度問題求解的時(shí)間和計(jì)算復(fù)雜度。例如,水文時(shí)間序列分析,首先對(duì)原始水文時(shí)間序列進(jìn)行模糊?;幚?,得到原始數(shù)據(jù)變化的最小值、平均值和最大值等 3 個(gè)參數(shù);其次,將 3 個(gè)參數(shù)分別作為 SVM 的輸入進(jìn)行訓(xùn)練學(xué)習(xí),優(yōu)化網(wǎng)絡(luò);最后,利用訓(xùn)練后的 SVM 對(duì)未來(lái)的變化趨勢(shì)進(jìn)行預(yù)測(cè),該方法將樣本空間劃分為多個(gè)粒(子空間),簡(jiǎn)化了樣本規(guī)模,降低了時(shí)間復(fù)雜度。
2)多粒度水利場(chǎng)景數(shù)據(jù)融合。不同數(shù)據(jù)源的數(shù)據(jù)蘊(yùn)含著數(shù)據(jù)樣本中不同的結(jié)構(gòu)信息,當(dāng)描述同一數(shù)據(jù)樣本的不同角度或來(lái)源信息一起使用時(shí),數(shù)據(jù)樣本之間蘊(yùn)含的結(jié)構(gòu)信息將更加豐富,如何實(shí)現(xiàn)多源異構(gòu)高維數(shù)據(jù)融合一直是研究的難點(diǎn)問題。例如,選定的水文場(chǎng)景既包括降水、徑流、蒸發(fā)、社會(huì)經(jīng)濟(jì)等結(jié)構(gòu)化數(shù)據(jù),又包括 XML 文檔、遙感、雷達(dá)、DEM、視頻等半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),如何實(shí)現(xiàn)場(chǎng)景下的多模態(tài)數(shù)據(jù)融合是場(chǎng)景分析的關(guān)鍵。本研究考慮引入粒理論,以水文場(chǎng)景中各個(gè)不同的數(shù)據(jù)源作為各自粒層,采用聚類方法完成多個(gè)粒結(jié)構(gòu)(各自數(shù)據(jù)源)的聚類,結(jié)合證據(jù)理論,借鑒一種樂觀融合和悲觀融合之間的多粒度融合算法[28],實(shí)現(xiàn)多粒度場(chǎng)景數(shù)據(jù)融合,完成多源異構(gòu)條件下的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)之間的多粒度信息融合處理。
3)多粒度時(shí)空水利數(shù)據(jù)挖掘。不同時(shí)間和空間粒度的選擇對(duì)時(shí)空數(shù)據(jù)挖掘模式具有重要影響[29]。時(shí)空數(shù)據(jù)挖掘可以依據(jù)“問題”的不同,選擇在不同的粒度層面發(fā)現(xiàn)最感興趣的模式。例如,中長(zhǎng)期徑流預(yù)報(bào)中,降水和徑流等預(yù)報(bào)因子時(shí)間尺度的選擇可以在旬、月、季等不同的粒度層面分別展開,并在各個(gè)粒度選擇均值、最大或最小值等感興趣的模式進(jìn)行分析,從而實(shí)現(xiàn)不同時(shí)空粒度空間的挖掘分析,提高預(yù)測(cè)的準(zhǔn)確性。
水利大數(shù)據(jù)具有海量、模糊、不確定等時(shí)空數(shù)據(jù)集合的眾多特點(diǎn)。鑒于時(shí)空大數(shù)據(jù)挖掘的計(jì)算框架與粒計(jì)算所蘊(yùn)含計(jì)算范式的高度契合性,提出了粒理論在水利大數(shù)據(jù)分析中的一些應(yīng)用思路,包括水利數(shù)據(jù)場(chǎng)景下的信息?;治?、多粒度水利場(chǎng)景數(shù)據(jù)融合及多粒度水利時(shí)空數(shù)據(jù)挖掘等 3 個(gè)方面,試圖結(jié)合粒理論,為實(shí)現(xiàn)水利大數(shù)據(jù)場(chǎng)景數(shù)據(jù)融合,以及在多模態(tài)數(shù)據(jù)場(chǎng)景下,根據(jù)不同問題的“粒度”大小,尋求合適的解決方法,從而降低復(fù)雜多時(shí)空尺度水利問題求解的時(shí)間和計(jì)算復(fù)雜度,供構(gòu)造水利領(lǐng)域大數(shù)據(jù)應(yīng)用的方法與技術(shù)體系參考。
[1] 水利部信息化工作領(lǐng)導(dǎo)小組辦公室. 2015 年度中國(guó)水利信息化發(fā)展報(bào)告[M]. 北京:中國(guó)水利水電出版社,2015.
[2] 中華人民共和國(guó)水利部. 第一次全國(guó)水利普查公報(bào)[M].北京:中國(guó)水利水電出版社,2013.
[3] YAO Y Y. Granular Computing: Basic Issues and Possible Solutions[M]. Atlantic: Association for Intelligent Machinery Press, 2000: 186-189.
[4] BARGIELA A, PEDRYCZ W. Granular Computing: an Introduction[M]. Boston: Kluwer Academic Publishers,2002: 309-328.
[5] SKOWRON A, STEPANIUK J. Information granules: Towards foundations of granular computing[J]. International Journal of Intelligent Systems, 2001, 16 (1): 57-85.
[6] YAO Y Y. Perspectives of granular computing[G]//Proceedings of 2005 IEEE International Conference on Granular Computing.Beijing: IEEE, 2005: 85-90.
[7] PEDRYCZ W, SKOWRON A, KREINOVICH V. Handbook of Granular Computing[M]. New York: Wiley, 2008.
[8] YAO Y Y. Granular computing: Past, present and future[G]//Proceedings of 2008 IEEE International Conference on Granular Computing. Hangzhou: IEEE, 2008: 80-85.
[9] XU J, WANG G Y, YU H. Review of big data processing based on granular computing[J]. Chinese Journal of Computers,2015, 38 (8): 1497-1517.
[10] 梁吉業(yè),錢宇華,李德玉,等. 面向大數(shù)據(jù)的粒計(jì)算理論與方法研究進(jìn)展[J]. 大數(shù)據(jù),2016,2 (4): 13-23.
[11] 梁吉業(yè),錢宇華,李德玉,等. 大數(shù)據(jù)挖掘的粒計(jì)算理論與方法[J]. 中國(guó)科學(xué):信息科學(xué),2015,45 (11):1355-1369.
[12] ZADEH L A. Fuzzy logic, neural networks, and soft computing[J]. Communications of the ACM, 1994, 37 (3): 77-85.
[13] CHEN C L P, ZHANG C Y. Data-intensive applications,challenges, techniques and technologies: A survey on big data[J]. Information Sciences, 2014, 275 (11): 314-347.
[14] 苗奪謙,王國(guó)胤,劉清,等. 粒計(jì)算:過去、現(xiàn)在與展望[M]. 北京:科學(xué)出版社,2007: 6-12.
[15] 王國(guó)胤,張清華,胡軍. 粒計(jì)算研究綜述[J]. 智能系統(tǒng)學(xué)報(bào),2007,2 (6): 8-26.
[16] 徐計(jì),王國(guó)胤,于洪. 基于粒計(jì)算的大數(shù)據(jù)處理[J]. 計(jì)算機(jī)學(xué)報(bào),2015 (8): 1497-1517.
[17] 孟軍. 相容粒計(jì)算模型及其數(shù)據(jù)挖掘研究[D]. 大連:大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,2012.
[18] SKOWRON A, STEPANIUK J. Information granules:Towards foundations of granular computing[J]. International Journal of Intelligent Systems, 2001, 16 (1): 57-85.
[19] LIN T Y. Granular computing I: The concept of granulation and its formal model[J]. International Journal of Granular Computing, Rough Sets and Intelligent Systems, 2009, 1 (1):21-42.
[20] YAO Y Y. A triarchic theory of granular computing[J].Granular Computing, 2016, 1 (2): 145-157.
[21] PEDRYCZ W. Granular Computing: Analysis and Design of Intelligent Systems[M]. Boca Raton, CRC Press, 2013.
[22] YE Y, WU Q, HUANG J Z, et al. Stratified sampling for feature subspace selection in random forests for high dimensional data[J]. Pattern Recognition, 2013, 46 (3):769-787.
[23] CHANG F, GUOC Y, LIN X R, et al. Tree decomposition for large-scale SVM problems[J]. Journal of Machine Learning Research, 2010, 11 (10): 2935-2972.
[24] LIANG J Y, WANG F, DANG C Y, et al. An efficient rough feature selection algorithm with a multi-granulation view[J].International Journal of Approximate Reasoning, 2012, 53 (6):912-926.
[25] AI P, YUE Z X. A framework for processing water resources big data and application[J]. Applied Mechanics and Materials,2014, 519-520: 3-8.
[26] AI P, XIONG C S, LIAO H L, et al. A method for water resources object identification and encoding based on EPC[G]//Proceedings of International Symposium on Distributed Computing and Applications for Business Engineering and Science. Guiyang: IEEE, 2015: 264-267.
[27] AI P, YUE Z X, YUAN D B, et al. A scene analysis model for water resources Big Data[G]// Proceedings of International Symposium on Distributed Computing and Applications for Business Engineering and Science. Guiyang: IEEE, 2016:280-283.
[28] LIN G P, LIANG J Y, QIAN Y H, et al. A fuzzy multigranulation decision-theoretic approach to multi-source fuzzy information systems[J]. Knowledge-based Systems, 2016, 91:102-113.
[29] 劉大有,陳慧靈,齊紅,等. 時(shí)空數(shù)據(jù)挖掘研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2013,50 (2): 225-239.