王宏記,張冰松,楊代才
(湖北省氣象信息與技術(shù)保障中心,湖北武漢 430074)
?
基于關(guān)聯(lián)規(guī)則的湖北短期氣候預(yù)測應(yīng)用初探
王宏記,張冰松,楊代才
(湖北省氣象信息與技術(shù)保障中心,湖北武漢 430074)
分析了數(shù)據(jù)挖掘技術(shù)中關(guān)聯(lián)規(guī)則分析方法的原理和一般數(shù)據(jù)挖掘的系統(tǒng)結(jié)構(gòu)和主要步驟,通過收集、加工和處理大氣環(huán)流指數(shù)等大量信息,以湖北省汛期異常氣候現(xiàn)象為對象,使用關(guān)聯(lián)規(guī)則挖掘方法試圖找出各物理量和氣象要素與未來一段時間內(nèi)湖北的汛期降水之間的關(guān)系?;贏priori算法2013年針對湖北短期氣候預(yù)測,初步建立了一個關(guān)聯(lián)規(guī)則挖掘系統(tǒng),實現(xiàn)了參數(shù)配置、關(guān)聯(lián)挖掘和規(guī)則顯示等功能。
數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則挖掘;氣候預(yù)測
隨著通信技術(shù)和數(shù)據(jù)庫技術(shù)的發(fā)展,湖北省氣象局通過INTERNET網(wǎng)、部門交換、本地大氣探測等手段,特別是通過中國氣象局9210衛(wèi)星通信系統(tǒng)每天均能接收到越來越多的氣象數(shù)據(jù)資料,并通過關(guān)系型數(shù)據(jù)庫[1-6]對這些數(shù)據(jù)進行了管理。但就氣象應(yīng)用特別是短期氣候預(yù)測業(yè)務(wù)而言,要在越來越堆積的數(shù)據(jù)中間找出有用的數(shù)據(jù)或帶有預(yù)測性質(zhì)的信息是一件非常復(fù)雜的事[7-9]。氣象預(yù)報通常需要使用大量的歷史氣象數(shù)據(jù)和實時氣象數(shù)據(jù),業(yè)務(wù)和研究人員往往首先采用建立數(shù)據(jù)庫的方式,再從這些大量的數(shù)據(jù)中分析天氣的規(guī)律。湖北短期氣候的預(yù)測人員在實際業(yè)務(wù)中既要面對堆積如山的氣象數(shù)據(jù),同時傳統(tǒng)的數(shù)據(jù)分析方法很難處理在時間和空間等多維度的信息,難以找到氣象數(shù)據(jù)屬性信息之間的內(nèi)部關(guān)系,基于這些原因,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于短期氣候預(yù)測領(lǐng)域,從一個新的角度對氣象數(shù)據(jù)進行處理,在關(guān)聯(lián)模式挖掘的基礎(chǔ)上,找出部分物理量和未來的氣象要素之間氣候關(guān)系,解決長期困擾預(yù)報員面對海量氣象數(shù)據(jù)無法下手的情況,是氣象業(yè)務(wù)人員努力的一個方向。
數(shù)據(jù)挖掘(Data Mining,簡稱DM)就是要從大量的數(shù)據(jù)中挖掘或獲得實用信息的技術(shù)之一,雖然該技術(shù)出現(xiàn)的時間不長,但20世紀(jì)90年代以來發(fā)展速度很快。此外作為一個多學(xué)科交叉結(jié)合的一項技術(shù),數(shù)據(jù)挖掘正好就是要從海量的數(shù)據(jù)中挖掘出可能有潛在意義信息的技術(shù),這些信息可能為一些科學(xué)研究找到突破點;該技術(shù)已廣泛應(yīng)用于氣象、網(wǎng)絡(luò)安全、電信、零售業(yè)以及保險服務(wù)等行業(yè)[10-12]。筆者主要是探討數(shù)據(jù)挖掘技術(shù)在短期氣候預(yù)測中應(yīng)用的可能性,并提出一個適合于湖北短期氣候預(yù)測的關(guān)聯(lián)挖掘方案,建立了一個關(guān)聯(lián)規(guī)則挖掘系統(tǒng)。
關(guān)聯(lián)規(guī)則挖掘[13-14]是從大量的數(shù)據(jù)中挖掘出有價值的描述數(shù)據(jù)項之間相互聯(lián)系的信息技術(shù)之一。通常關(guān)聯(lián)規(guī)則具有以下形式:X?Y(S%,C%),即“X1∩X2∩…∩XM→Y1∩Y2∩…∩YN”;其中Xi(i∈{1,…,M})和Yj( j ∈{1,…,N})均為屬性值,C%表示確信度(Confidence),S%表示支持度(Support)。支持度S%表示X和Y項集同時出現(xiàn)的概率,而確信度C%表示X項集出現(xiàn)的前提下Y項集出現(xiàn)的概率,兩者之間存在特定關(guān)系,Confidence(X?Y)= Support(Xi∪Yj)/ Support(Xi)。
如果將某區(qū)域氣候狀況看成屬性Y,而將前期多個氣象因素實況看成屬性X,就可通過設(shè)定支持度S,利用關(guān)聯(lián)規(guī)則挖掘技術(shù)找到一些有用的關(guān)聯(lián)規(guī)則或聯(lián)系,這些規(guī)則具有用戶給定的支持度,這是非常有意義的。
2.1 數(shù)據(jù)挖掘系統(tǒng)的組成
2.1.1數(shù)據(jù)庫或數(shù)據(jù)倉庫。它表示挖掘系統(tǒng)主要是由數(shù)據(jù)倉庫、數(shù)據(jù)表單或其他信息數(shù)據(jù)庫組成。一般需要使用數(shù)據(jù)清洗和數(shù)據(jù)集成等操作過程,對這些數(shù)據(jù)信息進行預(yù)處理。
2.1.2數(shù)據(jù)庫服務(wù)器。它是負(fù)責(zé)根據(jù)用戶的數(shù)據(jù)挖掘請求讀取相關(guān)的數(shù)據(jù)。
2.1.3知識庫。用于存放數(shù)據(jù)挖掘所需要的知識,這些知識將用于指導(dǎo)數(shù)據(jù)挖掘的搜索過程,或用于幫助對挖掘結(jié)果的評估,如用戶根據(jù)預(yù)測經(jīng)驗定義的閾值就是最簡單的知識。
2.1.4數(shù)據(jù)挖掘引擎。這是數(shù)據(jù)挖掘系統(tǒng)的最基本部件,它通常包含一組挖掘功能模塊,完成關(guān)聯(lián)分析或分類歸納、進化計算和偏差分析等挖掘功能。
2.1.5規(guī)則評估模塊。該模塊可根據(jù)標(biāo)準(zhǔn),協(xié)助數(shù)據(jù)挖掘模塊更快地收斂到有意義的知識,該模塊能否與數(shù)據(jù)挖掘模塊有機結(jié)合,與數(shù)據(jù)挖掘模塊所使用的具體挖掘算法有關(guān)。
2.1.6可視化用戶界面。該模塊幫助用戶與數(shù)據(jù)挖掘系統(tǒng)本身進行交互操作。一方面用戶通過該模塊可以將自己的參數(shù)或任務(wù)提交給挖掘系統(tǒng),以及提供挖掘搜索所需要的相關(guān)知識;另一方面系統(tǒng)通過模塊向用戶展示或解釋數(shù)據(jù)挖掘的結(jié)果;此外該模塊還可以幫助用戶瀏覽數(shù)據(jù)對象內(nèi)容與數(shù)據(jù)定義模式、評估所挖掘出的模式規(guī)則,以及以多種形式展示挖掘出的模式規(guī)則。
2.2 數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)數(shù)據(jù)挖掘是屬于在線分析處理(OLAP)的高級階段,其數(shù)據(jù)分析能力遠(yuǎn)超過以數(shù)據(jù)匯總為主的在線分析處理功能,它能夠?qū)崿F(xiàn)來自多學(xué)科技術(shù)的有機結(jié)合,這些技術(shù)包括數(shù)據(jù)庫、數(shù)理統(tǒng)計、高性能計算、模式識別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索分析等技術(shù)。目前較為成熟的“數(shù)據(jù)挖掘系統(tǒng)”有很多,2012~2013年基于Apriori算法初步建立了一個基于關(guān)聯(lián)規(guī)則的挖掘系統(tǒng),建立了數(shù)據(jù)庫服務(wù)器和數(shù)據(jù)庫表、基于閾值的氣象知識庫、基于Apriori算法等方法的數(shù)據(jù)挖掘算法庫,初步實現(xiàn)了閾值調(diào)整、參數(shù)配置以及規(guī)則顯示等功能。系統(tǒng)結(jié)構(gòu)示意圖如圖1所示。
圖1 基于關(guān)聯(lián)規(guī)則的氣象數(shù)據(jù)挖掘系統(tǒng)總體結(jié)構(gòu)
3.1 短期氣候預(yù)測方法分析大約50年前,短期天氣預(yù)報和短期氣候預(yù)測工作均還處在同一個水平上的業(yè)務(wù)工作,它們都是根據(jù)當(dāng)?shù)厍捌诘哪承崨r信息來預(yù)測未來的天氣變化,準(zhǔn)確率均不高。到了今天,因為氣象觀測系統(tǒng)的發(fā)展和數(shù)值天氣預(yù)報的成功,短期天氣預(yù)報工作已取得了巨大的成功,然而短期氣候預(yù)測水平還是很低,沒有一整套有效的方法。近幾十年來,業(yè)務(wù)工作人員還是進行了大量的研究工作,有人提出“短波制約短期天氣,長波制約中期天氣,超長波制約長期天氣即短期氣候”的想法,多年的實踐和檢驗表明,使用大氣中的波動也沒法根本解決短期氣候預(yù)測問題。后來又有人又提出了三類短期氣候預(yù)測方法,一是事件相關(guān)統(tǒng)計法,就是從業(yè)務(wù)實際工作中注意到某2個事件先后出現(xiàn)的現(xiàn)象,采用常規(guī)的統(tǒng)計方法進行一段長序列時間的回算,發(fā)現(xiàn)它們的相關(guān)系數(shù)很高,于是用一個事件的發(fā)生來預(yù)測另一事件的發(fā)生。但往往這樣的聯(lián)系本身太少且找出的難度也很大。二是周期規(guī)律統(tǒng)計法,該方法認(rèn)為氣候變化的規(guī)律可能都隱藏在過去的氣候資料的長時間序列之中,人們可以采用各種常規(guī)數(shù)學(xué)統(tǒng)計方法去找到氣候資料時間序列中的“周期”等規(guī)律,從而做出短期氣候的預(yù)測。20世紀(jì)70年代開始,我國氣象部門開展了大量的常規(guī)數(shù)學(xué)統(tǒng)計工作,但其效果被不斷地證明是不理想的,業(yè)務(wù)人員經(jīng)過分析,認(rèn)為可能是這些方法的歷史擬合率很高,但往往應(yīng)用到實際預(yù)報預(yù)測業(yè)務(wù)工作時,預(yù)報預(yù)測的準(zhǔn)確率均很低。這種現(xiàn)象表明常規(guī)數(shù)學(xué)統(tǒng)計方法發(fā)現(xiàn)的“周期規(guī)律”不一定是客觀存在的,數(shù)學(xué)方法可以證明的是,若干長度的氣候資料內(nèi)部本來沒有因果聯(lián)系,但通過計算機總是可以找到幾對相關(guān)系數(shù)很高的因子,該類方法可能只是數(shù)字的游戲。第三類是數(shù)值模式方法,20世紀(jì)70年代以來,國內(nèi)外開展了短期氣候預(yù)測的數(shù)值模式方法研究,其基本理論框架與短期天氣預(yù)報是一樣,也是通過大氣動力學(xué)方程組、海洋動力學(xué)方程組以及熱力學(xué)方程,采用離散數(shù)學(xué)以及時間積分等技術(shù)進行數(shù)值模擬[15-17],該方法被認(rèn)為可能是短期氣候預(yù)測工作的未來出路,然而40多年過去了,該方法的技術(shù)方案和應(yīng)用效果并不理想。筆者在此以湖北省汛期降水趨勢為對象,采用關(guān)聯(lián)規(guī)則分析方法,探討該方法在湖北短期氣候業(yè)務(wù)中應(yīng)用的可行性。
3.2 對象選擇短期氣候預(yù)測一般指月、季以及年際尺度的氣候預(yù)測,全年和汛期降水情況的預(yù)測是氣候預(yù)測中的重點之一。在此根據(jù)湖北省汛期趨勢預(yù)測的要求,從數(shù)據(jù)庫中選取了與數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù),分析了湖北省1951~2005年的降水情況,分全年1~12月、汛期5~9月、夏季6~8月3個時段統(tǒng)計出5個最多雨年份和5個最少雨年份(表1),選擇其中汛期5個最多雨的年份為研究對象。
表1 1951~2005年湖北省降水量統(tǒng)計
3.3 因子選擇關(guān)聯(lián)規(guī)則分析方法中的因子選擇非常重要,結(jié)合短期氣候預(yù)測的實際情況,對業(yè)務(wù)工作中常用的數(shù)據(jù)和前人的研究成果進行了分析。有人發(fā)現(xiàn)湖北異常氣象要素的變化與東海、西風(fēng)環(huán)流、極渦、南亞熱帶、天文因素等方面異常表現(xiàn)有一定關(guān)系。如張順利等通過對青藏高原多雪、少雪的合成分析和數(shù)值試驗,討論了青藏高原對亞洲夏季風(fēng)和我國東部氣候的影響,結(jié)果表明,高原積雪多,亞洲季風(fēng)環(huán)流弱,亞洲夏季風(fēng)弱,副熱帶高壓弱,副高位置偏南,長江流域降水多,認(rèn)為這些因子一方面通過改變下墊面物理性質(zhì)引起大范圍持續(xù)時間較長的大氣環(huán)流變化,從而使得夏季有利于降水產(chǎn)生的天氣系統(tǒng)出現(xiàn),造成主要雨帶位置與強度不同[18]。隨著對災(zāi)害性氣候機理和預(yù)測研究的不斷深入,很多氣象專家和氣象工作者從不同的角度,采用多種統(tǒng)計方法分析了影響夏季降水的前兆因子[15,19-20]。根據(jù)這些研究成果,結(jié)合關(guān)聯(lián)規(guī)則分析方法的實際需要,在此選取了北半球500 hPa月平均高度場、北半球100 hPa月平均高度場、北半球SLP月平均氣壓場、西北太平洋月平均海溫場、74項環(huán)流特征量、關(guān)鍵區(qū)海溫指數(shù)、東亞季風(fēng)指數(shù)、阻高強度指數(shù)等因子,對湖北省汛期降水趨勢進行了關(guān)聯(lián)規(guī)則分析求解。
3.4 數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理主要是對數(shù)據(jù)進行再加工,包括檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性等,對其中的噪音數(shù)據(jù)(如缺測數(shù)據(jù)、錯誤數(shù)據(jù)等)進行質(zhì)量控制處理,對缺測的數(shù)據(jù)進行填補并將數(shù)據(jù)轉(zhuǎn)換成為有效形式,建立合適的數(shù)據(jù)模型。在此對選取的74項大氣環(huán)流指數(shù)以及5個關(guān)鍵區(qū)海溫指數(shù)對應(yīng)多雨年、少雨年和多年的平均值進行了編號和統(tǒng)計,發(fā)現(xiàn)因子序號為0、1、2的因子,多年平均值在多雨年平均和少雨年平均值之間,且多雨年平均值大于少雨年平均值;因子序號為3、14、25等的因子表示歷史上有缺測資料,對這種情況按以上數(shù)據(jù)預(yù)處理的原則進行了處理,即忽略對應(yīng)的數(shù)據(jù)項;因子序號為7、22、47的因子,多年平均值、多雨年平均以及少雨年平均值之間沒有規(guī)律,對這類數(shù)據(jù)項按缺測資料處理。
3.5 數(shù)據(jù)挖掘算法選取Apriori算法是產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項集的基本算法,該算法是根據(jù)有關(guān)頻繁項集特性的先驗知識而命名的。該算法利用了一個層次順序搜索的循環(huán)方法來完成頻繁項集的挖掘工作。這一循環(huán)方法就是利用k-項集來產(chǎn)生(k+1)-項集。具體做法就是:首先找出頻繁1-項集,記為L1;然后利用L1來挖掘L2,即頻繁2-項集;不斷如此循環(huán)下去直到無法發(fā)現(xiàn)更多的頻繁k-項集為止。每挖掘一層Lk就需要掃描整個數(shù)據(jù)庫一遍。為提高按層次搜索并產(chǎn)生相應(yīng)頻繁項集的處理效率,Apriori算法利用了一個重要性質(zhì),即一個頻繁項集中任一子集也應(yīng)是頻繁項集,來幫助有效縮小頻繁項集的搜索空間。
3.5.1Apriori算法詳述。輸入:數(shù)據(jù)庫D;最小支持度閾值sup_min。輸出:D中的頻繁項集L。
3.5.2Apriori算法具體方法。首先,找頻繁項集1-項集;然后,apriori_gen(Lk-1, sup_min)函數(shù)做連接和剪枝2個動作,用于在第k-1次遍歷中生成的Lk-1生成Ck;最后,由Ck生成Lk。
3.5.3Apriori算法處理流程。具體的處理流程如下:
L1= FIND_Frquent_1_Itemset(D); //發(fā)現(xiàn)L1-項集
For(k=2;Lk-1≠Ф;k++){
Ck=apriori_gen(Lk-1,sup_min);//根據(jù)頻繁(k-1)-項集產(chǎn)生候選k-項集
For each t∈ D {
Ct=Supset(Ck,t); //獲得t所包含的候選項集
采用Apriori算法,在設(shè)定最小支持度0.65以上的情況下,對湖北多降水年進行了求解;求解過程中通過數(shù)據(jù)劃分的方法來減少了I/O次數(shù),即對74項氣象環(huán)流指數(shù)數(shù)據(jù)集劃分為3個邏輯數(shù)據(jù)塊,找出局部頻繁項目集,然后將所有局部頻繁項目集合并為全局頻繁項目集上,在支持度0.65時找到了幾組關(guān)聯(lián)規(guī)則,如A(75,77)?B(1),顯示前一年因子75和77即關(guān)鍵區(qū)海溫指數(shù)的第1和3項達(dá)到閾值即可認(rèn)為第二年為多雨,其物理含義是:黑潮區(qū)和西風(fēng)漂流區(qū)海溫偏低,預(yù)示第二年湖北為多雨年。湖北省氣象局開發(fā)了一個關(guān)聯(lián)規(guī)則挖掘系統(tǒng),實現(xiàn)了因子錄入、對象數(shù)據(jù)錄入、閾值設(shè)置和規(guī)則可視化顯示等功能,系統(tǒng)在2013~2014年的應(yīng)用中效果良好。當(dāng)降低支持度為0.62時,輸出規(guī)則多達(dá)2 000條以上,由于其規(guī)則表述較為復(fù)雜,且物理意義尚不清楚,文中沒有列出,需要進行進一步的探索。
[1] 高梅,張文華.基于氣象信息共享系統(tǒng)的雷達(dá)資料網(wǎng)絡(luò)數(shù)據(jù)庫[J].氣象科技,2002,30(1):32-36.
[2] 王勝利.新疆省級氣象數(shù)據(jù)庫建設(shè)及其管理系統(tǒng)軟件設(shè)計[J].新疆氣象,2003,26(5):41-42.
[3] 彭駿,劉興華,陳棟.氣象數(shù)據(jù)在網(wǎng)絡(luò)結(jié)構(gòu)中的應(yīng)用模型探討[J].四川氣象,2002(4):44-45.
[4] 覃天信,黃?,?李漫霜.廣西氣象臺業(yè)務(wù)數(shù)據(jù)庫系統(tǒng)簡介[J].廣西氣象,2001,22(4):43-44.
[5] 易烈剛,楊溢,范元品.基于Internet的氣象實時資料查詢系統(tǒng)[J].貴州氣象,2003,27(3):39-41.
[6] 張帆,武疆艷.歷史資料數(shù)據(jù)庫管理系統(tǒng)的研制[J].新疆氣象,1998,21(3):29-31.
[7] 何婧,王麗珍,鄒力鵑.基于云南氣象數(shù)據(jù)的空間關(guān)聯(lián)規(guī)則挖掘[J].計算機工程與應(yīng)用,2003(34):187-190.
[8] 趙海青,李社宗,周幸福.數(shù)據(jù)庫中的知識發(fā)現(xiàn)及其在氣象中的應(yīng)用[J].河南氣象,2002(2):35-36.
[9] 黃文玲,陳德軍.灰色趨勢災(zāi)變預(yù)測及其在數(shù)據(jù)挖掘中的應(yīng)用[J].華中科技大學(xué)學(xué)報, 2005,33(1):55-57.
[10] 郝先臣,張德下.?dāng)?shù)據(jù)挖掘工具和應(yīng)用中的問題[J].東北大學(xué)學(xué)報,2001,22(2):183-187.
[11] 曹輝,蔡穎,朱善君.教據(jù)倉庫技術(shù)在電力系統(tǒng)中的應(yīng)用[J].華北電力技術(shù),2001(3):44-54.
[12] HAN J,CAMBER M.?dāng)?shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2001.
[13] 陳德軍.一般灰色趨勢關(guān)聯(lián)系統(tǒng)及其分析方法研究[J].華中科技大學(xué)學(xué)報,2003,31(8):82-84.
[14] 陳綿云.趨勢關(guān)聯(lián)度及其在灰色建模中的應(yīng)用[J].華中理工大學(xué)學(xué)報,1994,22(8):64-68.
[15] 王革麗.時空結(jié)構(gòu)對短期氣候預(yù)測影響的初步分析[J].氣候與環(huán)境研究,2005,10(2):193-200.
[16] 顧群.顧節(jié)經(jīng).短期氣候預(yù)測的物理基礎(chǔ)和診斷預(yù)測[J].遼寧氣象,2004(4):10-11.
[17] 趙振國.我國短期氣候預(yù)測的業(yè)務(wù)技術(shù)發(fā)展[J].山東氣象,2001(3):4-7.
[18] 張順利,陶詩言.青藏高原積雪對亞洲夏季風(fēng)影響的診斷及數(shù)值研究[J].大氣科學(xué),2001,25(3):372-390.
[19] 陳菊英.山東區(qū)域汛期旱澇預(yù)測概論[J].山東氣象,2001(3):12-17.
[20] 王錦貴,許君強.東北地區(qū)夏季低溫與旱澇預(yù)測系統(tǒng)研究[M].北京:氣象出版社,2000.
Study on Hubei Short-term Climate Prediction Method Based on Association Rule
WANG Hong-ji, ZHANG Bing-song, YANG Dai-cai
(Meteorological Information and Technology Support Center of Hubei Province, Wuhan, Hubei 430074)
This paper analyses the principle of association rules method, the system structure and the main steps of the general data mining, by collecting, processing and handling of atmospheric circulation index and other large amounts of information, taking Hubei Province flood season climate anomalies as the object, association rule mining method was used to find out the relationship between physics quantities, meteorological elements and flood season precipitation in the future of Hubei.Based on Apriori algorithm, aiming at short-term climat prediction in 2013, an association rule mining system was established, realizing parameters configuration, association mining and rule display.
Data mining; Association rule mining; Climate prediction
王宏記(1964-),男,湖北麻城人,高級工程師,從事信息網(wǎng)絡(luò)開發(fā)研究。
2015-02-02
S 126
A
0517-6611(2015)08-150-03