■王征 商亮 張闖
(撫順市地震局 遼寧撫順 113006)
數(shù)據(jù)挖掘技術在地震預報中的應用
■王征 商亮 張闖
(撫順市地震局 遼寧撫順 113006)
隨著數(shù)據(jù)挖掘技術的不斷發(fā)展,其逐漸引起了信息產(chǎn)業(yè)界的廣大關注。顯然,這是相對貧乏的信息量與快速增長的數(shù)據(jù)量之間在矛盾運動作用下所產(chǎn)生的必然結果。那么,對數(shù)據(jù)挖掘技術的全面、深入、系統(tǒng)的研究,即成為了全球信息化發(fā)展的客觀需求。而針對于地震分析預報工作而言,數(shù)據(jù)挖掘技術也能夠起到一定的推動作用。本文首先詳細的闡述了我國地震預報工作的研究現(xiàn)狀以及地震數(shù)據(jù)的一些特點,其次系統(tǒng)的分析與探討了數(shù)據(jù)挖掘技術應用于地震預報工作的常用方法。
地震預報數(shù)據(jù)挖掘技術應用
長期以來,在地震預測研究方面,我國始終都以經(jīng)驗型統(tǒng)計為基礎來開展工作,在歷史上也取得過較大的成就,比如成功預報1975年的海城地震即是一個很好的例子。隨著我國社會、經(jīng)濟的不斷發(fā)展,近年來我國對于地震預報的準確性要求越來越高,虛報、錯報所導致的社會成本越來越高昂。顯然,如果還采用經(jīng)驗型統(tǒng)計為基礎的地震預報,其準確性顯然不能夠滿足于現(xiàn)代社會的實際要求。隨著國際上對地震發(fā)生物理機制研究的不斷深入,人們對地震發(fā)生規(guī)律的認識得到了進一步的發(fā)展。近年來,我國在這方面的研究上(尤其是基于地震發(fā)生機理的地震預報研究)也獲得了很大的成功,如加卸載響應比的地震預報模型,其獲得了國際上的認可。但是,就整體來說,我國在這方面的研究并不成熟,依舊與很多發(fā)達國家存在著一定的差距。
長期研究實踐證明,地震數(shù)據(jù)有著相當顯著的特點。首先,數(shù)據(jù)量極大。地震前兆觀測的數(shù)據(jù)是從傳感器獲取的流數(shù)據(jù),一般情況下,其采樣的頻率都為每秒鐘采樣一次,數(shù)據(jù)量極大。其次,經(jīng)驗型知識較多。由于絕大部分預報知識都與相關領域有著密切的聯(lián)系,所以得出的結果往往都是地震預報專家根據(jù)自身的經(jīng)驗總結而出。再次,具有較強的時間性。具體來說,一方面是時序性,由于地震數(shù)據(jù)都與時間相關,數(shù)據(jù)間就必然會具有較強的時間約束關系。也就是說,地震數(shù)據(jù)屬于時間序列數(shù)據(jù)。另一方面是實時性,其對異?,F(xiàn)象能夠及時的做出反應。最后,空缺多、干擾多,且隨機性較強、不確定因素較多。
3.1 聚類分析
所謂聚類分析,即根據(jù)某一種相似程度的度量來將數(shù)據(jù)對象進行分組,分成若干類或簇。一般情況下,不同簇中的對象之間具有較大的差異,而同一簇中的對象之間則具有較高的相似度。其實,聚類分析源于很多研究領域(如生物學、統(tǒng)計學等)。如今,聚類分析已經(jīng)被廣泛的應用到地震預報工作之中,比如有(無)震樣本的聚類、地震正常(異常)數(shù)據(jù)的聚類、地震知識的獲取、地震序列類型的劃分等[1]。
3.2 神經(jīng)網(wǎng)絡
“MP”模型與“Hebb”學習規(guī)則,是神經(jīng)網(wǎng)絡的基礎,神經(jīng)網(wǎng)絡就是以此來建立起了多種神經(jīng)網(wǎng)絡模型,主要氛圍三大類,即自組織網(wǎng)絡、反饋式網(wǎng)絡、前饋式網(wǎng)絡[2]。總的來說,神經(jīng)網(wǎng)絡是一種以訓練來學習的非線性預測模型,其能夠較好的完成多種數(shù)據(jù)挖掘任務,如聚類、分類、回歸、關聯(lián)、模式識別等。就目前的情況來看,很少有人涉及自組織網(wǎng)絡或反饋式網(wǎng)絡,但在地震預報工作中則可以使用自學習、自組織、自適應等功能。另外,通過自組織網(wǎng)絡的應用,能夠讓網(wǎng)絡實現(xiàn)聚類、特征提取以及知識學習等。
3.3 遺傳算法
作為一種模擬生物進化過程的方法,遺傳算法是通過對三個基本算子,即復制、交叉、變異的利用來實現(xiàn)優(yōu)化求解的技術。在遺傳算法當中,規(guī)則群體往往都是通過交叉與變異來實現(xiàn)進化操作的,這樣的操作一直會延續(xù)到群體中所有規(guī)則都滿足于制定閾值為止。從某種角度上來看,遺傳算法與統(tǒng)計學有著極為相似的特征。具體而言,遺傳算法模型的形式必須預先確定出來,在算法實施時,首先就應該對求解的問題進行編碼,以此產(chǎn)生初始的群體,然后對個體適應度進行計算,最后再對染色體進行復制、交叉、變異等操作,直到出現(xiàn)最佳方案為止。在執(zhí)行遺傳算法的過程中,每一代都會存在很多不同的種群個體。而對于環(huán)境的適應能力,這將直接決定著這些染色體中的個體是否能夠保留下來。顯然,針對于那些適應性較強的,其將具有更多的保留機會,而適應性較弱的則是由計算適應性函數(shù)f(x)的值來決定的,而這樣的值也被稱為適應值。在這其中,不得不引起注意的是,適應函數(shù)f(x)的構成和目標函數(shù)始終都保持著相當密切的聯(lián)系,可以說起就是目標函數(shù)的變種[3]。另外,遺傳算法還能夠起到產(chǎn)生優(yōu)良后代的作用,通過若干代的遺傳,必然會得到滿足要求的后代(即問題的解)。就目前的實際情況來看,遺傳算法主要應用于分類、優(yōu)化等問題上。針對于地震預報工作來說,陳琪福等通過對遺傳算法的應用,初步建立了地震預報分類的體系。而王海軍等人也通過遺傳算法優(yōu)化參數(shù)的使用,對1994年臺灣海峽地震的震源過程進行了成功的反演。
3.4 分類
在數(shù)據(jù)挖掘過程中,“分類”是一項應用及其廣泛的任務。所謂分類,就是對已分類資料的特征進行深入的研究,通過對對象屬性的分析來建立起一個分類模型或分類函數(shù),然后通過對這種函數(shù)或模型的運用來計算總結出相關數(shù)據(jù)的特征,最終將那些沒有經(jīng)過分類的數(shù)據(jù)或新的數(shù)據(jù)分派到不同的組中。在實際的地震預報工作中,分類的應用領域十分廣泛,比如地震序列類型的劃分、有震(無震)樣本的區(qū)分、地震正常(異常)數(shù)據(jù)的區(qū)分等,都將涉及到分類的應用。具體來說,分類的常用方法有貝葉斯分類法、決策樹分類法、遺傳算法分類法、神經(jīng)網(wǎng)絡分類法、支持向量機分類法、粗糙集理論分類法等。
總之,數(shù)據(jù)挖掘技術目前在與自然災害預報、地震預報、醫(yī)療保健等應用領域的交叉結合中得到了迅猛的發(fā)展。針對于地震預報當中的數(shù)據(jù)挖掘而言,其具有十分深遠的研究意義。因此,我們必須基于數(shù)據(jù)挖掘基礎來不斷探求解決問題的新思路與新方法。只有這樣,地震預報的準確性才能夠得到實質(zhì)性的提升。
[1]郭淑文,程然,祝文亮等.數(shù)據(jù)挖掘技術在地震屬性降維中的應用 [J].天然氣地球科學,2010,04:670-677.
[2]項月文.基于SOM自組織神經(jīng)網(wǎng)絡的地震預報技術研究 [D].南昌大學,2012.
[3]宋維琪,楊曉東.解域約束下的微地震事件網(wǎng)格搜索法、遺傳算法聯(lián)合反演 [J].石油地球物理勘探,2011,02:259-266+160.
P315[文獻碼]B
1000-405X(2015)-10-341-1