鄭 華,李 煒,邱劍鋒,林 晨,蔣阿芳
(安徽大學計算機科學與技術學院,安徽合肥 230039)
基于時間序列相似性匹配算法的地震預測研究
鄭 華,李 煒,邱劍鋒,林 晨,蔣阿芳
(安徽大學計算機科學與技術學院,安徽合肥 230039)
把匹配抽象時間序列相似性的方法引入到地震預報的應用中,結(jié)合大量地震歷史源數(shù)據(jù),地震領域的專家經(jīng)驗知識和相關成果基礎上,提出了一種簡化的抽象時間序列匹配模型。該模型在對海量數(shù)據(jù)進行預處理篩選的基礎上再進行時間相似性匹配,增加了橫向和縱向多方位地區(qū)和多方位時間段的匹配,不同時間差和閾值的匹配,并通過大量實驗對該模型進行了反復驗證,同時對我國地震頻繁地區(qū)近幾十年的地震歷史數(shù)據(jù)進行了相似性匹配實驗分析,取得了可信度較高的實驗結(jié)果,實驗結(jié)果驗證了所給時間序列相似性匹配控制策略的有效性、實用性以及算法的優(yōu)越性。
時間序列;序列匹配;地震預測;算法;地震相關地區(qū)
時間序列(Time series)泛指那些隨時間或空間有序變化的數(shù)據(jù)集合,這些數(shù)據(jù)記錄集合往往采用等時間或空間間隔進行度量。如何有效的管理和利用海量數(shù)據(jù)序列,有效的發(fā)現(xiàn)和理解這些數(shù)據(jù)序列背后隱含的規(guī)律和知識,已受到越來越多數(shù)據(jù)挖掘研究者廣泛關注[1]。在其相應的數(shù)據(jù)挖掘系統(tǒng)中,時間序列的相似性查詢是分析時間序列變化規(guī)律的一種重要方法[2]。對于時間序列的分類、預測及知識發(fā)現(xiàn)都具有重要的現(xiàn)實意義。比如在我們熟悉的股票,期貨,具有相似性銷售的產(chǎn)品,恒星的光譜曲線中相似性度量都具有不可替代的作用[3]。
地震序列是一維時間序列,卻蘊藏著動態(tài)演化中其它變量的痕跡和信息,因此對地震序列的研究具有重要意義[4]。時間序列相似度序列匹配是在時間、震級數(shù)據(jù)庫中找出與給定時間、震級序列模型相似的序列,對相似性度量的建立求解過程,是數(shù)據(jù)挖掘中一類重要問題,具體表現(xiàn)在大量數(shù)據(jù)中具有時間和另一性質(zhì)的二維相關性[5]。在地震預報科學中,經(jīng)過大量的研究和積累,專家們發(fā)現(xiàn)在一定的區(qū)域中地震活動具有同步漲落的現(xiàn)在。也就是說在一定的區(qū)域范圍中的兩個地區(qū),特定震級以上的有明顯震感的地震相伴發(fā)生的現(xiàn)象稱為地震的相關現(xiàn)象,也稱地震的區(qū)域相關性。
地震的相關性反映了地球的自轉(zhuǎn)、向心力相似、地質(zhì)構(gòu)造的相似、板塊運動等對地震發(fā)生的規(guī)律性的影響。所以尋找地震相關區(qū)域,進而預報相關的地震,是人們最常用的預報地震的方法之一。鑒于傳統(tǒng)方法費時費力,預報不精確等特點[6]。本文把數(shù)據(jù)挖掘技術引入地震預報科學中,通過不同地區(qū)地震數(shù)目的不同,首先進行粗相似匹配,即對原始地震數(shù)據(jù)中相差一定地震數(shù)目條數(shù)以下的地震區(qū)域?qū)⑵滢D(zhuǎn)化為粗相似格式,其次對粗相似區(qū)域中的數(shù)據(jù)項轉(zhuǎn)化為時間序列,對粗相似的區(qū)域進行時間相似度匹配來發(fā)現(xiàn)地震相關區(qū)域,從而進行地震預報。本文首先結(jié)合地震領域的相關知識,定義了序列的相似度量模型,提出了一種基于相似度序列匹配的算法,利用相關的地震相似度全面的對時間、經(jīng)緯度和震級等地震相關信息進行處理,從而快速、全面的找出地震的相關區(qū)域[7]。
地震相關地區(qū)相似度匹配研究可以分為以下幾個部分:相似性的定義,度量模型的建立和相似度匹配算法的實現(xiàn)。
相似性定義和度量模型一般根據(jù)不同的需求進行定義,進而轉(zhuǎn)化為一些抽象的數(shù)學模型來解決問題。傳統(tǒng)的相似性定義是根據(jù)時間序列數(shù)據(jù)的上升或下降的趨勢和需解決的問題相結(jié)合來定義[8]。比較典型的有 ARMA(auto regression moving average)模型,采用的是隨機時間序列分析技術;DFT (discrete fourier transform)模型,采用的是把時間序列轉(zhuǎn)化為空間中的點,對這些點進行分析處理。這些模型中都用了歐幾里德距離作為序列間的相似性評價函數(shù),也就是當兩個序列間的歐氏距離小于一定的閾值時,就認為此序列相似。但在實際應用中,由于序列長度不一,采樣率不同,數(shù)據(jù)多少相差較大等問題,使得歐氏距離很難直接用于解決問題。
由于地震數(shù)據(jù)記錄的每一次地震發(fā)生的時間、經(jīng)度、緯度、震級以及地震事件序列等其具非線性特點,傳統(tǒng)的時間序列相似性度量模型和匹配很難使用于地震數(shù)據(jù)。
對此,本文根據(jù)地震相關領域知識,通過適當?shù)臄?shù)據(jù)預處理,將其轉(zhuǎn)化為一定震級,一定時間,一定空間范圍內(nèi)的地震事件序列集。構(gòu)成不同的地震時間序列。下面給出地震序列及相似性定義及地震序列相似性的模型。
定義1:(地震事件)把預處理過的地震數(shù)據(jù)目錄中的每一條地震記錄定義為一次事件。按照不同的空間屬性劃分為不同的地震事件集。在地震事件集上t時刻發(fā)生的地震事件記為F(t)。
定義2:(地震事件序列)在一定的區(qū)域中發(fā)生在一定的時間范圍H內(nèi)的地震事件集Ft={F(t)|t∈H}在時間軸上的一個排列。
定義3:(地震序列)對預處理過的地震數(shù)據(jù)目錄里的地震數(shù)據(jù)提取其時間和震級,抽象為地震序列。
定義4:(完整地震序列)在某些地震區(qū)域中,對于地震序列S,在沒有發(fā)生地震事件的時間上用空元素給予填充的地震序列S′。
定義5:(地震相似性)設x,y分別是兩個地震序列,用函數(shù)ω(x,y),θ(x,y)來表示其相似性。令ω(x, y)=1,若|x(t)-y(t)|≤Mthreshold1;
x(m),y(m)表示x,y的震級數(shù),x(m)-y(m)表示震級差。
Mthreshold1為年份誤差的閾值,Mthreshold2為震級誤差的閾值。Mthreshold1越小時間相差越小,Mthreshold2越小震級相差越小。所以x,y可以對應不同的時間點, Mthreshold1和Mthreshold2為用戶給定。
定義6:(地震序列相似性模型)設X和Y為兩個不同的地震序列,則X和Y的序列相似性可以用這兩個序列中對應每一組數(shù)據(jù)的相似進行統(tǒng)計,記為相似性加權累計和來度量。兩個地震序列的相似性度量模型定義為
(1)X’和Y’分別是指定范圍內(nèi)X和Y的完整地震序列。且序列長度相同。
(2)W(x,y)是權重函數(shù),定義為震級大比震級小的相似對實際產(chǎn)生意思的系數(shù)。
相似性匹配算法可以分為兩個部分:一是粗相似匹配,即在查詢地震源目錄時找出地震條數(shù)差值在一定的閾值margin下的地震區(qū)域,簡單的說,在一個時間段內(nèi),一個地區(qū)發(fā)生了一條地震項目,另一個地區(qū)發(fā)生了幾萬條地震項目,那么這兩個地區(qū)有相似性的可能性就極小了。二是相似性匹配,在粗相似的基礎上,查詢的地震序列與地震數(shù)據(jù)倉庫中的地震序列記錄進行比較,找出具有較高相似度的地震序列。當具備較高的相似度時,必然會反映出兩個地區(qū)的地震發(fā)生具有一定規(guī)律上的先后關系。對此我們給合了地震區(qū)域的相關知識,定義了地震的相似度定義和度量模型的基礎上,提出了一種基于給定閾值支持數(shù)的序列相似性匹配算法。下面給出算法的形式化描述。
輸入:粗相似的差值margin;地震源目錄M;經(jīng)度范圍latitude_r;緯度范圍longitude_r。
輸出:地震相似目錄FreSubSeries M;
Step4;Output the result;//Num(EQS)將地震目錄按空間劃分區(qū)域的總數(shù),在此為按地理位置分塊后的總塊數(shù)。
算法說明:
步驟:1:對中國地區(qū)按給定的經(jīng)緯跨度latitude_ r,longitude_r分塊。
2:統(tǒng)計中國地區(qū)的總塊數(shù)。
3:對地震源目錄M按,進行處理,若兩個塊中對應的地震數(shù)目總數(shù)差值在margin值之間,定義為粗相似,對粗相似的目錄進行時間相似度序列匹配處理FindFreSubSeries M。
4:對結(jié)果進行收集處理,用于后續(xù)處理。
過程算法說明:
從粗相似的兩塊記錄中,依次對每塊記錄中的每條記錄,進行統(tǒng)計。若對應的年份差值統(tǒng)計總數(shù)count year大于Mthreshold Year且對應的震級差值統(tǒng)計總數(shù)count degree大于Mthreshold Degree,認為是相似區(qū)域。
在此算法中對兩個地震區(qū)域序列進行匹配時,需要逐條記錄進行對比,本算法在設計對地震源目錄進行粗相似匹配,在利用粗相似匹配的結(jié)果進行相似性匹配,對非粗相似的區(qū)域不再進行處理,極大的提高了算法的效率。
本文所采用的地震資料來源于安徽省滁州市地震局,包括1965年1月1日到2008年5月13日發(fā)生在中國境內(nèi)的地震信息,地震目錄共有記錄349572條次地震。由于一定震級以上的地震做出預報才具有意義,所以本文選擇3級以上的記錄,共63165條記錄。進行數(shù)據(jù)預處理的目的是為了使數(shù)據(jù)適應時間序列的相似性匹配算法,本文分別對空間窗口、時間窗口和震級進行預處理,如表1所示:
表1 部分預處理后的地震目錄數(shù)據(jù)
(1)按照地震時間序列的空間窗口、震級標準(選取一定震級以上的地震)。
(2)由于地震目錄數(shù)據(jù)的條數(shù)是相當?shù)拇?在存儲過程中難免會出現(xiàn)數(shù)據(jù)不一致的現(xiàn)象,例如數(shù)據(jù)日期不符合現(xiàn)實生活中的日期,所以要將類似于這樣的無效數(shù)據(jù)去掉,從而提高數(shù)據(jù)的質(zhì)量,有利于數(shù)據(jù)挖掘的質(zhì)量。
地震的時間序列相似性是指在一定時間空間范圍內(nèi),兩個地區(qū)發(fā)生的地震在時間、震級方面具有相似性。比如某區(qū)域A在1995,1997,1999,2003,2004…有一定震級以上的地震,而在區(qū)域B在 1997, 1999,2001,2005,2006…也發(fā)生了地震,則A和B兩個區(qū)域在時間序列相似度上具有很大的相似性,本文針對這一特點,設計了3組實驗,在進行粗相似的基礎上分別從不同的時間差、時空差、粗細力度差等方面進行相似性序列分布分析。
實驗1:固定時間差為30天的粗粒度序列相似性分析
本實驗采用4.5級以上的地震序列,時間跨度為1987-2007年范圍內(nèi),對全國的相關區(qū)域進行分析研究,發(fā)現(xiàn)有些區(qū)域有著相似性,結(jié)果如表2所示。
表2 固定時間差為30天的部分區(qū)域同臺灣地區(qū)相關次數(shù)表
圖1 臺灣和藏南地區(qū)固定時間差為30天的M-T圖
由表2可以看出四川和臺灣地區(qū)以及藏南和臺灣地區(qū)的相似度最高,本文針對這兩組區(qū)域時間差在30天以內(nèi)的地震相關項目進行研究,發(fā)現(xiàn)四川和臺灣地區(qū)有41次地震具有相關性,藏南和臺灣地區(qū)有36次相匹配的地震項目,而且地震震級相似性也很高,具有相同的趨勢和震匹配性。圖1給出四川地區(qū)(經(jīng)度100-105,緯度25-30)和臺灣地區(qū)(經(jīng)度120 -125,緯度20-25)相關地震的M-T圖。圖2給出了藏南地區(qū)(經(jīng)度95-100,緯度25-30)和臺灣地區(qū)(經(jīng)度100-105,緯度25-30)相關地震的MT圖。
圖2 臺灣和四川地區(qū)固定時間差為30天的M-T圖
實驗2:固定時間差為1年的粗粒度相似性分析
圖3 藏中和四川-云南地區(qū)固定時間差為一年的M-T圖
在實驗1的基礎上,我們把實驗的時間閾值由30天放大到1年,部分震級有所調(diào)整的情況下(由于四川和臺灣地區(qū)數(shù)據(jù)較多,震級提高到5級以上),實驗結(jié)果發(fā)現(xiàn)多了一些區(qū)域具有相似性,其中相似度提高最明顯的是四川和臺灣地區(qū)以及藏中和四川-云南交界地區(qū)。圖3表示了四川-云南交界地區(qū)(經(jīng)度90-100,緯度25-30)和藏中地區(qū)(經(jīng)度85-90,緯度30-35)的M-T圖,相匹配的地震條數(shù)由16次增加到23次。圖4表示了四川地區(qū)(經(jīng)度100-105,緯度25-30)和臺灣地區(qū)(經(jīng)度120-125,緯度20-25)的M-T圖,相匹配的項目由28上升到41。
圖4 臺灣和四川地區(qū)固定時間差為一年的M-T圖
實驗3:固定時間差為10天的細粒度相似性分析
在實驗1和2的基礎上,針對四川臺灣地區(qū)和四川-云南,藏中兩組地區(qū)將時間閾值縮小到10天,震級閾值縮小到5級,進行相似度更為精確的相似匹配。得到實驗結(jié)果如圖5和圖6所示。匹配項目分別為32和10條。
圖5 臺灣和四川地區(qū)固定時間差為10天的M-T圖
圖6 藏中和四川-云南地區(qū)固定時間差為10天的M-T圖
本文對地震源數(shù)據(jù)依次進行預處理,粗相似匹配,相似性匹配。提出了相似度量模型和時間震級相似性匹配算法??扇?、高效的找到地震相似性區(qū)域。實驗表明部分地震相關區(qū)域,與專家經(jīng)驗相比較,證實算法合理有效。為地震預報研究提供較好的平臺。
[1]張保健,何華燦.時態(tài)數(shù)據(jù)挖掘研究進展[J].計算機科學, 2002,29(2):124-126.
[2]歐陽為民,蔡慶生.數(shù)據(jù)庫中的時態(tài)數(shù)據(jù)挖掘研究[J].計算機科學,1998,25(4):60-63.
[3]劉念祖.時態(tài)數(shù)據(jù)挖掘的探討[J].上海第二工業(yè)大學學報,2001,(2):27-31.
[4]張保健.時間序列數(shù)據(jù)挖掘[D].西安:西北工業(yè)大學(博士學位論文),2003.
[5]歐陽為民,蔡慶生.在數(shù)據(jù)庫中自動發(fā)現(xiàn)廣義序貫模式[J].軟件學報,1997,8(11):864-870.
[6]王煒,劉悅,李國正,等.中國大陸強震時間序列預測的支持向量機方法[J].地震,2005,(4):26-32.
[7]王煒,謝端,宋先月,等.使用人工神經(jīng)網(wǎng)絡進行我國大陸強震時間序列預測[J].西北地震學報,2002,24(4):315 -319.
[8]崔萬照,朱長純,保文星,等.混沌時間序列的支持向量機預測[J].物理學報,2004,53(10):3303-3309.
The Earthquake Prediction Research Based on Time Series Similarity Matching Algorithm
ZHENG Hua,LI Wei,QIU Jian-feng,ZHU Li-jin,JIANG A-fang
(School of Computer Science and Engineering,Anhui University,Hefei230039,China)
On the basis of analyzing the newly time sequence research achievement nowadays,several definitions on seismological zone relativity are put forward in this paper for integrating the large amount of history earthquake source data and the experimental expert know ledge in seismological field.At the same time,the time sequence similarity-matching model of the relevant seismological zone is presented,and then it is implemented through several correlative experimental simulations.Based on the sequence similarity-matching model,a sequence-matching algorithm is given with seismological similarity.Furthermore,by discovering the history earthquake database in recent several years,some experiments are provided to analyze longitudinal thick-granularity sequential similarity and thin-granularity sequential similarity.Finally,the experimental result has found its satisfactory way out by using the proposed algorithm to support earthquake prediction.
time series;sequence match;seismological prediction;algorithm;seismological relevant zones
TP391
A
1009-9735(2010)02-0022-05
2009-10-11
安徽省自然科學基金(090412063),安徽省滁州市科技計劃項目(200852)。
鄭華(1984-),女,安徽黃山人,安徽大計算機科學與技術學院碩士生,研究方向:計算機;李煒(1969-),女,安徽蚌埠人,碩導,博士,研究方向:計算機;邱劍鋒(1980-),男,安徽合肥人,博士,研究方向:計算機;林晨(1985-),男,安徽馬鞍山人,碩士,研究方向:計算機 ;蔣阿芳(1985-),女,安徽淮北人,碩士,研究方向:計算機。