胡 斌1) 安源源2) 彭亞飛2) 盧國(guó)明2)
?
基于數(shù)據(jù)挖掘的地震經(jīng)濟(jì)損失與當(dāng)?shù)亟?jīng)濟(jì)情況相關(guān)性分析
胡 斌安源源彭亞飛盧國(guó)明
1)四川省地震局,成都 610041 2)電子科技大學(xué),成都 611731
本文以收集的西南地區(qū)1950年以來(lái)301個(gè)典型破壞性地震震例數(shù)據(jù)為基礎(chǔ),選擇關(guān)聯(lián)規(guī)則和決策樹(shù)兩種數(shù)據(jù)挖掘方法,對(duì)地震經(jīng)濟(jì)損失與當(dāng)?shù)亟?jīng)濟(jì)情況進(jìn)行分析,給出了相關(guān)規(guī)則,并對(duì)關(guān)聯(lián)規(guī)則和決策樹(shù)兩種不同的挖掘方法得出的結(jié)果進(jìn)行了分析比較。
經(jīng)濟(jì)損失 數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 決策樹(shù)
西南地區(qū)是我國(guó)破壞性地震多發(fā)區(qū),地震震級(jí)大,發(fā)震頻度高,地震影響范圍廣;而與此同時(shí),西南地區(qū)社會(huì)經(jīng)濟(jì)發(fā)展、人口分布極度不均衡,城鄉(xiāng)間、民族間、區(qū)域間經(jīng)濟(jì)發(fā)展差異巨大。西南地區(qū)豐富的地震震害資料及差異性社會(huì)經(jīng)濟(jì)數(shù)據(jù)為本文的研究奠定了數(shù)據(jù)基礎(chǔ)。
數(shù)據(jù)挖掘(Data Mining)是通過(guò)分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個(gè)步驟(王麗珍等,2005)。數(shù)據(jù)挖掘的方法有關(guān)聯(lián)分析、聚類(lèi)分析、分類(lèi)分析、決策樹(shù)分析、邏輯回歸分析等。本文采用關(guān)聯(lián)分析與決策樹(shù)分析方法,對(duì)地震經(jīng)濟(jì)損失與當(dāng)?shù)貒?guó)內(nèi)生產(chǎn)總值的比值(以下簡(jiǎn)稱(chēng)地震經(jīng)濟(jì)損失比)(林均岐等,2007)進(jìn)行研究,挖掘與其它因素之間的關(guān)聯(lián)關(guān)系,可為將來(lái)地震經(jīng)濟(jì)損失估計(jì)提供參考。
通過(guò)對(duì)地震災(zāi)害經(jīng)濟(jì)損失和GDP相關(guān)因素的分析,對(duì)挑選的以下主要因素進(jìn)行了收集及相關(guān)性分析:震級(jí)、烈度、經(jīng)濟(jì)損失、GDP、國(guó)土面積、人口數(shù)。通過(guò)以上數(shù)據(jù)可以計(jì)算出:經(jīng)濟(jì)損失比、人均GDP、人口密度。表1是數(shù)據(jù)庫(kù)表結(jié)構(gòu)定義。
表1 數(shù)據(jù)庫(kù)表結(jié)構(gòu)
數(shù)據(jù)收集來(lái)源主要分為以下三部分:
(1)來(lái)源于西南地區(qū)地震應(yīng)急基礎(chǔ)數(shù)據(jù)庫(kù);
(2)來(lái)源于各省地震年鑒及地震科學(xué)考察報(bào)告;
(3)來(lái)源于各省、市、縣當(dāng)年的社會(huì)、經(jīng)濟(jì)統(tǒng)計(jì)年鑒等。
本文收集的地震經(jīng)濟(jì)損失數(shù)據(jù),都是在地震發(fā)生時(shí)的統(tǒng)計(jì)結(jié)果,研究地震經(jīng)濟(jì)損失與當(dāng)?shù)亟?jīng)濟(jì)情況的相關(guān)性,對(duì)應(yīng)的當(dāng)?shù)亟?jīng)濟(jì)情況、人口情況也必須是地震發(fā)生時(shí)的數(shù)據(jù)。地震發(fā)生所在地1980年以前的人口、經(jīng)濟(jì)數(shù)據(jù)無(wú)法直接收集,對(duì)這些數(shù)據(jù)依據(jù)國(guó)家、省統(tǒng)計(jì)局提供的經(jīng)濟(jì)增長(zhǎng)率、人口增長(zhǎng)率進(jìn)行推算(國(guó)家統(tǒng)計(jì)局國(guó)民經(jīng)濟(jì)核算司,1997;國(guó)家統(tǒng)計(jì)局人口統(tǒng)計(jì)司等,1988)。
由于數(shù)據(jù)來(lái)源的多樣化,這樣就避免不了有的數(shù)據(jù)是錯(cuò)誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,這些錯(cuò)誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱(chēng)為“臟數(shù)據(jù)”。因此要按照一定的規(guī)則把“臟數(shù)據(jù)”“洗掉”,這就是數(shù)據(jù)清洗,而數(shù)據(jù)清洗的任務(wù)是過(guò)濾掉那些不符合要求的數(shù)據(jù)。
本次在西南地區(qū)共收集到有數(shù)據(jù)記錄的324條地震震例數(shù)據(jù),由于數(shù)據(jù)來(lái)源的多樣化,這樣就避免不了有的數(shù)據(jù)是錯(cuò)誤數(shù)據(jù)、有的數(shù)據(jù)相互之間有沖突,為此必須按照一定的規(guī)則把這些錯(cuò)誤的或有沖突的數(shù)據(jù)清洗掉(王曰芬等,2007)。本文采用手工方式實(shí)現(xiàn)數(shù)據(jù)清洗:
(1)對(duì)于部分經(jīng)濟(jì)損失收集數(shù)據(jù)單位為元,沒(méi)有轉(zhuǎn)換為萬(wàn)元,進(jìn)行手工修改。
(2)對(duì)于嚴(yán)重缺失項(xiàng)的地震震例數(shù)據(jù),直接刪除。
清洗完成后,總共收集到的有效案例記錄條數(shù)為301條。
2.1 關(guān)聯(lián)規(guī)則分析
關(guān)聯(lián)規(guī)則挖掘采用Apriori算法。Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,其核心是基于兩階段頻集思想的遞推算法。
算法關(guān)聯(lián)規(guī)則中的Apriori挖掘算法在在執(zhí)行過(guò)程中要多次掃描數(shù)據(jù)庫(kù),并且產(chǎn)生大量的候選項(xiàng)集(韓家煒等,2007)。由于本次研究數(shù)據(jù)量比較小,對(duì)于上述問(wèn)題在本研究中不會(huì)出現(xiàn)。具體分析步驟如下:
第一步:掃描地震震例數(shù)據(jù)庫(kù),對(duì)各個(gè)項(xiàng)集的次數(shù)進(jìn)行計(jì)算,得到候選項(xiàng)集1-(表2)。
第二步:從候選項(xiàng)中選出大于最小支持度的項(xiàng)集,即選出支持>2的項(xiàng)集,從而得到頻繁1-項(xiàng)集(表3)。
表2 部分候選項(xiàng)C1集合
表3 部分頻繁集L1集合
第三步:重復(fù)上述整個(gè)過(guò)程,直到產(chǎn)生的候選項(xiàng)級(jí)C的支持<2,即小于規(guī)定的最小支持項(xiàng),不能產(chǎn)生頻繁項(xiàng)集,算法停止。本研究結(jié)果最終產(chǎn)生的最大頻繁項(xiàng)集為(表4)。
表4 頻繁項(xiàng)集L3
根據(jù)以上產(chǎn)生的頻繁項(xiàng)集,可生成不同形式的關(guān)聯(lián)規(guī)則,對(duì)于一個(gè)-項(xiàng)的頻繁項(xiàng)集,其最多產(chǎn)生(2-2)種不同形式的規(guī)則,當(dāng)較大的時(shí)候,產(chǎn)生的規(guī)則成幾何數(shù)量級(jí)的增長(zhǎng)。在這里不可能一一列舉,所以需要定義一個(gè)置信度閥值MINMUM_SUPPORT。通過(guò)分類(lèi)統(tǒng)計(jì),-項(xiàng)集能產(chǎn)生的關(guān)聯(lián)規(guī)則形式主要有-1類(lèi):
第一類(lèi):規(guī)則左部有-1項(xiàng),規(guī)則右部有1項(xiàng):
規(guī)則如:,,…→
第二類(lèi):規(guī)則左部有-2項(xiàng),規(guī)則右部有2項(xiàng):
規(guī)則如:,,…→,
…………
第-1類(lèi):規(guī)則左部有1項(xiàng),規(guī)則右部有-1項(xiàng)。
通過(guò)定義置信度閥值MINMUM_SUPPORT,可過(guò)濾掉一些無(wú)用的規(guī)則。
2.2 決策樹(shù)分析
決策樹(shù)是同時(shí)提供分類(lèi)與預(yù)測(cè)的常用方法。通過(guò)一連串的問(wèn)題和規(guī)則將數(shù)據(jù)分類(lèi),可以通過(guò)相似的形態(tài)來(lái)推測(cè)相同的結(jié)果。決策樹(shù)的數(shù)據(jù)分析方法是一種用樹(shù)來(lái)展現(xiàn)數(shù)據(jù)受變量的影響情形的預(yù)測(cè)模型。
在運(yùn)行決策樹(shù)算法之前,首先把輸入的各項(xiàng)連續(xù)數(shù)據(jù)進(jìn)行清洗,使其離散化。決策樹(shù)開(kāi)始時(shí),是作為一個(gè)單個(gè)節(jié)點(diǎn)(根節(jié)點(diǎn))包含所有的訓(xùn)練樣本集,為“全部”節(jié)點(diǎn);決策樹(shù)模型的預(yù)測(cè)項(xiàng)為經(jīng)濟(jì)損失比,其屬性可以取個(gè)不同的值,本文對(duì)經(jīng)濟(jì)損失比進(jìn)行離散化,對(duì)應(yīng)于個(gè)不同類(lèi)別為C;設(shè)一個(gè)屬性取個(gè)不同的值 {,,……,a},若取GDP,則取2個(gè)不同的值 {GDP<40004.998,GDP≥40004.998}。利用屬性可以將劃分為個(gè)子集 {,,……,s},其中s包含了集合中屬性取a值的數(shù)據(jù)樣本。若屬性被選為測(cè)試屬性,設(shè)s為子集s中屬于C類(lèi)別的樣本數(shù)。那么,利用屬性劃分當(dāng)前樣本集合所需要的信息(熵)可以進(jìn)行如下計(jì)算:
這樣,利用屬性對(duì)當(dāng)前分支節(jié)點(diǎn)進(jìn)行相應(yīng)樣本集合劃分所獲得的信息增益就是:
Gain()=(,,……,s)-() (3)
也就是說(shuō),Gain()被認(rèn)為是根據(jù)屬性取值進(jìn)行樣本集合劃分所獲得的(信息)熵的減少。在本文中的Gain(Intensity)、Gain(Population Density)、Gain(Magnitude)、Gain(GDPPer Capita)、Gain(GDP)、Gain(Total Population)等信息增長(zhǎng)中,Gain(GDP)值最大,因此被作為測(cè)試屬性用于產(chǎn)生當(dāng)前分支節(jié)點(diǎn),test_attribute=GDP。同時(shí)根據(jù)“GDP”取不同的值,把全部的輸入分為兩部分:GDP<40004.998和GDP≥40004.998。若設(shè)符合此條件的集合:GDP<40004.998為,返回值為Generate_decision_tree(,GDP);GDP≥40004.998,設(shè)此集合為,返回值為Generate_decision_tree(,GDP)。以此類(lèi)推,繼續(xù)遞歸調(diào)用決策樹(shù)算法。
按照上述步驟構(gòu)造決策樹(shù),最終可產(chǎn)生一個(gè)如圖2所示的決策樹(shù)。
3.1 關(guān)聯(lián)規(guī)則挖掘結(jié)果分析
通過(guò)關(guān)聯(lián)規(guī)則挖掘能夠發(fā)現(xiàn)很多有趣的和有價(jià)值的規(guī)則,但是其本身也存在著一些不可避免的缺陷,比如在挖掘中能滿(mǎn)足最小支持度和最小置信度閥值的規(guī)則很多,但并不是所有的規(guī)則用戶(hù)都有興趣。對(duì)于挖掘結(jié)果而言,哪些是用戶(hù)感興趣的關(guān)系是數(shù)據(jù)挖掘技術(shù)要解決的一個(gè)重要基本問(wèn)題(蔡紅等,2011)。因此,挖掘結(jié)果的進(jìn)一步處理,需要相關(guān)領(lǐng)域的專(zhuān)家與計(jì)算機(jī)領(lǐng)域的專(zhuān)家共同配合,協(xié)同提取有用的挖掘結(jié)果。圖1給出了部分挖掘結(jié)果。表5列出了幾個(gè)典型的規(guī)則。
表5 部分挖掘結(jié)果
從表5給出的規(guī)則中可以看出:對(duì)于規(guī)則1,人口密度極小,人均GDP較低時(shí),其經(jīng)濟(jì)損失比也會(huì)比較低;對(duì)于規(guī)則2、3,地區(qū)經(jīng)濟(jì)較不發(fā)達(dá)或者人員分布較稀疏時(shí),地震造成的經(jīng)濟(jì)損失比也會(huì)比較低;對(duì)于規(guī)則4,在人口密度較大的中小城市發(fā)生5級(jí)以上地震,地震造成的經(jīng)濟(jì)損失比也會(huì)比較高;對(duì)于規(guī)則5,高烈度的不發(fā)達(dá)地區(qū),一般地震造成的經(jīng)濟(jì)損失比也會(huì)比較高。綜合挖掘規(guī)則的若干結(jié)果,在一般情況下人口密度大、GDP總量高、震級(jí)大、烈度高地區(qū),地震造成的經(jīng)濟(jì)損失比會(huì)比較高。
3.2 決策樹(shù)模型挖掘結(jié)果分析
如圖2所示,每個(gè)矩形方框中不同顏色的直方圖分別表示經(jīng)濟(jì)損失比的不同等級(jí)。當(dāng)GDP<40004.998時(shí),藍(lán)色直方圖面積大,一般其經(jīng)濟(jì)損失比低;當(dāng)GDP≥40004.998時(shí),依據(jù)人均GDP取值范圍分為下面兩類(lèi),人均GDP處于1651.608到2913.555之間時(shí),紅色直方圖較大,其經(jīng)濟(jì)損失比一般較低;人均GDP<1651.608或者人均GDP>2913.555時(shí),依據(jù)人口密度又分為兩類(lèi),人口密度在68到122之間的,紅色直方圖的比例較大,其經(jīng)濟(jì)損失比一般較低;人口密度小于68,大于122的,其中藍(lán)色直方圖的比例最大,一般其經(jīng)濟(jì)損失比低。
其中一個(gè)具體的葉子節(jié)點(diǎn)的挖掘圖例如表6所示。
表6 GDP<40004.998
依據(jù)決策樹(shù)結(jié)果,生成依賴(lài)關(guān)系網(wǎng)絡(luò),由依賴(lài)關(guān)系網(wǎng)絡(luò)圖中(圖3)箭頭線越粗表示其變量對(duì)經(jīng)濟(jì)損失比影響越大。從圖3可以看出,在地震發(fā)生時(shí)影響經(jīng)濟(jì)損失比的因素從強(qiáng)到弱依次為:Intensity、Magnitude、Population Density、Per Capita GDP、Earthquake GDP、Total Population。在西南地區(qū)的地震中,烈度對(duì)經(jīng)濟(jì)損失的影響最大,其次是震級(jí)、人口密度、人均GDP、GDP、人口數(shù)。
在本文研究中,挖掘結(jié)果的評(píng)價(jià)采用了微軟的Microsoft SQL Server 2005模型評(píng)估模塊,將挖掘結(jié)果導(dǎo)入到模型評(píng)估系統(tǒng)中,以隨機(jī)抽取的樣本作為模型評(píng)估測(cè)試數(shù)據(jù),并對(duì)研究結(jié)果做了準(zhǔn)確性評(píng)估測(cè)試。
如圖4所示,藍(lán)色線代表理想模型的提升結(jié)果(評(píng)估結(jié)果),紅色線代表決策樹(shù)實(shí)際的提升結(jié)果(評(píng)估結(jié)果),綠色線代表關(guān)聯(lián)規(guī)則的提升結(jié)果(評(píng)估結(jié)果)。從圖5中可以看出,關(guān)聯(lián)規(guī)則的分?jǐn)?shù)為0.78,決策樹(shù)的分?jǐn)?shù)為0.86,二者整體趨勢(shì)跟理想模型的趨勢(shì)比較相同。在預(yù)測(cè)評(píng)估地震經(jīng)濟(jì)損失方面,決策樹(shù)模型的預(yù)測(cè)效果比關(guān)聯(lián)規(guī)則預(yù)測(cè)效果更好一些。
西南地區(qū)大跨度的社會(huì)經(jīng)濟(jì)發(fā)展水平、多樣性的人文地理環(huán)境和多種類(lèi)型的地震活動(dòng)特點(diǎn),使得西南地區(qū)的地震經(jīng)濟(jì)損失在具備特殊性的同時(shí),更具備典型性。因此本文在這方面的深入研究,對(duì)全面提升我國(guó)地震經(jīng)濟(jì)損失研究具有較強(qiáng)的示范作用。盡管文中還存在一些不足,若地震歷史數(shù)據(jù)能收集的更加全面,就能得到更加豐富的挖掘結(jié)果。
致謝:感謝西南地區(qū)地震局相關(guān)工作人員以及地震專(zhuān)家的支持,不辭辛苦收集并整理數(shù)據(jù),對(duì)本文展開(kāi)的研究提供了寶貴意見(jiàn)及建議,發(fā)揮了重要的導(dǎo)向作用。同時(shí)感謝電子科技大學(xué)盧國(guó)明教授的數(shù)據(jù)挖掘團(tuán)隊(duì),尤其感謝李誼瑞研究員的細(xì)心指導(dǎo),技術(shù)上提供了很大的支持,在此深表感謝。
蔡紅,陳榮耀,陳波,2011.關(guān)聯(lián)規(guī)則挖掘最小支持度閥值設(shè)定的優(yōu)化算法研究.微型電腦應(yīng)用,27(6):33—36.
國(guó)家統(tǒng)計(jì)局國(guó)民經(jīng)濟(jì)核算司,1997.中國(guó)國(guó)內(nèi)生產(chǎn)總值核算歷史資料(1952—2004).北京:中國(guó)統(tǒng)計(jì)出版社.
國(guó)家統(tǒng)計(jì)局人口統(tǒng)計(jì)司,公安部三局,1988.中華人民共和國(guó)人口統(tǒng)計(jì)資料匯編.北京:中國(guó)財(cái)政經(jīng)濟(jì)出版社.
韓家煒,(加)坎伯(Kamber, M.),2007.?dāng)?shù)據(jù)挖掘概念與技術(shù). 北京:北京工業(yè)出版社,1—3.
林均岐,鐘江榮,2007. 區(qū)域地震間接經(jīng)濟(jì)損失評(píng)估. 自然災(zāi)害學(xué)報(bào),16(4):139—142.
王麗珍,周麗華,陳紅梅等,2005.?dāng)?shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理及應(yīng)用.北京:科學(xué)出版社,10—13.
王曰芬,章成志,張蓓蓓,吳婷婷,2007.?dāng)?shù)據(jù)清洗研究綜述.現(xiàn)代圖書(shū)情報(bào)技術(shù),12:50—56.
Correlation Analysis of Seismic Economic Losses and Local Economic Conditions Based on Data Mining
Hu Bin, An Yuanyuan, Peng Yafeiand Lu Guoming
1) Earthquake administration of Sichuan Province, Chengdu 610041, China 2) University of Electronic Science and Technology of China, Chengdu 611731, China
This work is based on 301 destructive earthquake cases in the five southwestern provinces in China since 1950. By using association rules and decision tree, we analyze seismic economic losses and local economic conditions, works out the correlation rules, and compare the results of the above two different mining methods.
Economic losses; Data mining; Association rules; Decision tree
2011年度地震行業(yè)科研專(zhuān)項(xiàng)西南地震應(yīng)急對(duì)策新模式與關(guān)鍵技術(shù)研究(201108013)
2012-12-28
胡斌,男,生于1977年。碩士。現(xiàn)在四川省地震局從事地震災(zāi)害研究與應(yīng)急救援工作。 E-mail:kennyferly@yahoo.com.cn
胡斌,安源源,彭亞飛,盧國(guó)明,2013.基于數(shù)據(jù)挖掘的地震經(jīng)濟(jì)損失與當(dāng)?shù)亟?jīng)濟(jì)情況相關(guān)性分析.震災(zāi)防御技術(shù),8(3):275—282.