徐緒堪,王 京
(1.河海大學(xué) 企業(yè)管理學(xué)院,江蘇 常州,213000;2.南京大學(xué) 信息管理學(xué)院,江蘇 南京,210023)
近年來,國內(nèi)自然災(zāi)害、事故災(zāi)害等突發(fā)事件頻發(fā),如2013年10月發(fā)生的“余姚水災(zāi)”、2015年6月發(fā)生的“常州特大暴雨”、2015年8月發(fā)生的“8·12天津濱海新區(qū)爆炸事故”等,隨著各類突發(fā)事件風(fēng)險的日益增多,相關(guān)應(yīng)急管理工作面臨著更高的要求和更大的挑戰(zhàn)。而在實際應(yīng)急管理工作中,突發(fā)事件的分級是快速響應(yīng)和有效應(yīng)對的基礎(chǔ),如果應(yīng)急決策者無法快速、有效地識別突發(fā)事件的級別,在應(yīng)急預(yù)案和處置方案的選擇上,將缺乏針對性,甚至延誤救援時機(jī)[1]。目前,我國已初步建立起突發(fā)事件“四類四級”的總體框架,在《特別重大、重大突發(fā)公共事件分級標(biāo)準(zhǔn)》中,對自然災(zāi)害、事故災(zāi)害、公共衛(wèi)生事件和社會安全事件分級處置標(biāo)準(zhǔn)也做了相應(yīng)的規(guī)定。如在水旱災(zāi)害中,符合特別重大的情況為:一個流域發(fā)生特大洪水,或多個流域同時發(fā)生大水;大江大河干流重要河段堤防發(fā)生決口;重點大型水庫發(fā)生垮堤等。而特別重大地震災(zāi)害則為:造成300人以上死亡,直接經(jīng)濟(jì)損失占該省(區(qū)、市)上年國內(nèi)生產(chǎn)總值1%以上的地震;發(fā)生在人口較密集地區(qū)7.0級以上地震。從以上內(nèi)容可以看出,目前針對不同類型的突發(fā)事件,分級評估指標(biāo)也不相同,而對于水旱災(zāi)害,其分級標(biāo)準(zhǔn)仍以 “多個”、“重點”等模糊性描述詞為主,缺乏量化指標(biāo),操作性不強(qiáng),加之突發(fā)事件爆發(fā)本身具有的不確定性、動態(tài)性和復(fù)雜性等特點,突發(fā)事件分級面臨著分級寬泛、主觀性強(qiáng)、過程繁雜和動態(tài)適應(yīng)性弱等問題。一旦發(fā)生突發(fā)事件,難以快速、準(zhǔn)確地定位到相應(yīng)的突發(fā)事件級別,難以達(dá)到針對性地響應(yīng)和應(yīng)對。因此,本文嘗試通過建立相應(yīng)的突發(fā)事件分級模型,用以快速識別突發(fā)事件的級別,進(jìn)而在界定突發(fā)事件自身級別的基礎(chǔ)上,提升突發(fā)事件快速響應(yīng)和應(yīng)急的有效性。
在突發(fā)事件分級方面,國內(nèi)外學(xué)者已經(jīng)開展相關(guān)工作。國外方面,Dragan,Vladimir[2]指出,結(jié)合原因、后果、強(qiáng)度等標(biāo)準(zhǔn)可以完成突發(fā)事件分級;Kuma等[3]提出多維度突發(fā)事件分級方法;Schulz等[4]基于控制理論,設(shè)計能源類突發(fā)事件分類分級。國內(nèi)方面,薛瀾和鐘開斌[5]系統(tǒng)地探討了我國應(yīng)急管理體制框架的建立,在突發(fā)事件分級的問題上,指出分級標(biāo)準(zhǔn)需要依據(jù)事件的性質(zhì)、嚴(yán)重程度、可控性和影響范圍等4個要素加以確定和細(xì)化;宋莎莎等[6]將模糊層次法和聚類分析結(jié)合,以旱災(zāi)為例,確定了突發(fā)事件分級的度量指標(biāo),完成了自動分級;吳鳳平、程鐵軍[7]在聚類分析方法的基礎(chǔ)上,提出了基于三角模糊數(shù)的灰色定權(quán)聚類方法,用以實現(xiàn)具有不確定性和模糊性的突發(fā)事件的分級;鐘茂華、陳寶智[8]采用神經(jīng)網(wǎng)絡(luò)分類方法,訓(xùn)練出重大危險源分類器;徐國等[9]以洪澇災(zāi)害應(yīng)急響應(yīng)級別為研究對象,基于C4.5算法獲得分級結(jié)果;商麗媛、譚清美[10]借助支持向量機(jī)在小樣本、高維和非線性樣本中的分類優(yōu)勢,將其引入突發(fā)事件分級研究中,并通過地震樣本數(shù)據(jù)加以驗證。
從以上現(xiàn)有研究可以看出,學(xué)者們借助統(tǒng)計學(xué)習(xí)理論中聚類和分類方法,在突發(fā)事件分級標(biāo)準(zhǔn)定量化和分級過程動態(tài)化上,取得了一定的成果。但就研究內(nèi)容而言,根據(jù)事后統(tǒng)計,分析事件嚴(yán)重程度或影響范圍,屬于靜態(tài)評估,在統(tǒng)計所耗時間和精確度上存在不足;就研究方法而言,一方面,聚類分析不依賴于預(yù)先定義的類別標(biāo)簽,這使得不同聚類分析方法下,突發(fā)事件分級結(jié)果存在差異;另一方面,由于目前突發(fā)事件在分級問題上多采用單分類器,導(dǎo)致突發(fā)事件分級結(jié)果面臨樣本擬合過度和分類精度低等風(fēng)險,為了避免聚類分析中分類標(biāo)準(zhǔn)的不確定性,改善單分類器在樣本選擇和參數(shù)設(shè)定上的局限,提高分類準(zhǔn)確率,采用多個分類器組合進(jìn)行分類,在機(jī)器學(xué)習(xí)領(lǐng)域得到了應(yīng)用[11]。隨機(jī)森林[12](Random Forest,RF)是一種組合分類器,它能很好的容忍異常值和噪聲,且不容易出現(xiàn)過度擬合,在分類精度上高于單分類器,目前已經(jīng)在多個領(lǐng)域得到應(yīng)用研究,如:Chen[13]基于隨機(jī)森林模型分析基因組數(shù)據(jù);蔡加欣等[14]基于局部輪廓和隨機(jī)森林,完成人體行為識別;賴成光等[15]基于隨機(jī)森林,構(gòu)建風(fēng)險評價模型,并應(yīng)用于洪澇災(zāi)害評估領(lǐng)域。在分類分級的問題上,隨機(jī)森林也取得了一定的成果,郭東鋒等[16]實現(xiàn)了烤煙香型分類;馬玥等[17]研究了農(nóng)耕區(qū)土地利用分類;Dong等[18]使用隨機(jī)森林預(yù)測巖爆事件分級。因此,本文基于隨機(jī)森林方法在分類精度、擬合程度和樣本參數(shù)設(shè)定上的優(yōu)勢以及在多領(lǐng)域的應(yīng)用實踐,將其引入突發(fā)事件分級的問題中,以洪澇災(zāi)害事件為例,探索實現(xiàn)突發(fā)事件分級標(biāo)準(zhǔn)定量化和分級過程動態(tài)化的新途徑。
隨機(jī)森林是由多個決策樹{h(x,θn)}組成的分類器,其中x是輸入向量;θn是獨立同分布的隨機(jī)向量,n是分類樹個數(shù)。
隨機(jī)森林模型的構(gòu)建步驟如圖1所示:
1)隨機(jī)、有放回地從訓(xùn)練集S中抽取n個子訓(xùn)練樣本集組成分類樹,未被抽到的樣本組成袋外數(shù)據(jù)。
2)在n棵分類樹中,每1個分類樹節(jié)點處有m個特征指標(biāo),從特征指標(biāo)中抽取變量mtry,其中mtry≤m,選擇最具有分類能力的變量完成分類樹的分裂。
3)不修剪分類樹,實現(xiàn)其最大限度地生長。
4)隨機(jī)森林分類器就由這些生長的分類樹組成,最終可獲得分類結(jié)果。
圖1 隨機(jī)森林模型Fig.1 Random forest model
突發(fā)事件的分級是依據(jù)事件類別屬性而建立的。因此在選擇分級特征指標(biāo)時,需要立足于突發(fā)事件的共有特性,如事件性質(zhì)、嚴(yán)重程度和影響范圍等,形成隨機(jī)森林預(yù)測所需的屬性訓(xùn)練集。基于隨機(jī)森林的突發(fā)事件分級過程如圖2所示。
圖2 基于隨機(jī)森林的突發(fā)事件分級過程Fig.2 Emergency classification process based on random forests
1) 依據(jù)突發(fā)事件類別屬性挖掘共有特征,提取分級指標(biāo),以洪澇災(zāi)害為例,依據(jù)事件性質(zhì)、嚴(yán)重程度和影響范圍等,選擇含受災(zāi)人口(萬人)、死亡人口(人)、房屋倒塌(萬間)、房屋損壞(萬間)、農(nóng)作物受災(zāi)面積(千公頃)、農(nóng)作物絕收面積(千公頃)和直接經(jīng)濟(jì)損失(億元)等7個特征變量。
2)根據(jù)分級指標(biāo)采集突發(fā)事件數(shù)據(jù)信息,構(gòu)成訓(xùn)練樣本集,本文主要從中華人民共和國民政部網(wǎng)站獲取2012—2016年洪澇災(zāi)害事件信息,以事件發(fā)生時間作為劃分訓(xùn)練樣本和待分級樣本依據(jù),將2012—2015年洪澇事件劃分為訓(xùn)練數(shù)據(jù),2016年洪澇事件則為待分級樣本。
3)借助隨機(jī)森林模型,輸入待分級對象指標(biāo),主要借助R語言實現(xiàn)隨機(jī)森林參數(shù)設(shè)置和模型構(gòu)建。
4)完成分類學(xué)習(xí),得到突發(fā)事件分級結(jié)果。
隨著國家自然災(zāi)害管理系統(tǒng)在我國災(zāi)情管理工作中日益普及,各省民政部門近年來已能夠較好地按照《自然災(zāi)害情況統(tǒng)計制度》中的時間節(jié)點規(guī)定進(jìn)行報送,從而在報災(zāi)系統(tǒng)中形成較為完整的災(zāi)情指標(biāo)時間序列,為研究洪澇災(zāi)害提供了必要的數(shù)據(jù)支撐和基礎(chǔ)[19]。因此,本文以中華人民共和國民政部門網(wǎng)站提供的洪澇災(zāi)害事件為例,選取了2012-2016年210個洪澇災(zāi)害數(shù)據(jù),其中205個作為訓(xùn)練數(shù)據(jù),5個作為測試數(shù)據(jù),以此驗證隨機(jī)森林模型下突發(fā)事件分級方法的可行性。選取的洪澇災(zāi)害數(shù)據(jù)包括特征屬性7個:受災(zāi)人口(萬人)、死亡人口(人)、房屋倒塌(萬間)、房屋損壞(萬間)、農(nóng)作物受災(zāi)面積(千公頃)、農(nóng)作物絕收面積(千公頃)和直接經(jīng)濟(jì)損失(億元),分別由a~g字母表示。由于我國特大洪澇災(zāi)害數(shù)據(jù)樣本較少,本文僅選取等級為嚴(yán)重、中等和一般3個級別的數(shù)據(jù),分別以Ⅰ、Ⅱ、Ⅲ表示。部分?jǐn)?shù)據(jù)如表1所示。
表1 2014—2016年部分洪澇災(zāi)害數(shù)據(jù)
資料來源:中華人民共和國民政部
借助開源軟件R語言附帶的軟件程序包randomForest,對所構(gòu)建的隨機(jī)森林方法模型進(jìn)行分類預(yù)測。建立模型需要對參數(shù)mtry和ntree進(jìn)行設(shè)定。其中,參數(shù)mtry表示在分割數(shù)據(jù)時,抽取的變量數(shù)據(jù),通常選擇解釋變量數(shù)目的平方根,本文輸入變量有7個,所以參數(shù)設(shè)置為2;ntree表示模型中包括的單棵樹數(shù)量,數(shù)量過多并不會對模型造成影響,一般建議不要小于100,本文將其設(shè)為10 000。
使用上述參數(shù)mtry=2,ntree=10 000,對205個樣本進(jìn)行訓(xùn)練,得到隨機(jī)模型分類結(jié)果。同時,基于R語言附帶的e1071軟件程序包,實現(xiàn)支持向量機(jī)下樣本分類,得到2種方法下分類測試精度評估,如表2所示。
表2 測試精度評估
由表2可以看出,支持向量機(jī)方法下,Ⅰ類誤判數(shù)為26,Ⅱ類誤判數(shù)為14,Ⅲ類錯判數(shù)為24,總體分類精度為68.78%;隨機(jī)森林方法下,突發(fā)事件Ⅰ類誤判數(shù)為1,Ⅱ類誤判數(shù)為2,Ⅲ類誤判數(shù)為2,總體袋外數(shù)據(jù)誤差率為2.44%,總體精度為97.56%。與支持向量機(jī)相比,隨機(jī)森林誤判率低,總體分類精度高,在洪澇災(zāi)害事件分級上效果更為理想。
隨機(jī)森林的每棵分類樹都是有放回的重抽樣后生成,本身算法類似于交叉驗證,因此其結(jié)果內(nèi)含判別函數(shù),可以直接使用R語言中的Predict函數(shù),基于歷史數(shù)據(jù)對新的數(shù)據(jù)進(jìn)行判別和分類,實現(xiàn)突發(fā)事件分級問題的快速識別和實時更新。以“2016年4月20日強(qiáng)降雨致南方9省區(qū)15人死亡失蹤”為例,借助Predict函數(shù)實現(xiàn)預(yù)測,判別為Ⅰ,Ⅱ和Ⅲ的概率分別為88.68%,11.26%和0.06%,最終判別結(jié)果為Ⅰ?;诖藢?個測試樣本進(jìn)行分級預(yù)測,預(yù)測結(jié)果如表3所示。
表3 對測試樣本的分級結(jié)果
由表3可知,5個測試樣本中有3個測試結(jié)果與實際結(jié)果相同,結(jié)果表明:基于隨機(jī)森林多分類器的分級可較好地避免主觀性和隨意性,能快速有效識別突發(fā)事件,并完成動態(tài)分級,分級結(jié)果可為應(yīng)急決策部門提供信息支撐和參考。
1)隨機(jī)森林作為機(jī)器學(xué)習(xí)的一種,其模型構(gòu)建的關(guān)鍵在于特征指標(biāo)的選擇。在洪澇災(zāi)害突發(fā)事件分級中,選用事件性質(zhì)、嚴(yán)重程度和影響范圍等共有特征提取分級指標(biāo),完成洪澇災(zāi)害分級。
2)以洪澇災(zāi)害事件為例,基于隨機(jī)森林模型對樣本數(shù)據(jù)進(jìn)行處理和測試,結(jié)果表明其能較好地容忍異常值和噪聲,預(yù)測精度高于支持向量機(jī),其在突發(fā)事件分級標(biāo)準(zhǔn)定量化和分級上是可行的。
3)借助隨機(jī)森林分類器,應(yīng)急決策部門可以根據(jù)采集到的事件數(shù)據(jù)信息,實時分析、更新事件級別,并采取相應(yīng)的措施,達(dá)到科學(xué)、合理地配置應(yīng)急資源的目的,最終降低突發(fā)事件帶來的損失和危害。
[1]楊靜,陳建明,趙紅. 應(yīng)急管理中的突發(fā)事件分類分級研究[J]. 管理評論,2005,17(4):37-41.
YANG Jing,CHEN Jianming,ZHAO Hong. Research on emergency classification in emergency management[J]. Journal of management review,2005,17(4):37-41.
[3]KUMAR V,MOVAHEDI B M,MOVAHEDI K M. E-Marketplace Emergence: Evolution,Developments and Classification[J]. Journal of Electronic Commerce in Organizations,2012,10(1):14-32.
[4]SCHULZ R P,PRICE W W. Classification and identification of power system emergencies[J]. IEEE Transactions on Power Apparatus & Systems,1984,PAS-103(12):3470-3479.
[5]薛瀾,鐘開斌. 突發(fā)公共事件分類、分級與分期:應(yīng)急體制的管理基礎(chǔ)[J]. 中國行政管理,2005(2):102-107.
XUE Lan,ZHONG Kaibin. Classification of types,levels and stages for emergencies: managerial foundation of government emergency response system[J]. Chinese Public Administration,2005(2):102-107.
[6]宋莎莎,戴鋒,衛(wèi)保璐. 基于模糊層次分析法和聚類分析的突發(fā)事件分級研究[J]. 科學(xué)決策,2010(10):68-72.
SONG Shasha,DAI Feng,WEI Baolu. A research of emergency classification based fuzzy AHP and cluster analysis[J]. Scientific Decision Making,2010(10):68-72.
[7]吳鳳平,程鐵軍. 基于改進(jìn)的灰色定權(quán)聚類分析的突發(fā)事件分級研究[J]. 中國管理科學(xué),2013(s1):110-113.
WU Fengping,CHENG Tiejun. The classification of emergency based on improved gray clustering model[J]. Chinese journal of management Science,2013(s1):110-113.
[8]鐘茂華,陳寶智. 基于神經(jīng)網(wǎng)絡(luò)的重大危險源動態(tài)分級研究[J]. 中國安全科學(xué)學(xué)報,1997(2):6-9.
ZHONG Maohua,CHEN Baozhi. Study in dynamic risk classification of major hazards based on neural networks[J]. China Safety Science Journal,1997(2):6-9.
[9]徐國,烏云,王儒敬,等. 基于C4.5算法的洪澇災(zāi)害應(yīng)急響應(yīng)級別分析[J]. 計算機(jī)系統(tǒng)應(yīng)用,2012,21(4):55-58.
XU Guo,WU Yun,WANG Rujing,et al. Flood disaster emergency response level analysis based on C4.5 algorithm[J]. Computer systems and application,2012,21(4):55-58.
[10]商麗媛,譚清美. 基于支持向量機(jī)的突發(fā)事件分級研究[J]. 管理工程學(xué)報,2014,28(1):119-123.
SHANG Liyuan,TAN Qingmei. Emergency classification based on support vector machine[J]. Journal of management engineering,2014,28(1):119-123.
[11]DIETTERICH T G. Ensemble methods in machine learning[J]. Proc. 1st International Workshgp on Multiple Classifier Systems,2000,1857(1):1-15.
[12]BREIMAN L. Random Forests[J]. Machine Learning,2001,45(1):5-32.
[13]CHEN X,ISHWARAN H. Random forests for genomic data analysis[J]. Genomics,2012,99(6):323-329.
[14]蔡加欣,馮國燦,湯鑫,等. 基于局部輪廓和隨機(jī)森林的人體行為識別[J]. 光學(xué)學(xué)報,2014,34(10):204-213.
CAI Jiaxin,F(xiàn)ENG Guocan,TANG Xin,et al. Human action recognition based on local image contour and random forest[J]. Acta Optica Sinica,2014,34(10):204-213.
[15]賴成光,陳曉宏,趙仕威,等. 基于隨機(jī)森林的洪災(zāi)風(fēng)險評價模型及其應(yīng)用[J]. 水利學(xué)報,2015,46(1):58-66.
LAI Chengguang,CHEN Xiaohong,ZHAO Shiwei,et al. A flood risk assessment model based on random forest and its application[J]. Journal of Hydraulic Engineering,2015,46(1):58-66.
[16]郭東鋒,胡海洲,汪季濤,等. 基于隨機(jī)森林的烤煙香型分類研究[J]. 中國農(nóng)學(xué)通報,2015,31(6):241-246.
GUO Dongfeng,HU Haizhou,WANG Jitao,et al. Study on the classification of flue-cured tobacco based on the random forest algorithm[J].Chinese Agricultural Science Bulletin,2015,31(6):241-246.
[17]馬玥,姜琦剛,孟治國,等. 基于隨機(jī)森林算法的農(nóng)耕區(qū)土地利用分類研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報,2016(1):297-303.
MA Yue,JIANG Qigang,MENG Zhiguo,et al. Classification of land use in farming area based on random forest algorithm[J]. Transactions of the Chinese Society for Agricultural Machinery,2016(1):297-303.
[18]DONG L J,L I X B,PENG K. Prediction of rockburst classification using Random Forest[J]. Transactions of Nonferrous Metals Society of China,2013,23(2):472-477.
[19]張鵬,郭邵俊,劉哲,等. 重大洪澇災(zāi)害過程災(zāi)情時變模式挖掘[J].自然災(zāi)害學(xué)報,2014,23(4):13-18.
ZHANG Peng,GUO Shaojun,LIU Zhe,et al.Tapping the temporal pattern of diaster loss data on critical floods[J].Journal of natrual of natrual diaseters,2014,23(4):13-18.