伍俊杰,黃 浩,潘 晨
(1.廣東海洋大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院,廣東 湛江 524088;2.廣東海洋大學(xué)海洋與氣象學(xué)院,廣東 湛江 524088)
臺(tái)風(fēng)災(zāi)害是廣東省最主要的自然災(zāi)害之一,其引發(fā)的風(fēng)暴潮及洪澇和山體滑波等災(zāi)害對(duì)社會(huì)基礎(chǔ)設(shè)施和生命財(cái)產(chǎn)造成巨大的損害。
臺(tái)風(fēng)災(zāi)害評(píng)估是防災(zāi)減災(zāi)的關(guān)鍵,但由于臺(tái)風(fēng)的復(fù)雜性,其經(jīng)濟(jì)損失預(yù)測(cè)一直是一個(gè)難題。我國學(xué)者在致災(zāi)因子和災(zāi)情結(jié)合評(píng)估研究采用數(shù)理統(tǒng)計(jì)方法[1- 2]和模糊數(shù)學(xué)方法[3]。臺(tái)風(fēng)是一個(gè)涉及大量資料運(yùn)算的自然界現(xiàn)象,因此,引入大數(shù)據(jù)分析技術(shù)有助于掌握臺(tái)風(fēng)的動(dòng)態(tài)。本文嘗試以大數(shù)據(jù)分析數(shù)據(jù)挖掘方法,利用多維度多角度的數(shù)據(jù)尋找關(guān)聯(lián)性,從看似瑣碎不相關(guān)的數(shù)據(jù)集合中挖掘?qū)δP蛢?yōu)化有用的因子,并使用機(jī)器學(xué)習(xí)中具有自我反饋學(xué)習(xí)的預(yù)測(cè)模型對(duì)最終結(jié)果進(jìn)行預(yù)測(cè)。最后,基于這個(gè)預(yù)測(cè)模型再運(yùn)用氣象災(zāi)害風(fēng)險(xiǎn)管理的方法做出臺(tái)風(fēng)經(jīng)濟(jì)風(fēng)險(xiǎn)的統(tǒng)計(jì)和預(yù)測(cè)。
本文對(duì)臺(tái)風(fēng)的經(jīng)濟(jì)風(fēng)險(xiǎn)解讀基于災(zāi)害學(xué)領(lǐng)域的觀點(diǎn),即自然災(zāi)害事件(包括量級(jí)、時(shí)間、場(chǎng)地等要素)發(fā)生的可能性以及由其造成后果的嚴(yán)重程度。對(duì)臺(tái)風(fēng)災(zāi)害有可能帶來的經(jīng)濟(jì)損失以及此損失的可能性做出估計(jì)。
1945—2015年期間,共計(jì)216個(gè)臺(tái)風(fēng)直接登錄廣東省,其中低壓強(qiáng)登陸有27個(gè),熱帶風(fēng)暴級(jí)別和以上級(jí)別的共計(jì)189個(gè),省內(nèi)各沿海城市登陸數(shù)據(jù)如圖1所示。
圖1 登陸廣東省沿海城市臺(tái)風(fēng)數(shù)量(1945—2015)
由圖1可知,廣東省湛江市是歷年臺(tái)風(fēng)登陸數(shù)目最多的城市,也是受臺(tái)風(fēng)災(zāi)害沖擊最為慘烈的城市,而且其他數(shù)據(jù)表明到目前為止登陸廣東省的最強(qiáng)臺(tái)風(fēng)Rammasun(17+級(jí),62m/s,910hPa)也正是登陸自湛江市徐聞縣龍?zhí)伶?zhèn),可見湛江市在防災(zāi)減災(zāi)形勢(shì)十分嚴(yán)峻。
1.2.1 BP神經(jīng)網(wǎng)絡(luò)的原理
BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)模型是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò)[4],通過最速下降法,反向傳播來不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值使得網(wǎng)絡(luò)的總誤差最小[5]。模型拓?fù)浣Y(jié)構(gòu)有輸入層、隱藏層和輸出層組成。第j個(gè)神經(jīng)元的凈輸入值Sj見式(1)。
(1)
式中,wji—神經(jīng)元i與第j個(gè)神經(jīng)元的權(quán)值;xi—分別輸入層神經(jīng)元的輸入;bj為閾值。
模型運(yùn)算結(jié)構(gòu)如圖2所示。圖2中,f(x)—傳遞函數(shù);yi—第j個(gè)神經(jīng)元的輸出。
圖2 BP神經(jīng)元
當(dāng)正向傳播完成后需要反向傳播,即通過累計(jì)誤差去調(diào)整網(wǎng)絡(luò)中的權(quán)值wji,使總誤差減少。關(guān)于BP神經(jīng)網(wǎng)絡(luò)更詳細(xì)的算法可參考文獻(xiàn)[6]。
1.2.2 LS-SVM的原理
LS-SVM是建立在在SVM基礎(chǔ)上的改進(jìn),LS-SVM從機(jī)器學(xué)習(xí)損失函數(shù)上做出改進(jìn),在優(yōu)化問題中優(yōu)化目標(biāo)的損失函數(shù)為誤差的平方,同時(shí)LS-SVM約束條件將SVM中采用的不等式變?yōu)榈仁絒7]。并且LS-SVM引用了核函數(shù),最后只需通過對(duì)線性方程組的求解實(shí)現(xiàn)二次規(guī)劃問題的化簡,通過降低求解難度的方式,大大提高運(yùn)算速度并且能夠保證最后結(jié)果有較高的精度[8],更詳細(xì)的算法過程可參考文獻(xiàn)[9],最后可得到非線性方程(2):
(2)
式中,K(x,xi)—核函數(shù),K(xi,xj)=φ(xi)·φ(xj)。
大數(shù)據(jù)的數(shù)據(jù)轉(zhuǎn)換過程可分為各類型不同數(shù)據(jù)的前提收集、中期對(duì)各類型數(shù)據(jù)的壓縮和分析及最后結(jié)果的輸出,如圖3所示。
圖3 大數(shù)據(jù)的轉(zhuǎn)換過程
由于大數(shù)據(jù)對(duì)一些圖像、音像等多樣化數(shù)據(jù)的量化提取技術(shù)尚未成熟和廣泛運(yùn)用,本文對(duì)圖3中的信息類型僅局限于數(shù)字文本資料,轉(zhuǎn)換過程基本一致,但最后輸出本文的數(shù)據(jù)只有直接經(jīng)濟(jì)損失這一個(gè)選項(xiàng)。
大數(shù)據(jù)在數(shù)據(jù)維度上具有廣泛性,盡管前期對(duì)數(shù)據(jù)選取已經(jīng)作了篩選,但大量基于時(shí)間序列的數(shù)據(jù)在各維度上仍然可能存在較嚴(yán)重的線性相關(guān)性。大數(shù)據(jù)中,最常用的數(shù)據(jù)降維方式是通過壓縮數(shù)據(jù)的線性關(guān)系已達(dá)到高維度數(shù)據(jù)最終向低維度映射的目的,減少計(jì)算資源的耗費(fèi)與提高運(yùn)算速度[10]。由于大數(shù)據(jù)的數(shù)據(jù)多元,因此,維度可以無限大,本文只選取了部分相關(guān)的數(shù)據(jù)維度作出篩選分析,見表1。
表1 廣東省臺(tái)風(fēng)數(shù)據(jù)因子選取
數(shù)據(jù)在以上維度的數(shù)值,經(jīng)標(biāo)準(zhǔn)化處理后利用機(jī)器學(xué)習(xí)中的降維方法,主成分分析法對(duì)多維度數(shù)據(jù)進(jìn)行降維,主成分分析的降維方法在對(duì)數(shù)據(jù)特征壓縮原理上是基于一個(gè)協(xié)方差矩陣進(jìn)行的,因此可以大大減少因子間的線性相關(guān)性。大數(shù)據(jù)的維度在量綱上存在差異,在降維前應(yīng)進(jìn)行標(biāo)準(zhǔn)化處理和中心化處理,數(shù)據(jù)降維后可發(fā)現(xiàn)前6個(gè)主成分的貢獻(xiàn)率在90%以上,因此選取這6個(gè)主成分作為后期預(yù)測(cè)模型的因子輸入,降維結(jié)果的時(shí)間序列分布如圖4所示。
圖4 降維結(jié)果時(shí)間序列分布
臺(tái)風(fēng)災(zāi)害造成的直接經(jīng)濟(jì)損失受大數(shù)據(jù)多維度的數(shù)據(jù)影響,但由于某些影響因素具有很強(qiáng)的隨機(jī)性,因此預(yù)測(cè)難度非常大,如果沿用一般的多元線性回歸方法有可能會(huì)導(dǎo)致精度非常低。本文在對(duì)臺(tái)風(fēng)于廣東省的直接經(jīng)濟(jì)損失預(yù)測(cè)將結(jié)合大數(shù)據(jù)中的反饋學(xué)習(xí)和模型自我調(diào)節(jié)優(yōu)化的特點(diǎn)和要求,將運(yùn)用機(jī)器學(xué)習(xí)中的兩種算法,BP神經(jīng)網(wǎng)絡(luò)和LS-SVM(最小二乘支持向量機(jī))對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),并從精度和效率上評(píng)價(jià)這兩種算法在大數(shù)據(jù)預(yù)測(cè)中的效果。針對(duì)數(shù)據(jù)中每10次臺(tái)風(fēng)數(shù)據(jù)給出兩個(gè)預(yù)測(cè)值,即以前10次臺(tái)風(fēng)數(shù)據(jù)作為訓(xùn)練集以預(yù)測(cè)下兩次的經(jīng)濟(jì)損失。原始數(shù)據(jù)是已經(jīng)進(jìn)行降維后得到的6個(gè)主成分。
2.3.1 利用BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)
由降維后的6個(gè)主成分作為BP神經(jīng)網(wǎng)絡(luò)的輸入層,每次臺(tái)風(fēng)的直接經(jīng)濟(jì)損失數(shù)據(jù)作為BP神經(jīng)網(wǎng)絡(luò)的輸出層,通過樣本數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最后得到直接經(jīng)濟(jì)損失的預(yù)測(cè)值,Matlab中就有相應(yīng)的神經(jīng)網(wǎng)絡(luò)工具箱可以進(jìn)行對(duì)數(shù)據(jù)的訓(xùn)練和仿真。本文采取預(yù)測(cè)點(diǎn)的前10組樣本數(shù)據(jù)作為訓(xùn)練集來對(duì)往后2次臺(tái)風(fēng)的直接經(jīng)濟(jì)損失進(jìn)行預(yù)測(cè),以此類推,通過訓(xùn)練樣本的每兩組地向后移動(dòng),形成適用于后兩次數(shù)據(jù)點(diǎn)預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò),即最新權(quán)值,完成后樣本數(shù)據(jù)集兩次臺(tái)風(fēng)直接經(jīng)濟(jì)損失預(yù)測(cè)。由于數(shù)據(jù)庫準(zhǔn)備前期已經(jīng)對(duì)數(shù)據(jù)進(jìn)行了歸一化處理,不需要再對(duì)數(shù)據(jù)進(jìn)行歸一化處理去除量綱。利用廣東省1985—2015年臺(tái)風(fēng)登陸的數(shù)據(jù)樣本,每10組作為訓(xùn)練集,預(yù)測(cè)往后2次的經(jīng)濟(jì)損失,樣本窗口每兩次向后推移,預(yù)測(cè)點(diǎn)也將同時(shí)向后推移,直到得到往后所有點(diǎn)的預(yù)測(cè)結(jié)果。將預(yù)測(cè)所得結(jié)果與相應(yīng)臺(tái)風(fēng)序號(hào)的實(shí)際數(shù)據(jù)做比較,如圖5所示。
圖5 利用BP神經(jīng)網(wǎng)絡(luò)法預(yù)測(cè)結(jié)果
2.3.2 利用LS-SVM預(yù)測(cè)
利用LS-SVM進(jìn)行預(yù)測(cè)時(shí),將由降維后的6個(gè)主成分作為影響因子的輸入,每次臺(tái)風(fēng)的直接經(jīng)濟(jì)損失數(shù)據(jù)作為輸出。運(yùn)用Matlab中的LS-SVM工具箱對(duì)樣本數(shù)據(jù)進(jìn)行訓(xùn)練和最后結(jié)果預(yù)測(cè)。
本文將選定高斯徑向基函數(shù)作為LS-SVM的核函數(shù),因?yàn)樗膽?yīng)用范圍最為廣泛并直接反映了兩個(gè)數(shù)據(jù)的距離。另外在選定核函數(shù)之后,LS-SVM模型還需對(duì)超參數(shù)γ(對(duì)應(yīng)懲罰因子C,決定訓(xùn)練誤差)和核參數(shù)σ^2(決定樣本的分布和范圍,與方差成反比),以上兩個(gè)參數(shù)的選取須在合理的范圍內(nèi)選取,γ太高容易造成過度擬合[11],在工具中有一個(gè)函數(shù)Gridsearch可以在一定的范圍內(nèi)進(jìn)行參數(shù)尋優(yōu),以找到較為適合的參數(shù)值。同理,對(duì)數(shù)據(jù)中每10組作為訓(xùn)練集,得到最新的訓(xùn)練網(wǎng)絡(luò),以此預(yù)測(cè)往后2次的經(jīng)濟(jì)損失,然后按照預(yù)測(cè)點(diǎn)的推移,訓(xùn)練樣本隨之轉(zhuǎn)移,最后完成全部經(jīng)濟(jì)損失值的預(yù)測(cè)結(jié)果并與實(shí)際值進(jìn)行對(duì)比,結(jié)果如圖6所示。
圖6 利用LS-SVM法預(yù)測(cè)結(jié)果
2.3.3 兩種預(yù)測(cè)方法結(jié)果對(duì)比分析
(1)運(yùn)算速度:從算法原理出發(fā),由于人工神經(jīng)網(wǎng)絡(luò)因本身傳遞函數(shù)具有非線性映射以及算法收斂比較慢的特征,而LS-SVM則在算法中直接采用核函數(shù)代替高維特征空間中的內(nèi)積計(jì)算問題并通過對(duì)線性方程組的求解實(shí)現(xiàn)二次規(guī)劃問題的化簡,這樣能夠顯著提高模型的訓(xùn)練速度,在對(duì)臺(tái)風(fēng)災(zāi)害直接經(jīng)濟(jì)損失的預(yù)測(cè)實(shí)驗(yàn)中,實(shí)際情況明顯低說明兩種算法在運(yùn)算速度上的優(yōu)劣,因?yàn)楸緦?shí)驗(yàn)中BP神經(jīng)網(wǎng)絡(luò)在前后推移中一共用了大約15s,而LS-SVM則只用了1s左右,并且兩個(gè)算法在編程上的結(jié)構(gòu)也是類似的,都用到了for循環(huán)來進(jìn)行訓(xùn)練集的推移。
(2)精度分析:在精度對(duì)比時(shí),本文將引入絕對(duì)百分比誤差(Absolute Percentage Error)概念,即表2中的APE,對(duì)兩種算法的預(yù)測(cè)精度進(jìn)行量化,最后結(jié)果見表2。
(3)
式中,Y—實(shí)際值;Y′—預(yù)測(cè)值。
表2 結(jié)果對(duì)比 單位:億元
由表2可得,BP神經(jīng)網(wǎng)絡(luò)絕對(duì)誤差小于50%的數(shù)目為19個(gè),而LS-SVM算法預(yù)測(cè)得到的結(jié)果中絕對(duì)誤差低于50%的數(shù)目為25個(gè),要高于BP神經(jīng)網(wǎng)絡(luò)法預(yù)測(cè)得到的結(jié)果。因此,在精度上也可以認(rèn)為LS-SVM廣東省臺(tái)風(fēng)災(zāi)害的直接經(jīng)濟(jì)損失預(yù)測(cè)上在大多數(shù)點(diǎn)的準(zhǔn)確率要高于BP神經(jīng)網(wǎng)絡(luò),盡管一些點(diǎn)上LS-SVM法的預(yù)測(cè)值誤差會(huì)高于BP神經(jīng)網(wǎng)絡(luò)法的預(yù)測(cè)值誤差,并且有個(gè)別點(diǎn)也會(huì)出現(xiàn)誤差爆炸的情況,當(dāng)出現(xiàn)誤差爆炸時(shí),可以認(rèn)為模型預(yù)測(cè)已經(jīng)沒有意義,但到底是什么原因?qū)е履P皖A(yù)測(cè)出現(xiàn)誤差爆炸的情況是今后需要發(fā)展和模型改進(jìn)的方向之一。
因此,在臺(tái)風(fēng)災(zāi)害直接經(jīng)濟(jì)損失預(yù)測(cè)中,從預(yù)測(cè)值準(zhǔn)確率上LS-SVM的預(yù)測(cè)精度會(huì)稍高于BP神經(jīng)網(wǎng)絡(luò)法,但從運(yùn)算速度上,LS-SVM模型通過核函數(shù)在非線性函數(shù)與線性函數(shù)的巧妙轉(zhuǎn)化,使得LS-SVM法在運(yùn)算速度上要大大高語BP神經(jīng)網(wǎng)絡(luò)法,LS-SVM更適合語解決大規(guī)模數(shù)據(jù)計(jì)算問題,在臺(tái)風(fēng)大數(shù)據(jù)分析中,數(shù)據(jù)規(guī)模非常龐大。經(jīng)比較,相比BP神經(jīng)網(wǎng)絡(luò)法,選用LS-SVM法進(jìn)行數(shù)據(jù)預(yù)測(cè)會(huì)更有效率,并且更節(jié)省計(jì)算機(jī)運(yùn)算占用的內(nèi)存,減少不必要資源浪費(fèi)。
本文對(duì)臺(tái)風(fēng)災(zāi)害的經(jīng)濟(jì)風(fēng)險(xiǎn)的大數(shù)據(jù)分析過程作了介紹,包括前期的數(shù)據(jù)抓取、轉(zhuǎn)換和清洗、多維度數(shù)據(jù)的壓縮降維和利用預(yù)測(cè)模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè),分析和反饋學(xué)習(xí),不斷提高數(shù)據(jù)預(yù)測(cè)的計(jì)算精度。并且就臺(tái)風(fēng)經(jīng)濟(jì)損失數(shù)據(jù),利用機(jī)器學(xué)習(xí)中的兩種用于回歸預(yù)測(cè)的常用算法作出模擬作為一次實(shí)驗(yàn),最后從運(yùn)算速度和精度上對(duì)兩種模型于臺(tái)風(fēng)大數(shù)據(jù)中的應(yīng)用作出分析與評(píng)價(jià)。
基于臺(tái)風(fēng)災(zāi)害直接經(jīng)濟(jì)損失的預(yù)測(cè)對(duì)BP網(wǎng)絡(luò)和LS-SVM比較分析得出在大數(shù)據(jù)預(yù)測(cè)過程中LS-SVM更為適合。但預(yù)測(cè)結(jié)果僅僅局限于某個(gè)預(yù)測(cè)值,而不是預(yù)測(cè)值的置信區(qū)間,這是今后研究和改進(jìn)的方向之一,在實(shí)際應(yīng)用中往往后者會(huì)具有更大的參考價(jià)值。