馬世榮
(珠江水利委員會(huì)珠江水利科學(xué)研究院,廣州 510630)
廣東省自2020 年起開始出現(xiàn)入汛早、區(qū)域性、旱澇交替等情況,各種風(fēng)險(xiǎn)頻發(fā),導(dǎo)致防御形勢(shì)極為嚴(yán)峻復(fù)雜[1]。 因此,研究該地區(qū)的水旱災(zāi)害識(shí)別以及風(fēng)險(xiǎn)評(píng)估十分迫切。
目前,自然語(yǔ)言處理(Natural Language Processing,NLP)是人工智能中發(fā)展與表現(xiàn)極好的技術(shù),可用于解決計(jì)算機(jī)與人類自然語(yǔ)言的交互問(wèn)題,其在情感分析、人機(jī)對(duì)話及觀點(diǎn)挖掘等方面的應(yīng)用也很成熟[2]。
眾多學(xué)者對(duì)水旱災(zāi)害也進(jìn)行了相關(guān)研究。聶明秋等[3]為提升干旱風(fēng)險(xiǎn)評(píng)估的準(zhǔn)確性,利用核參數(shù)密度估計(jì)法,建立了綜合干旱指數(shù)體系,探究干旱風(fēng)險(xiǎn)的動(dòng)態(tài)變化趨勢(shì)。 李蒙等[4]為探究云南小??Х犬a(chǎn)業(yè)發(fā)展與干旱災(zāi)害風(fēng)險(xiǎn)狀況的關(guān)系,搭建了干旱風(fēng)險(xiǎn)評(píng)估模型,為其產(chǎn)業(yè)發(fā)展提供針對(duì)性措施。 黃國(guó)如等[5]通過(guò)考慮近期城市洪澇災(zāi)害頻發(fā)的危險(xiǎn)性,在綜合洪澇影響因素的基礎(chǔ)上,構(gòu)建模糊綜合風(fēng)險(xiǎn)評(píng)估法,為洪澇災(zāi)害的管理提供科學(xué)依據(jù)。
綜上所述,有關(guān)水旱災(zāi)害風(fēng)險(xiǎn)評(píng)估的研究已獲得許多成果,但隨著科學(xué)技術(shù)的發(fā)展,NLP 算法能實(shí)現(xiàn)更精準(zhǔn)的評(píng)估結(jié)果。 因此,本文基于文本分析與NLP 結(jié)合的方式,搭建水旱災(zāi)害風(fēng)險(xiǎn)評(píng)估模型,以保障經(jīng)濟(jì)發(fā)展與社會(huì)安全穩(wěn)定。
近年來(lái),全球氣候變暖,引發(fā)各地極端天氣頻繁產(chǎn)生,且水旱災(zāi)害呈現(xiàn)急劇增長(zhǎng)的趨勢(shì),已嚴(yán)重影響全球的經(jīng)濟(jì)發(fā)展和生存環(huán)境的保障。因此,本研究從時(shí)間維度與空間維度,確定水旱災(zāi)害的識(shí)別,使用文本挖掘與NLP 算法,對(duì)技術(shù)數(shù)據(jù)提取基礎(chǔ)數(shù)據(jù)的水旱災(zāi)害信息,分析引發(fā)水旱災(zāi)害的影響因素與災(zāi)害等級(jí)之間的關(guān)系。 首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,后續(xù)分析與評(píng)估均以該階段的分詞結(jié)果為基礎(chǔ),因此確保其分詞的準(zhǔn)確性非常重要。 由于研究的數(shù)據(jù)多為史料文本數(shù)據(jù),因而建立停止詞詞典與水旱相關(guān)專有名詞,其中的停止詞詞典為文言文中無(wú)實(shí)意或意義很小的詞語(yǔ),專有詞典詞庫(kù)由于洪澇和干旱各自的特性,分別建立兩個(gè)專有名詞詞典。 分詞方法原理的具體流程見圖1。
圖1 分詞方法的流程
分詞方法的流程如下:首先需要構(gòu)造前綴詞典,然后判斷劃分的詞是否在前綴詞典中。 若在前綴詞典中,則通過(guò)其切分輸入的本文數(shù)據(jù),構(gòu)建對(duì)應(yīng)的位置索引,劃分的尾端所構(gòu)成的列表是值的映射,再計(jì)算所有可能性的切分方式,就可搭建有向無(wú)環(huán)圖,然后使用動(dòng)態(tài)規(guī)劃計(jì)算最大概率路徑,最后每到達(dá)一個(gè)節(jié)點(diǎn),可得前面節(jié)點(diǎn)到終點(diǎn)的最大路徑,即可得到分詞結(jié)果。 若不在前綴詞典中,就將其作為觀察序列,結(jié)果作為狀態(tài)序列,在HMM 模型中輸入數(shù)據(jù)進(jìn)行訓(xùn)練,然后用Viterbi 算法求解,最終尋找對(duì)應(yīng)的狀態(tài)序列即可輸出分詞結(jié)果。 然后進(jìn)行詞頻分析,研究使用詞頻-逆向文件頻率算法(Word Frequency-Reverse File Frequency,WF-RFF),該算法是一種對(duì)字詞評(píng)估其對(duì)文本數(shù)據(jù)重要性的統(tǒng)計(jì)方法[6]。 其次使用共詞分析法確定關(guān)聯(lián)詞間的關(guān)聯(lián)強(qiáng)度,根據(jù)統(tǒng)計(jì)文檔中詞匯在一篇文檔中共同出現(xiàn)的次數(shù)情況,詞匯出現(xiàn)的頻率越多,表明兩個(gè)主題之間的關(guān)聯(lián)越緊密,以此創(chuàng)建共詞網(wǎng)絡(luò)圖,尋求其中蘊(yùn)含的隱藏信息[7]。
研究使用的潛狄利克雷分配主題模型(Latent Dirichlet Allocation,LDA)是在詞與文檔間引入主題,解決一個(gè)詞組對(duì)應(yīng)多重含義以及一種含義對(duì)應(yīng)多個(gè)詞組的問(wèn)題[8]。 基于LDA 的災(zāi)害等級(jí)確定步驟如下:首先將文本數(shù)據(jù)進(jìn)行分詞,計(jì)算每個(gè)詞的WF-RFF 值,以此得到文檔的向量化形式,構(gòu)建詞典形成矩陣;其次設(shè)置主題數(shù)與先驗(yàn)參數(shù);然后統(tǒng)計(jì)每個(gè)詞對(duì)應(yīng)不同主題的頻率以及所有文檔中不同主題出現(xiàn)的頻率,對(duì)文檔中的每個(gè)詞與主題進(jìn)行采樣,計(jì)算某個(gè)位置的詞所屬全部主題的概率,文檔就可得到主題分布的后驗(yàn)概率,通過(guò)樣本可得某位置所在詞對(duì)應(yīng)的主題,按照上述內(nèi)容可計(jì)算所有主題對(duì)應(yīng)的詞分布;最后設(shè)定最大循環(huán)次數(shù),檢查模型是否收斂,且得到最終的每一年災(zāi)害等級(jí)。 通過(guò)上述數(shù)據(jù)的預(yù)處理以及LDA 模型的構(gòu)建,即可得到在時(shí)間維度中基于文本分析的水旱災(zāi)害識(shí)別流程,見圖2。
圖2 在時(shí)間維度下基于文本分析的水旱災(zāi)害識(shí)別流程
水旱災(zāi)害不僅存在時(shí)間規(guī)律特性,還具有獨(dú)特的空間分布情況,在同一時(shí)間維度下,水旱災(zāi)害在空間的分布狀況是不同的,探究水旱災(zāi)害發(fā)生的空間維度,能為不同區(qū)域的預(yù)防和應(yīng)對(duì)措施提供科學(xué)有效的指導(dǎo)[9]。 研究基于語(yǔ)義檢索和活動(dòng)窗口匹配算法進(jìn)行匹配檢索文本數(shù)據(jù),將識(shí)別的地名與相應(yīng)發(fā)生的災(zāi)害等級(jí)進(jìn)行匹配。 根據(jù)上述方法,可以統(tǒng)計(jì)廣東省各區(qū)域發(fā)生的不同災(zāi)害等級(jí)的水旱災(zāi)害次數(shù),進(jìn)而得到各區(qū)域水旱災(zāi)害的空間分布情況。 基于空間維度的水旱災(zāi)害等級(jí)識(shí)別過(guò)程如下:首先是數(shù)據(jù)的預(yù)處理,確保分詞過(guò)程中的準(zhǔn)確率;其次確定全部文本數(shù)據(jù)中表示洪水和干旱不同等級(jí)的詞;然后設(shè)定滑動(dòng)窗口,匹配描述水旱等級(jí)的詞語(yǔ)與地點(diǎn),統(tǒng)計(jì)各區(qū)域不同等級(jí)水旱災(zāi)害發(fā)生的頻率,對(duì)結(jié)果進(jìn)行補(bǔ)充與校正后,即可取得各區(qū)域水旱災(zāi)害發(fā)生的頻數(shù);最后將得到的災(zāi)害頻數(shù)按照發(fā)生的次數(shù)比例進(jìn)行劃分,就可得到洪澇與干旱的風(fēng)險(xiǎn)分布情況。
在水旱災(zāi)害的風(fēng)險(xiǎn)評(píng)估中,研究采用正態(tài)分布和伯努利大數(shù)定律,對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,以此評(píng)估水旱災(zāi)害發(fā)生的風(fēng)險(xiǎn)。 水旱災(zāi)害的形成進(jìn)程中,會(huì)受到多種因素的影響或多因素共同作用,但根據(jù)文本數(shù)據(jù)情況,研究采用致災(zāi)因子的危險(xiǎn)性作為水旱災(zāi)害風(fēng)險(xiǎn)的評(píng)估指標(biāo)。 水旱災(zāi)害的風(fēng)險(xiǎn)評(píng)估包含兩部分:一部分是運(yùn)用時(shí)間序列對(duì)每年水旱災(zāi)害等級(jí)發(fā)生的概率進(jìn)行評(píng)估;另一部分是對(duì)研究各區(qū)域的不同等級(jí)水旱災(zāi)害發(fā)生頻數(shù)進(jìn)行統(tǒng)計(jì)。 使用伯努利大數(shù)定律確定各區(qū)域不同等級(jí)水旱災(zāi)害發(fā)生的概率,將這兩部分的內(nèi)容加權(quán)處理,就可準(zhǔn)確得到不同區(qū)域水旱災(zāi)害發(fā)生風(fēng)險(xiǎn)的情況。 時(shí)間序列預(yù)測(cè)部分采用滑動(dòng)平均法估計(jì)變量的局部均值,即可將更新變量同歷史取值關(guān)聯(lián),再設(shè)定時(shí)間窗口的大小,就可讓更新后的時(shí)間點(diǎn)的值使用之前一段時(shí)間的平均值[10]。 在運(yùn)用伯努利大數(shù)定律的階段,隨機(jī)變量序列為{Un},且序列的均值和其數(shù)學(xué)期望E(Un)存在,若?ε>0,則有式(1):
式(1)表示隨機(jī)變量序列的均值收斂于其數(shù)學(xué)期望,代表 {Un}服從大數(shù)定律。 設(shè)nv為n次獨(dú)立重復(fù)試驗(yàn)中V事件發(fā)生的次數(shù),p為V事件在每次獨(dú)立重復(fù)試驗(yàn)中發(fā)生的概率,因此對(duì)任意正數(shù)ε都存在式(2):
式(3)中u存在4 種災(zāi)害等級(jí),PD(u) 代表未來(lái)一年研究區(qū)域不同水旱災(zāi)害等級(jí)發(fā)生的概率。
綜合上述數(shù)據(jù)的預(yù)處理,通過(guò)在時(shí)間與空間維度的水旱災(zāi)害識(shí)別與風(fēng)險(xiǎn)評(píng)估,就可得到水旱災(zāi)害風(fēng)險(xiǎn)評(píng)估模型,流程見圖3。
為了驗(yàn)證研究提出的基于文本分析與NLP結(jié)合的水旱災(zāi)害風(fēng)險(xiǎn)評(píng)估模型的效果,首先干旱文本數(shù)據(jù)在經(jīng)過(guò)分詞預(yù)處理后,輸入到LDA 模型進(jìn)行計(jì)算。 根據(jù)以往的研究可知,干旱等級(jí)的分類至少為4 種,即輕旱、中旱、重旱和特旱,因而主題數(shù)目的設(shè)定至少在4 以上。 根據(jù)文本分析,就可得到不同主題參數(shù)的聚類效果,對(duì)比結(jié)果見圖4。
圖4 參數(shù)不同的干旱災(zāi)害聚類效果對(duì)比
將模型進(jìn)行可視化處理,將權(quán)值向量降維處理到三維向量,分別設(shè)置簇?cái)?shù)為4 與5,最后通過(guò)k均值算法就可得到聚類結(jié)果。 從圖4 可以觀察到,當(dāng)K=4 時(shí),模型的聚類效果不是很明顯,不同主題數(shù)均向各維度散開;當(dāng)K=5 時(shí),模型的聚類效果十分明顯,5 種主題數(shù)目均聚集在一定的范圍中。
因此,在研究干旱的文本數(shù)據(jù)時(shí),需要將LDA 模型的主題參數(shù)數(shù)目設(shè)定為5,就可以得到更好的干旱災(zāi)害聚類效果。 在處理有關(guān)洪澇的文本數(shù)據(jù)時(shí),仍然按照上述過(guò)程,同樣根據(jù)以往的研究可得洪澇等級(jí)為4 種,分別為小、中、大和特大洪水,也就是主題數(shù)目的確定至少是4 以上。 采用文本分析,可得到不同主題參數(shù)的聚類效果,對(duì)比結(jié)果見圖5。
圖5 參數(shù)不同的洪澇災(zāi)害聚類效果對(duì)比
由圖5 可知,當(dāng)K=4 時(shí),模型的聚類效果相對(duì)較好,4 種主題數(shù)目均聚集在一定的范圍中;當(dāng)K=5 時(shí),模型的聚類效果表現(xiàn)較差,5 種主題數(shù)目的離散程度較大。 因此,在研究洪澇的文本數(shù)據(jù)時(shí),需要將LDA 模型的主題參數(shù)數(shù)目設(shè)定為4,以此能得到更好的洪澇災(zāi)害聚類效果,為后續(xù)的災(zāi)害等級(jí)評(píng)估奠定堅(jiān)實(shí)的基礎(chǔ)。 在得到水旱災(zāi)害風(fēng)險(xiǎn)評(píng)估模型更好的參數(shù)設(shè)定后,就可確定能取得更優(yōu)秀的結(jié)果模型,然后將其應(yīng)用在實(shí)際情況中。
研究選擇廣東省作為應(yīng)用驗(yàn)證區(qū)域,根據(jù)上述模型參數(shù)的確定,計(jì)算省內(nèi)各區(qū)域的干旱災(zāi)害風(fēng)險(xiǎn)概率。 按照氣象5 種干旱等級(jí)進(jìn)行劃分,確定廣東省干旱風(fēng)險(xiǎn)等級(jí)為低風(fēng)險(xiǎn)、中低風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)、中高風(fēng)險(xiǎn)與高風(fēng)險(xiǎn)5 種。 最后利用研究提出的水旱災(zāi)害風(fēng)險(xiǎn)評(píng)估模型,計(jì)算干旱風(fēng)險(xiǎn)發(fā)生概率以及干旱災(zāi)害風(fēng)險(xiǎn)區(qū)劃分的界限值,就可得到廣東省干旱災(zāi)害風(fēng)險(xiǎn)分布情況,結(jié)果見圖6。
圖6 廣東省各區(qū)域的干旱風(fēng)險(xiǎn)分布情況
從圖6 可以看到,干旱低風(fēng)險(xiǎn)區(qū)集中分布在韶關(guān)市、湛江市與東莞市;干旱中低風(fēng)險(xiǎn)區(qū)集中分布在河源市、清遠(yuǎn)市、廣州市、珠海市和汕頭市;干旱中風(fēng)險(xiǎn)區(qū)分布在深圳市、中山市、肇慶市和潮州市;干旱中高風(fēng)險(xiǎn)區(qū)分布在梅州市、佛山市、云浮市、茂名市與陽(yáng)江市;干旱高風(fēng)險(xiǎn)區(qū)主要分布在江門市與揭陽(yáng)市。 通過(guò)模型參數(shù)的確定,按照氣象4 種洪澇等級(jí)進(jìn)行劃分,可確定廣東省洪澇風(fēng)險(xiǎn)等級(jí)為低風(fēng)險(xiǎn)、中低風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)、中高風(fēng)險(xiǎn)與高風(fēng)險(xiǎn)5 種。 最后利用水旱災(zāi)害風(fēng)險(xiǎn)評(píng)估模型進(jìn)行計(jì)算與統(tǒng)計(jì),即可得到廣東省洪澇災(zāi)害風(fēng)險(xiǎn)與水系分布情況,結(jié)果見圖7。
由圖7 可知,洪澇低風(fēng)險(xiǎn)區(qū)集中分布在茂名市、湛江市、陽(yáng)江市、珠海市、中山市、深圳市與惠州市;洪澇中低風(fēng)險(xiǎn)區(qū)集中分布在肇慶市、佛山市、汕尾市、揭陽(yáng)市、汕頭市、東莞市和梅州市;洪澇中風(fēng)險(xiǎn)區(qū)分布在陽(yáng)江市、江門市、云浮市、廣州市、清遠(yuǎn)市與河源市;洪澇中高風(fēng)險(xiǎn)區(qū)與高風(fēng)險(xiǎn)區(qū)均分布在韶關(guān)市。 自古以來(lái),北江水系的周圍區(qū)域極易發(fā)生洪澇災(zāi)害,這與研究通過(guò)文本分析得到的洪澇風(fēng)險(xiǎn)分布結(jié)果保持一致。 根據(jù)上述研究結(jié)果,可以驗(yàn)證研究提出的水旱災(zāi)害風(fēng)險(xiǎn)評(píng)估模型的準(zhǔn)確性與實(shí)用性。
為了評(píng)估水旱災(zāi)害發(fā)生的風(fēng)險(xiǎn),協(xié)助高風(fēng)險(xiǎn)區(qū)域制定保障安全措施,本文采用文本分析與NLP 結(jié)合的方法,構(gòu)建水旱災(zāi)害風(fēng)險(xiǎn)評(píng)估模型。結(jié)果顯示,在該模型性能驗(yàn)證部分,當(dāng)K=5 時(shí),干旱的聚類效果最好;當(dāng)K=4 時(shí),洪澇的聚類效果最好。 在檢驗(yàn)該模型的使用效果時(shí),廣東省干旱中高風(fēng)險(xiǎn)區(qū)域集中分布在東北與西南地區(qū),洪澇中高風(fēng)險(xiǎn)區(qū)域主要分布在西北地區(qū),均與實(shí)際情況保持一致。 表明研究提出的水旱災(zāi)害風(fēng)險(xiǎn)預(yù)測(cè)模型在實(shí)際運(yùn)用中表現(xiàn)十分優(yōu)異,準(zhǔn)確性極高。