于敏 曹學海 邱國鵬
摘 要:旨在將專業(yè)且繁雜的原始氣象數(shù)據(jù)轉(zhuǎn)化成通俗易懂的氣象預(yù)報文本,提高氣象服務(wù)的時效性、科技含量和豐富性,重點對原始氣象數(shù)據(jù)進行空間計算,另外利用特征提取相關(guān)算法處理海量歷史氣象文本,構(gòu)建氣象預(yù)報文本的模板庫.在此基礎(chǔ)上實現(xiàn)了一套面向氣象大數(shù)據(jù)的氣象預(yù)報文本實時生成系統(tǒng).實驗結(jié)果顯示,該系統(tǒng)生成的氣象文本準確性達到71%,通順性達到85%,合格率可達84%.較為理想的實驗結(jié)果也證明了該系統(tǒng)的可行性與準確性,具有良好而廣闊的應(yīng)用前景.
關(guān)鍵詞:自然語言處理;特征提取;空間分析;文本自動生成
中圖分類號:P458? 文獻標識碼:A? 文章編號:1673-260X(2019)10-0127-04
相關(guān)數(shù)據(jù)顯示,中國是受災(zāi)害影響最嚴重的國家之一,氣象災(zāi)害的有效防御還需要氣象服務(wù)能力的進一步提高;人民生活方式的不斷轉(zhuǎn)變和生活質(zhì)量的不斷提高也需要更高層次的氣象服務(wù)相匹配.但是,現(xiàn)在我國氣象服務(wù)行業(yè)仍然存在著服務(wù)能力和經(jīng)濟社會發(fā)展要求不相適應(yīng),產(chǎn)品質(zhì)量不高,科技含量不足等問題.近年來,GIS(Geographic Information System地理信息系統(tǒng))技術(shù)在氣象的可視化、圖形化領(lǐng)域發(fā)揮了重要作用[1],但是在具體的文本輸出方面,多數(shù)氣象部門仍然采用人工的方式解讀大量實況數(shù)據(jù),并依靠人工進行氣象的描述和文本輸出.很明顯,這種人工的方式已經(jīng)無法滿足現(xiàn)代社會所需要的時效性、精細化、更新快的氣象預(yù)報產(chǎn)品的要求.
國外于20世紀70年代初就開始了天氣預(yù)報文本的計算機自動或半自動生成技術(shù)的研究,代表性的有1991年的Scribe、1993年的ICWF和1999年的Siren系統(tǒng)[2].從國內(nèi)來看,中國氣象局于2014年研究的氣象落區(qū)文本自動生成技術(shù)實現(xiàn)了從標準化的氣象數(shù)據(jù)到篇章級氣象預(yù)報文本的自動生成[3].然而上述研究均存在一些不足:如只停留在原始氣象數(shù)據(jù)空間處理和氣象預(yù)報文本自動生成分割處理的階段,缺乏時效性.
本文將建立面向氣象預(yù)報文本生成技術(shù)的文本特征提取、模式匹配、文本規(guī)劃組織的自然語言處理模型,并利用GIS相關(guān)工具對原始氣象數(shù)據(jù)進行空間分析,獲取具體氣象信息并結(jié)合文本模型生成完整的氣象預(yù)報文本,從而建立基于空間分析的氣象預(yù)報文本實時生成系統(tǒng)模型與方法.
1 基于QGIS空間分析的氣象數(shù)據(jù)模型構(gòu)建
中國氣象局目前所有的原始氣象數(shù)據(jù)主要為14類Micaps數(shù)據(jù),包括降水、氣溫、臺風、霧霾等各類氣象類型,分為點、線、面、柵格四種格式.Micaps數(shù)據(jù)中包含有地理方位、氣象代碼、距離、方向、等級等多個特征,需從這些特征中綜合提取出氣象空間特征[4].還需考慮不同氣象要素、不同表現(xiàn)形式(單站點數(shù)據(jù)如觀測點數(shù)據(jù)、格點數(shù)據(jù)如降水數(shù)值),對于特定類型的氣象數(shù)據(jù)在空間特征提取的方法上也存在差異(如觀測站點需要先進行插值處理形成空間分布場然后再表達)[4].
根據(jù)數(shù)據(jù)類型分別調(diào)用不同的GDAL庫接口從而創(chuàng)建不同格式的文件[5].具體的每種原始氣象數(shù)據(jù)處理流程如圖1所示.
以Micaps7數(shù)據(jù)為例,它是專門用于臺風預(yù)警的站點數(shù)據(jù),處理后得到的shp文件如圖2所示,表1為添加數(shù)據(jù)之后生成的shp文件屬性表(部分),包含有臺風的時間、位置、速度等屬性.
可以看到,每種天氣要素發(fā)生的地理位置在原始氣象數(shù)據(jù)中是以經(jīng)緯度形式出現(xiàn)的,無法直接得到具體地名,需利用QGIS模塊并結(jié)合空間疊加原理,將每個級別的氣象地理區(qū)劃的空間文件分別同預(yù)報的天氣要素地理位置文件進行疊加,得到重合的部分,讀取該重合部分所屬的每級區(qū)劃(如疊加部分屬于江南地區(qū)、江南地區(qū)東部、江西省、江西省北部)、天氣信息(如天氣的類別、級別等)、重合部分面積以及此面積占整個所屬地理區(qū)劃面積的比例p.確定了如上信息就可以進行空間推理分析[2],規(guī)則如表2所示.
2 氣象預(yù)報文本的特征提取與建模
2.1 氣象預(yù)報文本的特征提取
引入中國氣象局2015-2017年間各類型的歷史氣象文本資料共2000份,作為本模型的訓練數(shù)據(jù),利用NLPIR-ICTCLAS對氣象文本數(shù)據(jù)進行信息抽取[6].主要抽取以下兩部分信息:1.天氣(天氣類型和天氣預(yù)警)和地理區(qū)域變量描述詞組;2.描述天氣的短句模板.這兩部分信息結(jié)合就可以組成一句完整的天氣描述的句子.部分結(jié)果如表3所示.
詞頻統(tǒng)計[7]結(jié)果顯示,在2000份氣象預(yù)報文本中,一共出現(xiàn)了2468個詞語,有些詞全年只出現(xiàn)了1-2次,屬于分詞中生僻詞.對預(yù)報文本進行詞頻統(tǒng)計信息抽取的目的是得到氣象文本編寫的通用規(guī)律,所以在研究過程中只需要關(guān)注重點詞匯就可以了,低頻率的詞匯可以忽略.
二元詞組鄰接分析[8]部分結(jié)果如表4所示,所有的二元詞對總數(shù)只有17314.這種文本分析對研究預(yù)報員的文本寫作習慣是非常有效的.
結(jié)合上述詞頻統(tǒng)計結(jié)果和二元詞組鄰接分析結(jié)果,歸納出氣象預(yù)報文本必須包含的信息:模板規(guī)則和變量詞匯,其中變量詞匯包括氣象變量和地理區(qū)域變量,兩類變量通常是同時出現(xiàn)的,氣象變量主要是指描述各類氣象要素的專業(yè)氣象詞匯,比如“霧霾”“雷暴”“強對流”等詞匯,地理變量信息是描述天氣所在位置的地理區(qū)域,可以將全國分為四個等級來逐步縮小天氣的描述范圍,如“華北地區(qū)”“華北東部”來使天氣范圍更為精準.這類變量名詞均是可數(shù)且有限,指代(天氣、地理區(qū)域)明確的.
2.2 句子模板庫的構(gòu)建
經(jīng)過上述對文本的變量詞匯和模板規(guī)則的提取,可以建立相應(yīng)的短句模板和氣象變量詞匯文本庫[9],描述天氣情況的句子主要是由這兩部分組成.
為每種氣象類型分別建立句子模板庫,其中中括號[]內(nèi)部的信息表示必填變量,如時間、地點、氣象等級等;大括號{}內(nèi)部信息為選填項,根據(jù)氣象等級的不同選擇是否出現(xiàn).以下為氣溫預(yù)報模板示例:
“[時間],[地點]氣溫將{上升/下降}{度數(shù)}℃,其中{地區(qū)}{局部地區(qū)}{上升/下降}溫度可達{度數(shù)}℃”
QGIS模塊將處理后得到的氣象變量信息保存在一張附帶屬性表的shp文件中,通過空間分析技術(shù)確定每一氣象類型對應(yīng)的具體地理區(qū)域,最后系統(tǒng)會從不同類別的子庫中選擇合適的句子進行描述.將合適的氣象信息填入句子模板的過程就是一個簡單的“填槽”過程[10].例如在預(yù)報氣溫時,可以由上述模型獲得溫度變化較大的地區(qū)的地理名稱以及具體的溫差數(shù)據(jù),即“山東省北部、河北省大部、江南大部分地區(qū)、西北北部地區(qū)”,將其填入[地點]處地點對應(yīng)的位置可得:
“20日8時,山東省北部、河北省大部、江南大部分地區(qū)、西北北部地區(qū)氣溫將上升4~8℃,其中,河北省大部、江南大部分地區(qū)局部地區(qū)上升溫度可達10~12℃”
2.3 算法過程
根據(jù)上述模型,對原始氣象數(shù)據(jù)進行空間計算,并利用自然語言處理技術(shù)構(gòu)建氣象預(yù)報文本的模板庫,實現(xiàn)一套氣象預(yù)報文本實時生成系統(tǒng).系統(tǒng)框架如圖3所示.
3 實驗結(jié)果及分析
實驗采用的氣象數(shù)據(jù)來自中國氣象局,包括氣溫、降雨、降雪等普通氣象類型以及霾預(yù)警、臺風預(yù)警、暴雨預(yù)警等各種預(yù)警類型,類別范圍廣且具有代表性.實驗結(jié)果分為以下兩種評價方式,邀請三位中國氣象局專業(yè)人員進行評價:
(1)對系統(tǒng)生成的各氣象類型預(yù)報文本分別進行人工評級,從準確性和通順性兩個角度,評價等級分為五級:很好、好、一般、不好、差,其中準確性是指文本中的氣象類型、氣象數(shù)值、地理變量等是否與原始氣象數(shù)據(jù)所表達的一致;通順性是指文本用詞、語句是否符合氣象預(yù)報的規(guī)范;統(tǒng)計五個等級下有多少篇對應(yīng)的預(yù)報文本,規(guī)定一般及以上等級為合格,并計算合格率.
(2)對系統(tǒng)生成的200篇氣象預(yù)報文本與對應(yīng)的歷史文本(由人工生成)進行相似性比對,分為:很好、好、一般、不好、差五個等級,并統(tǒng)計合格率.
3.1 各氣象類型的預(yù)報文本實時生成實驗分析
以降水預(yù)報實驗結(jié)果為例,降水預(yù)報的輸出結(jié)果如下:
請輸入要測試的數(shù)據(jù)類型(1,3,4,7,14,lwfd):14
正在處理第十四種類型的數(shù)據(jù)...
正在處理暴雨模塊...
Handel micaps14......
正在與第一級別行政區(qū)劃疊加..................
0...10...20...30...40...50...60...70...80...90...100 - done.
與一級行政區(qū)劃疊加后返回值(0表示正常):0
將與一級行政區(qū)劃的結(jié)果圖層寫入磁盤shp文件的處理結(jié)果(0表示成功):0
正在與第二級別行政區(qū)劃疊加..................
0...10...20...30...40...50...60...70...80...90...100 - done.
與二級行政區(qū)劃疊加后返回值(0表示正常):0
將與二級行政區(qū)劃的結(jié)果圖層寫入磁盤shp文件的處理結(jié)果(0表示成功):0
江南中部、貴州東南部等地大部地區(qū),廣東、江蘇、福建西北部等地部分地區(qū)有大雨,安徽、廣西、湖南、江西、浙江、廣東西北部、湖北東部等地部分地區(qū)有暴雨,其中安徽南部、廣西東北部、湖南南部、江西北部等地部分地區(qū)有大暴雨.
暴雨預(yù)警:? ?3,4,14,lwfd
強對流天氣預(yù)警:1,3,4,14,lwfd
沙塵暴預(yù)警:? 4,14
海上大風預(yù)警: 3,4,14
寒潮預(yù)警:? ?1,3,4,14
暴雪預(yù)警:? ?1,3,4,14
霾預(yù)警:? ? 1,3,4,14,lwfd
高溫預(yù)警:? ?1,3,4,14,lwfd
臺風預(yù)警:? ?7
退出程序:? ?0
氣象人員對該結(jié)果進行打分如表5所示:
可以看出,系統(tǒng)本次生成降水預(yù)報文本的準確性好,通順性很好.
此外,隨機抽取100份原始降水數(shù)據(jù)進行處理,由系統(tǒng)自動生成100篇降水預(yù)報文本,邀請中國氣象局三位氣象專業(yè)人員分別針對文本的準確性和通順性進行評級,準確性、通順性結(jié)果如表6、表7所示.
可以看出,對于降水數(shù)據(jù),系統(tǒng)自動生成的預(yù)報文本準確性在80%以上,通順性可達90%(均取最低值).
分別對每一種氣象類型的準確性和通順性進行打分,部分匯總結(jié)果如表8所示.
通過實驗可以看出,此系統(tǒng)生成的氣象預(yù)報文本的準確性都在71%以上,通順性都在85%以上.
3.2 實證比對分析
目前系統(tǒng)支持各類天氣的實況預(yù)報和災(zāi)害天氣預(yù)警,為了驗證其輸出的準確性,隨機選取2015年5月28日發(fā)布的全國降水預(yù)報原始數(shù)據(jù)做為輸入,本系統(tǒng)輸出的氣象預(yù)報文本如下:
28日08時至29日08時,江南中東部、華南、新疆西部、四川省、西寧、黑龍江西北部等地有中到大雨,其中,華南地區(qū)北部和南部沿海、江西中部和東北部、浙江西部和北部、安徽南部等地的部分地區(qū)有暴雨,廣東北部、廣西東北部等地局地有大暴雨(100~130毫米).新疆地區(qū)、內(nèi)蒙古中東部、華北北部、東北地區(qū)南部等地有4~6級風.新疆地區(qū)等地的部分地區(qū)有揚沙或浮塵.東海南部海域、臺灣海峽、臺灣以東有5~7級、陣風8級的西南風,南海大部海域、北部灣有5~6級、陣風7級的西南或偏南風.
當天中央氣象臺發(fā)布的氣象預(yù)報文本如下:
28日08時至29日08時,江南中東部、華南、新疆伊犁河谷、川西高原北部、黑龍江西北部等地有中到大雨,其中,華南北部和南部沿海、江西中部和東北部、浙江西部和北部、安徽南部等地的部分地區(qū)有暴雨,廣東北部、廣西東北部等地局地有大暴雨(100~130毫米).新疆、內(nèi)蒙古中東部、華北北部、東北地區(qū)南部等地有4~6級風.新疆南疆盆地等地的部分地區(qū)有揚沙或浮塵.東海南部海域、臺灣海峽、臺灣以東洋面有5~7級、陣風8級的西南風,南海大部海域、北部灣有5~6級、陣風7級的西南或偏南風.
從2015-2017年的氣象預(yù)報文本數(shù)據(jù)庫中,隨機抽取200篇天氣預(yù)報(這些文本是預(yù)報員手工寫的)以及其相對應(yīng)的原始氣象數(shù)據(jù)(矩陣格式),同時用該系統(tǒng)調(diào)用這200份原始氣象數(shù)據(jù)進行分析,生成相應(yīng)的天氣預(yù)報文本.
氣象專業(yè)人員的打分原則是系統(tǒng)生成的文本能否準確并簡練的描述當日氣象信息.專家打分的結(jié)果經(jīng)過統(tǒng)計,如表9所示,證明了系統(tǒng)自動生成的氣象預(yù)報文本易讀、可用性較高.
由表9可知,最后三人打分的合格率分別為89.0%、85.5%和84.0%,由此可見,系統(tǒng)預(yù)報的結(jié)果能夠比較好地描述氣象信息,基于空間分析的方法也有足夠的可行性.
4 結(jié)束語
本文利用自然語言處理技術(shù)分析海量歷史氣象文本,抽取其中的語法、用詞規(guī)律,針對每一種天氣類型建立對應(yīng)的預(yù)報文本模板;另外利用QGIS技術(shù)對原始氣象數(shù)據(jù)進行解析,提取空間信息,并建立了一套完備的空間推理規(guī)律,最后通過模式匹配、文本生成并優(yōu)化來生成實時的氣象預(yù)報文本.目前,已證實了系統(tǒng)的準確性、實時性和實用性.但是,中國氣象局發(fā)布的氣象預(yù)報種類繁多,也就是說,本文所研究的系統(tǒng)僅僅是一個開始,在氣象領(lǐng)域的文本自動生成技術(shù)還有很多可發(fā)展空間,屆時會需要更多的空間推理方法作為支撐,這也是后續(xù)的研究方向.
參考文獻:
〔1〕趙汝冰,肖如林,萬華偉,等.錫林郭勒盟草地變化監(jiān)測及驅(qū)動力分析[J].中國環(huán)境科學,2017,37(12):4734-4743.
〔2〕劉彬.氣象GIS空間數(shù)據(jù)集成組織與系統(tǒng)原型設(shè)計[D].南京:南京信息工程大學,2017.
〔3〕吳煥萍,呂終亮,張華平,等.氣象落區(qū)文本自動生成研究[J].計算機工程與應(yīng)用,2014(13):247-266.
〔4〕李濤,馮仲科,孫素芬,等.基于Hadoop的氣象大數(shù)據(jù)分析GIS平臺設(shè)計與試驗[J].農(nóng)業(yè)機械學報,2019,50(1):180-188.
〔5〕DUFFY D Q, SCHANSE J L, THOMPSON J H, et al. Preliminary evaluation of MapReduce for high-performance climate data analysis [EB/OL]. [2016-04-08]. https://ntrs.nasa.gov/archive/nasa/casi.ntrs.nasa.gov/2012009187.pdf.
〔6〕Huang Hongzhao,Larry H,Ji Heng. Leveraging deep neural networks and knowledge graphs for entity disambiguation [DB/OL].Ithaca:ArXiv,[2015-04-28]. Https://arxiv.org/pdf/1504.07678v1.pdf.
〔7〕Berg-KirkpatrickT, Gillick D, Klein D. Jointly learning to extract and compress[C]. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:? ?Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011:481-490.
〔8〕Galanis D, Androutsopoulos I. An extractive supervised two-stage method for sentence compression[C]. Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 885-893.
〔9〕張紅斌,殷依,姬東鴻,等.基于詞序列拼積木模型的圖像句子標注研究[J].北京理工大學學報,2017,37(11):1144-1149.
〔10〕李東陽.基于模板匹配的交通領(lǐng)域標準信息抽取技術(shù)[D].西安:長安大學,2019.