• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于ElasticSearch的氣象大數(shù)據(jù)原型系統(tǒng)*

      2019-03-12 03:41:04鄧鳳東
      中低緯山地氣象 2019年1期
      關(guān)鍵詞:原型氣象系統(tǒng)

      何 林,鄧鳳東,曹 波,王 壘,高 宇

      (陜西省氣象信息中心,陜西 西安 710014)

      1 引言

      隨著氣象觀測水平的不斷提高,氣象數(shù)據(jù)種類、頻次都大幅增加,氣象數(shù)據(jù)與其他行業(yè)數(shù)據(jù)融合,外延不斷增加,基本已形成大數(shù)據(jù)規(guī)模。據(jù)國家氣象信息中心的調(diào)研分析,當前與氣象相關(guān)的數(shù)據(jù)資源累計約2 310種,國家級、省級存有的各類氣象數(shù)據(jù)總量約26 PB,僅2016年數(shù)據(jù)增量就超過1.8PB[1]。氣象數(shù)據(jù)蘊含著豐富的應用和研究價值,已被業(yè)界普遍認可。氣象數(shù)據(jù)一般可分為結(jié)構(gòu)化、非結(jié)構(gòu)、半結(jié)構(gòu)數(shù)據(jù)三大類[2]。在眾多種類的氣象數(shù)據(jù)中,存儲于關(guān)系型數(shù)據(jù)庫中的結(jié)構(gòu)化觀測資料的使用最為廣泛,例如通過對長時間序列的實況監(jiān)測資料進行統(tǒng)計分析,以歷史上相似天氣現(xiàn)象所發(fā)生的天氣或氣候變化的概率為依據(jù),開展氣候預測業(yè)務的經(jīng)典方法等[3]。

      本文以解決傳統(tǒng)氣象業(yè)務應用中,結(jié)構(gòu)化數(shù)據(jù)檢索和統(tǒng)計分析效率較低的痛點問題為切入點,選用ElasticSearch全文搜索引擎工具(簡稱ES),搭建一個氣象大數(shù)據(jù)原型系統(tǒng)。該系統(tǒng)從全國綜合氣象信息共享平臺(China Integrated Meteorological Information Service System,CIMISS系統(tǒng))接入數(shù)據(jù),涵蓋了氣象數(shù)據(jù)的匯聚采集、加工處理、存儲管理、應用服務等全部業(yè)務流程[4],并開放標準化的數(shù)據(jù)訪問接口,以支持氣象應用系統(tǒng)的對接。通過設(shè)計并實現(xiàn)原型系統(tǒng)、采集并存儲真實的業(yè)務數(shù)據(jù)、選取典型用例進行對比測試等過程,驗證了原型系統(tǒng)的合理性和可操作性,為未來探索氣象行業(yè)大數(shù)據(jù)+互聯(lián)網(wǎng)大數(shù)據(jù)的分析應用準備了數(shù)據(jù)平臺,并奠定了理論和實踐基礎(chǔ)。

      2 系統(tǒng)架構(gòu)

      氣象大數(shù)據(jù)原型系統(tǒng)分為四層,系統(tǒng)架構(gòu)如圖1所示。

      圖1 氣象大數(shù)據(jù)原型系統(tǒng)整體架構(gòu)Fig.1 The Overall Architecture Meteorological Big Data Prototype System

      基礎(chǔ)設(shè)施層主要是搭建原型系統(tǒng)所需的服務器、存儲陣列及網(wǎng)絡設(shè)備等,采用集群方式搭建,計算節(jié)點及存儲空間可線性擴展。數(shù)據(jù)平臺層為整個原型系統(tǒng)的核心,數(shù)據(jù)來源為國省統(tǒng)一的CIMISS數(shù)據(jù)環(huán)境。基于CIMISS提供的數(shù)據(jù)接口采集和同步數(shù)據(jù)[5],同時進行必要的加工處理,將原始數(shù)據(jù)及算法加工處理生成的產(chǎn)品存儲于Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,簡稱HDFS)及ElasticSearch分布式數(shù)據(jù)庫。數(shù)據(jù)服務層通過對ES提供的接口進行封裝,形成JAVA、RESTful和類SQL語句三種數(shù)據(jù)調(diào)用和訪問方式。業(yè)務應用層將各類應用場景轉(zhuǎn)換為三大類,包括數(shù)據(jù)檢索、統(tǒng)計分析、數(shù)據(jù)可視化展示??蓾M足歷史同期分析、長時間序列數(shù)據(jù)下載等業(yè)務應用場景的基本需求,并支持對平臺存儲的各類數(shù)據(jù)和產(chǎn)品進行可視化展示。

      本文的原型系統(tǒng)以中國地面逐小時觀測資料為研究對象。該資料時序較長,且保存相對完整,經(jīng)粗略統(tǒng)計,從1951年至今,全國地面觀測站,包括國家站和區(qū)域站,總存儲的逐時觀測數(shù)據(jù)記錄數(shù)逾30億條,規(guī)模較大。在此數(shù)據(jù)的基礎(chǔ)上,可通過算法加工,衍生得到日、候、旬、月、季、年及30 a整編等不同尺度的統(tǒng)計產(chǎn)品[6],具有較高的實用價值。另一方面,CIMISS系統(tǒng)設(shè)計時,該數(shù)據(jù)存儲于單表中,在使用時存在明顯瓶頸,大數(shù)據(jù)量檢索和統(tǒng)計分析耗時較長,在應用方面具有較大的優(yōu)化空間。

      3 關(guān)鍵技術(shù)

      3.1 數(shù)據(jù)采集

      氣象大數(shù)據(jù)原型系統(tǒng)的數(shù)據(jù)采集模塊通過調(diào)用氣象數(shù)據(jù)統(tǒng)一服務接口(Meteorological Unified Service Interface Community,簡稱MUSIC)實現(xiàn)。MUSIC基于國省統(tǒng)一的CIMISS數(shù)據(jù)環(huán)境,面向氣象業(yè)務和科研,提供了統(tǒng)一、標準、豐富、具有多種調(diào)用形式的數(shù)據(jù)訪問服務和應用編程接口,為各級應用系統(tǒng)提供直接支撐的數(shù)據(jù)接入服務[7]。調(diào)用MUSIC的JAVA API接口,研發(fā)數(shù)據(jù)ETL(抽取、轉(zhuǎn)換、加載)工具,實現(xiàn)將中國地面逐小時數(shù)據(jù)(資料編碼為SURF_CHN_MUL_HOR)采集并同步到大數(shù)據(jù)原型系統(tǒng)對應的數(shù)據(jù)表中。

      數(shù)據(jù)采集分為歷史數(shù)據(jù)導入和實時數(shù)據(jù)同步兩大類。歷史數(shù)據(jù)導入為一次性運行的腳本,使用按時間段檢索地面數(shù)據(jù)要素接口,由于該接口的單次數(shù)據(jù)訪問時限為3 d,因此需循環(huán)檢索數(shù)據(jù),再導入目標表[8]。實時數(shù)據(jù)同步可復用歷史數(shù)據(jù)導入的接口,設(shè)置時間段參數(shù)為上次結(jié)束同步時間到當前時間,并配置定時執(zhí)行策略。由于CIMISS中,當前時次整點數(shù)據(jù)的入庫呈現(xiàn)類指數(shù)方式的增長,為保證數(shù)據(jù)時效,實時同步程序定時執(zhí)行策略為每時次的01、02、03、05、07、10、30、59分。數(shù)據(jù)采集模塊詳細設(shè)計參數(shù)見表1。

      表1 大數(shù)據(jù)原型系統(tǒng)數(shù)據(jù)采集模塊設(shè)計參數(shù)Tab.1 The Design Parameters of Data Acquisition Module in the Big Data Prototype System

      注:數(shù)據(jù)來源為中國地面逐小時資料,接口為按時間段檢索地面數(shù)據(jù)要素。

      3.2 數(shù)據(jù)處理

      在數(shù)據(jù)處理模塊,主要是對導入的原始數(shù)據(jù)進行清洗、更新以及二次加工等操作。數(shù)據(jù)清洗主要是針對中國地面逐小時觀測數(shù)據(jù)中的一些異常值和無效值進行剔除,例如在出現(xiàn)自動氣象站設(shè)備之前,主要依靠每日定時的人工觀測,非人工觀測時段的數(shù)據(jù)即為無效值,可按需剔除。本次原型系統(tǒng)搭建,為保證數(shù)據(jù)規(guī)模,對該類數(shù)據(jù)予以保留。數(shù)據(jù)更新主要是對更正報文導致的數(shù)據(jù)記錄進行處理,本次原型系統(tǒng)搭建,當出現(xiàn)同一站號相同觀測數(shù)據(jù)記錄時,采用刪除舊記錄,插入新記錄的策略進行數(shù)據(jù)更新。數(shù)據(jù)二次加工可通過部署一些算法實現(xiàn)數(shù)據(jù)的實時處理并生成相應產(chǎn)品。例如,實時監(jiān)測數(shù)據(jù)完整性,當完整性達到設(shè)定的閾值后,啟動日值統(tǒng)計算法,并將生成的日數(shù)據(jù)產(chǎn)品存儲于相應的產(chǎn)品表或文件系統(tǒng)。

      3.3 數(shù)據(jù)存儲

      大數(shù)據(jù)的存取面臨存儲容量和存取速度兩方面的問題[9],因此存儲選型設(shè)計是大數(shù)據(jù)原型系統(tǒng)的核心。本文搭建的原型系統(tǒng)選用ElasticSearch智能化全文搜索引擎,特別適用于快速地儲存、搜索和分析海量數(shù)據(jù)的應用場景。

      ES本質(zhì)上是一個分布式數(shù)據(jù)庫,允許多臺服務器協(xié)同工作,每臺服務器可以運行多個ES實例。單個ES實例稱為一個節(jié)點,一組節(jié)點構(gòu)成一個集群,ES采用無中心化的集群設(shè)計方式,將多個分片均衡地分布在集群的所有可用節(jié)點上[10],不會因某個節(jié)點的故障而導致整個集群崩潰。ES在存儲數(shù)據(jù)時會索引所有字段,經(jīng)過處理后寫入一個反向索引。查找數(shù)據(jù)時,直接查找該索引,從而提高查詢速度。索引類似于傳統(tǒng)關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)庫,數(shù)據(jù)表即索引類型,索引的單條記錄稱為 Document(文檔),一般用JSON格式進行表示。同一個索引里面的文檔,不要求有相同的結(jié)構(gòu),但是最好保持相同,這樣有利于提高搜索效率,這與NoSql數(shù)據(jù)庫的特點非常類似。

      以中國地面逐小時觀測數(shù)據(jù)為例,將CIMISS中存儲的中國地面逐小時資料的211個字段(含質(zhì)控碼字段)全部進行同步,ES文檔的屬性與CIMISS表結(jié)構(gòu)的字段一一對應,插入ES文檔時,自動進行了全字段索引。同時,為增強可靠性,對所有數(shù)據(jù)要素進行雙副本存儲,某索引分片失效時可啟用副本及時恢復。隨著數(shù)據(jù)量的增長,單個索引量非常大時可適當?shù)卦黾庸?jié)點,ES通過自動發(fā)現(xiàn)節(jié)點機制,重新分片和索引數(shù)據(jù)[11]。類似關(guān)系型數(shù)據(jù)庫中的垂直拆分、水平拆分等分片策略,將逐小時觀測數(shù)據(jù)打散在不同的節(jié)點上。

      3.4 數(shù)據(jù)接口

      ES本身提供了RESTful風格的應用編程接口,包括PUT、GET、DELETE等方法,實現(xiàn)對文檔的添加、更新、查詢、刪除等基本操作。為使上層應用接入時可選用更多樣的數(shù)據(jù)調(diào)用方式,大數(shù)據(jù)原型系統(tǒng)對ES接口進行封裝,實現(xiàn)了JAVA API、RESTful和類SQL語句3種數(shù)據(jù)服務接口。以下代碼示例了使用類SQL語句接口,實現(xiàn)“查詢2009年11月11日,陜西省平均最高氣溫<0 ℃的所有氣象站點列表”。

      Search surf_wea_chn_mul_hor_tab* where PROVINCE ='陜西'and D_DATETIME>"2009-11-11 00∶00∶00" and D_DATETIME<"2009-11-11 23∶00∶00" | avg(V12011) as s group by (V04001,V01301,CNAME ) MAP t | SQL "select CNAME as 站點,s as 平均最高氣溫 from t where s<0"

      4 應用場景對比測試

      基于ElasticSearch的氣象大數(shù)據(jù)原型系統(tǒng)在陜西省氣象局進行了測試。使用5臺服務器,4塊固態(tài)硬盤搭建集群,基于ES搜索引擎和Spark架構(gòu),提供實時檢索、交互式統(tǒng)計分析、數(shù)據(jù)挖掘等計算能力。通過與CIMISS系統(tǒng)對接,原型系統(tǒng)共采集了近13億條中國地面逐小時觀測數(shù)據(jù)記錄,并進行雙副本存儲和全表索引。圖2為氣象大數(shù)據(jù)原型系統(tǒng)數(shù)據(jù)采集和索引構(gòu)建概覽界面的截圖,通過安裝ES-head插件實現(xiàn)。展示了ElasticSearch集群的配置環(huán)境信息,同時,記錄了以年為單位的數(shù)據(jù)分片及數(shù)據(jù)量的大小。

      選取了5個典型應用場景對氣象大數(shù)據(jù)原型系統(tǒng)的數(shù)據(jù)檢索和統(tǒng)計分析能力進行了測試,應用場景清單見表2,包括業(yè)務中常用的、較有代表性的多并發(fā)數(shù)據(jù)檢索、歷史數(shù)據(jù)排名、歷史同期分析等應用。經(jīng)過測試,同等條件下,CIMISS系統(tǒng)中響應較慢的長時間序列數(shù)據(jù)檢索和統(tǒng)計分析等接口,在大數(shù)據(jù)原型系統(tǒng)中基本都可以達到秒級響應。圖3為針對相同應用場景,CIMISS和基于ES的大數(shù)據(jù)原型系統(tǒng)分別在10、50、100、200等遞增的不同數(shù)量并發(fā)請求時,響應速度的對比圖。縱向比較,隨著并發(fā)數(shù)的增加,CIMISS系統(tǒng)響應時間也成倍提升,最高平均耗時超過3 s,而大數(shù)據(jù)原型系統(tǒng)的響應時間沒有發(fā)生明顯波動,始終保持在毫秒級。橫向比較,在并發(fā)數(shù)較少的情況下,兩個系統(tǒng)響應時間的差距并不大,而在并發(fā)量激增時,基于ES的大數(shù)據(jù)原型系統(tǒng)的性能則明顯優(yōu)于基于Oracle-RAC的CIMISS系統(tǒng)。

      圖2 氣象大數(shù)據(jù)原型系統(tǒng)數(shù)據(jù)采集和索引構(gòu)建界面 Fig.2 The Data Acquisition and Index Construction Interface in the Meteorological Big Data Prototype System

      序號應用場景描述測試結(jié)果1陜西省國家站小時數(shù)據(jù)氣溫要素多并發(fā)查詢1 000并發(fā),平均響應時間822 ms2陜西省所有地面觀測站點歷史汛期總降水量排名TOP20共5次測試,平均用時583.2 ms3陜西省日降水量超過閾值的日期和站點分析共5次測試,平均用時377.8 ms4指定站點歷年汛期日降水量超過閾值的天數(shù)統(tǒng)計共5次測試,平均用時282.4 ms5陜西11月11日最高溫度歷史同期排名共5次測試,平均用時1 182 ms

      圖3 CIMISS系統(tǒng)和基于ES的氣象大數(shù)據(jù)原型系統(tǒng)平均響應速度(ms)對比Fig.3 The Comparison of Average Response Speed (milliseconds) between CIMISS System and ES-based Meteorological Big Data Prototype System

      使用氣象大數(shù)據(jù)原型系統(tǒng)的RESTful接口,對“陜西省氣象數(shù)據(jù)共享網(wǎng)”應用系統(tǒng)[12]進行了數(shù)據(jù)接入改造。優(yōu)化后的數(shù)據(jù)共享網(wǎng)進行數(shù)據(jù)查詢時,效率更高,此前較為卡頓的統(tǒng)計分析等模塊響應速度明顯增快,業(yè)務系統(tǒng)的用戶體驗得到了很大改進。

      5 結(jié)論與展望

      通過對最具代表性的中國地面逐小時觀測資料相關(guān)應用場景的測試,表明基于ES的氣象大數(shù)據(jù)原型系統(tǒng)在結(jié)構(gòu)化數(shù)據(jù)的檢索和統(tǒng)計方面,尤其是多并發(fā)訪問的情況下,相比CIMISS數(shù)據(jù)服務接口,響應時間性能提升明顯。但由于測試范圍有限,還難以將該原型系統(tǒng)用于業(yè)務生產(chǎn)環(huán)境,未來可繼續(xù)在以下兩個方面展開研究:

      ①選取典型的非結(jié)構(gòu)化數(shù)據(jù),如雷達或衛(wèi)星資料等,在大數(shù)據(jù)原型系統(tǒng)中存儲,并選取應用場景進行性能優(yōu)化測試;

      ②將ES開放接口和CIMISS數(shù)據(jù)服務接口直接對接,通過接口網(wǎng)關(guān)實現(xiàn)數(shù)據(jù)源跳轉(zhuǎn),在保證數(shù)據(jù)同步時效和對用戶透明的前提下,實現(xiàn)原型系統(tǒng)到生產(chǎn)環(huán)境的平穩(wěn)過渡。

      猜你喜歡
      原型氣象系統(tǒng)
      氣象
      Smartflower POP 一體式光伏系統(tǒng)
      氣象樹
      《內(nèi)蒙古氣象》征稿簡則
      WJ-700無人機系統(tǒng)
      包裹的一切
      ZC系列無人機遙感系統(tǒng)
      北京測繪(2020年12期)2020-12-29 01:33:58
      《哈姆雷特》的《圣經(jīng)》敘事原型考證
      大國氣象
      連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
      丰都县| 赤峰市| 青冈县| 巴楚县| 康乐县| 青冈县| 达拉特旗| 庆阳市| 海门市| 阜阳市| 县级市| 长宁区| 门头沟区| 封丘县| 南川市| 龙里县| 岳普湖县| 遂川县| 都兰县| 鄄城县| 奉贤区| 长葛市| 南和县| 凤凰县| 麻栗坡县| 子洲县| 邮箱| 海城市| 大渡口区| 定日县| 金阳县| 唐山市| 赣榆县| 永济市| 突泉县| 钦州市| 金湖县| 汝阳县| 蒙山县| 黄梅县| 永济市|