摘" 要: 隨著氣象大數(shù)據(jù)的快速發(fā)展和山東數(shù)字強(qiáng)省建設(shè)的深入推進(jìn),氣象數(shù)據(jù)在地方政府的發(fā)展和決策制定中發(fā)揮著越來越重要的作用。為了滿足政府?dāng)?shù)據(jù)應(yīng)用的需求,提出一種基于氣象大數(shù)據(jù)云平臺(tái)的高效、安全、可靠的數(shù)據(jù)同步方案,以實(shí)現(xiàn)政務(wù)區(qū)的數(shù)據(jù)同步,提升氣象數(shù)據(jù)服務(wù)能力和信息化水平。依據(jù)氣象數(shù)據(jù)的類型和特點(diǎn),將其劃分為一般結(jié)構(gòu)化數(shù)據(jù)、特色結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)三類,針對(duì)每類數(shù)據(jù)提出了相應(yīng)的同步技術(shù)方案,構(gòu)建了針對(duì)政務(wù)區(qū)數(shù)據(jù)同步的綜合解決方案,并以山東省氣象數(shù)據(jù)為例進(jìn)行了實(shí)驗(yàn)分析。結(jié)果表明,所提方案具備高度可行性、有效性和安全性,可為政府決策提供強(qiáng)有力的數(shù)據(jù)支撐。
關(guān)鍵詞: 氣象大數(shù)據(jù)云平臺(tái); 數(shù)據(jù)同步; 政務(wù)DMZ區(qū); Binlog日志同步技術(shù); ETL同步技術(shù); 消息路由技術(shù)
中圖分類號(hào): TN919.3+4?34; TP311" " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " "文章編號(hào): 1004?373X(2024)10?0096?05
Research on data synchronization technology in government affairs network zone
based on meteorological big data cloud platform
Abstract: With the rapid development of meteorological big data and the deepening of Shandong's digital strong province construction, meteorological data plays an increasingly important role in the development and decision?making of local governments. In order to meet the demands of government data applications, an efficient, secure, and reliable data synchronization solution based on the meteorological big data cloud platform is proposed to realize the data synchronization in government zone, thereby enhancing meteorological data service capabilities and the level of informatization. Based on its types and characteristics, the meteorological data is divided into three categories: general structured data, distinctive structured data, and unstructured data, and corresponding synchronization techniques for the each category is proposed. A comprehensive solution for government zone data synchronization is constructed, and the experimental analysis is conducted by using Shandong province's meteorological data as an example. The results show that this solution is highly feasible, effective and secure, which can provide the robust data support for the government decision?making.
Keywords: meteorological big data cloud platform; data synchronization; government affairs DMZ; Binlog log synchronization technology; ETL synchronization technology; message routing technology
0" 引" 言
隨著云計(jì)算和大數(shù)據(jù)技術(shù)的迅猛發(fā)展,政府對(duì)于數(shù)據(jù)應(yīng)用的需求不斷增加。氣象數(shù)據(jù)對(duì)社會(huì)生產(chǎn)和生活有巨大影響,是政府決策的重要參考[1]。因此,氣象部門肩負(fù)著將數(shù)據(jù)融入山東數(shù)字強(qiáng)省建設(shè),為山東高質(zhì)量發(fā)展做出貢獻(xiàn)的重要責(zé)任。目前,山東省已建成覆蓋各地市和各部門的電子政務(wù)網(wǎng),省級(jí)及各地市的大數(shù)據(jù)中心對(duì)于氣象數(shù)據(jù)有著迫切需要[2?4]。省級(jí)氣象部門擁有全省最及時(shí)、最可靠的氣象觀測(cè)數(shù)據(jù)和預(yù)報(bào)預(yù)警數(shù)據(jù),然而,各地市、各部門對(duì)氣象數(shù)據(jù)的需求不同,并且這些數(shù)據(jù)存儲(chǔ)在氣象專網(wǎng)中,實(shí)現(xiàn)全省政務(wù)區(qū)氣象數(shù)據(jù)的同步和統(tǒng)一共享,成為一項(xiàng)具有挑戰(zhàn)性的任務(wù)。
為了加強(qiáng)與政府其他部門的數(shù)據(jù)通信,山東省氣象局建設(shè)了政務(wù)DMZ(Demilitarized Zone)區(qū),作為氣象專網(wǎng)和政務(wù)外網(wǎng)之間的緩沖區(qū),負(fù)責(zé)管理和保護(hù)氣象政務(wù)數(shù)據(jù)的安全[5]。因此,研究基于氣象大數(shù)據(jù)云平臺(tái)的政務(wù)區(qū)數(shù)據(jù)同步技術(shù)具有重要的實(shí)際意義和應(yīng)用價(jià)值。本文旨在設(shè)計(jì)一種高效、安全、可靠的基于氣象大數(shù)據(jù)云平臺(tái)的政務(wù)區(qū)數(shù)據(jù)同步方案,以提升氣象數(shù)據(jù)服務(wù)能力和信息化水平。
1" 相關(guān)概念介紹
1.1" 政務(wù)DMZ區(qū)概述
政務(wù)DMZ區(qū)是指政府機(jī)構(gòu)在其內(nèi)部網(wǎng)絡(luò)系統(tǒng)與外部網(wǎng)絡(luò)系統(tǒng)之間建立的一個(gè)緩沖和安全保護(hù)區(qū)域。它的主要功能是在保護(hù)政府的內(nèi)部網(wǎng)絡(luò)系統(tǒng)不受外部隱患侵害的同時(shí),實(shí)現(xiàn)內(nèi)部系統(tǒng)與外部系統(tǒng)的安全溝通和數(shù)據(jù)交換。政務(wù)DMZ區(qū)通常由防火墻、安全網(wǎng)關(guān)、入侵檢測(cè)系統(tǒng)等組成,旨在提供一種安全可靠的網(wǎng)絡(luò)環(huán)境,有效保護(hù)政務(wù)數(shù)據(jù)的機(jī)密性、完整性和可用性[6]。
在政務(wù)DMZ區(qū)中,數(shù)據(jù)同步和管理是一個(gè)重要的問題。政府機(jī)構(gòu)擁有巨量的數(shù)據(jù),需要在內(nèi)外網(wǎng)之間進(jìn)行同步共享。數(shù)據(jù)同步意味著將數(shù)據(jù)從一個(gè)位置復(fù)制到另一個(gè)位置,以確保數(shù)據(jù)的一致性和實(shí)時(shí)性[7?8]。而政務(wù)DMZ區(qū)的數(shù)據(jù)管理涉及到數(shù)據(jù)的獲取、存儲(chǔ)、處理和傳輸?shù)确矫娴膯栴}。政務(wù)DMZ區(qū)的數(shù)據(jù)同步和管理面臨以下幾個(gè)主要挑戰(zhàn)和問題:
1) 由于政務(wù)數(shù)據(jù)的復(fù)雜性和多樣性,數(shù)據(jù)同步涉及到不同類型、不同格式的數(shù)據(jù),如何實(shí)現(xiàn)不同格式的數(shù)據(jù)同步,是一個(gè)關(guān)鍵的問題。
2) 數(shù)據(jù)同步需要考慮數(shù)據(jù)的一致性和完整性。在復(fù)制數(shù)據(jù)過程中,需要保證數(shù)據(jù)的準(zhǔn)確性,防止數(shù)據(jù)丟失、損壞或不一致的情況發(fā)生。
3) 政務(wù)DMZ區(qū)的數(shù)據(jù)管理需要考慮數(shù)據(jù)安全和權(quán)限控制的問題[9]。
4) 政務(wù)DMZ區(qū)還需要考慮數(shù)據(jù)的傳輸效率和延遲問題。
1.2" 氣象大數(shù)據(jù)云平臺(tái)
氣象大數(shù)據(jù)云平臺(tái)是基于云計(jì)算和大數(shù)據(jù)技術(shù)構(gòu)建的一個(gè)專門用于處理和存儲(chǔ)氣象數(shù)據(jù)的平臺(tái)[10]。它集成了各種氣象數(shù)據(jù)源,包括氣象觀測(cè)數(shù)據(jù)、衛(wèi)星遙感數(shù)據(jù)、數(shù)值模式數(shù)據(jù)等。通過氣象大數(shù)據(jù)云平臺(tái),用戶可以對(duì)氣象數(shù)據(jù)進(jìn)行存儲(chǔ)、處理、分析和共享,從而提供更準(zhǔn)確、全面的氣象信息和服務(wù)產(chǎn)品[11]。
氣象大數(shù)據(jù)云平臺(tái)主要由以下幾個(gè)部分構(gòu)成:
1) 解碼質(zhì)控模塊:負(fù)責(zé)接收各種氣象數(shù)據(jù),并將其轉(zhuǎn)化為適合云平臺(tái)處理的統(tǒng)一格式。
2) 存儲(chǔ)管理模塊:負(fù)責(zé)氣象數(shù)據(jù)的存儲(chǔ)和管理。氣象數(shù)據(jù)規(guī)模龐大,需要高可靠性和高擴(kuò)展性的存儲(chǔ)系統(tǒng)來滿足數(shù)據(jù)的長(zhǎng)期保存和快速檢索需求[12]。采用分布式存儲(chǔ)技術(shù),可將數(shù)據(jù)存儲(chǔ)在多個(gè)節(jié)點(diǎn)上,提高數(shù)據(jù)的可用性和性能[13?15]。
3) 數(shù)據(jù)加工模塊:負(fù)責(zé)對(duì)氣象數(shù)據(jù)進(jìn)行處理和分析。該模塊提供算力資源,用戶利用各種大數(shù)據(jù)處理技術(shù)和算法,對(duì)氣象數(shù)據(jù)進(jìn)行清洗、過濾、挖掘和模型建立等操作,加工出各種氣象數(shù)據(jù)產(chǎn)品。
4) 數(shù)據(jù)服務(wù)模塊:負(fù)責(zé)為用戶提供數(shù)據(jù)共享和服務(wù)接口。通過這個(gè)模塊,用戶可以訪問平臺(tái)上存儲(chǔ)的氣象數(shù)據(jù),獲取特定的數(shù)據(jù)產(chǎn)品和服務(wù)。
2" 技術(shù)方案設(shè)計(jì)
基于氣象大數(shù)據(jù)云平臺(tái)的政務(wù)區(qū)數(shù)據(jù)同步技術(shù)設(shè)計(jì)旨在實(shí)現(xiàn)政務(wù)區(qū)的氣象數(shù)據(jù)與云平臺(tái)數(shù)據(jù)的及時(shí)同步和一致性保證。該設(shè)計(jì)基于增量同步和一致性保證的方法,確保政務(wù)區(qū)數(shù)據(jù)與云平臺(tái)數(shù)據(jù)的同步性和準(zhǔn)確性[16]。針對(duì)各種不同類型的氣象數(shù)據(jù),本文根據(jù)其類型特點(diǎn)將其劃分為一般結(jié)構(gòu)化數(shù)據(jù)、特色結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)三種,分別采用不同的同步技術(shù)。同時(shí),由于政務(wù)DMZ區(qū)只允許數(shù)據(jù)單向流動(dòng),因此三種數(shù)據(jù)同步服務(wù)均部署在氣象專網(wǎng)中。
2.1" 一般結(jié)構(gòu)化數(shù)據(jù)同步
一般結(jié)構(gòu)化數(shù)據(jù)通常為標(biāo)準(zhǔn)格式的氣象觀測(cè)數(shù)據(jù),對(duì)于該類數(shù)據(jù)采用數(shù)據(jù)庫日志同步技術(shù)。通過配置氣象大數(shù)據(jù)云平臺(tái)虛谷分布式數(shù)據(jù)庫的Binlog,使其生成并記錄Binlog日志。Binlog日志包含了數(shù)據(jù)庫的所有變更操作,如插入、更新和刪除等。利用開源的Binlog解析工具,通過JDBC技術(shù)連接到虛谷數(shù)據(jù)庫,并實(shí)時(shí)解析Binlog日志中的變更數(shù)據(jù)。以數(shù)據(jù)表為單位對(duì)解析后的變更數(shù)據(jù)進(jìn)行封裝,將每個(gè)數(shù)據(jù)表的變更事件封裝成獨(dú)立的消息,包括表名、變更類型(插入、更新或刪除)和變更數(shù)據(jù)的詳細(xì)信息。將封裝后的變更數(shù)據(jù)實(shí)時(shí)發(fā)送至Kafka消息集群服務(wù)中,數(shù)據(jù)寫入程序消費(fèi)隊(duì)列中的消息,將數(shù)據(jù)寫入政務(wù)區(qū)的虛谷數(shù)據(jù)庫中。
一般結(jié)構(gòu)化數(shù)據(jù)同步流程如圖1所示。
2.2" 特色結(jié)構(gòu)化數(shù)據(jù)同步
特色結(jié)構(gòu)化數(shù)據(jù)通常為本省特色數(shù)據(jù),由氣象大數(shù)據(jù)云平臺(tái)用戶參照氣象數(shù)據(jù)存儲(chǔ)規(guī)范生成并存儲(chǔ)于虛谷數(shù)據(jù)庫的專題庫中,對(duì)于該類數(shù)據(jù)采用ETL技術(shù)進(jìn)行同步。根據(jù)氣象數(shù)據(jù)存儲(chǔ)規(guī)范要求,特色數(shù)據(jù)中必須包含數(shù)據(jù)時(shí)間、數(shù)據(jù)到達(dá)時(shí)間和數(shù)據(jù)入庫時(shí)間等。為了保證數(shù)據(jù)同步的時(shí)效性,基于數(shù)據(jù)入庫時(shí)間可較為準(zhǔn)確地判定數(shù)據(jù)是否已完成入庫。采用虛谷OLEDB驅(qū)動(dòng)連接專題庫,讀取待同步數(shù)據(jù)表的表結(jié)構(gòu),并將其與讀取的指定時(shí)間范圍的表數(shù)據(jù)增量拼接成SQL插入語句,定時(shí)觸發(fā)任務(wù),將增量數(shù)據(jù)批量寫入政務(wù)區(qū)的虛谷數(shù)據(jù)庫。特色結(jié)構(gòu)化數(shù)據(jù)同步流程如圖2所示。
2.3" 非結(jié)構(gòu)化數(shù)據(jù)同步
非結(jié)構(gòu)化數(shù)據(jù)是指數(shù)值模式、遙感衛(wèi)星、服務(wù)產(chǎn)品和雷達(dá)數(shù)據(jù)等以文件形式存儲(chǔ)的數(shù)據(jù)。這類數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)庫只存儲(chǔ)文件的存儲(chǔ)索引路徑,而真實(shí)的文件則存儲(chǔ)于分布式NAS中。對(duì)于該類數(shù)據(jù),采用RabbitMQ消息路由技術(shù)實(shí)現(xiàn)數(shù)據(jù)同步。氣象大數(shù)據(jù)云平臺(tái)存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)時(shí),利用消息通知機(jī)制將CTS系統(tǒng)FTP傳輸來的非結(jié)構(gòu)化數(shù)據(jù)根據(jù)解碼入庫策略完成索引入庫和文件遷移。本文通過重新設(shè)計(jì)消息路由,新增一路消息分發(fā)和解碼策略,將原來一個(gè)消息隊(duì)列擴(kuò)展至兩個(gè)隊(duì)列,其中一個(gè)隊(duì)列負(fù)責(zé)氣象大數(shù)據(jù)云平臺(tái)的入庫存儲(chǔ),另一個(gè)隊(duì)列負(fù)責(zé)政務(wù)區(qū)的入庫存儲(chǔ)。政務(wù)區(qū)數(shù)據(jù)入庫時(shí),根據(jù)設(shè)計(jì)的索引信息提取策略、文件入庫策略和分布式NAS存儲(chǔ)策略,利用多線程技術(shù)同步消費(fèi)政務(wù)區(qū)消息隊(duì)列,實(shí)現(xiàn)政務(wù)區(qū)非結(jié)構(gòu)化數(shù)據(jù)的實(shí)時(shí)同步寫入。非結(jié)構(gòu)化數(shù)據(jù)同步流程如圖3所示。
3" 實(shí)驗(yàn)與分析
為驗(yàn)證政務(wù)區(qū)數(shù)據(jù)同步技術(shù)方案的有效性,選取中國(guó)地面逐小時(shí)數(shù)據(jù)、山東省氣象災(zāi)害預(yù)警信息數(shù)據(jù)和山東省衛(wèi)星直收站接收的FY?4A圖像產(chǎn)品數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析。
3.1" Binlog日志同步技術(shù)
選取2023年8月1日0時(shí)至23時(shí)中國(guó)地面逐小時(shí)數(shù)據(jù)共計(jì)848 514條記錄,利用一般結(jié)構(gòu)化數(shù)據(jù)所采用的基于數(shù)據(jù)庫Binlog日志同步技術(shù),共耗時(shí)1 124 s,平均約為755條/s。目前山東國(guó)家氣象站和區(qū)域氣象站總計(jì)約1 900個(gè),每時(shí)次同時(shí)入庫耗時(shí)約2.5 s,滿足政務(wù)區(qū)數(shù)據(jù)同步的時(shí)效要求。同步日志如圖4所示。
3.2" ETL同步技術(shù)
選取山東省預(yù)警信息行業(yè)氣象評(píng)估系統(tǒng)專題庫中的山東省氣象災(zāi)害預(yù)警信息數(shù)據(jù),利用特色結(jié)構(gòu)化數(shù)據(jù)所采用的ETL同步技術(shù),將任務(wù)執(zhí)行間隔和數(shù)據(jù)檢索間隔設(shè)置一致,以保障同步雙方數(shù)據(jù)的一致性。經(jīng)過試驗(yàn)發(fā)現(xiàn):當(dāng)任務(wù)執(zhí)行間隔時(shí)間過短時(shí),不僅對(duì)于硬件、網(wǎng)絡(luò)和數(shù)據(jù)庫資源消耗過大,而且容易導(dǎo)致數(shù)據(jù)漏同步;當(dāng)任務(wù)執(zhí)行間隔時(shí)間過大時(shí),則會(huì)影響數(shù)據(jù)同步的時(shí)效性。為了平衡數(shù)據(jù)同步的一致性、時(shí)效性和資源消耗,本文將任務(wù)執(zhí)行間隔設(shè)置為30 s,同步日志見圖5。
3.3" 消息路由技術(shù)
選取山東省衛(wèi)星直收站接收的FY?4A可見光、水汽、紅外和真彩四類圖像產(chǎn)品,在氣象大數(shù)據(jù)云平臺(tái)解碼質(zhì)控模塊服務(wù)器上重新設(shè)計(jì)RabbitMQ路由,使其每類產(chǎn)品生成兩個(gè)消息隊(duì)列,見圖6。再根據(jù)設(shè)計(jì)的解碼入庫策略,利用多線程技術(shù)將FY?4A圖像產(chǎn)品數(shù)據(jù)分別實(shí)時(shí)寫入氣象大數(shù)據(jù)云平臺(tái)、政務(wù)區(qū)的文件索引庫和分布式NAS。FY?4A真彩圖像同步日志如圖7所示。
實(shí)驗(yàn)結(jié)果表明,基于Binlog日志、ETL和消息路由技術(shù)的數(shù)據(jù)同步綜合解決方案相較于傳統(tǒng)的文件遷移方案,首次在政務(wù)區(qū)實(shí)現(xiàn)了數(shù)據(jù)庫級(jí)的數(shù)據(jù)同步,且具有較高的數(shù)據(jù)處理效率,為下一步研發(fā)政務(wù)區(qū)數(shù)據(jù)服務(wù)接口奠定了堅(jiān)實(shí)基礎(chǔ)。同時(shí),該方案的同步服務(wù)均部署于氣象專網(wǎng)內(nèi),數(shù)據(jù)同步也具有較高的安全性。
4" 結(jié)" 語
本文提出的基于氣象大數(shù)據(jù)云平臺(tái)的政務(wù)區(qū)數(shù)據(jù)同步綜合解決方案,實(shí)現(xiàn)了不同氣象數(shù)據(jù)向政務(wù)區(qū)的高效、安全和可靠同步,保證了政務(wù)區(qū)數(shù)據(jù)的快速傳輸和一致性。通過實(shí)施這種綜合的數(shù)據(jù)同步解決方案,政務(wù)區(qū)可以及時(shí)獲得最新的氣象數(shù)據(jù),有效滿足各政府部門對(duì)氣象數(shù)據(jù)的使用需求,為山東數(shù)字強(qiáng)省建設(shè)提供支撐。在未來的研究中,需要進(jìn)一步探索氣象大數(shù)據(jù)與政務(wù)區(qū)其他行業(yè)數(shù)據(jù)的深度融合,以進(jìn)一步提升數(shù)據(jù)處理和分析的能力,從而為政務(wù)決策提供更好的支持。
參考文獻(xiàn)
[1] 高義梅.大數(shù)據(jù)在氣象服務(wù)中的應(yīng)用價(jià)值研究[J].價(jià)值工程,2022,41(15):153?155.
[2] 桓德銘,王春艷,張欣亮,等.標(biāo)準(zhǔn)化引領(lǐng)地方政府?dāng)?shù)字化建設(shè)路徑研究:以數(shù)字山東建設(shè)為例[J].中國(guó)標(biāo)準(zhǔn)化,2020(9):75?80.
[3] 牛雅靖,田華.山西省政務(wù)數(shù)據(jù)資源體系建設(shè)與探索實(shí)踐[J].中國(guó)信息化,2023(7):48?50.
[4] 徐遠(yuǎn)鈿,段霞光.新一代電子政務(wù)外網(wǎng)研究與實(shí)踐[J].信息通信技術(shù),2021,15(5):64?70.
[5] 陳純子,李楠,王允達(dá).網(wǎng)閘在氣象數(shù)據(jù)跨網(wǎng)安全交換中的應(yīng)用測(cè)試[J].信息系統(tǒng)工程,2022(1):73?76.
[6] 秦運(yùn)龍,王迎迎,張冰松,等.省級(jí)外網(wǎng)氣象大數(shù)據(jù)服務(wù)平臺(tái)研究與實(shí)現(xiàn)[J].氣象科技,2020,48(6):823?828.
[7] 張萬里.分布式網(wǎng)絡(luò)數(shù)據(jù)同步技術(shù)的應(yīng)用研究[J].科技創(chuàng)新與應(yīng)用,2022,12(21):161?164.
[8] 寇媛媛,王曉明,喬文文.數(shù)據(jù)庫同步技術(shù)的研究與應(yīng)用[J].電腦知識(shí)與技術(shù),2019,15(15):3?5.
[9] 李昊霖.大數(shù)據(jù)時(shí)代政務(wù)數(shù)據(jù)安全防護(hù)方案[J].中國(guó)新通信,2023,25(10):119?121.
[10] 馬晉,趙思亮,趙芳.氣象大數(shù)據(jù)基礎(chǔ)云平臺(tái)架構(gòu)設(shè)計(jì)[J].信息技術(shù),2023(5):78?83.
[11] 馮勇,李微,朱輝,等.云計(jì)算環(huán)境下山東省氣象大數(shù)據(jù)云平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].信息技術(shù)與信息化,2021(5):147?150.
[12] 徐擁軍,何文春,劉媛媛,等.氣象大數(shù)據(jù)存儲(chǔ)體系設(shè)計(jì)與實(shí)現(xiàn)[J].電子測(cè)量技術(shù),2020,43(22):19?25.
[13] 張彩云,池繼忠.分布式數(shù)據(jù)庫在氣象數(shù)據(jù)存儲(chǔ)中的應(yīng)用[J].信息技術(shù)與信息化,2021(10):119?121.
[14] 來志云,趙冰燕,郭彩蓮.虛谷數(shù)據(jù)庫應(yīng)用于氣象大數(shù)據(jù)云平臺(tái)中[J].中國(guó)航班,2021(14):52?53.
[15] 陳利娟,陳偉,薛帥寧,等.基于NAS的非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)系統(tǒng)設(shè)計(jì)[J].自動(dòng)化與儀器儀表,2023(3):275?278.
[16] 馮勇,呂冠儒,李微,等.數(shù)據(jù)同步技術(shù)在氣象大數(shù)據(jù)云平臺(tái)中的應(yīng)用[J].科學(xué)技術(shù)創(chuàng)新,2022(21):96?99.