朱亮 鐘艷雯 賀煒 羅林艷 歐陽計躍
摘要:介紹了湖南省農(nóng)業(yè)氣象大數(shù)據(jù)平臺利用分布式存儲與計算架構(gòu)大數(shù)據(jù)體系構(gòu)建,包括數(shù)據(jù)收集系統(tǒng)、多源數(shù)據(jù)管理系統(tǒng)、多源數(shù)據(jù)應用系統(tǒng)和制定數(shù)據(jù)管理規(guī)范。平臺了實現(xiàn)對農(nóng)業(yè)氣象數(shù)據(jù)的收集、存儲和應用,便于下一步綜合運用大數(shù)據(jù)、云計算、智能化等技術(shù)實現(xiàn)氣象數(shù)據(jù)與跨學科、跨行業(yè)相關(guān)聯(lián)數(shù)據(jù)進行深度融合,為“三農(nóng)”服務、氣象防災減災提供數(shù)據(jù)支撐。
關(guān)鍵詞:農(nóng)業(yè)氣象;大數(shù)據(jù);分布式
中圖分類號:S16? ? ? ? ?文獻標識碼:A
文章編號:0439-8114(2019)06-0128-03
DOI:10.14088/j.cnki.issn0439-8114.2019.06.029? ? ? ? ? ?開放科學(資源服務)標識碼(OSID):
Abstract: This paper introduces the construction of Hunan Agrometeorological Big Data Platform using distributed storage and computing architecture, including data collection system, multi-source data management system, multi-source data application system and data management specification. The platform realizes the collection, storage and application of agricultural meteorological data, and facilitates the comprehensive use of big data, cloud computing, intelligent technology and other technologies to realize the deep integration of meteorological data and interdisciplinary and cross-industry related data for the “three rural” services. Data support for meteorological disaster prevention and mitigation.
Key words: agrometeorology; big data; distributed
隨著經(jīng)濟發(fā)展、社會進步、科技創(chuàng)新不斷深入,農(nóng)業(yè)、水文、林業(yè)、國土、環(huán)境、交通、軍隊等各行業(yè)業(yè)務流程與氣象數(shù)據(jù)呈現(xiàn)出越來越密切的關(guān)系,氣象防災減災的效果特別明顯。湖南省是農(nóng)業(yè)大省,位于長江中游南岸、南嶺以北,山地、丘陵、平原兼俱,處亞熱帶季風氣候區(qū),氣象災害發(fā)生十分頻繁,是全國發(fā)生最多的省份之一,常年遭受干旱、暴雨、高溫、低溫、冰凍、熱帶氣旋(臺風)、雷電、冰雹、霜凍、寒潮等災害性天氣及山洪地質(zhì)、森林火災等次生災害的影響。目前,湖北省各地農(nóng)田小氣候站因廠家不一致,數(shù)據(jù)格式不統(tǒng)一,極大地影響了農(nóng)田小氣候數(shù)據(jù)的應用。隨著氣象觀測的技術(shù)不斷提升,區(qū)域站數(shù)據(jù)傳輸頻次由1 h上升至5 min,然而如此高密度的觀測數(shù)據(jù)在農(nóng)業(yè)氣象應用中并沒有得到體現(xiàn);與此同時,農(nóng)業(yè)氣象服務資料來源涉及中國氣象局下發(fā)、省內(nèi)各氣象業(yè)務單位制作共享及水文國土等其他行業(yè)共享。湖南省缺少統(tǒng)一的平臺面向農(nóng)戶、農(nóng)業(yè)氣象企業(yè)提供對這些農(nóng)氣象預警資料、產(chǎn)品進行展示、應用和共享。
同時,隨著云計算和大數(shù)據(jù)技術(shù)不斷推進,社會各行業(yè)也逐步將行業(yè)內(nèi)部數(shù)據(jù)進行廣泛共享。2018年中國農(nóng)民豐收節(jié)等的設立,中央對“三農(nóng)”工作的越來越重視,2016、2017 年全國氣象局長會議更是明確要求“發(fā)展基于‘互聯(lián)網(wǎng)+的智慧農(nóng)業(yè)氣象服務”,為促進氣象信息化發(fā)展,實現(xiàn)對氣象服務指導產(chǎn)品、為農(nóng)氣象服務產(chǎn)品的集約化、共享,為發(fā)展“智慧氣象”奠定基礎(chǔ),因此建立農(nóng)業(yè)氣象大數(shù)據(jù)平臺。
1? 平臺主要功能
系統(tǒng)總體框架包括數(shù)據(jù)收集系統(tǒng)、多源數(shù)據(jù)管理系統(tǒng)、多源數(shù)據(jù)應用系統(tǒng)和數(shù)據(jù)管理規(guī)范(圖1)。
1.1? 數(shù)據(jù)收集系統(tǒng)
數(shù)據(jù)收集系統(tǒng)利用大數(shù)據(jù)收集等技術(shù),實現(xiàn)從數(shù)據(jù)服務器、數(shù)據(jù)庫、數(shù)據(jù)采集器、手機等多設備上收集到文本、結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)流、文檔圖片視頻等多樣數(shù)據(jù),依托地面寬帶網(wǎng)絡、專線鏈路、移動網(wǎng)絡,實現(xiàn)從數(shù)據(jù)源收集農(nóng)業(yè)氣象等數(shù)據(jù)并進行數(shù)據(jù)預處理及數(shù)據(jù)加工處理(圖2)??赏ㄟ^接口將獲得的各業(yè)務系統(tǒng)數(shù)據(jù)、外部數(shù)據(jù)經(jīng)過預處理后導入數(shù)據(jù)平臺,支持多種數(shù)據(jù)收集方式。收集方式包括但不限于網(wǎng)上數(shù)據(jù)填報、批量數(shù)據(jù)導入、實時數(shù)據(jù)采集、網(wǎng)上爬蟲方式、主動數(shù)據(jù)抽取等,同時實現(xiàn)數(shù)據(jù)交換信息監(jiān)控。
1.2? 多源數(shù)據(jù)管理系統(tǒng)
農(nóng)業(yè)氣象數(shù)據(jù)庫存儲數(shù)據(jù)包括數(shù)據(jù)入庫、存儲和管理,主要有站點數(shù)據(jù)、格點數(shù)據(jù)、文檔數(shù)據(jù)、圖片數(shù)據(jù)和視頻數(shù)據(jù)五類。多源數(shù)據(jù)管理系統(tǒng)依托分布式數(shù)據(jù)管理、大數(shù)據(jù)等技術(shù),建立高效、安全、穩(wěn)定的數(shù)據(jù)存儲系統(tǒng);系統(tǒng)具有數(shù)據(jù)導入、追加、更新、數(shù)據(jù)的備份和恢復、數(shù)據(jù)清理維護等功能。
1.3? 多源數(shù)據(jù)應用系統(tǒng)
多源數(shù)據(jù)應用系統(tǒng)農(nóng)業(yè)氣象大數(shù)據(jù)庫為基礎(chǔ),架構(gòu)考慮了上層應用的復雜多變,提供豐富的應用服務和數(shù)據(jù)共享接口[1],采用統(tǒng)一訪問接口(API訪問、Web Service等)、文件目錄共享服務提供統(tǒng)一、分級數(shù)據(jù)檢索接口和服務,滿足用戶對農(nóng)業(yè)氣象數(shù)據(jù)資料檢索訪問的各種需求。
1.4? 數(shù)據(jù)管理規(guī)范
“標準先行”已成為當前各行業(yè)數(shù)據(jù)應用的共識,有了標準數(shù)據(jù)才能共享,才能支撐大數(shù)據(jù)平臺應用的開展[2]。根據(jù)現(xiàn)有《全國智慧農(nóng)業(yè)氣象服務平臺綜合數(shù)據(jù)存儲規(guī)范》[3]相關(guān)標準規(guī)范,制定數(shù)據(jù)交換標準和應用接口標準。
2? 主要技術(shù)實現(xiàn)
Hadoop架構(gòu)是一種分布式開源計算平臺,因為具有水平擴容的特性, 使得經(jīng)濟存儲海量數(shù)據(jù)成為可能。Hadoop由Apache公司為實現(xiàn)Google的MapReduce編程模型的一個云計算開源平臺,Hadoop平臺包括最底部的文件系統(tǒng)(HDFS)、數(shù)據(jù)庫(HBase)、數(shù)據(jù)處理(MapReduce)等功能模塊,某種程度上可以說Hadoop已經(jīng)成為大數(shù)據(jù)處理工具事實上的標準[4-6]。Spark是基于內(nèi)存的迭代計算框架,其核心是彈性分布式數(shù)據(jù)集,可以快速在內(nèi)存中對數(shù)據(jù)集進行多次迭代,以支持復雜的數(shù)據(jù)挖掘算法和圖形計算算法。湖南省農(nóng)業(yè)氣象大數(shù)據(jù)平臺要保證1 TB以上大數(shù)據(jù)量分析探查的高效靈活的響應,支持列式存儲,內(nèi)存計算等提高查詢速度的技術(shù)。由于自動站數(shù)據(jù)量非常大,平臺在軟硬件上采取的策略是,一方面在硬件上采用高性能服務器組成服務器集群;另一方面采用Hadoop大數(shù)據(jù)分析技術(shù),利用HBase數(shù)據(jù)庫、Kafka數(shù)據(jù)接收、Tachyon內(nèi)存管理、Spark統(tǒng)計分析等組件,解決自動站查詢統(tǒng)計慢的問題。
2.1? 硬件環(huán)境
系統(tǒng)底層硬件資源采用通用X86服務器部署,利用分布式存儲與計算架構(gòu)大數(shù)據(jù)體系構(gòu)建,并根據(jù)需求進行一定封裝和訂制開發(fā);處理后的數(shù)據(jù)根據(jù)上層應用需要向各系統(tǒng)提供數(shù)據(jù)訂制服務和數(shù)據(jù)共享服務[7]。按照《氣象信息化基礎(chǔ)設施資源池建設指南》的技術(shù)指標進行購置和搭建,納入到信息化基礎(chǔ)設施資源池進行統(tǒng)一管理,共計采用5臺服務器。同時采用內(nèi)部交換與外部訪問獨立的方式,內(nèi)部數(shù)據(jù)交換采用堆疊的兩個萬兆交換機,外部數(shù)據(jù)交換采用堆疊的兩個千兆交換機(圖3)。
2.2? 軟件環(huán)境
5臺服務器操作系統(tǒng)為Linux同一版本的操作系統(tǒng),CentOS Linux release 7.3.1611(Core),64位。管理節(jié)點2臺,通訊節(jié)點3臺,其中,2臺管理節(jié)點同時作為通訊節(jié)點,數(shù)據(jù)節(jié)點5臺,管理節(jié)點、通訊節(jié)點同時作為數(shù)據(jù)節(jié)點。程序設計語言:Windows平臺配置Java程序設計語言。數(shù)據(jù)庫系統(tǒng)使用Hbase記錄存儲收發(fā)日志信息、氣象數(shù)據(jù)等(圖4)。
2.3? 軟件展示與應用
農(nóng)業(yè)氣象大數(shù)據(jù)平臺完成了農(nóng)氣月報、農(nóng)氣旬報、農(nóng)田小氣候資料,農(nóng)氣站作物觀測,土壤水分、水文資料及日照、輻射、省內(nèi)與周邊六省國家站區(qū)域站資料以及種植大戶信息錄入,其中農(nóng)氣站作物觀測起始時間自1981年,自動站累計16 935站,頻次達分鐘級。尤其是會商視頻點播、自動站分鐘降水實況與統(tǒng)計等功能移植整合,整合了會商視頻點播,中小尺度系統(tǒng)等功能單一、小而散的業(yè)務系統(tǒng)(圖5)。平臺實現(xiàn)對氣象服務指導產(chǎn)品、為農(nóng)氣象服務產(chǎn)品的集約化、共享,為發(fā)展“智慧氣象”奠定基礎(chǔ),增強農(nóng)業(yè)氣象服務的主動性、及時性、針對性,加強“三農(nóng)”服務、氣象防災減災,加快發(fā)展智慧氣象,提高服務質(zhì)量和效益。
2.4? 統(tǒng)一接口訪問
針對農(nóng)氣月報、天氣預報等文件類產(chǎn)品提供文件下載目錄,對日照、水文等數(shù)據(jù)采用接口訪問方式進行訪問,滿足對各級用戶對數(shù)據(jù)訪問需求(圖6)。
3? 小結(jié)
大數(shù)據(jù)的研究應用已逐步成為一項數(shù)據(jù)工程,研究跨領(lǐng)域的農(nóng)業(yè)氣象大數(shù)據(jù)平臺需要支撐大數(shù)據(jù)采集、存儲、管理和分析處理等活動。目前提出的主要用來實現(xiàn)農(nóng)業(yè)氣象大數(shù)據(jù)平臺的基礎(chǔ)應用研究,未來前景可觀??傮w得出以下結(jié)論:
1)農(nóng)業(yè)氣象大數(shù)據(jù)平臺通過分布式技術(shù)實現(xiàn)了多源數(shù)據(jù)的收集、存儲及應用,增強農(nóng)業(yè)氣象服務的主動性、及時性、針對性,加強“三農(nóng)”服務、氣象防災減災,提高服務質(zhì)量和效益。
2)平臺整合了中小尺度系統(tǒng)等功能單一、小而散的業(yè)務系統(tǒng),符合集約化發(fā)展理念。
3)采用統(tǒng)一訪問接口(API訪問、Web Service等)、文件目錄共享服務提供統(tǒng)一、分級的數(shù)據(jù)檢索接口和服務,滿足用戶對農(nóng)業(yè)氣象數(shù)據(jù)資料檢索訪問的各種需求。
參考文獻:
[1] 彭? 慶.基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)共享平臺方案研究[J].電信技術(shù),2014(10):22-23.
[2] 宮夏屹,李伯虎,柴旭東,等.大數(shù)據(jù)平臺技術(shù)綜述[J].系統(tǒng)仿真學報,2014,26(3):489-496.
[3] 中國氣象局減災司關(guān)于印發(fā)《全國智慧農(nóng)業(yè)氣象服務平臺數(shù)據(jù)存儲規(guī)范(試行)》的通知[EB/OL].http://www.cma.gov.cn/root7/auto13139/201612/t20161213_349710.html.
[4] 張? 潔,薛勝軍.云計算環(huán)境下氣象大數(shù)據(jù)服務的應用[J].安徽農(nóng)業(yè)科學,2016,44(5):298-301.
[5] 宋? 杰,孫宗哲,毛克明,等.MapReduce大數(shù)據(jù)處理平臺與算法研究進展[J].軟件學報,2017,28(3):514-543.
[6] 孟小峰,慈? 祥.大數(shù)據(jù)管理:概念技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.
[7] 陳? 娜,徐歆壹,宋紅兵,等.基于Hadoop的電信BSS大數(shù)據(jù)平臺建設研究[J].電信科學,2013(3):36-40.