宋昌 羅光華
摘要:隨著大數(shù)據(jù)技術(shù)的深入發(fā)展,在數(shù)字中國和全面實現(xiàn)鄉(xiāng)村振興,推動現(xiàn)代農(nóng)業(yè)發(fā)展的大趨勢下,大數(shù)據(jù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用也扮演著重要角色。文章對大數(shù)據(jù)Hadoop架構(gòu)設(shè)計原理和核心組件進(jìn)行了簡要闡述,結(jié)合農(nóng)業(yè)大數(shù)據(jù)平臺系統(tǒng)病蟲害預(yù)警應(yīng)用模塊案例分析,證明了Hadoop技術(shù)在水稻病蟲害防治過程中數(shù)據(jù)采集、數(shù)據(jù)挖掘和分析、災(zāi)害預(yù)警的高效性和可適用性。
關(guān)鍵詞:農(nóng)業(yè)大數(shù)據(jù);Hadoop架構(gòu);數(shù)據(jù)采集;病蟲害監(jiān)測
中圖分類號:TP311? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2022)27-0059-02
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
隨著大數(shù)據(jù)技術(shù)的飛速發(fā)展,其應(yīng)用領(lǐng)域越來越廣闊和成熟,基于大數(shù)據(jù)技術(shù)的智慧農(nóng)業(yè)就是一個典型的應(yīng)用領(lǐng)域。我國作為一個農(nóng)業(yè)大國,普遍存在大面積播種水稻的場景,傳統(tǒng)的水稻管理都是依靠人工進(jìn)行,效率低下且成本高昂,在大數(shù)據(jù)時代,充分利用大數(shù)據(jù)技術(shù)的優(yōu)勢,在水稻管理中能夠帶來極大的便利和高效。清遠(yuǎn)市是廣東省的一個農(nóng)業(yè)大市,播種有大量的水稻,相比過去傳統(tǒng)的水稻病蟲害管理模式,在應(yīng)用了大數(shù)據(jù)技術(shù)之后,水稻的病蟲害管理的效率大大提高,成本也隨之大幅降低。文中就清遠(yuǎn)的水稻病蟲害管理中應(yīng)用大數(shù)據(jù)技術(shù)所帶來的高效率低成本的框架設(shè)計和技術(shù)進(jìn)行探討,有一定的參考借鑒價值。
1 Hadoop技術(shù)架構(gòu)
Hadoop是Apache Software Foundation軟件基金會主導(dǎo)開發(fā)的一個分布式系統(tǒng)架構(gòu)[1],它的主要目的是提供一個具備較可靠、效率高、可靈活變換伸縮的方式處理分布式的“大數(shù)據(jù)”。此系統(tǒng)框架能夠為業(yè)務(wù)端應(yīng)用提供可靠的數(shù)據(jù)處理和數(shù)據(jù)遷移和變換移動,從而產(chǎn)生一種名為MapReduce的編程模式,它可將業(yè)務(wù)應(yīng)用程序切分為若干部分,且每一個部分都能夠在數(shù)據(jù)集權(quán)的隨意節(jié)點上進(jìn)行執(zhí)行,其架構(gòu)圖如圖1所示。Hadoop架構(gòu)目前已經(jīng)應(yīng)用于多個行業(yè)和業(yè)務(wù)場景,包括基礎(chǔ)架構(gòu)管理、圖像處理、詐騙檢測、IT安全、醫(yī)療保健、農(nóng)業(yè)等[2]。
HDFS(Hadoop Distributed File System 分布式文件系統(tǒng))、HBase、Hive、MapReduce(分布式運算編程框架)和ZooKeeper是組成Hadoop系統(tǒng)架構(gòu)的主要組件。HDFS文件系統(tǒng)作為架構(gòu)底層用于存儲節(jié)點文件,它來驅(qū)動執(zhí)行程序MapReduce引擎。Hadoop的核心部分是HDFS、YARN、MapRuduce等構(gòu)成。
Pig是一種大數(shù)據(jù)分析工具[3],它作為一種數(shù)據(jù)語言以及運行環(huán)境為基于Hadoop的大數(shù)據(jù)平臺提供分析,為復(fù)雜和數(shù)據(jù)量比較龐大的數(shù)據(jù)同時并行的計算提供了便捷的操作工具和開發(fā)編程接口。Hive是Hadoop架構(gòu)的數(shù)據(jù)倉庫工具,可進(jìn)行完全的SQL查詢功能,能將SQL語言轉(zhuǎn)化成MapReduce任務(wù)進(jìn)行執(zhí)行, MapReduce作為一種編程模型,可用于大規(guī)模(通常是大于1T)數(shù)據(jù)集的并行運算,MapReduce 引擎由 JobTrackers 和 TaskTrackers 組成。HBase是一種分布式數(shù)據(jù)庫,它是開源的,且基于列存儲模型。ZooKeeper提供分布式且開源的分布式應(yīng)用程序協(xié)調(diào)服務(wù)[4]。HDFS是一種高容錯的分布式文件系統(tǒng),適合規(guī)模較大數(shù)據(jù)集的應(yīng)用程序。
2 基于Hadoop架構(gòu)的清遠(yuǎn)農(nóng)業(yè)大數(shù)據(jù)平臺設(shè)計
聚合性集成的農(nóng)業(yè)產(chǎn)業(yè)服務(wù)大數(shù)據(jù)平臺“廣清農(nóng)業(yè)眾創(chuàng)空間大數(shù)據(jù)平臺”,在對其Hadoop架構(gòu)的應(yīng)用進(jìn)行了調(diào)查研究。平臺數(shù)據(jù)層積累了海量數(shù)據(jù),其中包含結(jié)構(gòu)性數(shù)據(jù)和非結(jié)構(gòu)性數(shù)據(jù),數(shù)據(jù)來源復(fù)雜:物聯(lián)網(wǎng)傳感器實時監(jiān)測所采集到的日志數(shù)據(jù)信息、視頻圖像數(shù)據(jù)信息、農(nóng)業(yè)服務(wù)數(shù)據(jù)信息、農(nóng)業(yè)生產(chǎn)管理數(shù)據(jù)信息、農(nóng)產(chǎn)品數(shù)據(jù)信息等,且同時來自系統(tǒng)內(nèi)部數(shù)據(jù)產(chǎn)出和外部數(shù)據(jù)接入。在農(nóng)業(yè)大數(shù)據(jù)平臺系統(tǒng)中通過Hadoop架構(gòu),利用HDFS高度容錯性的分布式文件系統(tǒng),提高了系統(tǒng)的數(shù)據(jù)流通量和處理效率。通過性價比較高的HBase技術(shù)能夠在普通的PC服務(wù)器的基礎(chǔ)上搭建較大規(guī)模的結(jié)構(gòu)化數(shù)據(jù)存儲集群。Pig為復(fù)雜的海量數(shù)據(jù)并行計算提供了便利,通過數(shù)據(jù)分析工具,生成分析報告從而指導(dǎo)農(nóng)業(yè)的生產(chǎn)管理和提供科學(xué)決策支持。其大數(shù)據(jù)應(yīng)用包括病蟲害監(jiān)測、農(nóng)作物生產(chǎn)氣候環(huán)境監(jiān)測、精細(xì)化種植和生產(chǎn)管理等,我們對其中的病蟲害監(jiān)測方面的應(yīng)用進(jìn)行了深入研究和分析。
視頻和圖像處理技術(shù)的發(fā)展已歷經(jīng)數(shù)十年,不斷地提升圖像處理算法的準(zhǔn)確性和處理速度[5]。如今的數(shù)字經(jīng)濟(jì)時代下各種行業(yè)和應(yīng)用場景下所產(chǎn)生的數(shù)據(jù)量也是呈指數(shù)級發(fā)展,且復(fù)雜程度和處理難度越來越高,傳統(tǒng)淡季處理遠(yuǎn)遠(yuǎn)無法滿足需求。而大規(guī)模的圖像處理數(shù)據(jù)儲存在分布式文件系統(tǒng),并通過分布式計算技術(shù)并行處理,能解決日益增長的需求和需要處理計算的數(shù)據(jù)量,而Hadoop架構(gòu)的數(shù)據(jù)處理平臺是一個非常高效的解決方案?;贖adoop架構(gòu)的清遠(yuǎn)農(nóng)業(yè)大數(shù)據(jù)平臺設(shè)計如圖2所示。
3 病蟲害監(jiān)測農(nóng)業(yè)大數(shù)據(jù)平臺功能實現(xiàn)
3.1 病蟲害識別及防治信息處理模塊
本模塊的作用是幫助農(nóng)業(yè)管理人員利用拍照識別功能快速有效地掌握水稻的病蟲害產(chǎn)生的原因,并得到合理有效的治療方案。具體的實現(xiàn)過程:首先是農(nóng)業(yè)管理人員將受病蟲害的水稻葉子拍照后發(fā)送到病蟲害監(jiān)測系統(tǒng)上,系統(tǒng)自動對上傳的照片進(jìn)行格式的合格性進(jìn)行判斷是否通過。如果通過,則會得到相應(yīng)的識別記錄,更新數(shù)據(jù)庫后就會傳送到客戶端呈現(xiàn)出來。如果無法通過,農(nóng)業(yè)管理人員則可以通過系統(tǒng)的“專家識別”功能來獲取專家反饋的結(jié)果。具體的模塊圖如圖3所示。
3.2 數(shù)據(jù)采集模塊
在廣東省清遠(yuǎn)市連山壯族瑤族自治縣的水稻生產(chǎn)基地通過田間攝像頭和物聯(lián)網(wǎng)監(jiān)控設(shè)備,采集了6300畝水稻田2年的數(shù)據(jù),實時進(jìn)行氣候環(huán)境包括溫度、濕度、風(fēng)向、風(fēng)速、雨量等數(shù)據(jù)項目的采集,并構(gòu)建了聚合性集成的農(nóng)業(yè)產(chǎn)業(yè)服務(wù)大數(shù)據(jù)平臺“廣清農(nóng)業(yè)眾創(chuàng)空間大數(shù)據(jù)平臺”,平臺基于Hadoop技術(shù)架構(gòu)開發(fā)。數(shù)據(jù)層積累了海量數(shù)據(jù)且數(shù)據(jù)來源復(fù)雜,其中包含物聯(lián)網(wǎng)監(jiān)測采集設(shè)備產(chǎn)生的數(shù)據(jù)以及業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù),物聯(lián)網(wǎng)傳感器實時監(jiān)測的日志數(shù)據(jù)、視頻圖像數(shù)據(jù)、農(nóng)業(yè)服務(wù)數(shù)據(jù)、農(nóng)業(yè)生產(chǎn)管理數(shù)據(jù)、農(nóng)產(chǎn)品信息數(shù)據(jù)等,且同時來自系統(tǒng)內(nèi)部數(shù)據(jù)產(chǎn)出和外部數(shù)據(jù)接入。
3.3 數(shù)據(jù)預(yù)處理模塊
在農(nóng)業(yè)大數(shù)據(jù)平臺系統(tǒng)中通過Hadoop架構(gòu),利用HDFS高度容錯性的分布式文件系統(tǒng),提高了系統(tǒng)的數(shù)據(jù)流通量和處理效率,運用性價比較高的HBase技術(shù)能夠在普通的PC服務(wù)器的基礎(chǔ)上搭建較大規(guī)模的結(jié)構(gòu)化數(shù)據(jù)存儲集群。Pig為復(fù)雜的海量數(shù)據(jù)并行計算提供了便利,通過數(shù)據(jù)分析工具,生成分析報告從而指導(dǎo)農(nóng)業(yè)的生產(chǎn)管理和提供科學(xué)決策支持。其大數(shù)據(jù)應(yīng)用包括病蟲害監(jiān)測、農(nóng)作物生產(chǎn)氣候環(huán)境監(jiān)測、精細(xì)化種植和生產(chǎn)管理等[6]。
高清視頻監(jiān)測站采集到大規(guī)模的圖像數(shù)據(jù)儲存在分布式文件系統(tǒng),并通過分布式計算技術(shù)并行處理,能解決日益增長的需求和需要處理計算的數(shù)據(jù)量,而Hadoop架構(gòu)的數(shù)據(jù)處理平臺是一個非常高效的解決方案。病蟲害監(jiān)測系統(tǒng)采集到圖像后需要提交分析請求,Job Client會把圖像特點分類的數(shù)據(jù)拷貝進(jìn)HDFS文件,經(jīng)過Job Tracker取得圖像處理分類任務(wù)識別編碼,從而對相關(guān)任務(wù)的信息開始比對篩查,按照輸入數(shù)據(jù)的區(qū)分可從HDFS文件中取得并做好執(zhí)行所請求任務(wù)的準(zhǔn)備。
3.4 蟲情預(yù)警模塊
病蟲害發(fā)生的時間與季節(jié)與氣候有很大關(guān)系,蟲害一般發(fā)生在每年的3月中旬至12月,同時受到風(fēng)速、風(fēng)向、降雨量以及溫濕度的影響,氣候環(huán)境的數(shù)據(jù)將會分析病蟲害繁殖的時機(jī)以及生長環(huán)境適宜度。數(shù)據(jù)主要分為兩個部分的數(shù)據(jù)集:氣象信息數(shù)據(jù)集和病蟲害數(shù)據(jù)集,其中病蟲害數(shù)據(jù)集中包含圖片識別數(shù)據(jù)庫。氣象傳感器所采集到的氣溫、比濕、風(fēng)速等數(shù)據(jù)作為氣候因子。
我們需要對數(shù)據(jù)進(jìn)行量化和數(shù)值化來應(yīng)對數(shù)據(jù)的預(yù)處理,可將病蟲害發(fā)生級別分為4級:輕微-1、中度-2、偏重-3、重大-4。分別對應(yīng)1~4的數(shù)值。對照水稻生長的幼苗期,返青期、分蘗期、長穗期、結(jié)實期,分別編號為1~5。
對采集到的病蟲害監(jiān)測圖片進(jìn)行分類任務(wù),在Map流程階段,當(dāng)取得了Job Tracker分配的任務(wù)后,就可以從HDFS文件系統(tǒng)中獲取相關(guān)數(shù)據(jù)和JAR系統(tǒng)文件,同時儲存于本地磁盤。在本地磁盤虛擬機(jī)可對JAR文件和數(shù)據(jù)開展加載,從而接收監(jiān)測病蟲害圖片信息的數(shù)據(jù)。通過計算病蟲害特點數(shù)據(jù)庫中圖像特征和相對應(yīng)的分類下蟲害信息描述的圖像特點之間的距離,比對特點圖像庫中圖像分類和計算的結(jié)果,在MapReduce處理上使用FFmpeg把農(nóng)場監(jiān)控的視頻信息分割為圖像再把圖像轉(zhuǎn)化為JavaCV能夠識別的數(shù)據(jù)。
接下來對數(shù)據(jù)進(jìn)行清洗、變化監(jiān)測、區(qū)間劃分等數(shù)據(jù)預(yù)處理動作,算法的運行時間伴隨著數(shù)據(jù)樣本的增多而變得越來越短,在MapReduce引擎在進(jìn)行分布式運行中,在多個任務(wù)節(jié)點進(jìn)行的同時進(jìn)行并行方法建樹使得算法時間上的斜率變得平緩,在Hadoop分布式平臺的算法并行后得到了良好的加速比,與數(shù)據(jù)樣本集群的大小和規(guī)模有很大關(guān)系,來證明算法的有效性。
4 結(jié)論
隨著我國數(shù)字化進(jìn)程的高速發(fā)展和推動全面實現(xiàn)鄉(xiāng)村振興的政策推動下,在農(nóng)業(yè)領(lǐng)域的應(yīng)用也凸顯成效,在農(nóng)業(yè)生產(chǎn)中,利用Hadoop架構(gòu)來幫助實現(xiàn)農(nóng)產(chǎn)品病蟲害的識別和監(jiān)測和精細(xì)化種植,可大大提升數(shù)據(jù)采集和分析效率,并對減災(zāi)防災(zāi),協(xié)助確保糧食安全,推動我國現(xiàn)代農(nóng)業(yè)發(fā)展具有重要意義。
參考文獻(xiàn):
[1] 贠佩,晁玉蓉,樊華,等.基于Hadoop的數(shù)據(jù)分析系統(tǒng)設(shè)計[J].數(shù)字技術(shù)與應(yīng)用,2019,37(3):180,182.
[2] 李鋒,賈茂想,涂如男.基于Hadoop的企業(yè)知識管理系統(tǒng)[J].計算機(jī)系統(tǒng)應(yīng)用,2018,27(8):63-69.
[3] 韓朵朵,劉會杰,許愛雪.基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案[J].石家莊鐵路職業(yè)技術(shù)學(xué)院學(xué)報,2019,18(2):71-75.
[4] 曾俊.一種基于Hadoop架構(gòu)的并行挖掘算法研究[J].現(xiàn)代電子技術(shù),2018,41(1):117-119,124.
[5] 劉江霞.一種基于Hadoop的大數(shù)據(jù)倉庫技術(shù)研究[J].電腦編程技巧與維護(hù),2017(17):48-49,75.
[6] 付蓉.基于Hadoop的大數(shù)據(jù)挖掘理論與方法研究[J].科技創(chuàng)業(yè)月刊,2017,30(5):23-24.
【通聯(lián)編輯:梁書】