夏吉安,母文濤,徐榮旺,楊善群,袁望皓,朱俊
(南京工業(yè)職業(yè)技術大學 計算機與軟件學院,江蘇南京 210023)
2015年8 月,國務院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,提出要推動大數(shù)據(jù)發(fā)展和應用[1];2021年11月,工業(yè)和信息化部印發(fā)《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》,指出目前我國需要培育數(shù)據(jù)驅(qū)動的產(chǎn)融合作、協(xié)同創(chuàng)新等新模式。推動要素數(shù)據(jù)化,引導各類主體提升數(shù)據(jù)驅(qū)動的生產(chǎn)要素配置能力,促進勞動力、資金、技術等要素在行業(yè)間、產(chǎn)業(yè)間、區(qū)域間的合理配置,提升全要素生產(chǎn)率[2]。開展大學生創(chuàng)新創(chuàng)業(yè)項目的目的是改變現(xiàn)有高校的人才培養(yǎng)模式,強化學生創(chuàng)新創(chuàng)業(yè)技術能力培養(yǎng),培育適應創(chuàng)新型國家建設需要的高水平創(chuàng)新人才[3-4]。通過以大學生創(chuàng)新創(chuàng)業(yè)訓練計劃項目為切入點,將大數(shù)據(jù)領域的相關技術與精準農(nóng)業(yè)應用場景相結(jié)合,進行產(chǎn)學研融合研究和學科交叉的創(chuàng)新應用,可以培養(yǎng)學生的科研創(chuàng)新應用能力。
2022年3月,農(nóng)業(yè)農(nóng)村部印發(fā)《“十四五”全國農(nóng)業(yè)農(nóng)村信息化發(fā)展規(guī)劃》,提出建立貫通信息采集、分析決策、作業(yè)控制、智慧管理等各環(huán)節(jié)的智慧農(nóng)業(yè)集成應用體系[5]?,F(xiàn)代農(nóng)業(yè)的發(fā)展需要借助大數(shù)據(jù)、云計算等學科的優(yōu)勢,結(jié)合智慧農(nóng)業(yè)的發(fā)展需求進行創(chuàng)新應用,為精準農(nóng)業(yè)的發(fā)展提供理論與技術的支持[6-8]。
目前,高校大數(shù)據(jù)相關專業(yè)實踐實訓教學偏重于教授大數(shù)據(jù)相關框架與工具的操作和使用,未將大數(shù)據(jù)技術與具體應用場景進行結(jié)合培養(yǎng)學生解決實際工程問題的能力[9]。由于大數(shù)據(jù)相關技術理論知識點分散并且關聯(lián)度不高,缺乏對于大數(shù)據(jù)技術應用技能的連續(xù)培養(yǎng),學生難以全面掌握大數(shù)據(jù)領域的知識點與技術,進而影響學生使用大數(shù)據(jù)相關技術進行創(chuàng)新應用。利用大學生創(chuàng)新創(chuàng)業(yè)項目,將大數(shù)據(jù)相關技術與精準農(nóng)業(yè)應用場景相結(jié)合,進行學科交叉的創(chuàng)新應用,可以培養(yǎng)學生大數(shù)據(jù)創(chuàng)新實踐能力[10-14]。
“大創(chuàng)”實驗實訓項目與江蘇省農(nóng)業(yè)科學院農(nóng)業(yè)信息研究所開展合作,大田作物反射光譜采集于江蘇省農(nóng)業(yè)科學試驗田。實驗實訓方案設計包括對農(nóng)業(yè)光譜大數(shù)據(jù)進行數(shù)據(jù)預處理與標注、數(shù)據(jù)挖掘、大數(shù)據(jù)框架應用、并行數(shù)據(jù)庫、并行機器學習算法等方面的研究。實驗總體設計方案如圖1所示。使用Hadoop和Spark框架搭建大數(shù)據(jù)平臺,同時指導學生學習基于Spark框架的并行數(shù)據(jù)挖掘算法,利用Hadoop提供的HDFS、HBase進行數(shù)據(jù)分布式存儲。最后使用Spark框架提供的MLlib機器學習庫進行自主學習和探索性研究,針對具體農(nóng)業(yè)應用場景進行數(shù)據(jù)挖掘算法的分析與研究,實現(xiàn)交叉學科的創(chuàng)新型應用。
圖1 創(chuàng)新實踐總體設計
圖2 大田作物平均反射光譜
原始的作物反射光譜數(shù)據(jù)包含水稻在三個生長周期(分蘗期、拔節(jié)期、抽穗期)中使用三種不同水層(干旱)處理的水稻反射光譜(共180×3=540條光譜數(shù)據(jù)),如圖1所示。原始光譜數(shù)據(jù)中包含光譜噪聲,需要指導學生進行大數(shù)據(jù)預處理與數(shù)據(jù)標注。使用5點Savitzky-Golay多項式回歸方法對于反射光譜進行平滑濾波。
式(1)中,j為相鄰的5個數(shù)據(jù)點,Xj為平滑處理的數(shù)據(jù)點。
同時計算一階和二階導數(shù)光譜。
式(2)中,F(xiàn)'(x)為所求數(shù)據(jù)點的一階導數(shù)。
使用南京工業(yè)職業(yè)技術大學計算中心的云計算資源構(gòu)建大數(shù)據(jù)計算平臺,同時分組指導學生進行大數(shù)據(jù)平臺相關硬件與軟件的安裝與配置,掌握大數(shù)據(jù)平臺與框架的工作原理。大數(shù)據(jù)平臺包括三臺Intel(R)Xeon 6230R服務器提供計算資源,16GB DDR4內(nèi)存,80GB硬盤存儲容量,CentOS 6.9操作系統(tǒng),如表1所示。
表1 大數(shù)據(jù)平臺配置
大數(shù)據(jù)平臺使用Hadoop 3.2.2和Spark 3.3.0作為大數(shù)據(jù)計算框架,其中通過Hadoop 3.2.2 提供的HDFS(Hadoop Distribute File System)為光譜數(shù)據(jù)文件提供分布式存儲,Master主機作為Namenode節(jié)點,存儲光譜數(shù)據(jù)文件,Node1和Node2主機作為DataNode節(jié)點,存儲光譜數(shù)據(jù)文件副本,Hadoop采用完全分布式運行模式。Spark框架工作在Standalone模式,其中Master主機作為Master節(jié)點,負責接收提交的任務以及進行任務與資源的分配調(diào)度,Node1和Node2主機作為Woker節(jié)點,負責具體作業(yè)和任務的執(zhí)行。
大田作物的反射光譜數(shù)據(jù)包含大量的作物生長信息,包括葉綠素、花青素、水分含量等,對于采集的大量的光譜數(shù)據(jù),需要使用合適的數(shù)據(jù)挖掘算法進行數(shù)據(jù)降維、特征轉(zhuǎn)換、特征提取,以及使用分類算法對于不同水分處理的反射光譜數(shù)據(jù)進行分析與處理。通過指導學生學習經(jīng)典的機器學習與數(shù)據(jù)挖掘算法,如K-Means、支持向量機、神經(jīng)網(wǎng)絡等算法,使學生掌握數(shù)據(jù)挖掘算法的建模與調(diào)參方法,加強學生對于基于大數(shù)據(jù)的數(shù)據(jù)挖掘算法的自主學習與創(chuàng)新應用的能力,如圖3所示。
圖3 大數(shù)據(jù)平臺光譜數(shù)據(jù)挖掘運行環(huán)境
使用Hadoop和Spark框架對反射光譜特征提取和分類識別之后,指導學生使用基于Spark的MLlib(Machine Learning Library)機器學習庫對于光譜數(shù)據(jù)進行進一步的并行數(shù)據(jù)挖掘。MLlib機器學習庫針對大數(shù)據(jù)平臺提供了大量的算法模型,使用其提供的特征轉(zhuǎn)換、特征提取、數(shù)據(jù)降維、回歸與分類、模型轉(zhuǎn)換等相關算法,建立光譜數(shù)據(jù)挖掘模型,如圖4所示。針對不同算法在具體應用場景的運行效率進行探索性分析,分析不同算法的適用性和效率,進一步加強學生對于大數(shù)據(jù)與數(shù)據(jù)挖掘相關技術的應用與探索分析能力。
圖4 基于MLlib的并行數(shù)據(jù)挖掘算法
一方面,通過將大數(shù)據(jù)相關技術與農(nóng)業(yè)領域的實際問題相結(jié)合,使用大數(shù)據(jù)框架、數(shù)據(jù)挖掘算法對大田作物不同水分處理的光譜數(shù)據(jù)進行特征分析和分類分析,建立基于大數(shù)據(jù)平臺的作物光譜特征分析與分類識別系統(tǒng),可以有效對大量作物光譜數(shù)據(jù)進行分布式存儲與并行數(shù)據(jù)挖掘,加快農(nóng)業(yè)光譜數(shù)據(jù)的分析與處理速度。另一方面,通過將大數(shù)據(jù)技術應用在具體的農(nóng)業(yè)信息學場景,可以提高學生對于大數(shù)據(jù)技術的學習興趣,培養(yǎng)學生的創(chuàng)新思維能力。此外,通過大學生創(chuàng)新創(chuàng)業(yè)項目,進一步將科研、教育、生產(chǎn)一體化,探索我國高校產(chǎn)學研合作發(fā)展的路徑與方法。
大數(shù)據(jù)技術專業(yè)實驗實訓教學需要將大數(shù)據(jù)相關技術與具體應用場景相結(jié)合,在培養(yǎng)大數(shù)據(jù)專業(yè)人才的同時,以大學生創(chuàng)新創(chuàng)業(yè)項目為驅(qū)動,將產(chǎn)學研合作的教學思想融入實踐實訓教學體系。在注重學生實際操作技能培養(yǎng)的同時,將創(chuàng)新應用和探索性研究融入實驗實訓教學,有利于培養(yǎng)學生自主學習和創(chuàng)新能力,同時也為應用型人才的培養(yǎng)探索新的發(fā)展路徑和培養(yǎng)方法。
創(chuàng)新創(chuàng)業(yè)理論研究與實踐2023年16期