李阿蕾,戴志剛,陳基權(quán),鄧燦輝,唐蜻,程超華,許英,張小雨,粟建光,楊澤茂
(中國農(nóng)業(yè)科學(xué)院麻類研究所,湖南長沙 410221)
植物表型包括從細胞層面、代謝層面到植株層面等由基因型和環(huán)境互作產(chǎn)生的生理生化及物理特征與外在可辨識的全部性狀,表型組學(xué)可以獲取生物體范圍內(nèi)所有高維表型數(shù)據(jù)[1],從基因水平的SNP、分子標記到轉(zhuǎn)錄組水平的DNA 甲基化、蛋白質(zhì)修飾,再到外觀特性水平的株型、抗性與產(chǎn)量等研究都屬于植物表型組學(xué)的范疇[2]。在可查閱到的最早文獻中,1997年Schork[3]在醫(yī)學(xué)領(lǐng)域首次提出表型組學(xué)的概念,起初只是為方便復(fù)雜疾病的研究,但近十幾年隨著對表型組學(xué)研究的深入,越來越多的研究領(lǐng)域引進表型組學(xué)的概念[4]。
在植物科學(xué)領(lǐng)域,傳統(tǒng)植物表型通常依靠人工或借助少量儀器測量統(tǒng)計植物相關(guān)性狀,不僅效率低,還需使用大量人力物力,誤差大、隨機性高、準確率低。隨著表型組學(xué)概念引入植物科學(xué)領(lǐng)域,植物表型組學(xué)研究也有了極大的進步。植物表型組學(xué)研究順應(yīng)潮流,逐步拋棄繁雜的人工統(tǒng)計,同信息科學(xué)有機結(jié)合。近年機器學(xué)習(xí)在人工智能方向發(fā)展迅速,作為人工智能中的重要組成,機器學(xué)習(xí)使用代表性數(shù)據(jù)訓(xùn)練的算法預(yù)估其他數(shù)據(jù)的輸出結(jié)果,其過程并不依賴人的主觀思想,是機器自主習(xí)得的算法[5]。
機器學(xué)習(xí)輔助植物表型研究流程主要分為獲取原始數(shù)據(jù)、數(shù)據(jù)預(yù)處理、特征數(shù)據(jù)提取與選擇、訓(xùn)練集評估和輸出預(yù)測數(shù)據(jù)等5 個步驟[6-7]。在原始數(shù)據(jù)獲取和數(shù)據(jù)處理方面,表型組學(xué)數(shù)據(jù)具有多態(tài)性(Variety)、時效性(Velocity)、數(shù)據(jù)量大(Volume)和高維度(High dimension)、高復(fù)雜性(High complexity)、高度不確定性(High uncertainty)的3V 和3H 特征[8],傳統(tǒng)表型獲取方法難以達到如此高的要求,但機器學(xué)習(xí)實時成像、存儲數(shù)據(jù)量大、速度快、準確性高的特征[7]和表型組學(xué)數(shù)據(jù)需求十分契合,能為表型數(shù)據(jù)獲取分析提供有力支持。在表型數(shù)據(jù)特征提取方面,原始表型圖片存在青苔和泥土等噪音干擾的問題[9],作為最常用機器學(xué)習(xí)圖片分割算法,K-means 等可對植物和噪音的光譜信息、顏色等信息進行分割,確保表型分割的準確性和有效性。訓(xùn)練集評估方面,機器學(xué)習(xí)有豐富的算法,植物識別、分類、病蟲害檢測甚至產(chǎn)量等表型研究指標,都可以在機器學(xué)習(xí)中找到適用算法。輸出預(yù)測數(shù)據(jù)方面,眾多研究結(jié)果顯示[10-12],機器學(xué)習(xí)輸出的植物表型模型準確率可達80%以上。未來植物表型的深入研究離不開同機器學(xué)習(xí)緊密結(jié)合,用機器學(xué)習(xí)輔助植物表型研究將會使植物表型研究范圍擴大,結(jié)果更可靠。
作為人工智能的重要一環(huán),機器學(xué)習(xí)通過學(xué)習(xí)人為輸入現(xiàn)有數(shù)據(jù)(圖片、語音和文本等),自主構(gòu)建對應(yīng)復(fù)雜的數(shù)據(jù)模型,以預(yù)測其他相似數(shù)據(jù)[13]。機器學(xué)習(xí)可分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩種方式:監(jiān)督學(xué)習(xí)是機器學(xué)習(xí)中最普遍的方式,通過對部分已添加標簽的數(shù)據(jù)進行訓(xùn)練后用來預(yù)測剩余數(shù)據(jù)的結(jié)果,在電子科技、地質(zhì)探索、生命科學(xué)等領(lǐng)域都有涉及;無監(jiān)督學(xué)習(xí)是將全部數(shù)據(jù)輸入,再由機器探尋各個數(shù)據(jù)之間相似與差異的地方,進而依照數(shù)據(jù)的特征將結(jié)果分類輸出,無監(jiān)督學(xué)習(xí)過程幾乎沒有人為因素參與。基于監(jiān)督和無監(jiān)督學(xué)習(xí),機器學(xué)習(xí)又演化出半監(jiān)督學(xué)習(xí)和強制學(xué)習(xí)等新型學(xué)習(xí)方式。
機器學(xué)習(xí)的多種算法都可應(yīng)用在植物表型研究中,既有單一算法,也有多種算法組合的多分類器(MCS)算法[14-17]。經(jīng)典單一算法有卷積神經(jīng)網(wǎng)絡(luò)(CNN)、支持向量機(SVM),除此還有K 近臨(KNN)、隨機森林(RM)和決策樹(DT)等算法。支持向量機、卷積神經(jīng)網(wǎng)絡(luò)、隨機森林泛用性廣,在植物識別、分類、預(yù)測等方面均適用,是最常用的機器學(xué)習(xí)算法。決策樹和隨機森林算法效果相似[18],可以很好地處理離散和回歸的問題,但隨機森林處理大數(shù)據(jù)效率低,適用于小數(shù)據(jù)集。K 近臨屬于半監(jiān)督學(xué)習(xí)[19],原理簡單,可處理大量數(shù)據(jù)[18],但準確率不如隨機森林。下面將著重介紹SVM、CNN 等代表性算法及多種分類器算法在植物表型研究中的應(yīng)用。
1.2.1 支持向量機(SVM)
支持向量機是機器學(xué)習(xí)最常用的算法,屬于監(jiān)督學(xué)習(xí)的一種,通過非線性變換將輸入數(shù)據(jù)映射到高維特征空間,以找到最優(yōu)線性邊界超平面,已成功應(yīng)用在各種植物病害識別的場景。因支持向量機算法對被黃龍病感染的柑橘葉片的分類效果好,Wetterich 等[20]在數(shù)據(jù)預(yù)處理中利用支持向量機提取的特征作類的輸入,采用歸一化圖切割對數(shù)據(jù)進行分割,共現(xiàn)矩陣提取紋理特征,開發(fā)出柑橘黃龍病感染快速檢測技術(shù),準確率高達90%。
1.2.2 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
人工神經(jīng)網(wǎng)絡(luò)(ANN)可以根據(jù)人類的期望結(jié)果來調(diào)整數(shù)據(jù)的輸入,被廣泛地應(yīng)用于以結(jié)果說明輸入的說明性分析。卷積神經(jīng)網(wǎng)絡(luò)(CNN)是人工神經(jīng)網(wǎng)絡(luò)的一種,擁有非常強大的圖像處理能力[21],在植物葉片分類中應(yīng)用廣泛[22]。Hao 等[23]首次建立了一套不同光強脅迫下的生菜葉片圖像,根據(jù)萵筍鮮重與光強脅迫的關(guān)系,將萵筍葉片分為4 類,構(gòu)建多尺度分層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)MFC-CNN 對葉片脅迫水平進行分級,通過對比實驗驗證模型的性能,發(fā)現(xiàn)采用融合策略的算法在葉片分類任務(wù)中十分有效。
1.2.3 多分類器算法應(yīng)用
相比于單一的機器學(xué)習(xí)算法,多種分類器結(jié)合算法具有更高的準確率和更廣泛的適用性。YANG 等[10]采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)算法對玉米籽粒霉變等級進行圖像特征分類提取,將K 近鄰(KNN)、支持向量機(SVM)和偏最小二乘判別分析(PLS-DA)分類器結(jié)合光譜和圖像特征建立玉米粒霉變分類模型,分類結(jié)果表明,結(jié)合多種分類算法的分類正確率可高達99%。由此可見,基于融合特征建立的機器學(xué)習(xí)方法能夠有效提高植株受害的識別能力。
Araujo 等[24]提出了一種基于葉片圖像紋理和形狀特征的多分類器系統(tǒng)(MCS),在4 個不同的特征集上訓(xùn)練不同的支持向量機和神經(jīng)網(wǎng)絡(luò)分類器,結(jié)果表明,結(jié)合多分類器是一種有效的植物自動識別策略,MCS 的識別性能比單片方法提高了28%。Massi 等[25]提出了一種基于神經(jīng)網(wǎng)絡(luò)和支持向量機分類器并行組合的多分類器系統(tǒng),對采葉蟲潛葉蠅、薊馬、土蜂番茄潛葉蛾3 種病蟲危害和早疫病、晚疫病和白粉病3 種真菌病的癥狀進行了6 類測試。與現(xiàn)有方法相比,多分類器方法具有較高的識別率。Dat 等[26]通過結(jié)合多模態(tài)CNN 的損失函數(shù),提出多種CNN 集成訓(xùn)練改進的藥草葉片識別技術(shù),用于基于集成學(xué)習(xí)的聯(lián)合學(xué)習(xí)多損失任務(wù),與單一CNN 算法相比,多集成器算法可以顯著提高準確率并有一定的魯棒性能。
隨著植物表型研究的深入發(fā)展,對表型數(shù)據(jù)的采集分析方式也提出了更高的要求,盡管有高光譜圖像、熒光成像、熱成像等多種表型數(shù)據(jù)采集的方法,但是采集過程中還會出現(xiàn)植物冠層干擾重疊、采集時間不同、光照強度不同等影響因素。機器學(xué)習(xí)開發(fā)出可移動采集車、無人機、雷達、衛(wèi)星等多種表型數(shù)據(jù)采集平臺,無論是室內(nèi)小空間還是戶外低空甚至高空等條件下均有相適配的采集平臺,且機器學(xué)習(xí)具有無人為主觀因素干擾、自動處理數(shù)據(jù)量大、結(jié)果準確率高等優(yōu)點,在植物研究的表型數(shù)據(jù)采集、分析和圖片處理等方面顯示出極強的優(yōu)勢。這里將介紹機器學(xué)習(xí)在植物育種、抗逆和識別中的應(yīng)用。
機器學(xué)習(xí)是科學(xué)研究常用的方法,在語言識別[27]、醫(yī)藥開發(fā)[28]、疾病診治[29-30]等方面都有成熟的研究方式,但在植物科學(xué)研究中該技術(shù)尚不成熟,多集中在作物產(chǎn)量預(yù)測方面。植物表型包括株高、葉型葉色、穗粒重、淀粉含量、糖分含量等各種質(zhì)量特性和品質(zhì)特性,如何準確快速地識別植物特征以及簡化田間育種流程,是植物育種主要的研究目標之一。
機器學(xué)習(xí)在植物產(chǎn)量預(yù)測中使用廣泛,Parmley 等[31]為研究大豆產(chǎn)量與不同耕作方式下表型性狀之間的關(guān)系,使用隨機森林算法訓(xùn)練大豆產(chǎn)量預(yù)測模型,利用不同生長時期的大豆冠層溫度、葉綠素含量、高光譜反射率、葉面積指數(shù)等表型特征確定變量的最佳時間組合。結(jié)果表明,機器學(xué)習(xí)方法可以用于確定農(nóng)業(yè)生產(chǎn)中特定的作物產(chǎn)量預(yù)測因子。作為2018年先正達作物挑戰(zhàn)賽的獲獎團隊,Khaki 團隊利用最先進的建模技術(shù),設(shè)計了深度神經(jīng)網(wǎng)絡(luò)(DNN)預(yù)測方法,結(jié)合9年2247個地點2267 個玉米品種的基因型和產(chǎn)量數(shù)據(jù),對2017年玉米產(chǎn)量進行預(yù)測,模型預(yù)測精度極高[32]。Silva Júnior 等[33]基于表型信息和先前已知的遺傳結(jié)構(gòu),利用計算智能和機器學(xué)習(xí)技術(shù),評估了主性狀的輔助性狀的重要性,利用計算智能和機器學(xué)習(xí)可以有效預(yù)測植物育種計劃中不同情景下輔助性狀的相對貢獻。
植物病害包括細菌性病害、真菌性病害和病毒性病害等生物脅迫和干旱、凍害等非生物脅迫病害,機器學(xué)習(xí)擁有強大的圖像處理技術(shù),可檢測識別多種植物病害圖像,且識別靈敏度高于人工鑒定,能在植物受害初期識別出病害,減少病害對植物的危害。
2017年Johannes 等[34]提出了一種通用的多疾病圖像處理算法,在識別小麥七星病、條銹病和褐斑病上取得較好的成果,2018年該團隊又依據(jù)原算法改進,利用基于深度殘差神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)算法,處理三年兩地的不同條件下的八千多張小麥3 種病害圖片,整體平衡精度從第一次的0.78 提高到0.87[35]。
玉米條大斑病是最常見的危害玉米生長發(fā)育的真菌性病害,Dechant 等[12]針對玉米條大斑病提出使用高通量圖片采集結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的方法,首先將光譜相機采集的圖片分割成數(shù)個熱圖,利用訓(xùn)練神經(jīng)網(wǎng)絡(luò)檢測圖像中受到條大斑病損傷的玉米葉片,再使用神經(jīng)網(wǎng)絡(luò)生成熱圖標注圖片中每個區(qū)域的感染率,最后使用熱圖對完整圖像進行分類,結(jié)果證實該系統(tǒng)可靠性高,試驗結(jié)果準確率可高達96.7%。
除在農(nóng)作物抗逆方面應(yīng)用外,機器學(xué)習(xí)的多種算法在功能性植物上也有成功運用案例。作為具有經(jīng)濟和藥用價值的模式植物,煙草生長過程中常遇到煙草花葉病毒病、炭疽病等影響煙草產(chǎn)量的病害,ZHU 等[36]利用高光譜成像系統(tǒng)采集感染病害的煙草葉片圖像,以葉片紋理特征為依據(jù),使用反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)、極限學(xué)習(xí)機(ELM)和最小二乘支持向量機(LS-SVM)模型進行葉片病害識別檢測,準確率達到95%以上。
除了通過表型性狀鑒定來提高作物育種效率外,機器學(xué)習(xí)還可對農(nóng)田中的植物進行鑒別,識別作物和周圍的雜草,及時報告雜草對農(nóng)作物生長的影響,避免農(nóng)作物產(chǎn)量下降[37]。
Brahimi 等[38]使用卷積神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)算法訓(xùn)練受到病害的番茄葉子分類模型,準確率高達99.18%。與支持向量機、K 近臨等基礎(chǔ)機器學(xué)習(xí)方法相比,深度學(xué)習(xí)識別植物病蟲害準確率更高。機器學(xué)習(xí)方法同高光譜圖像采集技術(shù)研究在植物耐逆性研究中應(yīng)用較少,且大部分模型被應(yīng)用于病蟲害、病毒感染等生物脅迫方面。
2021年,Nesteruk 等[11]在歐洲采取遠程調(diào)控技術(shù)對南極溫室EDEN ISS 內(nèi)植物進行分類試驗,由于通信的限制,他們使用圖像壓縮方法傳輸高通量數(shù)據(jù),平均7.2 次/s 的傳輸速度,將機器學(xué)習(xí)應(yīng)用于植物分類技術(shù),雖然壓縮圖片傳輸方法可能導(dǎo)致圖片失真,但試驗結(jié)果準確率仍達到了92.6%,此項技術(shù)不僅在傳輸距離上有新的突破,還首次選擇壓縮圖像技術(shù)傳輸數(shù)據(jù)集。
SUN 等[39]基于手機采集圖像自主設(shè)計了一個26 層的深度學(xué)習(xí)模型,使用該模型對北京林業(yè)大學(xué)內(nèi)100 種觀賞植物的10 000 張圖像進行分類,識別準確率達到了91.78%。Pushpanathan等[40]使用幾種高性能深度學(xué)習(xí)算法對藥用植物進行自動分類,提出一個由馬來西亞12 種不同的高藥用價值植物的34 200 幅圖像組成的數(shù)據(jù)集。該數(shù)據(jù)集由不同比例、不同照明強度和不同角度的數(shù)據(jù)組成,可為高級分類研究創(chuàng)造更多的機會。
目前,機器學(xué)習(xí)和表型組學(xué)結(jié)合技術(shù)尚在起步階段,相關(guān)研究少且集中于基礎(chǔ)研究。植物表型組學(xué)是一個龐大的概念,從DNA 到染色體、細胞、組織再到表型都屬于表型組學(xué)的研究范圍,表型組學(xué)包含的表型層次類型豐富,但機器學(xué)習(xí)僅在植物病害監(jiān)測、分類中有所應(yīng)用,植物分子層面研究尚不深入。機器學(xué)習(xí)算法眾多,優(yōu)缺點各不相同[41],支持向量機、神經(jīng)網(wǎng)絡(luò)和隨機森林所訓(xùn)練出的模型準確率高,是最為常用的機器學(xué)習(xí)模型,但是支持向量機不能有效地處理多分類問題,隨機森林可以用于處理多分類問題但效率過低,決策樹雖然使用方便,但結(jié)果會出現(xiàn)過擬合風險,樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)運行時有無法人為控制的“黑箱”因素,模型擬合結(jié)果可靠性一般。
在進行植株表型數(shù)據(jù)采集時,機器學(xué)習(xí)還須注意選取合適的采集方法,常用的有高光譜圖像、熒光圖像[42]、紅外光譜、熱成像[43]、RGB 成像。高光譜圖像是最常用的采集方式,可采集植物生化組成、水分含量、葉綠素含量等信息,精度高;紅外光譜、熱成像技術(shù)常用在監(jiān)測植物生長變化,獲得植株表面溫度、氣孔導(dǎo)度和蒸騰作用等表型;RGB 圖像可獲得植物紋理、形態(tài)和顏色等信息[44]。表型信息采集方式是影響機器學(xué)習(xí)輸出模型準確率的因素之一。
與植物表型結(jié)合對機器學(xué)習(xí)采集數(shù)據(jù)平臺提出了更高的要求。現(xiàn)已開發(fā)出多種適合機器學(xué)習(xí)采集植物表型平臺,例如:與小分子蛋白篩選相適應(yīng)的高通量篩選系統(tǒng)[45],針對植株根系研制的根系表型采集平臺(Root phenotyping platforms)[46],近地端和航空航天超遠距離都適用的植物表型采集平臺HT3P[47]等。選擇與目標表型相適應(yīng)的采集平臺不僅可以提高機器模型準確度,還可以提升表型數(shù)據(jù)采集的通量,進行精確的抗病育種與類別鑒定。
本文概括了植物表型組學(xué)的研究范疇,梳理了機器學(xué)習(xí)的定義、分析流程和相關(guān)算法的優(yōu)劣類別,重點從植物育種、抗逆和識別3 個方面介紹機器學(xué)習(xí)在植物表型研究中的應(yīng)用。盡管機器學(xué)習(xí)在植物表型領(lǐng)域剛剛起步,理論研究尚不充實,模型擬合結(jié)果可靠性有待進一步提升,但機器學(xué)習(xí)和植物表型組學(xué)的交叉融合展現(xiàn)出廣闊的前景,在識別植物病蟲害等問題中表現(xiàn)突出,將來機器學(xué)習(xí)會出現(xiàn)更全面、多層次表型獲取平臺,結(jié)合繁多的表型獲取技術(shù),涵蓋植物表型研究方方面面,助力智慧農(nóng)業(yè)發(fā)展。