王志毅 王嘉佩 杜愛軍 劉麗霞 喻寶龍 王旭
(重慶市氣象臺(tái),重慶 401147)
在為茶葉生產(chǎn)的氣象服務(wù)中,大部分茶葉生產(chǎn)企業(yè)沒有開展專門的茶葉物候期觀測(cè),只有每年的開采日期的簡(jiǎn)單記錄,因而無法形成全面的茶葉生長(zhǎng)物候期與氣象要素相關(guān)聯(lián)的關(guān)鍵性資料,不便于建立茶葉生長(zhǎng)物候期預(yù)測(cè)模型以進(jìn)行物候期預(yù)測(cè),也不便于探尋茶葉品質(zhì)與氣候條件的關(guān)系以進(jìn)行茶葉品質(zhì)認(rèn)證。為了全面開展茶葉氣象服務(wù)以提高企業(yè)生產(chǎn)效益,進(jìn)行茶葉物候期自動(dòng)判別的研究就顯得非常有必要。
本研究的主要目的是利用多年來安吉白茶實(shí)景監(jiān)控資料,基于機(jī)器學(xué)習(xí),建立物候期自動(dòng)判別模型,同時(shí)結(jié)合同期的氣象觀測(cè)數(shù)據(jù),建立白茶物候期預(yù)測(cè)模型,從而開展業(yè)務(wù)服務(wù)。此項(xiàng)研究可減少茶葉物候期觀測(cè)的人力成本及經(jīng)濟(jì)的投入,科學(xué)和智能地提高企業(yè)生產(chǎn)效益。
研究采用了監(jiān)督學(xué)習(xí)的方法來對(duì)白茶生育期識(shí)別問題進(jìn)行建模,在模型的訓(xùn)練階段需要圖像、積溫以及其所屬的生長(zhǎng)物候期作為標(biāo)注信息輸入模型訓(xùn)練參數(shù)。
yolov3-tiny模型是深度學(xué)習(xí)中計(jì)算機(jī)視覺領(lǐng)域應(yīng)用得比較廣泛的模型,適用于對(duì)圖像上的特定目標(biāo)進(jìn)行檢測(cè)(例如:茶葉圖像中茶葉發(fā)芽區(qū)域的位置檢測(cè)),同時(shí)還可以進(jìn)行分類,其對(duì)圖像分類的功能適用于茶樹生長(zhǎng)期識(shí)別任務(wù)由于yolov3-tiny模型用于目標(biāo)檢測(cè)和分類,而本研究的目的只是進(jìn)行分類,目標(biāo)檢測(cè)過程已經(jīng)由圖像預(yù)處理的裁剪過程代替,所以對(duì)yolov3-tiny模型進(jìn)行了改變,同時(shí)將氣象數(shù)據(jù)和圖像特征進(jìn)行融合,去掉了yolo層(目標(biāo)識(shí)別的模型名稱),而且對(duì)氣溫?cái)?shù)據(jù)進(jìn)行融合。
白茶茶園的監(jiān)控圖像來源于氣象部門的網(wǎng)站,選取2016—2019年白茶生長(zhǎng)物候期內(nèi)每天3張的監(jiān)控圖像,即大約每年2月下旬—5月上旬,使用的原始圖像合計(jì)約500張。
茶樹生長(zhǎng)的氣象環(huán)境數(shù)據(jù)主要是來源于區(qū)域自動(dòng)氣象觀測(cè)站觀測(cè)的溫度數(shù)據(jù),數(shù)據(jù)的觀測(cè)日期與圖像生成日期一一對(duì)應(yīng)。
1)裁剪圖像
yolov3-tiny模型包含了卷積神經(jīng)網(wǎng)絡(luò)(CNN),在yolov3-tiny模型中CNN的各層參數(shù)設(shè)置是按模型的選擇來進(jìn)行設(shè)定的,其輸入是416×416的圖像,通過CNN可以提取到很多用于分類的特征,而這些特征是傳統(tǒng)圖像特征提取方法難以提取,但又對(duì)圖像分類貢獻(xiàn)比較大的特征。此次模型選擇“深度學(xué)習(xí)法”作為提取圖像特征的方法,用卷積神經(jīng)網(wǎng)絡(luò)CNN來提取圖像的特征,選取的CNN網(wǎng)絡(luò)的輸入是416×416的圖像。
用于研究的原始圖像尺寸是1600×1200(寬×高),對(duì)于CNN的輸入而言,原始圖像的尺寸顯然較大,并且500張圖像的數(shù)量少,不宜直接輸入CNN網(wǎng)絡(luò)提取特征并訓(xùn)練。例如,任意選取一張?jiān)紙D像(圖1)。
圖1 監(jiān)控相機(jī)拍攝的茶樹圖像(1600×1200)Fig. 1 Tea tree image taken by surveillance camera(1600×1200)
圖1 中存在部分干擾識(shí)別的物體,如白色的圍欄。而對(duì)于白茶生育期識(shí)別分類的關(guān)鍵信息是發(fā)芽中心一定區(qū)域的圖像特征,基于以上思路,首先需要對(duì)原始圖像進(jìn)行特定區(qū)域的裁剪。
根據(jù)圖像的實(shí)際情況(每年攝像機(jī)取景的遠(yuǎn)近和角度不同),選擇了5~10個(gè)圖像中有白茶集中生長(zhǎng)的區(qū)域,即在發(fā)芽點(diǎn)和附近一定范圍的區(qū)域進(jìn)行裁剪。以此初步剔除一些對(duì)物候期判斷會(huì)產(chǎn)生干擾的圖像內(nèi)容,同時(shí)產(chǎn)生更多的圖像,在數(shù)量上保證網(wǎng)絡(luò)提取特征和訓(xùn)練學(xué)習(xí)的準(zhǔn)確度。裁剪的尺寸選擇的CNN接受輸入圖片的尺寸,即416×416。經(jīng)過這一步的處理,可以得到了約5000張圖像的數(shù)據(jù)集。經(jīng)裁剪處理后的圖像見圖2。
圖2 裁剪后的茶樹圖像(416×416)Fig. 2 Cropped tea tree image (416×416)
2)圖像生育期標(biāo)注
由專業(yè)人員對(duì)這些圖像進(jìn)行生育期的標(biāo)記,從而進(jìn)行有監(jiān)督的學(xué)習(xí)。使每一張圖像都對(duì)應(yīng)有時(shí)間信息(年月日)和生育期分類標(biāo)注信息(表1)。
表1 生育期標(biāo)注對(duì)應(yīng)關(guān)系Table 1 Corresponding relation of growth period labeling
在進(jìn)行生育期標(biāo)注時(shí),分別嘗試三分類(表2)和四分類(表3)2種方法。
表2 三分類方法的類別劃分Table 2 Categories of the three classification methods
表3 四分類方法的類別劃分Table 3 Categories of the four classification methods
3)氣象數(shù)據(jù)的融合
只利用從圖像提取的特征進(jìn)行分類會(huì)出現(xiàn)錯(cuò)分跨度比較大的問題,而白茶的生長(zhǎng)和氣象因素關(guān)系密切,因此考慮在模型中融入氣象數(shù)據(jù)進(jìn)行優(yōu)化。研究發(fā)現(xiàn),溫度是影響植物生長(zhǎng)的關(guān)鍵因素,而溫度對(duì)植物的生長(zhǎng)有一個(gè)累積的效應(yīng),所以研究對(duì)于溫度的處理采取積溫的方式,同時(shí)產(chǎn)生序列化的數(shù)據(jù),降低只由圖片特征進(jìn)行分類帶來的錯(cuò)誤率。因此,將白茶生長(zhǎng)地的溫度數(shù)據(jù)進(jìn)行累積處理和0-1標(biāo)準(zhǔn)化處理后再拼接到所對(duì)應(yīng)的圖像特征上。由于一天采集了3天圖像,并且對(duì)圖像進(jìn)行了剪裁,所以圖像特征會(huì)拼接對(duì)應(yīng)當(dāng)天的積溫特征。
將圖像特征提取得到的向量特征通過兩次全連接后轉(zhuǎn)化為64×1的特征向量。然后將拍攝圖像當(dāng)天的積溫?cái)?shù)據(jù)拼接到溫度數(shù)據(jù)之后,得到一個(gè)65×1的向量,表示圖像特征和氣象溫度特征融合之后的特征。
利用TensorFlow框架(此框架可以理解為編寫深度學(xué)習(xí)模型的實(shí)現(xiàn)代碼帶來便捷的一種工具,使用此框架可以更高效地實(shí)現(xiàn)模型,減少代碼量)。構(gòu)建CNN特征提取網(wǎng)絡(luò)和分類網(wǎng)絡(luò),根據(jù)白茶生長(zhǎng)物候期的萌芽期、一芽一葉期、一芽多葉期、白茶轉(zhuǎn)綠期的分類,利用圖像數(shù)據(jù)得到三分類和四分類結(jié)果,同時(shí)對(duì)于是否融合氣象數(shù)據(jù)的實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比,多次測(cè)試取平均值得到分類準(zhǔn)確率(表4)。
表4 分類方法的準(zhǔn)確率Table 4 Accuracy of classification method
沒有融合氣象數(shù)據(jù),沒有進(jìn)行圖像增強(qiáng)的三分類準(zhǔn)確率為78%,融合氣象數(shù)據(jù)的四分類準(zhǔn)確率為83%,融合氣象數(shù)據(jù)和進(jìn)行圖像增強(qiáng)的四分類結(jié)果為72%。 可見氣象數(shù)據(jù)的融合可以提高分類的準(zhǔn)確率,主要減少了跨度較大的誤分類的出現(xiàn)。但是在四分類的情形下,由于各個(gè)分類的數(shù)據(jù)量有不均衡的情況,以及植物生長(zhǎng)的連續(xù)性造成的人工標(biāo)注的困難,其準(zhǔn)確率比三分類低。對(duì)比數(shù)據(jù)表明,加入氣象數(shù)據(jù)作為輔助特征比單一使用圖像特征的準(zhǔn)確率更高,減少了鄰近分類的誤分類的情況。
本研究通過利用深度學(xué)習(xí)的方法建立一個(gè)自動(dòng)判別模型來識(shí)別白茶生長(zhǎng)物候期,實(shí)驗(yàn)通過深度學(xué)習(xí)的方法來將白茶的圖像作為輸入,使用卷積神經(jīng)網(wǎng)絡(luò)CNN來提取圖像特征,然后在此基礎(chǔ)上進(jìn)行分類從而實(shí)現(xiàn)對(duì)圖像內(nèi)白茶生長(zhǎng)物候期的識(shí)別,再融合氣象特征對(duì)識(shí)別效果進(jìn)行優(yōu)化,從而得出了準(zhǔn)確率較高的識(shí)別模型。通過實(shí)驗(yàn),此模型能夠?qū)D像內(nèi)的白茶所處的生長(zhǎng)物候期進(jìn)行準(zhǔn)確的識(shí)別。
茶葉的生長(zhǎng)除積溫外,還會(huì)受光照、空氣濕度、土壤含水量、日較差等其他氣象要素影響。在下一步研究中,可以在模型中融合進(jìn)更多的氣象數(shù)據(jù)以完善“由白茶圖像自動(dòng)判別生長(zhǎng)物候期的模型”,進(jìn)一步提高模型識(shí)別準(zhǔn)確率。
Advances in Meteorological Science and Technology2021年2期