司永勝 曹珊珊 張曉雪 籍 穎 呂繼興
(河北農(nóng)業(yè)大學河北省農(nóng)業(yè)大數(shù)據(jù)重點實驗室, 保定 071001)
苦痘病是在蘋果收獲和存儲期間容易產(chǎn)生的一種病害,一些果園的苦痘病發(fā)病率高達50%以上,給蘋果生產(chǎn)者造成了很大的經(jīng)濟損失[1-2]。苦痘病發(fā)病開始時,患病部位皮下的部分果肉發(fā)生褐變,并干縮成海綿狀,病部表皮組織壞死,病害組織部位逐步變?yōu)榘岛稚?,向?nèi)凹陷并逐步深入果肉[2]。一般認為苦痘病的發(fā)生和蘋果的鈣元素缺乏及氮濃度較高有關(guān),但目前還沒有完全揭示該病的原理[3-4],甚至還有一些研究結(jié)果相互矛盾[5-7]??喽徊z測手段的局限性制約了苦痘病的研究進展,在對苦痘病的相關(guān)研究中,需要對患病蘋果以及患病部位進行準確識別。目前,對苦痘病的患病與否及嚴重程度主要通過人眼根據(jù)果實表面的病斑數(shù)量和尺寸進行判別[8-9]。然而,在發(fā)病初期,苦痘病在果實外部沒有癥狀,所以很難識別患病初期的果實[10]。
熒光成像技術(shù)曾被應用于蘋果的苦痘病檢測,但錯誤率較高,健康果實和患病果實的誤識別率約為50%[11]。高光譜近紅外成像系統(tǒng)也被成功應用于研究蘋果的苦痘病病變[12]。這兩項研究是針對蘋果表面的苦痘病癥狀進行檢測。上述這些方法主要基于果實表皮或表皮很淺部位的信息,無法獲取到果實內(nèi)部苦痘病的信息[10,12-13],因此,對苦痘病的識別準確率不高,并且不能識別患病早期的苦痘病果實。
CT(Computerized tomography)全稱為電子計算機斷層掃描,堆疊的CT圖像數(shù)據(jù)可以提供生物物質(zhì)的物理和生理結(jié)構(gòu)信息。文獻[14-16]利用CT技術(shù)對蘋果的酸度、可溶性固形物等內(nèi)部品質(zhì)進行了研究,取得了一定的成果。蘋果苦痘病的成因和鈣元素的濃度有關(guān),果實的苦痘病部位和健康部位鈣元素濃度不同,因此,患病部位和健康部位在CT圖像中應該有不同的顯現(xiàn)?;诖思僭O,文獻[10]基于CT成像技術(shù)利用邏輯回歸對貯存期的苦痘病蘋果和健康蘋果進行了成功分類,但是成功率較低,總體精度為70%, 假陽性為38%, 假陰性為22%,果實磕碰傷是影響準確率的主要因素。文獻[17]利用CT成像技術(shù)對苦痘病在果實表面和果實內(nèi)部的發(fā)展情況進行了研究,對不同的患病部位進行識別,和文獻[10]研究類似,果實的磕碰傷影響了研究的準確性。蘋果在采后貯運過程中經(jīng)常會受到輕微的擠壓、振動、碰撞等,從而造成磕碰傷。磕碰傷在早期難以識別,隨著時間的推移,微生物、病原體等會入侵蘋果的磕碰傷部位,從而導致蘋果腐爛[18]。
為了更深入地研究苦痘病的發(fā)病機理,需要對病害的產(chǎn)生、發(fā)展進行持續(xù)、準確、量化的無損檢測。此外,為了培育抗苦痘病的蘋果品種,育種專家開始嘗試利用基因技術(shù)等手段[5,10]。上述研究中對蘋果苦痘病的量化以及對新品種蘋果的抗苦痘病表型研究,都需要苦痘病準確識別技術(shù)的支持。文獻[10]研究表明,磕碰傷影響了蘋果苦痘病識別的準確率。
本文基于CT成像技術(shù),實現(xiàn)苦痘病和磕碰傷的識別,以期提高蘋果苦痘病的識別率,為蘋果苦痘病的研究提供技術(shù)支持。
從市場購買56個富士蘋果,其中外表健康蘋果27個,外表有微小苦痘病病斑蘋果29個,將所有蘋果隨機分于A、B兩箱放置。A箱中存放32個蘋果,每層8個蘋果,共4層。B箱中存放24個蘋果,每層8個蘋果,共3層。擺放時,保證每個蘋果都是花萼朝下,果頂朝上。不同層蘋果都有泡沫隔板隔開,以免蘋果產(chǎn)生擠壓。為便于后期識別,每個蘋果用記號筆標有序號。
將蘋果貯存在3℃的冷藏室中放置10 d,苦痘病病斑略有增大,患病蘋果表皮病斑直徑最大約為4 mm。從兩箱蘋果中取出健康果12個、患病果16個進行磕碰傷實驗,實驗方法與文獻[20]類似:將蘋果由30~40 cm高度自由跌落到瓷磚地面,蘋果磕碰位置隨機??呐龊蟮奶O果放回箱子原位置??呐鰝麨閮?nèi)部損傷,蘋果表面沒有破損,人眼不容易辨別正常表面和損傷。隨后由醫(yī)院的CT設備操作人員將兩箱蘋果放入CT機進行掃描,獲取蘋果的CT圖像。圖1為蘋果的擺放示例圖。CT機的型號為飛利浦Brilliance iCT。本文的數(shù)據(jù)處理與分析采用Matlab 2017a軟件。
掃描后得到337幀CT掃描圖像,每幀掃描圖像中包含多個蘋果,將337幀圖像裁剪為1 094幅子圖像,使每幅子圖像包含1個蘋果。具體裁剪方法如下:
利用OTSU法進行二值化后,對二值圖像進行區(qū)域標記,并去除面積小于500像素的區(qū)域[21]。然后對區(qū)域標記后的圖像中的所有區(qū)域求取最小外接矩形[10],如圖2所示,根據(jù)最小外接矩形的位置并將所有邊長增加50像素進行裁剪,則可得到只包含1個蘋果的子圖像。
根據(jù)蘋果體積的不同,每個蘋果有5~11幅子圖像,將每個蘋果的子圖像按序號和掃描出的順序重新命名。本文基于上述子圖像進行研究。
將圖像中苦痘病和蘋果磕碰傷區(qū)域定義為傷病區(qū)域,為便于后期的特征提取和分類識別,需準確定位蘋果圖像內(nèi)部的傷病區(qū)域。在面積大于5 000像素的果實圖像中,存在果核。蘋果果核和傷病區(qū)域顏色類似,在自動定位傷病區(qū)域時會造成干擾。苦痘病一般不出現(xiàn)在蘋果果核部位[10],故對果核部分進行去除。首先對圖像進行中值濾波后提取果實的邊緣,計算果實質(zhì)心到邊緣像素的距離并取均值,將其視為果實半徑。以質(zhì)心為圓心,以果實半徑為半徑畫圓,將圓內(nèi)的像素轉(zhuǎn)換為背景,從而去除果核。去除果核后的傷病區(qū)域與圖像其他部分的灰度值有明顯差異,利用OTSU法進行圖像二值化,得到傷病區(qū)域的定位。圖3為傷病區(qū)域定位過程。
特征信息的提取與選取對分類識別結(jié)果有很大影響,對原始圖像預處理后,本文提取了傷病區(qū)域的形狀特征、紋理特征和位置特征,共18種特征信息[22],見表1。并得到一個108行、18列的特征矩陣,其中屬于蘋果苦痘病的特征信息57組,屬于磕碰傷的特征信息51組。
表1 特征信息Tab.1 Feature information
表1所述特征中, 需要對位置特征的確定進行說明:根據(jù)預處理時去果核操作,得到蘋果果核上下頂點坐標,以上下頂點坐標左右延長作直線,得到圖4中的直線L1和直線L2。以直線L1和直線L2作為分界線,將蘋果CT圖像進行大致均等分割,直線L1以上部分蘋果的莖端標記為1,直線L1與直線L2之間蘋果中部標記為2,直線L2以下部分蘋果的花萼末端標記為3。根據(jù)蘋果苦痘病和磕碰傷所處位置提取位置特征。當傷病區(qū)域橫跨在分界線L1或L2上時,根據(jù)傷病區(qū)域所在部分面積最大確定位置特征。
特征信息的選取對識別準確率有很大影響。本文采用多元逐步回歸(Stepwise multiple linear regression,SMLR)和基于類距離的可分離性判據(jù)兩種方法對特征信息進行選取,以選取的共同特征信息作為本文的特征信息,用于對蘋果苦痘病和磕碰傷識別。
1.4.1多元逐步回歸
多元逐步回歸是研究多個變量之間相互依賴關(guān)系的優(yōu)化方法。其原理[23]為,從一個解釋變量出發(fā),根據(jù)解釋變量對被解釋變量影響顯著性,從大到小引入回歸方程,同時將對被解釋變量影響不顯著的解釋變量剔除。當引入一些解釋變量導致之前的解釋變量失去重要性時,也將其從回歸方程中剔除,直到回歸方程中只包含對被解釋變量有顯著影響的變量Y。多元逐步回歸方程為
Y=β0+β1x1+β2x2+…+βpxp
(1)
式中p——解釋變量個數(shù)
βp——回歸方程各指標的回歸系數(shù)
xp——解釋變量
Y——被解釋變量
1.4.2基于類距離的可分離性判據(jù)
在進行特征選取時,需依據(jù)一個定量分析的方法衡量特征信息對分類的有效性,這種方法被稱為類可分離性判據(jù)[24]。依據(jù)類可分離性判據(jù)對這些特征信息進行特征選取,選擇一個能最大化分類性能且之間冗余性最小的特征子集[25]。
類可分離性判據(jù)大體分為基于幾何距離的可分離性判據(jù)、基于類的概率密度函數(shù)的可分離性判據(jù)與基于熵的可分離性判據(jù)。由于本文提取的特征信息是多特征、非線性的,故使用基于幾何距離的可分離性判據(jù)中類距離的可分離性判據(jù)進行特征信息選取?;陬惥嚯x的可分離性判據(jù)是一種常用的判據(jù),它實際上是各類特征向量之間的平均距離,即特征向量之間的矩陣距離,特征信息之間的類距離越大則該特征越易于分類[26]。
1.5.1支持向量機
采用構(gòu)建支持向量機模型對蘋果苦痘病和磕碰傷進行識別。支持向量機是常用的分類方法,其泛化能力強,可以有效避免過擬合、神經(jīng)網(wǎng)絡中的局部最小化,以及樣本維數(shù)高導致的計算量大的問題[27-28]。
對于線性不可分數(shù)據(jù)集[xi,yi],xi∈Rn,yi∈{-1,1}。此時支持向量機為求解一個最優(yōu)化問題
(2)
式中ξ——松弛變量
c——正則化參數(shù)
ω——權(quán)值向量,決定了超平面的方向
b——偏置向量
引入Lagrange乘子法求解上述方程,并分別對ω、b求偏導數(shù)令其等于零,根據(jù)求解對偶問題,得到最終表達式為
(3)
式中ai、aj——Lagrange乘子
K(xi,xj)——核函數(shù)
支持向量機核函數(shù)中,徑向基核函數(shù)適用于非線性問題分類,對于大樣本或小樣本,都有較好的性能,其計算復雜度不隨著參數(shù)變化發(fā)生改變[27-29]。本文采用徑向基核函數(shù)構(gòu)建支持向量機模型,其表達式為
K(xi,xj)=exp(-γ‖xi-yj‖2) (γ>0)
(4)
式中γ——可調(diào)核參數(shù),默認值為1/7
1.5.2遺傳算法優(yōu)化支持向量機參數(shù)
正則化參數(shù)c和核參數(shù)γ對于支持向量機模型的識別結(jié)果有較大影響[30]。因此在使用支持向量機模型進行識別時,需要對正則化參數(shù)c和核參數(shù)γ進行調(diào)節(jié)和優(yōu)化。默認參數(shù)的支持向量機在進行參數(shù)選擇時,多是用網(wǎng)格遍歷等方法確定,效率低,耗時長。
遺傳算法(Genetic algorithm, GA)是一種模擬自然進化過程搜索最優(yōu)解的方法,具有高效、并行、全局搜索等優(yōu)點,在搜索過程中依據(jù)優(yōu)勝劣汰原則,信息交換隨機,會自動獲取積累空間的信息知識而得到最佳值[31]。采用遺傳算法優(yōu)化支持向量機,找到參數(shù)c和γ的最優(yōu)解。
算法步驟如下:
(1)種群初始化:采用7位長度的二進制字符串對正則化參數(shù)c和核參數(shù)γ進行編碼。
(2)適應度函數(shù):本文將K-fold交叉驗證的SVM分類準確率作為適應度函數(shù)值,初始化的個體值(c和γ)作為K-fold交叉驗證的輸入,K-fold交叉驗證法是將原始樣本分成K組,將每個子集樣本分別作為一個測試集,其余K-1組樣本作為訓練集,得到K個SVM分類模型,用這K個模型最終測試集的平均分類準確率作為適應度函數(shù)輸出值。根據(jù)交叉驗證分類準確率的升序排序位置,將適應度函數(shù)輸出值映射到0~100%之間,映射公式為
(5)
式中R——平均分類準確率的升序排序位置
N——種群數(shù)量,取20
F——適應度
(3)選擇操作:設定適應度篩選閾值為20%,淘汰適應度小于20%的個體,選擇優(yōu)良個體進行后續(xù)操作。
(4)交叉、變異操作:使用單點交叉,設定交叉概率為0.7,隨機產(chǎn)生交叉點并交換兩父代的右半部分;使用二進制變異,設定變異概率為0.035,對進行變異的個體隨機選擇變異位進行變異,將染色體二進制位邏輯取反。經(jīng)過交叉和變異產(chǎn)生新的個體,補全種群數(shù)量,增強算法全局搜索能力。
經(jīng)過上述遺傳算法優(yōu)化選擇后,得到正則化參數(shù)c和核參數(shù)γ最佳組合,將其引入支持向量機模型中,以提高支持向量機模型的識別準確率。
采用多元逐步回歸和類距離可分離性判據(jù)對提取到的蘋果苦痘病和磕碰傷處的特征信息進行選取。將這2種方法選取得到的共同特征信息作為本文的選用特征信息,用于后續(xù)對蘋果苦痘病和磕碰傷的識別。
將18種特征信息作為解釋變量依次引入多元逐步回歸模型,得到了4種對被解釋變量即真實值影響最顯著的特征信息,分別為 Position、Metricl、MajAxisL、Mmin,其顯著性差異P<0.05(具有極其顯著的統(tǒng)計學差異)。
采用類距離可分離性判據(jù)對18種特征信息選取,圖5為這18種特征信息的類距離,圖中,1~18分別表示Area、MajAxist、MinAxisL、Orie、Eccent、Conve、Filled、EquivD、Extent、Perimeter、Metricl、Grayaver、Varie、Mmax、Mmin、Ment、Solidity、Position。根據(jù)類距離,選取前5種類距離較大的特征信息,分別為Metricl、MajAxisL、Eccent、Position、Solidity。
結(jié)合多元逐步回歸和類距離的可分離性判據(jù)對特征信息的選取結(jié)果,選取共同特征信息,得到3種對蘋果苦痘病和磕碰傷識別影響顯著的特征信息,分別為Position、Metricl 、MajAxisL。繪制出相應的特征數(shù)據(jù)可視化圖,將蘋果苦痘病和磕碰傷分別用不同的顏色標出,更加直觀地觀察這3種特征信息的分布。圖6為這3種特征的數(shù)據(jù)可視化圖。
從Position上可以看出,苦痘病的病害部分大部分都發(fā)生于花萼末端, 即花萼部位,其它位置有極少量分布,這和文獻[2]的研究相符,盡管隨機選取位置進行磕碰,但是磕碰傷大多分布在中部,這可能和評估的形狀相關(guān)。特征信息Metricl和MajAxisL均屬于形狀特征,結(jié)合2種特征數(shù)據(jù)可視化圖可以看出,蘋果苦痘病似圓度與標準二階中心矩橢圓長軸長度的數(shù)據(jù)和蘋果磕碰傷的似圓度與標準二階中心矩橢圓長軸長度的數(shù)據(jù)相比較小,且在標準二階中心矩橢圓長軸長度中磕碰傷的數(shù)據(jù)最大可接近40像素。由此可以得知蘋果苦痘病的形狀與磕碰傷相比更規(guī)則,這是因為磕碰傷的產(chǎn)生比較隨機,因此形成的磕碰傷形狀各異。
根據(jù)以上分析,特征信息Position、Metricl、MajAxisL可用于作為識別分類蘋果苦痘病和磕碰傷的特征信息。
為了保證數(shù)據(jù)的真實可靠性,對應蘋果標號,將含有傷病的蘋果進行實際切片處理,切片時對照蘋果CT圖像,保證傷病區(qū)域可以在蘋果切面顯現(xiàn)??喽徊〔“叨嘤趦?nèi)部發(fā)生,所處深度距蘋果表面約3 mm。由3位蘋果園藝專家根據(jù)蘋果苦痘病及磕碰傷的病理特征,對蘋果切面上的傷病區(qū)域進行鑒別,將鑒別結(jié)果作為真實值。在構(gòu)建蘋果苦痘病和磕碰傷識別模型時,首先將108組蘋果苦痘病和磕碰傷數(shù)據(jù)按7∶3和8∶2的比例隨機分為訓練數(shù)據(jù)和測試數(shù)據(jù);之后分別使用默認參數(shù)的支持向量機和遺傳算法優(yōu)化的支持向量機(GA-SVM)建立蘋果苦痘病和磕碰傷的識別模型,使用訓練數(shù)據(jù)對模型進行訓練,利用測試數(shù)據(jù)對模型進行測試。
默認參數(shù)的支持向量機對蘋果苦痘病和磕碰傷的識別結(jié)果總體準確率高于84%,平均誤差為14.6%。遺傳算法優(yōu)化的支持向量機對蘋果苦痘病和磕碰傷的識別結(jié)果總體準確率高于93%,平均誤差為5.4%。
默認參數(shù)的支持向量機誤識別的主要原因是傷病區(qū)域特征信息具體數(shù)據(jù)值分布特點不明顯,以及正則化參數(shù)c和核參數(shù)γ值不恰當導致對支持向量機泛化能力的影響。如圖7所示,通過3名蘋果園藝專家鑒別,此傷病區(qū)域為苦痘病,極易被誤判為磕碰傷,其特征信息Position 為1、Metricl為0.543 6、MajAxisL為19.442 6。根據(jù)圖6可知,苦痘病區(qū)域的Position數(shù)據(jù)值大多分布于位置3,Metricl多分布于0.7以上,MajAxisL多數(shù)小于15。所以在默認參數(shù)的支持向量機中,特征信息數(shù)據(jù)分布特點不明顯的傷病區(qū)域極易被誤判, 經(jīng)過遺傳算法優(yōu)化后的支持向量機算法,可以更好地識別特征信息分布不明顯的傷病區(qū)域,提高蘋果苦痘病和磕碰傷的識別準確率。
采用遺傳算法對支持向量機的正則化參數(shù)c和核參數(shù)γ進行優(yōu)化時,種群個體適應度和迭代次數(shù)之間的關(guān)系曲線如圖8所示。從圖8可以看出,隨著迭代次數(shù)的增加,種群的最優(yōu)個體適應度增加,最后大致穩(wěn)定在93.4%,此時正則化參數(shù)c和核參數(shù)γ的最佳組合為{c=27.306 3,γ=2.498 9}。將優(yōu)化結(jié)果引入支持向量機模型中對蘋果苦痘病和磕碰傷進行識別,達到最優(yōu)的分類性能。
為了驗證遺傳算法優(yōu)化正則化參數(shù)c和核參數(shù)γ對支持向量機模型的影響,將默認參數(shù)的支持向量機與GA-SVM對苦痘病和磕碰傷識別的結(jié)果作對比,具體識別結(jié)果如表2所示。
表2 識別結(jié)果Tab.2 Recognition result
通過表2可知,GA-SVM對蘋果苦痘病和磕碰傷的識別準確率遠高于默認參數(shù)的支持向量機,且其運行時間也短于默認參數(shù)的支持向量機。遺傳算法具有高效、并行、全局搜索等優(yōu)點,可以高效、快速地完成參數(shù)的全局搜索,得到最優(yōu)參數(shù),GA-SVM的識別準確率和運行時間都明顯優(yōu)于默認參數(shù)的支持向量機。
統(tǒng)計檢測結(jié)果,共檢測出57個苦痘病病斑,33個苦痘病病斑位于蘋果表面,分布于29個蘋果樣本;24個苦痘病病斑位于蘋果內(nèi)部,其中19個苦痘病病斑位于10個表面帶有病斑的蘋果樣本內(nèi)部,5個苦痘病病斑位于2個表面健康的蘋果樣本內(nèi)部。該檢測結(jié)果和文獻[10,17]的結(jié)論相符,即較大比例的苦痘病于蘋果的內(nèi)部產(chǎn)生,并且在部分果實中,病斑完全存在于果實內(nèi)部。
研究結(jié)果表明,GA-SVM分類算法可以快速、準確地識別蘋果苦痘病和磕碰傷,證明了遺傳算法優(yōu)化支持向量機模型的優(yōu)越性。
(1)對CT圖像進行預處理,得到傷病區(qū)域,并對傷病區(qū)域進行形狀特征、紋理特征及位置特征的提取,為特征選取奠定了基礎(chǔ)。
(2)為了選取得到識別蘋果苦痘病和磕碰傷的特征信息,利用多元逐步回歸和類距離可分離性判據(jù)2種方法分別選取特征信息,根據(jù)2種方法選取的重合特征信息,得到3種特征信息作為選用特征信息。
(3)利用遺傳算法優(yōu)化支持向量機模型,實現(xiàn)了正則化參數(shù)c和核參數(shù)γ的自動優(yōu)化,克服了支持向量機參數(shù)選擇的盲目性,提高了支持向量機模型的識別準確率。
(4)將GA-SVM與默認參數(shù)的支持向量機對蘋果苦痘病和磕碰傷進行識別的結(jié)果作對比。GA-SVM的識別準確率高達95.5%,其識別準確率和運行時間都明顯優(yōu)于默認參數(shù)的支持向量機,證明了遺傳算法優(yōu)化支持向量機模型的優(yōu)越性。