李慶旭, 王巧華, 2*, 馬美湖, 肖仕杰, 施 行
1. 華中農(nóng)業(yè)大學(xué)工學(xué)院, 湖北 武漢 430070 2. 農(nóng)業(yè)部長江中下游農(nóng)業(yè)裝備重點實驗室, 湖北 武漢 430070 3. 國家蛋品加工技術(shù)研發(fā)中心, 湖北 武漢 430070
我國是鴨蛋、 鴨肉消費大國, 而雛鴨孵化產(chǎn)業(yè)是鴨蛋、 鴨肉生產(chǎn)的重要保障。 在鴨蛋生產(chǎn)行業(yè)雌性的需求量更大; 而在肉鴨培育產(chǎn)業(yè)中, 雄性因其生長速度快, 養(yǎng)殖行業(yè)更傾向于養(yǎng)殖雄性。 若能在鴨蛋孵化早期根據(jù)需求控制雌雄比例, 不僅可以降低孵化成本, 也可以極大地提高養(yǎng)殖行業(yè)的經(jīng)濟效益。 因此, 開發(fā)一種高效、 無損的早期鴨胚胎性別檢測方法, 對于提升整個鴨養(yǎng)殖行業(yè)的經(jīng)濟效益具有重要意義。
在國內(nèi)外已有的文獻記載中, 大都針對雞蛋胚胎進行雌雄鑒別研究, 主要研究手段有機器視覺、 光譜和破損檢測等。 唐劍林等[1]利用光照對孵化3 d的雞胚胎進行性別鑒定, 發(fā)現(xiàn)雌性胚胎與雄性胚胎的血管分布有所區(qū)別。 祝志慧等[2]利用機器視覺技術(shù)根據(jù)孵化4 d雞胚的血線特征鑒別雌雄。 潘磊慶等[3]利用高光譜成像技術(shù)實現(xiàn)了對孵化10 d的雞胚性別的判別, 祝志慧等[4]利用紫外-可見光譜發(fā)現(xiàn)雞胚在孵化7 d時可以進行雌雄判別。 以上為無損鑒別手段, Weiss-mann等[5]利用孵化9 d雞胚的尿囊液中的硫酸雌酮含量的差異進行性別判定。 Turkyilmaz等[6]利用PCR 技術(shù)鑒別孵化5~7 d的雞胚性別。 此外, 通過微創(chuàng)手段采集雞胚的拉曼和熒光光譜也可以實現(xiàn)雞胚雌雄的檢測[7-8]。
雞蛋與鴨蛋相比, 飼養(yǎng)方式和孵化周期均有所區(qū)別, 有關(guān)雞胚性別研究對鴨種蛋具有一定借鑒意義。 縱觀以上前人研究, 發(fā)現(xiàn)有損檢測方式雖然檢測精度較高, 但耗時長、 效率低下, 不適用于生產(chǎn)實際; 高光譜技術(shù)價格昂貴且效率低; 機器視覺技術(shù)雖然檢測效率較高, 但檢測精度低。 可見/近紅外光譜技術(shù)是一種高效、 快速的無損檢測方法, 目前廣泛應(yīng)用于農(nóng)產(chǎn)品的無損檢測, 光源能夠透過鴨蛋的蛋殼被內(nèi)部物質(zhì)吸收, 可以將鴨蛋內(nèi)部信息反映在光譜圖上。 為此, 本文采用可見/近紅外光譜技術(shù)對孵化早期鴨胚進行雌雄鑒別研究。
試驗材料為新鮮生產(chǎn)的國紹一號麻鴨種蛋345枚, 產(chǎn)自江西上饒。 用酒精對種鴨蛋表面進行擦拭消毒, 待鴨蛋晾干后進行編號。
試驗儀器包括可見/近紅外透射光譜采集系統(tǒng)和智能孵化箱。 可見/近紅外透射光譜采集系統(tǒng)如圖1所示, 由Maya2000Pro光纖光譜儀、 150 W光源(輸出波長范圍為360~2 000 nm)、 暗箱、 聚焦透鏡、 84UV準(zhǔn)直透鏡、 計算機和玻璃光纖等組成。 采集的光譜波長范圍為200~1 100 nm, 采樣間隔為0.5 nm。
圖1 光譜采集系統(tǒng)
1.2.1 光譜采集
將清洗消毒后的種鴨蛋置入智能孵化箱中孵化, 分別在孵化前以及入孵之后每間隔24 h采集一次光譜信息, 采集0~8 d共9 d的光譜信息。 利用可見/近紅外透射光譜信息采集系統(tǒng)對種鴨蛋進行透射光譜采集, 采集光譜時將種蛋豎直放置, 鈍端向上。 由于孵化7d的種鴨蛋透射難度較大, 將光譜儀的采集積分時間設(shè)定為700 ms, 掃描次數(shù)設(shè)定為1。
1.2.2 雌雄胚胎人工判別
種鴨蛋在孵化過程中性腺開始轉(zhuǎn)換為卵巢或睪丸, 在孵化后期可以通過睪丸和卵巢的形態(tài)進行性別鑒定, 雌性胚胎的卵巢兩側(cè)發(fā)育不對稱, 而雄性胚胎的兩側(cè)睪丸則對稱發(fā)育[9]。 為獲得種鴨蛋的雌雄對比結(jié)果, 在種鴨蛋孵化20 d后將其破殼并對鴨胚胎進行解剖處理, 人眼觀察其性別。 圖2為孵化20 d后的鴨胚胎解剖圖, 圖2(a)為雄性胚胎, 圖2(b)為雌性胚胎。
圖2 鴨胚胎解剖圖
為了避免隨機劃分樣本集帶來的樣本分布不均衡, 利用Kennard-Stone算法對樣本集進行劃分。 將變量空間中相對歐幾里德距離相差較大的樣本選入訓(xùn)練集, 其余樣本選入開發(fā)集[10], 其中開發(fā)集和訓(xùn)練集的劃分比例為3∶7。 為了進一步驗證模型的性能, 從開發(fā)集中隨機選出30%的樣本作為測試集。 本試驗共345個樣本數(shù)據(jù), 按照上述方法劃分后, 訓(xùn)練集樣本個數(shù)為242(雌性119, 雄性123)、 開發(fā)集為72(雌性36, 雄性36)、 測試集為31(雌性15, 雄性16)。
獲得的原始光譜數(shù)據(jù)如圖3, 由于光源的波長范圍是360~2 000 nm, 所以光譜儀采集的200~360 nm之間的光譜信息是噪聲數(shù)據(jù), 需要去除。 此外由于溫度和操作環(huán)境等因素的影響, 導(dǎo)致360~500和900~1 100 nm波長范圍內(nèi)光譜信息波動較大, 含有大量的噪聲數(shù)據(jù), 若直接選用全光譜用于后續(xù)的分析與處理, 會導(dǎo)致模型不可靠, 泛化能力變差。 因此, 本文選用500~900 nm波長范圍內(nèi)的光譜信息進行相關(guān)分析。 截取后的譜區(qū)范圍如圖4所示。 考慮后續(xù)方便部署至生產(chǎn)實際, 不對光譜數(shù)據(jù)再進行其他預(yù)處理, 直接對截取后的光譜數(shù)據(jù)進行分析處理。
圖3 原始光譜圖
圖4 500~900 nm光譜圖
截取后的光譜數(shù)據(jù)高達908維, 一些波段之間依然存在著較強的相關(guān)性, 高維的光譜信息中包含了大量的冗余信息, 若直接使用高維光譜數(shù)據(jù)建立判別模型會導(dǎo)致模型出現(xiàn)過擬合現(xiàn)象。 此外在使用高維光譜數(shù)據(jù)建立機器學(xué)習(xí)或深度學(xué)習(xí)模型時, 由于輸入信息過多會嚴重影響模型的訓(xùn)練速度, 而且訓(xùn)練得到的模型參數(shù)量過大, 不利于后續(xù)模型的部署。 為此, 本文使用CARS算法、 SPA算法和GA算法分別對截取后的光譜數(shù)據(jù)進行特征波長選擇, 找出能夠區(qū)分雌性鴨胚和雄性鴨胚的波長點集。
(1)競爭性自適應(yīng)重加權(quán)(CARS)算法是一種利用自適應(yīng)重加權(quán)采樣方法篩選PLS模型中回歸系數(shù)絕對值相對較大的波長點, 剔除權(quán)重比較小的波長點, 通過交叉驗證方法選擇出RMSECV值最低的子集, 可以有效地找出變量的最佳組合。 使用CARS對截取噪聲后的訓(xùn)練集光譜數(shù)據(jù)進行特征波長選擇, 選取孵化7d的鴨胚雌雄信息預(yù)測的最優(yōu)波長點集過程如下: 經(jīng)反復(fù)對比, 本研究把蒙特卡羅采樣次數(shù)設(shè)置為100, 使用10折交叉驗證。 由圖5(a)可以看出, 隨著取樣操作次數(shù)的增加, 選取的特征波長點的數(shù)目逐步減少 。 從圖5(b)可知, RMSECV值首先變化平緩, 然后遞減, 最后再遞增, 當(dāng)RMSECV值減小時說明光譜數(shù)據(jù)中的一些無用的信息被剔除, 當(dāng)RMSECV值遞增時說明光譜數(shù)據(jù)中一些重要信息被剔除。 當(dāng)RMSECV值達到最小時, 各變量的回歸系數(shù)如圖5(c)中的豎線處, 采樣運行次數(shù)為75, CARS選取的最優(yōu)波長點數(shù)為11個。
圖5 (a)取樣變量數(shù); (b)RMSECV; (c)回歸系數(shù)路徑
(2)連續(xù)投影算法( SPA) 是使向量空間共線性最小化的前向變量選擇算法, 可以消除高維光譜數(shù)據(jù)中的冗余信息, 可解決共線性問題。 SPA用于選取截取后的訓(xùn)練集光譜數(shù)據(jù)的特征波長點時, 根據(jù)SPA的原理可知, 利用均方根誤差(RMSE)最小化原則選出均方根誤差的導(dǎo)數(shù)變小的過渡點, 在過渡點之前冗余信息被剔除。 SPA選取孵化7 d的鴨胚雌雄信息預(yù)測最優(yōu)波長點集如圖6所示, SPA選取的特征波長個數(shù)為10, 均分布在可見光范圍內(nèi)。
圖6 (a)RMSE; (b)選取的最優(yōu)波長編號索引
(3)遺傳算法(GA)模仿生物界進化遺傳機制, 利用選擇、 交叉與變異進行編碼, 并通過不斷地迭代去逼近全局最優(yōu)解[11]。 本試驗運用GA算法進行特征波長選取時, 設(shè)定初始群體數(shù)量為80、 交叉率為0.5、 變異率為 0.01、 迭代次數(shù)為100。 以最小的RMSECV值為標(biāo)準(zhǔn), 挑選出在迭代過程中出現(xiàn)頻率較多的波長點為特征波長點, 如圖7所示, 最后選取了分布在可見光與近紅外波段的30個特征波長點。
圖7 (a)GA篩選圖; (b)RMSECV變化圖
卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于圖像識別與檢測, 處理分類問題時具有獨特的優(yōu)勢。 高維光譜信息經(jīng)過特征波長提取后, 均降到較低維度。 降維后的光譜信息為1×n的一維光譜矩陣(n表示特征波長點數(shù)), 為了方便將光譜數(shù)據(jù)傳遞給卷積神經(jīng)網(wǎng)絡(luò), 本文將一維光譜信息轉(zhuǎn)換為二維光譜信息矩陣[12], 轉(zhuǎn)換公式如式(1)。 二維光譜信息矩陣不僅包含了一維光譜數(shù)據(jù)中的原有信息, 還體現(xiàn)了樣本的方差和協(xié)方差, 同時能夠適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。
S=XTX
(1)
式(1)中,X代表一維光譜數(shù)據(jù),XT為一維光譜數(shù)據(jù)的轉(zhuǎn)置。 以SPA提取特征波長后的光譜信息為例, 單個鴨胚樣本的一維光譜數(shù)據(jù)為x=[x1,x2,…,x10], 二維光譜信息矩陣如式(2)
(2)
使用GA, CARS和SPA提取特征波長轉(zhuǎn)換的二維光譜信息矩陣, 尺寸較小, GA為30×30、 SPA為10×10、 CARS為11×11。 若搭建的卷積神經(jīng)網(wǎng)絡(luò)層數(shù)過多會導(dǎo)致網(wǎng)絡(luò)出現(xiàn)過擬合現(xiàn)象, 模型的泛化能力變差。 考慮到孵化7d鴨胚二維光譜信息矩陣的特點, 經(jīng)反復(fù)嘗試, 搭建了層數(shù)為6的卷積神經(jīng)網(wǎng)絡(luò), 包括輸入層(Inputs)、 3個卷積層(conv1, conv2, conv3)、 全連接層(FC)以及輸出層(Output), 卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖8所示, 具體實現(xiàn)過程如下(以GA提取的孵化7d鴨胚光譜信息特征波長為例, 其他的與之結(jié)構(gòu)相同):
圖8 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
(1)輸入層(Inputs): 將GA提取的孵化7 d鴨胚光譜信息特征波長使用式(1)轉(zhuǎn)為二維光譜信息矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入, 輸入層尺寸為30×30×1;
(2)卷積層1(conv1): 卷積核尺寸設(shè)置為3×3, 卷積核的個數(shù)設(shè)定為64, 步長設(shè)置成1。 輸入層經(jīng)過卷積操作后使用ReLU函數(shù)進行激活, 為了提高模型的性能, 在ReLU激活后的光譜特征矩陣進行局部響應(yīng)歸一化(LRN)操作, 經(jīng)過卷積操作后的特征矩陣尺寸為30×30×64輸出至pool1;
(3)池化層1(pool1): 將池化核的大小設(shè)置為2, 池化處理后的特征矩陣大小為15×15×64, 輸出至conv2;
(4)卷積層2(conv2): 卷積核的尺寸為1×1, 卷積核的數(shù)量為192, 步長設(shè)置為1。 pool1的輸出經(jīng)過卷積操作后, 再進行LRN操作和ReLU激活, 特征矩陣大小為8×8×192, 輸出至conv3;
(5)卷積層3(conv3): 卷積核尺寸為1×1, 卷積核個數(shù)為384, 步長為1。 conv2的輸出經(jīng)過卷積后, 加入ReLU和LRN操作后輸出尺寸為8×8×384, 輸出至FC;
(6)全連接層(FC): 全連接層中的神經(jīng)元數(shù)目設(shè)置512個, 卷積層3輸出的光譜特征矩陣被轉(zhuǎn)化成1×24 576的數(shù)據(jù), 輸入給512個全連接的神經(jīng)元, 然后輸出512個權(quán)值, 為了防止模型出現(xiàn)過擬合現(xiàn)象, 在輸出之前通過dropout層隨機地失活一些神經(jīng)元。
(7)輸出層(Output): 將全連接層的512個權(quán)值經(jīng)過softmax函數(shù)分別得到雌性胚胎和雄性胚胎的得分系數(shù)。
本試驗利用采集得到的345個孵化7 d的鴨胚光譜數(shù)據(jù)對搭建好的卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。 卷積神經(jīng)網(wǎng)絡(luò)往往需要大量的訓(xùn)練數(shù)據(jù)才能取得較理想的訓(xùn)練結(jié)果, 本文利用光譜對孵化7 d的鴨胚進行雌雄二分類, 采集得到的分類樣本數(shù)量已經(jīng)足夠。 在訓(xùn)練過程中, 利用Adam優(yōu)化器尋找最優(yōu)的梯度下降方向, 可以加快模型的收斂。 均值平方差被用作損失(loss)函數(shù)來計算預(yù)測值與實際值之間的差值。 初始學(xué)習(xí)率(LearningRate)設(shè)為10-4, 每次選取4個樣本訓(xùn)練(BatchSize=4), dropout參數(shù)設(shè)置為0.5, 當(dāng)?shù)螖?shù)達到20 000后終止訓(xùn)練。 訓(xùn)練過程中的損失函數(shù)變化如圖9, 可以發(fā)現(xiàn)SPA選取的特征波長分類損失loss在訓(xùn)練的前5 000次一直處于快速下降狀態(tài), 迭代到9 000次后loss一直維持在較低水平, 說明模型達到收斂。 CARS和GA選取的特征波長訓(xùn)練過程中l(wèi)oss值也為先快速下降后維持在較低水平, 但最終的損失值均比SPA選取的特征波長高。 從三者的loss曲線變化情況可以發(fā)現(xiàn), 模型均未出現(xiàn)欠擬合現(xiàn)象。
圖9 損失函數(shù)變化曲線
在模型訓(xùn)練20 000次后對其進行保存, 后將訓(xùn)練集, 開發(fā)集與測試集共345個鴨胚樣本的二維光譜信息矩陣傳遞給訓(xùn)練好的模型對其性能進行驗證。 測試結(jié)果如表1所示, 其中SPA提取的特征波長轉(zhuǎn)換為二維信息矩陣后, 使用搭建的6層卷積神經(jīng)網(wǎng)絡(luò)建立的孵化早期種鴨蛋雌雄信息判別模型性能最佳, 在測試集中的性能與訓(xùn)練集的性能相當(dāng), 這表明模型并不存在過擬合或欠擬合。 GA提取的特征波長轉(zhuǎn)換為二維信息矩陣后建立的卷積神經(jīng)網(wǎng)絡(luò)性能次之, CARS提取的特征波長建立的卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練集上的表現(xiàn)明顯高于測試集, 出現(xiàn)了輕微的過擬合現(xiàn)象。
表1 模型測試結(jié)果
以孵化7 d的種鴨蛋為研究對象, 利用可見/近紅外透射光譜與卷積神經(jīng)網(wǎng)絡(luò)的技術(shù)手段探究了孵化早期鴨胚性別無損鑒別技術(shù), 得到如下結(jié)論:
(1)通過對孵化7 d的鴨胚透射光譜信息的分析, 發(fā)現(xiàn)其有效信息集中在500~900 nm的波長范圍內(nèi); 考慮后續(xù)將其應(yīng)用于生產(chǎn)實際, 不再對其作其他預(yù)處理, 直接利用SPA, CARS與GA三種常用的特征波長選取算法, 將選定的特征波長點集轉(zhuǎn)換成二維光譜信息矩陣, 利用卷積神經(jīng)網(wǎng)絡(luò)搭建判別模型, 不僅實現(xiàn)了光譜數(shù)據(jù)維數(shù)的降低, 避免了因為維度災(zāi)難而需要大量的實驗樣本, 同時適用于卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練;
(2)利用SPA選擇特征波長點集后并將其轉(zhuǎn)換為二維光譜信息矩陣建立的卷積神經(jīng)網(wǎng)絡(luò)判別模型效果最好, 訓(xùn)練集、 開發(fā)集和測試集的準(zhǔn)確率分為達到93.36%, 93.12%和93.83%; 說明用可見/近紅外透射光譜結(jié)合卷積神經(jīng)網(wǎng)絡(luò)對孵化早期種鴨蛋性別信息的無損檢測具有可行性, 能夠滿足實際生產(chǎn)的精度要求, 為相應(yīng)檢測裝置的研發(fā)提供模型支撐;
(3)本文使用傳統(tǒng)的光譜處理手段后, 將光譜信息轉(zhuǎn)換為二維光譜信息矩陣, 為卷積神經(jīng)網(wǎng)絡(luò)和光譜信息找到了結(jié)合點。