王芳,張玉,張春紅,夏紅巖
(1.中國石油大學(xué)(北京) 理學(xué)院,北京 102249;2.內(nèi)蒙古自治區(qū)草原工作站,內(nèi)蒙古自治區(qū) 呼和浩特 010020)
苜蓿牧草是牧草種類中非常重要的一大類,對于草業(yè)、畜牧業(yè)、奶業(yè)的發(fā)展起著至關(guān)重要的作用[1-2].由于苜蓿牧草種類繁多,且種子的外形、大小極其相似,因此對苜蓿草種進(jìn)行鑒定是極其困難的.目前,對于苜蓿草種的鑒定方法主要有傳統(tǒng)的田間種植法[3-4]以及生物化學(xué)鑒定法,例如:DNA分子標(biāo)記法[5]和蛋白質(zhì)電泳法[6-7]等.田間種植法鑒定結(jié)果比較準(zhǔn)確,但耗費時間周期長、受環(huán)境因素影響比較大.同樣,生物化學(xué)鑒定法在對于苜蓿草種的鑒定也存在經(jīng)濟(jì)造價偏高的不足.近年來,隨著光譜檢測技術(shù)的迅速發(fā)展,為苜蓿草種的鑒定識別提供了新的方法,也為快速、經(jīng)濟(jì)的牧草種子鑒定奠定了基礎(chǔ)[8-10].王芳等[11-12]利用太赫茲時域光譜技術(shù)(THz-TDS)結(jié)合聚類分析方法和主成分分析法對苜蓿草種的鑒別進(jìn)行了研究.結(jié)果表明這些方法對于已知樣品信息的草種鑒別卓有成效,但對于未知樣品的鑒別仍然面臨挑戰(zhàn).
機(jī)器學(xué)習(xí)算法是近年來在有機(jī)物的研究中應(yīng)用較為廣泛的一種分析方法,它能將一些基于實驗結(jié)果的被動研究轉(zhuǎn)換為主動學(xué)習(xí).2019年,周月等[13]利用樸素貝葉斯自適應(yīng)提升算法對轉(zhuǎn)基因油菜種子進(jìn)行了分類識別并獲得了96.6%的檢測準(zhǔn)確率.2020年,基于合成少數(shù)類過采樣技術(shù)(SMOTE)的隨機(jī)森林模型,章龍等[14]在中草藥牛黃及其易混品的分類研究中得到了94.17%的分類識別率.通過建立經(jīng)多元散射校正結(jié)合歸一化校正處理后的廣義回歸神經(jīng)網(wǎng)絡(luò),Hu等[15]對奶粉中三聚氰胺的含量進(jìn)行測量,得到了0.996 7的相關(guān)系數(shù).王璞等[16]基于網(wǎng)格搜索的支持向量機(jī)模型在生物活性肽的分類識別,其準(zhǔn)確率也達(dá)到了95%.以上研究表明機(jī)器學(xué)習(xí)算法是一種較為有效的能夠?qū)τ袡C(jī)物進(jìn)行鑒定識別的分析方式.
本文在太赫茲時域光譜技術(shù)測量的基礎(chǔ)上,利用遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型(GA-BP)對不同品種的苜蓿進(jìn)行分類識別.結(jié)果表明該方法對苜蓿樣本平均分類準(zhǔn)確度達(dá)到了94%.本項研究為苜蓿草種的分類提供了一種新的分析方法.
本次實驗樣品由內(nèi)蒙古草原站提供,共8類苜蓿品種(中苜1號,中苜2號,中苜3號,龍牧801,龍牧803,龍牧806,草原2號,草原3號,樣品采集時間2014年,產(chǎn)地為黑龍江).實驗樣品制備流程如下:首先,將苜蓿草種進(jìn)行清洗,挑出雜質(zhì),接著將清洗后的種子放在陽光下進(jìn)行晾曬5 h,隨后對草種進(jìn)行充分的研磨,利用標(biāo)準(zhǔn)篩對研磨后的草種粉末篩選出0.125~0.095 mm的顆粒,之后將篩選后的草種粉末放在烘干箱中,55 ℃干燥8 h,最后稱取1.6 g干燥后的草種粉末,置于20 MPa下壓2 min.成型樣品片的半徑為30 mm,其厚度為1.80~1.85 mm,每個品種的牧草制作2個樣品片.
苜蓿草種的測試是利用美國zomega公司生產(chǎn)的透射式太赫茲時域光譜系統(tǒng)獲得的,實驗裝置如圖1所示.在測試系統(tǒng)中泵浦光源為鈦藍(lán)寶石飛秒鎖模脈沖激光器,其激光脈沖的中心波長、重復(fù)頻率和脈沖寬度分別為810 nm、80 MHz和100 fs .在實驗中為了減少空氣中水分子對實驗測試的影響,所有實驗樣品都在恒溫23 ℃且充滿氮氣的實驗情況下進(jìn)行測試.在測試中對每個樣品片分別測量3次,且3次測量點在樣品片上呈等比三角形.每個品種測量6次,測量結(jié)果的平均值就是這種苜蓿的測量結(jié)果.
THz-TDS可以測量穿透氮氣或樣品的THz脈沖的振幅和相位.使用快速傅里葉變換將時域中的THz波形變換為頻域頻譜[17].樣品的復(fù)折射系數(shù)N(ω)可以表示為
N(ω)=n(ω)-ik(ω),
(1)
式(1)中的實部為折射系數(shù),虛部為消光系數(shù).將太赫茲波穿過干燥空氣后的透射時域信號作為參考信號eRef(ω),隨后放入樣品并將采集得到樣品的透射時域信號ESam通過公式(2)、(3)[18]計算得到樣品的折射率n(ω)和吸收系數(shù)α(ω),其中d為樣品厚度,單位mm,ω為角頻率,φ(ω)為相位差,ρ(ω)為參考信號與樣品信號模的比,c為光速.
(2)
(3)
遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)是一種有監(jiān)督的機(jī)器學(xué)習(xí)方法,其用于牧草品種分類的主要思想是根據(jù)已有的牧草品種太赫茲光譜數(shù)據(jù),通過模擬生物腦部處理問題的方式,建立一種簡化模型用于牧草品種的分類.其中模型構(gòu)建的流程示意圖如圖2所示.模型選取了8類苜蓿草種的太赫茲折射率光譜有效頻段0.2~1.0 THz內(nèi)的數(shù)據(jù),隨后將每種6次測試結(jié)果進(jìn)行多次平均后建立每種樣品40組數(shù)據(jù)集,8類樣品共320組的數(shù)據(jù)集.GA-BP模型的種群規(guī)模為5,進(jìn)化代數(shù)為10,變異概率為0.1,交叉變異概率為0.15,個體長度10,代溝為0.95,隱含層23個,輸出層為11個,誤差為0.01,學(xué)習(xí)率為0.1,迭代1 000次.任意選取訓(xùn)練集216個,建立GA-BP網(wǎng)絡(luò)模型,測試集104個用于牧草品種分類預(yù)測.為降低模型的特殊性,訓(xùn)練集與測試集任意選取6次.
圖3a為龍牧801草種6次測試的太赫茲時域光譜曲線.由圖3a可知,同一品種的牧草6次太赫茲波測試存在誤差,但是6次太赫茲光譜之間差異較小.將6次太赫茲波測試結(jié)果進(jìn)行平均,得到該苜蓿品種的太赫茲波光譜曲線.圖3b為太赫茲時域光譜(THz-TDS)實驗測試得到的8個苜蓿草種的光譜曲線.由圖3b可知8個苜蓿品種在0.2~1.0 THz的有效頻段內(nèi)振幅峰值強(qiáng)度和響應(yīng)時間上都存在差異,造成這些差異的主要原因是太赫茲脈沖透過樣品時折射率的不同造成的,這說明太赫茲時域光譜技術(shù)在鑒定識別不同種類苜蓿草種上是可行的.
圖3 龍牧801草種6次測試的太赫茲時域光譜(a),8種苜蓿草種的太赫茲時域光譜(b)Fig.3 Terahertz time domain spectra of Longmu 801 alfalfa species tasted 6 times(a), Terahertz timedomain spectra of 8 alfalfa species(b)
圖4是8個苜蓿草種的太赫茲折射率光譜譜線,能較為清晰顯示8個品種折射率的差異性.具體來說,平均折射率最小的是中苜1號,為1.740;平均折射率最大的為草原8號,為1.812.由于測試樣品的實驗初始條件是一致的,所以平均折射率的差異性可能是苜蓿草種內(nèi)部生物組分的不同引起的.
以上實驗結(jié)果表明太赫茲時域光譜技術(shù)應(yīng)用在苜蓿草種及種間差異的鑒別方面是可行的,但進(jìn)一步分析可以發(fā)現(xiàn),一些草種之間的光譜數(shù)據(jù)差異十分微小,所以為了進(jìn)一步精確地對8類苜蓿草種進(jìn)行分類,可以通過構(gòu)建GA-BP神經(jīng)網(wǎng)絡(luò)算法模型來提高分類準(zhǔn)確度.表1是利用GA-BP模型計算后得到的分類結(jié)果.
通過表1可以看到經(jīng)過6次測試的GA-BP網(wǎng)絡(luò)模型對于苜蓿草種的平均分類準(zhǔn)確率為94%.其中第5次測試分類準(zhǔn)確率最高,為95%;對于單個樣品來說龍牧806號樣品在6次的測試中,平均分類準(zhǔn)確率最高,為94.6%;模型對龍牧803號的分類效果較差,為93.2%,但模型總體對于8個品種的分類準(zhǔn)確率均達(dá)到了90%以上.以上結(jié)果表明GA-BP模型在對苜蓿草種的鑒定識別上,是一種較為精確有效的分析方法,它能在一定程度上提高牧草品種鑒定識別的準(zhǔn)確率.
本文針對8類苜蓿草種的種間分類問題,提出了折射率光譜數(shù)據(jù)結(jié)合GA-BP算法的分類鑒別模型.利用該模型對折射率數(shù)據(jù)訓(xùn)練后進(jìn)行分類,測試結(jié)果能達(dá)到94%的平均分類準(zhǔn)確率.測試結(jié)果表明GA-BP模型可以有效地對苜蓿草種的種類進(jìn)行鑒別,從而可以進(jìn)一步解決牧草草種的種間分類問題,為牧草品種的分類鑒別研究提供了一種新的思路.