陳濤 李欣
(桂林電子科技大學(xué)電子工程與自動化學(xué)院,桂林 541004)
為實現(xiàn)對轉(zhuǎn)基因和非轉(zhuǎn)基因菜籽油的快速準(zhǔn)確鑒別,結(jié)合太赫茲時域光譜技術(shù),提出了一種基于改進(jìn)蜉蝣優(yōu)化算法的支持向量機模型.以兩種轉(zhuǎn)基因和兩種非轉(zhuǎn)基因菜籽油為研究對象,應(yīng)用太赫茲時域光譜技術(shù)獲取其光譜信息,發(fā)現(xiàn)相比于非轉(zhuǎn)基因菜籽油,轉(zhuǎn)基因菜籽油在太赫茲波段具有更強的吸收特性,同時它們的吸收光譜極為相似,難以通過觀察法進(jìn)行準(zhǔn)確區(qū)分.為此,提出一種基于改進(jìn)蜉蝣優(yōu)化算法的支持向量機模型,通過采用蜉蝣優(yōu)化算法對支持向量機參數(shù)進(jìn)行尋優(yōu),并引入自適應(yīng)慣性權(quán)重和Lévy 飛行兩種策略改進(jìn)蜉蝣優(yōu)化算法在尋優(yōu)過程容易陷入局部最優(yōu)解的問題,增強蜉蝣優(yōu)化算法的全局搜索能力和穩(wěn)健性.實驗結(jié)果表明:改進(jìn)后的蜉蝣優(yōu)化算法能夠更有效地尋找到支持向量機的最優(yōu)參數(shù)組合,提升鑒別模型的整體性能,該模型對4 種菜籽油的識別精度為100%.因此,本研究為轉(zhuǎn)基因菜籽油的類型鑒別提供了一種快速有效的新方法,也為其他轉(zhuǎn)基因物質(zhì)的鑒別提供了有價值的參考.
菜籽油是世界上第三大植物油品種,其富含不飽和脂肪酸、維生素E 和多種礦物質(zhì),有助于心血管健康,維持皮膚健康,為人體提供重要的營養(yǎng)成分和能量來源.據(jù)農(nóng)業(yè)生物技術(shù)應(yīng)用國際服務(wù)機構(gòu)統(tǒng)計,2019 年,全球油菜中有27%是轉(zhuǎn)基因作物[1].轉(zhuǎn)基因油菜是全球四大轉(zhuǎn)基因作物之一,其主要用途是生產(chǎn)菜籽油.雖然轉(zhuǎn)基因菜籽油已成為生活中常見的食用油,但截至目前還沒有任何研究能夠徹底否認(rèn)其潛在危害[2].在消費市場上,不注明轉(zhuǎn)基因標(biāo)示或?qū)⑥D(zhuǎn)基因產(chǎn)品標(biāo)識為非轉(zhuǎn)基因的情況屢見不鮮.因此,基于對公眾食品安全的考慮,對轉(zhuǎn)基因菜籽油的鑒別具有重要的現(xiàn)實意義.目前常見的轉(zhuǎn)基因產(chǎn)品檢測方法有兩種:一種是基于脫氧核糖核酸(deoxyribonucleic acid,DNA)的方法[3],另一種是基于蛋白質(zhì)的檢測技術(shù)[4].由于轉(zhuǎn)基因菜籽油中DNA 和蛋白質(zhì)含量極低,采用上述兩種方法均存在提取過程繁瑣、耗時較長、會損壞原有物質(zhì)和非專業(yè)人員難以勝任等問題.因此,尋找一種快速無損和操作便捷的轉(zhuǎn)基因菜籽油檢測方法顯得尤為重要.
太赫茲(terahertz,THz)波是指頻率在0.1—10 THz 范圍的一段電磁波,是宏觀電子學(xué)和微觀光子學(xué)的交叉研究領(lǐng)域,具有很大的應(yīng)用價值和學(xué)術(shù)價值[5,6].理論研究表明,許多生物分子(如DNA、蛋白質(zhì)和脂肪等)的振動和轉(zhuǎn)動能級正好處于THz頻帶范圍內(nèi)[7,8].因此,應(yīng)用太赫茲時域光譜(terahertz time-domain spectroscopy,THz-TDS)技術(shù)探測生物樣品產(chǎn)生共振吸收峰,并通過THz 光譜來識別生物樣品成為了可能[9].目前,利用THz 光譜進(jìn)行轉(zhuǎn)基因食用油的檢測識別已較多.文獻(xiàn)[10]報道了THz-TDS 在檢測轉(zhuǎn)基因大豆油上的應(yīng)用,文獻(xiàn)[11]報道了THz-TDS 在檢測轉(zhuǎn)基因玉米油上的應(yīng)用,文獻(xiàn)[12]報道了THz-TDS 在檢測轉(zhuǎn)基因山茶油上的應(yīng)用.
然而,通過對文獻(xiàn)[10-12]的分析可知,同種轉(zhuǎn)基因和非轉(zhuǎn)基因植物油的THz 光譜極為相似,難以直接從光譜上對它們進(jìn)行準(zhǔn)確區(qū)分,需要結(jié)合一些模式識別方法才能實現(xiàn)對它們的準(zhǔn)確區(qū)分.因此,本文應(yīng)用支持向量機(support vector machine,SVM)方法對轉(zhuǎn)基因和非轉(zhuǎn)基因菜籽油進(jìn)行鑒別.由于SVM 對參數(shù)較為敏感,選取合適的參數(shù)才可較好提升其性能[13],因此SVM 常與優(yōu)化算法結(jié)合使用.蜉蝣優(yōu)化算法(mayfly optimization algorithm,MOA)與其他傳統(tǒng)優(yōu)化算法相比,有著較好的求解精度和較快的收斂速度,但也由于較快的收斂速度,其在尋優(yōu)過程中容易陷入局部最優(yōu)解,全局搜索能力較弱[14],因此為了提升MOA 的整體搜索性能和精度,本文引入自適應(yīng)慣性權(quán)重(adaptive inertia weight,AIW)以及Lévy 飛行兩種策略來改進(jìn)MOA(命名為ALMOA).本文將ALMOA 應(yīng)用于SVM 重要參數(shù)的尋優(yōu)過程中,從而得到一種基于改進(jìn)蜉蝣優(yōu)化算法的支持向量機模型(ALMOASVM),來實現(xiàn)對轉(zhuǎn)基因和非轉(zhuǎn)基因菜籽油的快速準(zhǔn)確鑒別.
本文采用的實驗設(shè)備為美國Zomega 公司生產(chǎn)的Z-3 THz-TDS 系統(tǒng),該系統(tǒng)主要由超快飛秒光纖激光器、THz 輻射產(chǎn)生裝置、THz 輻射探測裝置和延時控制裝置四部分組成,系統(tǒng)原理圖如圖1所示.該系統(tǒng)激光的中心波長為780 nm,脈沖寬度低于100 fs,信噪比高于70 dB.整個實驗在室溫下進(jìn)行,為避免潮濕空氣中水分對THz 波吸收的影響,實驗前在樣品實驗艙中充滿干燥的氮氣,使其內(nèi)部密閉空間的相對濕度小于2%,以保證實驗數(shù)據(jù)的準(zhǔn)確性.
圖1 THz-TDS 系統(tǒng)原理圖Fig.1.Schematic diagram of THz-TDS system.
實驗選取的樣品為在市面上容易獲取的4 種不同品牌的轉(zhuǎn)基因和非轉(zhuǎn)基因菜籽油,樣品信息如表1 所示.所有油樣均為具有國家質(zhì)量監(jiān)督檢驗檢疫認(rèn)證的合格產(chǎn)品.實驗樣品在實驗前都在低溫避光環(huán)境下儲存以防止變質(zhì)和氧化.實驗樣品架選擇窗片材料為聚四氟乙烯薄膜的可拆卸液體池,由于聚四氟乙烯在THz 波段具有較低的吸收特性,所以不會對待測樣品產(chǎn)生干擾.可拆卸液體池的厚度為0.5 mm,中心為面積為270 mm2的橢圓孔.在制樣時,采用5 mL 的一次性醫(yī)用注射器吸取約2 mL 的油樣,沿液體池壁輕壓注射器,使油樣緩慢注入液體池中,以避免氣泡的產(chǎn)生.每種菜籽油制作90 個樣本,共計360 個,其中每種菜籽油隨機選取70%的樣本作為訓(xùn)練集,剩余的30%作為測試集.
表1 實驗樣品信息Table 1.The information of experimental sample.
在太赫茲時域光譜中,獲取的信息較為有限,為進(jìn)一步研究轉(zhuǎn)基因和非轉(zhuǎn)基因菜籽油在THz 波段的吸收特性,對實驗測得的太赫茲時域參考信號和樣品信號進(jìn)行快速傅里葉變換,得到各自的頻域信號,然后通過(1)式計算獲得樣品的吸光度,以此來表征4 種菜籽油對THz 波的吸收程度.
其中,Eref(ω) 為頻域參考信號,Esam(ω) 為頻域樣品信號,ω為角頻率.
為了更好地對分類鑒別模型的性能進(jìn)行評估,采用查準(zhǔn)率P、查全率R和精度A作為模型評價指標(biāo),計算公式如下:
其中,TP 為真正類,即模型正確地將某類物質(zhì)(設(shè)為正類)預(yù)測為該類物質(zhì)(正類)的個數(shù);FP 為假正類,即模型錯誤地將其他類物質(zhì)(設(shè)為負(fù)類)預(yù)測為該類物質(zhì)(正類)的個數(shù);TN 為真負(fù)類,即模型正確地將其他類物質(zhì)(負(fù)類)預(yù)測為其他類物質(zhì)(負(fù)類)的個數(shù);FN 為假負(fù)類,即模型錯誤地將該類物質(zhì)(正類)預(yù)測為其他類物質(zhì)(負(fù)類)的個數(shù).
SVM 是一種基于統(tǒng)計學(xué)習(xí)理論的有監(jiān)督學(xué)習(xí)方法[15,16].其核心原理在于將數(shù)據(jù)映射到高維空間,以尋找一個能夠最大化不同類別數(shù)據(jù)間邊界距離的超平面,從而實現(xiàn)對數(shù)據(jù)的有效分類.通過引入核函數(shù),SVM 可以處理非線性分類問題,將其轉(zhuǎn)化為在高維特征空間中的線性分類任務(wù).同時,SVM 以結(jié)構(gòu)風(fēng)險最小化為原則,通過在特征空間中找到最優(yōu)超平面來解決分類問題,具有較強的泛化能力和對噪聲的抵抗能力.
在實際的應(yīng)用中,合適的SVM 參數(shù)選擇將決定模型的泛化能力和分類性能優(yōu)劣,本文選擇徑向基函數(shù)(radial basis functions,RBF)作為SVM的核函數(shù),因此該模型的分類能力主要取決于正則化參數(shù)c和徑向基函數(shù)g兩個參數(shù),本文進(jìn)一步采用蜉蝣優(yōu)化算法(MOA)對SVM 的參數(shù)進(jìn)行尋優(yōu).
MOA 是2020年由Konstantinos等[17]根據(jù)蜉蝣的飛行和繁衍行為提出的啟發(fā)式算法,用于解決復(fù)雜的函數(shù)優(yōu)化問題.算法的工作原理如下:最初,隨機生成兩組蜉蝣,分別代表雄性和雌性種群.將每個蜉蝣隨機放置在問題空間中,作為由d維向量x=(x1,x2,x3,···,xd) 表示的候選解,并在預(yù)先定義的適應(yīng)度函數(shù)f(x) 上評估其性能.蜉蝣的速度v=(v1,v2,v3,···,vd) 定義為其位置的變化,每只蜉蝣的飛行方向是個體和社會飛行經(jīng)驗動態(tài)交互作用.雄性通過全局最優(yōu)位置和自身歷史最優(yōu)位置移動,雌性則是向優(yōu)于自己的配偶移動,若配偶弱于自己則自行局部搜索,移動結(jié)束后,雌性和雄性蜉蝣進(jìn)行交配并產(chǎn)生后代,子代有較小的概率產(chǎn)生變異,最后淘汰子代和親代中適應(yīng)度較差的個體,維持種群整體數(shù)量不變,重復(fù)上述過程.
3.3.1 引入自適應(yīng)慣性權(quán)重
慣性權(quán)重對解的搜索精度和收斂次數(shù)有著良好的指導(dǎo)性作用,較大的慣性權(quán)重有利于全局搜索,較小的慣性權(quán)重則有利于局部搜索.由于MOA采用的是線性的慣性權(quán)重,其全局和局部搜索能力一般,為了更好地發(fā)揮算法的全局搜索以及局部搜索能力,本文采用一種自適應(yīng)非線性慣性權(quán)重[18,19],使之在迭代初期緩慢減小,主要發(fā)揮算法的全局搜索能力,從而達(dá)到圈定最優(yōu)解范圍的目的,在迭代后期,慣性權(quán)重減小加快,從而快速增強算法的局部搜索能力,精準(zhǔn)鎖定最優(yōu)解位置.這里,定義自適應(yīng)非線性慣性權(quán)重w如(5)式所示:
其中,wmax和wmin分別為最大和最小慣性權(quán)重,分別取值0.8 和0.4;tmax為最大迭代次數(shù);t為當(dāng)前迭代次數(shù).
將慣性權(quán)重w引入MOA 中,雄性蜉蝣個體的速度更新為
3.3.2 融合Lévy 飛行策略
針對MOA 容易陷入局部最優(yōu)的問題,利用Lévy 飛行的跳躍能力來增強其跳出局部最優(yōu)的能力[20].Lévy 飛行策略模擬自然界中動物的隨機覓食行走,假設(shè)種群中的蜉蝣均存在一定的概率不直接沿著最優(yōu)路徑移動,而是根據(jù)Lévy 飛行策略在最優(yōu)路徑附近進(jìn)行隨機游走,從而達(dá)到跳出當(dāng)前局部最優(yōu)位置,擴大全局搜索能力的目的.同時為了避免在迭代后期,蜉蝣一直在全局最優(yōu)位置周圍游走,而不收斂于全局最優(yōu)位置,為Lévy 飛行增加步長調(diào)整參數(shù)δ[21]:
其中,δmax和δmin分別為最大和最小步長調(diào)整參數(shù),分別取值1 和0;a,b為常數(shù),分別取值4 和20.
通過上述參數(shù)的取值,此時δ∈[0,1),在迭代前期,δ從1 開始緩慢減小,發(fā)揮Lévy 飛行的全局游走優(yōu)勢,增強算法的全局搜索能力,在迭代中期δ開始迅速減小,并至迭代后期逐漸趨于零,目的是為了保證算法在迭代后期主要進(jìn)行局部搜索,從而快速收斂于全局最優(yōu)位置.
雄性和雌性蜉蝣個體的位置更新為
其中,L(α) 符合Lévy 分布,穩(wěn)定參數(shù)α=1 .
通過上述兩種策略的改進(jìn),相比于MOA,ALMOA 在迭代前期具有更強的全局搜索能力,在迭代后期具有更強的局部搜索能力.由此構(gòu)建得到的ALMOA-SVM 模型,解決了MOA 在SVM 參數(shù)尋優(yōu)過程中容易陷入局部最優(yōu)解的問題,增強了SVM 最優(yōu)參數(shù)的搜索精度,提升了模型的整體性能.
通過實驗獲取4 種菜籽油共計360 個樣本的THz 時域光譜如圖2 所示,實驗設(shè)置的掃描窗口長度為30 ps,光譜分辨率約為33.3 GHz,圖中Reference 表示參考信號,為實驗艙中樣品架空載時的測量值.由圖2 可見,同種菜籽油不同樣本的時域波形之間存在一定的差異,不同菜籽油樣本的時域波形之間存在一定的交叉重疊.為了更清楚地觀測到轉(zhuǎn)基因與非轉(zhuǎn)基因菜籽油存在的差異,對每種菜籽油90 個樣本的THz 時域光譜數(shù)據(jù)求平均,得到4 種菜籽油的THz 平均時域光譜如圖3 所示.可以看出,所有菜籽油的譜線相對于參考信號,在幅值上均呈現(xiàn)一定程度的衰減,在時間上均呈現(xiàn)一定的時延,表明菜籽油對THz 光譜具有一定的吸收特性.其中,Non-GMO1 油樣的相位延遲最長,GMO2 油樣的振幅衰減最多.總體上看,轉(zhuǎn)基因菜籽油樣品相對于非轉(zhuǎn)基因菜籽油樣品,在相位上延遲更少,在幅值上衰減更大.
圖3 4 種菜籽油及參考信號的THz 時域光譜Fig.3.THz time-domain spectra of four types of rapeseed oils and reference signal.
為了進(jìn)一步研究轉(zhuǎn)基因和非轉(zhuǎn)基因菜籽油在THz 波段內(nèi)各頻率的變化特性,將平均時域光譜補零后進(jìn)行快速傅里葉變換得到其平均頻域譜,如圖4 所示.可見,所有樣品信號相對于參考信號,在0.3 THz 之后均開始出現(xiàn)一定程度的衰減,同時在1.8 THz 之后參考信號和樣品信號均開始出現(xiàn)明顯的振蕩現(xiàn)象,表明在1.8 THz 之后信號受噪音影響加劇.從整體上看,在0.3—1.8 THz 波段,轉(zhuǎn)基因菜籽油樣品相對于非轉(zhuǎn)基因菜籽油樣品,在幅值上呈現(xiàn)出更大的衰減趨勢.通過上述分析可知,轉(zhuǎn)基因菜籽油樣品相對于非轉(zhuǎn)基因菜籽油樣品,在THz 波段表現(xiàn)出更強的吸收特性.
圖4 4 種菜籽油及參考信號的THz 頻域光譜Fig.4.THz frequency-domain spectra of four types of rapeseed oils and reference signal.
通過(1)式計算4 種菜籽油在0.3—1.8 THz頻段內(nèi)的太赫茲吸光度,獲得360 個菜籽油樣本的太赫茲吸光度譜如圖5 所示.可見,所有菜籽油樣本在0.3—1.8 THz 波段呈現(xiàn)出相似的波形和相近的幅值,無顯著差異.通過對每種菜籽油90 個樣本的吸光度取平均,計算得到4 種菜籽油樣品的平均吸光度譜如圖6 所示.可以看出轉(zhuǎn)基因菜籽油樣品相對于非轉(zhuǎn)基因菜籽油樣品,在THz 波段的吸光度更高,說明轉(zhuǎn)基因菜籽油樣品在THz 波段具有更強的吸收特性[10,11],與頻域譜中觀測到的結(jié)果相一致,這可能是由于轉(zhuǎn)基因油菜中引入了外源基因,如高油酸基因、亞麻酸合成基因等,改變了菜籽油的脂肪酸組成含量,從而使轉(zhuǎn)基因菜籽油在太赫茲波段具有更強的吸收特性[22,23].同時可以清楚地發(fā)現(xiàn)轉(zhuǎn)基因和非轉(zhuǎn)基因菜籽油樣品的波形極為相似,吸收峰所處頻率位置也基本一致,這可能是由于轉(zhuǎn)基因和非轉(zhuǎn)基因菜籽油的成分極為相似所致,而波形存在差異的原因之一可能是由于不同來源菜籽油中相似成分的含量存在差異,從而導(dǎo)致它們與太赫茲共振吸收峰在光譜上呈現(xiàn)出一定的差異,因此,采用直接觀察的方式很難對它們進(jìn)行準(zhǔn)確的鑒別.
圖5 360 個菜籽油樣本在0.3—1.8 THz 波段內(nèi)的吸光度譜Fig.5.Absorption spectra of 360 rapeseed oil samples in the 0.3—1.8 THz range.
圖6 4 種菜籽油在0.3—1.8 THz 波段內(nèi)的平均吸光度譜Fig.6.Average absorption spectra of four types of rapeseed oils in the 0.3-1.8 THz range.
由于菜籽油樣品的吸光度數(shù)據(jù)維數(shù)過高,若將其直接輸入到鑒別模型中,計算量較大且十分耗時,這將會對模型性能產(chǎn)生負(fù)面影響.因此,為了減少光譜數(shù)據(jù)的冗余,提高建模效率,采用主成分分析(principal component analysis,PCA)對菜籽油吸光度譜中0.3—1.8 THz 波段的原始數(shù)據(jù)(330 維)進(jìn)行降維,得到各主成分的方差貢獻(xiàn)率變化條形圖如圖7 所示.可以看出,前3 個主成分占據(jù)了原始數(shù)據(jù)的絕大部分信息,其累計方差貢獻(xiàn)率達(dá)到了98.27%,圖8 給出了前3 個主成分的三維(3D)散點圖,從圖8 可以看出,4 種菜籽油的主成分在三維空間中呈現(xiàn)出了不同的聚集區(qū)域,但也存在一些交叉重疊的地方,如Non-GMO1 的主成分分布較為分散,與其他3 種油樣的主成分均有部分區(qū)域重疊;而Non-GMO2,GMO1 和GMO2 的主成分則分布則較為集中,但它們聚集區(qū)域的邊緣位置也存在部分區(qū)域相互重疊.因此僅通過PCA 不足以對樣本進(jìn)行完全正確的分類,但也說明了PCA能夠有效提取不同菜籽油吸光度譜中的特征信息.從圖7 可以看出,前9 個主成分的累積方差貢獻(xiàn)率超過了99.8%,可以近似解釋所有原變量,因此采用這9 個新變量代替原始光譜數(shù)據(jù)來進(jìn)行后續(xù)建模處理.
圖7 吸光度的主成分方差貢獻(xiàn)率變化條形圖Fig.7.Bar chart of variance contribution rates for absorbance’s principal components.
圖8 吸光度前3 個主成分的3D 散點圖Fig.8.3D scatter plot of the first three principal components of absorbance.
在訓(xùn)練集中分別用MOA 和ALMOA 對SVM進(jìn)行參數(shù)尋優(yōu),尋找最佳的正則化參數(shù)c和徑向基函數(shù)g參數(shù),尋優(yōu)過程如圖9 所示,尋優(yōu)結(jié)果如表2 所示.從圖9(a)可以看出,MOA 的收斂速度很快,在迭代前期便快速取得了最佳適應(yīng)度97.22%(最佳參數(shù)(c,g)=(12.42,0.79)),同時平均適應(yīng)度也幾乎同步增長至最佳適應(yīng)度附近,但在迭代中期和迭代后期,最佳適應(yīng)度一直穩(wěn)定不變,平均適應(yīng)度也僅在最佳適應(yīng)度下略微起伏,這說明MOA 在迭代前期快速取得較高的局部最佳適應(yīng)度后,迭代中期至迭代后期一直在局部最佳適應(yīng)度附近進(jìn)行尋優(yōu),未能跳出局部最優(yōu)解擴大全局搜索范圍.經(jīng)多次實驗發(fā)現(xiàn),MOA 常常在參數(shù)尋優(yōu)的迭代前期便陷入了不同的局部最優(yōu)解,說明MOA 較為依賴雌雄蜉蝣初始的隨機位置,全局搜索能力較差.從圖9(b)可以看出,ALMOA 在迭代前期也快速取得了局部最佳適應(yīng)度97.62%,但由于該算法在迭代前期具有較強的全局搜索能力,在圖中具體表現(xiàn)為其平均適應(yīng)度在迭代前期有較大的波動,因此其順利跳出了當(dāng)前的局部最優(yōu)解,并在迭代中期再次跳出了局部最優(yōu)解,最終取得了全局最佳適應(yīng)度98.41% (最佳參數(shù)(c,g)=(84.62,0.12)).同時,從圖9(b)中的平均適應(yīng)度曲線變化可以發(fā)現(xiàn),其波動幅度大致隨著迭代次數(shù)增加而緩慢較小,且曲線整體上呈現(xiàn)上升趨勢,并在迭代后期收斂于全局最佳適應(yīng)度曲線附近,說明ALMOA 在迭代前期發(fā)揮了較強的全局搜索能力,在迭代后期發(fā)揮了較強的局部搜索能力,達(dá)到了預(yù)期的優(yōu)化效果.
表2 兩種算法的SVM 參數(shù)尋優(yōu)結(jié)果Table 2.Results of SVM parameter optimization under two algorithms.
圖9 兩種算法下SVM 參數(shù)尋優(yōu)過程中的適應(yīng)度變化曲線 (a) MOA;(b) ALMOAFig.9.Fitness evolution curves during SVM parameter optimization process for two algorithms:(a) MOA;(b) ALMOA.
將MOA 和ALMOA 的最佳參數(shù)尋優(yōu)結(jié)果分別代入SVM 中,并對測試集進(jìn)行識別,最終得到MOA-SVM 模型和ALMOA-SVM 模型的分類結(jié)果混淆矩陣如圖10 所示,模型的性能評價如表3所示.可見,采用MOA-SVM 模型的識別精度為98.15%,其預(yù)測結(jié)果中存在兩個誤判,分別將兩個Non-GMO2 樣品,一個誤判為Non-GMO1 樣品,另一個誤判為GMO1 樣品,所得Non-GMO2 的查全率為92.59%,Non-GMO1 的查準(zhǔn)率為96.43%,GMO1 的查準(zhǔn)率為96.43%.采用ALMOA-SVM 模型的識別精度為100%,所有菜籽油樣品均被正確識別.由此可見,ALMOA 有效避免了參數(shù)尋優(yōu)過程中陷入局部最優(yōu)解的情況,增強了其全局搜索能力,從而使鑒別模型的分類性能得到了較好提升.
表3 MOA-SVM 模型與ALMOA-SVM 模型的性能評價Table 3.Performance evaluation of the MOASVM model and ALMOA-SVM model.
圖10 兩種模型的分類結(jié)果混淆矩陣 (a) MOA-SVM 模型;(b) ALMOA-SVM 模型Fig.10.Confusion matrices of the classification results for the two models:(a) MOA-SVM model;(b) ALMOA-SVM model.
本文采用THz-TDS 技術(shù)研究了兩種轉(zhuǎn)基因和兩種非轉(zhuǎn)基因菜籽油的THz 光譜,發(fā)現(xiàn)轉(zhuǎn)基因菜籽油相對于非轉(zhuǎn)基因菜籽油在THz 波段具有更強的吸收特性.通過對0.3—1.8 THz 范圍內(nèi)的菜籽油吸光度譜進(jìn)行主成分分析,選取累積方差貢獻(xiàn)率超過99.8%的前9 個主成分替代原始光譜數(shù)據(jù),降低了數(shù)據(jù)維度,提升了后續(xù)建模效率.在SVM參數(shù)尋優(yōu)過程中,針對MOA 容易陷入局部最優(yōu)解的問題,引入自適應(yīng)慣性權(quán)重和Lévy 飛行兩種改進(jìn)策略,提出了ALMOA.結(jié)果表明,相比于MOA,ALMOA 在迭代前期具備更強的全局搜索能力,在迭代后期也具有較為出色的局部搜索能力,對SVM參數(shù)的搜索精度更高;基于本文實驗獲取的菜籽油吸光度數(shù)據(jù)集,ALMOA-SVM 模型對4 種菜籽油的識別精度為100%,優(yōu)于MOA-SVM 模型獲得的98.15%的識別精度.因此,THz-TDS 技術(shù)結(jié)合ALMOA-SVM 模型為轉(zhuǎn)基因菜籽油的分類鑒別提供了一種快速有效的新方法,同時也為其他轉(zhuǎn)基因物質(zhì)的檢測提供了方法參考.