李 慧 吳靜珠 劉翠玲 孫曉榮 余 樂(lè)
(北京工商大學(xué);食品安全大數(shù)據(jù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100048)
中國(guó)是全球第二大玉米生產(chǎn)國(guó),同時(shí)也是全球第二大消費(fèi)國(guó)。玉米的產(chǎn)量與品質(zhì)與其自身品種緊密相關(guān),因此品種鑒別直接關(guān)系到農(nóng)業(yè)生產(chǎn)和農(nóng)民經(jīng)濟(jì)利益。
傳統(tǒng)鑒定方法有籽粒形態(tài)鑒定法、幼苗形態(tài)鑒定法、田間小區(qū)種植鑒定法、生理生化鑒定法[1-2]等,其中生理生化鑒定法有電泳法[3-4]、高效液相色譜法[5]等,這些方法步驟繁瑣,操作復(fù)雜,且檢測(cè)過(guò)程中需要消耗化學(xué)試劑。近年來(lái),分子光譜檢測(cè)技術(shù)以其快速、便捷的特點(diǎn)成為研究熱點(diǎn),尤其是新興的太赫茲技術(shù)逐漸受到人們的關(guān)注及研究[6]。
太赫茲(Terahertz, THz)波是指頻率在0.1~10 THz(波長(zhǎng)3 000~30 μm)之間的電磁波,其波段位于微波和紅外波之間,是宏觀電子學(xué)向微觀電子學(xué)過(guò)渡的區(qū)域,具有非常重要的學(xué)術(shù)價(jià)值和應(yīng)用價(jià)值。理論研究表明[7],大量生物大分子(DNA、蛋白質(zhì)等)的振動(dòng)和轉(zhuǎn)動(dòng)能級(jí)正好處于THz的頻帶,因此物質(zhì)的THz光譜包含有豐富的物理和化學(xué)信息;THz光子能量極低(毫電子伏特),不會(huì)電離損傷生物樣本;THz輻射對(duì)于很多干的介電材料和非極性液體具有良好的穿透性,尤為適用于預(yù)包裝農(nóng)產(chǎn)品品質(zhì)檢測(cè)。近年來(lái),作為重要交叉前沿領(lǐng)域的太赫茲技術(shù)[8]以其特有的波譜分辨能力、低能性和透視性等優(yōu)勢(shì)在農(nóng)業(yè)及食品檢測(cè)領(lǐng)域嶄露頭角[9-12],極有潛力成為紅外光譜技術(shù)[13]和X射線技術(shù)[14]的有力補(bǔ)充。
本研究采用太赫茲時(shí)域光譜技術(shù)結(jié)合神經(jīng)網(wǎng)絡(luò)方法建立快速鑒別玉米品種的定性分析模型,通過(guò)分析ATR光譜吸收系數(shù)分類的準(zhǔn)確性來(lái)快速判定玉米品種,為玉米品質(zhì)的鑒別提供一種快速、準(zhǔn)確的檢測(cè)方法。太赫茲技術(shù)具有獨(dú)特的指紋圖譜特性,在玉米快速檢測(cè)方面具有獨(dú)特的優(yōu)越性,并且在空間分辨率和靈敏度上要優(yōu)于紅外光譜。
選取4種不同品種的玉米種子,如表1所示。
表1 4種玉米種子參數(shù)列表
本實(shí)驗(yàn)采用英國(guó)TeraView公司的TeraPulse 4000系列太赫茲產(chǎn)品,圖1為TeraPulse 4000儀器及其脈沖光譜操作示意圖,主要功能是太赫茲基礎(chǔ)成像和光譜分析,所能測(cè)量的光譜范圍是0.06~4.3 THz,具有高信噪比>70 dB,分辨率優(yōu)于1.7 GHz,主要包括衰減全反射(ATR)附件、反射成像模塊、鏡面反射模塊等用于物體檢測(cè)。
TeraPulse 4000的ATR附件其穿透深度為1 mm,只需要1 mg的樣品材料且在很少或不進(jìn)行樣品制備的情況下即可直接測(cè)量,該模塊可以測(cè)量片劑或粉劑,易于使用。
本實(shí)驗(yàn)主要應(yīng)用儀器中的ATR附件對(duì)四類玉米種子樣品進(jìn)行檢測(cè),先測(cè)定無(wú)樣本時(shí)參考值并記錄下來(lái),再將籽粒粉碎后置于ATR掃描區(qū)域進(jìn)行掃描并記錄。
圖1 赫茲儀器及其脈沖光譜操作示意圖
被測(cè)對(duì)象經(jīng)過(guò)THz-TDS系統(tǒng)測(cè)試后,獲得樣品的時(shí)域光譜信號(hào),經(jīng)過(guò)傅里葉變換得到頻域譜,通過(guò)掃描樣品和空樣品分別得到參考光譜Eref(ω)和樣品光譜Es(ω)。根據(jù)菲涅爾方程[15]和光的傳播方程,得到復(fù)透射函數(shù):
(1)
實(shí)驗(yàn)中,當(dāng)樣品厚度d較厚時(shí),忽略FP(Fabry-Perot)效應(yīng),并且樣品在弱吸收的情況下,樣品的折射率n(ω)和吸收系數(shù)α(ω)分別表示為:
(2)
(3)
式中:φ(ω)為樣品與參考信號(hào)的相位差;ρ(ω)
為樣品與參考信號(hào)的振幅的比值;c為光速;d為被測(cè)對(duì)象樣品厚度;ω為角頻率。
實(shí)驗(yàn)中太赫茲儀器TeraPulse 4 000的ATR組件掃描玉米獲得樣品的光譜圖如圖2所示,其中圖2a為太赫茲儀器掃描玉米種子時(shí)域圖,圖2b為時(shí)域經(jīng)過(guò)快速傅里葉變換(FFT)后的頻譜圖。
圖2 太赫茲光譜圖
由于使用太赫茲ATR組件掃描需要校正光譜,所以數(shù)據(jù)分析時(shí)需要根據(jù)式(1)、式(2)和式(3)計(jì)算ATR參數(shù),其中樣品厚度d較厚,可忽略,即可得到ATR吸收系數(shù)譜,如圖3所示。
圖3 ATR吸收系數(shù)譜
本實(shí)驗(yàn)采用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)矢量量化(LVQ)方法對(duì)4種玉米進(jìn)行分類。LVQ在神經(jīng)網(wǎng)絡(luò)中是有導(dǎo)師與無(wú)導(dǎo)師相結(jié)合的分類方法。LVQ網(wǎng)絡(luò)的結(jié)構(gòu)由輸入層、競(jìng)爭(zhēng)層和輸出層神經(jīng)元組成,如圖4所示。輸入層有N個(gè)神經(jīng)元接受輸入向量,與競(jìng)爭(zhēng)層之間完全連接;競(jìng)爭(zhēng)層有M個(gè)神經(jīng)元,分為若干組并呈一維線陣排列;輸出層每個(gè)神經(jīng)元只與競(jìng)爭(zhēng)層中的一組神經(jīng)元連接,連接權(quán)值固定為1。在LVQ網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,輸入層和競(jìng)爭(zhēng)層之間的連接權(quán)值被逐漸調(diào)整為聚類中心。當(dāng)一個(gè)輸入樣本被送至LVQ網(wǎng)時(shí),競(jìng)爭(zhēng)層的神經(jīng)元通過(guò)勝者為王競(jìng)爭(zhēng)學(xué)習(xí)規(guī)則產(chǎn)生獲取神經(jīng)元,容許其輸出為1,而其他神經(jīng)元輸出為0。與獲勝神經(jīng)元所在組相連接的輸出神經(jīng)元其輸出也為1,而其他輸出神經(jīng)元輸出為0,從而給出當(dāng)前輸入樣本的模式類。
圖4 學(xué)習(xí)向量量化網(wǎng)絡(luò)
利用LVQ網(wǎng)絡(luò)實(shí)現(xiàn)模式識(shí)別時(shí),不需要將輸入向量歸一化、正交化,只需要直接計(jì)算輸入向量與競(jìng)爭(zhēng)層之間的距離,從而實(shí)現(xiàn)識(shí)別。LVQ網(wǎng)絡(luò)的學(xué)習(xí)規(guī)則結(jié)合了競(jìng)爭(zhēng)學(xué)習(xí)和有導(dǎo)師學(xué)習(xí)規(guī)則,是一種非線性映射算法,能夠?qū)⒎蔷€性可分問(wèn)題轉(zhuǎn)化為線性可分問(wèn)題。
本研究中,輸入向量為每條光譜的掃描點(diǎn)(即維數(shù)),實(shí)驗(yàn)中整段光譜的維數(shù)為1 135,0~70 cm-1的維數(shù)為289;競(jìng)爭(zhēng)層有8個(gè)神經(jīng)元;輸出層為4(即分為4類);訓(xùn)練次數(shù)設(shè)定為1 000次。然后將120個(gè)樣本數(shù)據(jù)送至LVQ網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,獲勝神經(jīng)元輸出為1,則其他三個(gè)神經(jīng)元均為0。
本實(shí)驗(yàn)將所采集玉米樣本數(shù)據(jù)中ATR吸收系數(shù)譜提取出來(lái),4類玉米×每類30粒=120條光譜信息,將這120組光譜分為三組實(shí)驗(yàn),分別以1/2為訓(xùn)練集、1/2為測(cè)試集;2/3為訓(xùn)練集、1/3為測(cè)試集;5/6為訓(xùn)練集、1/6為測(cè)試集,對(duì)這三組數(shù)據(jù)分別進(jìn)行LVQ訓(xùn)練,訓(xùn)練集即為有導(dǎo)師學(xué)習(xí)規(guī)則,測(cè)試集即為分類結(jié)果。數(shù)據(jù)處理在MATLAB2013b完成,分類結(jié)果表如2所示。
表2 ATR吸收系數(shù)分類結(jié)果
由表2可以看出,3組數(shù)據(jù)1/2測(cè)試集、1/3測(cè)試集、1/6測(cè)試集利用LVQ方法在全光譜的分類準(zhǔn)確率分別為93.33%、97.5%、100%,而在0~70 cm-1的分類準(zhǔn)確率分別80%、82.5%、95%。結(jié)果表明,隨著訓(xùn)練集的增多,測(cè)試集的減少,分類的準(zhǔn)確率在增高。
采用ATR采樣方式獲取了玉米種子的THz-TDS光譜,通過(guò)提取光學(xué)常數(shù)-吸收系數(shù)結(jié)合LVQ建立了快速鑒別玉米品種的定性分析模型。比較不同譜區(qū)建模,不同數(shù)量訓(xùn)練樣本的測(cè)試結(jié)果可得,品種識(shí)別模型的預(yù)測(cè)準(zhǔn)確率可達(dá)80%~100%,由此探索了一種玉米品種快速分類鑒別的方法,為玉米品種分類鑒別提供一種參考。
全譜區(qū)分析過(guò)程中,盡管在>70 cm-1的光譜信號(hào)貌似噪聲很大,但實(shí)際分析建模效果較好,因此噪聲中應(yīng)該仍帶有樣品的特征信息,在今后的實(shí)驗(yàn)研究中亦可使用特征選取的方法進(jìn)行特征篩選,提取有用信息分析,加強(qiáng)模型的可行性和穩(wěn)健性。