榮 菡, 廖書嫣, 劉欣宇, 梅澤桐, 李 亮
(1.北京理工大學(xué)珠海學(xué)院材料與環(huán)境學(xué)院,廣東 珠海 519088;2.北京理工大學(xué)珠海學(xué)院數(shù)理與土木工程學(xué)院,廣東 珠海 519088;3.江西省宜春市食品藥品檢驗(yàn)所,江西 宜春 336000)
蒼耳是菊科植物蒼耳XanthiumsibiricumPatr.的干燥地上部分成熟帶苞的果實(shí),具有散風(fēng)寒、通鼻竅、祛風(fēng)濕等功效[1]。我國(guó)蒼耳屬植物主要有蒼耳、蒙古蒼耳、偏基蒼耳、刺蒼耳等。
在蒼耳摻偽鑒別中,王俊等[1]提取蒼耳藥材以及混偽品的基因DNA,應(yīng)用ITS2序列并測(cè)序,將其區(qū)分?;谛誀畹牟煌?,常常以大小、性狀、顏色、質(zhì)感加以感官鑒別,誤差較大;理化檢驗(yàn)一般根據(jù)蒼耳化學(xué)成分,采用薄層層析法、紫外光譜法、色譜法等方法[2-3]進(jìn)行處理,需要使用大量有機(jī)試劑,費(fèi)時(shí)繁瑣,針對(duì)其中個(gè)別成分的特征響應(yīng),有時(shí)亦難評(píng)價(jià)其質(zhì)量標(biāo)準(zhǔn)的整體性。
近紅外光譜技術(shù)具有結(jié)構(gòu)信號(hào)量豐富、測(cè)量形式多樣化、操作簡(jiǎn)便、重現(xiàn)性好等優(yōu)勢(shì),常常與化學(xué)計(jì)量學(xué)聯(lián)用,對(duì)檢測(cè)對(duì)象進(jìn)行快速無(wú)損的定性和定量檢測(cè)[4-5]?;跊Q策樹二叉樹歸納學(xué)習(xí)算法,具有能夠自組織學(xué)習(xí),快速處理高度相關(guān)的多維數(shù)據(jù)結(jié)構(gòu)矩陣變量的優(yōu)點(diǎn),可形成分類器和預(yù)測(cè)模型,廣泛用于農(nóng)業(yè)工程[6]、礦業(yè)工程[7]、遙感氣象[8-9]等領(lǐng)域。
基于近紅外光譜技術(shù)與決策樹算法聯(lián)用,建立快速鑒別蒼耳摻偽的模式識(shí)別模型,能夠?yàn)閷?shí)現(xiàn)大樣本量的蒼耳藥材品質(zhì)評(píng)價(jià)。
試驗(yàn)共采集正品蒼耳、蒙古蒼耳、偏基蒼耳、刺蒼耳共194批,共450例樣本,每批樣本重復(fù)3次,經(jīng)江西中醫(yī)藥大學(xué)陳天朝主任藥師鑒定為正品蒼耳藥材、蒙古蒼耳、偏基蒼耳三類,樣品信息見(jiàn)表1。其中江西、湖南產(chǎn)地鑒定為蒙古蒼耳,與付曉梅等[10]對(duì)江西省蒼耳屬植物資源的調(diào)查結(jié)果一致。每批樣品均取其干燥莖,粉碎成粉末,過(guò)三號(hào)篩(50目)后,裝入直徑約6 cm、高約4 cm的圓形無(wú)色玻璃小瓶,并使瓶中粉末厚約3 cm,25 ℃條件下密封備用。配制分別摻有蒙古蒼耳、偏基蒼耳、刺蒼耳的偽品,摻偽含量為1%~90%。
傅里葉變換拓展近紅外光譜儀及近紅外光纖探頭(美國(guó)賽默飛公司)。所有樣本分為訓(xùn)練集、校準(zhǔn)集、預(yù)測(cè)集,供建模使用。
表1 樣品信息
2.1 近紅外譜圖采集 樣品充分混合均勻,放置于近紅外光譜測(cè)試室,用光纖探測(cè)頭對(duì)樣品進(jìn)行光譜采集。掃描條件為PbS檢測(cè)器,白光光源;增益為1.0;動(dòng)鏡速度為0.632 9;掃描范圍12 000~4 000 cm-1;掃描次數(shù)為72次,分辨率為8 cm-1;采集溫度平衡在21 ℃??鄢齼?nèi)置參比背景,每個(gè)樣品采集不同部位的6次譜圖,取其平均光譜為代表光譜,見(jiàn)圖1。正品蒼耳與摻有蒙古蒼耳、偏基蒼耳、刺蒼耳等偽品的近紅外光譜形態(tài)非常相似,無(wú)法直接進(jìn)行區(qū)分,需要采用化學(xué)計(jì)量學(xué)方法進(jìn)行光譜處理。
圖1 蒼耳近紅外光譜圖
2.2 分類回歸決策樹算法 分類回歸決策樹是一種結(jié)構(gòu)簡(jiǎn)潔的二分遞歸的二叉樹,包括2個(gè)階段構(gòu)建決策樹和剪枝[10]。首先利用訓(xùn)練集樣本進(jìn)行遞歸劃分自變量空間建立決策樹,再用驗(yàn)證集樣本進(jìn)行剪枝,以克服訓(xùn)練樣本集數(shù)據(jù)噪聲的同時(shí),能夠準(zhǔn)確把握分類的特征信息,提高模型的精確度。CART分類樹算法常用基尼系數(shù)(Gini)代表模型的不純度[10-11]。流程見(jiàn)圖2。
圖2 CART決策樹算法原理
3.1 光譜數(shù)據(jù)預(yù)處理 光譜數(shù)據(jù)預(yù)處理能夠?qū)⒒€漂移及光程的變化對(duì)光譜響應(yīng)所產(chǎn)生的影響降到最低,同時(shí)使樣品粉末粒徑大小和均勻度發(fā)生的漫反射影響減小。常用的數(shù)學(xué)預(yù)處理方法有一階微分、二階微分、Savitzky-Golay(SG)濾波平滑、Norris Derivative(ND)濾波平滑、多元散射校正(MSC)以及矢量歸一化(SNV)等。采用一階導(dǎo)數(shù)結(jié)合矢量歸一、ND濾波平滑時(shí),模型判別準(zhǔn)確率最高,見(jiàn)表2。
表2 不同預(yù)處理方法的模型判別準(zhǔn)確率
3.2 主成分分析 由于光譜數(shù)據(jù)繁雜,變量多,需要采用主成分分析法(PCA)對(duì)光譜數(shù)據(jù)進(jìn)行壓縮和降維,能夠在最大程度代表樣品信息。樣品光譜數(shù)據(jù)經(jīng)PCA處理后主成分得分,如表3所示,當(dāng)提取8個(gè)主成分時(shí),累計(jì)貢獻(xiàn)率信度得分達(dá)99.875%,幾乎可涵蓋樣品信息。
表3 主成分分析法處理后主成分貢獻(xiàn)率信度得分
3.3 構(gòu)建蒼耳摻偽種類的定性判別模型 樣品分成訓(xùn)練集265例樣品,預(yù)測(cè)集185例樣品,采用CART算法,應(yīng)用python軟件建模。其中建模函數(shù)包含三個(gè)主要參數(shù),“max_depth”“min_samples_split”“min_samples_leaf”,能夠影響決策樹的生成和剪枝,從而直接影響模型預(yù)測(cè)結(jié)果的精確度[11-12]。
根據(jù)樣本大小和摻偽體系的復(fù)雜程度,以及決策樹“最大深度max_depth”“最小內(nèi)部分裂節(jié)點(diǎn)樣本數(shù)min_samples_split”“最小葉節(jié)點(diǎn)樣本數(shù)min_samples_leaf”參數(shù)之間的相互作用,將“max_depth”范圍設(shè)置為3~12,“min_samples_split”范圍設(shè)置為6~12,“min_samples_leaf”設(shè)置為2、4、8,考察模型預(yù)測(cè)判別準(zhǔn)確率,以模型的擬合程度作為評(píng)判依據(jù),從而確定優(yōu)化參數(shù)。
圖3是建模時(shí)“min_samples_split”參數(shù)分別取值6、8、10、12時(shí)模型預(yù)測(cè)的擬合結(jié)果。當(dāng)“min_samples_split”參數(shù)取值為6時(shí),對(duì)模型預(yù)測(cè)準(zhǔn)確率的影響因素最為密切,模型預(yù)測(cè)時(shí)擬合值最高。同時(shí),當(dāng)“max_depth”參數(shù)取值大于10時(shí),模型定性判別預(yù)測(cè)的擬合值并無(wú)明顯變化,因此將“max_depth”參數(shù)設(shè)置為3~12是合理的,既最大程度代表了樣品信息,又避免模型過(guò)擬合。
比較“min_samples_leaf”參數(shù)分別取2、4、8時(shí),模型訓(xùn)練時(shí)的擬合值分別為97.14%、83.33%、77.38%,可以發(fā)現(xiàn),當(dāng)“min_samples_leaf”參數(shù)取2時(shí),模型擬合值越高。
建模時(shí)實(shí)施網(wǎng)格搜索和交叉驗(yàn)證,在合理的參數(shù)范圍內(nèi),優(yōu)化參數(shù)能夠獲得可靠的結(jié)果。建模參數(shù)“最大深度max_depth”為7,“最小內(nèi)部分裂節(jié)點(diǎn)樣本數(shù)min_samples_split”為6,“最小葉節(jié)點(diǎn)樣本數(shù)min_samples_leaf”為2。
3.4 蒼耳摻偽種類模型的模式識(shí)別 根據(jù)建模參數(shù),提取所有樣品的8個(gè)主成分,21個(gè)特征吸收峰(V)的特征矩陣信息,構(gòu)建基于決策樹算法,快速識(shí)別蒼耳正品、蒙古蒼耳、偏基蒼耳、刺蒼耳摻偽的定性判別模型。模型對(duì)預(yù)測(cè)集樣品的判別結(jié)果見(jiàn)圖4。
當(dāng)基尼系數(shù)為0時(shí),樣本的各個(gè)特征子集在當(dāng)前條件下處于較正確的分類,會(huì)以葉節(jié)點(diǎn)的形式作為分割結(jié)束,否則對(duì)子集進(jìn)行再次的最優(yōu)特征選取和分割,直到每個(gè)子集都被分配到葉節(jié)點(diǎn)為止,生成完整的決策樹[13]。模型以二分叉的形式,通過(guò)自組織學(xué)習(xí)訓(xùn)練,最終將預(yù)測(cè)集樣品模式識(shí)別為4類。模型對(duì)185例預(yù)測(cè)集識(shí)別準(zhǔn)確率達(dá)95.23%,識(shí)別結(jié)果良好,其中刺蒼耳和偏基蒼耳全部識(shí)別準(zhǔn)確,12例來(lái)自江西、湖南的蒙古蒼耳被錯(cuò)判為正品,來(lái)自8例來(lái)自河北的蒙古蒼耳被錯(cuò)判為正品。
3.5 構(gòu)建蒼耳摻偽量的定量預(yù)測(cè)模型 采用CART回歸算法,建立蒙古蒼耳、偏基蒼耳、刺蒼耳摻偽量的定量預(yù)測(cè)模型。模型實(shí)施包括模型訓(xùn)練和再預(yù)測(cè)。通過(guò)不同種類的蒼耳摻偽樣品,經(jīng)主成分分析后,提取特征作為模型的輸入向量,優(yōu)化參數(shù)并訓(xùn)練模型,直至模型預(yù)測(cè)精度良好且穩(wěn)定。大批樣本的蒼耳近紅外光譜掃描后,相關(guān)數(shù)據(jù)直接代入已建好的預(yù)測(cè)模型中,通過(guò)機(jī)器學(xué)習(xí),顯示輸出摻偽量的預(yù)測(cè)值。
建立模型執(zhí)行內(nèi)部交叉互驗(yàn)法,一般用模型的擬合相關(guān)系數(shù)和模型評(píng)分來(lái)評(píng)價(jià)模型的預(yù)測(cè)效果和精度。當(dāng)最大深度max_depth參數(shù)值大于5時(shí),模型得分不變。為避免過(guò)度學(xué)習(xí)發(fā)生,選擇最大深度max_depth參數(shù)為5即可。通過(guò)比較最小內(nèi)部分裂節(jié)點(diǎn)樣本數(shù)min_samples_split為2、4、8,并考慮到?jīng)Q策樹的生長(zhǎng)原則和樣本量訓(xùn)練情況,最小內(nèi)部分裂節(jié)點(diǎn)樣本數(shù)min_samples_split為4時(shí)即可滿足建模需要。預(yù)測(cè)模型的擬合得分為0.975 1,預(yù)測(cè)精度良好,見(jiàn)圖5。
圖5 蒼耳摻偽量定量預(yù)測(cè)模型的建立
3.6 摻偽量定量預(yù)測(cè)模型結(jié)果 通過(guò)真實(shí)值與預(yù)測(cè)值之間通過(guò)交互驗(yàn)證,真實(shí)值與預(yù)測(cè)值相對(duì)偏差小,擬合相關(guān)系數(shù)值為0.991 3,模型的預(yù)測(cè)能力較好,見(jiàn)表4。
表4 CART回歸模型對(duì)預(yù)測(cè)集樣品摻偽量結(jié)果
3.7 重現(xiàn)性 模型預(yù)測(cè)能力重現(xiàn)性是衡量所建模型可靠性的重要指標(biāo)。以標(biāo)準(zhǔn)差為指標(biāo),對(duì)同一未知樣品近紅外光譜掃描8次后,模型預(yù)測(cè)得到的摻偽量分別為10.77、10.76、10.96、10.81、11.02、10.62、10.75、10.65,實(shí)際摻偽量10.87,誤差為0.132,說(shuō)明模型重現(xiàn)性好。
此外,采用ICC組內(nèi)相關(guān)系數(shù)對(duì)模型進(jìn)行一致性分析,用于比較模型預(yù)測(cè)結(jié)果與實(shí)際值一致性,可衡量來(lái)自不同產(chǎn)地的多數(shù)據(jù)樣本建模的包容程度。通過(guò)SPSS軟件對(duì)模型預(yù)測(cè)集數(shù)據(jù)進(jìn)行ICC分析后,得到的一致性分析的結(jié)果為0.925,說(shuō)明該模型的一致性程度高,可滿足大樣本蒼耳整體品質(zhì)評(píng)價(jià)。
4.1 光譜數(shù)據(jù)波段選擇與預(yù)處理 波譜圖中12 000~11 800、4 200~4 000 cm-1光譜范圍為噪聲干擾峰,7 500~6 500、5 500~5 000 cm-1光譜區(qū)間為水分子倍頻和合頻吸收峰。為排除干擾峰和水分含量差異造成的影響,將上述4個(gè)波段區(qū)間進(jìn)行剔除。而波譜11 800~7 500 cm-1范圍內(nèi)幾乎沒(méi)有吸收信號(hào),故將全譜段分成6 500~5 500、5 000~4 200 cm-1區(qū)間進(jìn)行分析。采用一階導(dǎo)數(shù)結(jié)合矢量歸一、ND濾波平滑進(jìn)行處理,能夠校正樣品顆粒散射引起的光譜誤差,減少光譜基線漂移,提高建模靈敏度。
4.2 CART決策樹算法分類 在模型預(yù)測(cè)集185例樣本的自組織訓(xùn)練中,包含正品蒼耳66例、摻偽蒙古蒼耳48例、摻偽偏基蒼耳35例、摻偽刺蒼耳36例,發(fā)現(xiàn)來(lái)自河北、河南區(qū)域的蒼耳正品容易識(shí)別為整體分類,來(lái)自甘肅、陜西、四川區(qū)域的蒼耳正品識(shí)別為整體分類;摻偽蒙古蒼耳的內(nèi)蒙古、黑龍江容易識(shí)別為整體分類,而來(lái)自江西、湖南的摻偽蒙古蒼耳更易聚成一類,其中有12例被歸為正品蒼耳類,來(lái)自河北的蒙古蒼耳8例亦判為正品蒼耳。來(lái)自河南區(qū)域的摻偽刺蒼耳能夠最早被模式識(shí)別且預(yù)測(cè)準(zhǔn)確。來(lái)自廣東、福建區(qū)域的摻偽偏基蒼耳亦容易識(shí)別為整體分類,說(shuō)明容易識(shí)別歸為整體類的樣品質(zhì)量相似,可能與蒼耳生長(zhǎng)年限、產(chǎn)地氣候、光照雨量、采收季節(jié)等因素相關(guān)。此外,江西、湖南等地的蒙古蒼耳被判為正品,但不同區(qū)域的蒼耳化學(xué)成分會(huì)隨著地理氣候相應(yīng)發(fā)生動(dòng)態(tài)變化,是模型識(shí)別錯(cuò)判的原因之一。
4.3 建模算法與驗(yàn)證 蒼耳來(lái)源地域廣泛,因產(chǎn)地、季節(jié)、品種等因素產(chǎn)生的差異較大,采用不同區(qū)域來(lái)源的大樣品量數(shù)據(jù),需要通過(guò)一致性檢驗(yàn)驗(yàn)證組內(nèi)相關(guān)系數(shù),得到可靠且預(yù)測(cè)精度較高的模型。根據(jù)CART決策樹算法特點(diǎn),通過(guò)科學(xué)的剪枝優(yōu)化,模型經(jīng)過(guò)訓(xùn)練,能將以二叉樹將三類摻偽蒼耳與正品蒼耳快速識(shí)別。
采用近紅外光譜結(jié)合PCA法,提取8個(gè)主成分的21個(gè)特征向量,基于決策樹CART算法建立快速鑒別蒼耳摻偽類別以及摻偽量預(yù)測(cè)的模式識(shí)別模型,模型可靠、訓(xùn)練快速、預(yù)測(cè)精度良好。基于化學(xué)計(jì)量學(xué)與機(jī)器學(xué)習(xí)算法聯(lián)用,能夠?yàn)樯n耳品質(zhì)的在線檢測(cè)與評(píng)價(jià)提供一種無(wú)損環(huán)保的新方法。