趙 昕,劉 鑫,王韻彭,趙志磊,4, ,王獻(xiàn)友, ,王庭欣,劉孟琛
(1.河北大學(xué)質(zhì)量技術(shù)監(jiān)督學(xué)院,河北保定 071002;2.計(jì)量儀器與系統(tǒng)國家地方聯(lián)合工程研究中心,河北保定 071002;3.河北省能源計(jì)量與安全檢測技術(shù)重點(diǎn)實(shí)驗(yàn)室,河北保定 071002;
4.河北大學(xué)地理標(biāo)志研究院,河北保定 071002)
酸棗仁為鼠李科植物酸棗Mill.var(Bunge)Hu ex H.F.Chou 的干燥成熟種子。酸棗仁主要含有黃酮、皂苷、生物堿等物質(zhì),具有鎮(zhèn)靜催眠、抗焦慮、抗抑郁、降血糖、抗癡呆、增強(qiáng)免疫系統(tǒng)等藥用功效。酸棗仁主要分布于我國東北、華北、西北以及南方等部分地區(qū)。其中河北邢臺(tái)所產(chǎn)的邢棗仁量大質(zhì)優(yōu),為全國聞名的道地藥材。酸棗仁作為我國傳統(tǒng)常用中藥材,應(yīng)用歷史悠久,遠(yuǎn)銷海內(nèi)外。然而由于酸棗仁的形似易混淆品較多,不法商販為牟取暴利摻入混偽品,使得市售酸棗仁價(jià)格與質(zhì)量參差不齊,摻雜摻假現(xiàn)象嚴(yán)重。摻偽酸棗仁藥材直接影響藥用效果及消費(fèi)者和藥材廠商的經(jīng)濟(jì)利益,含毒或相悖藥性偽品甚至危及生命健康,因此開展酸棗仁偽品的快速檢測技術(shù)具有重要意義。
常用的中藥材真?zhèn)螜z測技術(shù)有薄層色譜法、氣相色譜法、液相色譜法等。以上方法雖然檢測精度較高,但實(shí)驗(yàn)過程繁復(fù),需要專業(yè)操作人員,儀器成本高,檢測耗時(shí)長,不利于實(shí)際中的市場推廣應(yīng)用。近紅外光譜技術(shù)基于被測物質(zhì)中含氫基團(tuán)的振動(dòng)吸收光譜特征,具有無損、快速和環(huán)境友好的優(yōu)點(diǎn),便于在現(xiàn)代化高通量加工生產(chǎn)環(huán)境中實(shí)現(xiàn)在線監(jiān)測。目前已廣泛應(yīng)用于糧油、果蔬、肉類和乳制品等多種農(nóng)產(chǎn)品和食品的質(zhì)量檢測中。Li等基于近紅外光譜結(jié)合偏最小二乘判別分析(partial least squares-discriminant analysis,PLS-DA)和偏最小二乘回歸(partial least squares regression,PLSR)算法,成功地對(duì)兩種外觀相似的藏紅花混偽品(蓮花雄蕊和玉米柱頭)進(jìn)行了快速鑒別和定量分析。Chen等采用近紅外光譜技術(shù)結(jié)合數(shù)據(jù)驅(qū)動(dòng)(soft independent modeling of class analogy,SIMCA)類建模方法和基于浮雕的變量選擇方法,實(shí)現(xiàn)了三七粉摻假(苦參粉和玉米粉)的非目標(biāo)鑒別。以上研究表明近紅外光譜技術(shù)可以用于中藥材真?zhèn)舞b別和摻假檢測。
目前,有關(guān)酸棗仁摻偽檢測的研究較少。申晨曦等基于氫核磁共振與偏最小二乘法對(duì)酸棗仁及其摻偽品進(jìn)行了鑒別。劉紅玉和張悅綜述了鑒別酸棗仁與偽品理?xiàng)椚实氖N檢測方法,包括性狀鑒別、顯微鑒別、理化鑒別、薄層色譜、紫外光譜、紅外光譜、高效液相色譜(high performance liquid chromatography,HPLC)、高效毛細(xì)管電泳法、超高效液相色譜-飛行時(shí)間質(zhì)譜法(high performance liquid chromatography-tandem quadrupole-time of flightmass spectrometry,UPLC-Q-TOF/MS)鑒別和 DNA指紋圖譜鑒別?;诮t外光譜技術(shù)檢測酸棗仁真?zhèn)蔚难芯可形匆妶?bào)道。綜上所述,本文針對(duì)酸棗仁摻假質(zhì)量問題,具體選取了其市場上常見的不同偽品理?xiàng)椚?、枳椇子和兵豆,利用近紅外光譜技術(shù)開發(fā)一種酸棗仁摻偽的快速檢測方法,為后續(xù)便攜式或在線檢測儀器開發(fā)提供理論基礎(chǔ)。
酸棗仁及偽品理?xiàng)椚?、枳椇子和兵?購買于河北安國中藥材市場遠(yuǎn)光藥業(yè)有限公司。
MPA型傅里葉變換近紅外光譜儀 德國布魯克公司。
1.2.1 樣品的制備 使用一號(hào)篩(10目)去除樣品顆粒中的雜質(zhì)以及不完整顆粒;分別制備摻入單種偽品的酸棗仁摻假樣品,摻入的偽品質(zhì)量分?jǐn)?shù)為1%、10%、20%、30%、40%、50%、60%、70%、80%、90%。對(duì)摻假樣品進(jìn)行充分?jǐn)嚢?,使酸棗仁和偽品混合均勻。共制備酸棗仁摻假樣?0種(3類偽品×10個(gè)摻假質(zhì)量分?jǐn)?shù)),以及酸棗仁和3類偽品純樣品4種。同時(shí)摻入理?xiàng)椚省㈣讞鹤雍捅怪苽浜卸喾N摻雜物的酸棗仁樣品,其質(zhì)量分?jǐn)?shù)配比見表1。
表1 包含多種摻假物的酸棗仁樣品的配比Table 1 The proportioning of Ziziphi Spinosae Semen with multiple adulterants
1.2.2 光譜采集 實(shí)驗(yàn)采用MPA型傅里葉變換近紅外光譜儀,使用積分球漫反射模式采集光譜數(shù)據(jù)。室溫下,每次測量時(shí)取20 g樣品放入樣品杯中。設(shè)置光譜采集范圍為 12500~4000 cm(800~2500 nm),光譜分辨率為16 cm,掃描次數(shù)為64次。每種類型樣品采集20條光譜,共獲得680條(20條光譜×34種摻假樣品)光譜數(shù)據(jù)。
1.2.3 主成分分析 主成分分析(principal component analysis,PCA)是光譜分析中常用到的無監(jiān)督數(shù)據(jù)降維算法。通過正交變換降維處理將具有線性相關(guān)性的多個(gè)光譜數(shù)據(jù)轉(zhuǎn)換為一組數(shù)量較少的新變量,可以在不丟失重要光譜信息的情況下,分離具有特征差異的數(shù)據(jù)。為了對(duì)酸棗仁和三種偽品之間的差異性進(jìn)行初步分析,對(duì)4種純樣品的光譜數(shù)據(jù)應(yīng)用了PCA變換。
1.2.4 光譜預(yù)處理 為了消除基線漂移和噪聲,提高模型預(yù)測性能,采用了歸一化(normalize,NOR)、標(biāo)準(zhǔn)正態(tài)變量(standard normal variate,SNV)、移動(dòng)平均平滑(moving average smoothing,MAS)、SG 平滑(Savitzky-Golay smoothing,SGS)和 SG 一階導(dǎo)數(shù)(Savitzky-Golay first-order derivative,SGD1)五種預(yù)處理方法,并進(jìn)行了對(duì)比分析。
1.2.5 偏最小二乘回歸模型建立與評(píng)價(jià) 偏最小二乘回歸方法(partial least squares regression,PLSR)是一種應(yīng)用廣泛的線性光譜數(shù)據(jù)定量分析建模方法,綜合了主成分分析、典型相關(guān)分析和多元線性回歸3種方法的優(yōu)點(diǎn),可以有效解決建模時(shí)變量間的多重相關(guān)性等問題。偏最小二乘回歸中有兩種建模方法,分別是PLS1和PLS2。PLS1方法單獨(dú)校準(zhǔn)開發(fā)每一個(gè)屬性的預(yù)測模型,PLS2建立一個(gè)同時(shí)校準(zhǔn)所有屬性的模型。在本文中,PLS1和PLS2分別用于建立單摻雜樣品和多摻雜樣品的定量模型。
根據(jù)決定系數(shù)()、校正均方根誤差(RMSEC)、交叉驗(yàn)證均方根誤差(RMSECV)、預(yù)測均方根誤差(RMSEP)和偏差(Bias)來評(píng)價(jià)所建模型的性能。數(shù)值越大且越趨于1,RMSE數(shù)值越小且趨于0,則模型效果越好?;诓煌A(yù)處理后的數(shù)據(jù),建立偏最小二乘回歸模型。每種類型樣品的20條光譜按照隨機(jī)劃分原則,14條光譜組成校正集,6條光譜組成預(yù)測集。
1.2.6 連續(xù)投影算法 連續(xù)投影算法(successive projection algorithm,SPA)是一種迭代正向選擇方法,常用于多變量建模中的特征變量選擇。它采用選擇共線性最小變量的投影運(yùn)算以從復(fù)雜的光譜數(shù)據(jù)中提取有效信息,可以大大減少建模所需變量數(shù),提高建模效率。為了進(jìn)一步優(yōu)化預(yù)測模型,提高模型實(shí)用性和魯棒性,本文采用SPA算法挑選建模最優(yōu)波長變量。
光譜采集由OPUS軟件實(shí)現(xiàn),光譜數(shù)據(jù)預(yù)處理及PLS建模在The Unscrambler X 9.7中進(jìn)行,其余算法在Matlab R2013b中實(shí)現(xiàn)。圖片采用Origin 2018繪制。
觀察獲得的原始吸收光譜曲線,發(fā)現(xiàn)800~1062 nm波長范圍內(nèi)譜線數(shù)據(jù)存在較大噪聲,且整體吸光度值較低,無明顯吸收峰,因此截取1063~2503 nm波長范圍數(shù)據(jù)用于后續(xù)的處理與分析。酸棗仁及其摻假樣品波長截取后的原始光譜如圖1所示。從原始光譜曲線上無法直接對(duì)酸棗仁及偽品進(jìn)行鑒別區(qū)分,需要借助化學(xué)計(jì)量學(xué)方法作進(jìn)一步分析處理。
圖1 原始光譜Fig.1 Original spectra
酸棗仁及偽品理?xiàng)椚?、枳椇子和兵豆的平均吸收光譜及誤差帶如圖2所示。由圖可知,酸棗仁及3種偽品的原始吸收光譜曲線整體輪廓形狀相似,吸光度值及其變化程度存在差異。酸棗仁及三種偽品在1063~2503 nm波長范圍內(nèi)均具有4個(gè)明顯的吸收峰,其波段范圍分別為1111~1265 nm、1370~1556 nm、1854~1984 nm 和 2022~2200 nm。在 1111~1265 nm范圍內(nèi),理?xiàng)椚试?200 nm處有一個(gè)單獨(dú)的波峰,可能與脂肪或油中長鏈脂肪酸部分的CH基團(tuán)的第二泛音有關(guān)。酸棗仁、枳椇子和兵豆均在1210 nm處有一個(gè)吸收峰,且在1167 nm有一處小凸起,查閱相關(guān)文獻(xiàn)Woodcock等在橄欖油樣品的光譜分析中指出1211 nm和1168 nm 分別與CH和CH基團(tuán)中C-H鍵伸縮振動(dòng)的第二泛音有關(guān)。此外,同樣地Tigabu和Odén在火炬松種子近紅外光譜分析中指出1206 nm附近吸收峰與1170 nm附近的小凸起與CH,CH和CH=CH中C-H鍵的伸縮振動(dòng)的第二泛音有關(guān),附近波長1180 nm也反映了含有順式雙鍵純脂肪酸(如油酸)中基本C-H鍵吸收的第二泛音。以上表明,1111~1265 nm內(nèi)吸收峰與酸棗仁及偽品內(nèi)的脂肪成分有關(guān)。在1370~1556 nm范圍內(nèi),4種樣品在1460 nm處表現(xiàn)出一個(gè)主要的吸收峰,文獻(xiàn)表明該吸收峰與水有關(guān)。在1854~1984 nm范圍內(nèi)的1926 nm主要吸收峰與C=O鍵伸縮第二泛音,O-H伸縮和HOH變形的合頻,以及O-H鍵彎曲振動(dòng)第二泛音有關(guān),主要反映蛋白質(zhì)、水和淀粉的吸收特性。在2022~2200 nm范圍內(nèi),主要吸收峰位于2132 nm處,與氨基酸中NH和C=O鍵的伸縮振動(dòng)有關(guān)。以上表明,光譜數(shù)據(jù)中的主要吸收峰反映了樣品中脂肪、水、蛋白質(zhì)和淀粉等主要成分信息。然而目前譜線數(shù)據(jù)中存在基線漂移等噪聲,難以直接從數(shù)值大小上對(duì)酸棗仁及偽品進(jìn)行鑒別區(qū)分,需要對(duì)數(shù)據(jù)進(jìn)行后續(xù)進(jìn)一步處理。
圖2 酸棗仁及三種偽品的平均光譜及誤差帶Fig.2 Average spectra and error bands of pure samples of Ziziphi Spinosae Semen and three kinds of counterfeits
為了初步判斷酸棗仁與三種偽品基于近紅外光譜數(shù)據(jù)的可分性,首先采用無監(jiān)督分類方法PCA對(duì)酸棗仁及3種偽品純樣品的光譜數(shù)據(jù)進(jìn)行鑒別分析。酸棗仁及3種偽品在前2個(gè)主成分中的散點(diǎn)圖如圖3所示。第一主成分(PC1)和第二主成分(PC2)的方差貢獻(xiàn)率分別為84.6%和15.0%。酸棗仁、理?xiàng)椚?、枳椇子和兵豆?shù)據(jù)點(diǎn)置信橢圓間沒有重疊區(qū)域,基于近紅外光譜數(shù)據(jù)可以較好地實(shí)現(xiàn)酸棗仁與理?xiàng)椚省㈣讞鹤雍捅沟蔫b別區(qū)分。
圖3 酸棗仁及三種偽品光譜數(shù)據(jù)在前2個(gè)主成分中的散點(diǎn)圖Fig.3 PCA scatter plot of PC1 vs.PC2 of the spectral data of Ziziphi Spinosae Semen and three kinds of counterfeits
采用5種預(yù)處理方法對(duì)波段截取后的光譜進(jìn)行去噪處理,并建立相應(yīng)的PLS1模型,結(jié)果如表2所示。表2方法中NON表示光譜數(shù)據(jù)未經(jīng)預(yù)處理,用于不同預(yù)處理方法去噪效果的對(duì)比分析。三種摻假物不同預(yù)處理方法對(duì)應(yīng)的PLS1模型的決定系數(shù)均在0.94以上,其中理?xiàng)椚蕮郊贅悠纺P皖A(yù)測性能最佳,兵豆次之,枳椇子最差。然而從外形與紋理觀察,理?xiàng)椚逝c酸棗仁最相似,枳椇子次之,兵豆差別最大。造成以上成因可能是由于相比于酸棗仁,枳椇子與兵豆的密度較大,混合樣品制備時(shí)偽品分布較不均勻。理?xiàng)椚蕮郊贅悠分?,SGD1對(duì)應(yīng)模型的最大,且和相對(duì)較大,故選為最優(yōu)預(yù)處理方法;枳椇子摻假樣品中,SGS對(duì)應(yīng)模型的數(shù)值最大,且和相對(duì)較大,故選其為最優(yōu)預(yù)處理方法;兵豆摻假樣品中,SNV對(duì)應(yīng)模型的最大,且和相對(duì)較大,故選為最優(yōu)預(yù)處理方法。三種摻假樣品基于最優(yōu)預(yù)處理方法的全波長PLS1模型的預(yù)測集結(jié)果如圖4所示,理?xiàng)椚蕮郊贅悠穼?duì)應(yīng)模型的為0.9778,RMSEP為4.9891%,枳椇子摻假樣品對(duì)應(yīng)模型的為0.9585,RMSEP為6.8281%,兵豆摻假樣品對(duì)應(yīng)模型的為0.9722,RMSEP為5.8852%。圖5所示為經(jīng)過最佳預(yù)處理后酸棗仁與3種偽品純樣品的平均光譜曲線。
圖5 最優(yōu)預(yù)處理后的酸棗仁與3種偽品的平均光譜曲線Fig.5 Average spectral curves of Ziziphi Spinosae Semen and three kinds of counterfeits after the optimal pretreatments
表2 基于不同預(yù)處理方法的全光譜PLS1模型結(jié)果Table 2 PLS1 models based on full spectral data using different pretreatment methods
圖4 基于最優(yōu)預(yù)處理方法PLS1模型的預(yù)測集結(jié)果Fig.4 Prediction set results of the PLS1 models based on the optimal pretreatment methods
為了進(jìn)一步優(yōu)化預(yù)測模型,減少輸入變量,降低模型復(fù)雜度,節(jié)省計(jì)算時(shí)間,提高模型綜合性能。本文對(duì)最優(yōu)預(yù)處理后的光譜數(shù)據(jù)應(yīng)用SPA算法挑選最優(yōu)建模波長。基于最優(yōu)波長建立的多光譜PLS1模型的預(yù)測結(jié)果如表3所示。通過對(duì)比建立的多光譜模型的知,兵豆摻假樣品所建模型的預(yù)測效果最好,理?xiàng)椚蕮郊贅悠反沃?,枳椇子摻假樣品效果較差,且三種模型≥0.9491,RMSEP≤7.6232%,Bias的絕對(duì)值≤1.4168%。三個(gè)模型預(yù)測集結(jié)果如圖6所示,模型均表現(xiàn)出了良好的預(yù)測能力。與全光譜模型相比,多光譜模型預(yù)測性能稍差,但輸入波長變量個(gè)數(shù)大大降低。實(shí)際生活中,不法分子為了牟取較高利潤,摻假含量一般較高。因此,所建模型具有較好的實(shí)際應(yīng)用價(jià)值與意義。
圖6 基于最優(yōu)波長多光譜模型的預(yù)測集結(jié)果Fig.6 Prediction set results of multispectral models based on the optimal wavelengths
表3 基于 SPA算法所選最優(yōu)波長建立的多光譜模型的預(yù)測結(jié)果Table 3 The prediction result of the multispectral model based on the optimal wavelength selected by the SPA algorithm
對(duì)于理?xiàng)椚蕮郊贅悠?,選取了1137、1857 nm和2054 nm 3個(gè)最優(yōu)波長。對(duì)于枳椇子摻假樣品,選取了 1067、1106、1145、1273、1330、1915、1961和2503 nm共8個(gè)最優(yōu)波長。對(duì)于兵豆摻假樣品,選取了5個(gè)最優(yōu)波長,分別為1170、1198、1271、1345和1362 nm。理?xiàng)椚蕮郊贅悠纷顑?yōu)波長的分布較分散,枳椇子和兵豆摻假樣品的大部分最優(yōu)波長分布在1200 nm吸收峰附近,結(jié)合2.1節(jié)分析內(nèi)容,該吸收峰附近波長主要反映脂肪相關(guān)成分。研究表明,與酸棗仁相比,枳椇子和兵豆中的脂肪油成分含量較少(酸棗仁中脂肪油含量約為23.17%~29.25%,枳椇子中粗脂肪含量約為9.45%,兵豆脂肪含量約為1.1%)。理?xiàng)椚逝c酸棗仁具有相似的化學(xué)成分構(gòu)成。由于酸棗仁與偽品中成分含量不同,導(dǎo)致所采集的光譜產(chǎn)生差異,根據(jù)此特點(diǎn)利用近紅外光譜技術(shù)實(shí)現(xiàn)酸棗仁與其偽品的區(qū)分。
酸棗仁及其摻假樣品多光譜模型的預(yù)測集決定系數(shù)≥0.9491,表明所建立的回歸方程具有較好的擬合度。三種偽品摻假樣品多光譜PLS1模型回歸方程如下所示。
理?xiàng)椚蕮郊贅悠返幕貧w方程如下:
表4為不同預(yù)處理方法下的PLS2全波長模型預(yù)測結(jié)果。對(duì)比不同預(yù)處理方法,SGD1預(yù)處理后模型對(duì)四種成分預(yù)測的交叉驗(yàn)證決定系數(shù)最大,故SGD1為最優(yōu)預(yù)處理方法。對(duì)比SGD1對(duì)應(yīng)的模型對(duì)不同成分的預(yù)測效果,酸棗仁摻假樣品的為0.7840,RMSEP為5.7677%,理?xiàng)椚蕮郊贅悠返臑?.7784,RMSEP為4.8009%,枳椇子摻假樣品的為 0.2007,RMSEP為 4.3800%,兵豆摻假樣品的為0.4503,RMSEP為3.7806%。酸棗仁的定量預(yù)測效果最好,理?xiàng)椚屎捅勾沃?,枳椇子的預(yù)測效果最差。其原因可能是多種摻假物建模樣品中兵豆和枳椇子的含量相對(duì)較低,且枳椇子不同摻雜質(zhì)量分?jǐn)?shù)類型較少,導(dǎo)致建模樣品代表性較差。
表4 不同預(yù)處理方法下多摻雜物樣品的全光譜PLS2模型結(jié)果Table 4 Performance of the PLS2 models for multiple-adulterants samples using different pretreatment methods based on the full spectral range
本文利用近紅外光譜技術(shù)研究了酸棗仁中常見3種偽品理?xiàng)椚?、枳椇子和兵豆摻假的定性定量檢測方法。PCA定性分析表明酸棗仁、理?xiàng)椚省㈣讞鹤雍捅沟慕t外光譜表現(xiàn)出不同的吸收特征,數(shù)據(jù)具有良好的可分性。分別對(duì)3種偽品摻假樣品建立了全波長PLS1模型進(jìn)行定量分析,預(yù)測集的決定系數(shù)≥0.9480,RMSEP≤8.0225%,Bias的絕對(duì)值≤2.6690%。采用SPA算法挑選最優(yōu)波長對(duì)模型進(jìn)行優(yōu)化。對(duì)于理?xiàng)椚蕮郊贅悠?、枳椇子摻假樣品和兵豆摻假樣品分別優(yōu)選了3個(gè)、8個(gè)和5個(gè)最優(yōu)波長,分別建立了對(duì)應(yīng)的多光譜PLS1模型。3類多光譜模型的預(yù)測集決定系數(shù)≥0.9491,RMSEP≤7.6232%,Bias的絕對(duì)值≤1.4168%。多光譜模型大大降低了建模輸入變量個(gè)數(shù),有利于縮短計(jì)算時(shí)間,降低儀器開發(fā)成本。PLS1模型均表現(xiàn)出良好的預(yù)測性能,具有實(shí)際檢測應(yīng)用價(jià)值與意義。對(duì)于多摻雜物樣品的PLS2模型,酸棗仁的預(yù)測效果最好,≥0.7115,枳椇子預(yù)測效果最差,≥0.2007。在未來的研究中,多種摻雜物的定量檢測模型有待進(jìn)一步優(yōu)化。綜上,本文所研究方法為后續(xù)酸棗仁質(zhì)量在線或便攜式檢測儀器開發(fā)提供理論基礎(chǔ),也為種子類中藥材質(zhì)量的光學(xué)無損快檢方法研究提供參考依據(jù)。