丁學(xué)利 戚昌盛 房麗
摘 要:基于某種中藥材的中紅外和近紅外兩種光譜數(shù)據(jù),首先運(yùn)用標(biāo)準(zhǔn)差法分別提取特征波段,將兩種紅外光譜的特征波段數(shù)據(jù)合并后,采用Fisher判別分析法對(duì)245個(gè)已知產(chǎn)地的藥材樣本進(jìn)行訓(xùn)練,預(yù)測(cè)了10個(gè)未知產(chǎn)地的藥材樣本,判別正確率達(dá)到了98.4%,對(duì)待判組進(jìn)行了合理的分類。該研究對(duì)具有不同紅外光譜特征、不同產(chǎn)地的中藥材提供了一個(gè)快速有效的識(shí)別方法。
關(guān)鍵詞:Fisher判別分析;紅外光譜;中藥材鑒別;SPSS
中圖分類號(hào):Q949;O212? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):1673-260X(2021)11-0019-04
中藥材的準(zhǔn)確鑒別是質(zhì)量管控的前提,也是安全用藥的保證。近紅外和中紅外光譜分析是一種操作簡(jiǎn)單、無損且成本低的分析技術(shù),一直得到中藥材鑒別工作者或研究者的廣泛關(guān)注[1-6]。如利用近紅外光譜與模式識(shí)別技術(shù)可鑒別多種根莖類中藥材[3];采用近紅外光譜一致性檢驗(yàn)法,可準(zhǔn)確鑒別出不同廠家的藥品真?zhèn)蝃4];運(yùn)用化學(xué)計(jì)量學(xué)結(jié)合中紅外光譜可實(shí)現(xiàn)對(duì)不同產(chǎn)地的中藥材的鑒定與分析[5];采用中紅外光譜數(shù)據(jù)可對(duì)不同產(chǎn)地的金銀花進(jìn)行快速、準(zhǔn)確分類[6]。上述研究大多是對(duì)某一種紅外光譜數(shù)據(jù)的分析(近紅外或中紅外光譜),很少有對(duì)兩種紅外光譜數(shù)據(jù)的綜合分析。本研究將綜合考慮近紅外和中紅外光譜數(shù)據(jù)的特征,采用Fisher判別分析實(shí)現(xiàn)對(duì)中藥材的樣本的分類識(shí)別,以期為不同產(chǎn)地且具有多種光譜特征的中藥材的鑒別提供一種快速、準(zhǔn)確的鑒別參考。
1 數(shù)據(jù)來源與分析
1.1 數(shù)據(jù)來源
本研究的數(shù)據(jù)來自2021年高教社杯全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽[7]E題附件3。附件3中有近紅外和中紅外兩種光譜數(shù)據(jù),如表1和表2所示。在表1和表2中No列為藥材的編號(hào),OP列表示該種藥材的產(chǎn)地,其余各列第一行的數(shù)據(jù)為光譜的波數(shù)(單位cm)、第二行以后的數(shù)據(jù)表示該行編號(hào)的藥材在對(duì)應(yīng)波段光譜照射下的吸光度(單位AU)。245個(gè)中藥材樣本的產(chǎn)地(產(chǎn)地編號(hào)1~17)是已知的,還有10個(gè)中藥材樣本的產(chǎn)地是未知的。近紅外的波數(shù)范圍4004~10000,其中波段7002缺失,共有5996個(gè)波段。中紅外的波數(shù)范圍552~3999,共有3448個(gè)波段。
1.2 特征波段提取
近紅外的光譜圖,如圖1所示。在4004~7200的波段范圍,主要出現(xiàn)強(qiáng)譜峰,峰的變化劇烈,此光譜區(qū)域含有較多的化學(xué)信息。在7200~10000的波段范圍內(nèi)沒有強(qiáng)峰出現(xiàn),但光譜受噪聲干擾較大。為了更好地區(qū)別樣本,采用標(biāo)準(zhǔn)差法[8]選取特征波段。通過計(jì)算每列波段下吸光度的標(biāo)準(zhǔn)差,反映樣本的離散程度,如圖2所示。在圖2近紅外吸光度的標(biāo)準(zhǔn)差曲線的極值點(diǎn)附近選取特征波段,如可選取[4004,4008]、[4290,4294]、[4391,4395]、[4673, 4677]、[4798,4802]、[5180,5184]、[5637,5641]、[5794, 5798]、[6032,6036]、[6487,6491]、[6847,6851]、[9996, 1000],共12組,60個(gè)波數(shù)。
中紅外的光譜圖,如圖3所示。在552~1825的波段范圍,出現(xiàn)多個(gè)強(qiáng)譜峰,而在2660~3600的波段范圍,主要有兩個(gè)強(qiáng)譜峰。與近紅外特征波段選法類似,計(jì)算中紅外吸光度的標(biāo)準(zhǔn)差,如圖4所示。選取7組特征波段:[1059,1063]、[1111,1115]、[1138,1142]、[1300,1304]、[1720,1724]、[2921,2925]、 [3288,3292]。
2 Fisher判別分析模型
判別分析是通過訓(xùn)練已給類別的樣本,對(duì)需要判別的樣本進(jìn)行分類的一種統(tǒng)計(jì)方法,是一種有監(jiān)督的分類。Fisher判別法[9-11]是判別分析中經(jīng)常使用的一種分類方法,其基本思想是投影。設(shè)在n維空間中某個(gè)樣本點(diǎn)X=(x,x,…,x),尋求一個(gè)線性函數(shù)p(x)=∑ax,能夠?qū)⑵浣禐橐痪S數(shù)值的,然后應(yīng)用函數(shù)p(x)把n維空間中的所有樣本(包括待判樣本)都變換為一維數(shù)據(jù),再根據(jù)樣本之間的距離遠(yuǎn)近把待判樣本點(diǎn)分到不同的類別。這里使用了一元方差分析的思想,即采用組間均方差與組內(nèi)均方差之比最大的原則來進(jìn)行判別。Fisher判別法可以使同類中各個(gè)樣本點(diǎn)之間的差異盡可能地縮小,又能讓不同類別中各個(gè)樣本點(diǎn)之間的差異盡量地?cái)U(kuò)大,從而有效地提高判別效率。
3 Fisher判別分析結(jié)果
將近紅外提取的特征波段數(shù)據(jù)與中紅外提取的特征波段數(shù)據(jù)一塊導(dǎo)入到SPSS軟件中,以特征波數(shù)作為判別分析變量,以O(shè)P號(hào)作為分組變量。用前245個(gè)中藥材樣本作為訓(xùn)練樣本,后10個(gè)樣本作為待測(cè)樣本(待測(cè)樣本編號(hào):4、15、22、30、34、45、74、114、170、209)進(jìn)行判別分析。表3和表4是對(duì)Fisher判別分析的檢驗(yàn)結(jié)果。由表3知,分組需要16個(gè)典則判別函數(shù),其中判別函數(shù)1~13在顯著性水平0.05上是顯著的(表4),且前13個(gè)判別函數(shù)就能解釋整體方差的100%,即前13個(gè)判別函數(shù)就可很好地對(duì)樣本集進(jìn)行分組,因此可以使用Fisher判別法對(duì)此數(shù)據(jù)集進(jìn)行分類。
圖5是典則判別函數(shù)的散點(diǎn)圖。從圖5可看出,類別5、11、12、13、15、16之間的距離較遠(yuǎn),較容易分類;而有些別類別之間的距離較近(如類別1與14;6與7、10;3與8;4與17等)不易分類,易出現(xiàn)判別錯(cuò)誤,影響判別的正確率。表5是Fisher判別分析結(jié)果,一共判錯(cuò)4個(gè)樣本,綜合正確率達(dá)到98.4%。表6是對(duì)待測(cè)樣本的判別結(jié)果,結(jié)合圖5知判別結(jié)果較理想。
4 結(jié)語(yǔ)
針對(duì)17種產(chǎn)地的中藥材近紅外和中紅外光譜數(shù)據(jù),運(yùn)用標(biāo)準(zhǔn)差法分別提取12組和7組特征波段,并采用所選波段數(shù)據(jù)建立了Fisher判別分析模型。若單獨(dú)使用近紅外(中紅外)數(shù)據(jù)進(jìn)行判別分析,不易得到合理的分類。因此,綜合考慮兩種光譜特征,將兩種光譜數(shù)據(jù)合并后,判別正確率達(dá)到了98.4%,且對(duì)待判組進(jìn)行了合理的分類。該研究對(duì)不同產(chǎn)地和不同光譜特征的中藥材鑒別提供了一個(gè)快速有效的方法,為其它中藥材的識(shí)別提供了一種借鑒。
參考文獻(xiàn):
〔1〕陳士林,郭寶林,張貴君,等.中藥鑒定學(xué)新技術(shù)新方法研究進(jìn)展[J].中國(guó)中藥雜志,2012,37(08):1043-1055.
〔2〕李玲,丁野,孫輝,等.三組易混淆中藥材鑒別技術(shù)研究進(jìn)展[J].中國(guó)藥師,2015,18(01):1959-1962.
〔3〕岑忠用,雷順新,雷蕾,等.近紅外光譜法鑒別6種根莖類中藥材[J].華中農(nóng)業(yè)大學(xué)學(xué)報(bào),2021,40(03):271-277.
〔4〕梁華倫,譚昌成,江秀娟,等.近紅外光譜快速鑒別不同廠家小柴胡顆粒研究[J].中醫(yī)藥導(dǎo)報(bào),2021,27(01):62-64.
〔5〕安淑靜,王婷,牛豆,等.基于中紅外光譜結(jié)合化學(xué)計(jì)量學(xué)對(duì)不同產(chǎn)地山茱萸鑒定與分析[J].中醫(yī)藥學(xué)報(bào),2021,49(08):49-54.
〔6〕龔海燕,羅曉,雷敬衛(wèi),等.不同產(chǎn)地金銀花中紅外光譜分析[J].中醫(yī)學(xué)報(bào),2016,31(01):96-98.
〔7〕2021高教社杯全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽賽題[EB/OL].http://www.mcm.edu.cn/html_cn/nod e/4d73a36cc88b35bd4883c276afe39d89.html,2021 -10-07.
〔8〕褚小立,袁洪福,陸婉珍.近紅外分析中光譜預(yù)處理及波長(zhǎng)選擇方法進(jìn)展與應(yīng)用[J].化學(xué)進(jìn)展,2004,14(04):528-542.
〔9〕褚璇,王偉,張錄達(dá),等.高光譜最優(yōu)波長(zhǎng)選擇及Fisher判別分析法判別玉米顆粒表面黃曲霉毒素[J].光譜學(xué)與光譜分析,2014,34(07):1811-1815.
〔10〕錢宇,胡雪,孫躍,等.基于指紋圖譜和化學(xué)計(jì)量學(xué)的濃香型白酒分類研究[J].指揮控制與仿真,2021,40(06):152-156.
〔11〕陳敏瓊.利用SPSS進(jìn)行判別分析的幾個(gè)問題的說明[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2015,29(05):34-39.