程介虹,陳爭(zhēng)光
(黑龍江八一農(nóng)墾大學(xué)信息與電氣工程學(xué)院,大慶 163319)
乳香為橄欖科植物卡氏乳香樹(Boswellia carterii Birdw)及同屬植物鮑達(dá)乳香樹(Boswellia bhawdajiana Birdw)的樹皮滲出的樹脂,具有活血行氣止痛,消腫生肌的功效,在中醫(yī)藥中有著較高的藥用價(jià)值。其種類分為索馬里乳香、埃塞俄比亞乳香、印度乳香三種,不同產(chǎn)地的乳香的藥用價(jià)值不同。由于三種乳香外觀等較為接近,很難通過性狀鑒別其產(chǎn)地。通過閱讀文獻(xiàn),發(fā)現(xiàn)現(xiàn)有研究主要通過高效液相色譜法、液質(zhì)聯(lián)用法和氣質(zhì)聯(lián)用法等鑒別,如:于新蘭等[1]通過氣相指紋圖譜結(jié)合化學(xué)計(jì)量學(xué),對(duì)三種乳香進(jìn)行鑒別,王趙等[2]通過4 種鑒別技術(shù)(性狀、顯微、TLC 和HPLC 指紋圖譜鑒別)系統(tǒng)地比較了3 種藥用乳香的異同;孫磊等[3]通過色譜指紋圖譜結(jié)合化學(xué)計(jì)量學(xué),可以精確區(qū)分和系統(tǒng)評(píng)價(jià)3 種藥用乳香;Michael Paul 等[4]通過薄層色譜法鑒別三種不同乳香樹脂。但上述檢測(cè)分析方法在操作、運(yùn)行、維護(hù)等方面的成本較高,耗時(shí)較長(zhǎng)。高光譜圖像技術(shù)具有波段多、光譜分辨率高、圖譜合一等優(yōu)點(diǎn),檢測(cè)過程中無需對(duì)樣品進(jìn)行預(yù)處理、快速無損,被廣泛應(yīng)用到農(nóng)業(yè)[5]、醫(yī)療[6]、化工[7]等方面的檢測(cè)分析。因此,將具有快速、無損、批量檢測(cè)特性的高光譜技術(shù)引入中藥鑒定領(lǐng)域,試圖尋找一種方法可以快速無損地進(jìn)行乳香產(chǎn)地判別,以解決中藥流通中乳香產(chǎn)地混雜的問題。
研究以三個(gè)產(chǎn)地的乳香樣品為研究對(duì)象,提取乳香樣本的高光譜數(shù)據(jù)中的近紅外光譜數(shù)據(jù),對(duì)近紅外光譜進(jìn)行歸一化預(yù)處理,然后通過連續(xù)投影算法(Successive Projections Algorithm,SPA)進(jìn)行特征波長(zhǎng)提取,在特征波長(zhǎng)基礎(chǔ)上,分別基于極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)、支持向量機(jī)(Support Vector Machine,SVM)、線性判別分析(linear discriminant analysis,LDA)三種方法建立分類判別模型,進(jìn)行乳香產(chǎn)地的預(yù)測(cè)判別,以實(shí)現(xiàn)高光譜技術(shù)對(duì)不同產(chǎn)地乳香種類的鑒別。
所用數(shù)據(jù)來自于中國(guó)中醫(yī)科學(xué)院中藥資源中心,利用Hyspex 系列高光譜成像儀,收集索馬里、印度、埃塞俄比亞三個(gè)產(chǎn)地的410~2 500 nm 乳香光譜數(shù)據(jù)。數(shù)據(jù)為高光譜原始數(shù)據(jù)(DN 值數(shù)據(jù)),已經(jīng)過設(shè)備自帶的RAD 校正,數(shù)據(jù)由兩個(gè)鏡頭獲取(410~990 nm 以及950~2 500 nm),光譜分辨率為6 nm。
選取11 個(gè)乳香樣品的高光譜數(shù)據(jù),其中3 個(gè)為索馬里產(chǎn)地的乳香樣本、4 個(gè)為印度產(chǎn)地的乳香樣本、4 個(gè)為埃塞俄比亞產(chǎn)地的乳香樣本,每個(gè)樣本選取波長(zhǎng)范圍為950~2 500 nm 的近紅外范圍的光譜數(shù)據(jù),共計(jì)288 個(gè)波長(zhǎng)點(diǎn)。
由于光譜數(shù)據(jù)波段多、波段高相關(guān)性,會(huì)引起“維度災(zāi)難”。特征波長(zhǎng)選擇是用來克服“維度災(zāi)難”和模型化高維數(shù)據(jù)的一種重要方法,可以有效解決這一問題。在掃描樣品的光譜時(shí)由于儀器及環(huán)境的干擾,樣本的光譜數(shù)據(jù)中通常會(huì)含有大量無信息變量甚至干擾變量,波長(zhǎng)間也會(huì)存在嚴(yán)重的共線性及冗余信息,基于有效波長(zhǎng)所建立的模型的穩(wěn)健性和預(yù)測(cè)精度通常較全譜模型有所提高。因此,波長(zhǎng)選擇已經(jīng)發(fā)展成為了光譜定量分析中的一個(gè)重要步驟。特征波長(zhǎng)選擇是從全譜數(shù)據(jù)中提取部分涵蓋有用信息的光譜,去除噪聲光譜及無用信息,建立一個(gè)更為簡(jiǎn)約、穩(wěn)定的光譜模型,可以極大地減少變量數(shù)目,加快模型的計(jì)算效率,提高模型的穩(wěn)健性[8]。
SPA 是由Araujo 等[9]提出的一種以消除變量間共線性為主要目的的特征波長(zhǎng)選擇算法,該方法主要原理是利用向量的投影分析,對(duì)全譜數(shù)據(jù)的有效變量進(jìn)行提取,消除冗余信息及無信息變量[10]。假設(shè)已給出初始波長(zhǎng)k(0)和所需提取波長(zhǎng)數(shù)目N,算法步驟為[9,11-12]:
Step 0:在第一次迭代(n=1)之前,將校正集Xcal的第j 列光譜數(shù)據(jù)賦值給xj,j=1,…,J,J 為總波長(zhǎng)數(shù)。
Step 1:沒有被選擇的列向量的集合記為S,S={j,1≤j≤J,j?{k(0),…,k(n-1)}}
Step 2:計(jì)算xj在子空間正交于xk(n-1)的投影,,j∈S,其中P為投影算子。
Step 3:令k(n)=arg(max‖Pxj‖),j∈S
Step 4:令xj=Pxj,j∈S
Step 5:令n=n+1,如果n<N 返回Step 1 循環(huán)。
End:最后得到的波長(zhǎng)為{k(n);n=0,…,N-1}
其中k(0)和N 的選擇是很關(guān)鍵的一個(gè)步驟。為了得到全局最優(yōu)結(jié)果,k(0)的取值是在1~J 之間變化。N 的變化范圍是:1≤N≤Mcal,Mcal 為校正集樣本數(shù),具體取值由模型的誤差決定。
1.3.1 ELM 判別方法
極限學(xué)習(xí)機(jī)[13]是2004 年由南洋理工大學(xué)黃廣斌副教授提出的一種新型單隱層前饋神經(jīng)網(wǎng)絡(luò)(SLFN),具有結(jié)構(gòu)簡(jiǎn)單、學(xué)習(xí)速度快、非線性處理能力和全局搜索性能良好等優(yōu)勢(shì)。ELM 只需設(shè)置網(wǎng)絡(luò)中隱含層的神經(jīng)元數(shù)和激活函數(shù)[14],輸入層和隱含層的連接權(quán)值、隱含層的閾值可以隨機(jī)設(shè)定,且不需要更新調(diào)整,相比于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)(BP、RBF),其網(wǎng)絡(luò)參數(shù)的隨機(jī)賦值避免了多次迭代耗時(shí)長(zhǎng)和易陷入局部最小值的缺點(diǎn),使得ELM 在學(xué)習(xí)速率和泛化能力方面具有較強(qiáng)的優(yōu)勢(shì)。
1.3.2 SVM 判別方法
支持向量機(jī)是1995 年由Cortes 和Vapnik 首先提出的,是一種非線性的統(tǒng)計(jì)學(xué)習(xí)方法,抗噪性能強(qiáng)、效率高。它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中。其基本原理是將輸入數(shù)據(jù)空間映射到高維空間,尋找一個(gè)最優(yōu)分離曲面,使數(shù)據(jù)的間隔盡可能大,從而得到一個(gè)全局最優(yōu)解,以達(dá)到分類的目的[15]。SVM 的關(guān)鍵在于核函數(shù),較為常用的核函數(shù)包括線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)以及sigmoid 核函數(shù)。
1.3.3 LDA 判別方法
線性判別分析是1936 年由Ronald Fisher 最早提出的,又稱為“Fisher 判別分析”,它是一種模式識(shí)別的經(jīng)典方法,屬于有監(jiān)督的判別方法。其基本原理是找到一個(gè)投影方向,將高維的向量投影到最優(yōu)的鑒別矢量空間,以達(dá)到抽取分類信息和壓縮特征空間維數(shù)的效果,使得向量在新的子空間有最大的類間聚類和最小的類內(nèi)距離[16],通俗的說就是每一種類別數(shù)據(jù)的投影點(diǎn)盡可能的接近,而不同類別的數(shù)據(jù)的類別中心之間的距離盡可能的大。其計(jì)算量較小,能夠從高維數(shù)據(jù)提取出主成分信息,以提高分類的準(zhǔn)確度[17]。
實(shí)驗(yàn)所用軟件包括MATLAB R2015b、The Unscrambler X 10.3(64-bit)和ENVI 5.5(64-bit)。MATLAB 是由美國(guó)MathWorks 公司出品的一款較為常用的數(shù)據(jù)處理軟件,可實(shí)現(xiàn)數(shù)值分析、用戶界面、編程語言、圖像處理等多種功能,為圖像處理及建模仿真提供高效全面的解決方案。The Unscrambler 是一款多元數(shù)據(jù)分析軟件,具有較強(qiáng)的回歸、分類以及預(yù)測(cè)的建模工具,操作簡(jiǎn)便,易于使用。ENVI 是一款遙感圖像處理軟件,具有信息提取、圖像分類、數(shù)據(jù)融合變換等多種技術(shù),包含處理高光譜數(shù)據(jù)的多種工具。
感興趣區(qū)域的提取在ENVI 軟件中實(shí)現(xiàn),光譜數(shù)據(jù)的預(yù)處理在Unscrambler 軟件中實(shí)現(xiàn),變量選擇、圖形的繪制、三種分類模型(極限學(xué)習(xí)機(jī)、支持向量機(jī)、線性判別分析)的建立及預(yù)測(cè)判別等在MATLAB中實(shí)現(xiàn)。
高光譜圖像為三維數(shù)據(jù)塊,第一維和第二維為圖像大小,第三維為近紅外波長(zhǎng)信息。為了提取乳香樣本的近紅外信息,利用ENVI 軟件提取乳香高光譜圖像的感興趣區(qū)域(region of interest,ROI)的近紅外光譜數(shù)據(jù),每個(gè)高光譜圖像選取7 個(gè)ROI,計(jì)算ROI內(nèi)的平均光譜值,以此平均值作為該樣本的一條近紅外光譜數(shù)據(jù),每個(gè)樣本收集7 條光譜曲線,共收集77 條光近紅外光譜曲線(圖1),其中埃塞俄比亞產(chǎn)地28 條,索馬里產(chǎn)地21 條,印度產(chǎn)地28 條。為消除數(shù)據(jù)之間的量綱影響,對(duì)原始光譜數(shù)據(jù)進(jìn)行Min-Max 歸一化預(yù)處理,公式如下:
圖1 原始光譜圖Fig.1 Original spectrum
其中,min(x),max(x)分別是x 中最小值和最大值。通過Min-Max 歸一化處理可以將數(shù)據(jù)映射到(0,1)之間,可以消除樣本表面散射、光程變化的影響,降低同一樣品多次測(cè)試間誤差[18]。預(yù)處理后的光譜圖如圖2 所示。由圖2 可以發(fā)現(xiàn)預(yù)處理后的光譜數(shù)據(jù)在一定程度上消除了基線漂移、強(qiáng)化了譜帶特征、可以清晰分辨波峰波谷,所以后續(xù)的波長(zhǎng)選擇及模型建立均基于預(yù)處理后的光譜數(shù)據(jù)進(jìn)行。
圖2 預(yù)處理后光譜圖Fig.2 Pre-processed spectrum
SPXY(sample set portioning based on joint x-y distance)算法是一種能夠同時(shí)考慮樣本光譜數(shù)據(jù)信息與理化性質(zhì)特性的樣本集劃分方法,將77 個(gè)樣本通過SPXY 劃分為75%建模集和25%預(yù)測(cè)集,建模集包含57 個(gè)樣本,預(yù)測(cè)集包含20 個(gè)樣本。其中建模集包含22 個(gè)埃塞俄比亞產(chǎn)地、17 個(gè)索馬里產(chǎn)地、18個(gè)印度產(chǎn)地的乳香,預(yù)測(cè)集包含6 個(gè)埃塞俄比亞產(chǎn)地、4 個(gè)索馬里產(chǎn)地、10 個(gè)印度產(chǎn)地的乳香,然后分別賦值作為判別依據(jù),將埃塞俄比亞產(chǎn)地的乳香賦值為1,索馬里產(chǎn)地的乳香賦值為2,印度產(chǎn)地的乳香賦值為3,以便進(jìn)行后續(xù)分類模型的判定。
由SPA 方法選擇特征波長(zhǎng)建立多元線性回歸模型,設(shè)置N 的最大最小值分別為:Nmin=5、Nmax=56,選取RMSEV 最小值對(duì)應(yīng)的波長(zhǎng)個(gè)數(shù)即為最終的特征波長(zhǎng)個(gè)數(shù)。圖3 中的正方形標(biāo)記所示為SPA 多元線性回歸模型選擇的變量數(shù),RMSEV 的最小值為0.192,此后各模型的RMSEV 值基本穩(wěn)定,不再大幅度降低。此時(shí)特征波長(zhǎng)N 的個(gè)數(shù)確定為20 個(gè),圖4中方塊所對(duì)應(yīng)的20 個(gè)點(diǎn)即為SPA 選擇的最佳特征波長(zhǎng),分別為949、954、965、1 123、1 167、1 199、1 216、1 336、1 396、1 412、1 423、1 450、1 548、1 608、1 717、1 881、1 935、2 006、2 240、2 300 nm。其中分布在1 900 nm 區(qū)域的波長(zhǎng),對(duì)應(yīng)于乳香結(jié)構(gòu)中-COOH 化學(xué)鍵的吸收;分布在1 015、1 195 nm 區(qū)域的波長(zhǎng),對(duì)應(yīng)于乳香結(jié)構(gòu)中-CH3化學(xué)鍵的吸收。
圖3 模型選擇的變量數(shù)Fig.3 Number of variables selected by the model
圖4 SPA 所選特征波長(zhǎng)點(diǎn)Fig.4 Characteristic wavelength points selected by SPA
2.4.1 ELM 分類模型
通過研究發(fā)現(xiàn)“Sigmoid”激活函數(shù)較“Sine”和“Hardlim”函數(shù)具有更高的預(yù)測(cè)精度和穩(wěn)定性[19],所以選擇“Sigmoid”函數(shù)為激活函數(shù)。一般情況下,隱層節(jié)點(diǎn)數(shù)小于或遠(yuǎn)小于訓(xùn)練集樣本數(shù),即:隱層神經(jīng)元個(gè)數(shù)=訓(xùn)練集樣本數(shù)* 隱層神經(jīng)元數(shù)目的比例參數(shù)(0.2~0.5),所以隱含層神經(jīng)元數(shù)目設(shè)置為20 個(gè)。
由表1 可以看出,采用ELM 對(duì)三種產(chǎn)地的乳香建立判別模型,基于特征波長(zhǎng)提取后的SPA-ELM 模型預(yù)測(cè)集準(zhǔn)確率高達(dá)100%,而原始光譜ELM 模型的預(yù)測(cè)集準(zhǔn)確率僅為85%,結(jié)果表明,基于SPA 算法提取的20 個(gè)特征波長(zhǎng)能代替原始光譜信息,不但可以降低數(shù)據(jù)冗余度,減少模型的輸入量,還可以提高預(yù)測(cè)的準(zhǔn)確率??梢姡B續(xù)投影算法結(jié)合極限學(xué)習(xí)機(jī)建立的分類模型可以有效識(shí)別出三種不同產(chǎn)地的乳香,基于SPA-ELM 和高光譜技術(shù)對(duì)乳香產(chǎn)地判別是一種有效的方法。
表1 ELM 預(yù)測(cè)模型性能比較Table 1 Performance comparison of ELM prediction model
2.4.2 SVM 分類模型
以多分類SVM 建立乳香產(chǎn)地分類模型,構(gòu)造多個(gè)二分類模型,將每個(gè)二分類的模型結(jié)果組合起來以實(shí)現(xiàn)多分類SVM 模型。在上述四種核函數(shù)中,徑向基(RBF)函數(shù)在小樣本的情況下更容易獲得好的結(jié)果,所以選用徑向基核函數(shù)建立SVM 分類模型,采用網(wǎng)格尋優(yōu)法和五折交叉驗(yàn)證得到最優(yōu)參數(shù)——懲罰因子C、核參數(shù)σ。SVM 對(duì)全譜及特征波長(zhǎng)選擇后數(shù)據(jù)的分類建模預(yù)測(cè)結(jié)果如表2 所示。
表2 SVM 預(yù)測(cè)模型性能比較Table 2 Performance comparison of SVM prediction model
由表2 可以看出,采用SVM 對(duì)三種產(chǎn)地的乳香建立判別模型,基于特征波長(zhǎng)提取后的SPA-SVM 模型預(yù)測(cè)集準(zhǔn)確率為85%,而FULL-SVM 模型的預(yù)測(cè)集準(zhǔn)確率僅為70%,表明,特征波長(zhǎng)選擇在一定程度上對(duì)模型的精度有所提高。
2.4.3 LDA 分類模型
LDA 對(duì)全譜及特征波長(zhǎng)選擇后數(shù)據(jù)的分類建模預(yù)測(cè)結(jié)果如表3 所示。
表3 LDA 預(yù)測(cè)模型性能比較Table 3 Performance comparison of LDA prediction model
由表3 可以看出,采用LDA 對(duì)三種產(chǎn)地的乳香建立判別模型,基于特征波長(zhǎng)提取后的SPA-LDA 模型預(yù)測(cè)集準(zhǔn)確率高達(dá)100%,而基于原始光譜的LDA模型的預(yù)測(cè)集準(zhǔn)確率僅為80%,SPA 特征波長(zhǎng)選擇后的LDA 判別模型與全譜的LDA 判別模型效果相比,預(yù)測(cè)準(zhǔn)確率有所提升,說明波長(zhǎng)選擇后保留了對(duì)建模有益的變量,消除了冗余干擾信息變量。并且,SPA-LDA 是一種較為有效的方法,可以進(jìn)行乳香產(chǎn)地的預(yù)測(cè)判別,以實(shí)現(xiàn)高光譜技術(shù)對(duì)不同產(chǎn)地的乳香種類鑒別。
從上述三種分類模型所得的結(jié)果可以看出,其中SPA-ELM 和SPA-LDA 的分類精度優(yōu)于SPASVM,其原因可能是因?yàn)镋LM 可以有多種方式投影到高維,而且訓(xùn)練速度快,我們可以通過訓(xùn)練多種ELM 模型,從中選擇較好的一部分,然后再bagging,組合起來加強(qiáng)效果,所以獲得了較優(yōu)的結(jié)果。而SVM算法處理高維數(shù)據(jù)具有較大優(yōu)勢(shì),但首先即對(duì)全譜數(shù)據(jù)進(jìn)行了降維處理,這可能使得SVM 無法發(fā)揮優(yōu)勢(shì),所以較SPA-ELM 和SPA-LDA 模型的分類精度略差。所提出的SPA-ELM 和SPA-LDA 兩種分類模型均獲得了100%的分類判別結(jié)果,可以進(jìn)行乳香產(chǎn)地的預(yù)測(cè)判別。相比于前人的試驗(yàn)結(jié)果,如:王趙等[2]通過TLC 指紋圖譜鑒別對(duì)3 種藥用乳香進(jìn)行區(qū)分,但處理方法繁雜,需要對(duì)乳香進(jìn)行前處理;許佳等[20]建立了乳香藥材的高效薄層色譜指紋圖譜,與數(shù)碼輪廓圖譜結(jié)合分析比較,對(duì)不同產(chǎn)地的乳香進(jìn)行鑒別、歸類。但同樣需要對(duì)乳香進(jìn)行甲醇超聲提取等前處理,操作較為復(fù)雜。而本文所提出的方法,無需對(duì)乳香樣本進(jìn)行前期化學(xué)處理,操作便捷,并且判別的準(zhǔn)確率較高,可以準(zhǔn)確判別三種乳香的產(chǎn)地,高光譜分析是一種有效可行的方法能夠進(jìn)行乳香產(chǎn)地判別。
為減少建模所需的波長(zhǎng)點(diǎn)和計(jì)算工作量,得到預(yù)測(cè)能力強(qiáng)、魯棒性高的模型,對(duì)歸一化預(yù)處理后的數(shù)據(jù)采用SPA 算法提取特征波長(zhǎng),分別建立ELM、SVM、LDA 三種分類模型,然后通過比較全譜及特征波長(zhǎng)選擇后數(shù)據(jù)的分類建模結(jié)果,尋找一種有效的方法可以進(jìn)行乳香產(chǎn)地判別。結(jié)果表明:三種分類方法下,特征波長(zhǎng)選擇后的判別模型相較于全譜的判別模型預(yù)測(cè)準(zhǔn)確率均有所提升,表明波長(zhǎng)選擇消除了冗余變量,提高了模型預(yù)測(cè)精度。其中,SPA-ELM、SPA-LDA 兩種方法的預(yù)測(cè)準(zhǔn)確率均為100%,兩種方法均可實(shí)現(xiàn)乳香產(chǎn)地的快速、無損鑒別。綜上所述,利用高光譜技術(shù)對(duì)乳香產(chǎn)地進(jìn)行檢測(cè)是可行的。研究為乳香產(chǎn)地的快速無損檢測(cè)分析提供參考。