郭 拓,梁小娟,馬晉芳,袁 凱,葛發(fā)歡,肖環(huán)賢
(1.陜西科技大學(xué) 電子信息與人工智能學(xué)院,陜西 西安 710021;2.暨南大學(xué) 光電工程系,廣東 廣州510632;3.中山大學(xué) 南沙研究院,廣東 廣州 511458;4.江西保利制藥有限公司,江西 贛州 341900)
近紅外光譜包含豐富的化學(xué)結(jié)構(gòu)信息、化學(xué)成分信息以及物理信息,被廣泛應(yīng)用于食品安全、藥物檢測(cè)和飼料營(yíng)養(yǎng)成分鑒別等領(lǐng)域[1]。但由于儀器噪聲的干擾以及近紅外光譜之間多重共線性問題,導(dǎo)致光譜信息中存在冗余信息,使得模型計(jì)算復(fù)雜,預(yù)測(cè)精度降低[2]。為排除無效信息,提高方法的準(zhǔn)確度,有必要對(duì)建模波段進(jìn)行篩選[3]。研究者們現(xiàn)已提出許多波段選擇方法,并取得了一定的效果。
波段選擇分為有監(jiān)督和無監(jiān)督兩種方式[4]。有監(jiān)督方法利用標(biāo)簽信息來選擇波段,以最大限度地提高訓(xùn)練樣本光譜數(shù)據(jù)與標(biāo)簽數(shù)據(jù)之間的聯(lián)系。但由于人為標(biāo)記誤差或光譜數(shù)據(jù)本身的影響可能遠(yuǎn)大于光譜數(shù)據(jù)與標(biāo)簽數(shù)據(jù)之間的聯(lián)系,進(jìn)而導(dǎo)致所選波段具有典型的不穩(wěn)定性[5]。這些因素促使了無監(jiān)督波段選擇算法的研究。
一般來說,無監(jiān)督的方法通過探索與標(biāo)簽信息無關(guān)的光譜數(shù)據(jù)的內(nèi)在關(guān)聯(lián)性來選擇具有代表性的波段。Ahmad等[6]提出了一種新的基于k均值聚類的統(tǒng)計(jì)波段選擇方法,可較好地用于高光譜數(shù)據(jù)的波段選擇。Thiagarajan等[7]使用核空間中的多層一維子空間聚類來推斷字典,并使用一個(gè)簡(jiǎn)單的水平追蹤方案獲得稀疏碼,最終得到特征波段。馬盈倉(cāng)等[8]提出了基于流形學(xué)習(xí)與L2,1范數(shù)的無監(jiān)督多標(biāo)簽特征選擇方法,該算法在L2,1范數(shù)回歸的基礎(chǔ)上,用特征流形和數(shù)據(jù)相似矩陣共同約束特征權(quán)重矩陣和偽標(biāo)簽矩陣,達(dá)到特征選擇的目的。簡(jiǎn)彩仁等[9]提出了正交基低冗余無監(jiān)督特征選擇法,該方法在正交基下運(yùn)用最大互信息系數(shù)矩陣選擇低冗余性的特征子集。但是這些方法需要額外的分類或聚類來選擇具有低冗余度的波段,且無法進(jìn)行波段的自動(dòng)選擇。Zhu 等[10]提出了一種結(jié)合行稀疏性范數(shù)和自表示學(xué)習(xí)(Self-representation learning,SRL)的頻帶選擇模型,可自動(dòng)進(jìn)行有效的波段選擇。針對(duì)自表示學(xué)習(xí)算法只關(guān)注波段信息而忽略不同樣本對(duì)波段選擇的影響,以及無法進(jìn)行動(dòng)態(tài)存儲(chǔ)波段權(quán)重的不足,可擴(kuò)展的自表示學(xué)習(xí)算法(Scalable one-pass self-representation learning,SOP-SRL)在自表示學(xué)習(xí)的基礎(chǔ)上添加了一個(gè)權(quán)重函數(shù),以區(qū)分每個(gè)樣本的貢獻(xiàn)度。同時(shí)該算法設(shè)計(jì)了權(quán)重向量q,可根據(jù)系數(shù)矩陣的變化動(dòng)態(tài)存儲(chǔ)波段得分,以及通過添加選擇波段和保持局部流行結(jié)構(gòu)的約束項(xiàng),更好地捕捉樣本的內(nèi)在信息。
本文首次將可擴(kuò)展的自表示學(xué)習(xí)波段選擇算法應(yīng)用于近紅外波長(zhǎng)選擇中,建立了安胎丸指標(biāo)含量阿魏酸、黃芩苷和漢黃芩苷的近紅外偏最小二乘校正模型,以期實(shí)現(xiàn)安胎丸3個(gè)指標(biāo)含量的快速檢測(cè)。
給定矩陣X=[X1,…,Xn]T∈Rn×b,RSR 可將每個(gè)波段表示為其他波段(包括自身)的一種線性組合[10]。用公式表示如下:
式中,W∈Rb×b,E∈Rn×b分別為系數(shù)矩陣和殘差矩陣。矩陣E的第i行表示重構(gòu)誤差,W反映不同特征的重要性并力求E達(dá)到最小。為了減小異常樣本的干擾和避免平凡解,在求解W時(shí)采用L2,1范數(shù)描述E,并添加了正則化項(xiàng)R(W)。故上述最小優(yōu)化問題可以描述如下:
第一項(xiàng)是損失函數(shù),第二項(xiàng)選用||W||2,1作為正則化項(xiàng),γ為通過交叉驗(yàn)證確定的正則化參數(shù),用來實(shí)現(xiàn)第一項(xiàng)和第二項(xiàng)之間的平衡。假設(shè)W= [w1,...,wi,...,wb]T,wi代表W的第i行,||Wi||2為特征權(quán)重,表示第i個(gè)特征在方程中的重要性,||Wi||2值越大,說明第i個(gè)波段選擇的概率越大。在求解W后選擇W得分較高的波段。
正則化自表示學(xué)習(xí)算法對(duì)所有樣本的貢獻(xiàn)不加區(qū)分,但在光譜矩陣中,有些樣本存在噪聲干擾或人為操作因素的影響,不對(duì)樣本的貢獻(xiàn)度加以區(qū)分是不合理的。故SOP-SRL算法中加入了可擴(kuò)展項(xiàng),以區(qū)分不同樣本對(duì)波段選擇的貢獻(xiàn)[11],優(yōu)化問題(2)的表達(dá)式可擴(kuò)展為:
v∈Rn是取決于重構(gòu)誤差的權(quán)重向量,γ是調(diào)節(jié)權(quán)重分布的一個(gè)參數(shù)。設(shè)置權(quán)重緩存向量q?Rn用來動(dòng)態(tài)記錄所有波段的得分。由于RSR 算法在選取波段時(shí),未考慮樣本的一致性且僅從重構(gòu)誤差的角度來衡量,導(dǎo)致一些固有屬性丟失,故SOP-SRL在表達(dá)式(3)中加入了新的正則化項(xiàng),并考慮了數(shù)據(jù)的局部流形結(jié)構(gòu),因而新的優(yōu)化表達(dá)式可表示為:
式中,第三項(xiàng)為考慮樣本的一致性加入的新的正則化項(xiàng),第四項(xiàng)和第五項(xiàng)用來調(diào)整圖的流形化結(jié)構(gòu)。?、γ2和γ3為正則化參數(shù),用來平衡這些項(xiàng)。S代表對(duì)應(yīng)X的樣本相似矩陣,Si,j代表第i個(gè)樣本和第j個(gè)樣本的相似度,κ(Xi)表示樣本的KNN集合。
獲取緩存向量q,選取得分較高的前m個(gè)q值用來選取波段,記為[q1,...,qj,...,qm]。
給定需要建立校正模型的光譜矩陣X=[X1,...,Xn]T∈Rn×b,通過SOP-SRL 算法,選取得分較高的前m個(gè)波段,故建模光譜矩陣變?yōu)閄=[X1,1,...,Xi,j...,Xn,m]T∈Rn×m。假設(shè)每個(gè)指標(biāo)含量矩陣為Y∈Rn×1,選用偏最小二乘建立安胎丸指標(biāo)含量的校正模型。
假設(shè)Y與X線性相關(guān),且Y=XB+N。其中,B為系數(shù)矩陣,N為噪聲矩陣[12]。首先將X、Y分解為雙線性,即:
T、U分別為X、Y的得分矩陣,P、Q是載荷矩陣,E、F是殘差矩陣。將X與Y相關(guān)聯(lián)得U=TD+R。D∈Ra×a為通過使殘差最小化而獲得的內(nèi)部模型系數(shù)的對(duì)角矩陣,又稱為關(guān)聯(lián)矩陣;a為PLS主成分?jǐn)?shù)。由此可得性質(zhì)值Y的估計(jì)量Y?=TDRT+F,計(jì)算得到的Y?即為每個(gè)指標(biāo)含量預(yù)測(cè)矩陣。
數(shù)據(jù)采集方式參考文獻(xiàn)[13],本文采用在2015年測(cè)得的2013、2014、2015年的安胎丸樣品數(shù)據(jù),共計(jì)21 批105 個(gè)樣本。這些光譜數(shù)據(jù)由近紅外光譜儀(SupNIRl500,聚光科技(杭州)有限公司,光柵型)通過應(yīng)用漫反射模式以1 nm 為間隔在1000~1800 nm 范圍內(nèi)測(cè)得,掃描次數(shù)32 次,每丸重復(fù)掃描3 次,取其平均值作為最終的光譜數(shù)據(jù)。同時(shí)采用高效液相色譜法(HPLC)(UltiMate 3000 高效液相色譜儀,美國(guó)Thermo公司)梯度洗脫測(cè)得21批安胎丸中阿魏酸、黃芩苷和漢黃芩苷的指標(biāo)含量。
在建模過程中,校正集數(shù)據(jù)可能存在異常光譜,影響校正模型的建立,導(dǎo)致預(yù)測(cè)結(jié)果存在偏差。本文首先使用馬氏距離法剔除光譜中的異常數(shù)據(jù)[14],圖1 為光譜值和指標(biāo)含量值的馬氏距離分布圖。對(duì)樣本和指標(biāo)含量都進(jìn)行異常值剔除,共剔除24 個(gè)樣本,繪制剔除異常樣本后安胎丸的近紅外光譜圖,如圖2所示。
圖1 光譜值(A)和指標(biāo)含量值(B)的樣本馬氏距離分布圖Fig.1 Mahalanobis distance distribution of spectral(A)and target ingredients(B)
圖2 剔除異常樣本后的光譜圖Fig.2 Spectra of abnormal samples removed
將余下的81 個(gè)樣本按照X-Y 共生矩陣法(Sample set partitioning based on joint X-Y distance,SPXY)進(jìn)行分組[15],選取56 個(gè)樣本用于建模,25 個(gè)樣本用于模型性能驗(yàn)證。樣本集的分類結(jié)果如表1所示。
表1 安胎丸樣本集的分類結(jié)果Table 1 Classification results of the Antai pills sample set
特征波長(zhǎng)選擇通過去除不相關(guān)和冗余的特征,找到具有良好泛化能力的原始特征的緊湊表示,以提升模型的預(yù)測(cè)能力[10]。為了評(píng)價(jià)SOP-SRL 波長(zhǎng)選擇算法的有效性,分別對(duì)安胎丸關(guān)鍵指標(biāo)成分阿魏酸、黃芩苷和漢黃芩苷建立偏最小二乘定量校正模型,并采用全波長(zhǎng)、相關(guān)系數(shù)法(CC)、正則化自表示(RSR)、稀疏子空間聚類(SSC)算法作為對(duì)比算法。以校正決定系數(shù)、校正均方根誤差(RMSECV)、預(yù)測(cè)決定系數(shù)和預(yù)測(cè)均方根誤差(RMSEP)作為評(píng)價(jià)標(biāo)準(zhǔn),對(duì)校正模型的預(yù)測(cè)效果進(jìn)行評(píng)估[16]。決定系數(shù)反映變量之間的相關(guān)關(guān)系密切程度,RMSECV 用來衡量模型對(duì)校正集的預(yù)測(cè)能力,RMSEP 用來衡量模型對(duì)預(yù)測(cè)集的預(yù)測(cè)能力。決定系數(shù)越大,均方根誤差越小,表明模型的性能越好。
CC、RSR、SSC 和SOP-SRL 在阿魏酸、黃芩苷和漢黃芩苷數(shù)據(jù)集上篩選出來的變量數(shù)分別為784、559、556、70,724、431、601、67,709、431、570、87。圖3 為3 種指標(biāo)成分運(yùn)用4 種波長(zhǎng)選擇算法篩選的變量分布圖。
從圖3可以看出,不同波長(zhǎng)選擇算法對(duì)不同指標(biāo)含量的波長(zhǎng)篩選存在隨機(jī)性。CC 選擇的變量過多且過于集中,可能過分考慮了光譜數(shù)據(jù)與指標(biāo)含量之間的相關(guān)信息而忽略了光譜數(shù)據(jù)本身之間的關(guān)聯(lián)性,未能繼續(xù)去除冗余。RSR、SSC 算法和SOP-SRL 算法選擇的變量分布較為類似,都集中在1000~1100 nm 和1400~1700 nm。這3 種算法通過分析光譜數(shù)據(jù)的內(nèi)在關(guān)聯(lián)性選擇出代表性較好的波段,SOP-SRL 算法涵蓋了RSR 算法和SSC 算法的波段范圍,說明SOP-SRL 算法在有效選擇代表信息的同時(shí)更好地去除了冗余信息。
圖3 各方法在3種安胎丸指標(biāo)含量數(shù)據(jù)集中篩選出來的變量分布Fig.3 Distribution of variables selected by each method for three property values of Antai pillsA-C:ferulic acid,baicalin,wogonoside;from left to right:CC,RSR,SSC,SOP-SRL
按照表1的分類結(jié)果建立安胎丸指標(biāo)含量阿魏酸、黃芩苷和漢黃芩苷的PLS校正模型。將基于4種波長(zhǎng)選擇算法保留的變量數(shù)建立的PLS 校正模型與基于全波長(zhǎng)(FULL)建立的PLS 校正模型進(jìn)行比較,以RMSECV 最小來確定樣本的主成分?jǐn)?shù)[17]。選用“2.3”所述4種指標(biāo)評(píng)價(jià)模型性能,安胎丸光譜數(shù)據(jù)經(jīng)過不同波長(zhǎng)選擇方法篩選的結(jié)果如表2所示。從表2可以看出,不同指標(biāo)成分建立的模型不同,選擇的波長(zhǎng)變量數(shù)也不同;對(duì)于同一指標(biāo)成分,采用不同的波長(zhǎng)選擇算法建立的近紅外光譜校正模型較全波長(zhǎng)有更好的預(yù)測(cè)效果,且建模所用的波長(zhǎng)數(shù)更少。
表2 選用不同波長(zhǎng)選擇方法的PLS回歸模型預(yù)測(cè)效果Table 2 Predictive effects of PLS regression model with different wavelength selection methods
(續(xù)表2)
從阿魏酸的結(jié)果可以看出,4種波長(zhǎng)選擇算法的建模變量數(shù)分別為784、559、556和70,相比于全波長(zhǎng)建模均有所減少,其中SOP-SRL算法選擇出的變量數(shù)最少;相較于全波長(zhǎng),4種算法的分別從0.9306 提高到0.9323、0.9354、0.9308 和0.9473;分別從0.9119 提高到0.9129、0.9197、0.9231 和0.9388,表明4 種算法在減少波長(zhǎng)變量的同時(shí)提高了變量之間的相關(guān)性。RMSECV 分別從0.0693下降到0.0685、0.0669、0.0692和0.0600,表明4種算法波長(zhǎng)選擇后模型的預(yù)測(cè)能力得到了提升;RMSEP 分別從0.0801 下降到0.0797、0.0765、0.0749 和0.0653,表明4 種算法波長(zhǎng)選擇后模型的泛化能力得到了提升。SOP-SRL算法相對(duì)于其他3種對(duì)比算法提升效果最為顯著,表明對(duì)于安胎丸的阿魏酸這一指標(biāo)含量,SOP-SRL 算法可以更加有效地篩選相關(guān)波長(zhǎng)變量,并剔除無關(guān)變量,從而提升模型的預(yù)測(cè)效果。
從黃芩苷和漢黃芩苷的結(jié)果可以看出,相對(duì)于全波長(zhǎng),SOP-SRL的波長(zhǎng)變量數(shù)從800分別減少到67 和87,RMSEP 從6.3495、0.7425 下降到3.6208、0.4073,分別下降了43%、45%。相應(yīng)的R2p從0.8794、0.9158提高到0.9526、0.9701,分別提高了8%、6%。表明經(jīng)SOP-SRL波長(zhǎng)選擇后的建模效果更好,模型的預(yù)測(cè)能力得到了顯著提升。
整體來看,SOP-SRL 波長(zhǎng)選擇算法對(duì)3 種不同指標(biāo)成分均有較好的預(yù)測(cè)效果,且相比于其他3 種波長(zhǎng)選擇算法效果更好,說明通過添加基于圖形的正則化項(xiàng)和流形約束,能夠顯著提高所選頻帶的代表性。
高效的中藥質(zhì)量評(píng)價(jià)是近紅外光譜分析技術(shù)的一個(gè)重要研究方向,但在建立中藥質(zhì)量檢測(cè)模型時(shí),樣品光譜數(shù)據(jù)中包含了大量的冗余信息,嚴(yán)重影響了模型的準(zhǔn)確性。針對(duì)這一問題,本文提出了一種基于SOP-SRL 波段選擇與PLS 建模的定量模型分析方法,并選取阿魏酸、黃芩苷和漢黃芩苷為研究對(duì)象,建立了安胎丸指標(biāo)成分檢測(cè)的近紅外光譜模型。探究了可擴(kuò)展的自表示學(xué)習(xí)波段選擇算法對(duì)校正模型預(yù)測(cè)結(jié)果的影響,結(jié)果發(fā)現(xiàn),基于該算法可以有效地選擇出代表性更強(qiáng)的波段,大大減少模型計(jì)算量,同時(shí)模型的預(yù)測(cè)效果得到了顯著提升。該算法為近紅外光譜數(shù)據(jù)的波段選擇提供了新方法。