李艷坤,董汝南,張 進(jìn),黃克楠,毛志毅
1.華北電力大學(xué)(保定)環(huán)境科學(xué)與工程系,河北省燃煤電站煙氣多污染物協(xié)同控制重點(diǎn)實(shí)驗(yàn)室,河北 保定 071003 2.貴州醫(yī)科大學(xué)食品科學(xué)學(xué)院,貴州 貴陽 550025 3.中國人民解放軍陸軍第八十二集團(tuán)軍醫(yī)院,河北 保定 071000 4.天津市建筑材料科學(xué)研究院有限公司,天津 300110
隨著測量技術(shù)的飛速發(fā)展,現(xiàn)代分析儀器的多個分析通道可提供豐富的數(shù)據(jù),從而獲取海量及高維數(shù)據(jù)變得愈加容易。然而在數(shù)據(jù)的多元模型構(gòu)建中,不是所有的變量都適合進(jìn)入最終的模型。冗余及干擾變量的存在都會影響模型準(zhǔn)確性;或者有時獲取某些變量的成本過高,從而需要摒棄某些變量;當(dāng)然對因變量影響顯著的自變量若未進(jìn)入模型,也會影響模型的準(zhǔn)確性。而通過篩選變量能夠提取出代表體系組成和特點(diǎn)的信息變量,從而達(dá)到數(shù)據(jù)降維、模型簡化、提高預(yù)測效率乃至提高模型解釋或預(yù)測性能的目的。所以,變量篩選已成為目前多元模型構(gòu)建中的一個重要步驟。近年來,光譜領(lǐng)域中變量篩選方法的研究取得了很大的進(jìn)展。圖1顯示出變量(波長)篩選相關(guān)出版論文數(shù)量從2004年—2019年呈逐年增長趨勢(來源:SCI-EXPANDED with searchtopic “variable-selection” or “wavelength-selection”)。光譜數(shù)據(jù)大都存在量大、波段數(shù)多等特點(diǎn)。例如,使用傅里葉變換近紅外(near-infrared,NIR)分析儀時,6 000 cm-1光譜范圍內(nèi)可獲得1 557個光譜點(diǎn)(變量)[1]。包括噪聲、基線漂移、譜帶重疊、背景干擾、雜散光等諸多因素的影響,會不可避免地導(dǎo)致數(shù)據(jù)中包含冗余和干擾變量。變量間存在的多重共線性也會影響建模,使得數(shù)據(jù)分析的結(jié)果變得不可靠。因此,變量篩選已經(jīng)廣泛地應(yīng)用在光譜分析中。尤其近紅外光譜(NIRs)吸收強(qiáng)度較弱,信噪比低,靈敏度低,譜峰寬且數(shù)目多、嚴(yán)重重疊。因此,借助化學(xué)計量學(xué)包括變量篩選技術(shù)從其光譜中提取出表征成分、結(jié)構(gòu)等特征信息,克服了分析技術(shù)的難點(diǎn),才使得該技術(shù)得以迅猛發(fā)展和應(yīng)用。所以,目前變量篩選方面的綜述[1-4]大都聚焦于其最得意的應(yīng)用—近紅外光譜領(lǐng)域。而本文結(jié)合作者的研究體會與文獻(xiàn)調(diào)研,全面地綜述了近/中紅外光譜、拉曼光譜等光譜分析中常用的變量篩選算法的提出、發(fā)展、特點(diǎn)、分類及近年來的應(yīng)用。
圖1 變量/波長篩選相關(guān)論文出版數(shù)量
偏最小二乘(partial least squares,PLS)是由Wold等于20世紀(jì)末提出的一種經(jīng)典的多元校正算法[5]。在最初始的非線性迭代偏最小二乘基礎(chǔ)上發(fā)展了PLS-SVD算法、簡化的偏最小二乘(SIMPLS)、非線性的Kernel PLS等。PLS求得模型的預(yù)報殘差平方和較小,且適用于變量多、樣本少的問題,得到廣泛應(yīng)用。同時基于PLS模型參數(shù)(回歸系數(shù)、變量穩(wěn)定性、變量投影重要性、光譜載荷權(quán)重)用于篩選變量的算法也在不斷地應(yīng)用在數(shù)據(jù)分析中。表1總結(jié)了代表性算法的提出及特點(diǎn),并對其原理、發(fā)展及近五年來的應(yīng)用進(jìn)行綜述。
表1 基于PLS模型參數(shù)的變量篩選方法
UVE通過留一交叉驗(yàn)證建立一系列PLS模型,計算每個變量的穩(wěn)定性“stability”(回歸系數(shù)平均值與其標(biāo)準(zhǔn)偏差的比值:“cj”)。通過在數(shù)據(jù)中添加數(shù)值較小的隨機(jī)變量(噪聲)的“cartif”作為閾值來刪除無信息變量。邵學(xué)廣課題組基于UVE融合蒙特卡洛(Monte Carlo,MC)思想,用MC技術(shù)代替LOOCV,提出蒙特卡洛無信息變量消除(MC-UVE)[7]。該方法對煙草樣品的NIRs波長進(jìn)行篩選,與全譜PLS及UVE-PLS相比,在保留變量數(shù)目最少的情況下取得最好的預(yù)測精度。并進(jìn)一步和小波變換(WT)結(jié)合,得到更加精簡的定量模型。此后,MC-UVE開始成功地應(yīng)用于各種光譜數(shù)據(jù)的分析中[16-18]。
區(qū)間(間隔)PLS將光譜均分成若干個連續(xù)等寬子區(qū)間,在每個子區(qū)間內(nèi)分別建立PLS模型,將交叉驗(yàn)證均方根誤差(root mean square error of cross validation, RMSECV)最小的子區(qū)間確定為最佳模型波段。由于子區(qū)間的位置隨著全譜劃分區(qū)間數(shù)目的確定而固定,然而這些區(qū)間不一定恰與成分相關(guān)的信息區(qū)間吻合。為此,產(chǎn)生了采用一個窗口沿整個波譜逐步移動的策略,即MWPLS。
牛曉穎等[19]利用iPLS篩選出了豬、牛、羊肉等鮮肉中多種不飽和脂肪酸適宜建模的近紅外光譜波段。Zhao等[20]運(yùn)用iPLS分析豬肉皮下脂肪的拉曼光譜,實(shí)現(xiàn)了其含碘值的檢測。Yu等[21]采用激光誘導(dǎo)擊穿光譜技術(shù)結(jié)合iPLS,實(shí)現(xiàn)了含石油土壤中金屬的定量分析。為了優(yōu)化子區(qū)間的組合,出現(xiàn)一些iPLS改進(jìn)方法:向前/向后區(qū)間偏最小二乘(BiPLS/FiPLS)、區(qū)間協(xié)同iPLS(SiPLS)和確定獨(dú)立性篩選iPLS(SIS-iPLS)等[22-23]。許良等[24]采用近紅外漫反射光譜結(jié)合MWPLS篩選克霉唑的特征波長區(qū)域,得到測定克霉唑粉末藥品的最佳模型。謝軍等[25]將MWPLS用于人血清葡萄糖的衰減全反射紅外光譜分析中。Wang等[26]發(fā)展了深度協(xié)同-自適應(yīng)移動窗口偏最小二乘-遺傳算法用于煤樣NIRs分析,得到水分、灰分、揮發(fā)物的最佳校準(zhǔn)模型。還出現(xiàn)了窗口尺寸可變的CSMWPLS(changeable size MWPLS)、移動窗口組合搜索的SCMWPLS(searching combination MWPLS)、對稱收縮循環(huán)固定窗口PLS(SCRUWPLS)[27]等。
CARS通過蒙特卡洛采樣,利用指數(shù)衰減函數(shù)(EDP)和自適應(yīng)重加權(quán)采樣(ARS)策略選出PLS回歸系數(shù)絕對值大的波長點(diǎn),去除權(quán)重小的波長點(diǎn),最終選出RMSECV最低值對應(yīng)的變量子集。蔣雪松等用CARS-PLS建立了植物油反式脂肪酸的拉曼光譜定量模型,篩選出特征變量。Nie[28]等用CARS分析愈風(fēng)寧心滴丸原料中葛根素,提高了檢測精度。石巖等[29]用CARS研究人工牛黃的NIRs,用于建模的變量數(shù)大幅減少。Hu等[30]測定了葡萄酒中總酸、總糖和酒精含量,結(jié)果明顯優(yōu)于全譜PLS。融合MC-UVE和CARS優(yōu)勢產(chǎn)生了基于變量穩(wěn)定性的SCARS(stability CARS),用于咖啡因、尼古丁、玉米中水分的檢測[31-32]。Zheng等[33]提出雙競爭自適應(yīng)重加權(quán)采樣(double CARS)。
VIP分析中變量通過主成分傳遞對目標(biāo)值的解釋能力。若主成分對目標(biāo)值的解釋作用很強(qiáng),而變量對主成分的作用又很大,則該變量會具有較大的VIP值,即被認(rèn)為是貢獻(xiàn)大的變量而被保留。Ferreira等[34]用VIP對巴西大豆的NIRs進(jìn)行篩選,剔除了冗余變量,對大豆膳食纖維進(jìn)行了準(zhǔn)確分析。Gosselin等[35]提出PLS-bootstrap-VIP用于可見光-NIRs分析聚合物薄膜、木材/塑料復(fù)合材料、柴油參數(shù),驗(yàn)證了篩選特征波長的有效性。
邵學(xué)廣課題組將隨機(jī)檢驗(yàn)(RT)思想引入PLS模型用于變量篩選。將數(shù)據(jù)對應(yīng)的自變量值打亂,將隨機(jī)化的自變量值與光譜響應(yīng)值之間建立多個PLS模型。統(tǒng)計隨機(jī)模型的回歸系數(shù)值超過正常(真實(shí))模型回歸系數(shù)的比例(P),具有較小P值的變量即為重要變量。RT-PLS用于谷物和煙草NIRs波長篩選中,RMSEP平均值及標(biāo)準(zhǔn)偏差都小于全譜PLS[36]。同樣構(gòu)建了烤煙中三種多酚的近紅外漫反射光譜模型,與采用高效液相色譜法測得的參考值一致[37]。
其他常見的光譜變量篩選算法按搜索及篩選變量的策略可以分為五類:(1)智能尋優(yōu)算法:利用進(jìn)化和群集智能算法,搜尋使目標(biāo)函數(shù)較優(yōu)的變量子集。其中遺傳算法(GA)應(yīng)用較廣泛,在其基礎(chǔ)上引入生物免疫系統(tǒng)原理,發(fā)展了免疫遺傳算法(IGA)。結(jié)合GA、SA(模擬退火)算法優(yōu)勢,提出GSA算法[38];(2)基于模型集群分析算法[39]:采用隨機(jī)采樣(Monte Carlo,Bootstrap,Binary matrix)產(chǎn)生的變量子集建立系列子模型,挑選出RMSECV較低的子模型,采用統(tǒng)計檢驗(yàn)評價變量的重要性,在下次迭代中賦予較高的取樣權(quán)重。梁逸曾課題組基于模型集群策略提出一系列的算法;(3)基于變量空間共線性最小化算法:降低被選中變量建模的嚴(yán)重多重共線性,保留最小冗余信息的變量子集。例如,序列前進(jìn)篩選法中的連續(xù)投影算法通過構(gòu)建變量的正交矩陣來選擇變量,降低了多重共線性變量對模型的影響;(4)基于分類模型的變量篩選:利用分類模型的內(nèi)部參數(shù)作為評價,篩選出對分類模型有重要意義變量的同時,計算得到目標(biāo)樣本的得分用于分類判別。其中LDA[40]是降維和提取特征信息的有效方法之一。不相關(guān)變量投影分析(ULDA)考慮了基于LDA的變換矩陣列向量間的不相關(guān)性,減少降維后的數(shù)據(jù)冗余,在尋找疾病生物標(biāo)志物中得到好的應(yīng)用[41]。李艷坤等[42]用ULDA解析人體血清多肽質(zhì)譜,從15 154個變量中挑選出7個特征變量較好地區(qū)分了良性和惡性腫瘤。不僅簡化模型提高了診斷效率,而且7個特征變量所對應(yīng)的多肽可作為潛在卵巢癌標(biāo)志物;(5)正則化回歸算法:在原有的損失函數(shù)的基礎(chǔ)上增加懲罰回歸系數(shù)的正則項,收縮回歸系數(shù),減少所有特征變量回歸系數(shù)估計值的數(shù)量級,自動將無關(guān)變量的回歸系數(shù)置接近于0。這幾類算法包含的代表性算法總結(jié)于表2。
表2 其他光譜變量篩選方法
此外,還出現(xiàn)了基于其他原理的算法。通過將光譜投影到局部線性嵌入(locally Linear Embedding)[69]空間后,依次移除變量后引起樣本位置的變化而提出一種用于變量篩選的方法。還提出潛變量投影圖(latent projective graph)[70]等算法。
根據(jù)篩選出光譜變量的分布特征,分為波長篩選和波段(波長區(qū)間)篩選。波長選擇(wavelength selection,WS)以波長點(diǎn)為單位(即一個變量),因此所選擇的變量是離散的。波段篩選(wavelength interval selection,WIS)通??紤]相鄰變量的連續(xù)和協(xié)同作用(正協(xié)同和副協(xié)同),可能增加選擇變量的復(fù)雜性。而對光譜分段處理本質(zhì)上降低了變量選擇的難度,以劃分的波長區(qū)間(若干連續(xù)變量組成)為單位尋找最優(yōu)區(qū)間(組合)。但波段的劃分很關(guān)鍵,圖2展示了劃分波段的四種方式[1]。其中,張進(jìn)等提出的啟發(fā)式最優(yōu)波段組合(heuristic optimal partner band combination)[71]通過SPA選擇冗余信息最小的變量,以此為中心向兩側(cè)擴(kuò)展一定寬度,然后采用排列組合策略選出具有協(xié)同效應(yīng)的波段組合,提高了基于變量直接排列組合的選擇方法的效率[72]。
圖2 波段和波長篩選方法
兩類方法篩選出變量的分布雖具有相似性,但對模型預(yù)測能力的影響有一定的差別。一組谷物樣本的近紅外光譜(http://software.eigenvector.com/Data/Corn/corn.mat)和相應(yīng)的蛋白質(zhì)含量模型用于考察。首先利用小波變換結(jié)合多元散射校正對光譜進(jìn)行預(yù)處理,然后采用UVE,iPLS和MWPLS等篩選出變量,如圖3所示[73]。將篩選后的變量用于PLS建模,結(jié)果中MWPLS和iPLS的RMSEP值較低,也就是WIS的結(jié)果要優(yōu)于WS。隨后考察了光譜中變量間的相關(guān)系數(shù),發(fā)現(xiàn)強(qiáng)相關(guān)變量分布比較連續(xù)。同時考察了一組強(qiáng)相關(guān)變量分布比較分散的煙草數(shù)據(jù),篩選變量后用PLS建模預(yù)測尼古丁含量,發(fā)現(xiàn)WS比WIS方法的預(yù)測結(jié)果有優(yōu)勢。而兩組數(shù)據(jù)無論使用波長篩選還是波段篩選,都優(yōu)于全譜模型的預(yù)測結(jié)果。因此,篩選變量在光譜分析中非常有必要。而選擇合適的波長或波段篩選方法,需在一定程度上考慮強(qiáng)相關(guān)變量的分布情況。
圖3 谷物NIR-蛋白質(zhì)模型變量篩選方法比較
從變量子集選擇標(biāo)準(zhǔn)與學(xué)習(xí)算法的關(guān)系角度,變量篩選方法又可以分為:獨(dú)立于學(xué)習(xí)算法的過濾式、依賴于學(xué)習(xí)算法的封裝式和與學(xué)習(xí)算法集成的嵌入式方法。過濾式(Filter)通過引入閾值來實(shí)現(xiàn)對變量的選擇與否,方法與后續(xù)學(xué)習(xí)器無關(guān)。計算簡便,但篩選結(jié)果受閾值影響較大;封裝/纏繞式(Wrapper)使用迭代的過濾方法,將學(xué)習(xí)器的性能作為變量篩選的評價標(biāo)準(zhǔn),直到選出最優(yōu)變量組合;嵌入式(Embedded)利用模型的內(nèi)部參數(shù)作為評價,保留變量和模型間的相互關(guān)系。變量選擇方法自身即算法組成的一部分,嵌入到算法中。三類算法的流程及包含的常用算法如圖4所示。
圖4 過濾式、封裝式和嵌入式方法
通過作者多年來在該領(lǐng)域的研究體會結(jié)合文獻(xiàn)分析表明,每種變量篩選方法都具有各自的優(yōu)勢和局限性。實(shí)際中需要根據(jù)分析目標(biāo)和算法本身兩方面的特點(diǎn)選擇合適的方法。下面圍繞在解析實(shí)際體系中存在的若干問題進(jìn)行討論。
(1)有時單一的變量篩選方法往往達(dá)不到分析的要求,此時需要方法的聯(lián)合使用,例如CARS-SPA和CARS-GA等等。聯(lián)合方法不等同于幾種方法的簡單耦合,而是協(xié)同發(fā)揮優(yōu)勢。通常前一種粗選以消除無信息變量,后一種精選以挑選典型特征信息變量或降低變量間的多重共線性。最終選擇的效果取決于不同算法的邏輯結(jié)合方式和綜合利用度。
(2)某些篩選方法中由于采取隨機(jī)抽樣的變量子集和迭代方式進(jìn)行優(yōu)化,會導(dǎo)致模型篩選出的變量不穩(wěn)定,進(jìn)而產(chǎn)生不穩(wěn)定的結(jié)果,降低模型的可信度。例如CARS盡管具有篩選出變量數(shù)目少的優(yōu)點(diǎn),但每次重復(fù)運(yùn)行選中的變量個數(shù)及位置都會發(fā)生變化。對此,李艷坤等采取多模型共識策略[16, 18]綜合多個成員模型的預(yù)測結(jié)果,或保留被選擇頻率較高的變量,得到更準(zhǔn)確、穩(wěn)健的結(jié)果。尤其應(yīng)用在近紅外光譜中,雖然其對應(yīng)于結(jié)構(gòu)信息的特征較差,但選定的波長與目標(biāo)物的功能基團(tuán)之間仍然得到了合理的解釋。
(3)在尋找重要變量過程中,存在過擬合風(fēng)險。由于數(shù)據(jù)包含大量的變量,總會有一些不相關(guān)變量由于偶然性而變得很重要[76],某些奇異樣本的加入也會影響模型的構(gòu)建。此外,采用RMSECV作為評價指標(biāo),或基于PLS回歸系數(shù)的篩選方法[75]較多地利用自變量信息,這些都可能帶來模型過擬合的風(fēng)險。所以,盡可能地在建模前對數(shù)據(jù)進(jìn)行奇異值的識別和剔除、采用獨(dú)立的外部樣本評估變量或大規(guī)模的數(shù)據(jù)集驗(yàn)證。而新的評價變量重要性的參數(shù)及其判據(jù),以及搜索變量的策略和途徑等工作仍需展開深入地研究。
(4)與尺度縮放、基線校正等光譜預(yù)處理方法(平滑、導(dǎo)數(shù)等)聯(lián)合。李艷坤等曾利用小波變換系數(shù)替代原始光譜輸入MC-UVE模型中,在保留更少變量時取得相當(dāng)或優(yōu)于原MC-UVE篩選模型的預(yù)測結(jié)果[7, 16]。此外,方法和數(shù)據(jù)屬性之間可能存在相互作用,因此“不存在總是最好的方法,而存在最合適的方法”。所以,面對如此多的方法及方法的組合,可以發(fā)展集成(匯集預(yù)處理和變量篩選方法)智能化選擇(根據(jù)數(shù)據(jù)特征或建模性能優(yōu)劣,后者更簡單直接)算法,并開發(fā)適用于測量儀器或獨(dú)立使用的計算軟件,使用起來會更加快捷,尤其對于非專業(yè)人士處理數(shù)據(jù)將會非常有用。
致謝:感謝邵學(xué)廣教授(南開大學(xué))對本稿件提供的寶貴建議與指導(dǎo)。