蔣紅衛(wèi)張 磊尹 平
多區(qū)塊偏最小二乘回歸及在環(huán)境-食品重金屬遷移中的應(yīng)用*
蔣紅衛(wèi)1△張 磊2尹 平1
目的探討處理復(fù)雜數(shù)據(jù)存在多個變量區(qū)塊情形的一種統(tǒng)計(jì)分析方法:多區(qū)塊偏最小二乘回歸(MBPLSR),并將其用于環(huán)境-食品重金屬遷移研究之中。方法將重金屬鎘從環(huán)境向大米遷移的影響因素,劃分為土壤理化特性與各態(tài)鎘含量兩類,運(yùn)用MB-PLSR建立環(huán)境-大米鎘轉(zhuǎn)移模型,并且與傳統(tǒng)偏最小二乘回歸(PLSR)進(jìn)行性能比較。結(jié)果MB-PLSR較好地利用變量區(qū)塊的先驗(yàn)信息,使得其無論是在數(shù)據(jù)擬合、預(yù)測性能方面,還是在維度壓縮方面,均優(yōu)于PLSR。結(jié)論MB-PLSR適用于具有變量區(qū)塊的復(fù)雜數(shù)據(jù)建模,具有較好的信息綜合和解釋能力。
變量區(qū)塊 成分 重金屬 偏最小二乘回歸
在許多大型研究中,所需要處理的變量數(shù)目達(dá)到幾十個,甚至成百上千個,通??梢园凑漳撤N內(nèi)涵的相似性,將其劃分為多個變量類屬(變量區(qū)塊,variable block)。一般而言,與不同類屬的變量相比,相同類屬的變量之間往往具有更強(qiáng)的相關(guān)性與特定的專業(yè)意義,便于信息提取與模型解釋[1]。例如,大型流行病學(xué)調(diào)查中,常將危險(xiǎn)因素劃分為多個類屬(區(qū)塊),如,人口學(xué)指標(biāo)類、心理行為指標(biāo)類、生理生化指標(biāo)類、社會經(jīng)濟(jì)指標(biāo)類等,以期在分析各因素對健康影響的強(qiáng)度基礎(chǔ)上,進(jìn)一步分析各變量類屬對健康影響的重要程度。又如,食品重金屬污染研究中,常將影響因素劃分為土壤重金屬指標(biāo)類、土壤理化指標(biāo)類、污染排放指標(biāo)類等,需要明確各因素對重金屬從環(huán)境向食品遷移的作用。若直接運(yùn)用傳統(tǒng)的統(tǒng)計(jì)分析方法,就會導(dǎo)致模型極為龐雜,參數(shù)估計(jì)不穩(wěn)定,結(jié)果難以分析與解釋等問題。目前常用的處理方法主要有兩類,一是變量篩選,二是降維。研究表明[2-3],通過變量篩選,大量解釋變量無法按照其在所屬區(qū)塊中的重要性予以納入或剔除,容易形成錯誤的統(tǒng)計(jì)模型,也無法確定各變量區(qū)塊的作用,導(dǎo)致對結(jié)果虛假的分析與解釋。因而,針對具有多變量區(qū)塊的復(fù)雜數(shù)據(jù),更偏向于使用降維方法,如多區(qū)塊主成分分析,多區(qū)塊偏最小二乘回歸(multi-block partial least squares regression,MB-PLSR)等。
作為一種相當(dāng)高效的第二代統(tǒng)計(jì)分析方法,偏最小二乘回歸(partial least squares regression,PLSR)集多元線性回歸、主成份分析和典則相關(guān)分析于一體,同時實(shí)現(xiàn)了回歸建模、降維與兩組變量相關(guān)性分析[4]。它采用非線性迭代偏最小二乘算法(nonlinear iterative partial least squares,NIPALS),建立解釋潛變量與反應(yīng)潛變量的回歸關(guān)系。研究表明[4],PLS可以有效地降低模型的復(fù)雜度,克服了回歸分析中多重共線性、高維低樣本量等問題,適用于弱理論領(lǐng)域和數(shù)據(jù)的軟建模。由于不同區(qū)塊的影響因素有著本質(zhì)差別,因而,必須在一個統(tǒng)一的統(tǒng)計(jì)框架下,予以分開處理[5]。針對復(fù)雜數(shù)據(jù)的變量區(qū)塊特性,Wangen與Kowalski[3,6]提出了多區(qū)塊偏最小二乘回歸。該方法不僅繼承了PLSR的優(yōu)良性質(zhì),而且適用于處理變量區(qū)塊問題,可以更好地解釋來自不同區(qū)塊間變量的作用。因此,本文將在引入變量區(qū)塊概念的基礎(chǔ)上,較系統(tǒng)地研究多區(qū)塊偏最小二乘回歸模型,并用于食品重金屬污染實(shí)例分析。
1.基本思想
假定存在著B+1個變量區(qū)塊,包含反應(yīng)變量區(qū)塊Y,與B個解釋變量區(qū)塊Xb,b=1,2,…,B。其中,反應(yīng)變量區(qū)塊Y包含一或多個反應(yīng)變量,解釋變量區(qū)塊Xb包含mb個解釋變量,合并解釋變量X=[X1|X2|…|XB],共含有m=m1+m2+…+mB個解釋變量。所有變量均來自于n個研究個體的觀測。MB-PLSR從每個解釋變量區(qū)塊中提取區(qū)塊成分,再次從區(qū)塊成分中提取解釋變量全局成分,并與反應(yīng)變量空間成分建立直接的回歸關(guān)系,從而,間接建立全部解釋變量與反應(yīng)變量的回歸關(guān)系,其基本思想如圖1所示。
圖1 多區(qū)塊數(shù)據(jù)結(jié)構(gòu)與MB-PLSR思想示意圖
2.基本原理
多區(qū)塊偏最小二乘回歸的優(yōu)化準(zhǔn)則如下:
可以證明,反應(yīng)變量成分u的解為矩陣Y最大特征值所對應(yīng)的特征向量,區(qū)塊成分tb(X)是反應(yīng)變量成分u在解釋變量區(qū)塊Xb的投影。由此可見,MB-PLSR可滿足以下兩個條件:①盡量提取各變量區(qū)塊變異信息;②所提取的解釋變量區(qū)塊信息能最大限度地解釋反應(yīng)量的變異信息。
3.基本算法
MB-PLSR在每一步中采用NIPALS,提取各變量區(qū)塊成分,并獲得解釋變量全局成分與反應(yīng)變量成分回歸模型的估計(jì)。以下是MB-PLSR算法之一:
第一步,將解釋變量空間X和反應(yīng)變量空間Y進(jìn)行標(biāo)準(zhǔn)化變換,令X0=X,Y0=Y(jié)。
第二步,指定任意隨機(jī)數(shù)列,作為反應(yīng)變量Y的成分u0。
第三步,計(jì)算解釋變量區(qū)塊Xb第a個成分tab(X)及其權(quán)重向量wab(X)。
第四步,計(jì)算第a個解釋變量全局成分及其權(quán)重wa(T),以及反應(yīng)變量Y的成分ua與權(quán)重向量qa。
第五步,重復(fù)第三、四步,直至第a個全局成分ta(T)收斂。
第六步,計(jì)算解釋變量X的區(qū)塊載荷Pb(X)與回歸系數(shù)B。
第七步,計(jì)算解釋變量殘差空間Xa+1與反應(yīng)變量殘差空間Ya+1。
為了衡量解釋變量對反應(yīng)變量的作用,使用變量投影重要性指標(biāo)(variable importance of the projection,VIP)來衡量,相關(guān)定義見文獻(xiàn)[7]。類似于VIP定義,區(qū)塊投影重要性指標(biāo)(block importance of the projection,BIP)使用全局成分與反應(yīng)變量的相關(guān)系數(shù)平方和來定義[3],反映各變量區(qū)塊對反應(yīng)變量的影響程度與重要性。
本文采用SAS9.3完成多區(qū)塊偏最小二乘回歸模型的統(tǒng)計(jì)分析。
圖2 多區(qū)塊偏最小二乘回歸算法圖示
重金屬通過不同形態(tài)由環(huán)境向食品逐步遷移累積,直接威脅食品安全,造成人群健康水平風(fēng)險(xiǎn)[8]。只有構(gòu)建合理的環(huán)境-食品重金屬遷移模型,才能較全面認(rèn)識重金屬遷移的統(tǒng)計(jì)規(guī)律[9-10]。本實(shí)例的食品重金屬污染數(shù)據(jù)來自于2008年湖北省天門市環(huán)境與食品污染調(diào)查的一部分。具體調(diào)查方案是,于晚稻成熟期間,在水稻主產(chǎn)區(qū)的崗狀平原,采用系統(tǒng)抽樣采集52塊稻田,獲取土壤52份,及其相應(yīng)的晚稻樣品52份。本次調(diào)查變量劃分三個區(qū)塊。一是,土壤理化變量區(qū)塊,含土壤的酸堿度(pH值)、容重(g/cm3)、有機(jī)質(zhì)(%)、交換性酸度(cmol/kg),分別記為x11,x12,x13,x14;二是,各態(tài)鎘變量區(qū)塊,包含土壤中總鎘(mg/kg)、有效態(tài)鎘(mg/kg)、碳酸鹽態(tài)鎘(mg/kg)、有機(jī)結(jié)合態(tài)鎘(mg/kg),分別記為x21,x22,x23,x24;三是,反應(yīng)變量大米中鎘含量(mg/kg),記為y。其中,各鎘含量均取自然對數(shù)。現(xiàn)運(yùn)用MB-PLSR探討土壤理化特性、各態(tài)鎘對大米鎘含量的影響關(guān)系。
對原始數(shù)據(jù)作標(biāo)準(zhǔn)化變換,采用交叉核實(shí)法,確定提取2個全局成分(記為t1(T),t2(T)),同時,在土壤理化變量區(qū)塊中提取2個區(qū)塊成分(記為t11(X),t12(X)),在各態(tài)鎘變量區(qū)塊中提取2個區(qū)塊成分(記為t21(X),t22(X)),構(gòu)建MB-PLSR模型。
各區(qū)塊成分與其相應(yīng)的解釋變量的關(guān)系如下:
其中,t11(X)和t12(X)對土壤理化的解釋程度達(dá)到70.2%,成分t11(X)主要反映了酸堿度x11與交換性酸度x14的信息,成分t12(X)突出反映了有機(jī)質(zhì)x13的信息;t21(X)和t22(X)對各態(tài)鎘含量的解釋程度達(dá)到77.1%,成分t21(X)綜合反映了土壤各態(tài)鎘的信息,成分t22(X)重點(diǎn)反映了有效態(tài)鎘x22的信息。由此可見,這四個成分分別反映了土壤中酸度水平、有機(jī)質(zhì)水平、總鎘水平與易吸收鎘水平四類信息。
區(qū)塊成分與全局成分的關(guān)系如下:
其中,t1(T)和t2(T)對反應(yīng)變量大米鎘的解釋程度達(dá)到65.7%,全局成分t1(T)反映了土壤中酸度水平t11(X)、有機(jī)質(zhì)水平t12(X)、總鎘水平t21(X)與易吸收鎘水平t22(X)的綜合信息,且酸度信息與鎘水平呈反向關(guān)系,間接表明了原始變量區(qū)塊分為土壤理化與各態(tài)鎘水平兩區(qū)塊的合理性;結(jié)合全局成分t1(T)和t2(T)可見,土壤中不同態(tài)鎘水平對大米鎘含量影響存在差異,其中,有效態(tài)鎘呈正向關(guān)系,其他形態(tài)鎘的影響尚需進(jìn)一步明確。
各變量投影重要性指標(biāo)與載荷,見圖3。
圖3 各解釋變量及所屬區(qū)塊與反應(yīng)變量關(guān)系圖
結(jié)合圖3a與圖3c可見,大米鎘水平與有效態(tài)鎘水平關(guān)系最為密切,且呈正向關(guān)聯(lián),與酸堿度、交換性酸度關(guān)系密切程度次之,且呈負(fù)向關(guān)聯(lián),與碳酸鹽態(tài)鎘和總鎘水平稍呈負(fù)向關(guān)聯(lián),其關(guān)系密切程度較弱;而容重、有機(jī)質(zhì)、有機(jī)結(jié)合態(tài)鎘與大米鎘水平關(guān)系不甚密切。由圖3b可見,相對于土壤理化特性而言,土壤中的各態(tài)鎘水平對大米鎘水平影響稍強(qiáng)。
為了便于MB-PLSR與傳統(tǒng)PLSR比較,擬從成分?jǐn)?shù)nt、回歸決定系數(shù)與預(yù)測決定系數(shù)三方面來評價(jià)兩種方法的優(yōu)劣。從原始樣本中,按照20%的比例隨機(jī)抽取樣本,作為訓(xùn)練樣本,余下的樣本作為驗(yàn)證樣本,分別用MB-PLSR和PLSR進(jìn)行數(shù)據(jù)擬合與預(yù)測,重復(fù)100次,取的平均數(shù)。之后,與此類似,每次將訓(xùn)練樣本的比例提高5%,而驗(yàn)證樣本比例相應(yīng)降低5%,直至訓(xùn)練樣本比例達(dá)到80%為止。在不同訓(xùn)練樣本比例下,兩種方法所提取的成分?jǐn)?shù)nt、回歸決定系數(shù)與預(yù)測決定系數(shù)見圖4。
圖4 不同訓(xùn)練樣本比例下MB-PLSR與PLSR的成分?jǐn)?shù)與模型決定系數(shù)
由圖4a可見,MB-PLSR提取的成分?jǐn)?shù)一致地少于PLSR。這表明MB-PLSR可以更有效地壓縮解釋變量空間維度,具有更強(qiáng)的信息綜合能力。由圖4b可見,隨著訓(xùn)練樣本比例的上升,兩種方法的回歸決定系數(shù)呈下降趨勢,預(yù)測決定系數(shù)則呈上升趨勢,并且回歸決定系數(shù)一致地高于預(yù)測決定系數(shù)。兩種方法相較而言,無論在回歸決定系數(shù)方面,或是在預(yù)測決定系數(shù)方面,MB-PLSR均要優(yōu)于PLSR。這提示MB-PLSR通過區(qū)塊成分的提取,可以更為有效地剔除原始數(shù)據(jù)中的部分噪聲干擾,具有更好的模型解釋與預(yù)測能力。
本文通過采用多區(qū)塊偏最小二乘回歸對食品重金屬污染進(jìn)行分析,可以發(fā)現(xiàn),MB-PLSR可以在分析各類因素作用的基礎(chǔ)上,較好地確定各變量區(qū)塊影響大米重金屬含量的重要性。與傳統(tǒng)的偏最小二乘回歸相比較,MB-PLSR具有更強(qiáng)的信息綜合能力,模型擬合與預(yù)測精度也有所提高,并且,可以從變量、區(qū)塊、成分三個層面,對結(jié)果給予更為清晰、簡便與合理的解釋。
對復(fù)雜數(shù)據(jù)而言,MB-PLSR無需對解釋變量進(jìn)行篩選,僅需按照相近內(nèi)涵,事先對解釋變量加以分類,劃分為多個變量區(qū)塊。一方面,通過各區(qū)塊變量信息的綜合提取,反映相應(yīng)區(qū)塊的內(nèi)涵意義與潛在結(jié)構(gòu),以便分析各解釋變量在區(qū)塊中的影響程度與重要性;另一方面,通過構(gòu)建全局成分與反應(yīng)變量之間的回歸模型,反映各區(qū)塊對反應(yīng)變量的影響程度與重要性,從而,間接地反映各解釋變量對反應(yīng)變量的影響與作用??梢?,MB-PLSR通過利用變量區(qū)塊的先驗(yàn)知識,可以大幅度地降低模型建構(gòu)的復(fù)雜性,更好地符合與利用數(shù)據(jù)來源的自然結(jié)構(gòu),進(jìn)而,達(dá)到簡化模型,整體分析的目的。
需要注意的是,MB-PLSR尚存在三個方面的不足。一是,良好的變量區(qū)塊必須依賴于堅(jiān)實(shí)的專業(yè)理論知識,變量的不良區(qū)塊會直接影響到MB-PLSR的分析效果;二是,全局成分的權(quán)重向量正交,而各解釋變量區(qū)塊成分的權(quán)重向量并不正交,這將導(dǎo)致解釋變量區(qū)塊的信息提取,存在著部分信息交叉,給在變量層面的解釋帶來一定困難;三是,該方法只能用于構(gòu)建較簡單的潛結(jié)構(gòu)關(guān)系,不適于分析具有更復(fù)雜路徑關(guān)系的高維數(shù)據(jù),此時,需借助結(jié)構(gòu)方程模型、偏最小二乘路徑模型等其他統(tǒng)計(jì)分析方法來予以處理。
1.Roover KD,Ceulemans E,Timmerman ME.Modeling differences in the dimensionality of multiblock data by means of clusterwise simultaneous component analysis.Psychometricka,2013,78(4):648-668.
2.Vivien M,Verron T,Sabatier R.Comparing and predicting sensory profiles by NIRS:use of the GOMCIA and GOMCIA-PLS multi-block methods.Journal of Chemometrics,2005,19,162-170.
3.Bougeard S,Qannari E,Lupo C,et al.From multiblock partial least squares to multiblock redundancy analysis,a continuum approach.Informatica,2011,22(1):11-26.
4.Kramer N,Sugiyama M.The Degrees of Freedom of Partial Least Squares Regression.Journal of American Statistics Association,2011,106(1):697-705.
5.Alloway BJ.Heavy Metals in Soils.Glasgow,Chapman&Hall,1995.
6.Wangen LE,Kowalski BR.A multiblock partial least squares algorithm for investigating complex chemical systems.Journal of Chemometrics,1988,3:3-20.
7.蔣紅衛(wèi),夏結(jié)來,李園,等.偏最小二乘回歸的離群點(diǎn)檢測方法.中國衛(wèi)生統(tǒng)計(jì),2007,24(8):372-374.
8.蔣定國,李寧,楊杰.2010年我國食品化學(xué)污染物風(fēng)險(xiǎn)監(jiān)測概況、存在問題及建議.中國食品衛(wèi)生雜志,2012,24(3):259-264.
9.WHO.Food Safety Risk Analysis,Rome.Italy,F(xiàn)AO,2009.
10.劉劍鋒,谷寧,張可慧.土壤重金屬空間分異及遷移研究進(jìn)展與展望.地理與地理信息科學(xué),2012,28(2):99-103.
(責(zé)任編輯:郭海強(qiáng))
Multiblock Partial Least Squares Regression Model for Environment-Food Heavy Metal Transfer
Jiang Hongwei,Zhang Lei,Yin Ping(Department of Epidemiology and Health Statistics,Tongji College,Huazhong University of Science and Technology(430030),Wuhan)
ObjectiveTo explore multiblock partial least squares regression(MB-PLSR)that deal with multiple variable blocks in complex data,and apply this statistical method to modeling environment-food heavy metal transfer.MethodsThe influence factors of cadmium(Cd)transfer from environment to rice were divided into two blocks:soil physical-chemical variable block and multi-state Cd variable block.MB-PLSR was used for modeling environment-food Cd transfer,and was compared with classical partial least squares regression(PLSR)in their performance.ResultsIn terms of the dimensional reduction,model prediction and interpretation,MB-PLSR is superior to PLSR.ConclusionAs a practical statistical method of soft modeling for handling complex data with multiple variable block structure,MB-PLSR has several technical advantages in information extraction and model interpretability.
Variable block;Component;Heavy metal;Partial least squares regression
*國家自然科學(xué)基金項(xiàng)目(81373104);中央高?;究蒲袠I(yè)務(wù)資助(2012QN241)
1.華中科技大學(xué)同濟(jì)醫(yī)學(xué)院公共衛(wèi)生學(xué)院流行病學(xué)與衛(wèi)生統(tǒng)計(jì)學(xué)系(430030)
2.國家食品安全風(fēng)險(xiǎn)評估中心
△通信作者:蔣紅衛(wèi),E-mail:jhwccc@sina.com