趙煜輝,劉曉東,張 磊,劉永宏
東北大學(xué)秦皇島分校,河北 秦皇島 066000
近紅外光(NIR)是一種波長在780~2 526 nm之間的電磁波,近紅外光譜區(qū)與有機(jī)分子中含氫基團(tuán)(O—H,N—H,C—H)振動(dòng)的合頻和各級(jí)倍頻的吸收區(qū)一致,通過掃描樣品的近紅外光譜,可以得到樣品中有機(jī)分子含氫基團(tuán)的特征信息[1-2]。近紅外光譜的多元標(biāo)定方法是利用含有氫基團(tuán)化學(xué)鍵伸縮振動(dòng)倍頻和合頻,在近紅外區(qū)域的吸收光譜,通過選擇適當(dāng)?shù)幕瘜W(xué)計(jì)量學(xué)領(lǐng)域的多元標(biāo)定方法,找到標(biāo)定樣本的近紅外吸收光譜與其相應(yīng)的成分濃度或性質(zhì)數(shù)據(jù)之間的關(guān)聯(lián),建立兩者之間的標(biāo)定關(guān)系模型[3]。主成分回歸(principal component regression,PCR)[4]和偏最小二乘(partial least squares,PLS)[5]等標(biāo)定方法已經(jīng)被證實(shí)是有效的,建立可靠的多元標(biāo)定模型通常耗時(shí)且成本高昂,然而在實(shí)際工業(yè)生產(chǎn)中,通過對(duì)原有近紅外光譜數(shù)據(jù)進(jìn)行分析建立的模型往往對(duì)新的數(shù)據(jù)集并不適用,從而導(dǎo)致原有模型失效。解決此類問題通常有兩種方法:一是重新對(duì)新的數(shù)據(jù)集進(jìn)行重新標(biāo)定和重建模型;二是建立標(biāo)定遷移模型,將已有可靠的源域多元標(biāo)定模型遷移到目標(biāo)域中。重新標(biāo)定和重建模型需要耗費(fèi)大量的時(shí)間和資源[6],而標(biāo)定遷移不僅可以有效的避免這一缺點(diǎn),而且還可以使得目標(biāo)領(lǐng)域取得可靠的學(xué)習(xí)效果。顯然,選擇第二種方法是解決此類問題的最佳策略[7]。
一般來說,標(biāo)定遷移方法可以分為兩類:有標(biāo)樣的標(biāo)定遷移和無標(biāo)樣的標(biāo)定遷移。目前比較有代表性的有標(biāo)樣的標(biāo)定遷移方法有直接標(biāo)準(zhǔn)化(direct standardization,DS)[8]、分段直接標(biāo)準(zhǔn)化(piecewise direct standardization,PDS)[9]、基于典型相關(guān)分析的標(biāo)定遷移(canonical correlation analysis based calibration transfer,CCACT)[10-11]以及斜率和偏差校正算法(slope bias correction, SBC)[12]等,無標(biāo)樣的標(biāo)定遷移方法有多元散射校正(multiplicative scatter correction,MSC)[13]、遷移成分回歸(transfer component regression,TCR)[14]等,其中DS和PDS的前提是假設(shè)光譜響應(yīng)的變異都是測(cè)量環(huán)境引起的;但是實(shí)際上,我們所收集和整理的化學(xué)樣品也存在著一定的不確定性;SBC為一種單變量方法,因此在測(cè)量儀器和測(cè)量條件變化引起系統(tǒng)化的光譜差異的情況下,才能取得較好的效果。現(xiàn)實(shí)生活中,光譜差異往往比較復(fù)雜,此時(shí)它的預(yù)測(cè)能力是不確定的;MSC 預(yù)處理方法并不能顯著提高模型的預(yù)測(cè)能力;TCR雖然具有較好的泛化能力,但與其他方法相比預(yù)測(cè)精度較低。
大多數(shù)能夠顯著地提高預(yù)測(cè)性能的遷移方法都屬于有標(biāo)樣的標(biāo)定遷移方法,即需要標(biāo)準(zhǔn)樣本來構(gòu)建標(biāo)定遷移模型,且標(biāo)準(zhǔn)樣本中主儀器與從儀器的樣本必須一一對(duì)應(yīng)緊密匹配,具備良好的代表性和適應(yīng)性,能夠很好地解釋兩種儀器之間的差異。由于這些要求的限制,有標(biāo)樣的模型通常泛化能力較差。而已被提出的少量無標(biāo)準(zhǔn)標(biāo)定遷移方法雖然不需要標(biāo)準(zhǔn)樣本,但其預(yù)測(cè)性能與有標(biāo)樣的標(biāo)定遷移方法相比相差較大。因此,結(jié)合兩者優(yōu)點(diǎn),開發(fā)一種性能可與有標(biāo)樣的遷移方法媲美的無標(biāo)準(zhǔn)樣本的遷移學(xué)習(xí)方法,將具有很大的意義。因此結(jié)合近紅外光譜維度高且存在多重共線性的特點(diǎn),以主成分回歸(PCR)作為標(biāo)定模型,應(yīng)用遷移學(xué)習(xí)的思想,提出了一種無標(biāo)準(zhǔn)樣本的基于聯(lián)合特征子空間分布對(duì)齊(joint feature subspace distribution alignment,JSDA)的標(biāo)定遷移方法,在不需要標(biāo)準(zhǔn)樣本的情況下,取得相同甚至優(yōu)于已有經(jīng)典有標(biāo)樣的標(biāo)定遷移方法的預(yù)測(cè)性能。
下面我們將具體說明如何建立基于近紅外光譜特征預(yù)測(cè)物質(zhì)成分濃度的無標(biāo)準(zhǔn)樣本的標(biāo)定遷移模型。用均值和協(xié)方差來描述光譜數(shù)據(jù)分布。由于均值在數(shù)據(jù)預(yù)處理(如中心化)后通常為零,不受子空間投影的影響,因此不需要對(duì)它們進(jìn)行處理。協(xié)方差反映著多維空間基向量之間的相關(guān)關(guān)系,源域和目標(biāo)域的協(xié)方差矩陣存在差異,且向子空間投影會(huì)對(duì)其產(chǎn)生影響,因此我們需要消除投影后兩者特征光譜協(xié)方差矩陣之間的差異,進(jìn)而使得兩者數(shù)據(jù)分布對(duì)齊[15]。
下面我們從理論上詳細(xì)闡述JSDA模型的建立過程:
第一步:構(gòu)建聯(lián)合公共特征子空間
(1)
對(duì)于傳統(tǒng)的子空間對(duì)齊方法,源域與目標(biāo)域數(shù)據(jù)分別構(gòu)建低維特征子空間時(shí),存在一個(gè)問題,由于投影矩陣Us和Ut的不同,造成轉(zhuǎn)換后兩者特征子空間基存在差異;通過計(jì)算線性映射矩陣來對(duì)齊子空間,從而最小化它們之間分布差異,這種方法稱為子空間對(duì)齊。而我們提出的構(gòu)建源域和目標(biāo)域的聯(lián)合特征子空間,使得源域和目標(biāo)域的特征光譜不僅具有相同的子空間基,并且能夠盡可能的保證原始數(shù)據(jù)在投影到該子空間上的時(shí)候不會(huì)失真,達(dá)到最優(yōu)狀態(tài),因此不需要進(jìn)一步對(duì)齊子空間,又有很好的優(yōu)越性。
第二步:特征分布對(duì)齊
公共特征子空間中,源域和目標(biāo)域具有相同的子空間基,但這并不能解決兩者數(shù)據(jù)特征分布之間的差異,不能滿足預(yù)測(cè)模型應(yīng)用的獨(dú)立同分布條件。如上所述,我們用均值和方差描述一個(gè)分布。前面提到,均值在數(shù)據(jù)中心化處理后不受子空間投影的影響,因此我們只需消除投影后兩者特征光譜的協(xié)方差差異。為了最小化源域特征和目標(biāo)域特征的二階統(tǒng)計(jì)量(協(xié)方差:Σs和Σt∈Rd×d)之間的距離,我們對(duì)源域特征進(jìn)行線性變換A∈Rd×d,使用Frobenius范數(shù)作為矩陣距離度量,從而最小化它們之間差異,如式(2)所示
(2)
進(jìn)一步對(duì)式(2)推導(dǎo)可得
ATΣsA=Σt
(3)
(4)
而實(shí)際應(yīng)用中根據(jù)已有樣本估計(jì)的光譜數(shù)據(jù)協(xié)方差矩陣常是不可逆的,因?yàn)闃颖緮?shù)據(jù)集的特征數(shù)總大于樣本數(shù),但一般樣本可以集中于一個(gè)低維子空間中,構(gòu)建子空間中的特征光譜,此時(shí)一般可逆。對(duì)于協(xié)方差矩陣不可逆的情況,我們將結(jié)果修正如式(5)所示
(5)
為了便于理解,我們給出聯(lián)合特征子空間下的特征分布對(duì)齊示意圖如圖1,紅色表示源域特征樣本,藍(lán)色表示目標(biāo)域特征樣本。其中圖1(a)表示中心化后的兩域原始數(shù)據(jù)投影到聯(lián)合特征子空間上的分布差異,圖1(b)表示對(duì)源域特征進(jìn)行線性變換后差異??梢钥吹浇?jīng)過均值和協(xié)方差校正后,兩域的特征分布基本相同。
圖1 特征分布對(duì)齊示意圖
第三步:構(gòu)建目標(biāo)函數(shù)
本工作所解決的標(biāo)定遷移問題是一個(gè)預(yù)測(cè)問題,根據(jù)上述步驟的結(jié)果,我們可以應(yīng)用最小二乘法構(gòu)建校正分布差異后的源域回歸預(yù)測(cè)模型的目標(biāo)函數(shù),其形式化如式(6)所示
(6)
(7)
經(jīng)過上述步驟,源域和目標(biāo)域具有相同的子空間基,且實(shí)現(xiàn)數(shù)據(jù)分布對(duì)齊,因而源域上構(gòu)建的回歸模型在兩域之前滿足數(shù)據(jù)獨(dú)立同分布條件。顯然,上述目標(biāo)函數(shù)求解得到的源域回歸模型,可以直接用于目標(biāo)域上的回歸預(yù)測(cè)。
第四步:得到目標(biāo)域標(biāo)定模型
上一步中,源域上得到的最小二乘回歸模型參數(shù)β和b可以直接用于目標(biāo)域上的回歸預(yù)測(cè),如式(8)所示
(8)
算法:JSDA算法
輸入:主儀器光譜矩陣Xs; 主儀器樣本物質(zhì)濃度矩陣ys; 從儀器光譜矩陣Xt。
輸出:標(biāo)定遷移模型f(β,b,A)。
開始:
(1)數(shù)據(jù)中心化處理
(3)利用式(1)找到公共特征子空間Ud;
(6)利用式(6)建立源域標(biāo)定模型,得到模型參數(shù)β和b,返回標(biāo)定遷移模型。
為了驗(yàn)證算法的準(zhǔn)確性和實(shí)用性,使用玉米數(shù)據(jù)集和小麥數(shù)據(jù)集作為實(shí)驗(yàn)對(duì)象,對(duì)數(shù)據(jù)集進(jìn)行了數(shù)據(jù)分析,來檢驗(yàn)JSDA方法的性能。
第一個(gè)數(shù)據(jù)集是玉米數(shù)據(jù)集,包含三個(gè) NIR 光譜儀(M5,MP5和 MP6)測(cè)得的80個(gè)樣品的光譜數(shù)據(jù)。這三臺(tái)不同的紅外光譜儀因其工作原理不同,所以得到的近紅外光譜略有差異,但對(duì)絕大多數(shù)谷物而言,儀器的工作原理不同所產(chǎn)生的誤差并不會(huì)影響試驗(yàn)結(jié)果,所以我們采用這三臺(tái)儀器測(cè)量的80個(gè)玉米的近紅外光譜做分析。玉米數(shù)據(jù)集中每個(gè)樣品含有四種成分:水分,油,蛋白質(zhì)和淀粉。波長范圍為1 100~2 498 nm(700通道),間隔為2 nm。該數(shù)據(jù)集可以從http://www.eigenvector.com/Data/Corn/下載。儀器M5和儀器MP5之間的光譜差異如圖2(a)所示;儀器M5和儀器MP6之間的光譜差異如圖2(b)所示;儀器MP5和儀器MP6之間的光譜差異如圖2(c)所示。其中橫軸表示波長,縱軸表示吸光度差異(即兩種儀器的吸光度差值),每條曲線代表一個(gè)光譜樣本。
第二個(gè)數(shù)據(jù)集是小麥數(shù)據(jù)集,它被用作2016年國際漫反射會(huì)議(IDRC)上發(fā)布的“Shootout”數(shù)據(jù)集,選擇蛋白質(zhì)含量作為屬性。小麥數(shù)據(jù)集的相關(guān)信息訪問網(wǎng)址http://www.idrc-chambersburg.org/content.aspx?page_id=22&club_id=409746&module_id=191116。它分析了來自三個(gè)不同NIR儀器制造商(A1,A2和A3)的248份小麥數(shù)據(jù)集的樣本。儀器A1和儀器A2之間的光譜差異如圖2(d)所示;儀器A1和儀器A3之間的光譜差異如圖2(e)所示;儀器A2和儀器A3之間的光譜差異如圖2(f)所示。
圖2 不用儀器之間的光譜差異
通過Kennard-Stone(KS)算法將玉米數(shù)據(jù)集的80個(gè)樣本分成兩組:80%用做標(biāo)定集的樣本,20%用做測(cè)試集的樣本;將小麥數(shù)據(jù)集的248個(gè)樣本分成兩組:80%用作標(biāo)定集的樣本,20%用作測(cè)試集的樣本。對(duì)于有遷移標(biāo)準(zhǔn)的遷移方法,使用Kennard-Stone(KS)算法在標(biāo)定樣本上選擇若干個(gè)標(biāo)準(zhǔn)樣品。
在該實(shí)驗(yàn)中,均方根誤差(root mean squard error, RMSE)被用作參數(shù)選擇和模型評(píng)估的指標(biāo)。RMSE是預(yù)測(cè)值與真實(shí)值偏差的平方與觀測(cè)次數(shù)n比值的平方根,可表示數(shù)據(jù)偏離真實(shí)值的程度,其計(jì)算方法如式(9)所示
(9)
玉米數(shù)據(jù)集包含各儀器樣本各80個(gè),以M5為主儀器,MP5和MP6分別為從儀器以及MP5為主儀器,MP6為從儀器的實(shí)驗(yàn)預(yù)測(cè)誤差RMSEP如表1所示。小麥數(shù)據(jù)集包含各儀器樣本各248個(gè),以A1為主儀器、A2和A3分別為從儀器以及A3為主儀器、A2為從儀器的實(shí)驗(yàn)預(yù)測(cè)誤差RMSEP如表2所示。其中表中有標(biāo)樣的遷移學(xué)習(xí)模型(SBC,PDS,CCACT)需要遷移標(biāo)準(zhǔn)樣本的個(gè)數(shù)Nstd不能過少也不能過多,因此,在[15, 35]的范圍內(nèi)選取標(biāo)準(zhǔn)樣本,以10為增量,獲取不同數(shù)量標(biāo)準(zhǔn)樣本對(duì)模型預(yù)測(cè)誤差的影響。觀察表中的預(yù)測(cè)誤差結(jié)果,總體來說,本文提出的JSDA方法在六組對(duì)比實(shí)驗(yàn)中具有最小的預(yù)測(cè)誤差,最好的預(yù)測(cè)精度。在其他五種有標(biāo)樣和無標(biāo)樣標(biāo)定遷移方法中,可以發(fā)現(xiàn)三種有標(biāo)樣標(biāo)定遷移方法(SBC, PDS, CCACT)的預(yù)測(cè)誤差都小于無標(biāo)樣標(biāo)定遷移方法(MSC, TCR)。有標(biāo)樣方法雖然需要獲取標(biāo)準(zhǔn)樣本,增加了模型的應(yīng)用代價(jià),但相應(yīng)的預(yù)測(cè)精度也得到了提升,而無標(biāo)樣方法不需要標(biāo)準(zhǔn)樣本,提高了模型的泛化能力和適用性,但相應(yīng)的預(yù)測(cè)精度也受到了影響。本文提出的JSDA方法,很好的解決了無標(biāo)樣標(biāo)定遷移方法預(yù)測(cè)精度較低的問題,在具備與標(biāo)定遷移方法相同甚至更加優(yōu)異的預(yù)測(cè)精度的同時(shí),還具備良好的適用性,應(yīng)用代價(jià)較低。
表1 SBC, PDS, CCACT, MSC, TCR 和 JSDA 六種遷移方法在玉米數(shù)據(jù)集下的RMSEP
表2 SBC, PDS, CCACT, MSC, TCR和JSDA六種遷移方法在小麥數(shù)據(jù)集下的RMSEP
為了直觀地觀測(cè)六種標(biāo)定遷移方法的性能,實(shí)驗(yàn)中,以從儀器測(cè)試集的物質(zhì)濃度數(shù)據(jù)測(cè)量值為橫坐標(biāo),以標(biāo)定遷移方法的預(yù)測(cè)值為縱坐標(biāo),描繪玉米數(shù)據(jù)集三組實(shí)驗(yàn)和小麥數(shù)據(jù)集三組實(shí)驗(yàn)的觀測(cè)濃度與預(yù)測(cè)濃度關(guān)系圖,如圖3—圖8所示。圖中的無差異直線表示,若觀測(cè)濃度與預(yù)測(cè)濃度之間誤差為零,則對(duì)應(yīng)的樣本點(diǎn)會(huì)落在此直線上。對(duì)比觀察圖3—圖8中的預(yù)測(cè)結(jié)果可知,六種模型中MSC模型在兩組實(shí)驗(yàn)四種物質(zhì)上的預(yù)測(cè)結(jié)果基本都聚集在無差異直線的某一側(cè),這與表1和表2中展示的結(jié)果相呼應(yīng),表明MSC模型的性能較差,無法準(zhǔn)確的標(biāo)定從儀器的物質(zhì)濃度。而CCACT,PDS,SBC,TCR以及本文提出的JSDA模型在兩組實(shí)驗(yàn)上的預(yù)測(cè)結(jié)果基本都聚集在無差異直線的兩側(cè),分布都較為均勻,但相對(duì)來說,SBC模型的預(yù)測(cè)結(jié)果分布較為散亂,表明模型魯棒性較差。對(duì)比所有模型的預(yù)測(cè)結(jié)果,以JSDA模型的預(yù)測(cè)結(jié)果最為貼近無差異直線,擬合效果最好,結(jié)合表1和表2中的結(jié)果,可以得知,本文提出的JSDA方法具備最佳的預(yù)測(cè)性能,同時(shí)具有更好的泛化能力。
圖3 JSDA, SBC, PDS, CCACT, MSC, TCR六種方法在儀器M5和儀器MP5之間預(yù)測(cè)結(jié)果的散點(diǎn)圖
圖4 JSDA, SBC, PDS, CCACT, MSC, TCR六種方法在儀器M5和儀器MP6之間預(yù)測(cè)結(jié)果的散點(diǎn)圖
圖5 JSDA, SBC, PDS, CCACT, MSC, TCR六種方法在儀器MP5和儀器MP6之間預(yù)測(cè)結(jié)果的散點(diǎn)圖
圖6 JSDA, SBC, PDS, CCACT, MSC, TCR六種方法在儀器A1和儀器A2之間預(yù)測(cè)結(jié)果的散點(diǎn)圖
圖7 JSDA, SBC, PDS, CCACT, MSC, TCR六種方法在儀器A1和儀器A3之間預(yù)測(cè)結(jié)果的散點(diǎn)圖
圖8 JSDA, SBC, PDS, CCACT, MSC, TCR六種方法在儀器A3和儀器A2之間預(yù)測(cè)結(jié)果的散點(diǎn)圖
通過在玉米和小麥的近紅外光譜數(shù)據(jù)集上,在JSDA與SBC,PDS,CCACT,MSC,TCR五種對(duì)比標(biāo)定遷移方法之間,進(jìn)行的兩組對(duì)比實(shí)驗(yàn),驗(yàn)證了本文方法的性能??傮w來說,實(shí)驗(yàn)結(jié)果中,本文提出的JSDA方法的預(yù)測(cè)誤差都是最低的,表明在實(shí)驗(yàn)的兩個(gè)數(shù)據(jù)集上,JSDA方法的性能最優(yōu)異,其次是PDS和CCACT,SBC雖然預(yù)測(cè)的RMSE較小,但預(yù)測(cè)結(jié)果不穩(wěn)定,然后是TCR,而MSC方法的預(yù)測(cè)性能最差。實(shí)驗(yàn)結(jié)果充分驗(yàn)證了本文所提JSDA方法在實(shí)際應(yīng)用中的優(yōu)越性,JSDA方法在解決傳統(tǒng)標(biāo)定遷移方法大多需要標(biāo)準(zhǔn)樣本這一缺點(diǎn)的同時(shí),具備與有標(biāo)樣的標(biāo)定遷移方法相同甚至更優(yōu)異的性能。