鄭 峰,劉麗瑩,劉小溪,李 野,石曉光,張國(guó)玉,宦克為*
1. 長(zhǎng)春理工大學(xué),吉林 長(zhǎng)春 130022 2. 吉林省科學(xué)技術(shù)信息研究所,吉林 長(zhǎng)春 130000
近紅外光譜定量分析模型的樣本影響研究
鄭 峰1,劉麗瑩1,劉小溪2,李 野1,石曉光1,張國(guó)玉1,宦克為1*
1. 長(zhǎng)春理工大學(xué),吉林 長(zhǎng)春 130022 2. 吉林省科學(xué)技術(shù)信息研究所,吉林 長(zhǎng)春 130000
作為二次分析方法,近紅外光譜分析的重現(xiàn)性和可靠性非常依賴于建模過(guò)程。以近紅外光譜小麥蛋白質(zhì)定量分析模型為例,研究了多變量定標(biāo)建模過(guò)程中異常樣本問(wèn)題,旨在討論復(fù)雜樣本建模中的樣本對(duì)模型的影響和作用。以PLSR算法建模中校正方差與驗(yàn)證方差的解釋百分比曲線的背離特性作為異常樣本存在的判據(jù),當(dāng)兩個(gè)百分比曲線顯著偏離時(shí),則認(rèn)為樣本集中存在異常樣本,并對(duì)建模產(chǎn)生了顯著影響。異常樣本的識(shí)別和處理,以及影響分析是本文主要的創(chuàng)新性工作,采用了基于樣本刪除的子模型遍歷統(tǒng)計(jì)方法,能夠漸次識(shí)別并提取出異常樣本。在剔除異常樣本后的模型預(yù)測(cè)結(jié)果中,以模型的預(yù)測(cè)殘差標(biāo)準(zhǔn)差作為參考距離對(duì)異常樣本進(jìn)行了離群程度分級(jí),可分為顯著離群樣本,相對(duì)離群樣本以及潛在離群樣本,數(shù)據(jù)集中顯著離群樣本約占7.8%,相對(duì)離群樣本約占15.6%。異常樣本對(duì)模型的影響表現(xiàn)在對(duì)正常樣本的預(yù)測(cè)殘差上,使預(yù)測(cè)值偏離理想擬合直線,分散性增加。剔除異常樣本或以樣本權(quán)重建??捎行б种飘惓颖镜挠绊?,使模型的解釋性更偏向于多數(shù)樣本數(shù)據(jù),降低模型的經(jīng)驗(yàn)風(fēng)險(xiǎn)誤差。
近紅外光譜;樣本影響;灰色系統(tǒng);子模型群集學(xué)習(xí)
吸收光譜在近紅外光譜區(qū)已成為一個(gè)非常普遍的能得到產(chǎn)品指紋特征質(zhì)量指標(biāo)的測(cè)量方法。近紅外光譜(NIRS)技術(shù)是一種通過(guò)多元數(shù)據(jù)處理或其他化學(xué)計(jì)量學(xué)方法進(jìn)行建模預(yù)測(cè)的二次測(cè)量方法。作為一種二次測(cè)量方法,近紅外光譜分析技術(shù)的重現(xiàn)性和穩(wěn)健性非常依賴于統(tǒng)計(jì)建模過(guò)程,光譜數(shù)據(jù)的數(shù)學(xué)處理和基于適當(dāng)?shù)膮⒖挤椒ㄐ?zhǔn)使得化學(xué)成分或物理性質(zhì)可以通過(guò)近紅外光譜來(lái)確定。由于該方法的非入侵無(wú)損檢測(cè)形式和快速多指標(biāo)同時(shí)確定的特點(diǎn),被廣泛地應(yīng)用于化學(xué)和生物領(lǐng)域的研究[1]。在化學(xué)領(lǐng)域的應(yīng)用過(guò)程中,由于大多數(shù)研究對(duì)象通常具有相對(duì)穩(wěn)定的成分構(gòu)成,不含或極少存在干擾雜質(zhì)成分,使得NIRS技術(shù)可以非常有效地取代很多傳統(tǒng)化學(xué)測(cè)量方法,極受化學(xué)分析工作者的關(guān)注,隨之產(chǎn)生了大量的關(guān)于該技術(shù)中數(shù)學(xué)算法的研究工作,使得NIRS的建模算法的發(fā)展極為迅速。由于生物和化學(xué)領(lǐng)域之間關(guān)系的緊密性,NIRS在生物領(lǐng)域的研究與應(yīng)用也非常廣泛,數(shù)據(jù)的分析建模算法也同樣有效,但是生物樣本的復(fù)雜性使得NIRS技術(shù)普遍地存在模型的選擇、失效、修正維護(hù)等問(wèn)題。生物樣本與化學(xué)樣本之間存在本質(zhì)的差別,生物樣本具有高變異性、高離散性、低穩(wěn)定性、干擾成分未知和樣本采樣受限等特點(diǎn),這是大多數(shù)化學(xué)樣本分析時(shí)不存在的問(wèn)題[2]。最為關(guān)鍵的問(wèn)題是,生物樣本的復(fù)雜性使得樣本和總體間的差異和變化總是存在的。實(shí)際上,樣本的復(fù)雜性通常意味著采樣信息的有限,即樣本與總體同分布假設(shè)這一條件未必滿足。信息不足是分析理論中灰色系統(tǒng)的典型特征,所以對(duì)于生物樣本這種由復(fù)雜性導(dǎo)致未知程度較高的近紅外光譜建模問(wèn)題被梁逸曾教授稱(chēng)為廣義灰色系統(tǒng)的建模問(wèn)題[3-4],其中“廣義”一詞的含義意指先驗(yàn)信息非常少。本文以近紅外光譜小麥蛋白質(zhì)定量模型的樣本影響統(tǒng)計(jì)診斷為例,重點(diǎn)研究根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論[5]和子模型信息進(jìn)行模型優(yōu)化。對(duì)于信息有限的灰色系統(tǒng)建模問(wèn)題來(lái)講,在異常樣本識(shí)別后建立的模型更具健壯性。
1.1 分析測(cè)量過(guò)程和統(tǒng)計(jì)學(xué)習(xí)
按照德國(guó)的分析化學(xué)家Danzer教授對(duì)分析測(cè)量過(guò)程的描繪,整個(gè)測(cè)量過(guò)程實(shí)際上是一個(gè)解決實(shí)際分析問(wèn)題的全過(guò)程[6],如圖1所示,其中1樣本預(yù)處理(制備),2測(cè)量(操作),3信號(hào)校驗(yàn),4評(píng)價(jià)/校正,5數(shù)據(jù)解釋與評(píng)價(jià),6&7化學(xué)計(jì)量算法。該過(guò)程從采樣和選擇分析方法開(kāi)始,經(jīng)過(guò)試驗(yàn)設(shè)計(jì)、測(cè)量過(guò)程的控制和優(yōu)化、分析儀器所得信號(hào)的處理、數(shù)據(jù)的處理與分析,再到數(shù)據(jù)模型的評(píng)價(jià)解釋、分析結(jié)果的推斷統(tǒng)計(jì)、分析信息對(duì)研究目標(biāo)的解釋?zhuān)敝磷詈髮?duì)解決問(wèn)題的決策信息的提取和確定。因此這種基于統(tǒng)計(jì)學(xué)習(xí)建模的推斷測(cè)量過(guò)程是一個(gè)相對(duì)復(fù)雜而內(nèi)涵極其豐富的高知識(shí)密度的技術(shù)系統(tǒng),每個(gè)環(huán)節(jié)都涉及數(shù)學(xué)、物理、化學(xué)等學(xué)科或光、機(jī)、電、算等工程領(lǐng)域的相關(guān)知識(shí)。因此,可以認(rèn)為NIRS技術(shù)是一種通過(guò)各種層面的高知識(shí)密度集成技術(shù),在數(shù)據(jù)及分析模型基礎(chǔ)上最大限度地獲取各種物理化學(xué)信息或生物信息的一種綜合性極高的現(xiàn)代測(cè)量技術(shù)方法。
圖1 Danzer提出的分析測(cè)量流程框圖
上述分析問(wèn)題的過(guò)程可以被歸于統(tǒng)計(jì)學(xué)習(xí)理論范疇,其過(guò)程是一種研究訓(xùn)練樣本有限情況下的機(jī)器學(xué)習(xí)規(guī)律的學(xué)科。統(tǒng)計(jì)學(xué)習(xí)理論從一些觀測(cè)(訓(xùn)練)樣本出發(fā),試圖得到一些目前不能通過(guò)原理進(jìn)行分析得到的規(guī)律(可精確表述的數(shù)學(xué)模型),并利用這些規(guī)律來(lái)分析和解釋客觀對(duì)象,從而可以利用規(guī)律來(lái)對(duì)新的樣本或數(shù)據(jù)的較為準(zhǔn)確的推測(cè)。數(shù)學(xué)上可看作是基于經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行函數(shù)估計(jì)問(wèn)題,或者說(shuō)是在離散數(shù)據(jù)基礎(chǔ)上尋找近似的函數(shù)依賴關(guān)系。
一般來(lái)說(shuō),在基于大小為n的樣本集, 考慮逼近目標(biāo)函數(shù)的學(xué)習(xí)問(wèn)題,可表示為:
設(shè)學(xué)習(xí)目標(biāo)函數(shù)f(x)∈D?RL,RL是L維歐幾里德(Euclid)空間。訓(xùn)練樣本由樣本點(diǎn)解釋數(shù)據(jù)xm和相對(duì)應(yīng)的樣本響應(yīng)數(shù)據(jù)值ym構(gòu)成,見(jiàn)式(1)
(1)
若θ是能決定學(xué)習(xí)結(jié)果的因素集合,則稱(chēng)θ為樣本的模型參數(shù)。
(2)
經(jīng)驗(yàn)風(fēng)險(xiǎn)和實(shí)際風(fēng)險(xiǎn)之間的關(guān)系可以用推廣的界來(lái)描述經(jīng)驗(yàn)風(fēng)險(xiǎn),可以理解為經(jīng)驗(yàn)誤差,也就是模型的訓(xùn)練誤差,那么實(shí)際風(fēng)險(xiǎn)就可以理解為模型的實(shí)際誤差。實(shí)際誤差可以用模型的期望誤差來(lái)表示,根據(jù)VC維(vapnik-chervonenkis dimension)理論,可以得到一個(gè)經(jīng)驗(yàn)誤差與實(shí)際誤差二者之差的上確界,
sup|Eexp-Eemp|=φ
即|Eexp-Eemp|≤φ
(3)
式(3)中Eexp是期望誤差,Eemp是經(jīng)驗(yàn)誤差,通常可以將所求模型與數(shù)據(jù)之間的擬合殘差作為經(jīng)驗(yàn)誤差,φ是經(jīng)驗(yàn)誤差的置信范圍。
1.2 基于子空間信息重采樣的期望誤差估計(jì)
(4)
(5)
1.3 基于隱變量的多元統(tǒng)計(jì)回歸建模方法
多重變量之間依賴關(guān)系的學(xué)習(xí)是多元數(shù)據(jù)統(tǒng)計(jì)分析中經(jīng)常遇到的問(wèn)題。在灰色體系的光譜定量分析技術(shù)的建模過(guò)程中經(jīng)常存在所謂的變量選擇問(wèn)題,即解釋變量數(shù)目多而樣本數(shù)目少,解釋變量之間存在多重共線性問(wèn)題。隨著對(duì)此類(lèi)問(wèn)題的研究,基于隱變量的多元統(tǒng)計(jì)方法逐漸發(fā)展成為主流的建模手段。隱變量方法是將直接觀測(cè)變量通過(guò)協(xié)方差的分析轉(zhuǎn)變?yōu)樯贁?shù)的隱變量,隱變量可表示為原有觀測(cè)變量的線性組合。目前最為常用的就是偏最小二乘回歸(PLSR)法,PLSR是對(duì)樣本數(shù)據(jù)進(jìn)行“軟模型”建模的一種穩(wěn)健的統(tǒng)計(jì)分析方法,該方法在各種應(yīng)用領(lǐng)域中的用途都非常廣泛。當(dāng)解釋變量多且樣本個(gè)數(shù)少時(shí),尤其是解釋變量遠(yuǎn)大于樣本個(gè)數(shù),其他統(tǒng)計(jì)方法無(wú)法應(yīng)用時(shí),該方法仍然相當(dāng)有效。PLSR核心環(huán)節(jié)是對(duì)協(xié)方差陣處理,該算法對(duì)數(shù)據(jù)的線性重構(gòu)和降維過(guò)程中主成分?jǐn)?shù)的選擇很大程度上等效于關(guān)鍵變量的選擇。因此,模型中的變量系數(shù)同時(shí)還具有變量權(quán)重的意義。所以采用PLSR方法時(shí),關(guān)鍵變量選擇環(huán)節(jié)被主成分的確定環(huán)節(jié)所代替。對(duì)于大多數(shù)問(wèn)題,留一驗(yàn)證誤差的估計(jì)方法與PLSR配合使用能夠很好地克服PLSR經(jīng)驗(yàn)誤差最小化的目標(biāo)優(yōu)化的過(guò)擬合問(wèn)題。
2.1 谷物近紅外光譜測(cè)量系統(tǒng)
近紅外光譜技術(shù)最令人關(guān)注之處在于它可以直接對(duì)各種天然產(chǎn)品進(jìn)行快速無(wú)損檢測(cè),因此在農(nóng)作物及產(chǎn)品的快速品質(zhì)評(píng)價(jià)領(lǐng)域得到了廣泛的重視和應(yīng)用。然而,直接對(duì)天然產(chǎn)品測(cè)試是它的優(yōu)點(diǎn),也是技術(shù)上的難點(diǎn),在保持自然顆粒狀態(tài)前提下準(zhǔn)確地得到光譜數(shù)據(jù)是對(duì)近紅外光譜技術(shù)的一項(xiàng)挑戰(zhàn)。在光譜采集過(guò)程中,顆粒樣品狀態(tài)、入射光束界面的穩(wěn)定性以及重復(fù)裝樣的隨機(jī)性等因素均對(duì)漫射測(cè)試有重要的影響。因此,對(duì)于近紅外漫射光譜采集,精巧合理的采集結(jié)構(gòu)是獲取高效穩(wěn)定的光譜數(shù)據(jù)的重要保障。
本工作采用了一種環(huán)帶分布式光纖采集結(jié)構(gòu),對(duì)小麥樣本進(jìn)行漫透反射光譜數(shù)據(jù)的采集,耦合器效果如圖2所示。圖3則給出測(cè)試系統(tǒng)的3D圖和剖面圖。
圖2 環(huán)帶分布光纖束耦合器
圖3 近紅外光譜小麥蛋白質(zhì)定量分析系統(tǒng)
2.2 測(cè)量數(shù)據(jù)
通過(guò)樣本收集, 總共獲得了90種不同的小麥樣品。根據(jù)國(guó)家標(biāo)準(zhǔn)方法,分別檢測(cè)得到小麥的蛋白質(zhì)含量和水分含量。光譜數(shù)據(jù)是通過(guò)環(huán)帶光纖耦合器收集的漫透反射光導(dǎo)入近紅外光譜儀采集得到的, 光譜儀器采用的是Zeiss的MCS611系統(tǒng), 測(cè)試的譜段范圍為950~1 700 nm。漫透反射光譜和對(duì)應(yīng)的吸光度光譜曲線如圖4所示。漫透反射光譜公式表示為式(6)
Srtr(λ)=Srt(λ)/Sref(λ)
(6)
其中Srt(λ)是小麥樣品的漫透反射光譜,Sref(λ)是反射面的參考反射光譜。進(jìn)一步可以得到吸光度光譜,見(jiàn)式(7)
Sabs(λ)=log(1/Srtr(λ))=log(Sref(λ)/Srt(λ))
(7)
圖4 反射光譜(a)與光譜吸光度曲線(b)
3.1 異常樣本問(wèn)題
對(duì)于近紅外光譜的小麥定量分析這類(lèi)灰色系統(tǒng)建模問(wèn)題,異常樣本識(shí)別或異常樣本影響分析是一個(gè)非常重要的環(huán)節(jié)。Bechman和Cook在1983年的報(bào)告中指出異常值可以被視為不協(xié)調(diào)點(diǎn)或雜質(zhì)點(diǎn),統(tǒng)計(jì)意義是樣本數(shù)據(jù)與數(shù)據(jù)集主體明顯不協(xié)調(diào),使研究者感到驚訝的數(shù)據(jù)點(diǎn),其本質(zhì)是與樣本主體不是來(lái)自同一分布的數(shù)據(jù)[9]。異常樣本的識(shí)別與分析具有相當(dāng)?shù)碾y度,其實(shí)質(zhì)是統(tǒng)計(jì)學(xué)習(xí)中的邊緣問(wèn)題(margin problem)。當(dāng)異常值顯著的時(shí)候,異常樣本與正常樣本在數(shù)據(jù)空間中相對(duì)較容易用一個(gè)邊界分割開(kāi),比較容易檢測(cè)出來(lái)。但是當(dāng)異常值與正常值之間的差別不顯著的時(shí)候,正常樣本的邊界就很難確定了。那么對(duì)于這種異常值與正常值之間差異很小,異常值個(gè)數(shù)不確定或相對(duì)較多(大于10%)時(shí),異常樣本檢測(cè)就變得復(fù)雜了。異常樣本影響分析最常用的方法是數(shù)據(jù)刪除法(case deletion),其核心思想是比較刪除數(shù)據(jù)點(diǎn)前后相關(guān)統(tǒng)計(jì)量的變化[10]。本文也是在以數(shù)據(jù)刪除法為基礎(chǔ),利用子空間信息重采樣的思路,設(shè)計(jì)異常樣本識(shí)別算法。子空間信息重采樣是針對(duì)樣本采集有限信息不充足情況下的一種二次統(tǒng)計(jì)策略。重采樣的一個(gè)重要策略是蒙特卡洛(Monte Carlo,MC)策略,利用偽隨機(jī)算法在現(xiàn)有樣本集合中進(jìn)行重新抽樣來(lái)構(gòu)建新的樣本子集,建立子樣本信息空間?;贛C策略的算法主要需要3個(gè)參數(shù),一是重采樣的樣本數(shù)目,二是重采樣次數(shù),三是偽隨機(jī)生成算法。本文不采用這種方法的原因是,MC方法的目的是概率過(guò)程的構(gòu)造,對(duì)于樣本與總體同分布假設(shè)不作為前提條件的統(tǒng)計(jì)學(xué)習(xí)問(wèn)題,構(gòu)造概率過(guò)程的意義不大。對(duì)于排中律破缺的問(wèn)題,不必用頻率收斂于概率這種思想強(qiáng)行賦予問(wèn)題一個(gè)概率意義,只需要在頻率概念的意義下用統(tǒng)計(jì)方法去分析即可。因此,本研究子樣本空間構(gòu)建的方法選擇了遍歷頻次統(tǒng)計(jì)策略,基于該策略的算法設(shè)計(jì)參數(shù)僅需要確定重采樣的樣本個(gè)數(shù),因?yàn)閷?duì)于遍歷頻次統(tǒng)計(jì)而言,對(duì)應(yīng)的重采樣次數(shù)等于樣本組合次數(shù)。
3.2 基于子空間信息重采樣策略的統(tǒng)計(jì)診斷
(8)
則總共需要考慮的子樣本集合的個(gè)數(shù)為式(9)所示
(9)
[89×(26-1)+22-1]×88+14=197 662,對(duì)應(yīng)樣本為26,22,14。
[89×(55-1)+26-1]×88+14=425 142,對(duì)應(yīng)樣本為55,26,14。
[89×(26-1)+15-1]×88+14=197 046,對(duì)應(yīng)樣本為26,15,14。
[89×(88-1)+26-1]×88+14=683 598,對(duì)應(yīng)樣本為88,26,14。
[89×(60-1)+26-1]×88+14=464 302,對(duì)應(yīng)樣本為60,26,14。
圖5 (a)第1輪3樣本刪除遍歷計(jì)算子模型擬合優(yōu)度;(b)第1輪異常值刪除后的校正解釋方差與驗(yàn)證解釋方差的百分比曲線
Fig.5 (a) R-square of sub-model by 3 samples deletion ergodic calculation in the first round;(b) The interpretative percentage curves of calibration variance and validation variance after the first round outlier detection
可以確定14號(hào)和26號(hào)樣本是每一個(gè)強(qiáng)影響峰值處都存在的樣本,確定剔除。將刪除樣本后作為新的總樣本集合再次重復(fù)上述過(guò)程,圖5(a)和圖6(a)給出了首次和最后執(zhí)行的效果,圖5(b)和圖6(b)給出對(duì)應(yīng)的PLSR建模過(guò)程中的校正解釋方差和驗(yàn)證解釋方差的百分比曲線,百分比曲線圖主要用于PLSR建模的主成分?jǐn)?shù)選取,可以通過(guò)閾值或斜率特征點(diǎn)(拐點(diǎn)等)來(lái)確定主成分?jǐn)?shù)。百分比曲線圖的另一個(gè)作用就是用來(lái)判斷異常樣本的存在性,當(dāng)驗(yàn)證解釋方差與校正解釋方差的百分比曲線差存在顯著差異時(shí)可認(rèn)為存在異常樣本。所以從圖5(b)中可以看出,刪除14號(hào)和26號(hào)樣本后,驗(yàn)證解釋方差與校正解釋方差的百分比曲線依然存在顯著分離。3樣本刪除分析重復(fù)執(zhí)行了6次直到驗(yàn)證解釋方差與校正解釋方差的百分比曲線基本一致, 如圖6(b)中所示。
圖6 (a)第6輪3樣本刪除遍歷計(jì)算子模型擬合優(yōu)度;(b)第6輪異常值刪除后的校正解釋方差與驗(yàn)證解釋方差的百分比曲線
Fig.6 (a) R-square of sub-model by 3 samples deletion ergodic calculation in the 6th round;(b) The interpretative percentage curves of calibration variance and validation variance after the 6th round outlier detection
上述過(guò)程中,一共執(zhí)行了6次3樣本刪除遍歷組合分析,根據(jù)子模型擬合優(yōu)度分布的強(qiáng)影響峰統(tǒng)計(jì),每次可以刪除若干個(gè)頻次較高的異常樣本,最后一共選出了22個(gè)異常樣本。
3.3 異常樣本識(shí)別結(jié)果的分析與處理
對(duì)于很多簡(jiǎn)單樣本的統(tǒng)計(jì)數(shù)據(jù)模型,異常樣本個(gè)數(shù)通常不會(huì)達(dá)到10%以上。但本研究中的異常樣本判別結(jié)果為22/90≈24%,主要原因如下: 第一,小麥樣本收集的復(fù)雜性源自于小麥產(chǎn)地的嚴(yán)重分布不均,有些省份有幾十種小麥,而某些省份則可能僅有兩三種。對(duì)于這種全國(guó)范圍內(nèi)的高生長(zhǎng)條件差異,必然會(huì)造成樣本分布上的復(fù)雜性。第二,近紅外定量分析建模的目標(biāo)成分是小麥的蛋白質(zhì)含量,蛋白質(zhì)是一大類(lèi)含氮元素有機(jī)分子的總稱(chēng),目標(biāo)成分本身的化學(xué)鍵對(duì)應(yīng)圖譜的特異性就相對(duì)不高。第三,本底成分受環(huán)境影響大也增加了數(shù)據(jù)的干擾變異,使得樣本的變異性很強(qiáng)。
從異常樣本剔除后建立的模型來(lái)看,模型的校正及驗(yàn)證擬合優(yōu)度(R方)均高于0.95,RMSEC和RMSEV分別為0.148 1和0.209 9。
圖7 (a)異常樣本刪除后的模型預(yù)測(cè)效果;(b)異常樣本與正常樣本以1∶2權(quán)重進(jìn)行重采樣后的模型預(yù)測(cè)效果
Fig.7 (a) Modeling after outlier deleted;(b) Modeling by 1∶2 resampling between outlier and normal sample
用剔除22個(gè)異常樣本之后的68個(gè)樣本建模,再對(duì)全部90個(gè)樣本進(jìn)行預(yù)測(cè),可以得到如圖7(a)所示的模型的預(yù)測(cè)值與實(shí)際值的擬合圖。從圖中可以看出,所判別出的22個(gè)異常樣本有7個(gè)樣本處于3倍標(biāo)準(zhǔn)差線之外,14個(gè)樣本處于2倍標(biāo)準(zhǔn)差線與3倍標(biāo)準(zhǔn)差線之間。1個(gè)異常樣本處于標(biāo)準(zhǔn)差以內(nèi)。3倍標(biāo)準(zhǔn)差線之外的7個(gè)樣本同樣也符合拉依達(dá)判據(jù),可以認(rèn)為是顯著的離群樣本,7/90≈7.8%。處于2倍標(biāo)準(zhǔn)差線與3倍標(biāo)準(zhǔn)差線之間的14個(gè)樣本是相對(duì)離群的樣本,14/90≈15.6%。處于標(biāo)準(zhǔn)差以內(nèi)的1個(gè)樣本可以認(rèn)為是潛異常樣本,該情況可能是由于該樣本與其他異常樣本之間具有矢量合作效應(yīng)而由組合刪除過(guò)程中被識(shí)別為異常樣本。
根據(jù)上述分析的過(guò)程及結(jié)果來(lái)看,異常樣本的唯一特性就是離群性,即屬于樣本集合中的少數(shù)派。異常樣本的識(shí)別實(shí)際上是需要根據(jù)各種樣本分布統(tǒng)計(jì)量進(jìn)行二次定義,在生成的分布空間中,以特定的界分割并提取出幾何化邊緣的少數(shù)樣本。以樣本刪除子模型的擬合優(yōu)度作為統(tǒng)計(jì)量分析的意義在于能夠直接反映樣本對(duì)建模的影響,或者說(shuō)直接根據(jù)樣本對(duì)建模的影響來(lái)定義樣本的異常程度,這樣對(duì)于異常樣本的處理也具有非常明確的指示性。
異常樣本被判別出來(lái)以后處理方法通常采用樣本權(quán)重處理,通過(guò)可重復(fù)重成樣即可簡(jiǎn)單的調(diào)整樣本權(quán)重。由圖7(b)給出異常樣本與正常樣本的1∶2重采樣建模效果。從建模效果中可以看出,異常樣本與正常樣本對(duì)建模呈現(xiàn)出兩種影響。從預(yù)測(cè)值與實(shí)際值的擬合圖來(lái)看,正常樣本表現(xiàn)為分布相對(duì)于集中在斜率為1的擬合中線附近,異常樣本則遠(yuǎn)離擬合中線。正常樣本所產(chǎn)生的作用是將異常樣本拉向擬合中線,降低數(shù)據(jù)的離散性,而異常樣本則將正常樣本向擬合中線的兩側(cè)拉開(kāi),使得數(shù)據(jù)的離散性更大。那么無(wú)論是剔除異常樣本建模還是調(diào)整樣本權(quán)重建模,目的都是使定量分析模型的預(yù)測(cè)結(jié)果更傾向于樣本中的多數(shù)派,減少或消除樣本中少數(shù)派的影響。
由于小麥樣品來(lái)自全國(guó)各種不同地理生長(zhǎng)條件的地區(qū), 即樣本集具有生物樣本的復(fù)雜性, 樣本收集可能不符合相同分布的假設(shè), 因此對(duì)于生物樣本建模, 異常樣本分析就顯得非常重要。對(duì)于異常樣本的存在性,本文是以PLSR算法的隱變量建模中校正方差與驗(yàn)證方差解釋百分比曲線的背離特性作為判斷依據(jù),當(dāng)兩個(gè)百分比曲線具有顯著的偏離或偏離點(diǎn)時(shí),則認(rèn)為樣本中存在異常樣本或樣本模式異常,異常樣本已經(jīng)顯著對(duì)建模產(chǎn)生影響。通過(guò)在樣本刪除法基礎(chǔ)上進(jìn)行子模型遍歷統(tǒng)計(jì),能夠漸次識(shí)別并提取出異常樣本,根據(jù)樣本的離群程度,異常樣本也可以分為顯著離群樣本,相對(duì)離群樣本以及潛在離群樣本。無(wú)論模型上刪除異常值或降低異常樣本的權(quán)重,目的均是傾向于使多數(shù)樣本的定量分析模型預(yù)測(cè)結(jié)果得到改善,減少或消除異常值對(duì)多數(shù)樣本預(yù)測(cè)值離散性的影響。因此, 進(jìn)行異常樣本刪除建?;驑颖緳?quán)重調(diào)整建??梢杂行Э刂飘惓颖舅鸬慕?jīng)驗(yàn)誤差風(fēng)險(xiǎn),一定程度上降低由于高變異特性而產(chǎn)生的異常樣本的干擾,提高模型對(duì)多數(shù)樣本的解釋性。
[1] CHU Xiao-li, LU Wan-zhen(褚小立, 陸婉珍). Spectroscopy and Spectral Analysis(光譜學(xué)與光譜分析), 2014, 34(10): 2595.
[2] HAO Yong, CAI Wen-sheng, SHAO Xue-guang(郝 勇, 蔡文生, 邵學(xué)廣), Chemical Journal of Chinese Universities(高等學(xué)?;瘜W(xué)學(xué)報(bào)), 2009, 30: 28.
[3] LIANG Yi-zeng, XU Qing-song(梁逸曾, 徐青松). Instrumental Analysis of Complex Systems ——White, Gray and Black Analytical Systems and Their Multivariate Methods(復(fù)雜體系儀器分析——白、灰、黑分析體系及其多變量解析方法). Beijing: Chemical Industry Press(北京: 化學(xué)工業(yè)出版社), 2012.
[4] LI Hongdong, Liang Yizeng, Cao Dongsheng, et al. Trac Trends in Analytical Chemistry, 2012, 38(9): 154.
[5] Vladimir N Vapnik. Statistical Learning Theory. New York: Wiley-Interscience, 1998.
[6] Klaus Danzer. Analytical Chemistry: Theoretical and Metrological Fundamentals. New York: Springer-Verlag Berlin Heidelberg Press, 2007.
[7] Tomaso Poggio, Ryan Rifkin, Sayan Mukherjee, et al. Nature,2004, 428: 419.
[8] Deng Baichuan, Yun Yonghuan, Liang Yizeng. Chemometrics and Intelligent Laboratory Systems, 2015, 149: 166.
[9] Beckman R J,Cook R D. Technometrics, 1983, 25(2): 119.
[10] BAI Wen-liang, ZHANG Jun, GAN Feng, et al. Computers and Applied Chemistry(計(jì)算機(jī)與應(yīng)用化學(xué)),2010, 27(11): 1476.
(Received Aug. 5, 2015; accepted Dec. 21, 2015)
*Corresponding author
Study on Outliers Influence in NIR Quantitative Analysis Model
ZHENG Feng1,LIU Li-ying1,LIU Xiao-xi2,LI Ye1,SHI Xiao-guang1,ZHANG Guo-yu1,HUAN Ke-wei1*
1. Changchun University of Science and Technology, Changchun 130022, China 2. Institute of Scientific and Technical Information in Jilin Province, Changchun 130000, China
As a secondary analysis method, reproducibility and reliability of near-infrared spectroscopy (NIRS) quantitative analysis are quite dependent on modelling process. In this paper,it is focused on outlier analysis for protein quantitative model of wheat based on NIRS. The purpose is to discuss the outlier effect in modelling process of complex sample set. The indicator of outliers is the deviation between two interpretative percentage curves in partial least squares regression (PLSR) modelling, when two percentage curves have significant deviation or departure point, the sample set should include the outliers. The innovative research work is the analysis and treatment of outliers. On the basis of sub-model ergodic calculation method, outliers can be gradually identified and picked-up. The standard deviation of model’s prediction residual is used as the reference graduation to distinguish the degree of deviation. According to the degree of deviation from sample population, outliers can also be divided into significant outliers, relative outliers and potential outliers. In this paper, the significant outliers of the sample set are about 7.8%, and the relative outliers are about 15.6%. The outliers will pull normal samples apart from the ideal fitting line and make the dispersity increase. No matter modelling with removed outliers or weighted samples, the purpose is to make the fitting results of quantitative analysis modelling more inclined to majority samples, while reducing or eliminating the impact of outliers.
Near infrared spectroscopy; Outlier analysis; Gray system; Sub-model population learning
2015-08-05,
2015-12-21
2014年度國(guó)家公益性行業(yè)(氣象)科研專(zhuān)項(xiàng)課題(GYHY201406037),2011年高等學(xué)校博士學(xué)科點(diǎn)專(zhuān)項(xiàng)科研基金聯(lián)合資助項(xiàng)目(20112216110006)資助
鄭 峰,1981年生,長(zhǎng)春理工大學(xué)博士研究生 e-mail: feng1214@126.com *通訊聯(lián)系人 e-mail: huankewei@126.com
O657.3
A
10.3964/j.issn.1000-0593(2016)11-3523-07