趙小康,趙 鑫,朱啟兵,黃 敏
江南大學(xué)輕工過程先進(jìn)控制教育部重點實驗室,江蘇 無錫 214122
光譜檢測技術(shù)因其快速、無損等特點而廣泛用于農(nóng)產(chǎn)品、食品品質(zhì)檢測領(lǐng)域[1-5]。在利用光譜檢測技術(shù)進(jìn)行農(nóng)產(chǎn)品、食品品質(zhì)無損檢測時,通常都需要一定數(shù)量的訓(xùn)練樣本(包含光譜特征和理化品質(zhì)指標(biāo))來構(gòu)建預(yù)測模型。目前,已有多種建模方法被用于構(gòu)建預(yù)測模型,例如:偏最小二乘回歸模型(partial least square regression,PLSR)、支持向量回歸模型(support vector regression,SVR)。在實際應(yīng)用中,無論用何種建模方法構(gòu)建光譜預(yù)測模型,預(yù)測模型的性能都嚴(yán)重依賴于訓(xùn)練樣本的多樣性和代表性。為了保證訓(xùn)練樣本的多樣性和代表性,人們往往需要獲得大量的訓(xùn)練樣本;但訓(xùn)練樣本的品質(zhì)指標(biāo)(標(biāo)簽)多是通過破壞性理化實驗獲得,需要較高的時間和人力成本。相比于理化指標(biāo)檢驗,樣本的光譜信息獲取較為容易。如果可以從大量的無標(biāo)簽樣本(僅有光譜信息)中選取最有價值的樣本進(jìn)行標(biāo)注,將有助于減少訓(xùn)練樣本標(biāo)注的盲目性,達(dá)到利用少量訓(xùn)練樣本獲得良好預(yù)測模型的目的。Kennard-Stone算法(KS)和光譜-理化值共生距離算法(SPXY)是光譜領(lǐng)域兩種較為常見的樣本選擇方法。KS算法首先選擇歐式距離最大的一組樣本加入到訓(xùn)練集,然后依次選擇一個樣本,使已選樣本與剩余樣本的歐式距離最大,由于樣本間的相似性通過歐式距離計算,其選擇樣本的空間分布易受離散點的影響,樣本的代表性難以保證。而SPXY算法[2]在KS算法的基礎(chǔ)上增加了對樣本輸出空間距離的考慮,因此需要獲得樣本的真實標(biāo)簽值。SPXY算法是一種有監(jiān)督樣本選擇方法,在實際應(yīng)用中仍然需要大量的理化分析,以獲得樣本標(biāo)簽值。
主動學(xué)習(xí)是近年來提出的,綜合考慮樣本代表性、信息性或多樣性的樣本選擇策略,已被廣泛地運用于構(gòu)建有監(jiān)督分類模型。例如:王立國等[6]將主動學(xué)習(xí)算法用于高光譜圖像分類任務(wù)中;唐金亞等[3]利用主動學(xué)習(xí)算法研究了玉米種子純度分類模型的更新。但目前,主動學(xué)習(xí)在農(nóng)產(chǎn)品、食品品質(zhì)預(yù)測模型中的應(yīng)用還鮮有報道。本文將結(jié)合農(nóng)產(chǎn)品、食品品質(zhì)無損檢測的需要,提出了一種融合層次凝聚聚類(hierarchical agglomerative clustering,HAC)和局部線性重建算法(locally linear reconstruction,LLR)的無監(jiān)督主動學(xué)習(xí)方法(HAC-LLR)。HAC-LLR利用HAC聚類算法對原始光譜樣本集進(jìn)行聚類操作,以獲得具有多樣性的多個樣本簇;針對不同的樣本簇,通過LLR選取最具代表性的樣本;最后基于選取的代表性樣本及其理化指標(biāo),構(gòu)建訓(xùn)練模型。實驗結(jié)果表明,相比于已有算法,HAC-LLR方法在訓(xùn)練樣本數(shù)量相同的前提下,可以顯著提高光譜模型的預(yù)測性能。
根據(jù)統(tǒng)計學(xué)習(xí)理論,要獲得一個具有良好泛化性能的預(yù)測模型,用于構(gòu)建預(yù)測模型的訓(xùn)練樣本應(yīng)該能夠充分刻畫整體樣本的概率分布,即訓(xùn)練樣本應(yīng)該具有良好的代表性和多樣性。代表性是指訓(xùn)練樣本的概率分布應(yīng)該能夠代表整體樣本的概率分布狀態(tài);而多樣性是指訓(xùn)練樣本應(yīng)該盡可能地分布在整體樣本空間,以實現(xiàn)整體樣本空間的充分表達(dá)。多樣性和代表性通常會存在一定的矛盾,為了解決這一矛盾,本文提出了HAC-LLR無監(jiān)督主動學(xué)習(xí)方法,該方法首先對待選樣本集進(jìn)行聚類分析,獲得多個樣本簇;在不同簇中通過局部線性重建算法選出最具代表性的樣本,從而使選擇的樣本兼具多樣性和代表性。
聚類算法將數(shù)據(jù)集劃分到不同子集中,使得子集內(nèi)的數(shù)據(jù)相似度最大,子集間的數(shù)據(jù)相似度最小,從而可以發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式和規(guī)律。本文利用無需預(yù)先設(shè)定聚類簇數(shù)的層次凝聚聚類方法對數(shù)據(jù)集進(jìn)行聚類分析。層次凝聚聚類首先對數(shù)據(jù)集進(jìn)行初始化,即將每個樣本初始化為單獨的簇,并計算兩兩簇之間的距離,然后尋找相距最近的兩個簇進(jìn)行歸并,刪除合并前的簇,保留新生成的簇,重復(fù)該過程,直到所有簇都?xì)w為一個大類[7]。整個聚類過程其實是建立一棵樹,聚類結(jié)果可以根據(jù)最終生成的聚類樹設(shè)置距離閾值,簇間距離大于設(shè)定值的不同簇即為期望得到的聚類結(jié)果。本文中,根據(jù)光譜數(shù)據(jù)特性,簇間距離采用相似性計算,簇間聚合方式為未加權(quán)平均距離法,根據(jù)生成的聚類樹及聚類結(jié)果評價指標(biāo),距離閾值設(shè)定為0.8。
光譜數(shù)據(jù)多是高維數(shù)據(jù),一個高維數(shù)據(jù)通常是由其低維潛在變量按照某種規(guī)則重建獲得的。假設(shè)X=[X1,…,Xm]T是已知的原始高維數(shù)據(jù)集,Q=[q1,…,qm]T是與X同維的由低維潛在變量重建的數(shù)據(jù)集。LLR算法認(rèn)為已知數(shù)據(jù)集X應(yīng)該與重建數(shù)據(jù)集Q具有相同的鄰域表示關(guān)系。即對于任意一個樣本Xi,若其可以由其鄰域Np(Xi)內(nèi)(相鄰數(shù)據(jù)點)的點線性表示為
Wij=0 ifXj?Np(Xi)
(1)
(2)
式(2)中,μ是懲罰系數(shù),用于調(diào)節(jié)重建誤差和重構(gòu)樣本Q的鄰域關(guān)系表示誤差。本文中設(shè)置為0.1。
定義Λ為m×m的對角矩陣,如果i∈{s1,…,sk},則對角元素為Λii=1,否則Λii=0。則目標(biāo)函數(shù)(2)可以重新被寫成如式(3)矩陣形式
ε(Q)=Tr((Q-X)TΛ(Q-X))+μTr(QTMQ)
(3)
式(3)中,M=(I-W)T(I-W),I為單位對角陣,Tr為矩陣求跡運算。式(3)最小化,則重建結(jié)果可以表示為
Q=(μM+Λ)-1ΛX
(4)
對于原始樣本點x1,…,xm和樣本點重建結(jié)果q1,…,qm,重建誤差可以表示如式(5)
(5)
式(5)中,重建誤差只與所選擇的點{s1,…,sk}有關(guān),因此,最具代表性的點可以定義為那些能夠最小化重建誤差的點,即如果所選樣本點確定,可以更準(zhǔn)確地重建整個原始數(shù)據(jù)集。式(5)可以通過迭代求解策略獲得,其詳細(xì)計算過程見參考文獻(xiàn)[8]。
基于HAC-LLR訓(xùn)練樣本選擇策略的光譜檢測方法流程主要包括:(1)利用層次凝聚聚類對大量的無標(biāo)記光譜數(shù)據(jù)集進(jìn)行聚類分析,根據(jù)生成的聚類樹和設(shè)定的簇間距離閾值劃分出不同的數(shù)據(jù)簇;(2)針對每個數(shù)據(jù)簇,利用局部線性重建算法,選取一定數(shù)量的待標(biāo)記樣本(該簇樣本數(shù)量占樣本總數(shù)的比例乘以期望選出樣本的總數(shù)k即為每個簇應(yīng)選出的樣本數(shù)),從所有的簇中總共選出設(shè)定的k個樣本;(3)對選出的樣本根據(jù)具體檢測指標(biāo),進(jìn)行理化分析,獲得其標(biāo)簽值Y,構(gòu)建訓(xùn)練集樣本對(Xi,Yi)i=1,…,k;(4)利用訓(xùn)練集樣本,訓(xùn)練輸出模型;(5)利用模型對預(yù)測集樣本進(jìn)行預(yù)測。圖1給出了算法的流程示意圖。
圖1 基于HAC-LLR訓(xùn)練樣本選擇策略的光譜檢測方法流程圖Fig.1 Flow chart of spectral detecting method based on HAC-LLR training samples selecting strategy
實驗樣本是美國密歇根州立大學(xué)克拉克斯維爾園藝實驗站果園提供的Golden Delicious(GD),Jonagold(JG)和Red Delicious(RD)三個品種的蘋果,采收于2009年和2010年連續(xù)兩個年份。樣本的光譜數(shù)據(jù)通過微型Vis-SWNIR光譜儀(S400,Ocean Optics,Dunedin,FL)采集。Vis-SWNIR光譜儀的光譜范圍為460~1 100 nm,光譜分辨率為1 nm,每個光譜樣本有641個變量。獲得光譜數(shù)據(jù)之后,使用質(zhì)地分析儀(型號TA.XT2i,Stable Micro Systems,Inc.,Surrey,UK)和數(shù)字折射儀(型號PR-101,Atago Co.,Tokyo,Japan)在光譜儀測量的位置對蘋果的硬度和可溶性固形物(soluble solid content,SSC)進(jìn)行測量。實驗設(shè)備和數(shù)據(jù)的更詳細(xì)信息參見文獻(xiàn)[9]。
表1給出了實驗樣本的SSC和硬度統(tǒng)計數(shù)據(jù)表。由表1可以看出,SSC和硬度的分布范圍較大,可以充分驗證模型的性能。圖2為不同年份、不同種類蘋果樣本的平均光譜。從圖中可以看出,不同年份、不同種類的蘋果光譜存在著較大差異,難以用一個單一模型進(jìn)行建模,需要對不同年份、不同種類的蘋果構(gòu)建多個模型。
表1 蘋果樣本的品質(zhì)參數(shù)統(tǒng)計信息Table 1 Statistics of quality reference for apple samples
圖2 連續(xù)兩年采收的三種蘋果的平均光譜Fig.2 The average spectra of three cultivars apple samples harvestee from two years
基于無監(jiān)督主動學(xué)習(xí)算法選取一定數(shù)量的樣本用于建立蘋果品質(zhì)檢測模型。為充分驗證基于無監(jiān)督主動學(xué)習(xí)算法的模型性能,針對每個數(shù)據(jù)集,首先隨機選取100個未標(biāo)記樣本作為預(yù)測集,其余未標(biāo)記樣本作為樣本選擇池?;谠摌颖具x擇池,分別利用隨機采樣(RS)、Kennard-Stone算法(KS)、光譜-理化值共生距離算法(SPXY)和本文提出的HAC-LLR樣本選擇策略,選出一定數(shù)量的樣本作為訓(xùn)練集,用于訓(xùn)練PLSR模型。利用預(yù)測集均方根誤差(RMSE)、相關(guān)系數(shù)(Rp)和殘留預(yù)測偏差(residual prediction deviation,RPD)評估最終的模型性能。為了減少預(yù)測集樣本隨機選取對實驗結(jié)果的影響,每次實驗過程隨機重復(fù)5次,5次隨機實驗的平均值作為最終結(jié)果??紤]到每個光譜樣本有641個變量,為了避免模型的過擬合,利用競爭自適應(yīng)重加權(quán)采樣算法[10](competitive adaptive reweighted sampling,CARS)對原始特征進(jìn)行篩選,其中,105,120,82,94,131,106,125,90,96,112,103和120個特征變量分別作為GD2009,GD2010,JG2009,JG2010,RD2009和RD2010的SSC和硬度PLSR模型的輸入。PLSR模型的最佳主元數(shù)量通過10折交叉驗證確定。
PLSR建模和光譜數(shù)據(jù)分析軟件分別是PLS工具箱(Eigenvector Research,Inc.,Wenatchee,WA,USA)和MATLAB R2014a(The MathWorks,Inc.,Natick,MA,USA)。
對于不同數(shù)據(jù)集,按照與預(yù)測集1∶1,2∶1,3∶1和4∶1的比例劃分,四種算法分別選取100,200,300和400個樣本作為訓(xùn)練集,用于建立PLSR模型。圖3給出了不同數(shù)據(jù)集下PLSR模型的預(yù)測結(jié)果。從圖3中可以看出,隨著訓(xùn)練集樣本數(shù)量的增加,四種樣本選擇算法建立的模型性能都有所提高(RMSE值降低、Rp和RPD值增高)。相比于其他三種算法,本文提出的無監(jiān)督主動學(xué)習(xí)算法表現(xiàn)出了最佳的預(yù)測性能,特別是在建模集樣本數(shù)量較少的情況下。當(dāng)建模集樣本數(shù)量較多時,不同樣本選擇算法選出的樣本共性較大,模型也趨于穩(wěn)定,主動學(xué)習(xí)方法的優(yōu)勢也會逐漸減弱。同一品種不同年份的蘋果樣本所對應(yīng)的模型性能也表現(xiàn)出了一定差異,進(jìn)一步驗證了需要對不同年份、不同品種的蘋果構(gòu)建多個模型的設(shè)想。另外,四種算法分別選出200個樣本所建立模型的預(yù)測性能如表2、表3所示,基于HAC-LLR的SSC模型相對于基于RS,KS和SPXY的SSC模型預(yù)測結(jié)果的RMSE值分別降低了2.0%~8.6%,3.6%~7.9%和2.8%~13.2%,對于硬度模型,RMSE值相應(yīng)地分別降低了2.6%~7.2%,1.2%~7.2%和2.6%~15.7%。
表2 四種算法分別選出200個2009年的樣本所建立PLSR模型的預(yù)測結(jié)果Table 2 The prediction results of PLSR models based on 200 samples from 2009 selected by four algorithms respectively
表3 四種算法分別選出200個2010年的樣本所建立PLSR模型的預(yù)測結(jié)果Table 3 The prediction results of PLSR models based on 200 samples from 2010 selected by four algorithms respectively
圖3 不同數(shù)據(jù)集下基于不同樣本選擇算法的SSC (a)和硬度(b)的PLSR模型預(yù)測結(jié)果Fig.3 PLSR mdoel prediction results of SSC (a)and firmness (b)based on different sample selection algorithms under different datsets
為了比較不同算法性能的統(tǒng)計學(xué)意義,本文進(jìn)一步利用參考文獻(xiàn)[11]定義的曲線下面積(area under curve,AUC)作為綜合性能度量指標(biāo)對模型的RMSE,Rp和RPD進(jìn)行分析(圖4所示)。本文使用RS算法的AUC值對其他三種算法進(jìn)行標(biāo)準(zhǔn)化,因此RS算法的AUC值始終為1。對于RMSE值而言,較小的AUC值代表較高的模型性能,對于Rp值和RPD值而言,較高的AUC值代表較高的模型性能。從圖4可以看出,基于本文提出的HAC-LLR訓(xùn)練樣本選擇策略所建立的模型,預(yù)測無標(biāo)記樣本的AUC-RMSE值更低,AUC-Rp值和AUC-RPD值更高。
圖4 不同數(shù)據(jù)集上歸一化的AUC-RMSE(a),AUC-Rp(b)和AUC-RPD(c)Fig.4 Normalized AUCs of the RMSE (a),the Rp (b)and the RPD (c)on different datasets
RS算法選擇的樣本具有較強的隨機性,相應(yīng)的模型性能有很強的不確定性。KS算法考慮到了樣本光譜信息的歐氏距離,由于光譜數(shù)據(jù)的高維性,歐氏距離不能很好地表征樣本間的真實距離和相似性[8,12],但整體性能優(yōu)于RS算法和SPXY算法。SPXY算法基于KS算法,雖然增加了對輸出空間距離的考慮,即需要使用到樣本真實理化標(biāo)簽值,屬于有監(jiān)督的樣本選擇算法,但是對輸出空間的度量僅僅基于不同真實標(biāo)簽的差值,因此整體性能上沒有表現(xiàn)出優(yōu)勢,甚至在很多數(shù)據(jù)集上不及KS算法。而本文提出的無監(jiān)督主動學(xué)習(xí)方法由于綜合考慮了樣本的多樣性和代表性,因此表現(xiàn)出了最佳性能。綜合多個評價指標(biāo)以及實驗結(jié)果,驗證了本文提出的無監(jiān)督主動學(xué)習(xí)方法的有效性。
建立一個精確的且具有良好泛化能力的回歸模型通常需要大量的帶標(biāo)記的訓(xùn)練集樣本。然而,在樣本制備過程中,采集樣本的光譜數(shù)據(jù)是相對容易的,獲得樣本的真實標(biāo)記卻是費時費力且具有破壞性的。常規(guī)的光譜學(xué)實驗設(shè)計中無法充分利用已知樣本的信息,使得基于不同訓(xùn)練集的模型的性能相差較大。主動學(xué)習(xí)是一種選擇最有價值的未標(biāo)記樣本進(jìn)行標(biāo)記的方法,以少量標(biāo)記樣本建立更好的回歸模型。本文提出了一種無監(jiān)督的主動學(xué)習(xí)方法,該方法融合了樣本多樣性和代表性兩種選擇標(biāo)準(zhǔn),在連續(xù)兩年采收的三個品種蘋果的光譜數(shù)據(jù)集上進(jìn)行了大量的實驗,實驗結(jié)果驗證了所提出的無監(jiān)督主動學(xué)習(xí)方法的有效性,為有效減少訓(xùn)練集樣本數(shù)量、降低破壞性理化實驗所帶來的成本消耗、提高模型精度提供了一種解決方案。由于本文所提方法考慮的是模型構(gòu)建中的訓(xùn)練樣本選擇,因此,同樣適用于構(gòu)建非線性模型。此外,遷移學(xué)習(xí)和主動學(xué)習(xí)都可以用于處理標(biāo)記樣本不足的問題,今后我們還將研究如何融合主動學(xué)習(xí)和遷移學(xué)習(xí)的思想用于減少光譜分析領(lǐng)域訓(xùn)練集樣本的制備。