鞠 薇,魯昌華,張玉鈞,陳曉靜,蔣薇薇
1.安徽大學(xué)互聯(lián)網(wǎng)學(xué)院,安徽 合肥 230039 2.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009 3.中國(guó)科學(xué)院合肥物質(zhì)科學(xué)研究院,安徽 合肥 230031
有機(jī)化合物中組分的種類及含量信息是決定其性質(zhì)的關(guān)鍵因素。有機(jī)物分子在中紅外波段具有發(fā)射和吸收紅外輻射的能力,不同種類及含量的有機(jī)物分子的紅外光譜呈現(xiàn)出位置及幅度不同的紅外吸收峰。
紅外光譜技術(shù)發(fā)展至今,已形成較為完善的理論體系,能夠通過(guò)精密光譜測(cè)量?jī)x器獲取高分辨率以及寬波段的有機(jī)物紅外光譜,如何利用高效分析算法快速精確地計(jì)算出光譜中包含的有機(jī)物信息是紅外光譜技術(shù)領(lǐng)域現(xiàn)階段的研究重點(diǎn)。紅外光譜定量回歸方法通過(guò)對(duì)大量紅外光譜樣本進(jìn)行篩選及優(yōu)化,提取光譜數(shù)據(jù)中的有用信息并利用該信息解析未知光譜中包含的有機(jī)物組分。常用的光譜定量回歸算法為化學(xué)計(jì)量學(xué)方法中的經(jīng)典最小二乘(classical least squares, CLS)、多元線性回歸(multiple linear regression, MLR)、偏最小二乘(partial least squares, PLS)等。隨著近年來(lái)機(jī)器學(xué)習(xí)技術(shù)的迅猛發(fā)展,研究人員嘗試?yán)弥С窒蛄繖C(jī)(support vector machine, SVM)[1],隨機(jī)森林(random forest, RF)[2],決策樹(shù)(decision tree, DT)[3],卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)[4]等算法對(duì)紅外光譜數(shù)據(jù)進(jìn)行分類以及定量回歸,與化學(xué)計(jì)量學(xué)相比,機(jī)器學(xué)習(xí)算法在處理非線性數(shù)據(jù)上表現(xiàn)出明顯的優(yōu)越性。
機(jī)器學(xué)習(xí)中不同算法在預(yù)測(cè)準(zhǔn)確性、穩(wěn)定性以及時(shí)間效率上分別有著不同的優(yōu)異表現(xiàn),集成學(xué)習(xí)(ensemble learning)通過(guò)融合各類機(jī)器學(xué)習(xí)算法的優(yōu)點(diǎn),獲取更為優(yōu)異的泛化性能。盧偉[5]等利用Stacking集成學(xué)習(xí)模型結(jié)合高光譜技術(shù)對(duì)黑枸杞品質(zhì)進(jìn)行快速無(wú)損分級(jí)。Yu[6]等將集成學(xué)習(xí)理論與神經(jīng)網(wǎng)絡(luò)算法相結(jié)合用于判斷蒸汽管道紅外光譜的高溫區(qū)域,與其他圖像分類算法相比,該方法具有更高的準(zhǔn)確率且滿足實(shí)際工程需要。與深度學(xué)習(xí)相比,集成學(xué)習(xí)的優(yōu)點(diǎn)在于它具有對(duì)計(jì)算資源軟硬件配置要求較低,且不受限于待測(cè)數(shù)據(jù)集樣本數(shù)量等特點(diǎn);自動(dòng)化的大型集成策略可以通過(guò)添加正則項(xiàng)有效的對(duì)抗過(guò)擬合,且不需要太多的調(diào)參和特征選擇。
高分辨率紅外光譜可以精確反映出有機(jī)物分子的細(xì)微含量變化,但高分辨率也使得光譜數(shù)據(jù)量劇增,光譜中不僅包含目標(biāo)組分信息,還存在干擾組分以及冗余變量信息。特征波長(zhǎng)選取算法[7]通過(guò)篩選信息量最為豐富的波長(zhǎng)組合,利用特征波長(zhǎng)組合進(jìn)行定量回歸建模能夠減少計(jì)算量、增加模型預(yù)測(cè)能力以及抗干擾能力。常用的紅外光譜特征波長(zhǎng)選取方法包括間隔偏最小二乘(interval PLS, iPLS),組合間隔偏最小二乘(synergy interval PLS, SiPLS),連續(xù)投影算法(successive projections algorithm, SPA),競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling, CARS)等。
首先利用多種機(jī)器學(xué)習(xí)算法構(gòu)建兩層Stacking集成學(xué)習(xí)模型,對(duì)光譜數(shù)據(jù)集中的有機(jī)物含量進(jìn)行定量分析。實(shí)驗(yàn)結(jié)果表明集成學(xué)習(xí)模型能夠應(yīng)用于有機(jī)物紅外光譜定量分析,且預(yù)測(cè)精度高于傳統(tǒng)光譜定量分析工具PLS模型。在此基礎(chǔ)上,提出了一種特征波長(zhǎng)選取結(jié)合集成學(xué)習(xí)建模的紅外光譜定量回歸方法,該方法通過(guò)特征波長(zhǎng)選取方法對(duì)紅外光譜進(jìn)行特征降維預(yù)處理,之后利用集成學(xué)習(xí)模型對(duì)預(yù)處理后的紅外光譜數(shù)據(jù)集進(jìn)行回歸分析,討論特征波長(zhǎng)選取對(duì)于集成學(xué)習(xí)模型的回歸精度及效率的影響,為紅外光譜定量回歸分析提供創(chuàng)新思路和方法參考。
數(shù)據(jù)來(lái)自美國(guó)西南研究所提供的柴油紅外光譜,該公開(kāi)數(shù)據(jù)集旨在為紅外光譜定量回歸模型的研究提供數(shù)據(jù)支持。
柴油數(shù)據(jù)集中包含784條未經(jīng)處理的柴油紅外光譜以及所對(duì)應(yīng)的七個(gè)屬性值(沸點(diǎn)、十六烷含量、密度、閃點(diǎn)、冰點(diǎn)、總芳香烴含量和黏性),部分光譜的某些屬性值缺失。實(shí)驗(yàn)開(kāi)始前需要將屬性值缺失的光譜樣本剔除。光譜的波長(zhǎng)區(qū)間為750~1 550 nm,波長(zhǎng)間隔為2 nm,每條光譜包含401個(gè)波長(zhǎng)。本文選取柴油的十六烷含量和總芳香烴含量作為有機(jī)物定量回歸模型屬性參數(shù),剔除缺失值后十六烷值所對(duì)應(yīng)的有效光譜樣本為381條,總芳香烴值所對(duì)應(yīng)的有效光譜樣本為395條。柴油紅外吸光度光譜如圖1所示。
圖1 柴油原始吸光度光譜
在進(jìn)行特征波長(zhǎng)選取以及定量回歸建模之前,首先利用Kennard-Stone算法以4∶1的比例將數(shù)據(jù)集劃分為訓(xùn)練集和預(yù)測(cè)集。Kennard-Stone算法通過(guò)計(jì)算樣本間的歐氏距離,找到擁有最遠(yuǎn)及最近距離的待選樣本放入訓(xùn)練集,該算法能夠保證訓(xùn)練集中的樣本按照空間距離分布均勻,從而增加樣本間的差異性和代表性,提高回歸模型的穩(wěn)定性。
特征波長(zhǎng)選取算法能夠從大量波長(zhǎng)變量中提取出與目標(biāo)參數(shù)密切相關(guān)的波長(zhǎng),從而優(yōu)化光譜數(shù)據(jù)集,最終以盡可能少的波長(zhǎng)變量來(lái)表征盡可能多的目標(biāo)參數(shù)信息。與全光譜建模相比,利用特征波長(zhǎng)進(jìn)行建模能夠有效簡(jiǎn)化模型復(fù)雜度,降低計(jì)算資源消耗,同時(shí)增加模型預(yù)測(cè)精度與抗干擾能力。
組合偏最小二乘算法(SiPLS)[8]是以PLS建模為基礎(chǔ)的特征波段選取方法,該方法將全光譜波段劃分為若干等寬的子區(qū)間,從中選取2~4個(gè)子區(qū)間進(jìn)行組合,比較所有子區(qū)間組合PLS建模的預(yù)測(cè)結(jié)果,最終選取交叉驗(yàn)證均方根誤差(RMSECV)最小的子區(qū)間組合作為特征波段。SiPLS改善了iPLS單一區(qū)間建模造成的特征信息丟失問(wèn)題,同時(shí)考慮不同波段之間的相互聯(lián)系以及組合建模對(duì)于定量回歸模型的影響。
連續(xù)投影算法(SPA)[9]是Bregman等于1965年提出的一種循環(huán)波長(zhǎng)選取方法,該算法通過(guò)分析波長(zhǎng)向量的投影大小,將投影向量最大的波長(zhǎng)作為特征波長(zhǎng)。每次循環(huán)選取過(guò)程中將投影向量最大的單個(gè)波長(zhǎng)加入特征波長(zhǎng)組合中,新選入的波長(zhǎng)與前一個(gè)選入波長(zhǎng)之間相關(guān)度最低,重復(fù)投影循環(huán)步驟,直到選取一定數(shù)目的特征波長(zhǎng)組合。SPA算法與其他特征波長(zhǎng)選取算法相比,其最大優(yōu)點(diǎn)是能夠消除波長(zhǎng)變量之間的共線性影響,提高建模速度和模型的穩(wěn)定性。
集成學(xué)習(xí)通過(guò)組合多個(gè)基學(xué)習(xí)器來(lái)獲得一個(gè)穩(wěn)定且在各方面表現(xiàn)都較好的強(qiáng)學(xué)習(xí)器。每個(gè)基學(xué)習(xí)器為解決同一個(gè)問(wèn)題,分別運(yùn)用各自的機(jī)器學(xué)習(xí)算法對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行處理,之后根據(jù)融合策略將多種不同的機(jī)器學(xué)習(xí)算法進(jìn)行融合以獲得預(yù)測(cè)能力更好的強(qiáng)學(xué)習(xí)器。集成學(xué)習(xí)能夠結(jié)合眾多機(jī)器學(xué)習(xí)算法的優(yōu)點(diǎn),彌補(bǔ)某些算法在例如運(yùn)行時(shí)間效率、準(zhǔn)確率上的缺點(diǎn),并且可以通過(guò)不同的融合策略,改進(jìn)預(yù)測(cè)模型的泛化能力,在有限數(shù)據(jù)條件下提高預(yù)測(cè)能力。
集成學(xué)習(xí)的融合策略是將基學(xué)習(xí)器結(jié)合在一起的方法,例如使用投票法來(lái)求解分類問(wèn)題中輸出最多的類,使用平均法求解回歸問(wèn)題的預(yù)測(cè)值。除了投票法和平均法之外,集成學(xué)習(xí)中常用的融合策略還包括Stacking和Blending。Stacking模型是一種已被實(shí)踐證明能夠有效提高模型預(yù)測(cè)精度的集成學(xué)習(xí)融合策略,其利用多個(gè)基學(xué)習(xí)器對(duì)原始數(shù)據(jù)進(jìn)行訓(xùn)練,將得到的訓(xùn)練集預(yù)測(cè)結(jié)果和測(cè)試集預(yù)測(cè)結(jié)果分別作為下一層學(xué)習(xí)器的輸入訓(xùn)練集和測(cè)試集,最終訓(xùn)練得到預(yù)測(cè)性能更優(yōu)良的強(qiáng)學(xué)習(xí)器。強(qiáng)學(xué)習(xí)器又稱元學(xué)習(xí)器(meta-learner),其作用是對(duì)基學(xué)習(xí)器的預(yù)測(cè)結(jié)果進(jìn)行整理融合并為基學(xué)習(xí)器分配相應(yīng)的權(quán)重,最終提高模型預(yù)測(cè)精度。Stacking模型通??紤]異構(gòu)弱學(xué)習(xí)器,即使用不同類型的機(jī)器學(xué)習(xí)算法訓(xùn)練基學(xué)習(xí)器。對(duì)比Stacking策略中基學(xué)習(xí)器采用的K折交叉驗(yàn)證方法進(jìn)行數(shù)據(jù)訓(xùn)練,Blending策略只使用一部分?jǐn)?shù)據(jù)集作為留出集(Hold Out)進(jìn)行驗(yàn)證,其實(shí)現(xiàn)更為簡(jiǎn)單,但是模型穩(wěn)健性相比于Stacking策略要差。
利用兩層Stacking集成學(xué)習(xí)模型對(duì)柴油紅外光譜進(jìn)行有機(jī)物含量定量回歸預(yù)測(cè),其具體實(shí)現(xiàn)流程如圖2所示:
圖2 柴油光譜Stacking集成學(xué)習(xí)流程圖
(1)將柴油光譜數(shù)據(jù)集按照KS算法劃分為訓(xùn)練集和測(cè)試集。Stacking模型利用K折交叉驗(yàn)證原理對(duì)訓(xùn)練集進(jìn)行訓(xùn)練。圖2(a)為基學(xué)習(xí)器的訓(xùn)練過(guò)程,將訓(xùn)練集劃分為K-1個(gè)子訓(xùn)練集及一個(gè)子測(cè)試集,在子訓(xùn)練集上利用基學(xué)習(xí)器的機(jī)器學(xué)習(xí)算法訓(xùn)練獲得預(yù)測(cè)模型,并利用該模型獲取子測(cè)試集的預(yù)測(cè)結(jié)果。K交叉驗(yàn)證共訓(xùn)練K個(gè)子訓(xùn)練集,獲得K個(gè)預(yù)測(cè)模型及子測(cè)試集預(yù)測(cè)結(jié)果,將子測(cè)試集預(yù)測(cè)結(jié)果拼接成為基學(xué)習(xí)器1的新訓(xùn)練集。同時(shí)使用每個(gè)子訓(xùn)練集的預(yù)測(cè)模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè),共獲得K個(gè)測(cè)試集預(yù)測(cè)結(jié)果,將K個(gè)結(jié)果取平均值,構(gòu)成基學(xué)習(xí)器1的新測(cè)試集。圖中以五折交叉驗(yàn)證為例。
(2)分別使用不同機(jī)器學(xué)習(xí)算法構(gòu)成基學(xué)習(xí)器,對(duì)柴油光譜數(shù)據(jù)進(jìn)行訓(xùn)練,獲得不同基學(xué)習(xí)器的訓(xùn)練結(jié)果,將n個(gè)基學(xué)習(xí)器訓(xùn)練得到的新訓(xùn)練集組合生成元學(xué)習(xí)器的訓(xùn)練集,基學(xué)習(xí)器預(yù)測(cè)得到的新測(cè)試集組合生成元學(xué)習(xí)器的測(cè)試集,輸入元學(xué)習(xí)器后獲取最終集成學(xué)習(xí)預(yù)測(cè)結(jié)果。圖2(b)顯示了元學(xué)習(xí)器的訓(xùn)練過(guò)程。
決策樹(shù)(DT)是一種樹(shù)形結(jié)構(gòu)的機(jī)器學(xué)習(xí)算法,樹(shù)的每個(gè)內(nèi)部節(jié)點(diǎn)表示對(duì)某一個(gè)屬性值的判斷,根據(jù)判斷結(jié)果對(duì)樣本進(jìn)行劃分并分配到下一層子節(jié)點(diǎn),循環(huán)進(jìn)行屬性值判斷及樣本劃分,每個(gè)終端葉子節(jié)點(diǎn)代表一種分類結(jié)果。由定義可知,屬性值的判斷是構(gòu)建決策樹(shù)的關(guān)鍵因素,常用的屬性值判斷方法包括ID3,C4.5和CART,三種方法分別使用增熵、信息熵益率和GINI指數(shù)作為屬性值的判斷依據(jù)。
極端隨機(jī)樹(shù)(extremely randomized trees,ERT)是由隨機(jī)森林算法發(fā)展而來(lái)的。隨機(jī)森林是以決策樹(shù)為基本單元的集成學(xué)習(xí)算法,由Breiman等于2001年提出。隨機(jī)森林采用Bagging策略對(duì)訓(xùn)練集進(jìn)行隨機(jī)有放回抽樣,抽樣得到的數(shù)據(jù)集作為決策樹(shù)的輸入,最后通過(guò)平均各個(gè)決策樹(shù)預(yù)測(cè)結(jié)果的方式獲得隨機(jī)森林模型的回歸預(yù)測(cè)值。
2006年,Geurts等[10]在隨機(jī)森林的基礎(chǔ)上提出了極端隨機(jī)樹(shù)模型,極端隨機(jī)樹(shù)改進(jìn)了隨機(jī)森林Bagging策略獲得訓(xùn)練集時(shí)重復(fù)采樣可能造成的訓(xùn)練集樣本重復(fù)問(wèn)題,在極端隨機(jī)樹(shù)中,每棵決策樹(shù)的訓(xùn)練都是基于整個(gè)數(shù)據(jù)集得到的,這樣可以保證所有樣本都能被學(xué)習(xí),樣本利用率提高可以減少模型的整體預(yù)測(cè)偏差。極端隨機(jī)樹(shù)的另一個(gè)改進(jìn)表現(xiàn)在節(jié)點(diǎn)的劃分上,對(duì)比隨機(jī)森林的最佳屬性值分裂原則,極端隨機(jī)樹(shù)隨機(jī)選取特征屬性值進(jìn)行節(jié)點(diǎn)分裂,從而將該特征屬性下訓(xùn)練樣本隨機(jī)分配到不同分支上,利用該節(jié)點(diǎn)分裂方法遍歷節(jié)點(diǎn)內(nèi)所有特征屬性,選取GINI值最小的特征作為最優(yōu)劃分屬性。
支持向量機(jī)(SVM)是由Cortes和Vapnik于1995年提出的一種二分類模型,其基本思想是尋找一個(gè)最大間隔超平面對(duì)樣本進(jìn)行分割,尋找過(guò)程可以轉(zhuǎn)換為求解凸二次規(guī)劃的問(wèn)題,SVM模型也就是求解凸二次規(guī)劃的最優(yōu)化算法。對(duì)于非線性分類問(wèn)題,SVM通過(guò)引入核函數(shù)(如多核聚類算法[11])和軟間隔最大化將樣本從原始空間非線性映射到高維空間,使樣本在該高維空間線性可分,從而將原始空間的非線性分類問(wèn)題轉(zhuǎn)化為高維特征空間的線性SVM問(wèn)題。因此SVM能夠在解決小樣本、非線性及高維模式識(shí)別等問(wèn)題中表現(xiàn)出明顯的優(yōu)勢(shì)。
集成學(xué)習(xí)通過(guò)在訓(xùn)練集進(jìn)行學(xué)習(xí)獲取紅外光譜定量回歸模型,之后利用評(píng)價(jià)指標(biāo)檢驗(yàn)?zāi)P偷念A(yù)測(cè)能力,本工作使用相關(guān)系數(shù)(correlation coefficient,r),預(yù)測(cè)集均方根誤差(root mean square error of prediction, RMSEP)和相對(duì)分析誤差(relative percent deviation, RPD)指標(biāo)對(duì)回歸模型進(jìn)行評(píng)價(jià),各個(gè)指標(biāo)的計(jì)算公式分別為
(1)
(2)
(3)
采用兩層Stacking集成學(xué)習(xí)對(duì)柴油紅外光譜進(jìn)行定量回歸建模,第一層使用四個(gè)基學(xué)習(xí)器[11],分別是ERT、LinearSVM、RBFSVM和polySVM?;鶎W(xué)習(xí)器的訓(xùn)練結(jié)果通過(guò)LinearSVM元學(xué)習(xí)器進(jìn)行數(shù)據(jù)融合獲取最終預(yù)測(cè)結(jié)果。為比較Stacking集成學(xué)習(xí)模型的預(yù)測(cè)效果,分別建立PLS定量回歸模型、ERT模型、LinearSVM模型、RBFSVM模型和polySVM模型作為對(duì)比模型,比較不同模型對(duì)測(cè)試集數(shù)據(jù)的預(yù)測(cè)結(jié)果,柴油十六烷和總芳香烴含量的模型預(yù)測(cè)結(jié)果列于表1中,模型預(yù)測(cè)值與測(cè)量值之間相關(guān)關(guān)系如圖3和圖4所示。
表1 柴油有機(jī)物含量模型預(yù)測(cè)結(jié)果
由表1和圖3、圖4可知:柴油光譜十六烷含量的預(yù)測(cè)結(jié)果中,ERT模型預(yù)測(cè)結(jié)果最優(yōu),r為0.848,RMSEP為1.603,RDP為2.627;Stacking模型次之,r為0.796,RMSEP為2.001,RDP為2.514;PLS模型的預(yù)測(cè)結(jié)果,r為0.573,RMSEP為2.940,RDP為1.314。柴油光譜總芳香烴含量的預(yù)測(cè)結(jié)果中,集成學(xué)習(xí)Stacking模型預(yù)測(cè)結(jié)果最優(yōu),r達(dá)到0.991,RMSEP為0.526,RDP達(dá)到9.243;LinearSVM模型稍次之,r為0.989,RMSEP為0.543,RDP為8.476;PLS模型的預(yù)測(cè)結(jié)果中,r為0.936,RMSEP為0.797,RDP為5.209。
圖3 柴油十六烷含量預(yù)測(cè)值與測(cè)量值之間相關(guān)關(guān)系
圖4 柴油總芳香烴含量預(yù)測(cè)值與測(cè)量值之間相關(guān)關(guān)系
結(jié)果表明,集成學(xué)習(xí)模型與傳統(tǒng)光譜定量回歸模型PLS相比,能夠提高柴油光譜的定量回歸精度。其中,柴油總芳香烴含量的PLS模型預(yù)測(cè)精度較高,集成學(xué)習(xí)Stacking模型較PLS模型的預(yù)測(cè)精度有少量提高,測(cè)試集相關(guān)系數(shù)r由0.936提高至0.991;而柴油十六烷的PLS模型預(yù)測(cè)精度較低,ERT模型有效提高了定量回歸預(yù)測(cè)精度,其測(cè)試集相關(guān)系數(shù)r由PLS模型的0.573提升至0.848,模型預(yù)測(cè)能力有了較大提高。
特征波長(zhǎng)選取是一種有效的數(shù)據(jù)降維方法,通過(guò)搜尋光譜數(shù)據(jù)集的最優(yōu)特征波長(zhǎng),利用少量特征波長(zhǎng)進(jìn)行建模,以達(dá)到減少運(yùn)算量、提高模型預(yù)測(cè)精度的目的。分別采用SiPLS和SPA特征波長(zhǎng)選取方法優(yōu)選柴油紅外光譜的十六烷及總芳香烴的特征波長(zhǎng),建立集成學(xué)習(xí)定量回歸模型。
SiPLS方法中,將全光譜劃分為相等的10個(gè)子區(qū)間,任意三個(gè)子區(qū)間進(jìn)行組合建模,共120種區(qū)間組合方式,選取RMSECV最小的子區(qū)間組合作為特征波長(zhǎng)。柴油紅外光譜的兩種屬性特征波長(zhǎng)選取結(jié)果如圖5所示。
圖5 柴油光譜SiPLS特征波長(zhǎng)選取結(jié)果
采用SPA特征波長(zhǎng)選取方法對(duì)柴油光譜十六烷組分和總芳香烴組分進(jìn)行特征波長(zhǎng)選取,分別獲取11個(gè)和34個(gè)特征波長(zhǎng),波長(zhǎng)選取結(jié)果如圖6所示。
圖6 柴油光譜SPA特征波長(zhǎng)選取結(jié)果
對(duì)柴油兩種有機(jī)物含量進(jìn)行特征波長(zhǎng)選取后,將篩選后的光譜數(shù)據(jù)作為輸入數(shù)據(jù)集,分別建立PLS定量回歸模型以及集成學(xué)習(xí)定量回歸模型,各訓(xùn)練模型的測(cè)試集預(yù)測(cè)結(jié)果列于表2中。
對(duì)比表1與表2可以發(fā)現(xiàn):SPA特征波長(zhǎng)選取后的PLS模型預(yù)測(cè)結(jié)果明顯優(yōu)于全光譜PLS建模,其中,柴油十六烷的SPA-PLS模型的r為0.823,RMSEP為1.862,RDP為2.536;總芳香烴的SPA-PLS模型的r為0.982,RMSEP為0.769,RDP為6.963。然而SPA特征波長(zhǎng)選取處理后集成學(xué)習(xí)各基學(xué)習(xí)器及融合模型的預(yù)測(cè)結(jié)果均差于全光譜建模。SiPLS特征波長(zhǎng)選取后的各類定量回歸模型預(yù)測(cè)結(jié)果均優(yōu)于全光譜建模,其中柴油十六烷含量的SiPLS-ERT模型的預(yù)測(cè)結(jié)果最優(yōu),r為0.893,RMSEP為1.013,RDP為3.051;總芳香烴含量的SiPLS-Stacking模型的預(yù)測(cè)結(jié)果最優(yōu),r為0.998,RMSEP為0.354,RDP為11.475。
表2 特征波長(zhǎng)選取后柴油有機(jī)物含量模型預(yù)測(cè)結(jié)果
結(jié)果表明,SiPLS特征波長(zhǎng)選取方法能夠有效提高集成學(xué)習(xí)定量回歸模型的預(yù)測(cè)精度,SPA方法由于選取的特征波長(zhǎng)數(shù)量較少,十六烷共選取11個(gè)特征波長(zhǎng),總芳香烴共選取34個(gè)特征波長(zhǎng),集成學(xué)習(xí)模型在利用少量特征波長(zhǎng)數(shù)據(jù)進(jìn)行訓(xùn)練建模時(shí)容易產(chǎn)生欠擬合現(xiàn)象,無(wú)法獲得理想的預(yù)測(cè)效果。圖7、圖8為柴油光譜SiPLS特征波長(zhǎng)選取后的定量回歸模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè)的相關(guān)系數(shù)散點(diǎn)圖。
圖7 SiPLS波長(zhǎng)選取后柴油十六烷含量測(cè)試集預(yù)測(cè)結(jié)果
圖8 SiPLS波長(zhǎng)選取后柴油總芳香烴含量測(cè)試集預(yù)測(cè)結(jié)果
同時(shí)對(duì)比了SiPLS特征波長(zhǎng)選取應(yīng)用于集成學(xué)習(xí)定量回歸模型的平均建模速度,全光譜共401個(gè)波長(zhǎng),SiPLS共120個(gè)特征波長(zhǎng),特征波長(zhǎng)數(shù)量為全光譜的30%,結(jié)果紀(jì)錄于表3中。
表3 SiPLS特征波長(zhǎng)與全光譜建模的時(shí)間對(duì)比
由表3可以看到,經(jīng)過(guò)特征波長(zhǎng)選取后集成學(xué)習(xí)建模速度提升明顯,特別是預(yù)測(cè)效果最好的ERT模型和Stacking模型,建模速度提升率都超過(guò)50%。因此,使用特征波長(zhǎng)選取方法結(jié)合集成學(xué)習(xí)建模,不僅能夠有效提高紅外光譜定量回歸分析的預(yù)測(cè)精度,而且可以大幅提升數(shù)據(jù)分析效率。
研究了集成學(xué)習(xí)結(jié)合特征波長(zhǎng)選取方法在有機(jī)物紅外光譜定量分析中的應(yīng)用。首先利用ERT、LinearSVM、RBFSVM、polySVM基學(xué)習(xí)器構(gòu)成Stacking兩層融合模型,對(duì)比了Stacking模型與PLS模型對(duì)柴油光譜的兩種有機(jī)物含量的預(yù)測(cè)結(jié)果,結(jié)果表明集成學(xué)習(xí)模型能夠應(yīng)用于紅外光譜定量分析中且預(yù)測(cè)精度較傳統(tǒng)方法有所提高。進(jìn)一步比較特征波長(zhǎng)選取方法作為光譜預(yù)處理對(duì)集成學(xué)習(xí)定量回歸模型的影響,結(jié)果表明SiPLS特征波長(zhǎng)選取方法能夠有效提高集成學(xué)習(xí)模型的預(yù)測(cè)精度以及建模效率?,F(xiàn)階段集成學(xué)習(xí)領(lǐng)域的研究向著動(dòng)態(tài)自動(dòng)構(gòu)建集成框架以及保持基學(xué)習(xí)器的準(zhǔn)確性和多樣性方向發(fā)展[13],在下一步的工作中,將嘗試?yán)貌煌N類特征波長(zhǎng)選取方法以及動(dòng)態(tài)集成學(xué)習(xí)框架,以實(shí)測(cè)有機(jī)物紅外光譜及高光譜圖像為實(shí)驗(yàn)對(duì)象,研究集成學(xué)習(xí)在有機(jī)物光譜的定量回歸分析中的普遍適用性以及最優(yōu)泛化模型。