錢石川 王志 魯志艷 李志華 杏若婷 盛鑫 蘇強金韶華 李麗潔 陳錕*
1(北京理工大學(xué)材料學(xué)院,北京100081)
2(甘肅銀光化學(xué)工業(yè)集團有限公司,白銀 730900)
奧克托今(HMX)是一種綜合性能優(yōu)良的單質(zhì)炸藥,廣泛應(yīng)用于制作混合炸藥和推進劑[1-2]。世界各國普遍采用醋酐法生產(chǎn)HMX[3]。硝酸銨-硝酸(NH4NO3-HNO3)溶液是醋酐法生產(chǎn)HMX 的重要原材料,NH4NO3的濃度對產(chǎn)品產(chǎn)率有重要的影響?;瘜W(xué)分析法廣泛用于化工生產(chǎn)中物料濃度的離線分析檢測,但操作繁瑣且無法保證結(jié)果的實時性。生產(chǎn)線物料濃度一旦出現(xiàn)異常,離線檢測難以滿足實時調(diào)整工藝參數(shù)的要求,容易造成產(chǎn)品質(zhì)量和產(chǎn)率不穩(wěn)定等問題。在生產(chǎn)過程中對NH4NO3的濃度進行在線檢測,對于提高反應(yīng)過程中動態(tài)料比的穩(wěn)定性、保證產(chǎn)品質(zhì)量和提高產(chǎn)品產(chǎn)率具有重要意義。
近紅外光譜分析技術(shù)具有快速、無損和人力成本低等特點,近年來廣泛用于推進劑、發(fā)射藥和混合炸藥組分的快速檢測。楊旭等[4]結(jié)合近紅外光譜和偏最小二乘法(Partial least squares,PLS),建立分析檢測模型,實現(xiàn)發(fā)射藥生產(chǎn)過程中揮發(fā)成分含量的實時快速檢測。王菊香等[5]利用PLS 回歸分析建立了三乙胺和二甲苯胺的校正模型,用于混胺組成含量的快速測定。蘇鵬飛等[6-7]將近紅外光譜技術(shù)用于混合炸藥組分含量的測定,通過PLS 建立了混合炸藥中HMX、復(fù)合黏結(jié)劑、聚四氟乙烯和石蠟等主體組分的定標(biāo)模型;在隨后的研究中,又開發(fā)了適用于聚合物粘結(jié)炸藥X 中HMX、石蠟和聚四氟乙烯的定量校準(zhǔn)模型,將分析時間從2 d 縮短到數(shù)分鐘,為爆炸物分析提供了一種高效方法。溫曉燕等[8]采用PLS建立了改性B 炸藥主要成分的定量模型,對改性B 炸藥的主要成分梯恩梯(TNT)和黑索今(RDX)進行了快速檢測。Liu 等[9]基于近紅外光譜技術(shù),利用PLS 建立了改性雙基混合推進劑均勻度快速定量測試方法。梁惠等[10]利用PLS 建立了近紅外光譜和烏洛托品含量間的溫度校正模型,用于烏洛托品-醋酸溶液中烏洛托品含量的快速測定。然而,由于PLS 進行模型訓(xùn)練需要一次性獲取完整數(shù)據(jù),不適用于需要實時響應(yīng)并隨著數(shù)據(jù)增長而及時更新的場景。相比之下,增量隨機梯度下降(Incremental stochastic gradient descent,ISGD)可在數(shù)據(jù)不斷增加的情況下迅速更新模型權(quán)重,實現(xiàn)實時響應(yīng)和動態(tài)適應(yīng)新數(shù)據(jù)的需求,目前主要應(yīng)用于分類計算[11]和數(shù)據(jù)流挖掘[12-13]。
本研究以生產(chǎn)HMX 的重要原材料NH4NO3-HNO3溶液為研究對象,以化學(xué)分析法獲得的NH4NO3濃度值為基礎(chǔ),基于光譜預(yù)處理和特征變量提取,并運用ISGD 算法建立NH4NO3-HNO3溶液光譜信息與NH4NO3濃度之間的聯(lián)系,實現(xiàn)了NH4NO3-HNO3溶液中NH4NO3濃度的快速定量分析,解決了化學(xué)分析中存在的需要大量溶劑、分析時間長以及操作復(fù)雜等問題。同時,也提供了一種在保留原有學(xué)習(xí)效果前提下利用新數(shù)據(jù)更新模型參數(shù)的方法,以適應(yīng)需要隨數(shù)據(jù)新增而快速響應(yīng)的實時預(yù)測場景。
Antaris MX 型傅里葉近紅外分析儀(美國Thermo-Nicolet 公司);EX12001ZH 型電子天平(上海奧豪斯儀器有限公司)。硝酸銨(NH4NO3,工業(yè)品,含水量0.3%,純度≥99.0%);HNO3(自制,純度≥98.5%)。
1.2.1 樣本制備
稱取不同質(zhì)量的NH4NO3固體和HNO3,配制成不同NH4NO3濃度的NH4NO3-HNO3溶液,同時人工分析NH4NO3-HNO3溶液中NH4NO3濃度,共獲得169 個不同NH4NO3濃度的NH4NO3-HNO3溶液樣本。從中選取69 個樣本用于模擬實際應(yīng)用時的增量學(xué)習(xí)場景,剩余100 個樣本以7∶3 的比例劃分為校正集(70 個樣本)和預(yù)測集(30 個樣本)。校正集用于建立模型,預(yù)測集用于對所建模型進行外部驗證。
1.2.2 光譜數(shù)據(jù)采集
使用Antaris MX 型傅里葉近紅外分析儀采集制備的169 個NH4NO3-HNO3溶液樣本的近紅外光譜。儀器參數(shù):掃描范圍為4000~10000 cm?1,分辨率為8 cm?1,掃描64 次,共采集1557 個波數(shù)點。在保持室內(nèi)溫度和濕度基本穩(wěn)定的條件下,連續(xù)掃描采集光譜,每個樣本重復(fù)掃描3 次,取其平均光譜。
為了避免樣本分布不均勻所帶來的校正集不具備代表性的弊端,選擇SPXY(Sample set partitioning based on jointx-ydistance)算法對樣本集進行劃分。由于樣本光譜數(shù)據(jù)(x)和NH4NO3濃度值(y)對建模結(jié)果都有影響,在考慮樣本間距離時,對x和y在空間上的距離賦予同等的重要性,以保證最大程度表征樣本分布,有效覆蓋多維向量空間[14-15]。具體劃分公式見式(1)~式(3):
式中,m代表樣本光譜數(shù)據(jù)的波長點數(shù),n為樣本的總數(shù)量,p和q為不同的樣本。
采用近紅外原始光譜進行定量分析時,由于變量過多,易導(dǎo)致算法迭代次數(shù)增加,運算速度減緩,并且有些光譜區(qū)域樣本的信息很弱,與樣本的組成或性質(zhì)的相關(guān)度不高,因此需要進行特征變量優(yōu)選,提高模型的分析精度和運行速度[16]。常用的特征變量優(yōu)選方法有區(qū)間偏最小二乘法(Interval partial least squares,iPLS)、最小角回歸算法(Least angle regression,LAR)、無信息變量消除法(Uninformative variables elimination,UVE)和連續(xù)投影算法(Successive projections algorithm,SPA)等。近年來,基于模擬動物的群體行為而進行路徑搜索的群體智能優(yōu)化算法(Swarm intelligence optimization algorithm,SIOA)在特征變量優(yōu)選方面表現(xiàn)出更強的搜索能力,因而被廣泛應(yīng)用于特征變量優(yōu)選。遺傳算法(Genetic algorithm,GA)、粒子群優(yōu)化算法(Particle swarm optimization,PSO)、人工魚群優(yōu)化算法(Artificial fish swarm algorithm,AFSA)、灰狼優(yōu)化算法(Grey wolf optimizer,GWO)和鯨魚優(yōu)化算法(Whale optimization algorithm,WOA)這5 種SIOA 算法被用作特征變量優(yōu)選(參數(shù)設(shè)置見表1),通過比較基于SIOA 的ISGD模型,獲得了最佳優(yōu)化算法。不同SIOA 算法的適應(yīng)度函數(shù)選擇為校正集均方誤差(Mean squared error,MSE),其定義為:
表1 不同群體智能優(yōu)化算法參數(shù)Table 1 Parameter of different swarm intelligence optimization algorithms
式中,yi為第i個樣本的NH4NO3濃度的化學(xué)值;yi′為第i個樣本的NH4NO3濃度的預(yù)測值。
運用ISGD 算法建立NH4NO3-HNO3溶液中NH4NO3濃度定量分析的校正模型,以克服傳統(tǒng)批處理算法(如PLS、支持向量機和隨機森林等)用于新增數(shù)據(jù)學(xué)習(xí)時,會發(fā)生災(zāi)難性遺忘,導(dǎo)致遺忘原有學(xué)習(xí)知識,使得泛化能力下降的問題。傳統(tǒng)隨機梯度下降是一種針對自由度優(yōu)化問題的優(yōu)化算法,通過一次只考慮單個訓(xùn)練樣本來近似E(ω,b)真實的梯度。算法在校正集樣本上遍歷,并且對每個樣本按下述更新規(guī)則更新模型參數(shù)[17]:
式中,ω為模型參數(shù),η為學(xué)習(xí)率,α為控制正則化強度的非負(fù)超參數(shù),R為懲罰模型復(fù)雜度的正則化項,L為衡量模型擬合程度的損失函數(shù),t為時間步長,eta0和power_t為超參數(shù)。ISGD 算法能夠?qū)⑸弦淮螌W(xué)習(xí)獲得的模型參數(shù)ω作為本次迭代的初始值進行更新,從而保留原有學(xué)習(xí)權(quán)重,達到增量學(xué)習(xí)目的。
ISGD 模型構(gòu)建方法可以具體描述為:(1)分別構(gòu)建模型的預(yù)測函數(shù)、誤差函數(shù)和懲罰模型復(fù)雜度的正則化和損失函數(shù);(2)對預(yù)測函數(shù)中的模型參數(shù)ω隨機賦值,并通過不斷迭代更新模型參數(shù)ω,直至迭代完成或損失函數(shù)達最小值時停止更新;(3)將更新得到的模型參數(shù)ω代入預(yù)測函數(shù),用于新數(shù)據(jù)的預(yù)測;(4)當(dāng)新數(shù)據(jù)到達時,首先利用構(gòu)建好的模型對新數(shù)據(jù)進行檢查,計算預(yù)測值與真實值之間的相對誤差百分?jǐn)?shù),通過容差閾值ζ(文中∣ζ∣=0.1)判斷是否需要開始學(xué)習(xí);(5)將需要學(xué)習(xí)的數(shù)據(jù)輸入至模型中進行訓(xùn)練,并更新模型參數(shù)ω;(6)得到新數(shù)據(jù)更新后的模型參數(shù)ω,即得ISGD 模型。
為了驗證樣本集劃分的重要性,在采集NH4NO3-HNO3溶液近紅外光譜數(shù)據(jù)后,運用隨機選擇(Random selection,RS)算法、Kennard-Stone(KS)算法和SPXY 算法取出校正集與預(yù)測集,運用構(gòu)建的ISGD 模型預(yù)測評價結(jié)果的有效性,同時考慮到RS 算法具有隨機性,采用10 次結(jié)果的平均值作為最終結(jié)果,處理軟件為Python 3.8。表2 為運用不同方法選擇樣本建模的比較結(jié)果,可見SPXY 選擇的校正集中樣本與KS和RS 選擇的樣本相比,基于SPXY 方法的隨機梯度下降初始模型的指標(biāo)參數(shù)有所改善。相比于RS 的隨機性,KS 和SPXY 通過最大化選擇樣本光譜之間的歐式距離,有效覆蓋多維向量空間,效果優(yōu)于RS;由于在計算時同時考慮x和y數(shù)值的空間,與KS 相比,SPXY 具有更均勻的分布,預(yù)測性能最佳[18]。
表2 不同劃分方法的建模比較Table 2 Modeling comparison of different divide methods
100 個NH4NO3-HNO3溶液樣本的近紅外光譜如圖1 所示,光譜數(shù)據(jù)存在較明顯的基線漂移與噪聲干擾,因此在進行建模分析前,需要對原始光譜進行預(yù)處理。考察了多元散射校正(Multivariate scattering correction,MSC)、標(biāo)準(zhǔn)正態(tài)變換(Standard normal variation,SNV)、一階導(dǎo)數(shù)(First order derivative,D1st)和小波變換(Wavelet transform,WT)用于NH4NO3-HNO3溶液近紅外光譜預(yù)處理的效果,以預(yù)處理后的光譜數(shù)據(jù)作為輸入變量構(gòu)建ISGD 模型,并測試了模型在校正集和預(yù)測集上的預(yù)測性能(表3)。由表3 可知,通過對光譜進行預(yù)處理能有效減少散射和噪聲等外在影響,突出與化學(xué)特性相關(guān)的信號,提升模型預(yù)測性能;相比于D1st、SNV 和MSC 預(yù)處理,使用WT 預(yù)處理可為ISGD 模型提供更好的結(jié)果,主要是由于WT 在處理近紅外光譜時,能夠?qū)⒈尘昂驮胍襞c有用信息分開,并對有用信息進行重構(gòu),提高了光譜分析精度。
圖1 100 個NH4NO3-HNO3 溶液樣本的近紅外(NIR)光譜Fig.1 Near-infrared (NIR) spectra of 100 samples of NH4NO3-HNO3 solution
表3 不同預(yù)處理方法的增量隨機梯度下降(ISGD)模型預(yù)測性能Table 3 Predictive performance of incremental stochastic gradient descent (ISGD) model with different pretreatment methods
利用WT 對近紅外光譜進行預(yù)處理時,不同的小波基和分解級數(shù)會導(dǎo)致不同的分析結(jié)果,因此需要進一步對小波基和分解級數(shù)進行探究。相比于Haar、Symlets(symN)和Coiflets(coifN)等小波基函數(shù),Daubechies(dbN)小波基具有更好的分析效果[19]??疾炝瞬煌琩b 小波基函數(shù)(db1、db2、db3、db4、db5、db6、db7 和db8)與小波分解層數(shù)(1~8)時的ISGD 模型預(yù)測性能。由圖2 可知,當(dāng)小波基函數(shù)為db1 且小波分解層數(shù)為5 時,ISGD 模型可獲得最佳的預(yù)測效果,預(yù)測集的Rp2和MSEP 分別為0.9991 和0.0940。因此,選擇優(yōu)化后的小波變換(小波基函數(shù)為db1,小波分解層數(shù)為5)作為NH4NO3-HNO3溶液近紅外光譜數(shù)據(jù)的預(yù)處理方法。
圖2 不同小波基函數(shù)與分解層數(shù)時的ISGD 模型預(yù)測性能:(A) Rp2;(B)MSEPFig.2 Prediction performance of ISGD model with different wavelet basis functions and decomposition layers:(A) Rp2;(B): MSEP
光譜信息中存在冗余,采用全光譜校準(zhǔn)模型只能得到次優(yōu)結(jié)果,因此變量選擇是光譜學(xué)定性和定量分析過程中必不可少的環(huán)節(jié)。為了消除光譜冗余和共線性,降低模型復(fù)雜度,提高近紅外光譜校正模型的預(yù)測能力和魯棒性,采用常規(guī)算法(UVE 和SPA)和SIOA 算法(GA、PSO、AFSA、GWO 和WOA)進行特征變量的優(yōu)選,結(jié)果見圖3。將優(yōu)選的變量作為輸入變量,用于ISGD 模型的建立和預(yù)測,結(jié)果見表4(考慮SIOA 算法具有隨機性,連續(xù)運行50 次,取其中最優(yōu)結(jié)果)。
圖3 SPA、UVE、GA、PSO、AFSA、GWO 和WOA 優(yōu)選的特征變量Fig.3 Spectral characteristic variables selected by SPA,UVE,GA,PSO,AFSA,GWO and WOA
表4 不同變量選擇方法的ISGD模型結(jié)果Table 4 Results of ISGD model using different variable selection methods
由圖3 可知,SPA、UVE、GA、PSO、AFSA、GWO 和WOA 優(yōu)選的特征變量中有1 個重復(fù)選中的特征吸收峰,即5068 cm?1處的特征吸收峰,考慮與N—H 鍵的伸縮振動和彎曲振動的組合頻有關(guān)[20],這種選擇的一致性說明該特征峰對解釋NH4NO3分子的振動特性具有顯著信息,因此在不同的變量優(yōu)選算法中都被選中。此外,UVE、GA、PSO、AFSA、GWO 和WOA 這6 種變量優(yōu)選方法同時選擇的還包括位于6437 和7185 cm?1處的特征吸收峰,分別與N—H 鍵和O—H 鍵伸縮振動的一級倍頻吸收有關(guān)。
由表4 可知,采用SPA-ISGD 進行變量選擇后,特征變量數(shù)大幅減少,從1557 減至11 個,但模型在校正集和預(yù)測集上的整體性能表現(xiàn)有所降低,這主要是因為SPA 算法在利用向量投影優(yōu)選冗余度低、共線性好且能代表光譜關(guān)鍵信息的有效特征變量時,去除了部分重要信息(如代表N—H 鍵伸縮振動的6437 cm?1特征吸收峰并未被選中),使得有效信息缺失,導(dǎo)致模型性能下降,這與Li 等[21]得到的SPA 變量選擇后模型性能不及使用全光譜建模的結(jié)論一致。采用UVE-ISGD 進行特征變量選擇后,變量數(shù)減少至全光譜的70.97%,模型在校正集和預(yù)測集的均方誤差分別降低了38.22%和36.17%,表明UVE 算法能有效去除噪聲和冗余信息,使得有用信息凸顯,有利于提高模型的預(yù)測性能。值得注意的是,UVE 算法被設(shè)計用于去除光譜中信息量較少的變量,因此在變量信息中可能仍存在一些包含大量冗余信息的共線變量,這與算法的固有缺陷有關(guān)[22-23]。盡管UVE 算法選擇的特征變量數(shù)量過多,但MSEC 和MSEP 值下降,可以認(rèn)為UVE 算法選擇的變量信息更豐富有效,從而促使模型性能得到提升[24]。GA-ISGD 進行特征變量選擇后,變量數(shù)為全光譜的36.67%,模型整體性能較全光譜大幅提升,但相比于UVE-ISGD 還略有不足,可能是因為GA 算法具有較強的全局搜索能力,但局部搜索能力較弱,容易獲得次優(yōu)解而非最優(yōu)解,導(dǎo)致模型性能并非最佳,這與文獻[25-26]的研究結(jié)果一致。采用PSO-ISGD、AFSA-ISGD 和GWO-ISGD進行特征變量選擇后的模型整體性能均優(yōu)于UVE-ISGD 結(jié)果,但對比這3 種算法可以發(fā)現(xiàn),GWO-ISGD更具有選擇性,Rp2從0.9994 升至0.9995,MSEP 從0.0602 減至0.0553,原因是GWO 算法利用圍捕獵的機制進行搜索,依靠前3 種最優(yōu)解進行搜索,實現(xiàn)局部尋優(yōu)和全局搜索之間平衡,使得結(jié)果非常接近于最優(yōu)結(jié)果。此外,采用WOA-ISGD 進行特征變量選擇時,有最佳的模型性能,此時Rp2為0.9996,MSEP 為0.0453,說明WOA 算法具有最佳的搜索性能,考慮到是由于WOA 采用隨機個體或最優(yōu)個體模擬座頭鯨的捕獵行為,并用螺旋線模擬座頭鯨的泡泡網(wǎng)攻擊機制,使其具有最佳的搜索性能。同時,觀察到隨著特征變量數(shù)量減少,建模時間縮短,其中SPA-ISGD 的特征變量最少,僅有11 個,因而建模時間也最短,僅為0.141s;具有最佳性能的WOA-ISGD 的特征變量數(shù)為124,建模時間為0.156 s,相比于全光譜的建模時間(0.203 s)縮短了23.15%。
雖然WOA 極大地減少了模型變量的數(shù)量,但其中一些特征變量可能仍然是冗余的。為了進一步減少特征變量個數(shù),避免因變量過多而使得智能優(yōu)化算法陷入局部最優(yōu)的情況,同時縮短建模時間并降低模型復(fù)雜性,在WOA 算法提取的124 個特征變量基礎(chǔ)上,利用GWO、AFSA 和PSO 進一步提取變量,結(jié)果見圖4。WOA 選擇了包括4057、4099、4157 和4204 cm?1等在內(nèi)的124 個特征變量(圖3),與WOAPSO 和WOA-AFSA 相比,WOA-GWO 的特征變量從124 個急劇減至44 個。
圖4 WOA-ISGD(A)、WOA-PSO-ISGD(B)、WOA-AFSA-ISGD(C)和WOA-GWO-ISGD(D)的變量選擇Fig.4 The selected variables by WOA-ISGD (A),WOA-PSO-ISGD (B),WOA-AFSA-ISGD (C) and WOAGWO-ISGD (D)
不同變量提取方法的ISGD 模型性能見表5。與WOA-ISGD 模型相比,WOA-GWO-ISDG 和WOAPSO-ISDG 模型的特征變量數(shù)明顯減少,并且模型在校正集和預(yù)測集上的預(yù)測性能有所提升,說明刪除一些冗余變量后,模型具有更好的性能。WOA-AFSA-ISGD 雖然在校正集上的性能表現(xiàn)不及WOA-ISGD,但在預(yù)測集上的表現(xiàn)較好,Rp2從0.9996 升至0.9997,MSEP 從0.0453 減至0.0360,說明通過對WOA 優(yōu)選的特征變量再次選擇可以去除部分波段干擾,使模型預(yù)測性能得到提升。此外,無論是模型在校正集或驗證集上的表現(xiàn)(MSEC 和MSEP 值分別為0.0313 和0.0353),還是特征變量的選擇(選擇的44 個特征變量涵蓋了N—H 鍵的伸縮振動與彎曲振動的組合頻和N—H 鍵的伸縮振動一級倍頻,與NH4NO3-HNO3溶液中NH4NO3濃度信息有著密切的關(guān)系,具有物理意義),都說明WOA-GWO-ISGD 模型具有優(yōu)越性。因此,WOA-GWO 在選擇用于預(yù)測NH4NO3-HNO3溶液中NH4NO3濃度的特征變量方面具有很好的效果。
表5 不同組合變量選擇方法的ISGD模型結(jié)果Table 5 Results of ISGD model using different combinations of variable selection methods
為了驗證ISGD 校正模型用于新增數(shù)據(jù)加入時的預(yù)測性能及其與其它校正模型的差異,分別構(gòu)建了NH4NO3-HNO3溶液近紅外光譜的小波變換-鯨魚優(yōu)化算法-灰狼優(yōu)化算法-偏最小二乘校正模型(WT-WOA-GWO-PLS)、小波變換-鯨魚優(yōu)化算法-灰狼優(yōu)化算法-支持向量機回歸(Support vector regression,SVR)校正模型(WT-WOA-GWO-SVR)和小波變換-鯨魚優(yōu)化算法-灰狼優(yōu)化算法-隨機森林回歸(Random forest regression,RFR)校正模型(WT-WOA-GWO-RFR)。在構(gòu)建WT-WOA-GWO-PLS 校正模型時,利用WOA-GWO 提取的44 個特征變量和遍歷算法對潛變量進行優(yōu)化,確定了最優(yōu)潛變量為10;在構(gòu)建WT-WOA-GWO-SVR 和WT-WOA-GWO-RFR 校正模型時,采用網(wǎng)格調(diào)參和五折交叉驗證,確定了WT-WOA-GWO-SVR 校正模型核函數(shù)為Linear,C為5.6282,優(yōu)化后的WT-WOA-GWO-RFR 校正模型樹深為9,樹的最大總量為83。
將69 個樣本劃分為7 組(前6 組每組10 個樣本,第7 組9 個樣本),采用分批讀入的方式模擬實際應(yīng)用時新數(shù)據(jù)加入的場景。具體模擬時,采用已構(gòu)建的模型對每組樣本數(shù)據(jù)進行檢查,當(dāng)樣本預(yù)測值與真實值相對誤差百分?jǐn)?shù)∣ζ∣≤0.1 時,判斷該樣本不需要加入,將其舍棄,否則放入待訓(xùn)練樣本集;檢查完畢后,將待訓(xùn)練樣本集中的樣本數(shù)據(jù)輸入至模型進行訓(xùn)練,得到更新的模型;重復(fù)檢查、訓(xùn)練,直至全部新增樣本檢查完畢。
不同模型加入新樣本數(shù)據(jù)后模型在預(yù)測集上的表現(xiàn)見表6。未加入新增數(shù)據(jù)時,WT-WOA-GWO-PLS模型的預(yù)測性能最佳,預(yù)測集Rp2和MSEP 分別為0.9998 和0.0198,而WT-WOA-GWO-RFR 模型的預(yù)測性能最差,4 種模型的預(yù)測性能按照WT-WOA-GWO-RFR<WT-WOA-GWO-SVR<WT-WOA-GWOISGD<WT-WOA-GWO-PLS 的順序增強。當(dāng)新增數(shù)據(jù)分批讀入時,WT-WOA-GWO-PLS、WT-WOA-GWOSVR 和WT-WOA-GWO-RFR 模型在預(yù)測集上的性能表現(xiàn)均越來越差,主要是三者均屬于批處理模型,在新增數(shù)據(jù)學(xué)習(xí)時會拋棄以往的學(xué)習(xí)效果,僅對新數(shù)據(jù)進行學(xué)習(xí),導(dǎo)致模型的預(yù)測精度大幅下降;WTWOA-GWO-ISGD 模型在預(yù)測集上的性能呈現(xiàn)先降低后增加的趨勢,考慮到新樣本的數(shù)據(jù)分布與舊任務(wù)差別較大,模型進行漸進知識更新需要一定時間,因此模型的性能會下降;待修正和加強以前知識后,再以更新后的知識適應(yīng)數(shù)據(jù),并且隨著數(shù)據(jù)不斷豐富,模型性能會逐步提升。由此可見,近紅外光譜結(jié)合ISGD 算法可以很好地實現(xiàn)NH4NO3-HNO3溶液中NH4NO3濃度的快速定量分析,同時也可以實現(xiàn)新增NH4NO3-HNO3溶液樣本數(shù)據(jù)的快速實時精準(zhǔn)預(yù)測。
表6 NH4NO3-HNO3溶液NIR光譜不同校正模型預(yù)測性能比較Table 6 Comparison of predictive performance of different calibration models based on NIR spectroscopy of NH4NO3-HNO3 solution
針對數(shù)據(jù)樣本非一次加入的增量學(xué)習(xí)場景,采用支持增量學(xué)習(xí)的ISGD 用于NH4NO3-HNO3溶液中NH4NO3濃度的預(yù)測。分別對樣本優(yōu)選、光譜預(yù)處理、特征變量優(yōu)選以及校正模型性能對比等部分進行了深入研究。比較了SPXY、KS 和RS 這3 種樣本劃分方法下的模型性能,確定了最佳樣本劃分方法為SPXY;根據(jù)不同預(yù)處理算法(SNV、MSC、D1st 和WT)下的預(yù)處理效果,選擇WT 預(yù)處理算法結(jié)合db1小波基、5 級分解獲得最佳預(yù)處理效果;對經(jīng)預(yù)處理后的NH4NO3-HNO3溶液近紅外校正模型進行輸入變量的優(yōu)化,比較了不同變量優(yōu)選方法(UVE、SPA、GA、PSO、AFSA、GWO、WOA、WOA-PSO、WOA-ASFA 和WOA-GWO)對模型的預(yù)測性能。為了進一步探究WT-WOA-GWO-ISGD 校正模型用于新增數(shù)據(jù)加入時的預(yù)測性能,將其與其它校正模型(WT-WOA-GWO-SVR、WT-WOA-GWO-RFR 和WTWOA-GWO-PLS)進行比較,結(jié)果表明,WT-WOA-GWO-ISGD 校正模型有最好的預(yù)測性能,其Rp2和MSEP分別為0.9996 和0.0459。WT-WOA-GWO-ISGD 校正模型能夠在保持原有學(xué)習(xí)效果的基礎(chǔ)上,再學(xué)習(xí)新數(shù)據(jù),表現(xiàn)出漸進學(xué)習(xí)能力,為適應(yīng)新增數(shù)據(jù)快速響應(yīng)的實時預(yù)測場景提供了有效的解決方案。