賈利紅 張國宏* 王 毅 閆曉劍 王小琴 郭 艷 宋廷富 安明哲
(1.四川長虹電器股份有限公司,綿陽 621000;2.宜賓五糧液股份有限公司,宜賓 644000)
隨著微機電技術的發(fā)展,近幾年,便攜式近紅外光譜儀被廣泛應用于化工[1,2]、食品[3,4]、飲料[5]、醫(yī)藥[6,7]等各個領域,相較于傳統(tǒng)的大型傅里葉變換光譜分析系統(tǒng),其具有結構簡單、成本低廉、攜帶方便、結果實時可見等優(yōu)勢,目前已成為光譜領域的熱門產品[8]。但其自身也存在一定的不足,如預測結果不穩(wěn)定、預測準確率略低等[9,10],尤其是針對待檢樣本形態(tài)不穩(wěn)定的定量分析場景,如酒醅樣品,其固液混合的物理形態(tài),及隨著時間的推移、環(huán)境的變化,持續(xù)發(fā)酵的狀態(tài)[11-13],均對近紅外光譜儀模型的穩(wěn)定性及可靠性提出了很高的要求。
在近紅外光譜數(shù)據(jù)建模方面,何思洋等利用PLS建模算法對能源高粱莖、葉的近紅外光譜建立能源轉化相關化學成分分析模型,通過光譜一階導和光譜點“競爭性自適應權重(CARS)”篩選等方法對模型進行優(yōu)化[14]。譚惠芬等將反滲透復合膜近紅外原始光譜用Savitziky-Golay法平滑、二階微分法預處理后,通過選擇間苯二胺、三乙胺和十二烷基苯磺酸鈉的PLS因子數(shù)及特定波長區(qū)間對模型進行優(yōu)化[15]。徐杰等在傅立葉變換紅外光譜儀上采集不同混合比例的黏纖與氨綸樣品的近紅外光譜圖,利用偏最小二乘法(PLS)建立黏氨織物的近紅外光譜定量分析模型。通過選擇不同的分辨率、掃描次數(shù)、預處理方法和波段對模型進行優(yōu)化[16]。綜上所述,目前行業(yè)內近紅外光譜數(shù)據(jù)建模優(yōu)化工作,主要集中于數(shù)據(jù)源篩選、預處理算法優(yōu)化、模型篩選算法優(yōu)化等基于PLS算法的單模型建模優(yōu)化工作,此類建模算法主要適用于高精度的傅里葉近紅外光譜儀數(shù)據(jù)或樣本為單一固態(tài)或液態(tài)的近紅外光譜數(shù)據(jù)。對于自身硬件分辨率較低的便攜式近紅外光譜儀以及一些自身形態(tài)較復雜的樣本,適用性較差。因此本文在基于PLS算法建模的基礎上,引入集成建模方法,將提取的相對較穩(wěn)定、準確率較高的若干個酒醅基模型利用設定的特定準則進行集成,以此來提升便攜式近紅外光譜儀模型整體性能,為其批量應用于產線提供有效的算法支撐。
選取釀酒車間共計1750個酒醅樣品作為實驗樣本,其中出窖酒醅、入窖酒醅各875個。樣本待檢成分主要有入窖水分、入窖酸度、入窖淀粉、出窖水分、出窖酸度、出窖淀粉,各成分標定值由車間技術人員通過標準的理化分析實驗所得。
本次實驗數(shù)據(jù)采集選用四川長虹自主研發(fā)的PV800R-I便攜式近紅外光譜儀套件,圖1a為便攜式近紅外光譜儀及配套移動終端,圖1b為制備酒醅樣品的工裝件。其中光譜儀波段范圍為1350 nm~2150 nm,采樣間隔為6 nm,重量約750g。
圖1 PV800R-I便攜式近紅外光譜儀套件
本次實驗在常溫條件下,將固液混合態(tài)的酒醅樣品裝入光譜儀的配套工裝件中,填滿壓實備用。具體的采樣過程為PV800R-I通過藍牙與智能移動終端連接,利用智能移動終端的客戶端,控制近紅外光譜儀對已經(jīng)制備好的樣品進行采樣,然后將采集的數(shù)據(jù)通過無線網(wǎng)絡傳送到樣品光譜數(shù)據(jù)庫中以備分析使用。為了保證光譜數(shù)據(jù)采樣的準確性及穩(wěn)定性,每一個樣本的原始光譜數(shù)據(jù)均通過光譜儀在工裝件上均勻旋轉采樣6次,取平均所得。
由于便攜式近紅外光譜儀本身精度限制及酒醅樣本自身的復雜形態(tài),造成了基于此類樣本采集的近紅外光譜數(shù)據(jù)進行建模,模型針對同一樣本多次預測,結果重復性差,穩(wěn)定性欠佳;同時模型對樣本各成分的預測準確率較低,遲遲達不到產線要求。考慮到這些影響因素的原發(fā)性,本實驗摒棄傳統(tǒng)的單模型優(yōu)化思路,嘗試將效果欠佳的各個單模型利用集成建模方法,按設定的特定準則進行集成,利用集成模型對樣本數(shù)據(jù)進行預測,進而提升便攜式近紅外光譜儀的預測準確率。具體建模流程如圖2所示。
圖2 集成建模流程圖
1.3.1 樣本集合劃分
選定出窖、入窖各774條作為樣本集T,利用隨機抽樣方式提取100條樣本為驗證集V1,剩余樣本為訓練集T1;將樣本集T按采集時間排序,選取最新采集的100條樣本為驗證集V2,剩余樣本為訓練集T2。
1.3.2 數(shù)據(jù)建模
近紅外光譜數(shù)據(jù)建模主要分為兩部分,即數(shù)據(jù)預處理及線性擬合。其中預處理算法采用高斯平滑(半窗寬∈[1,2,…,12])、高斯求導(多項式階次∈[2,4,6])、SG平滑(半窗寬∈[1,2,…,12],多項式階次∈[1,2,…,6])、去趨勢(階次∈[1,2,…,4])、SNV及l(fā)og,共計93種。數(shù)據(jù)線性擬合采用偏最小二乘法(主成分區(qū)間∈[1,2,…,15])。基于以上組合,每個樣本集的建模數(shù)量總計為1395種。
1.3.3 基模篩選
將樣本集T作為訓練集,進行數(shù)據(jù)建模,選取RMSECV最小的模型作為最優(yōu)基模型,其中為標定值,Yp為采用留一法交叉驗證的預測值,n為訓練集樣本數(shù)量;對于包含驗證集的樣本集合,計算驗證集最大準確率P,選定系數(shù)?(??(0.5,1)),提取準確率大于?P的所有模型中RMSECV最小的模型為最優(yōu)基模型。根據(jù)以上篩選指標進行基模篩選后,保存最優(yōu)基模型相應的建模參數(shù),包括預處理方法及參數(shù),Beta值(線性擬合參數(shù)值)以及模型的R2值。
1.3.4 權重計算
對所有基模的R2值進行歸一化,即
其中n為基模的個數(shù),ti為對應基模的權重值。
經(jīng)過以上光譜數(shù)據(jù)處理,最終得到實驗中入窖、出窖各成分集成模型參數(shù)如表1所示。其中每個集成模型均由5個基模型組合而成,其樣本集劃分采用了1.3.1中原始樣本、隨機樣本、臨近樣本的劃分方式,同時對隨機樣本、臨近樣本分別采取了?=0.9及?=0.95兩種篩選標準。對于每個基模型,分別給出了可以表征模型解釋性能、預測性能相應的R2值、留一法下的RMSECV值及驗證集預測準確率值等。
表1 集成模型參數(shù)
1.3.5 集成預測
引入本次實驗需要預測的出窖、入窖光譜數(shù)據(jù)各101條,對其進行基模對應的預處理,將預處理后的數(shù)據(jù)與基模的Beta值相乘得到基模的預測結果,將多個基模的預測結果結合其權重值,最終生成理想的集成模型的預測結果。待預測樣本的預測值Yp計算公式為:
其中Xpi為待預測樣本的光譜數(shù)據(jù)經(jīng)基模對應的預處理方法處理后得到的數(shù)據(jù)集合,n為基模的個數(shù),本次實驗中n=5。
結合余梅[17]等提出的優(yōu)化光譜預處理算法及李良[18]等在酒醅分析中提出的基于PLS的單模型建模算法對本實驗酒醅數(shù)據(jù)進行建模,通過多種預處理組合優(yōu)化,有效剔除了光譜數(shù)據(jù)中的大量無用信息,并結合PLS算法,將高達300維的光譜數(shù)據(jù)進行有效降維,提升了光譜數(shù)據(jù)的有效性及準確度。最后以RMSECV作為模型篩選指標,利用篩選的最優(yōu)模型對101條未知樣本進行模型外驗證。圖3a~圖3f依次給出了入窖水分、出窖水分、入窖酸度、出窖酸度、入窖淀粉、出窖淀粉6個指標的模型外預測分布情況,圖中橫坐標Y為標定值,縱坐標Yp為預測值,黃色區(qū)域為模型允許的誤差范圍(水分、淀粉允許誤差為絕對偏差±1,酸度允許誤差范圍為絕對偏差±0.3)。
由圖3可知,單模型整體表現(xiàn)較穩(wěn)定,各個指標預測分布均集中在目標線周圍,體現(xiàn)了相應優(yōu)化建模算法整體的可靠性。但縱觀入窖酒醅、出窖酒醅自身各成分模型間的對比,其模型外的表征能力出現(xiàn)了較大的差異性,如圖3a與圖3e其模型預測出現(xiàn)了非常明顯的相反趨勢,即水分模型普遍預測值小于標定值,而淀粉模型則反之。同理在圖3b與圖3d間也出現(xiàn)了類似的情況;對于同成分模型,入窖酒醅、出窖酒醅也表現(xiàn)出了較大的差異性,如該光譜儀模型對圖3c中入窖酸度預測效果良好,但對3e中的出窖酸度預測效果欠佳;統(tǒng)計分析以上6個模型的預測結果,其中圖3a、圖3b、圖3d、圖3e模型均未達到產線要求,即高達2/3的模型表現(xiàn)不佳。單模型建模方法對樣本數(shù)據(jù)具有高度依賴性,而本實驗中的固液混合態(tài)酒醅樣本組成成分復雜,且處于一種持續(xù)發(fā)酵的狀態(tài)中,再疊加以便攜式近紅外光譜儀自身的識別誤差,從而造成了光譜數(shù)據(jù)波動,進而造成了單模型的泛華能力弱、識別準確率低的情況發(fā)生。如何在特定硬件條件下,削弱模型對原始數(shù)據(jù)、硬件狀態(tài)的高依賴性,提升特殊樣本模型的泛化能力成為了一個亟待解決的實際問題。
圖3 出入窖各指標單模型預測結果
酒醅樣本會隨著溫度的變化、時間的推移,發(fā)生緩慢變化,進而會造成樣本光譜特性發(fā)生變化。集成建模方法中,臨近方式的樣本劃分,充分考慮了酒醅樣本發(fā)酵的時序特性,用采樣時間最臨近預測樣本集的樣本來表征,保證了模型的局部穩(wěn)定性;同時隨機方式的樣本劃分,旨在保證訓練集及驗證集光譜樣本的分布均勻,可有效提升模型的全局穩(wěn)定性;最后結合RMSECV及驗證集最優(yōu)準確率多指標相結合篩選,有效提升了模型的可靠性。相較于單模型的建模方法,集成模型建模方法生成的模型,可以極大地彌補硬件、樣本、環(huán)境等因素造成的波動,提升了模型的魯棒性及預測準確率。表2中給出了單模型及集成建模模型外預測準確率統(tǒng)計,表2中單模型的統(tǒng)計結果對應于圖3a~圖3f中的各個模型。
表2 單模型與集成模型預測準確率對比
將表2中集成建模預測結果與表1中各個基模型驗證集預測結果加以對比,發(fā)現(xiàn)以R2為模型集成的權重計量標準,有效將集成模型中的各個基模型間的波動差異拉至其整體預測能力的中上水平以上,保證了最終結果的可靠性、穩(wěn)定性及高準確性。橫向對比表2中集成模型在出窖酒醅、入窖酒醅各個成分的預測水平,其總體分布均衡,預測能力相當,表現(xiàn)了較高的穩(wěn)定性。與單模型縱向對比,各指標準確率均有不同幅度提升,其中在出窖水分、出窖酸度、入窖水分、入窖淀粉方面提升明顯,6個指標準確率平均提升約8.0%。各指標準確率均達到了釀酒車間的應用要求,除去出窖酸度指標,其余指標甚至已逼近實驗室大型傅里葉光譜儀設備性能指標。
利用便攜式近紅外光譜儀,對釀酒車間出窖酒醅、入窖酒醅各774個樣本,分別以單模型建模方法、集成建模方法進行酒醅各成分光譜建模,并對101個未知樣本進行模型外部驗證分析。結果表明,基于集成模型的建模方法,可以有效彌補便攜式光譜儀在采樣精度、穩(wěn)定性等方面的不足,以及酒醅樣本的復雜形態(tài)造成的數(shù)據(jù)波動。相較于單模型預測準確率,其性能有穩(wěn)定提升,甚至可有效逼近大型傅里葉光譜儀設備預測效果。本實驗研究為便攜式光譜儀落地應用提供了一種實用建模方法,可有效推動便攜式光譜儀在產線上大面積應用、指導生產,進而產生可觀經(jīng)濟效益。