林雙杰, 柴琴琴, 王 武, 2, 李玉榕, 2
(1. 福州大學(xué)電氣工程與自動(dòng)化學(xué)院, 福建 福州 350116; 2. 福建省醫(yī)療器械和醫(yī)藥技術(shù)重點(diǎn)實(shí)驗(yàn)室, 福建 福州 350002)
近紅外光譜技術(shù)具有快速、 方便、 低成本以及無(wú)損的特點(diǎn), 廣泛應(yīng)用于食品、 制藥、 煙草、 化工、 農(nóng)產(chǎn)品等多個(gè)領(lǐng)域[1-5]. 在建立近紅外光譜模型時(shí), 為了降低模型的復(fù)雜度, 減少冗余信息, 提高模型的穩(wěn)健性以及預(yù)測(cè)能力, 需要對(duì)光譜進(jìn)行特征波長(zhǎng)優(yōu)選, 選擇出冗余信息最少, 光譜共線(xiàn)性最少的特征波長(zhǎng)組合. 光譜波長(zhǎng)的篩選主要方法有連續(xù)投影法[6]、 無(wú)信息變量消除法[7]、 蒙特卡洛法[8]、 間隔偏最小二乘法[9]等. 近年來(lái), 具有全局搜索能力的群智能優(yōu)化算法也廣泛運(yùn)用到波長(zhǎng)優(yōu)選, 如: 遺傳算法[10]、 粒子群算法[11]和螢火蟲(chóng)算法[12]等. 人工蜂群算法(artificial bee colony algorithm, ABC)是Karaboga等[13-14]提出的一種啟發(fā)式優(yōu)化算法, 在函數(shù)優(yōu)化、 組合優(yōu)化等方面的應(yīng)用十分廣泛[15-16], 并且在一些應(yīng)用中也優(yōu)于遺傳算法、 蟻群算法等[17-18]. 目前, 該算法已成功應(yīng)用于高光譜圖像的波段優(yōu)選中[19], 因此本文采用人工蜂群算法優(yōu)選后的特征波長(zhǎng)建立預(yù)測(cè)模型, 為光譜波長(zhǎng)的優(yōu)選提供一個(gè)新的方法.
近紅外光譜建立預(yù)測(cè)模型一般采用偏最小二乘(partial least squares, PLS)方法[20], 但該方法對(duì)光譜重疊情況嚴(yán)重的處理效果不是很理想. 濃度殘差增廣的最小二乘算法[21](concentration residual augmented classical least squares, CRACLS)是一種最小二乘的改進(jìn)算法, 與PLS相比, 該算法實(shí)現(xiàn)更為簡(jiǎn)單, 同時(shí)具備PLS解決光譜數(shù)據(jù)高度共線(xiàn)性的能力, 并且對(duì)待測(cè)物質(zhì)中的隱含信息進(jìn)行更有效的提取, 提高光譜信息的利用率, 并能有效解決嚴(yán)重光譜重疊情況, 使得建立的模型預(yù)測(cè)能力更強(qiáng)[22-23]. Hegazy等[24]運(yùn)用雙變量校準(zhǔn)法結(jié)合CRACLS測(cè)定降解物中不同物質(zhì)的含量, Moustafa等[25]將CRACLS應(yīng)用于多元混合物中的藥物制劑中不同藥物含量的近紅外光譜分析, 以上研究均取得較好的結(jié)果.
本實(shí)驗(yàn)通過(guò)測(cè)量勾兌果汁中具有不同含量的蘋(píng)果汁原汁的吸光度光譜, 將人工蜂群算法應(yīng)用于光譜波長(zhǎng)變量的優(yōu)選, 優(yōu)選后的波長(zhǎng)變量由CRACLS建立預(yù)測(cè)模型. 將ABC波長(zhǎng)優(yōu)選后建立的CRACLS模型與全光譜建立的CRACLS模型, 標(biāo)準(zhǔn)遺傳算法(genetic algorithm, GA)波長(zhǎng)優(yōu)選后建立的CRACLS模型進(jìn)行比較, 并與ABC波長(zhǎng)優(yōu)選后建立的PLS模型、 全光譜建立的PLS模型、 標(biāo)準(zhǔn)GA波長(zhǎng)優(yōu)選后建立的PLS模型進(jìn)行比較. 實(shí)驗(yàn)結(jié)果表明, 人工蜂群算法能夠有效地處理好波長(zhǎng)變量的優(yōu)選問(wèn)題, 且CRACLS模型具備優(yōu)異的預(yù)測(cè)性能, 為光譜的預(yù)測(cè)模型建立提供更多的選擇.
ABC算法是模擬蜜蜂采蜜過(guò)程而提出的一種新型智能優(yōu)化算法, 由食物源、 雇傭蜂和非雇傭蜂組成, 通過(guò)不同工種蜜蜂的協(xié)同收縮, 尋找質(zhì)量最好的食物源, 可避免陷入局部最優(yōu)問(wèn)題. 有研究表明, 蜂群算法作為一種新的強(qiáng)大的智能優(yōu)化算法在某些運(yùn)用場(chǎng)合比遺傳算法取得更優(yōu)結(jié)果. 針對(duì)本文要優(yōu)化的問(wèn)題, 人工蜂群與特征波長(zhǎng)選取的優(yōu)化問(wèn)題對(duì)應(yīng)關(guān)系如表1所示.
表1 人工蜂群算法與波長(zhǎng)選取的優(yōu)化問(wèn)題的對(duì)應(yīng)關(guān)系
(1)
基于ABC算法特征波長(zhǎng)的尋優(yōu)過(guò)程主要步驟包括如下6步.
步驟1 初始化種群, 初始化算法中的全部參數(shù), 蜂群數(shù)量, 最大迭代次數(shù)以及控制參數(shù). 確定對(duì)特征波長(zhǎng)的搜索范圍, 并在該搜索范圍內(nèi)隨機(jī)產(chǎn)生一個(gè)初始化特征波長(zhǎng)組合;
步驟2 根據(jù)初始化后的點(diǎn)來(lái)計(jì)算每只蜜蜂的目標(biāo)函數(shù)值, 同時(shí)根據(jù)目標(biāo)函數(shù)值的好壞來(lái)對(duì)蜜蜂進(jìn)行排序劃分采蜜蜂和跟隨蜂;
步驟3 跟隨蜂和采蜜蜂根據(jù)不同的路徑來(lái)更新調(diào)整新的位置;
步驟4 若蜜蜂的位置超出了尋優(yōu)范圍, 那么他的位置不會(huì)更新, 還在原來(lái)的位置上;
步驟5 記錄到目前為止的最優(yōu)解;
步驟6 判斷滿(mǎn)足最大迭代次數(shù)或者適應(yīng)度值已滿(mǎn)足循環(huán)終止條件, 若滿(mǎn)足, 則循環(huán)結(jié)束, 輸出最優(yōu)波長(zhǎng)點(diǎn)組合, 否則返回步驟2繼續(xù)搜索.
步驟4 將E中的一個(gè)向量增強(qiáng)到C;
步驟5 使用新的C重復(fù)步驟1, 直到誤差E達(dá)到性能要求, 預(yù)測(cè)性能不能再提高.
其中:A為光譜矩陣;C為輸出的濃度參考矩陣;E為濃度殘差矩陣. CRACLS的主要優(yōu)點(diǎn)是, 它保留了定量經(jīng)典最小二乘法的優(yōu)點(diǎn), 并保持了偏最小二乘法建模的靈活性.
試驗(yàn)所用的蘋(píng)果與蘋(píng)果汁粉均購(gòu)于福州某大型超市, 蘋(píng)果新鮮且完好. 首先將新鮮的紅富士蘋(píng)果, 經(jīng)去皮、 切碎、 榨汁、 過(guò)濾等工藝得到新鮮的蘋(píng)果汁, 并測(cè)定鮮榨果汁中可溶性固形物含量; 同時(shí)采用蒸餾水配置與鮮榨果汁具有相同可溶性固形物含量的蘋(píng)果汁粉. 然后鮮榨果汁以5%為梯度與蘋(píng)果汁粉進(jìn)行勾兌, 得到21個(gè)樣品. 其中以原汁比例為0、 0.10、 0.20、 0.30、 0.40、 0.50、 0.60、 0.70、 0.80、 0.90、 1.00的樣本共11組數(shù)據(jù)作為校正集, 用來(lái)優(yōu)選模型參數(shù)和模型結(jié)果; 以0.05、 0.15、 0.25、 0.35、 0.45、 0.55、 0.65、 0.75、 0.85、 0.95樣本共10組數(shù)據(jù)作為預(yù)測(cè)集, 用來(lái)驗(yàn)證模型的有效性, 校正集和預(yù)測(cè)集樣本的分布統(tǒng)計(jì)結(jié)果如表2所示.
表2 蘋(píng)果汁勾兌樣本分布統(tǒng)計(jì)結(jié)果
圖1 近紅外吸收光譜圖Fig.1 Absorption spectra of the concentrations design
利用Nicolet 6700 FT-NIR近紅外光譜軟件平臺(tái)OMNICE軟件采集光譜數(shù)據(jù). 儀器的波數(shù)范圍為12 000~3 997 cm-1, 分辨率為16 cm-1, 將混合后的果汁樣品依次裝入10 mm的比色皿中, 每個(gè)樣品采集3次光譜, 取其平均值作為該樣品的近紅外吸收光譜, 圖1為樣品的21條原始光譜. 光譜數(shù)據(jù)分析均在MATLAB R2016a中進(jìn)行, 操作系統(tǒng)為Win 7.0.
近紅外光譜全波段區(qū)域包含系統(tǒng)測(cè)量噪音和操作噪音的干擾, 通過(guò)光譜預(yù)處理可以減輕或消除樣品中與濃度無(wú)關(guān)的其他因素干擾. 在原始光譜波段區(qū)間835~2 500 nm分別運(yùn)用中心化(center)、 標(biāo)準(zhǔn)正態(tài)變量(standard normal variate, SNV)、 多元散射校正( multiplicative scatter correction, MSC)等預(yù)處理方法分別對(duì)CRACLS和PLS建模分析, 結(jié)果見(jiàn)表3, 依據(jù)相關(guān)系數(shù)R越大, 均方根誤差(RMSE)越小的原則選擇多元散射校正的數(shù)據(jù)預(yù)處理方法作為CRACLS和PLS模型的預(yù)處理方法.
表3 不同預(yù)處理方法對(duì)應(yīng)CRACLS和PLS模型結(jié)果
為提高模型的預(yù)測(cè)能力, 采用人工蜂群算法對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行波長(zhǎng)優(yōu)選, 并與遺傳算法進(jìn)行比較. 其中, 人工蜂群算法的種群大小設(shè)為100, 最大迭代次數(shù)為200, 控制參數(shù)40和遺傳算法的種群大小設(shè)置為100, 最大迭代次數(shù)為200, 變異概率和遺傳概率分別設(shè)置為0.5、 0.01. 本文通過(guò)150次以上的獨(dú)立運(yùn)行, 最終選擇出現(xiàn)頻率在120次以上的最優(yōu)波長(zhǎng)點(diǎn)組合, 以確保實(shí)驗(yàn)結(jié)果真實(shí)有效, 非偶然現(xiàn)象. 實(shí)驗(yàn)結(jié)果表明, ABC算法將光譜吸收矩陣從828維降低到32維, 而GA算法只降低到69維, 選取的最優(yōu)波長(zhǎng)組合分別如圖2、 圖3所示, 圖中用圈標(biāo)記選中的波長(zhǎng)點(diǎn). 因此, 在相同的適應(yīng)度函數(shù)和相同的迭代終止條件下, ABC算法得到的維數(shù)更小, 人工蜂群算法相對(duì)遺傳算法具有更強(qiáng)的搜索能力, 尋優(yōu)性能更好.
圖2 人工蜂群算法的特征波長(zhǎng)選擇圖Fig.2 Optimum wavelength combination obtained by artificial bee colony algorithm
圖3 遺傳算法的特征波長(zhǎng)選擇圖Fig.3 Optimum wavelength combination obtained by genetic algorithm
圖4 測(cè)量值與預(yù)測(cè)值的關(guān)系圖Fig.4 Relationship between measured value and predicted value
CRACLS是一種濃度殘差增廣最小二乘算法, 具有良好的定量分析能力(圖4). 為了體現(xiàn)ABC-CRACLS算法的優(yōu)越性, 與采用全光譜CRACLS、 GA-CRACLS、 全光譜PLS、 ABC-PLS、 GA-PLS模型進(jìn)行比較, 見(jiàn)表4. 由表4可知, 經(jīng)過(guò)多元散射校正預(yù)處理后, 通過(guò)ABC提取出的特征波長(zhǎng)建立的CARCLS模型的結(jié)果最優(yōu), 該模型的校正集、 測(cè)試集的預(yù)測(cè)均方根誤差分別為: 0.000 9和0.012 1. 當(dāng)全譜828個(gè)波長(zhǎng)變量參與建模, 變量之間的強(qiáng)相關(guān)性也可能會(huì)影響建模效果, 因此全光譜PLS和全光譜CRACLS建模效果相對(duì)其它幾種經(jīng)過(guò)波長(zhǎng)優(yōu)選的模型來(lái)的差. 人工蜂群提取的特征波長(zhǎng)組合建立的模型效果比遺傳算法提取的特征波長(zhǎng)組合建立的模型效果好, 說(shuō)明人工蜂群能更準(zhǔn)確地提取出有效特征波長(zhǎng)點(diǎn)組合. CRACLS、 GA-CRACLS、 ABC-CRACLS相對(duì)于PLS、 GA-PLS、 ABC-PLS模型的均方誤差都相對(duì)較低, 說(shuō)明CRACLS模型對(duì)于果汁中的原汁含量測(cè)量性能更強(qiáng). 由圖4可知, ABC-CRACLS模型的Rp為0.999 1, RMSEP僅為0.012 1, 說(shuō)明該模型能對(duì)果汁中的原汁含量做出準(zhǔn)確的預(yù)測(cè). 由于實(shí)驗(yàn)室制作的樣本數(shù)的環(huán)境干擾少, 測(cè)試樣本與結(jié)果成強(qiáng)相關(guān)性, 但依舊能發(fā)現(xiàn)ABC-CRACLS優(yōu)于其它模型.
表4 不同模型性能比較
基于勾兌蘋(píng)果汁中的蘋(píng)果原汁含量建立近紅外光譜CRACLS模型, 對(duì)原始近紅外進(jìn)行波長(zhǎng)優(yōu)選, 實(shí)驗(yàn)結(jié)果顯示, 人工蜂群算法優(yōu)選建立的CRACLS模型優(yōu)于全光譜建立的CRACLS模型和GA優(yōu)化算法建立的CRACLS模型, 其中, GA算法優(yōu)選的波長(zhǎng)數(shù)為69, 而ABC算法優(yōu)選的波長(zhǎng)變量數(shù)僅為32, 極大地提高了模型建立的效率, 增強(qiáng)了模型的精確性和穩(wěn)定性, 表明ABC算法能有效提取近紅外光譜的特征波長(zhǎng). 該模型進(jìn)一步與一般的PLS模型進(jìn)行比較, CRACLS在預(yù)測(cè)集和校正集的相關(guān)性和均方誤差均優(yōu)于PLS模型, 結(jié)果顯示CRACLS模型相較于PLS模型預(yù)測(cè)能力更強(qiáng), 預(yù)測(cè)精度更高. 實(shí)驗(yàn)表明, 本文提出的ABC結(jié)合CRACLS模型在極大降低冗余波長(zhǎng)的情況下能實(shí)現(xiàn)對(duì)勾兌蘋(píng)果汁中蘋(píng)果原汁含量的準(zhǔn)確測(cè)定, 該模型簡(jiǎn)單、 高效, 可為解決其它勾兌果汁中原汁含量的快速檢測(cè)問(wèn)題提供借鑒, 在近紅外光譜分析領(lǐng)域具有巨大的潛力和實(shí)用價(jià)值.
參考文獻(xiàn):
[1] 鄧總綱, 李玲慧, 溫江北, 等. 草莓固體可溶物的近紅外光譜信息統(tǒng)計(jì)分析[J]. 食品科技, 2015(5): 317-321.
[2] 樊書(shū)祥, 黃文倩, 郭志明, 等. 蘋(píng)果產(chǎn)地差異對(duì)可溶性固形物近紅外光譜檢測(cè)模型影響的研究[J]. 分析化學(xué), 2015, 43(2): 239-244.
[3] 林翔, 彭熙琳, 陳曉春, 等. 基于近紅外光譜技術(shù)的辛伐他汀片劑生產(chǎn)過(guò)程多參數(shù)的質(zhì)量監(jiān)控[J]. 四川大學(xué)學(xué)報(bào)(工程科學(xué)版), 2015, 47(4): 192-197.
[4] 夏駿, 陸揚(yáng), 蘇燕, 等. 煙草水溶性糖近紅外定量模型中光譜范圍選擇方法的研究[J]. 中國(guó)煙草學(xué)報(bào), 2015, 21(2): 19-22.
[5] 謝錦春, 袁洪福, 閆香君, 等. 漫反射近紅外光譜測(cè)定聚乙烯醇 (PVA) 的醇解度與揮發(fā)分含量[J]. 光譜學(xué)與光譜分析, 2016, 36(1): 70-74.
[6] 吳迪, 寧紀(jì)鋒, 劉旭, 等. 基于高光譜成像技術(shù)和連續(xù)投影算法檢測(cè)葡萄果皮花色苷含量[J]. 食品科學(xué), 2014, 35(8): 57-61.
[7] 吳迪, 吳洪喜, 蔡景波, 等. 基于無(wú)信息變量消除法和連續(xù)投影算法的可見(jiàn)-近紅外光譜技術(shù)白蝦種分類(lèi)方法研究[J]. 紅外與毫米波學(xué)報(bào), 2009, 28(6): 423-427.
[8] 吳雙, 涂斌, 陳志, 等. 近紅外光譜結(jié)合蒙特卡洛交互驗(yàn)證奇異樣本篩選的橄欖油摻偽定性定量分析[J]. 食品科技, 2016(10): 277-282.
[9] MA H L, WANG J W, CHEN Y J,etal. Rapid authentication of starch adulterations in ultrafine granular powder of Shanyao by near-infrared spectroscopy coupled with chemometric methods[J]. Food Chemistry, 2017, 215: 108-115.
[10] RAMMAL A, PERRIN E, CHABBERT B,etal. Evaluation of lignocellulosic biomass degradation by combining mid-and near-infrared spectra by the outer product and selecting discriminant wavenumbers using a genetic algorithm[J]. Applied Spectroscopy, 2015, 69(11): 1303-1312.
[11] WANG G, MA M, ZHANG Z,etal. A novel DPSO-SVM system for variable interval selection of endometrial tissue sections by near infrared spectroscopy[J]. Talanta, 2013, 112: 136-142.
[12] GOODARZI M, DOS SANTOS COELHO L. Firefly as a novel swarm intelligence variable selection method in spectroscopy[J]. Analytica Chimica Acta, 2014, 852: 20-27.
[13] KARABOGA D, AKAY B. Artificial bee colony (ABC) algorithm on training artificial neural networks[J]. Signal Processing and Communications Applications, 2007, 112(4): 1-4.
[14] KARABOGA D, BASTURK B. Artificial bee colony (ABC) optimization algorithm for solving constrained optimization problems[J]. Foundations of Fuzzy Logic & Soft Computing, 2007, 11(3): 789-798.
[15] 劉三陽(yáng), 張平, 朱明敏. 基于局部搜索的人工蜂群算法[J]. 控制與決策, 2014, 29(1): 123-128.
[16] 李彥蒼, 彭?yè)P(yáng). 基于信息熵的改進(jìn)人工蜂群算法[J]. 控制與決策, 2015, 30(6): 1121-1125.
[17] 于明, 艾月喬. 基于人工蜂群算法的支持向量機(jī)參數(shù)優(yōu)化及應(yīng)用[J]. 光電子·激光, 2012, 23(2): 374-378.
[18] 黃麗君, 郭昆. 收發(fā)件同步的快遞服務(wù)網(wǎng)點(diǎn)選址與車(chē)輛線(xiàn)路規(guī)劃算法研究[J]. 福州大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015 ,43(3): 322-327.
[19] 王立國(guó), 趙亮, 劉丹鳳. 基于人工蜂群算法高光譜圖像波段選擇[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào), 2015, 47(11): 82-88.
[20] 沈掌泉, 盧必慧, 單英杰, 等. 基于變量選擇的偏最小二乘回歸法和田間行走式近紅外光譜進(jìn)行土壤碳含量測(cè)定研究[J]. 光譜學(xué)與光譜分析, 2013, 33(7): 1775-1780.
[21] MELGAARD D K, HAALAND D M, WEHLBURG C M. Concentration residual augmented classical least squares (CRACLS): a multivariate calibration method with advantages over partial least squares[J]. Applied Spectroscopy, 2002, 56(5): 615-624.
[22] HAALAND D M, MELGAARD D K. New prediction-augmented classical least-squares (PACLS) methods: application to unmodeled interferents[J]. Applied Spectroscopy, 2000, 54(9): 1303-1312.
[23] HEGAZY M A M, FAYEZ Y M. Mean centering of ratio spectra and concentration augmented classical least squares in a comparative approach for quantitation of spectrally overlapped bands of antihypertensives in formulations[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2015, 140: 210-215.
[24] HEGAZY M A, YEHIA A M, MOUSTAFA A A. Bivariate versus multivariate smart spectrophotometric calibration methods for the simultaneous determination of a quaternary mixture of mosapride, pantoprazole and their degradation products[J]. Die Pharmazie-An International Journal of Pharmaceutical Sciences, 2013, 68(5): 317-326.
[25] MOUSTAFA A A, HEGAZY M A, MOHAMED D,etal. Evaluation of multivariate calibration models with different pre-processing and processing algorithms for a novel resolution and quantitation of spectrally overlapped quaternary mixture in syrup[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2016, 154: 76-83.