沈 英,占秀興,黃春紅,謝友坪,黃 峰,
(1.福州大學機械工程及自動化學院,福建福州 350108;2.福州大學生物科學與工程學院,福建福州 350108)
蝦青素,又名蝦紅素、蝦黃質,因其顯著的抗氧化性成為國內外研究熱點,具有多種生物活性[1],在化妝品[2]、生物醫(yī)藥[3]、食品[4]、水產養(yǎng)殖[5]等領域應用廣泛。雨生紅球藻是目前工業(yè)化生產天然蝦青素的主要生物,而生長過程中積累的蝦青素含量指標是其收獲的重要依據(jù)[6-8]。
傳統(tǒng)的蝦青素含量檢測方法主要有分光光度法、高效液相色譜法及液質聯(lián)用法等[9],此類方法均需要利用物理或化學的方式對樣品進行前處理,處理過程復雜,成本高,使用的化學試劑對人體或環(huán)境有著潛在的危害[10]。因此,需要探索一種對環(huán)境友好,經濟快速的檢測方式。光譜成像作為一種無損檢測技術,可實現(xiàn)物質內部組分的定性定量分析[11]。在色素檢測方面,Zhang 等[12]通過多光譜成像技術結合機器學習方法,建立了良好的大白菜多種光合色素含量預測模型;Kwon 等[13]利用無人機拍攝的高光譜圖像反演出藻類色素的時空分布;Duppeti 等[14]通過可見/近紅外漫反射光譜對小球藻及其混合培養(yǎng)物的生物量和色素進行了定量分析;蔣林軍[15]應用高光譜成像技術構建了雨生紅球藻蝦青素含量檢測模型。高光譜成像雖然能獲取更多的光譜細節(jié),信息量大,但波段間的相關性高、數(shù)據(jù)冗余、成像速度慢,而快照式光譜在原光譜成像技術基礎上實現(xiàn)了單次曝光即能獲取完整光譜數(shù)據(jù)立方體,大大提高成像速度和靈敏度[16],在其已有的應用研究中,Yu 等[17]采用25 波段近紅外快照式多光譜相機搭建檢測系統(tǒng),實現(xiàn)了對干胡蘿卜片含水量與收縮率的快速無損檢測。這種成像快、滿足動態(tài)場景、尺寸小的快照式多光譜成像技術有望為微藻色素領域的檢測提供新方案。
本研究基于快照式可見/近紅外多光譜漫反射成像技術,設計搭建檢測系統(tǒng),以雨生紅球藻蝦青素為研究對象,探究其含量變化與光譜信息的聯(lián)系,采用化學計量學方法,建立可見光全光譜及可見-近紅外全光譜的預測模型,比較確定最佳光譜預處理方法,并通過特征波長提取確定雨生紅球藻蝦青素光譜檢測有效波段,建立基于特征波段的預測模型,并與全光譜模型對比分析,為實現(xiàn)高精度快速無損測定雨生紅球藻蝦青素含量提供理論及技術指導。
雨生紅球藻(Haematococcus pluvialis)藻種 澳大利亞昆士蘭大學Peer Schenk 教授提供;氫氧化鈉(分析純)、甲醇、二氯甲烷、乙醇 色譜純,國藥集團化學試劑有限公司;丁基羥基甲苯、甲基叔丁基醚色譜純,Acros Organics 公司;乙酸銨 色譜純,Sigma-Aldrich 公司;三乙胺 色譜純,F(xiàn)isher Chemical 公司。
Mini Bead Beader 珠磨破碎機 Bsp Biospec Products;FD-2 真空冷凍干燥機 北京博醫(yī)康實驗儀器有限公司;AB104N 電子天平 Sartorius 公司;TGL-20bR 高速冷凍離心機 上海安亭科學儀器廠;PGX-450D 智能光照培養(yǎng)箱 寧波海曙賽福實驗儀器廠;LC-20 高效液相色譜儀 島津儀器(蘇州)有限公司;多光譜圖像采集系統(tǒng)如圖1 所示,系統(tǒng)主要分為五個部分:多光譜相機、光源、計算機、樣本固定平臺及暗箱。其中,光源由4 個50 W 鹵素燈面光源組成,在每個燈杯前固定一塊高透光率的磨砂玻璃,保證光照的均勻性;兩臺相機均采用德國XIMEA 公司研制的快照式多光譜相機,一臺為可見光相機(MQ022HG IM SM4×4 VIS),可獲得在480~635 nm光譜范圍內13 個波段的漫反射光譜圖像,光譜分辨率約為10 nm,單波段圖像分辨率為512×272 pixels,另一臺為近紅外相機(MQ022HG IM SM5×5 NIR),可獲得在665~950 nm 光譜范圍內25 個波段的漫反射光譜圖像,光譜分辨率約為10 nm,單波段圖像分辨率為409×217 pixels。相機鏡頭均使用Edmund公司的35 mm 鍍可見光-近紅外膜緊湊型定焦距鏡頭(VIS-NIR,#67-714)。
圖1 多光譜圖像采集系統(tǒng)示意圖Fig.1 Schematic of the multispectral image acquisition system
1.2.1 微藻樣本的制備 雨生紅球藻接種在經120 ℃高溫滅菌的BBM 培養(yǎng)基上,在智能培養(yǎng)箱中進行培養(yǎng),設置培養(yǎng)箱溫度為25 ℃,光照強度為60~160 μmol/m2/s,培養(yǎng)瓶外接CO2作為碳源,將培養(yǎng)瓶置于磁力攪拌器上,轉速為250 r/min,使沉于瓶底的藻細胞懸浮到營養(yǎng)液中,實驗樣本來自培養(yǎng)0、48、96、144 h 后的雨生紅球藻,為擴充樣本量,分別稀釋0~8 倍,制作22 個不同梯度樣本,每個濃度梯度設置6 個平行樣本,共計126 個樣本。
1.2.2 光譜圖像的采集與校正 本研究采集圖像所使用的快照式多光譜相機將像素級Fabry-Pérot 濾鏡馬賽克陣列直接集成在現(xiàn)有工業(yè)相機的CMOS 芯片上,在相機的每個像素上進行不同波段的光譜鍍膜,采集光譜圖像時無需光柵、濾光片等分光器件,具有成像速度快、靈敏度高、體積小等特點;相機在密閉的暗箱中以鹵素燈作為光源采集漫反射光譜圖像,避免外界環(huán)境的干擾,將制備好的樣本依次放置在載物臺上,物距為450 mm,鹵素燈距載物臺為350 mm,光源入射角度與豎直方向成30°夾角,兩臺相機同時拍攝,曝光時間設置為2.0 ms,每個樣本重復采集光譜圖像三次取其反射率的平均值。為消除光源分布不均及儀器環(huán)境的影響,須對采集的樣本光譜圖像進行校正,校正公式如下[18]:
其中,R 為校正后的光譜圖像; Iraw為校正前原始光譜圖像; Idark為關閉光源的全黑圖像;Iwhite為標準白板圖像。獲取圖像后,為減少樣本背景信息的干擾,通過ENVI 5.1(ITT Visual Information Solutions,United States)軟件提取感興趣區(qū)域,實驗數(shù)據(jù)建模分析主要通過Matlab R2020a(The Math Works, Natick,USA)軟件來完成。
1.2.3 蝦青素含量的測定 高效液相色譜法是色素組分含量測定的常用方法,參考馬瑞娟[19]、歐陽琴[20]報道的方法。在測定前先進行蝦青素的提取,采用機械破壁與溶劑提取結合的方式,首先將待測藻液于8000 r/min 轉速下離心5 min,冷凍干燥后得到藻粉,而后稱取10 mg 藻粉,加入一定量二氯甲烷/甲醇(1:1,v/v),破碎、離心、收集上清液,重復提取至上清液為白色,經吹干后,加入適量氫氧化鈉甲醇溶劑、甲醇/乙醇溶劑(2:1,v/v),充分皂化后利用玻璃纖維膜過濾;完成提取后采用高效液相色譜儀進行含量檢測,設定色譜柱YMC·Cartenoid·RP-30(4.6 mm×250 mm×5 μm)、進樣量20 μL、流速1 mL/min、檢測波長450 nm、柱溫30 ℃,流動相A:稱取3.854 g乙酸銨和1 g 丁基羥基甲苯溶解于800 mL 甲醇,加0.5 mL 三乙胺和30 mL 水,混勻,再加一定量甲醇定容至1 L;流動相B:稱取0.5 g 丁基羥基甲苯溶解于400 mL 甲基叔丁基醚,加0.25 mL 三乙胺,混勻,再加一定量甲基叔丁基醚定容至500 mL,而后根據(jù)Chen 等[21]報道的方法,按特定的洗脫條件完成測定。
1.3.1 光譜預處理 快照式多光譜相機相鄰波段間隔大,濾鏡單元拼接在同一光譜體素內,空間分辨率低[16],采集樣本光譜圖像過程中,成像易受到外界環(huán)境的干擾,例如散射光、噪聲、背景信息等[22]。為盡量減少該類誤差,采用一階導數(shù)(first derivation,F(xiàn)D)、卷積平滑(Savitzky-Golay,S-G)、標準正態(tài)變量變換(standard normal variable transformation,SNV)三種預處理方法。其中,F(xiàn)D 能有效增強光譜細節(jié),消除背景干擾,分辨重疊峰,本實驗設置窗口寬度為3;S-G 通過平滑擬合處理用于去除儀器環(huán)境等引起的高頻噪聲,可提高光譜整體的信噪比,本實驗設置5 點平滑、3 次多項式擬合;SNV 可以減小光程變換或樣品表面散射對光譜信息的干擾[23]。通過建立基于不同預處理的全光譜預測模型,對比確定最佳預處理方法,以提高模型的精度。
1.3.2 模型的建立與評價指標 特征波長是所研究目標組分光譜信息的重要參考,從全光譜中選擇少量有代表性的特征波長,不僅能夠減少光譜冗余信息,避免產生共線性問題,而且為基于特征波段研發(fā)的便攜式設備提供理論依據(jù)。本實驗采用連續(xù)投影算法(successive projections algorithm,SPA)和競爭性自適應重加權算法(competitive adaptive reweighted sampling,CARS)優(yōu)選特征波長,在保證預測精度的同時,降低光譜維數(shù),減少運算量[24-25]?;瘜W計量學建模方法是光譜分析預測的關鍵,本實驗主要在光譜信息與組分含量間建立可靠的統(tǒng)計學關系,實現(xiàn)對未知樣本的預測目的,采用偏最小二乘回歸(partial least square regression,PLSR)和反向傳播(back propagation,BP)神經網絡分別建立預測模型。PLSR 結合了相關分析、主成分分析及多元線性回歸方法特點,可同時考量光譜信息與組分含量間的關系,是光譜數(shù)據(jù)建模中常用的線性回歸方法[26],因子數(shù)是影響PLSR 模型的關鍵參數(shù),因子數(shù)的過多或過少會導致模型的過擬合或欠擬合,實驗過程中采用留一交叉驗證確定最佳因子數(shù);BP 神經網絡由輸入層、隱藏層及輸出層組成,是一種誤差反向傳播的多層前饋神經網絡,以更新網絡權重的方式多次訓練,具有優(yōu)異的非線性映射逼近能力,在神經網絡模型中應用廣泛,網絡的參數(shù)設置會影響模型結果,例如傳遞或訓練函數(shù)、節(jié)點數(shù)、迭代次數(shù)等[27],故各模型的參數(shù)均一致,本研究中使用tansig 作為傳遞函數(shù),trainlm 作為訓練函數(shù),單個隱含層,神經元個數(shù)為5,學習速率0.1,迭代次數(shù)1500 次,誤差閾值1×10-5。
對不同算法組合建立的預測模型之間比較分析需要量化的評價指標,采用校正集相關系數(shù)(Rc)、預測集相關系數(shù)(Rp)、校正集均方根誤差(root mean square error calibration,RMSEC)、預測集均方根誤差(root mean square error of prediction,RMSEP)和剩余預測偏差(residual predictive deviation,RPD)對建立的各個雨生紅球藻蝦青素含量預測模型進行評價。RMSEC、RMSEP 越小,Rc、Rp 越接近1,模型的預測性能越好,當RPD>3.0 時,模型具有良好的穩(wěn)定性及預測精度[28]。
完成所有雨生紅球藻樣本的蝦青素含量測定后,根據(jù)樣本集劃分原則,預測集樣本中待測組分的含量應當包含建模集待測組分的范圍內,將126 個樣本按2:1 比例隨機劃分校正集和預測集,得到校正集84 個、預測集42 個,總樣本、校正集和預測集的蝦青素含量統(tǒng)計信息如表1 所示,從數(shù)據(jù)的統(tǒng)計結果來看,校正集可以很好地代表總體樣本情況,預測集樣本的蝦青素含量包含在校正集樣本范圍內,說明預測集樣本可以驗證校正集樣本所建立的模型的有效性。
表1 樣本集劃分及蝦青素含量數(shù)據(jù)統(tǒng)計Table 1 Sample set division and astaxanthin content data statistics
根據(jù)劉燕德等[29]將可見與近紅外光譜聯(lián)用檢測柑桔黃龍病的研究,光譜拼接后相比單一可見或近紅外可提高檢測精度,并且經預處理后的拼接光譜模型精度提高更加明顯。圖2 展示了如何將光譜圖像轉換為光譜數(shù)據(jù)曲線,在獲取校正后的可見/近紅外漫反射光譜圖像后,如圖2a、圖2c 所示;感興趣區(qū)域取樣本光譜圖像正中央50×50 pixels,以該區(qū)域內的像素平均值作為樣本光譜反射率,對不同波段下的感興趣區(qū)域提取計算,如圖2b、圖2d 所示;并將可見和近紅外多光譜兩臺相機波段直接拼接,得到126 個雨生紅球藻樣品拼接后的原始光譜曲線,如圖2e 所示,首先,整體曲線的反射率隨著蝦青素含量的提高而降低,變化趨勢類似,其次,在可見光范圍內520 nm附近的波谷,很有可能是細胞內類胡羅卜素或蝦青素的吸收產生的,540~640 nm 是葉綠素的強吸收帶,可見光波段主要是色素的吸收區(qū),近紅外波段主要反映含氫基團振動的倍頻、合頻吸收信息[15,30],因此可見-近紅外光譜聯(lián)用理論上可以獲得更加全面的光譜信息,在測定雨生紅球藻蝦青素含量方面比僅用吸收峰所在的可見光光譜更準確。
圖2 可見/近紅外多光譜圖像數(shù)據(jù)提取Fig.2 Data extraction from visible/near infrared multispectral images
光譜預處理能夠增強待測組分的光譜信息,減弱噪聲帶來的干擾,但采用不同的預處理方法所建立的預測模型精度會有所差異,需要通過評價指標進一步確定[31]。建立基于在不同預處理下的可見-近紅外和可見光全光譜PLSR 預測模型結果如表2 所示,從表中可分析出,相比于原始光譜所建立的模型,在可見-近紅外全光譜范圍內,S-G 是表現(xiàn)最佳的預處理方法,其RMSEP 為0.5710,Rp 為0.9529,RPD為3.2969,在可見光譜范圍內,只有FD 預處理提高了模型的預測精度,可能是在處理過程中有效信息被當作噪聲過濾去除導致,基于FD 預處理建立的模型RMSEP 為0.7969,Rp 為0.9307,RPD 為2.7339。因此,對于PLSR 所建立的模型,選擇S-G 作為可見-近紅外光譜范圍的預處理方法,因子數(shù)為5,選擇FD 作為可見光譜的預處理方法,因子數(shù)為4。
表2 不同預處理下蝦青素含量PLSR 預測結果Table 2 PLSR prediction results of astaxanthin content in different pretreatments
與PLSR 預測模型類似,建立不同預處理下的全光譜BP 神經網絡模型如表3 所示,可知在可見-近紅外和可見全光譜范圍內,經FD 處理后的BP 神經網絡模型預測效果最好,其評價指標值分別為:可見-近紅外光譜中RMSEP 為0.5456,Rp 為0.9571,RPD 為3.4504;可見光譜中RMSEP 為06065,Rp為0.9467,RPD 為3.1042。BP 神經網絡所建立的模型在不同光譜范圍預處理上均體現(xiàn)出FD 為最佳預處理方式,所以選擇FD 為后續(xù)模型的預處理方法。通過與表2 的PLSR 模型精度比較,可知BP 神經網絡所建立的全光譜模型預測性能普遍優(yōu)于PLSR 模型。
表3 不同預處理下蝦青素含量BP 神經網絡預測結果Table 3 BP neural network prediction results of astaxanthin content in different pretreatments
2.4.1 特征波長的選擇 在全光譜分析的基礎上進一步分析特征波長建模,首先基于最佳預處理后的光譜數(shù)據(jù)進行特征波長的選擇。以CARS 算法對可見-近紅外光譜經FD 預處理后的數(shù)據(jù)處理為例,其結果如圖3 所示,蒙特卡羅采樣次數(shù)設定為50,并采用五折交互驗證均方根誤差(root mean square error of cross validation,RMSECV)來評價。由圖3a 可知,隨著采樣次數(shù)的增加,在指數(shù)衰減函數(shù)的作用下,有效波長變量數(shù)逐漸減少[32];從圖3b 中可看出,采樣次數(shù)為13 時,RMSECV 達到最小值0.5444,并由圖3a 得到,此時選擇的波長變量數(shù)為7,在13 次采樣后,RMSECV 又逐漸升高,說明在這之后可能剔除了與實驗中雨生紅球藻蝦青素含量相關的波長;選擇波長時各變量所屬的回歸系數(shù)路徑如圖3c 所示。
圖3 采用CARS 算法選取特征波長Fig.3 Characteristic wavelength selected by CARS algorithm
以FD 預處理后的可見光譜數(shù)據(jù)為例介紹SPA選擇特征波長的過程,該算法以設定的變量數(shù)范圍,求取任一波段的投影向量最大值列入候選波段子集[33],本研究中算法特征波長數(shù)量選取的最小值設為3,最大值設為8。由圖4a 可知,根據(jù)不同子集的均方根誤差隨波長個數(shù)變化關系,當模型變量個數(shù)為4 時,RMSE 值最小,該子集為最佳波長組合,所選擇的4 個與雨生紅球藻蝦青素含量相關的特征波長在原始光譜上的位置如圖4b 所示。
圖4 采用SPA 算法選取特征波長Fig.4 Characteristic wavelength selected by SPA algorithm
與上述波長選擇過程類似,不同光譜、不同預處理的特征波長選擇結果如表4 所示,所選擇的波長主要集中在488、635、686 nm 附近,這與蔣林軍[30]研究中使用高光譜成像篩選出的492、633、679 nm波段相近,說明這些波段是檢測蝦青素的重要波段,經CARS 和SPA 算法降維處理后,所使用的波長數(shù)量明顯減少,能夠避免波段冗余,提高模型的處理速度。
表4 基于CARS 和SPA 選擇后的特征波長Table 4 Characteristic wavelength selected based on CARS and SPA
2.4.2 模型的建立 經預處理后,利用CARS 和SPA算法篩選特征波長,基于此特征波長建立雨生紅球藻蝦青素含量的PLSR 和BP 神經網絡預測模型如表5 所示。首先,波長優(yōu)選后以較低復雜度的模型仍能達到較好的預測效果,略優(yōu)于全光譜模型,其次,在所建立的預測模型中,可見-近紅外聯(lián)合光譜經FD-CARS-BP 處理后所建立的模型精度最高,共計7 個特征波長,RMSEP 為0.5126,Rp為0.9622,RPD為3.6726,優(yōu)于PLSR 所建立的最佳模型S-G-CARSPLSR,因子數(shù)為4,RMSEP 為0.5817,Rp為0.9511,RPD為3.2364,模型預測結果散點圖如圖5 所示。FDCARS-BP 所建立的模型精度比可見光譜中的最佳模型高,說明在近紅外區(qū)域含有與雨生紅球藻蝦青素光譜信息相關的波段,僅依靠可見區(qū)域不能達到最佳預測性能。綜上,應用光譜成像技術與化學計量學方法能夠較好的測定雨生紅球藻蝦青素含量,在光譜范圍上,可見-近紅外聯(lián)合能獲得更為全面的光譜信息,一定程度上提高預測精度。
表5 基于特征波長的蝦青素含量模型結果Table 5 Results of astaxanthin content models based on characteristic wavelength
圖5 模型預測結果Fig.5 Model prediction results
本研究利用可見/近紅外快照式多光譜成像技術,構建了不同光譜范圍、多種算法組合下的雨生紅球藻蝦青素含量預測模型,評估了快照式光譜成像技術在測定雨生紅球藻蝦青素含量方面的可行性。
經對比發(fā)現(xiàn),全光譜建?;蚧谔卣鞑ㄩL建模,可見-近紅外光譜相比單一可見光光譜模型的預測能力均表現(xiàn)更好,說明在近紅外范圍內含有可解釋雨生紅球藻蝦青素的波段,結合可見和近紅外光譜能獲得更為全面的光譜信息,所建立的預測模型也更為可靠?;谔卣鞑ㄩL所建立的模型精度優(yōu)于全光譜模型,其中經FD 光譜預處理后所建立的CARS-BP 神經網絡模型效果最佳,其RMSEP 為0.5126,Rp為0.9622,RPD 為3.6726,全光譜中最佳模型為經FD光譜預處理后所建立的BP 神經網絡模型,其RMSEP為0.5456,Rp為0.9571,RPD 為3.4504,可知波長篩選在保證精度的同時,去除了對模型貢獻率較小的波長,波長數(shù)量從38 個減少為7 個,提高了模型運算速度。綜上,可見/近紅外多光譜成像技術結合化學計量學方法構建的模型可實現(xiàn)對雨生紅球藻蝦青素含量的快速、無損測定,對工業(yè)生產中監(jiān)測雨生紅球藻蝦青素的積累具有重要意義。