李艷芬,馬瑞峻,陳瑜,黃麗,顏振鋒,蔡祥
(華南農(nóng)業(yè)大學工程學院,廣州 510642)
目前,水稻中常用的農(nóng)藥有三唑磷、辛硫磷、阿維菌素、三氟苯嘧啶、四氯蟲酰胺、氯蟲苯甲酰胺、茚蟲威、呋蟲胺、烯啶蟲胺等,這些農(nóng)藥當中有機磷農(nóng)藥三唑磷[1]、辛硫磷[2]和生物農(nóng)藥阿維菌素[3]對水生生物的毒性比較高,其他農(nóng)藥對水生生物的毒性都比較低。阿維菌素在防治水稻螟蟲、稻縱卷葉螟(目前對水稻危害最大的害蟲之一)方面表現(xiàn)優(yōu)異,因此具有較高的研究價值。
阿維菌素(Avermectin)是由日本和美國首先開發(fā)的由土壤微生物阿維鏈霉(Strentomyces avermitilis)發(fā)酵產(chǎn)生的一類具有殺蟲、殺螨、殺線蟲活性的十六元大環(huán)內(nèi)酯化合物[4],其化學式為C48H72O14(B1a)·C47H70O14(B1b),分子結(jié)構(gòu)如圖1 所示。市售阿維菌素活性物質(zhì)是avermectinB1a+B1b,其中B1a≥90%、B1b≤5%,以B1a的含量來標定,阿維菌素是防治水稻害蟲理想的生物農(nóng)藥[5]。目前對于水體中阿維菌素農(nóng)藥的檢測最常用且最準確的方式是液相色譜法[6],包括高效液相色譜紫外檢測法(HPLC-UV)、高效液相色譜熒光檢測法(HPLC-FLD)等,該方法具有檢測限低、重復性高的優(yōu)勢,但其檢測樣品多集中在蔬菜、水果、脂肪、肉類等方面,且其檢測設備價格高且大型,需要專業(yè)維護,預處理繁瑣耗時,檢測時需嚴謹操作,依賴性強,只能用于實驗室檢測,無法實現(xiàn)現(xiàn)場快速檢測[7]。因此,尋找一種現(xiàn)場快速、準確、經(jīng)濟的方法用于檢測水體中阿維菌素具有重要的實際意義。
圖1 阿維菌素分子結(jié)構(gòu)Figure 1 Molecular structure of avermectin
光譜分析技術(shù)以其快速性、無損性、準確性等檢測特點已經(jīng)被廣泛應用于各個領域,是現(xiàn)代快速檢測的研究熱點[8]。但直接使用光譜技術(shù)檢測農(nóng)藥會存在光譜背景噪聲干擾明顯,檢測精度難以滿足定量要求等各種問題[9],因此需將光譜技術(shù)和化學計量學分析方法結(jié)合起來。目前,直接采用光譜技術(shù)結(jié)合化學計量學分析方法快速定量檢測水體中生物農(nóng)藥的研究未有報道。故本文選擇阿維菌素為研究對象,使用光譜儀獲取其不同濃度樣本的紫外/可見光吸收光譜數(shù)據(jù),對光譜數(shù)據(jù)進行預處理,樣本集劃分,剔除異常樣本,篩選特征波長變量,建立偏最小二乘PLS 定量分析模型,實現(xiàn)對阿維菌素農(nóng)藥快速有效的定量檢測研究。
阿維菌素實驗樣本的配制:用1/10 000 電子天平稱取90%阿維菌素0.066 7(±0.000 2)g,用少量甲醇超聲溶解,然后用甲醇準確定容至600 mL,搖勻,得到濃度為100 mg·L-1的阿維菌素標準液。本次實驗以純凈水為稀釋劑,配制濃度為0.05 mg·L-1、0.1~2.0 mg·L-1(濃度梯度為0.1 mg·L-1)和6.0 mg·L-1共22 個不同濃度阿維菌素實驗樣本,再配制濃度為0.05 mg·L-1和0.1~6.0 mg·L-1(濃度梯度為0.1 mg·L-1)共61個不同濃度阿維菌素實驗樣本,每個樣本溶液配制50 mL。
實驗所用的光譜采集器為水體中有機磷無機磷含量檢測儀,由美國Ocean Optics 海洋光學公司的Maya2000Pro光譜儀,型號為DT-MINI-2-GS的氘-鹵鎢燈組合光源以及可調(diào)光程比色皿支架構(gòu)成。在PC機上安裝與光譜儀配套的BiaoQi SpecSuite 軟件,并設置積分時間為9 ms,平滑度為2,樣本光譜平均次數(shù)為20,取其平均光譜數(shù)據(jù)為最終光譜數(shù)據(jù)。
由朗伯-比爾定律A=Klc(A為吸光度,K為吸收系數(shù),l為光程,c為吸光物質(zhì)的濃度)[10]可知當吸光物質(zhì)的濃度一定時,光程與吸光度呈線性關系,選擇的比色皿光程越大,吸光度值越大??晒┻x擇的光程比色皿有10、30、50、100 mm 4 種,為了提高低濃度阿維菌素農(nóng)藥樣本的吸光度值,獲得較強的光譜信號,又為防止高濃度阿維菌素農(nóng)藥樣本的吸光度值過高,出現(xiàn)光譜信號失真的情況,選擇一種最佳光程比色皿,得到最佳實驗數(shù)據(jù)用于后續(xù)定量處理分析尤為重要,故本實驗選擇了50 mm 和100 mm 光程比色皿獲取光譜數(shù)據(jù)進行對比。使用50 mm 光程比色皿采集了濃度范圍為0.05 mg·L-1、0.1~2.0 mg·L-1(濃度梯度為0.1 mg·L-1)和6.0 mg·L-1共22個樣本的光譜數(shù)據(jù)以及使用100 mm 光程比色皿采集了濃度范圍為0.05 mg·L-1和0.1~6.0 mg·L-1(濃度梯度為0.1 mg·L-1)共61 個樣本的光譜數(shù)據(jù)。
本文采用Savitzky-Golay 卷積平滑法對光譜數(shù)據(jù)進行預處理,采用SPXY 算法劃分樣本集,采用主成分分析結(jié)合馬氏距離算法(PCA-MD)剔除異常樣本,采用競爭性自適應重加權(quán)采樣算法(CARS)篩選特征波長變量。
1.4.1 光譜數(shù)據(jù)預處理
Savitzky-Golay 卷積平滑法(S-G 平滑法)又稱多項式平滑法,通過多項式對移動窗口內(nèi)的數(shù)據(jù)進行多項式最小二乘擬合,其實質(zhì)是一種加權(quán)平均法[10]。當平滑窗口寬度選取恰當時,檢測時儀器所引入的光譜數(shù)據(jù)噪聲可有效降低。
1.4.2 樣本集劃分
SPXY(Sample set partitioning based on joint x-y distance)算法是由Galvao 等[11]基于K-S(Kennardstone)算法提出的,能對低濃度樣本進行合理的劃分。
1.4.3 剔除異常樣本
主成分分析(Principle component analysis,PCA)是一種線性特征提取方法,可將光譜數(shù)據(jù)降維。采用主成分分析法對光譜數(shù)據(jù)進行處理,可得到光譜數(shù)據(jù)的主成分個數(shù)和得分數(shù)據(jù)。主成分個數(shù)選取是否恰當,會影響其預測模型精度的高低。馬氏距離(Mahalanobis Distance,MD)表示數(shù)據(jù)的協(xié)方差距離,它是一種有效計算兩個樣本的相似度的方法。通過設置合適的距離閾值,可以剔除小于該閾值的樣本數(shù)據(jù)[12]。PCA-MD 剔除異常樣本即采用主成分分析方法獲得光譜數(shù)據(jù)的主成分得分,計算各樣本光譜數(shù)據(jù)得分到樣本光譜數(shù)據(jù)平均得分的馬氏距離,通過設置合理閾值剔除異常樣本,進而得到有效樣本。
1.4.4 篩選特征波長變量
競爭性自適應重加權(quán)采樣法(Competitive adaptive reweighted sampling,CARS)是基于達爾文“適者生存”的思想,提出的基于迭代統(tǒng)計信息的變量選擇算法[13]。利用蒙特卡羅采樣、指數(shù)衰減函數(shù)和自適應重加權(quán)采樣得到最佳的建模波長變量組合。
PLS 是常用的一種基于線性回歸的新型多元統(tǒng)計數(shù)據(jù)分析方法[14]。PLS 模型的評價系數(shù)包括決定系數(shù)(R2)、均方根誤差(RMSE)剩余預測殘差(RPD)和潛變量(LVs)。R2越接近1,RMSE(校正集RMSEC、預測集RMSEP)越小,模型精度越高。RPD 是預測集的標準偏差與預測均方根誤差的比值,反映了模型的分辨能力和穩(wěn)健性。RPD≥3 表示模型預測效果很好,可應用于定量分析和實際檢測;2.5<RPD<3 表示此模型可以進行定量分析;RPD≤2.5表示此模型不適合進行定量分析[15]。LVs 的選擇是否合理會直接影響到模型預測性能的好壞。
本文數(shù)據(jù)處理均基于MATLAB R2020b、Origin-Pro8.5和The Unscrambler X10.4軟件平臺進行。
50 mm 和100 mm 光程比色皿采集得到的不同濃度阿維菌素溶液的原始吸收光譜如圖2、圖3所示,波長范圍200~900 nm。由圖2、圖3可見,兩種光程比色皿采集的光譜數(shù)據(jù)均有一個明顯的特征吸收峰,其波段均在243.5~247.3 nm 之間,近似在245.4 nm 處為其特征吸收峰。
圖2 50 mm光程比色皿-阿維菌素原始吸收光譜圖Figure 2 50 mm optical path cuvettes-original absorption spectra of avermectin
圖3 100 mm光程比色皿-阿維菌素原始吸收光譜圖Figure 3 100 mm optical path cuvettes-original absorption spectra of avermectin
又由圖2、圖3 可知,阿維菌素溶液濃度為6 mg·L-1時50 mm 和100 mm 光程比色皿光譜曲線達到最高吸光度值,分別為1.01 和2.09??梢?00 mm 光程比色皿光譜曲線最高吸光度值比50 mm 光程比色皿光譜曲線最高吸光度值高一倍左右,其吸收光譜信號較強且未出現(xiàn)光譜信號失真的情況,有利于低濃度檢測,故本文后續(xù)數(shù)據(jù)處理使用的光譜數(shù)據(jù)為通過100 mm 光程比色皿采集得到的61 個樣本光譜數(shù)據(jù)。此外,由于阿維菌素農(nóng)藥在波長為500 nm 之后吸光度無限接近零,基本沒有吸收,包含的光譜數(shù)據(jù)信息有限,研究價值較小,故本文后續(xù)數(shù)據(jù)處理波長范圍選擇200~500 nm,共計650個波長點。
采用平滑窗口寬度為3 的S-G 平滑法對200~500 nm 波長范圍的阿維菌素原始光譜數(shù)據(jù)進行平滑去噪預處理,預處理后的光譜圖如圖4所示。由圖3、圖4 可知,經(jīng)過S-G 平滑法預處理后的光譜曲線變平滑,說明S-G 平滑法提高了光譜的平滑性,降低了噪聲的干擾,優(yōu)化了光譜信號。
圖4 S-G平滑法-阿維菌素吸收光譜圖Figure 4 S-G smoothing method-absorption spectra of avermectin
2.3.1 SPXY算法劃分樣本集后建立PLS預測模型
將原始光譜數(shù)據(jù)和S-G 平滑法預處理后的光譜數(shù)據(jù)采用SPXY 算法校正集和預測集分別按2∶1比例和3∶1 比例(SPXY 算法樣本集劃分最常用的兩種比例)進行樣本集劃分,分別建立PLS定量分析模型,結(jié)果見表1。
表1 PLS模型預測結(jié)果Table 1 PLS model prediction results
由表1可知,無論是原始數(shù)據(jù)還是原始數(shù)據(jù)經(jīng)SG 平滑法預處理后采用SPXY 算法進行樣本集劃分后,所建立的PLS 模型均有較高的精度,滿足定量分析的要求,說明利用光譜技術(shù)結(jié)合化學計量學分析方法可以快速檢測水體中生物農(nóng)藥阿維菌素的濃度。
原始數(shù)據(jù)以及原始數(shù)據(jù)經(jīng)S-G平滑法預處理后,采用SPXY 算法校正集和預測集按3∶1比例劃分后建立的模型均比按2∶1 比例建立的模型精度更高,穩(wěn)健性更好,尤其是RPD 值,分別從20.031 2、19.983 3 提升為28.425 5、28.499 7。
數(shù)據(jù)S-G平滑預處理對所建立的模型精度影響較小,S-G-SPXY(2∶1)-PLS 模型比Original data-SPXY(2∶1)-PLS 模型效果略差的原因可能是由誤差導致的;而效果最好的是S-G-SPXY(3∶1)-PLS 模型,其R2p為0.998 7,RMSEP為0.070 4,RPD為28.499 7。
2.3.2 PCA-MD 剔除異常樣本和CARS 篩選特征波長后建立PLS預測模型
為了進一步優(yōu)化模型,采用PCA-MD算法、CARS算法和PCA-MD 算法結(jié)合CARS 算法分別對2.3.1 優(yōu)選出的原始數(shù)據(jù)經(jīng)S-G平滑法預處理后采用SPXY算法校正集和預測集按3∶1比例劃分后的光譜數(shù)據(jù)進行剔除異常樣本處理、篩選特征波長變量處理以及剔除異常樣本后再篩選特征波長變量處理,分別建立PLS模型,結(jié)果見表2。
表2 PLS模型預測結(jié)果Table 2 PLS model prediction results
由表1、表2可知,采用PCA-MD 算法剔除異常樣本后建立的S-G-SPXY(3∶1)-(PCA-MD)-PLS 模型比S-G-SPXY(3∶1)-PLS 模型的RMSEP 值小,從0.070 4 降至0.065 1,但R2p 和RPD 值也略有減小,故模型預測效果變化不大。
采用CARS 算法篩選特征波長變量后建立的SG-SPXY(3∶1)-CARS-PLS 模型與S-G-SPXY(3∶1)-PLS 模型相比波長變量數(shù)明顯減小,從650 個減少至20 個,減少了96.92%,簡化了模型,但其模型預測效果變化也不大。
采用PCA-MD算法剔除異常樣本后再采用CARS算法篩選特征波長變量后建立的S-G-SPXY(3∶1)-(PCA-MD)-CARS-PLS 模型篩選出的特征波長變量數(shù)為28個,與S-G-SPXY(3∶1)-PLS 模型相比減少了95.69%,其R2p 值為0.998 8,RMSEP 值為0.061 1,RPD 值為29.589 4,模型精度更高,穩(wěn)健性更好,簡化模型的同時也有效提高了模型的預測效果。
阿維菌素紫外/可見吸收光譜S-G-SPXY(3∶1)-(PCA-MD)-CARS-PLS模型具體公式表達如下:
式中:Y表示阿維菌素農(nóng)藥濃度;Xn表示阿維菌素農(nóng)藥在特征波長點n處的吸光度值。
阿維菌素不同濃度下S-G-SPXY(3∶1)-(PCAMD)-CARS-PLS模型預測結(jié)果如圖5所示。由圖5可知,阿維菌素濃度樣本校正集的真實濃度與預測濃度的線性擬合圖與預測集的真實濃度與預測濃度的線性擬合圖幾乎重合,模型預測效果較好,可見利用紫外/可見吸收光譜測量技術(shù)結(jié)合化學計量學分析方法快速檢測水體中生物農(nóng)藥阿維菌素濃度是可行的。
圖5 S-G-SPXY(3∶1)-(PCA-MD)-CARS-PLS模型預測結(jié)果Figure 5 S-G-SPXY(3∶1)-(PCA-MD)-CARS-PLS model prediction result graph
對于實際復雜自然環(huán)境水體,例如農(nóng)田水中生物農(nóng)藥阿維菌素含量的快速檢測還有待繼續(xù)深入研究。采用光譜儀獲得復雜自然環(huán)境水體中阿維菌素不同濃度下的復雜光譜數(shù)據(jù),建立濃度預測模型,實現(xiàn)對復雜自然環(huán)境水體中阿維菌素的快速定性定量分析??刹捎没瘜W計量學二階校正分析方法如平行因子法(PARAFAC)[16]、交替三線性分解法(ATLD)[17]、自加權(quán)交替三線性分解法(SWATLD)、交替懲罰三線性分解法(APTLD)和多維偏最小二乘法(N-PLS)等對獲得的復雜光譜數(shù)據(jù)進行分解分析,建立基于二階校正方法的多元回歸濃度預測模型。但是對二階校正方法(上述各種算法)的理解掌握和運行是一個難點,以及使用二階校正方法處理的數(shù)據(jù)必須是二階張量數(shù)據(jù),即所謂的三維數(shù)據(jù)矩陣(包含的樣本信息更全面,能夠提取的有用信息也相對變多)。而本文采用光譜儀獲得的數(shù)據(jù)是二維吸光度光譜數(shù)據(jù)矩陣,因此,如何把獲得的二維數(shù)據(jù)構(gòu)建成適用于二階校正方法的三維數(shù)據(jù)矩陣進行二階校正分析也是一個難點。后續(xù)深入研究需注意攻克以上難點,實現(xiàn)對實際自然環(huán)境受污染水域的大面積快速篩查監(jiān)測。
(1)采用100 mm 光程比色皿采集阿維菌素溶液樣本從低濃度0.05 mg·L-1到高濃度6.0 mg·L-1所得的光譜吸光度值更好,243.5~247.3 nm 為其特征吸收峰波段,245.4 nm處近似為其特征吸收峰。
(2)利用紫外/可見吸收光譜測量技術(shù)獲得的不同濃度下的阿維菌素的原始光譜數(shù)據(jù)建立的PLS預測模型具有較高的精度,完全滿足定量分析的要求,說明采用紫外/可見吸收光譜法結(jié)合化學計量學分析方法快速檢測純凈水中生物農(nóng)藥阿維菌素濃度是可行的。原始數(shù)據(jù)經(jīng)S-G 平滑、SPXY 算法以3∶1 比例劃分校正集和預測集、PCA-MD 算法剔除異常樣本,CARS 算法篩選特征波長后所建立的PLS 模型更優(yōu)。