劉銳,梁秋曼,南良康,阮健,陳焱森,李麗麗,丁芳,陳紹祜,閆青霞,張淑君
(1.華中農(nóng)業(yè)大學(xué),農(nóng)業(yè)動(dòng)物遺傳育種與繁殖教育部實(shí)驗(yàn)室,武漢 430070;2.全國畜牧總站,北京 100125;3.中國奶業(yè)協(xié)會(huì),北京 100193)
近年來,越來越多的研究表明采用傅里葉變換中紅外光譜(FT-MIRS)技術(shù),通過建立相應(yīng)的預(yù)測模型,可以對(duì)牛奶及乳制品中的各種成分(如蛋白質(zhì)、脂肪、乳糖和無機(jī)鹽等營養(yǎng)物質(zhì),各種添加劑、抗生素等可能的有害物質(zhì))進(jìn)行簡便、快速、實(shí)時(shí)和準(zhǔn)確地定量分析,甚至能夠快速準(zhǔn)確地分析和鑒定奶牛的營養(yǎng)水平(如飼料轉(zhuǎn)化率、能量利用率和甲烷排放情況等)、健康狀況(如酮病和乳房炎等)和生殖生理與繁殖狀況(如發(fā)情、妊娠和泌乳情況等)[1]。
開發(fā)一個(gè)穩(wěn)定可靠的中紅外光譜校準(zhǔn)模型往往需要收集大量的校準(zhǔn)樣本,耗費(fèi)大量的時(shí)間、成本和精力。然而當(dāng)校準(zhǔn)樣本的測量和用于預(yù)測的新樣本的測量之間出現(xiàn)儀器響應(yīng)信號(hào)的變化時(shí),這樣一個(gè)復(fù)雜的校準(zhǔn)模型將不再適用。主要分為兩種情況,第一種是校準(zhǔn)過程中的儀器響應(yīng)不同于預(yù)測過程中的儀器響應(yīng),即一臺(tái)儀器(稱為主機(jī),master)上建立的模型不能直接應(yīng)用于另一臺(tái)儀器(稱為從機(jī),slave),這是由于不同儀器得到的光譜信號(hào)存在差異;當(dāng)單個(gè)儀器由于老化或關(guān)鍵部位零件修復(fù)更替出現(xiàn)儀器響應(yīng)變化時(shí),原有的模型同樣不再適用。第二種情況是校準(zhǔn)和預(yù)測過程的測量樣本之間的物理變化。例如,如果校準(zhǔn)過程中測量樣本的溫度與預(yù)測過程中測量樣本的溫度不相同,則利用在預(yù)測過程中收集的中紅外光譜獲得的預(yù)測將是錯(cuò)誤的。當(dāng)從校準(zhǔn)步驟到預(yù)測步驟的其他物理參數(shù)(例如粒度)變化時(shí)也會(huì)出現(xiàn)類似的問題[2]。
無論出現(xiàn)何種情況,都需要重新校準(zhǔn)模型。為了避免這種耗時(shí)的重新校準(zhǔn)過程,光譜標(biāo)準(zhǔn)化則是一種很好的解決方案。標(biāo)準(zhǔn)化程序有兩種,一種是基于少量標(biāo)準(zhǔn)化樣品,建立主機(jī)與從機(jī)所測光譜之間的函數(shù)關(guān)系,變換從機(jī)所測光譜來實(shí)現(xiàn)模型傳遞,主要包括直接標(biāo)準(zhǔn)化(direct standardlization,DS)、分段直接標(biāo)準(zhǔn)化(picecwise direct standardlization,PDS)、專利算法等;另一種則是不需要通過標(biāo)準(zhǔn)化樣品在不同儀器上對(duì)所測光譜進(jìn)行比較的方法,如光譜歸一化處理等。
紅外線是波長介于可見光和微波之間的一段電磁波,所以紅外光譜位于可見光區(qū)和微波光區(qū)之間,紅外光譜屬于吸收光譜,是由于化合物分子振動(dòng)時(shí)吸收特定波長的紅外光而產(chǎn)生的。中紅外(MIR)光區(qū)是一段波長在2.5~25.00μm之間的光波,能夠很好地反映分子內(nèi)部所進(jìn)行的各種物理過程和分子結(jié)構(gòu)方面的特征,是絕大多數(shù)有機(jī)物和無機(jī)離子的基頻吸收帶。中紅外光譜波段中的低頻區(qū)域?yàn)橹讣y區(qū),包含了大部分基團(tuán)的彎曲振動(dòng),能級(jí)差小,光譜波帶密集,且光譜波帶的性質(zhì)與化合物及其聚合態(tài)有著一一對(duì)應(yīng)的關(guān)系,可以通過該波段的光譜精確辨認(rèn)樣品中的特征官能團(tuán)(圖1),從而推斷出樣品所含化合物。指紋區(qū)以外的中紅外光譜為特征吸收帶,只有折合質(zhì)量和鍵力常數(shù)大的基團(tuán)的吸收峰才會(huì)出現(xiàn)在這個(gè)波段,吸收峰較少,容易辨認(rèn)[3]。根據(jù)不同物質(zhì)紅外特征吸收峰的位置、數(shù)目、強(qiáng)度和峰寬等參數(shù),就可以判斷樣品中存在的基團(tuán),從而確定其分子結(jié)構(gòu),用于化合物的定性分析,也可根據(jù)朗伯-比耳定律進(jìn)行定量分析:通過對(duì)樣本特征吸收譜帶強(qiáng)度的測定來測定組分的含量。其分析方法的主要步驟如下:
(1)選擇有代表性的樣本做校準(zhǔn)集,測定其MIR數(shù)據(jù);
(2)采用標(biāo)準(zhǔn)或者廣泛認(rèn)可的參考方法測定校正集樣本的化學(xué)分析值;
(3)利用校正集光譜及其化學(xué)分析數(shù)據(jù),采用合理的化學(xué)計(jì)量學(xué)方法建立校準(zhǔn)模型;
(4) 利用驗(yàn)證集樣本光譜和參考方法得到的數(shù)據(jù)來驗(yàn)證校準(zhǔn)模型的準(zhǔn)確度,選擇最優(yōu)校正模型;
(5)模型確立后,通過樣品的光譜數(shù)據(jù)來預(yù)測其組成和含量。
圖1 MIR光譜特征官能團(tuán)示意圖[4]
正是由于建立模型的方法非常復(fù)雜耗時(shí),尤其是MIR光譜和牛奶成分化學(xué)分析值(參考值)的獲得尤其困難,往往需要耗費(fèi)大量的時(shí)間和費(fèi)用,建立標(biāo)準(zhǔn)化體系以推廣主機(jī)模型的應(yīng)用才顯得尤為重要。
歐盟自2011年起就開始了中紅外光譜標(biāo)準(zhǔn)化體系的研究,多年來標(biāo)準(zhǔn)化網(wǎng)絡(luò)不斷發(fā)展,至2015年,已經(jīng)在歐洲、北美、亞洲和大洋洲的14個(gè)國家的100多臺(tái)不同品牌的儀器進(jìn)行了標(biāo)準(zhǔn)化。研究證明了采用分段直接標(biāo)準(zhǔn)化(PDS)算法,可以將高質(zhì)量的模型轉(zhuǎn)移到網(wǎng)絡(luò)中的其他儀器上,并且取得了良好的效果[5]。我國也于2011年成立了全國首家DHI標(biāo)準(zhǔn)化物質(zhì)制備實(shí)驗(yàn)室,用于制備牛奶的標(biāo)準(zhǔn)化樣品,使牛奶成分分析更方便。由于目前歐盟和我國標(biāo)準(zhǔn)化網(wǎng)絡(luò)的建立都是基于標(biāo)準(zhǔn)化樣品進(jìn)行標(biāo)準(zhǔn)化程序,所以這里主要介紹基于標(biāo)準(zhǔn)化樣品進(jìn)行標(biāo)準(zhǔn)化的方法。
基于標(biāo)準(zhǔn)化樣品進(jìn)行標(biāo)準(zhǔn)化的程序分為兩個(gè)步驟。第一步是在校準(zhǔn)和預(yù)測過程中精心挑選一部分樣品進(jìn)行測量,以評(píng)估校準(zhǔn)和預(yù)測過程的差異,也就是標(biāo)準(zhǔn)化樣品的選擇;第二步則是利用標(biāo)準(zhǔn)化樣品來計(jì)算標(biāo)準(zhǔn)化方法的參數(shù)。標(biāo)準(zhǔn)化樣品的選擇和標(biāo)準(zhǔn)化參數(shù)的計(jì)算必須仔細(xì)研究,以獲得最佳的標(biāo)準(zhǔn)化效果[2]。
標(biāo)準(zhǔn)化樣品將在校準(zhǔn)和預(yù)測過程中測量,以估計(jì)樣品的物理狀態(tài)或儀器響應(yīng)之間的差異。所以標(biāo)準(zhǔn)化樣品的選擇至關(guān)重要,直接影響標(biāo)準(zhǔn)化的效果。
2.1.1 標(biāo)準(zhǔn)化樣品的選擇標(biāo)準(zhǔn)
為了正確估計(jì)校準(zhǔn)和預(yù)測過程之間的差異,必須著重考慮兩點(diǎn),即作為標(biāo)準(zhǔn)化樣品的樣品穩(wěn)定性和代表性。
穩(wěn)定性即標(biāo)準(zhǔn)化樣品必須在物理和化學(xué)上穩(wěn)定,否則在校準(zhǔn)和預(yù)測過程之間會(huì)發(fā)生標(biāo)準(zhǔn)化樣品的物理狀態(tài)或化學(xué)成分變化,此時(shí),所收集的光譜之間的差異既可歸因于儀器差異,也可歸因于這些物理化學(xué)變化所導(dǎo)致的光譜差異。如果這種由于標(biāo)準(zhǔn)化樣品的不穩(wěn)定性而導(dǎo)致差異的光譜被用于計(jì)算標(biāo)準(zhǔn)化參數(shù),則這些標(biāo)準(zhǔn)化參數(shù)的使用將不能得到好的效果。代表性即標(biāo)準(zhǔn)化樣品必須使計(jì)算的標(biāo)準(zhǔn)化參數(shù)足夠糾正儀器響應(yīng)的差異,則這些差異是從標(biāo)準(zhǔn)化樣品上估計(jì)的,如果標(biāo)準(zhǔn)化樣品缺乏代表性,則新的預(yù)測樣品進(jìn)行標(biāo)準(zhǔn)化后將會(huì)得到不理想的結(jié)果。
2.1.2 不同來源的標(biāo)準(zhǔn)化樣品
2.1.2.1 從校準(zhǔn)集合中選擇標(biāo)準(zhǔn)化樣品
該方法從校準(zhǔn)過程中收集的大量校準(zhǔn)樣品中選擇一些標(biāo)準(zhǔn)化樣品,然后在預(yù)測過程中重新測量該標(biāo)準(zhǔn)化樣品。
建議使用基于逐步選擇的Kennard&Stone(K/S)算法,該方法旨在使新選擇的樣品與已經(jīng)包括在標(biāo)準(zhǔn)化子集中的樣品之間的距離最大化(一般使用歐氏距離)。K/S算法的步驟:
(1)首先計(jì)算所有樣品兩兩間的距離,選擇距離最大的兩個(gè)作為第一個(gè)和第二個(gè)標(biāo)準(zhǔn)化子集樣品;
(2)然后計(jì)算每個(gè)剩余樣品與已選樣品之間的距離,選擇其中的最短距離;待所有的剩余樣品計(jì)算過后,選擇這些最短距離中的最長距離所對(duì)應(yīng)的樣品作為下一個(gè)子集樣品;
(3)重復(fù)步驟(2),直至所選的標(biāo)準(zhǔn)化子集樣品的個(gè)數(shù)等于事先確定的數(shù)目為止[6]。
Bouveresse和Massart證明,能得到覆蓋整個(gè)實(shí)驗(yàn)空間的子集要比基于高利用率的方法好得多,其對(duì)所有的預(yù)測樣本都能產(chǎn)生好的結(jié)果。然而,當(dāng)針對(duì)物理和化學(xué)狀態(tài)不穩(wěn)定的樣品(如牛奶等新鮮食品)時(shí),該選擇方法不再適用[2]。
2.1.2.2 從預(yù)測集合中選擇標(biāo)準(zhǔn)化樣品
在預(yù)測過程中測量的新樣品中選擇一些作為標(biāo)準(zhǔn)化樣品,并在校準(zhǔn)過程的條件下(例如在主機(jī)上)重新對(duì)其進(jìn)行測量。
這種方法的主要優(yōu)點(diǎn)是其允許選擇具有良好代表性的子集樣品,即使校準(zhǔn)樣品由于其物理或化學(xué)不穩(wěn)定性而不能被存儲(chǔ)時(shí)也是如此。但如果需要標(biāo)準(zhǔn)化的儀器位置相距很遠(yuǎn),對(duì)于一些物理化學(xué)性質(zhì)非常不穩(wěn)定的樣本,該方法同樣不再適用。2.1.2.3 獨(dú)立的標(biāo)準(zhǔn)化樣品
替諾福韋 (tenofovir)是一種新型核苷酸類逆轉(zhuǎn)錄酶抑制劑,抗病毒療效確切,短期安全性好,妊娠期可以使用,是目前治療乙型肝炎和獲得性免疫缺陷綜合征 (AIDS)的主要藥物之一。替諾福韋長期使用會(huì)引起腎損傷,嚴(yán)重的會(huì)出現(xiàn)范可尼綜合征 (Fanconic syndrome,F(xiàn)S),影響患者用藥的依從性和安全性,從而影響正常的診療活動(dòng)[1]。本研究主要回顧性分析替諾福韋導(dǎo)致腎損傷的特點(diǎn)及其相關(guān)因素和預(yù)后等,為臨床使用提供更多的資料和依據(jù)。
該方法主要是通過測量兩種儀器上的一組獨(dú)立樣品,來估計(jì)儀器響應(yīng)之間的差異。這種方法的主要優(yōu)點(diǎn)是可以使用物理和化學(xué)上更穩(wěn)定的標(biāo)準(zhǔn)化樣品,如通用標(biāo)準(zhǔn)。然而,使用與校準(zhǔn)樣品差別太大的標(biāo)準(zhǔn)化樣品會(huì)因?yàn)槿狈Υ硇远a(chǎn)生不好的結(jié)果。
Shenk及其同事在儀器標(biāo)準(zhǔn)化方面對(duì)大量的農(nóng)產(chǎn)品進(jìn)行了近紅外分析[7]。他們建議通過測量密封的或防水杯中包裝的干農(nóng)產(chǎn)品的30種不同混合物來評(píng)估儀器響應(yīng)之間的差異。這些密封的杯子和隨附的標(biāo)準(zhǔn)化軟件可從Infra Soft International(ISI,Port Mathilda,PA)獲得。使用這30個(gè)樣品(稱為Shenk及其同事的特征樣品)使得用戶能夠使用具有良好代表性的各種農(nóng)產(chǎn)品作為穩(wěn)定的標(biāo)準(zhǔn)化樣品組合。這些標(biāo)準(zhǔn)化樣品被Dardenne及其同事用于NIR儀器網(wǎng)絡(luò)的標(biāo)準(zhǔn)化,得到了令人滿意的結(jié)果[8,9]。
2.1.3 標(biāo)準(zhǔn)化樣品的數(shù)量
對(duì)要使用的標(biāo)準(zhǔn)化樣品的數(shù)量必須慎重選擇。為了獲得關(guān)于校準(zhǔn)和預(yù)測過程之間儀器響應(yīng)差異的足夠的信息,必須使用足夠多的標(biāo)準(zhǔn)化樣本,否則標(biāo)準(zhǔn)化參數(shù)將不能得到良好的效果。但是,使用過多的標(biāo)準(zhǔn)化樣本意味著多余的工作。選擇適當(dāng)數(shù)量的標(biāo)準(zhǔn)化樣品可以在得到較好標(biāo)準(zhǔn)化效果的同時(shí)減少多余的工作。標(biāo)準(zhǔn)化樣本的使用數(shù)量受到兩個(gè)因素的影響,即儀器差異的復(fù)雜性和使用標(biāo)準(zhǔn)化方法的類型。
歐盟使用包括10個(gè)脂肪(1%~5%,質(zhì)量/體積)和蛋白質(zhì)(2.9%~5%,質(zhì)量/體積)變化很大的生乳樣品,每月發(fā)送至每個(gè)合作單位進(jìn)行標(biāo)準(zhǔn)化[4]。
國內(nèi)使用12個(gè)脂肪、蛋白質(zhì)和乳糖變化很大的生乳樣品作為標(biāo)準(zhǔn)化樣本,其中脂肪和蛋白質(zhì)每月標(biāo)準(zhǔn)化一次,乳糖每三個(gè)月標(biāo)準(zhǔn)化一次。
2.2.1 預(yù)測Y值的單變量校正
然后將在校準(zhǔn)過程中收集的光譜計(jì)算得到的預(yù)測y值與在預(yù)測過程中收集的光譜計(jì)算得到的預(yù)測y值進(jìn)行比較,并且通過最小二乘法將單變量偏差或斜率/偏差校正調(diào)整到那些點(diǎn)。對(duì)于在預(yù)測過程中收集的新圖譜,預(yù)測的y值是通過計(jì)算獲得的。
然后通過這種偏差或斜率/偏差校正來校正,產(chǎn)生標(biāo)準(zhǔn)化的預(yù)測y值Y(PX)std。
即兩個(gè)獨(dú)立的數(shù)據(jù)集在同一品牌的兩個(gè)不同的NIR儀器上測量。每個(gè)數(shù)據(jù)集被分成校準(zhǔn)和測試集,并在每個(gè)儀器上建立校準(zhǔn)模型。在第一臺(tái)儀器上測量的校準(zhǔn)集的光譜用在第二臺(tái)儀器上開發(fā)的校準(zhǔn)模型預(yù)測,計(jì)算斜率/偏差校正以校正那些預(yù)測值。然后用在第二臺(tái)儀器上開發(fā)的校準(zhǔn)模型預(yù)測在第一臺(tái)儀器上測量的測試集合的光譜,并且通過斜率/偏差校正來校正所獲得的值[8]。
這種方法的主要優(yōu)點(diǎn)是只需要一個(gè)單變量的修正,簡單快捷。但是,如果在校準(zhǔn)過程中開發(fā)了多個(gè)校準(zhǔn)模型,則必須對(duì)每個(gè)校準(zhǔn)模型獨(dú)立應(yīng)用此方法。此外,當(dāng)校準(zhǔn)和預(yù)測過程中的差異比較簡單時(shí),這種方法可以使用,但是當(dāng)校準(zhǔn)和預(yù)測之間的差異非常復(fù)雜時(shí),這種方法也就不再適用。
2.2.2 直接標(biāo)準(zhǔn)化(DS)
Wang等提出的直接標(biāo)準(zhǔn)化(DS)方法是通過一個(gè)傳遞矩陣來實(shí)現(xiàn)的[10]。
E包含未建模的殘差。
該傳遞矩陣是方矩陣,并且通過將在預(yù)測過程中獲得的標(biāo)準(zhǔn)化集合的廣義逆乘以在校準(zhǔn)步驟中獲得的標(biāo)準(zhǔn)化集合來確定。
對(duì)于在預(yù)測過程中收集的新光譜,通過將這些光譜乘以估計(jì)的轉(zhuǎn)移矩陣來簡單地實(shí)現(xiàn)光譜的轉(zhuǎn)移。
DS方法有兩個(gè)重要的優(yōu)點(diǎn),即它們擁有能夠處理復(fù)雜的儀器響應(yīng)差異的多變量特性和使不同分辨率的儀器標(biāo)準(zhǔn)化的能力。然而,DS的主要缺點(diǎn)是在預(yù)測過程中收集的全部光譜被用來重構(gòu)所傳輸光譜的所有光譜強(qiáng)度值,這可能導(dǎo)致過擬合。此外,應(yīng)該注意的是,用于DS的標(biāo)準(zhǔn)化樣品的數(shù)量必須至少與用于校準(zhǔn)模型的相關(guān)樣品的數(shù)量一樣大,但這在實(shí)際應(yīng)用中可能難以實(shí)現(xiàn)。
劉翠玲等使用DS算法對(duì)食用油理化指標(biāo)的近紅外光譜定量模型在三組儀器間進(jìn)行模型轉(zhuǎn)移,較大提高了從機(jī)的預(yù)測效果[11]。李鴻儒等對(duì)DS算法進(jìn)行了優(yōu)化改進(jìn),并將改進(jìn)的DS算法用于玉米2種成分和煙草4種成分的近紅外光譜預(yù)測模型轉(zhuǎn)移,取得了優(yōu)于標(biāo)準(zhǔn)DS算法的結(jié)果[12]。
2.2.3 分段直接標(biāo)準(zhǔn)化(PDS)
標(biāo)準(zhǔn)化樣品在主儀器和從儀器上測量,得到響應(yīng)矩陣M和S。PDS方法基于光譜數(shù)據(jù)的變化局限于小光譜區(qū)域的事實(shí)。在PDS中,在主儀器上以波數(shù)j測量的響應(yīng)mj與位于從儀器上測量的圍繞j(鄰近)的大小為n的小窗口(sj)中的波數(shù)有關(guān)。窗口(sj)由5個(gè)波數(shù)組成,所有儀器都是一樣的:
使用主成分回歸方法的回歸計(jì)算波數(shù)為j的主設(shè)備上的每個(gè)光譜響應(yīng)與從設(shè)備上的相應(yīng)窗口sj之間的回歸。矢量bj是第j個(gè)波數(shù)的變換系數(shù)矢量,而b0j是偏移項(xiàng):
F矩陣包含所有波數(shù)的bj系數(shù)變換向量。這種使用移動(dòng)光譜窗計(jì)算bj參數(shù)的方法導(dǎo)致了帶狀對(duì)角矩陣。b0矢量包含所有波數(shù)的偏移項(xiàng)。每次在從儀器上測量一個(gè)新的樣品時(shí),使用F和b0可以將獲得的光譜X標(biāo)準(zhǔn)化為Xstd(圖2):
圖2 PDS算法示意圖[4]
PDS算法很好地減少了過擬合的風(fēng)險(xiǎn),即使標(biāo)準(zhǔn)化樣品的數(shù)量很少,也能得到很好的效果。歐盟使用PDS算法建立了跨越四大洲十幾個(gè)國家的標(biāo)準(zhǔn)化網(wǎng)絡(luò),并取得了良好的效果[4]。黃承偉等成功地將結(jié)合了標(biāo)準(zhǔn)正態(tài)變換(standard normal variate,SNV)的PDS算法應(yīng)用于汽油拉曼光譜模型傳遞,得到了較好的結(jié)果,SNV-PDS方法具有減少標(biāo)準(zhǔn)樣品、高精度和傳遞穩(wěn)定性好等優(yōu)點(diǎn)[13]。
2.2.4 其他標(biāo)準(zhǔn)化算法
此外,還有很多標(biāo)準(zhǔn)化算法被開發(fā),如專利算法、SWS算法和基于主成分分析的SST算法等。還有基于拓展光譜(基于少量標(biāo)準(zhǔn)樣品將主機(jī)上的光譜轉(zhuǎn)移為從機(jī)上的光譜)建立的從機(jī)校準(zhǔn)模型的模型轉(zhuǎn)移方法[14],以及不使用標(biāo)準(zhǔn)樣品的標(biāo)準(zhǔn)化算法,如光譜歸一化等。
隨著我國MIR技術(shù)的發(fā)展,越來越多的模型被研究和應(yīng)用。標(biāo)準(zhǔn)化程序可以避免耗時(shí)的重新校準(zhǔn)過程,但也需要建立全新的適用的標(biāo)準(zhǔn)化網(wǎng)絡(luò),來整合全國數(shù)十家DHI中心得到的光譜數(shù)據(jù),以便于管理和資源收集。新的模型能快速適用于所有儀器。
所以,標(biāo)準(zhǔn)化網(wǎng)絡(luò)對(duì)于光譜整合和預(yù)測過程是至關(guān)重要的,可以讓所有的光譜儀講同一種語言,允許交換和傳輸可靠的校準(zhǔn)模型,預(yù)測整個(gè)網(wǎng)絡(luò)中的光譜數(shù)據(jù)和參數(shù)。為了獲得最好的標(biāo)準(zhǔn)化效果,我們要慎重考慮標(biāo)準(zhǔn)化樣品的選擇和標(biāo)準(zhǔn)化方法的確定以及標(biāo)準(zhǔn)化參數(shù)的計(jì)算。