常海濤,祝連慶,王中宇,周哲海,郭陽(yáng)寬
(1.北京航空航天大學(xué) 儀器科學(xué)與光電工程學(xué)院,北京100191;2.北京信息科技大學(xué) 光電測(cè)試技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京100192)
全自動(dòng)酶免分析儀是臨床檢驗(yàn)必備的分析儀器,主要用于傳染病血清學(xué)標(biāo)志物、腫瘤標(biāo)志物及內(nèi)分泌等各種免疫指標(biāo)的檢測(cè)[1]。傳統(tǒng)的酶免分析儀受限于其單色器濾光片組數(shù)量,只能進(jìn)行定性分析。為實(shí)現(xiàn)定量分析,需采集樣本全光譜數(shù)據(jù),并借助于化學(xué)計(jì)量學(xué)方法,如,偏最小二乘(partial least square,PLS)[2]、主成分分析(principal component analysis,PCA)[3],建立光譜數(shù)據(jù)和待測(cè)樣本屬性之間的定量校正模型[4~6]。
近年來(lái),遺傳算法(genetic algorithm,GA)作為一種全局搜索方法,被廣泛應(yīng)用于組合優(yōu)化、自適應(yīng)控制[7]、圖像處理[8]和光譜分析[9]等領(lǐng)域。特別是針對(duì)光譜分析中的波長(zhǎng)選擇問(wèn)題,國(guó)內(nèi)外學(xué)者的研究表明采用遺傳算法進(jìn)行波長(zhǎng)選擇,即可以剔除不相關(guān)變量、簡(jiǎn)化模型,又可提高模型的預(yù)測(cè)能力和穩(wěn)健性[10]。但是遺傳算法在使用過(guò)程中仍存在一些問(wèn)題,如,“早熟現(xiàn)象”和種群進(jìn)化效率低等[11]。
本文將多組分定量分析轉(zhuǎn)化成組合最優(yōu)化問(wèn)題,提出了一種基于改進(jìn)遺傳算法的定量分析方法。通過(guò)自適應(yīng)尋優(yōu)空間和小生境技術(shù)加快種群的進(jìn)化速度,提高算法的整體性能。以全息凹面光柵作為分光元件,搭建掃描式紫外可見(jiàn)分光光度計(jì)實(shí)驗(yàn)系統(tǒng),并獲得食品工業(yè)中最常見(jiàn)的莧菜紅和胭脂紅二組分混合水溶液的吸收光譜數(shù)據(jù)。
可見(jiàn)光譜數(shù)據(jù)通常呈多變量、強(qiáng)相關(guān)性,并與樣本組分含量構(gòu)成線性關(guān)系,符合朗伯比爾定律,即
其中,K 為吸收系數(shù)矩陣,mL/(μg·cm);b 為光程,cm;C 為樣本濃度矩陣,μg/mL;A 為吸光度矩陣,n 為樣本數(shù),p 為測(cè)量波長(zhǎng)數(shù),m 為待測(cè)樣本的組分?jǐn)?shù)。由于建模用校正集樣本的吸光度和濃度矩陣已知,而且樣本數(shù)通常大于組分?jǐn)?shù),因此,可通過(guò)求超定方程最小范數(shù)最小二乘解的方法得到各組分的吸收系數(shù)。對(duì)濃度矩陣C 進(jìn)行奇異值分解
其中,U 為n×n 階列正交矩陣,S 為n×m 階對(duì)角陣;V為m×m 階列正交矩陣。吸收系數(shù)矩陣,即超定方程解為
對(duì)于每一個(gè)待測(cè)集樣本,利用遺傳算法在濃度解空間搜索全局最優(yōu)濃度解Cpred,帶入到式(1),使得Cpred·K·b 等于或接近待測(cè)樣本吸光度,Cpred即為待測(cè)樣本的預(yù)測(cè)值。
遺傳算法將達(dá)爾文“適者生存”理論引入到種群進(jìn)化過(guò)程中,伴隨著交叉、變異等遺傳操作,實(shí)現(xiàn)種群中個(gè)體的信息交換,并不斷產(chǎn)生出新一代更適合環(huán)境的種群,最后收斂于一個(gè)最適應(yīng)環(huán)境的個(gè)體。本文采用的遺傳算法操作參數(shù)設(shè)定為:二進(jìn)制編碼,種群規(guī)模40,選擇算子采用隨機(jī)遍歷抽樣,單點(diǎn)交叉(概率70%),變異概率1%,并采用精英主義策略保留最優(yōu)個(gè)體。需要特別指出的是,本文選取待測(cè)樣本預(yù)測(cè)吸光度曲線(即Cpred·K·b)和實(shí)測(cè)吸光度曲線的灰色綜合關(guān)聯(lián)度函數(shù)作為適應(yīng)度函數(shù)?;疑C合關(guān)聯(lián)度既考慮了吸光度曲線間的絕對(duì)位置變化,又兼顧了曲線自身的相對(duì)變化率,以綜合集成的形式表征曲線間的相似程度[12],公式如下
1)自適應(yīng)尋優(yōu)空間:首先隨機(jī)產(chǎn)生初始種群,計(jì)算個(gè)體適應(yīng)度;然后以每代種群中最大適應(yīng)度個(gè)體c0為中心生成下一代解空間[c0+d0,c0-d0],并在新的解空間中隨機(jī)產(chǎn)生新的種群;重復(fù)上述操作,經(jīng)過(guò)固定遺傳代數(shù),鎖定搜索空間,引入選擇、交叉、變異等遺傳操作實(shí)現(xiàn)種群進(jìn)化。
2)小生境技術(shù):本文采用個(gè)體之間的廣義海明距離作為共享函數(shù),對(duì)相似個(gè)體中適應(yīng)度較小的個(gè)體施加一個(gè)較強(qiáng)的懲罰函數(shù),降低其適應(yīng)度值,從而達(dá)到濾除相似個(gè)體,增加種群的多樣性,加快收斂速度的目的。
全息凹面光柵,具有像差校正、低雜散光和高信噪比等優(yōu)點(diǎn)。以全息凹面光柵為核心的分光光度系統(tǒng)的結(jié)構(gòu)如圖1所示。
圖1 分光光度系統(tǒng)框圖Fig 1 Block diagram of spectrophotometer
從圖1 可以看出:系統(tǒng)主要由光源、單色器、探測(cè)器、控制及處理電路和上位機(jī)組成。光源選用20 W 碘鎢燈,輻射波長(zhǎng)范圍為320~800 nm,由于光源發(fā)熱量大,采用外置結(jié)構(gòu),并配有散熱片。單色器采用全息凹面光柵作為色散元件,與傳統(tǒng)的C-T 結(jié)構(gòu)光路相比,無(wú)需準(zhǔn)直和聚焦成像系統(tǒng),簡(jiǎn)化系統(tǒng)結(jié)構(gòu)的同時(shí)減少光能量的損失。樣本杯為1 cm見(jiàn)方石英材質(zhì)的比色皿。探測(cè)器采用濱松R636—10 光電倍增管(光譜響應(yīng)范圍160~930 nm)??刂坪蛿?shù)據(jù)處理部分,以TMS320F2812 DSP 為核心處理器,實(shí)現(xiàn)光源供電、光柵轉(zhuǎn)臺(tái)控制、探測(cè)器信號(hào)采集及處理和上位機(jī)數(shù)據(jù)傳輸與通信。需要指出的是,全息凹面光柵固定于可微調(diào)的光柵轉(zhuǎn)接架上,確保光柵最凹處的切線與轉(zhuǎn)臺(tái)的中心軸線在一個(gè)平面上。步進(jìn)電機(jī)驅(qū)動(dòng)蝸輪蝸桿機(jī)構(gòu)來(lái)帶動(dòng)光柵轉(zhuǎn)臺(tái)的連續(xù)轉(zhuǎn)動(dòng),從而實(shí)現(xiàn)全譜段波長(zhǎng)掃描。單色器實(shí)物如圖2所示。
圖2 單色器實(shí)物圖Fig 2 Monochrometer
待測(cè)樣本選用食品工業(yè)中最常見(jiàn)的莧菜紅、胭脂紅兩種食用色素(國(guó)家標(biāo)準(zhǔn)物質(zhì)研究中心提供)。采用精度為10 μL 手工加樣器,吸取莧菜紅和胭脂紅純組分標(biāo)準(zhǔn)溶液,分別置于100 mL 容量瓶中,用蒸餾水定容配制成兩組分混合溶液,其中各組分濃度在0~200 μg/mL 范圍內(nèi)均勻分布,任意組合。選取蒸餾水為參比溶液,在波長(zhǎng)381~630 nm(間隔1 nm)內(nèi),記錄35 組混合色素樣本吸收光譜數(shù)據(jù),其中20 組作為校正集,15 組作為預(yù)測(cè)集。經(jīng)Savitzky-Golay窗口移動(dòng)多項(xiàng)式平滑后35 組混合色素樣本吸收光譜如圖3所示。從圖3 可以看出:光譜曲線平滑,濾噪效果明顯,并且莧菜紅和胭脂紅吸收峰接近,光譜重疊嚴(yán)重。
圖3 平滑后莧菜紅和胭脂紅吸收光譜Fig 3 Absorption spectra of Amaranth and Carmine with smoothing
將校正集樣本吸光度和濃度矩陣帶入到式(2)和式(3)中,通過(guò)解超定方程的方法計(jì)算莧菜紅和胭脂紅樣本在不同波長(zhǎng)點(diǎn)的吸收系數(shù)。為進(jìn)一步驗(yàn)證吸收系數(shù)的準(zhǔn)確性,將校正集樣本濃度和兩組分的吸收系數(shù)帶入到公式(1),反推出校正集樣本的吸光度Apred(預(yù)測(cè)吸光度),計(jì)算Apred和A(實(shí)測(cè)吸光度)中各樣本數(shù)據(jù)序列間的灰色綜合關(guān)聯(lián)度。圖4 給出了校正集20 個(gè)樣本預(yù)測(cè)吸光度Apred和實(shí)測(cè)吸光度A 的灰色綜合關(guān)聯(lián)度變化曲線,其中二者的灰色綜合關(guān)聯(lián)度值均大于0.998,表明本文采用的解超定方程法求解樣本吸收系數(shù)的準(zhǔn)確度很高。
圖4 Apred和A 的灰色綜合關(guān)聯(lián)度曲線Fig 4 Synthesized grey correlation(SGC)between Apredand A
以胭脂紅(100 μg/mL)和莧菜紅(80 μg/mL)混合樣本為例,圖5 給出尋優(yōu)空間隨遺傳代數(shù)變化示意,邊界變化值d0=5 μg/mL。由于胭脂紅和莧菜紅吸收峰接近,吸收光譜存在干擾,并且初始種群的解空間為[0,200],因此,生成的第一代尋優(yōu)空間,可能并不包含最優(yōu)解。自適應(yīng)尋優(yōu)空間技術(shù)能迅速定位全局最優(yōu)解范圍,本例中在第5 代尋優(yōu)空間開始完全包含全局最優(yōu)解,當(dāng)遺傳算法演化超過(guò)10 代時(shí),尋優(yōu)空間基本保持不變。最終胭脂紅的尋優(yōu)空間為[95.19,105.19],莧菜紅尋優(yōu)空間為[74.35,84.35],均包含全局最優(yōu)解,且搜索空間縮小了20 倍。
圖5 尋優(yōu)空間隨遺傳代數(shù)變化曲線Fig 5 Change curve of search space with evolutionary generations
分別采用遺傳算法和改進(jìn)遺傳算法對(duì)預(yù)測(cè)集樣本濃度進(jìn)行預(yù)測(cè),以預(yù)測(cè)殘差平方和(prediction residual error sum of square,PRESS)評(píng)價(jià)模型預(yù)測(cè)的準(zhǔn)確性。圖6(a),(b)分別給出了濃度為50&80,60&60,80&100,100&80μg/mL 的莧菜紅和胭脂紅混合樣本,兩種方法每代最優(yōu)個(gè)體的PRESS 值隨遺傳代數(shù)變化曲線。
從圖6(a)可以看出:遺傳算法預(yù)測(cè)結(jié)果存在不確定性,由于早熟現(xiàn)象影響,a,b,d 樣本經(jīng)過(guò)1000 代進(jìn)化仍收斂于局部最優(yōu)解;c 樣本經(jīng)過(guò)69 代遺傳進(jìn)化收斂于全局最優(yōu)解。改進(jìn)遺傳算法由于搜索空間進(jìn)行了動(dòng)態(tài)調(diào)整,每個(gè)樣本均能迅速收斂于全局最優(yōu)解。由圖6(b)可知,4 個(gè)樣本均在30 代以內(nèi)收斂于全局最優(yōu)解。
圖6 遺傳算法和改進(jìn)遺傳算法PRESS 值比較Fig 6 Comparison of PRESS by GA and IGA
采用校正集相關(guān)系數(shù)R 和預(yù)測(cè)均方根誤差(RMSEP)對(duì)定量分析模型進(jìn)行評(píng)價(jià),并與傳統(tǒng)的PLS 方法進(jìn)行比較。由表1 可以看出:兩種方法對(duì)莧菜紅和胭脂紅預(yù)測(cè)的相關(guān)系數(shù)和標(biāo)準(zhǔn)差基本相當(dāng)。說(shuō)明基于改進(jìn)遺傳算法的多組分定量分析模型具有較高的預(yù)測(cè)精度。
表1 改進(jìn)遺傳算法與PLS 預(yù)測(cè)性能比較Tab 1 Comparison of prediction performance index by IGA and PLS method
本文提出了一種基于改進(jìn)遺傳算法的多組分定量分析方法,將多組分定量分析轉(zhuǎn)化成組合最優(yōu)化問(wèn)題,利用遺傳算法在濃度解空間搜索全局最優(yōu)濃度解。采用自適應(yīng)尋優(yōu)空間技術(shù)和小生境技術(shù)對(duì)傳統(tǒng)遺傳算法進(jìn)行改進(jìn),一定程度上加快了遺傳算法收斂速度,克服“早熟現(xiàn)象”。搭建以凹面全息光柵為核心的酶免分析儀分光光度系統(tǒng),對(duì)食品工業(yè)中最常見(jiàn)的莧菜紅和胭脂紅混合溶液定量分析。其中莧菜紅和胭脂紅待測(cè)樣本參考值與模型預(yù)測(cè)值間的相關(guān)系數(shù)R 分別達(dá)到了0.997 9,0.991 8,RMSEP 分別為0.88,1.71 μg/mL。實(shí)驗(yàn)結(jié)果表明:本文所研究的方法具有較高的預(yù)測(cè)精度,滿足酶免分析儀定量分析的要求。
[1] Dilorenzo M E,Timoney C F,F(xiàn)elder R A.Technological advancements in liquid handling robotics[J].Journal of Laboratory Automation,2001,6(2):36-40.
[2] 喬曉艷,王艷景,李 剛.偏最小二乘法熒光光譜預(yù)測(cè)啶蟲脒農(nóng)藥殘留[J].光學(xué)精密工程,2010,18(11):2369-2374.
[3] Stanimirova I,Walczak B,Massart D L,et al.A comparison between two robust PCA algorithms[J].Chemometrics and Intelligent Laboratory Systems,2004,71:83-95.
[4] Lee S,Kim K,Lee H,et al.Improving the classi?cation accuracy for IR spectroscopic diagnosis of stomach and colon malignancy using non-linear spectral feature extraction methods[J].Analyst,2013,138:4076-4082.
[5] Shao X G,Wang W,Hou Z Y,et al.A new regression method based on independent component analysis[J].Talanta,2006,69(3):676-680.
[6] Clavaud M,Roggo Y,Daeniken R V,et al.Chemometrics and inline near infrared spectroscopic monitoring of a biopharmaceutical Chinese hamster ovary cell culture:Prediction of multiple cultivation variables[J].Talanta,2013,111:28-38.
[7] Shen Z H,Zhao Y K,Wu W W.Niche pseudo-parallel genetic algorithms for path optimization of autonomous mobile robot[J].Journal of Shanghai University:English Edition,2006,10(5):449-453.
[8] 陳 華,葉 東,陳 剛,等.遺傳算法的數(shù)字圖像相關(guān)搜索法[J].光學(xué)精密工程,2007,15(10):1633-1637.
[9] 曹 暉,周 延.多種群精英共享遺傳算法在異常光譜識(shí)別中的應(yīng)用[J].光譜學(xué)與光譜分析,2011,31(7):1847-1851.
[10]Fei Q,Li M,Wang B,et al.Analysis of cephalexin with NIR spectrometry coupled to artificial neural networks with modified genetic algorithm for wavelength selection[J].Chemometrics and Intelligent Laboratory Systems,2009,97:127-131.
[11]Thakur M.A new genetic algorithm for global optimization of multimodal continuous functions[J].Journal of Computational Science,2014,5:298-311.
[12]劉思峰,黨耀國(guó),方志耕,等.灰色系統(tǒng)理論及其應(yīng)用[M].北京:科學(xué)出版社,2010:6-9.