田超凡, 李劍君, 翁國軍, 朱 鍵, 趙軍武
西安交通大學(xué)生命科學(xué)與技術(shù)學(xué)院, 教育部生物醫(yī)學(xué)信息工程重點(diǎn)實(shí)驗(yàn)室, 陜西 西安 710049
拉曼光譜(Raman spectrometry)為散射光譜, 能夠反映分子內(nèi)部的振動與轉(zhuǎn)動能級, 拉曼光譜分析技術(shù)是根據(jù)光譜的頻率、 強(qiáng)度和偏振等信息去獲取樣品的特征, 因此, 不會破壞檢測物和制備檢測樣品, 以其快速、 簡單、 可重復(fù)、 無損傷和信息豐富等優(yōu)點(diǎn)廣泛應(yīng)用于各類物質(zhì)成分分析以及對各種不同材料特性的探索[1]。 例如用來診斷腫瘤組織、 分析食品中的營養(yǎng)成分常會考慮到拉曼光譜分析技術(shù)的無損特性[2]。 然而, 在拉曼光譜信號獲取過程中, 一些物理效應(yīng)及干擾物會影響生物樣品和成分的拉曼光譜[3]。 尤其一些生物組織樣品會在拉曼檢測中呈現(xiàn)高自發(fā)熒光背景的拉曼信號, 干擾拉曼光譜的準(zhǔn)確識別, 甚至極大可能埋沒樣品的光譜信息[4]。 因此, 拉曼光譜分析中的預(yù)處理步驟, 例如抑制背景噪聲、 校正基線, 能夠消除光譜中熒光和其他附加特征的影響[5], 對光譜的定性定量分析起重要作用。
現(xiàn)階段為抑制背景噪聲, 常用的實(shí)驗(yàn)手段和數(shù)字處理這兩種方法。 實(shí)驗(yàn)手段通常操作成本較高, 操作流程復(fù)雜, 因此推廣難度較大。 相比而言, 數(shù)字處理法所需成本低, 且操作簡便快捷, 因而具有出色的應(yīng)用潛力。 數(shù)字處理方法包括頻域?yàn)V波、 小波變換和曲線擬合等[6-8]。 頻域?yàn)V波參數(shù)設(shè)計(jì)復(fù)雜。 小波變換計(jì)算量和計(jì)算復(fù)雜度相對較高, 因而曲線擬合應(yīng)用較為廣泛和普遍, 本課題組曾提出了一種基于自動線性擬合的快速拉曼基線校正算法(FR-BCA)來解決類似缺陷, 其核心思想就是從原始光譜中尋找一系列標(biāo)記點(diǎn)將光譜分段并循環(huán)線性擬合直至得到最合適的基線。 這與Chen等[9]基于迭代平均形態(tài)打開和關(guān)閉操作的自適應(yīng)和全自動基線估計(jì)算法所提出的方法相似, 都能夠處理基線的不同形狀和幅度。 B-spline曲線具有低階和平滑的優(yōu)點(diǎn), Wang等[10]將其作為擬合算法, 有效避免欠擬合和過擬合且不需要用戶輸入, 簡化了操作。 Liu等[11]結(jié)合譜峰識別算法和自適應(yīng)重復(fù)加窗去除峰值操作, 完成拉曼光譜的基線擬合; 使用傳統(tǒng)多項(xiàng)式曲線擬合算法[12-13]的方式進(jìn)行基線校正也已經(jīng)廣泛進(jìn)行了討論和研究, 但是仍存在一些問題和挑戰(zhàn), 例如擬合階數(shù)難以確定, 不同拉曼光譜擬合基線的分段窗口大小難以選取, 針對選取背景點(diǎn)仍采用人工的方式, 依賴性太強(qiáng)。 因此在不增加實(shí)驗(yàn)設(shè)備成本的前提下, 針對傳統(tǒng)基線校正-分段多項(xiàng)式擬合(piecewise polynomial fitting, PPF)的方法進(jìn)行了改進(jìn), 提出局部最值分段多項(xiàng)式擬合(numlocal piecewise polynomial fitting, NPPF)算法。 針對拉曼光譜窄峰、 對稱的特點(diǎn)改進(jìn)了局部最值背景點(diǎn)選取的方式, 克服了選取背景點(diǎn)對人工的依賴性。 同時又改進(jìn)分段多項(xiàng)式曲線擬合方法, 解決了曲線擬合階數(shù)和分段窗口難以確定的難題, 而且具備保留弱拉曼峰段, 防止過擬合和欠擬合的優(yōu)點(diǎn)。 先模擬帶有不同類型和信號強(qiáng)度背景的拉曼光譜, 并使用NPPF和PPF對模擬的光譜分別進(jìn)行基線校正, 再對實(shí)際樣品中帶有基線漂移的拉曼光譜分別進(jìn)行兩種算法驗(yàn)證, 證實(shí)了NPPF較于PPF能更有效地消除拉曼光譜的基線漂移, 為進(jìn)一步拉曼光譜數(shù)據(jù)的分析和實(shí)現(xiàn)拉曼光譜成像提供準(zhǔn)確可靠的信息。
常見各類曲線擬合方式均建立在已選取的背景數(shù)據(jù)點(diǎn)的基礎(chǔ)上, 背景點(diǎn)的選取對于后續(xù)基線擬合具有關(guān)鍵意義, 傳統(tǒng)方法多采用人為預(yù)選取基線數(shù)據(jù)點(diǎn), 再在其前后三點(diǎn)中取最小值作為目標(biāo)點(diǎn)。 人工背景點(diǎn)的選取過于依賴經(jīng)驗(yàn)且操作繁瑣。 也有采用多次迭代的多項(xiàng)式方法[14]進(jìn)行初始基線估計(jì)作為基線背景代替人工選取方式, 然而此類方法計(jì)算量大且易造成基線點(diǎn)偏差, 出現(xiàn)過校正或擬合不充分現(xiàn)象。 另外有使用直接比較法選取波谷作為背景點(diǎn)的方式, 但是無法有效確定比較的窗口, 較大噪聲可能使選取的背景點(diǎn)不在底部背景輪廓上, 同樣會出現(xiàn)擬合不準(zhǔn)確的現(xiàn)象。 本工作在選取背景點(diǎn)方面進(jìn)行了改進(jìn)。 選擇了兩種拉曼光譜常見的基線漂移方向左上漂移、 右上漂移, 用以討論背景點(diǎn)選取時窗口寬度W的確定方式。 如圖1所示(a)、 (b)選取W長度作為整體移動的窗口大小, W應(yīng)選擇在最寬峰的底部, 近似為峰寬, 每個W內(nèi)找尋最小值兩個點(diǎn)作為背景點(diǎn), 這樣W的寬度保證能涵蓋所有不連續(xù)的拐點(diǎn), 同時保證所有選取的背景點(diǎn)都在底部背景輪廓上。 移動窗口選取不同的背景點(diǎn)放入序列f(x), 再進(jìn)行下一步的曲線擬合。
圖1 窗口寬度W的選取方式
PPF從光譜中選取擬合背景數(shù)據(jù)點(diǎn)序列f(x), 通過定義合適的擬合階數(shù)和尋找合適的分段窗口[15], 根據(jù)最小二乘原理計(jì)算出滿足通過f(x)的最佳逼近函數(shù)。 在此過程中, 不同基線對應(yīng)擬合的多項(xiàng)式階數(shù)不同, 窗口大小也不同。 如果選取階數(shù)過高, 擬合曲線的上下震蕩范圍比較大, 甚至?xí)霈F(xiàn)Runge現(xiàn)象, 且計(jì)算量大; 而階數(shù)過低, 擬合不夠充分, 誤差大, 會掩蓋較弱拉曼峰段。 PPF對復(fù)雜高噪聲的拉曼光譜也難以有效處理, 確認(rèn)處理的最優(yōu)窗口大小也是其面臨的重要困難之一。
本工作對PPF進(jìn)行了改進(jìn), 首先在選取窗口大小上設(shè)置為圖1中的W。 為了保證曲線擬合的契合度, 需要使得所選多項(xiàng)式函數(shù)曲線有較好的波動走向, 可選取多項(xiàng)式階數(shù)為奇數(shù), 同時為了算法在計(jì)算過程中的簡潔快速, NPPF的多項(xiàng)式曲線擬合最終使用3階多項(xiàng)式, 并且每次選取5個背景點(diǎn)。 每一個窗口內(nèi)都模擬出三個前(Ff)、 中(F)、 后(Fa)的3次多項(xiàng)式函數(shù)進(jìn)行迭代覆蓋; 例如分段擬合中: 目標(biāo)為擬合出x值在30~50范圍之間的y值, 第一步: 先擬合三種曲線x值范圍分別為[20, 40]、 [30, 50]、 [40, 60]的三條對應(yīng)3階多項(xiàng)式曲線函數(shù)Ff、F、Fa, 第二步: 計(jì)算三條曲線對應(yīng)函數(shù)的區(qū)間[30, 50]的函數(shù)y1,y2,y3, 第三步: 計(jì)算y1,y2,y3與上一個擬合點(diǎn)y0的差值絕對值, 選擇絕對值最小的設(shè)為擬合的基線值; 而基線最初點(diǎn)設(shè)為原始光譜的起點(diǎn)y值。 因此這樣迭代覆蓋的方式使得基線不會出現(xiàn)較大的震蕩與波動。 這種在三次模擬基礎(chǔ)上取最小絕對值的方法可以有效防止多項(xiàng)式擬合出現(xiàn)過擬合和欠擬合的值。 整體算法流程如圖2。
圖2 NPPF算法流程
為驗(yàn)證本算法的有效性和可行性, 驗(yàn)證的數(shù)據(jù)由matlab2021b進(jìn)行模擬。 根據(jù)拉曼譜峰的特點(diǎn), 在數(shù)據(jù)模擬中隨機(jī)引入了高斯峰型[圖3(a、 d、 g)]、 洛倫茲峰型及混合峰型[圖3(j)]作為拉曼光譜特征峰的模擬峰型; 同時為了模擬常見的兩種基線漂移類型(左上漂移、 右上漂移), 選擇對應(yīng)的模擬指數(shù)型(e)函數(shù)曲線和反曲線(f)型曲線作為理想光譜的基線背景。 分別模擬四組數(shù)據(jù)如圖3所示。
圖3 四組模擬的理想及引入曲線背景的拉曼光譜
圖3中, 每組拉曼光譜數(shù)據(jù)引入兩種不同類型基線背景: 指數(shù)型(e)基線和反曲線型(f)基線背景。 特別是, 第三組(g)加大了基線背景信號強(qiáng)度與拉曼特征峰強(qiáng)度的比值, 模擬出高熒光背景下弱拉曼峰的光譜情形(h、 i); 而在第四組(j)則模擬了帶有洛倫茲峰型、 高斯峰型、 多項(xiàng)式曲線峰型及混合峰型的拉曼光譜(k、 l)。
PPF實(shí)現(xiàn)所需的參數(shù)主要有兩個: 分段的窗口大小P, 擬合階數(shù)R; NPPF只需要確定一個參數(shù)窗口寬度W; 為了保證對比的有效性, 兩種算法均選取了最優(yōu)參數(shù)進(jìn)行驗(yàn)證, 其中通過式(1)循環(huán)取優(yōu)計(jì)算選取最優(yōu)階數(shù)和窗口作為PPF參數(shù), NPPF的窗口參數(shù)采用1.1中討論的方式選取, 具體參數(shù)見表1。
表1 PPF與NPPF算法處理所選取的參數(shù)數(shù)值
在選取好參數(shù)后, 對2.1中模擬的光譜數(shù)據(jù)進(jìn)行處理得到基線如圖4所示, 其中紅色代表NPPF模擬的基線, 藍(lán)色代表PPF模擬的基線。
圖4 PPF與NPPF基線擬合效果對比
從圖4中可以直觀地看出NPPF模擬的基線(紅色)普遍比PPF(藍(lán)色)擬合的基線更準(zhǔn)確地包絡(luò)拉曼光譜。 在PPF的處理下, 圖4(a)在600~1 000和1 350 cm-1附近其擬合的基線(藍(lán)色)存在一定程度的過擬合, 在起始處(400 cm-1)則存在欠擬合現(xiàn)象; 圖4(b)中在500~1 000 cm-1出現(xiàn)過度擬合, 而在1 550 cm-1附近出現(xiàn)了欠擬合。 圖4(c)、 (e)、 (g)中PPF模擬的基線則不能很準(zhǔn)確地包絡(luò)背景輪廓, 使得背景的去除不徹底, 基線校正不準(zhǔn)確。 與之對比, NPPF在以上情況下處理得到的基線則更準(zhǔn)確, NPPF處理的過擬合和欠擬合程度均遠(yuǎn)低于PPF。
圖5顯示了PPF和NPPF處理后扣除基線后的拉曼光譜, 并對比圖4觀察得出, NPPF基線校正后的拉曼光譜(紅虛線)與理想光譜(黑實(shí)線)重合度明顯高于PPF基線校正后的拉曼光譜(藍(lán)色虛線)與理想光譜的重合度。 在圖4(e)、 圖4(f)和圖5(e)、 圖5(f)對比顯示了對于高背景信號強(qiáng)度基線的處理結(jié)果。 圖4(e)中顯示PPF并未準(zhǔn)確的實(shí)現(xiàn)背景輪廓的包絡(luò), 而使得背景基線去除不徹底, 因此在圖5(e)中可以看出扣除基線后的校正拉曼光譜仍然存在一定程度的基線漂移; 同樣, 在圖4(f)中PPF對起始拉曼位移(400 cm-1)附近擬合不充分也使得在圖5(f)中對應(yīng)的基線校正結(jié)果相同位置出現(xiàn)誤差。 然而, 與之對比NPPF處理結(jié)果則沒有上述現(xiàn)象。 從整體來看, NPPF的算法效果優(yōu)于PPF。 在第四組數(shù)據(jù)的處理結(jié)果中, 圖4(g)顯示的NPPF的擬合基線包絡(luò)性更好, 圖5(g)、 (h)也顯示出NPPF處理后的校正拉曼光譜與理想光譜之間重合度較PPF更好, 也驗(yàn)證了NPPF針對復(fù)雜拉曼光譜仍有良好的處理效果。
圖5 PPF與NPPF基線校正結(jié)果對比
為了進(jìn)一步確認(rèn)與驗(yàn)證基線擬合的效果, 將擬合后的基線扣除得到的拉曼光譜與理想光譜做誤差計(jì)算, 采用均方根誤差(root mean square error, RMSE)的評價指標(biāo)計(jì)算處理過后的光譜的誤差大小。 設(shè)標(biāo)準(zhǔn)理想光譜為P(x), 基線校正后的光譜為P′(x), 則有如式(1)
(1)
式(1)中,S為光譜數(shù)據(jù)的長度或光譜采樣數(shù)據(jù)點(diǎn)數(shù); 本研究中S=3 112。x序列對應(yīng)光譜拉曼位移橫坐標(biāo)的個數(shù),P為縱坐標(biāo)強(qiáng)度。 RMSE的值越小, 代表與理想光譜越是接近即基線擬合的效果越好, 即證明NPPF算法的優(yōu)越性越高。 結(jié)果如圖6(a, b)。
圖6 帶有e型(a)和f型(b)背景基線的拉曼光譜通過PPF(藍(lán))和NPPF(紅)處理的RMSE結(jié)果
由圖6中可以得知, 無論是針對e型曲線背景還是f型曲線背景, NPPF算法處理的結(jié)果誤差均小于PPF算法處理的結(jié)果誤差, 證實(shí)NPPF相比PPF具有較大的優(yōu)越性。
為進(jìn)一步檢驗(yàn)本基線校正方法的實(shí)際應(yīng)用效果, 采用拉曼光譜儀(激光波長633 nm, 功率20 mW, 光譜范圍400~2 000 cm-1)對樣品烯啶蟲胺、 羅丹明6G進(jìn)行了拉曼光譜檢測。 分別使用NPPF和PPF算法對兩種實(shí)際拉曼光譜進(jìn)行基線的擬合, 結(jié)果如圖7(a, b)所示。
圖7 烯啶蟲胺(a)、 羅丹明6G(b)拉曼光譜及基線擬合結(jié)果
圖7中觀察PPF(藍(lán)色)和NPPF(紅色)基線擬合結(jié)果可知, NPPF算法能夠較好地實(shí)現(xiàn)背景輪廓的包絡(luò), PPF則在圖7(a)的300~600和1 200~1 500 cm-1附近擬合不夠充分, 在200和1 000 cm-1附近出現(xiàn)過擬合現(xiàn)象, 而與之對比的NPPF則未出現(xiàn)此種現(xiàn)象。 類似地, 觀察圖7(b)的PPF處理結(jié)果(藍(lán)色)可知1 100 cm-1附近及1 350 cm-1附近出現(xiàn)了過擬合, 而在650 cm-1附近和1 650 cm-1附近出現(xiàn)欠擬合的現(xiàn)象, 而對應(yīng)NPPF則沒有這種現(xiàn)象。 通過對實(shí)際樣品拉曼光譜的算法驗(yàn)證, 證明了NPPF算法的實(shí)際應(yīng)用效果優(yōu)于PPF。
提出了一種基于局部最值改進(jìn)的多項(xiàng)式校正拉曼光譜基線的方法, 利用分段局部最值算法識別背景點(diǎn)數(shù)據(jù), 通過優(yōu)化多項(xiàng)式分段擬合時的覆蓋方式, 從而最大程度上減少了擬合過程中的過擬合和欠擬合現(xiàn)象, 實(shí)現(xiàn)對拉曼光譜信號的基線校正。 與傳統(tǒng)多項(xiàng)式擬合基線相比, 本算法克服了分段時窗口難以確定, 階數(shù)選擇困難的缺點(diǎn), 擬合的整體和局部基線準(zhǔn)確性均較好, 通用性強(qiáng), 適用范圍廣。 對于背景信號強(qiáng)度較大而拉曼特征峰較弱的光譜信號以及帶有各種不同種類復(fù)雜峰型的拉曼光譜, 本算法均表現(xiàn)出較好的校正效果。 因此本算法有望作為一種有效、 簡潔的基線校正方法廣泛應(yīng)用到實(shí)際中。 另外在本算法中, 多項(xiàng)式階數(shù)和背景點(diǎn)數(shù)固定, 未來在不考慮算法復(fù)雜度和計(jì)算量的情況下, 可以改變階數(shù)和背景點(diǎn)數(shù)的選取數(shù)量, 以進(jìn)一步探究基線校正的結(jié)果是否得到更大的優(yōu)化; 同時考慮局部最值背景選取算法的原理, 未來也將測試NPPF在其他光譜基線校正的使用效果。