蔡嘉華, 尹嵩杰, 陳 超*, 王淑美, 梁生旺*
(1.廣東藥學(xué)院中藥學(xué)院,廣東廣州 510006;2.國(guó)家中醫(yī)藥管理局中藥數(shù)字化質(zhì)量評(píng)價(jià)技術(shù)重點(diǎn)研究室,廣東廣州 510006;3.廣東高校中藥質(zhì)量工程技術(shù)研究中心,廣東廣州 510006)
苯丙酮尿癥(Phenyketonuria,PKU)是一種先天性代謝疾病,其臨床表現(xiàn)為智力低下、癲癇、精神異常等。PKU作為國(guó)內(nèi)外常見(jiàn)的新生兒疾病,其治療的關(guān)鍵是及早診斷與治療。目前,常用的篩查方法是采集新生兒足底干血片,應(yīng)用細(xì)菌抑制法(BIA)、熒光法(FA)、高效液相色譜法(HPLC)、串聯(lián)質(zhì)譜法(MS/MS)等檢測(cè)苯丙氨酸(Phe)的含量,但這些方法普遍存在消耗試劑、費(fèi)用高、步驟繁瑣、耗時(shí)長(zhǎng)等缺點(diǎn)。
本課題組曾利用傅里葉變換衰減全反射紅外光譜(FTIR/ATR),結(jié)合化學(xué)計(jì)量學(xué)方法建立了PKU篩查模型,取得了一定效果[1,2]。紅外光譜多以透射譜形式出現(xiàn),一般不直接用于微量或痕量分析;而ATR技術(shù)通過(guò)增加全反射的次數(shù),與紅外光譜相結(jié)合,增強(qiáng)了吸收譜帶的強(qiáng)度,大大提高了分析靈敏度,檢出濃度達(dá)到了mg/L甚至μg/L水平[3]。與傳統(tǒng)分析方法相比,F(xiàn)TIR/ATR技術(shù)具有操作簡(jiǎn)便、分析速度快、能耗低、無(wú)需處理樣品、不消耗試劑、不產(chǎn)生污染、可同時(shí)測(cè)定多種成分等優(yōu)勢(shì)[4],已報(bào)道用于腫瘤、地中海貧血、冠心病、脂肪肝、白血病等疾病的篩查[5,6]。在測(cè)量過(guò)程中,紅外光譜受到光源強(qiáng)度微小變化、雜散光、外界震動(dòng)、干涉儀動(dòng)鏡移動(dòng)、電子線路等因素干擾,不可避免產(chǎn)生噪聲,影響建模結(jié)果[7],因此需要在建模前對(duì)光譜進(jìn)行去噪處理。
本文在課題組前期工作基礎(chǔ)上[1,2],引入小波變換和小波包變換兩種去噪方法,進(jìn)一步考察和提高模型精度。小波變換具有獨(dú)特的時(shí)頻分離特性,能適應(yīng)不同波形譜圖的去噪要求,已被廣泛用于圖像處理、電信號(hào)分析、能源勘察、語(yǔ)音分析、醫(yī)藥分析等多個(gè)學(xué)科領(lǐng)域[8,9]。小波和小波包變換對(duì)FTIR/ATR光譜可以有效去噪,進(jìn)一步提高了PKU篩查模型的精度,使這種簡(jiǎn)便、快速、綠色的篩查方法的推廣應(yīng)用成為可能。
德國(guó)BRUKER公司的Tensor 37 型傅里葉變換紅外光譜儀,安裝有OPUS7.2紅外光譜軟件,DLATGS檢測(cè)器,水平三次全反射ATR附件;光譜范圍600~4 000 cm-1,掃描間隔為2 cm-1,掃描次數(shù)為16次。
樣本材料:69例干血片樣本由廣州金域醫(yī)學(xué)檢驗(yàn)中心提供,采用串聯(lián)質(zhì)譜法測(cè)定Phe的濃度,其中35例陰性樣本的平均濃度為47.2 μmol/L,標(biāo)準(zhǔn)差為9.1 μmol/L;34例陽(yáng)性樣本的平均濃度為292.8 μmol/L,標(biāo)準(zhǔn)差為258.9 μmol/L。
以空氣作為空白背景,采用FTIR/ATR法對(duì)干血片樣進(jìn)行光譜采集,對(duì)每個(gè)血斑各取5個(gè)不同位置掃描,取平均值作為該血片的紅外光譜數(shù)據(jù)。用紅外光譜儀自帶的OPUS7.2軟件對(duì)所得光譜進(jìn)行平滑和一階微分9點(diǎn)平滑預(yù)處理。
本文采用的小波去噪方法為非線性小波變換閾值法,其基本過(guò)程參見(jiàn)文獻(xiàn)報(bào)道[10]。小波包變換是小波變換的推廣,二者最根本的區(qū)別在于小波變換只對(duì)信號(hào)的低頻部分作分解,而小波包變換對(duì)高頻部分也提供更精細(xì)的分解,而且這種分解既無(wú)冗余,也無(wú)疏漏[10]。
本文以多模型共識(shí)偏最小二乘法(cPLS)[11,12]建立模型,它為傳統(tǒng)偏最小二乘法的一種改進(jìn)方法,在同一訓(xùn)練集中建立一系列不同子集,以多個(gè)訓(xùn)練子集結(jié)果取平均作為最終結(jié)果,從而降低了模型對(duì)某一樣本的依賴性,提高了其穩(wěn)定性和精度。
本文將小波或小波包變換去噪后的光譜數(shù)據(jù)歸一化后輸入。由于樣本的Phe濃度范圍太廣,故先對(duì)其進(jìn)行了對(duì)數(shù)轉(zhuǎn)換,再作為模型的預(yù)期輸出。根據(jù)訓(xùn)練集與測(cè)試集的相對(duì)誤差小于1%,訓(xùn)練集濃度范圍可覆蓋測(cè)試集濃度范圍這一要求,將69例樣本按3∶1隨機(jī)分配訓(xùn)練集與獨(dú)立測(cè)試集。經(jīng)考察后,選取cPLS最佳主成分?jǐn)?shù)為10,模型總數(shù)為120,重復(fù)運(yùn)行20次結(jié)果取均值,作為最終結(jié)果。
模型評(píng)價(jià)指標(biāo)有相關(guān)系數(shù)(R)、均方根誤差(RMSEP)、平均相對(duì)誤差(MRE)、準(zhǔn)確率(Acc)、靈敏度(Sens)和特異性(Spec),其計(jì)算見(jiàn)文獻(xiàn)方法[1,2]。R越趨近于1,RMSEP和MRE越趨近于0,Acc、Sens和Spec越趨近于100,模型的精度越高。
在進(jìn)行小波變換時(shí),小波的去噪效果跟小波基、階數(shù)、分解尺度、閾值選取和重調(diào)方式等參數(shù)有關(guān),但是目前其選取方法并未規(guī)范,如文獻(xiàn)報(bào)道[13 - 15]各自采用不同方法選取了這些參數(shù)。為獲得較優(yōu)的PKU篩查模型,本文以模型結(jié)果的R和預(yù)測(cè)RMSEP作為小波和小波包變換參數(shù)優(yōu)化的評(píng)價(jià)指標(biāo)。
3.1.1小波母函數(shù)db小波系是最常見(jiàn)且應(yīng)用較多的小波系,其較好的正則性能在信號(hào)或圖像的重構(gòu)中獲得較好的平滑效果。sym小波系是db小波系的改進(jìn),在保持了db小波的優(yōu)點(diǎn)外,還具有更好的對(duì)稱性。coif小波和sym小波一樣,有比db小波更好的對(duì)稱性,其更高的消失矩能使盡量多的小波系數(shù)置零,有利于數(shù)據(jù)的壓縮和去噪。bior和rbio都是雙正交小波,兩個(gè)對(duì)偶的小波分別用于信號(hào)的分解和重構(gòu),解決了線性相位和正交性要求的矛盾,使光譜在獲得較好的平滑的同時(shí),信號(hào)能量也能較好地集中,很好地克服了db小波的缺點(diǎn)。
本文先以Stein 無(wú)偏似然估計(jì)作為閾值選取的規(guī)則,根據(jù)不同層的噪聲估計(jì)來(lái)調(diào)整閾值,分解尺度為1,分別計(jì)算上述小波系,以樣品的1D9S光譜去噪后模型的R和RMSEP來(lái)選取最優(yōu)小波基和階數(shù),結(jié)果見(jiàn)圖1。從圖中可以看出sym1、sym12、bior2.4、 bior2.8、 bior6.8、rbio1.1、rbio3.5、rbio3.9和rbio4.4小波的相關(guān)性較好,R值均達(dá)到0.91或以上;而RMSEP較小的小波則為sym12、bior2.8、bior6.8,其值分別為89.17、89.30和89.95。綜合考慮,選擇R較大而RMSEP較小的小波基sym12、 bior2.8和bior6.8作為小波去噪的母函數(shù)。圖2為小波包去噪的結(jié)果,從中可以看出R值達(dá)0.90以上的有db3、db6、db10、sym1、sym4、sym6、sym11、bior1.5、bior3.5、rbio1.1、rbio2.2、rbio3.1、rbio3.5和rbio4.4;而RMSEP較小的小波分別是db4、db10、sym1、bior1.5、bior5.5和rbio4.4,其值均在96.08以下。綜合考慮,選擇db10、sym1和bior1.5作為小波包去噪的母函數(shù)。
圖1 小波變換中小波基的優(yōu)化結(jié)果Fig.1 The optimization of the base of wavelets
圖2 小波包變換中小波基的優(yōu)化結(jié)果Fig.2 The optimization of the base of wavelet packets
圖3 不同分解層數(shù)的光譜圖Fig.3 The spectra at different decomposition levels spectral region 600-4 000 cm-1,scanning interval 2 cm-1,scan times 16.
3.1.2分解層數(shù)本文用MATLAB自帶函數(shù)wmaxlev( )[16]計(jì)算出本實(shí)驗(yàn)光譜的最大分解層數(shù)為10,即可分解層數(shù)為1~10。以R和RMSEP為指標(biāo)選取最佳層數(shù),其結(jié)果相近且沒(méi)有一定規(guī)律,因此本文選擇以對(duì)比光譜分解后的信噪比(snr)來(lái)優(yōu)化層數(shù)[17]。信噪比值越大說(shuō)明去噪效果越好[6]。以樣品編號(hào)為“N14070493”的原始光譜為例,以sym1為母小波,Stein 無(wú)偏似然估計(jì)作為閾值選取的規(guī)則,根據(jù)不同層的噪聲估計(jì)來(lái)調(diào)整閾值,對(duì)比1到10層的去噪效果,其snr值依次從56.34降低到6.69??梢?jiàn),隨著分解層數(shù)的增大snr逐漸減少,光譜中有效信息隨著分解層數(shù)的增加而丟失,這與圖3中光譜分解后的失真程度越來(lái)越高相對(duì)應(yīng)。用其余60個(gè)小波分別對(duì)75個(gè)樣本進(jìn)行去噪,所得結(jié)論一致。因此,本文選取最優(yōu)的分解層數(shù)為1層。
3.1.3閾值選取和重調(diào)本文用MATLAB自帶函數(shù)wden( )對(duì)信號(hào)進(jìn)行自動(dòng)降噪,經(jīng)考察小波去噪以軟閾值方式、小波包去噪以硬閾值方式進(jìn)行。以1D9S光譜為例,選取sym1小波及分解層數(shù)1,對(duì)比snr選擇合適的閾值選取和重調(diào)方式。從表1可以看出,結(jié)果最優(yōu)的閾值選取方式為Stein無(wú)偏似然估計(jì)(rigrsure)和啟發(fā)式閾值(heursure),其次是極大極小值的方法(minimaxi),最差的是通用閾值的方法(sqtwolog);以第一層的系數(shù)進(jìn)行噪聲層的估計(jì)來(lái)調(diào)整閾值(記作“sln”),比不進(jìn)行調(diào)整(記作“one”)的結(jié)果要好。因此,本文選取文獻(xiàn)常用的“rigrsure”和“sln”方法,作為閾值選取和重調(diào)規(guī)則。
表1 各組閾值選取和重調(diào)方式下的信噪比
本文用上述優(yōu)化后的小波基和參數(shù)分別對(duì)原始光譜(OS)、9點(diǎn)平滑光譜(9S)和一階微分9點(diǎn)平滑光譜(1D9S)進(jìn)行小波和小波包去噪,然后構(gòu)建cPLS模型,結(jié)果列于表2和表3。從表2可見(jiàn),原始光譜因?yàn)榘^多噪聲,所建模型性能最差;經(jīng)過(guò)平滑(9S)、求導(dǎo)(1D9S)處理后,性能有所改善,而最優(yōu)模型是1D9S+sym12,說(shuō)明小波變換進(jìn)一步提高了模型精度。與小波去噪前相比,R從0.87提高到0.91,RMSEP從114.79降低到89.17,MRE從0.3降低到0.28,Acc、Sens和Spec均提高到100。小波包去噪得到的最優(yōu)模型為1D9S+sym1。與去噪前相比,R從0.87提高到0.91,RMSEP從114.78降低到94.13,MRE從0.3降低到0.29,Acc、Sens和Spec同樣均提高到100,而且結(jié)果的標(biāo)準(zhǔn)差均為0。上述結(jié)果表明,光譜經(jīng)小波或小波包變換去噪后,所建模型更加準(zhǔn)確、穩(wěn)定。
表2 OS、9S和1D9S光譜經(jīng)小波變換后模型輸出結(jié)果
表3 OS、9S和1D9S光譜經(jīng)小波包變換后模型輸出結(jié)果
本文在FTIR/ATR光譜預(yù)處理階段引進(jìn)小波和小波包變換,對(duì)OS、9S、1D9S光譜分別進(jìn)行去噪處理,比較去噪前后模型的各項(xiàng)評(píng)價(jià)指標(biāo),結(jié)果發(fā)現(xiàn)經(jīng)小波或小波包處理后的模型精度均有明顯提高,優(yōu)化后的模型對(duì)PKU陰、陽(yáng)性樣本的識(shí)別準(zhǔn)確率均達(dá)到了100%,為FTIR/ATR光譜提供了一種有效的去噪方法,有利于進(jìn)一步提高模型精度,有望成為PKU的快速、準(zhǔn)確和綠色篩查方法。