鄭成霞
(新疆昌吉職業(yè)技術(shù)學(xué)院 機(jī)電工程分院,新疆 昌吉 831100)
拉曼光譜被稱為物質(zhì)的指紋光譜。因?yàn)?,拉曼光譜是由物質(zhì)的分子振動(dòng)產(chǎn)生的非彈性散射光譜,物質(zhì)決定了光譜頻率的唯一性。物質(zhì)的濃度與光譜強(qiáng)度息息相關(guān)。已有研究利用拉曼光譜的這些特性,來對(duì)物質(zhì)做定性與定量分析。當(dāng)生物組織發(fā)生病變時(shí),一定會(huì)導(dǎo)致病變部分組織的生化成分或含量的變化,甚至是在發(fā)病前期,病變組織在物理形狀上并未發(fā)生改變,但是其內(nèi)部生化成分或其含量已發(fā)生輕微改變。此時(shí),傳統(tǒng)的醫(yī)學(xué)檢測(cè)技術(shù)很難檢測(cè)出疾病的發(fā)生,并且傳統(tǒng)的醫(yī)療檢測(cè)技術(shù)多依賴于操作醫(yī)師的經(jīng)驗(yàn)與知識(shí)技能水平,從而不容易檢測(cè)出早期疾病,耽誤早期治療導(dǎo)致嚴(yán)重后果。拉曼光譜是一種極其敏感的光譜,能夠在分子水平上探測(cè)到被測(cè)樣本的微弱變化,并且具有客觀性、無創(chuàng)傷性、快速性等優(yōu)點(diǎn)。因此,拉曼光譜已成為醫(yī)學(xué)疾病診斷研究的熱點(diǎn)與發(fā)展方向[1]。
拉曼光譜的背景噪聲主要來自于被測(cè)樣本的自發(fā)熒光。熒光會(huì)降低后續(xù)光譜分析結(jié)果的可靠性。因此,需要扣除拉曼光譜中的熒光背景。在自動(dòng)扣除拉曼光譜中熒光背景的算法中,自適應(yīng)迭代重加權(quán)懲 罰最小二乘法(airPLS),是一種精度較高的方法,也被用于基于拉曼光譜的宮頸癌診斷研究中去除拉曼光譜中的熒光背景[2]。在醫(yī)學(xué)診斷中,診斷的精確性十分重要,若扣除背景時(shí)部分有用信息也被扣除,則診斷正確性必然會(huì)降低。目前還沒有文獻(xiàn)報(bào)道關(guān)于airPLS扣除生物組織樣本拉曼光譜中熒光背景的有效性研究。因此,本文將對(duì)airPLS扣除宮頸癌組織拉曼光譜中的熒光背景的有效性展開研究。
airPLS通過自適應(yīng)的迭代過程不斷的自行調(diào)整加權(quán)值,最終擬合出與實(shí)際背景有較高契合背景的背景擬合算法。airPLS算法應(yīng)用于拉曼光譜背景扣除中,具有運(yùn)算速度快,精度高的特點(diǎn)[7-8]。用于醫(yī)學(xué)診斷研究的拉曼光譜通常都具有較高的數(shù)據(jù)維數(shù),因此,扣除背景所需的時(shí)間也較長。airPLS算法在扣除高維拉曼光譜中熒光背景時(shí),所需時(shí)間隨數(shù)據(jù)維度增長線性增加。因此,airPLS算法即使被用于去除高維光譜中的熒光背景時(shí),任然具備處理時(shí)間快的優(yōu)勢(shì)[3-6]。
論文共使用了10條宮頸癌癥組織拉曼光譜數(shù)據(jù)(腺癌與鱗癌光譜各5條)。
采用airPLS算法,扣除原始拉曼光譜中的熒光背景。
圖1 扣除背景前后光譜對(duì)比圖
圖1中虛線是原始拉曼光譜的曲線圖,10條原始光譜曲線的基線各不相同,差異較大,背景噪聲是產(chǎn)生基線差異的原因。為了提升后期數(shù)據(jù)分析的正確性,去除背景噪聲十分有必要。圖1中實(shí)線是扣除背景后的光譜曲線圖??梢钥闯觯鄢尘昂蟮睦庾V曲線的基線已基本一致了。從圖1中,可以直觀的觀察到airPLS算法的背景扣除效果是較好的,但是卻無法觀察出,airPLS算法在扣除拉曼光譜中的背景的同時(shí),是否保留了拉曼光譜中的有用信息。為了驗(yàn)證airPLS算法是否能夠有效的扣除宮頸癌組織拉曼光譜中的熒光背景,將采用主成份分析法(PCA)來進(jìn)一步驗(yàn)證airPLS算法是否扣除了宮頸癌組織拉曼光譜中的熒光背景,采用PCA及微分法來驗(yàn)證airPLS算法在扣除熒光背景的同時(shí)是否完整保留了拉曼光譜中的有用信息。
采用PCA驗(yàn)證airPLS算法是否能夠切實(shí)的去除宮頸癌組織拉曼光譜中的背景成分。對(duì)經(jīng)airPLS算法扣除背景前后的各10條光譜做相同的PCA處理,并以散點(diǎn)圖的形式繪制出20條光譜在1,2主成份空間的分布情況。繪圖時(shí),采用顏色結(jié)合形狀來區(qū)分扣除背景前后的兩類光譜,未扣除背景的原始光譜用紫色三角形表示,扣除背景后的光譜用橙色菱形表示,如圖2所示。
圖2 扣除背景前后,光譜在第1,2 主成份空間的分布散點(diǎn)圖
觀察圖2,容易發(fā)現(xiàn)三角分布分散,位置差異大,這是由熒光背景對(duì)光譜的影響導(dǎo)致的。菱形分布集中,相互之間位置差異較小??煽闯觯瑹晒獗尘暗挠绊懟颈蝗コ?。由對(duì)圖2的觀察可知,airPLS算法較好的扣除了宮頸癌組織拉曼光譜中的背景成分。
拉曼光譜中的熒光背景包絡(luò),是變化緩慢的曲線,因此可以被微分法去除。采用相同的微分法處理10條原始光譜以及10條經(jīng)airPLS算法扣除背景的光譜。然后,采用PCA,對(duì)微分后的20條光譜做同樣的主成份分析?;诘梅衷礁叩闹鞒煞菟男畔⒘吭酱蟮脑恚∏?個(gè)主成份得分,來繪制20條光譜在主成份空間的二維分布散點(diǎn)圖,共繪制出12幅圖,如圖3所示。
圖3 微分處理后20 條光譜的主成份空間二維分布散點(diǎn)圖
繪圖時(shí),將光譜進(jìn)行編號(hào),微分處理后的10條原始光譜與微分處理后的經(jīng)airPLS算法扣除背景的10條光譜,一一對(duì)應(yīng)地均編為1-10號(hào)。圖3中,采用不同形狀的圖形來區(qū)分不同編號(hào)的光譜。編號(hào)與形狀之間的對(duì)應(yīng)關(guān)系為:1號(hào):,2號(hào):,3號(hào):,4號(hào):,5號(hào):,6號(hào):,7號(hào):,8號(hào):,9號(hào):,10號(hào):。由于,相同編號(hào)的光譜有兩條,則在圖3中,每種形狀的圖形都應(yīng)該出現(xiàn)2次。觀察圖3,發(fā)現(xiàn)在12個(gè)主成份空間分布散點(diǎn)圖中,10種不同形狀的圖形,幾乎都只能觀察到一個(gè),這說明,相同形狀的兩個(gè)圖形重疊在了一起。這一結(jié)果表明,airPLS算法能夠在去除宮頸癌拉曼光譜背景的同時(shí),保留其中的有用信息。
至此,airPLS算法扣除宮頸癌組織拉曼光譜熒光背景的效果,以及保留光譜中有用信息的效果都得到了驗(yàn)證,即airPLS算法能夠有效的扣除宮頸癌組織拉曼光譜中的熒光背景。
本文將airPLS算法用于扣除宮頸癌組織拉曼光譜中的熒光背景,并從算法扣除背景的效果,保留光譜中有用信息的效果兩方面,對(duì)airPLS算法扣除宮頸癌組織拉曼光譜中熒光背景的有效性進(jìn)行了研究。研究結(jié)果表明,airPLS算法能夠有效的扣除宮頸癌組織拉曼光譜中的熒光背景。