昌吉職業(yè)技術(shù)學(xué)院 鄭成霞
拉曼光譜被稱為物質(zhì)的指紋光譜,可以精確的反映出被測樣本所含物質(zhì)及物質(zhì)的濃度信息,已經(jīng)被廣泛用于醫(yī)學(xué)、食品、檢測等領(lǐng)域的研究中。本文采用自適應(yīng)迭代重加權(quán)懲罰最小二乘法對原始拉曼光譜數(shù)據(jù)做預(yù)處理,采用主成份分析法提取光譜特征,采用線性判別分析(LDA),對宮頸腺癌組織與宮頸鱗癌組織拉曼光譜的自動(dòng)分類識別展開研究。研究結(jié)果表明,采用airPLS算法扣除背景噪聲,能夠提高分類正確率,主成份分析(PCA)結(jié)合線性判別分析法對兩類光譜數(shù)據(jù)的分類正確率達(dá)到了87.5%。
當(dāng)身體組織發(fā)生病變時(shí),會(huì)導(dǎo)致病變組織細(xì)胞生化成分的改變,同樣,若組織細(xì)胞的生化成份發(fā)生異常改變也會(huì)導(dǎo)致疾病的發(fā)生。這種生化改變通常會(huì)先于物理形態(tài)的改變。拉曼光譜可以實(shí)現(xiàn)分子水平的生化成份檢測,能夠敏感的檢測出組織細(xì)胞生化成份的變化,在疾病的早期檢測與診斷方面具有很大潛力。模式識別技術(shù),是一種客觀的,可以實(shí)現(xiàn)高效自動(dòng)分類識別的技術(shù),例如指紋識別、人臉識別、字跡識別等。傳統(tǒng)的醫(yī)療檢測技術(shù),存在著一些弊端。如大多數(shù)需要采集活體組織樣本進(jìn)行檢測,屬于有創(chuàng)檢測,會(huì)給病人來帶創(chuàng)傷與痛苦,并且檢測時(shí)間較長,費(fèi)用較貴。傳統(tǒng)的醫(yī)療檢測的正確性,在一定程度上依賴于操作醫(yī)師的知識技能水平與經(jīng)驗(yàn),檢測結(jié)果有一定的主觀性。因此,人們就有了開發(fā)出能夠克服傳統(tǒng)檢測技術(shù)不足的新型檢測技術(shù)的迫切需求,在這種需求的驅(qū)動(dòng)下,科研人員開始研究將模式識別技術(shù)與拉曼光譜技術(shù)結(jié)合起來,用于疾病的篩查、診斷中。
近年來,宮頸癌已成為威脅女性生命健康的第二大癌癥因素,統(tǒng)計(jì)數(shù)據(jù)表明,全球每年有52.9萬女性發(fā)病,每年大約有20萬患者死亡,死亡病歷中,發(fā)展中國家所占比例超過90%,中國宮頸癌每年的發(fā)病概率為12.96/10萬人,死亡比例為2.6/10萬人。宮頸癌現(xiàn)有的篩查技術(shù)有巴氏細(xì)胞學(xué)檢測、細(xì)胞基液檢測結(jié)合計(jì)算機(jī)輔助細(xì)胞檢測系統(tǒng)(cellular computer tomography,CCT),雖然這些篩查技術(shù)大大提升了宮頸癌的檢出率,但是,它們有共同的不足之處,就是,需要專業(yè)醫(yī)師對被測樣本的細(xì)胞學(xué)形態(tài)做出專業(yè)的判斷,這必然會(huì)在診斷結(jié)果中引入人為因數(shù),從而降低診斷結(jié)果的可靠性。由于拉曼光譜的無創(chuàng)、敏感、精確性與模式識別技術(shù)的強(qiáng)大分類識別能力與智能客觀性,本研究將拉曼光譜與模式識別技術(shù)結(jié)合起來,采用線性判別分析(Linear Discriminant Analysis,LDA)對宮頸腺癌與宮頸鱗癌組織拉曼光譜做分類研究。
線性判別分析(Linear Discriminant Analysis,LDA)是一種簡單的線性模式識別算法。LDA在進(jìn)行數(shù)據(jù)分類時(shí),先訓(xùn)練好分類模型,再使用訓(xùn)練好的模型對數(shù)據(jù)進(jìn)行分類。用于訓(xùn)練模型的數(shù)據(jù)被稱為訓(xùn)練集,被分類的數(shù)據(jù)稱為測試集。在訓(xùn)練模型時(shí),LDA算法將所有訓(xùn)練集數(shù)據(jù)都投影到同一條直線上,但盡可能的使同類型數(shù)據(jù)的投影點(diǎn)之間的距離小,而不同類型的數(shù)據(jù)投影點(diǎn)之間的距離大。對測試集進(jìn)行分類時(shí),將測試集投影到與訓(xùn)練集相同的直線上,測試集數(shù)據(jù)被判斷為投影點(diǎn)跟其投影點(diǎn)距離較近的訓(xùn)練集同一類型。LDA算法在訓(xùn)練分類模型時(shí),需要預(yù)先知道訓(xùn)練集數(shù)據(jù)的類型,因此它是有監(jiān)督機(jī)器學(xué)習(xí)方法的一種。
airPLS是一種能夠快速處理高維數(shù)據(jù)的背景扣除算法。本文中所使用的宮頸癌組織拉曼光譜為856維數(shù)據(jù),因此,airPLS算法被用于扣除本文中宮頸癌組織拉曼光譜的背景噪聲。主成分分析(Principal Component Analysis,PCA)是一種通過提取原始數(shù)據(jù)特征變量的方式,實(shí)現(xiàn)以較少的包含原始數(shù)據(jù)中絕大部分信息的特征變量來表示高維的原始數(shù)據(jù)的降維算法,不僅能夠達(dá)到降低原始數(shù)據(jù)維度的目的,所提取的特征變量還可以更好的表達(dá)各類數(shù)據(jù)間的差異,有益于后續(xù)的數(shù)據(jù)分類。因此,本文采用PCA對宮頸癌組織拉曼光譜做降維處理。
為了驗(yàn)證airPLS算法扣除子宮頸癌組織拉曼光譜中的背景噪聲后,是否有助于提升數(shù)據(jù)分類的正確性。本文對扣除背景前后的光譜數(shù)據(jù)都做主成份分析處理,然后采用貢獻(xiàn)率相加超過85%的前3個(gè)主成份用于用線性判別分析做分類識別。
圖1 扣除背景后兩類宮頸癌組織拉曼光譜1,2主成份空間分布散點(diǎn)圖
對于原始光譜數(shù)據(jù),采用主成份1(PC1)與主成份2(PC2)做線性判別分析,分類的正確率為73.3%。采用主成份1(PC1)與主成份3(PC3)做線性判別分析,分類的正確率為72.5%。采用主成份1(PC1),主成份2(PC2),主成份3(PC3)做線性判別分析,分類的正確率為80.8%。
圖2 扣除背景后兩類宮頸癌組織拉曼光譜1,3主成份空間分布散點(diǎn)圖
圖3 扣除背景后兩類宮頸癌組織1,2,3主成份空間分布散點(diǎn)圖
圖4 兩類宮頸癌組織拉曼光譜的判別式分圖
采用airPLS扣除光譜背景后,如圖1所示,在PC1與PC2主成份空間可以采用直線將宮頸腺癌與宮頸鱗癌組織的拉曼光譜分開,分類正確率為84.2%。如圖2所示,由PC1與PC3構(gòu)成的主成份空間中,可由直線將兩類宮頸癌組織的拉曼光譜分開,分類正確率也是84.2%。如圖3所示,是宮頸腺癌組織與宮頸鱗癌組織拉曼光譜在PC1與PC2,PC3所構(gòu)成的三維空間中的分類散點(diǎn)圖,可以觀察到兩類光譜分布重疊部分較少,具有可分性,采用前三個(gè)主成份做線性判別分析,分類正確率達(dá)到了87.5%。
圖4a是宮頸腺癌組織拉曼光譜在PC1,PC2,PC3三個(gè)主成份空間的判別式得分圖,圖4b是宮頸鱗癌組織拉曼光譜在PC1,PC2,PC3三個(gè)主成份空間的判別式得分圖。從圖4中可以直觀的觀察到,宮頸腺癌組織的判別式得分幾乎都位于-2.5-0之間,宮頸鱗癌組織的判別式得分大多分布在0-5之間。由此可知,可以以判別式得分為依據(jù),將0作為區(qū)分兩類宮頸癌組織的分界值。從圖4中可看出,宮頸腺癌組織與宮頸鱗癌組織的判別式得分的標(biāo)準(zhǔn)差分別為:0.24與1.394,這一結(jié)果與圖3中腺癌組織拉曼光譜分布集中,鱗癌組織拉曼光譜分布分散相一致。
為了驗(yàn)證LDA分類方法的可靠性,繪制出樣本工作特質(zhì)曲線(ROC曲線),如圖5所示。ROC曲線下面積所占比例越大,則表明方法的可靠性越高。宮頸腺癌與鱗癌組織拉曼光譜線性判別分析結(jié)果的ROC曲線下方所占面積比例為87.5%,說明所采用方法具有較高的可靠性。 結(jié)束語:本文采用airPLS算法作為背景扣除算法,采用主成分分析結(jié)合線性判別分析(PCA-LDA)對120條宮頸癌組織拉曼光譜,其中60條腺癌光譜,60條鱗癌光譜做了分類研究。采用PCA-LDA對兩類原始光譜進(jìn)行分類,分類正確率為80.8%,對扣除背景后的兩類光譜的分類正確率達(dá)到了87.5%。研究結(jié)果表明,采用airPLS算法扣除背景能夠提升PCA-LDA的分類正確率,同時(shí)也表明,PCA-LDA方法能夠較好的將宮頸腺癌組織拉曼光譜與宮頸鱗癌組織拉曼光譜區(qū)分開來,且分類結(jié)果具有較高可靠性。
圖5 兩類宮頸癌組織拉曼光譜LDA結(jié)果的ROC曲線