沈婕,朱麗英,朱科靜,代龍光,許永劼,許雯,劉歆蕾,李興,潘衛(wèi),△
乳腺癌是女性最常見的惡性腫瘤之一[1],其發(fā)病率在女性惡性腫瘤中高居首位[2],且呈逐年上升趨勢。目前乳腺癌的診斷方法包括X線鉬靶、乳腺彩超、磁共振成像等,為提高診斷的準(zhǔn)確率可輔助血清學(xué)檢查。近年紅外光譜分析技術(shù)發(fā)展迅速,其具有分析速度快、操作簡便、結(jié)果穩(wěn)定、成本低、創(chuàng)傷小等優(yōu)點,是分析人體組織和體液成分等較為靈敏的技術(shù)之一,在生物學(xué)、化學(xué)和環(huán)境科學(xué)、疾病的發(fā)現(xiàn)和診斷等方面發(fā)揮著重要作用。傅里葉變換中紅外光譜技術(shù)作為分析分子振動規(guī)律的方法,可以在不破壞原有樣品的前提下對微量樣品進(jìn)行分析[3]。中紅外光譜分析所需時間短,波數(shù)范圍在4 000~400 cm?1,較近紅外光譜的敏感度和信息度高1 000級,是絕大多數(shù)有機物和無機離子的基頻吸收帶。目前采用傅里葉變換中紅外光譜技術(shù)診斷乳腺癌的研究多針對組織進(jìn)行鑒別分析,對患者創(chuàng)傷較大,且存在耗時較長、操作繁瑣等問題[4?6]。本研究對乳腺癌患者與健康人群的血清進(jìn)行鑒別分析,利用判別分析法建立模型,對原始光譜進(jìn)行預(yù)處理,選擇最優(yōu)預(yù)處理方式,旨在建立一種快速、簡單、靈敏、經(jīng)濟的乳腺癌血清學(xué)輔助診斷方法。
1.1 材料
1.1.1 實驗儀器采用美國Thermo Scientific Nicolet iS5傅里葉變換紅外光譜儀,儀器主要由光源、干涉儀、計算機、檢測器等組成,適用于產(chǎn)品可靠性測試、質(zhì)量控制、材料鑒定等分析工作,其工作原理見圖1。干涉儀將光源處的信號以干涉圖的形式輸送到計算機進(jìn)行傅里葉變換,得到光譜圖。
1.1.2 標(biāo)本采集收集2016年11月—2019年3月貴州醫(yī)科大學(xué)附屬醫(yī)院收治的85例確診為乳腺癌的女性患者的血清標(biāo)本,患者年齡26~83歲,平均年齡(50.41±11.05)歲;其中乳腺浸潤性導(dǎo)管癌80例,乳腺浸潤性導(dǎo)管癌伴導(dǎo)管內(nèi)癌1例,
Fig.1 Working principle of Thermo Scientific Nicolet iS5 Fourier transform mid?infrared spectrometer圖1 Thermo Scientific Nicolet iS5傅里葉變換中紅外光譜儀工作原理
乳腺浸潤性導(dǎo)管癌伴導(dǎo)管原位癌1例,乳腺浸潤性導(dǎo)管癌伴濕疹樣癌1例,乳腺浸潤性導(dǎo)管癌伴纖維腺瘤2例。Ⅰ期12例,Ⅱ期45例,Ⅲ期26例,Ⅳ期2例。合并高血壓22例,糖尿病6例。納入標(biāo)準(zhǔn):(1)臨床資料完整;(2)年齡≥18歲;(3)經(jīng)病理診斷為Ⅰ~Ⅳ期乳腺癌。排除標(biāo)準(zhǔn):(1)接受過乳腺手術(shù)或放化療治療者;(2)合并精神障礙性疾病及其他嚴(yán)重疾病者;(3)依從性較低者。另收集2020年6月貴州醫(yī)科大學(xué)附屬醫(yī)院健康女性血清標(biāo)本86例,年齡26~76歲,平均年齡(47.76±10.13)歲,2組年齡比較差異無統(tǒng)計學(xué)意義(t=1.639,P>0.05)。標(biāo)本采集獲患者知情同意并簽訂知情同意書。
1.2 方法
1.2.1 中紅外光譜圖的采集測試前清洗儀器樣品池并用空氣調(diào)零,之后用加樣槍取5μL樣品注入樣品池中,利用傅里葉變換中紅外光譜儀進(jìn)行掃描,掃描波數(shù)范圍4 000~400 cm?1,分辨率4 cm?1,掃描16次,數(shù)據(jù)間隔為0.482 c,數(shù)據(jù)格式為吸光度,溫度25℃,相對濕度50%~60%,檢測器為DTGS/KBr,分束器為KBr。采用Omnic 8.0軟件采集血清樣品的光譜數(shù)據(jù),TQ Analyst 9.0繪制中紅外光譜圖。
1.2.2 主成分分析將光譜的一個或多個分析區(qū)域中的所有相關(guān)光譜信息濃縮為一組主成分,每個主成分代表數(shù)據(jù)中光譜變化的獨立來源。主成分按其描述的差異量排序,第1個主成分描述了校準(zhǔn)光譜中的大多數(shù)變化,每個其他主要組成部分都描述了其余大部分變化。首先繪制主成分得分的2D(PC1,PC2)和3D(PC1,PC2,PC3)散點圖;進(jìn)一步提取10個主成分分別計算其得分(PC1~PC10),其計算公式為:F=其中p為原始變量個數(shù),y1,y2,┈ym為累計貢獻(xiàn)率已達(dá)較高水平的前m個主成分,其方差為λi,αi為每一個主成分yi的貢獻(xiàn)率。
1.2.3 判別分析原理及判別模型的建立判別分析法是化學(xué)計量學(xué)中的一種分析方法,可以根據(jù)已知樣本的分類情況來判斷待測樣本的歸屬問題,具體過程是將一個未知樣品在特定區(qū)域(一個或多個)的光譜信息應(yīng)用于事先建立好的校正模型,判別分析結(jié)果顯示與未知樣品光譜最相似的類別名稱(一個或多個),以及未知樣品與每個類別的馬氏距離,每個距離的值越接近于零,匹配程度越好。馬氏距離(Mahalanobis Distance)是度量學(xué)習(xí)中一種常用的距離指標(biāo),被用作評定數(shù)據(jù)之間的相似度指標(biāo)。根據(jù)馬氏距離對未知樣品進(jìn)行歸類,其計算公式為其中d為馬氏距離,Gi為第i類總體,x為未知樣品,μi為Gi的均值陣,Si為Gi的協(xié)方差陣。
按照校正集∶驗證集約2∶1的比例在健康人群和乳腺癌患者血清樣品中各隨機抽取60例,進(jìn)行光譜掃描,將掃描得到的中紅外光譜數(shù)據(jù)作為校正集,利用判別分析法建立判別模型。
1.2.4 判別模型的驗證判別模型建立后,再分別對剩余26例女性健康人群和25例女性乳腺癌患者血清樣品進(jìn)行中紅外光譜儀掃描,將分析得到的光譜數(shù)據(jù)作為驗證集對所建立的模型進(jìn)行性能驗證,即通過計算未知樣品到每個類別的馬氏距離,對馬氏距離進(jìn)行比較,判斷未知樣品被歸到的類別與實際所屬的類別是否一致,一致則屬于模型判斷正確,正判個數(shù)/總數(shù)即為模型正判率。
1.2.5 光譜預(yù)處理方式的選擇為了消除光譜中基線漂移和噪聲的干擾,需要對光譜進(jìn)行預(yù)處理,分別對原始光譜進(jìn)行平滑、一階導(dǎo)數(shù)+Savitzky?Golay平滑、一階導(dǎo)數(shù)+Norris平滑、二階導(dǎo)數(shù)+Savitzky?Golay平滑、二階導(dǎo)數(shù)+Norris平滑,在波數(shù)范圍3 931~619 cm?1、10個主成分條件下,分析各種預(yù)處理方式下所建模型的性能指標(biāo)評分(Performance Idex),計算相對殘差和(%Difference),其計算公式為:,選擇性能指標(biāo)評分最高的光譜預(yù)處理方式作為最佳光譜預(yù)處理方式。
1.3 統(tǒng)計學(xué)方法采用SPSS 19.0軟件進(jìn)行統(tǒng)計學(xué)處理。符合正態(tài)分布的計量資料以均數(shù)±標(biāo)準(zhǔn)差(x±s)表示,2組間比較采用t檢驗或t’檢驗;非正態(tài)分布的計量資料以M(P25,P75)表示,2組間比較采用Mann?WhitneyU檢驗;正態(tài)與非正態(tài)分布計量資料間比較采用Mann?WhitneyU檢驗;P<0.05為差異有統(tǒng)計學(xué)意義。
2.1 兩類血清樣品中紅外光譜圖及特征峰乳腺癌患者與健康人群血清樣品的中紅外光譜曲線圖峰形趨向一致;將2組人群光譜圖重疊之后發(fā)現(xiàn),在3 363、2 360、1 641、1 552及663 cm?1波數(shù)處的特征峰峰強差異有統(tǒng)計學(xué)意義(P<0.05),見表1、圖2。
2.2 主成分2D圖和3D散點圖運用主成分分析提取光譜數(shù)據(jù)的特征,對女性健康人群和女性乳腺癌患者血清樣品進(jìn)行分析,分別繪制主成分得分的2D(PC1,PC2)和3D(PC1,PC2,PC3)散點圖,見圖3。提取10個主成分信息對2組樣本PC1~PC10進(jìn)行比較,結(jié)果顯示,2組人群PC1~PC4差異有統(tǒng)計學(xué)意義,PC5~PC10差異均無統(tǒng)計學(xué)意義,見表2。
2.3 不同類血清樣品判別分析圖在傅里葉變換中紅外光譜儀的最大掃描范圍內(nèi),以軟件推薦的3 931~619 cm?1區(qū)間建立判別分析模型,健康人群和乳腺癌患者血清樣品的光譜在3 931~619 cm?1區(qū)域內(nèi)均出現(xiàn)較高的吸收,具備足夠的特征信息,其中包含大多數(shù)生物分子基團振動的特征吸收?;谂袆e分析法兩類血清樣品的校正集樣品被完全準(zhǔn)確區(qū)分,驗證集樣品則分別分布在各自相應(yīng)的類別區(qū)域,見圖4;與正常組相比,乳腺癌組患者到N的馬氏距離值高,到C的馬氏距離值低,差異有統(tǒng)計學(xué)意義,見表3;所建判別分析模型,51例驗證集樣本全部正確識別,正判率100%,見表4。
2.4 不同光譜預(yù)處理方式下判別模型的評分當(dāng)對光譜進(jìn)行一階導(dǎo)數(shù)+Savitzky?Golay平滑和一階導(dǎo)數(shù)+Norris平滑兩種預(yù)處理時,結(jié)果均出現(xiàn)了錯判,而光譜不經(jīng)過預(yù)處理和平滑處理的情況下,所建模型的性能指標(biāo)評分均為94.1分,驗證集正判率均為100%,見表5。
Tab.1 The peak intensities of serum spectrum at wave number 3 363 cm-1,2 360 cm-1,1 641 cm-1,1 552 cm-1 and 663cm-1from normal people and breast cancer patients表1 正常人群和乳腺癌患者血清光譜在波數(shù)3 363 cm-1、2 360 cm-1、1 641 cm-1、1 552 cm-1、663 cm-1處的峰強[L/(g·cm)]
中紅外光譜的基頻振動是紅外活性振動中吸收最強的振動,因此本區(qū)最適宜進(jìn)行紅外光譜的定性和定量分析[7?8]。近年來,中紅外光譜在木材樹種識別[9]、甘氨酸鐵螯合物摻假判別[10]、蜂蜜品種識別[11]等方面得到了廣泛的應(yīng)用。同樣,其在疾病鑒別與診斷方面的應(yīng)用也取得了一定進(jìn)展。Depciuch等[12]利用中紅外光譜技術(shù)成功鑒別出甲狀腺正常組織和癌組織;Kaznowska等[13]研究發(fā)現(xiàn)正常結(jié)腸組織與化療前后的結(jié)腸癌組織的光譜存在差異;Wang等[14]通過檢測健康人群和肺癌患者血清發(fā)現(xiàn),光譜中A1080與A1170的比值有助于肺癌的診斷;中紅外光譜技術(shù)還可用于各種胃炎和胃部惡性腫瘤的輔助診斷[15]。目前對于乳腺癌患者中紅外光譜的研究主要集中于組織層面,創(chuàng)傷較大,且樣本量較小,而本研究利用傅里葉變換中紅外光譜儀對健康人群和乳腺癌患者的血清樣品的光譜數(shù)據(jù)進(jìn)行采集,創(chuàng)傷較小且方便快速。
Fig.2 Mid?infrared spectrum of serum samples from normal people and breast cancer patients圖2 正常人群和乳腺癌患者血清樣品中紅外光譜圖
Fig.3 Principal component scatter plot of serum samples from normal people and breast cancer patients圖3 正常人群和乳腺癌患者血清樣品主成分散點圖
Tab.2 Principal component scores of 1-10 in serum samples of the two groups表2 2組人群血清樣品主成分1~10得分
Fig.4 Discriminant analysis figure of serum samples from normal population and breast cancer patients圖4 正常人群和乳腺癌患者血清樣品判別分析圖
Tab.3 Mahalanobis distance of serum samples of the two groups表3 2組人群血清樣品馬氏距離
Tab.4 Classification recognition results of Mahalanobis distance表4馬氏距離的分類識別結(jié)果
Tab.5 Model scores under different spectral preprocessing methods表5 不同光譜預(yù)處理方式下模型評分
本研究采集了86例正常人和85例乳腺癌患者的光譜數(shù)據(jù),觀察發(fā)現(xiàn)2組人群光譜圖存在差異,其在波數(shù)3 363 cm?1、2 360 cm?1、1 641 cm?1、1 552 cm?1、663 cm?1處的峰強均存在差異。周蘇等[4]研究認(rèn)為波數(shù)1 640 cm?1,1 550 cm?1處可反映乳腺癌相關(guān)蛋白二級結(jié)構(gòu),與本研究提示結(jié)果基本吻合。此外,本研究結(jié)果顯示2組人群血清樣品的光譜在波數(shù)3 363 cm?1、2 360 cm?1、663 cm?1處的峰強亦存在顯著差異,但其所代表的乳腺癌相應(yīng)變化尚不清楚。通過對2組人群血清光譜特征峰峰強進(jìn)行比較,初步證明2組人群光譜存在差異,但重疊部分無法被有效區(qū)分,因此本研究采用主成分分析進(jìn)一步對2組人群光譜進(jìn)行區(qū)分,首先通過繪制主成分得分的2D(PC1,PC2)和3D(PC1,PC2,PC3)散點圖,發(fā)現(xiàn)2組人群光譜可被進(jìn)一步區(qū)分;然后對光譜數(shù)據(jù)集提取主成分1~10后分析發(fā)現(xiàn),主成分1、2、3、4對區(qū)分2組人群有主要貢獻(xiàn)。以上研究結(jié)果提示癌癥人群和健康人群的血清光譜理論上可以被有效區(qū)分。在此基礎(chǔ)上本研究選擇判別分析法建立判別模型對光譜信息進(jìn)行識別,通過模型計算馬氏距離,所有未知樣品被準(zhǔn)確歸類,其正判率為100%;同時比較不同的光譜預(yù)處理方式,發(fā)現(xiàn)相比其他處理方式,未對模型進(jìn)行任何處理和對模型進(jìn)行平滑處理的模型評分最高,均為94.1分,平滑處理是否對結(jié)果有影響尚待明確,出于簡便原則考慮選擇原始光譜進(jìn)行判別分析模型的建立,結(jié)果顯示本研究所建模型相對穩(wěn)定,其預(yù)測能力較強。以上結(jié)果表明,利用傅里葉變換中紅外光譜儀可對健康人群和乳腺癌患者進(jìn)行區(qū)分和鑒別,有望成為乳腺癌的輔助診斷方法之一。
但是本研究的樣本量有限,所納入的85例乳腺癌患者包括了Ⅰ~Ⅳ期,故其對早期乳腺癌的輔助診斷價值尚待進(jìn)一步研究驗證。今后尚需通過收集各個分期乳腺癌患者的血清進(jìn)行傅里葉變換中紅外光譜檢測,以實現(xiàn)對不同分期乳腺癌患者的輔助診斷,進(jìn)而基于中紅外光譜技術(shù)建立一種不同組織學(xué)類型、不同分級乳腺癌診斷方法,并嘗試?yán)弥屑t外光譜技術(shù)建立定量模型,快速、準(zhǔn)確地檢測出待測物的含量,對疾病的診斷、治療以及預(yù)后提供幫助。
綜上所述,本研究基于傅里葉變換中紅外光譜技術(shù)建立的方法可準(zhǔn)確區(qū)分和鑒別健康人群和乳腺癌患者,且快速有效,有望成為一種輔助診斷乳腺癌的方法。