王怡珊 王 鏑 余 凱 王 林 趙 聰 鄒瑩暢王 平* 胡艷捷 應(yīng)可凈
1(浙江大學(xué) 生物傳感器國家專業(yè)實(shí)驗(yàn)室,生物醫(yī)學(xué)工程教育部重點(diǎn)實(shí)驗(yàn)室,生物醫(yī)學(xué)工程系,杭州 310027)
2(浙江大學(xué)醫(yī)學(xué)院附屬邵逸夫醫(yī)院,杭州 310027)
肺癌是對(duì)人類生命健康威脅最大的惡性腫瘤之一,實(shí)現(xiàn)其無創(chuàng)早期診斷可以大幅提高肺癌病人的生存率。呼吸診斷通過檢測(cè)人呼出氣體成分的改變,從而反映肺部組織細(xì)胞代謝的變化,進(jìn)而表征出肺部是否有腫瘤。Pauling和Phillips等的研究表明,肺癌病人呼出氣體中存在著特征性的揮發(fā)性有機(jī)物(VOCs)標(biāo)志物[1-3]。相比較傳統(tǒng)的肺癌診斷方法,呼吸診斷更為快捷和方便[4],已逐漸得到世界各國的重視,并有希望成為一種新興的診斷手段[5]。
本研究前期用氣質(zhì)聯(lián)用儀(GCMS)分析了85例原發(fā)性肺癌患者、70例肺部良性疾病患者以及88例健康者的樣本。利用卡方檢驗(yàn),從質(zhì)譜圖中篩選出受試者內(nèi)源性的VOCs 41種;又根據(jù)卡方檢驗(yàn)的值,挑選出對(duì)區(qū)分以上3類人群有統(tǒng)計(jì)學(xué)差異的26種VOCs作為識(shí)別肺癌的標(biāo)志物。最后采用線性判別式分析(LDA)的方法,用這26種VOCs標(biāo)志物作為變量,對(duì)上述的3類人群進(jìn)行分類,整體正確率達(dá)到了 80% 以上[6]。
雖然采用GCMS分析呼出氣體的方法有較高的靈敏度,但這種分析方法操作復(fù)雜,沒有配套的分析診斷軟件,不能用于呼吸檢測(cè)肺癌的臨床應(yīng)用,所以本研究前期還研制了兩臺(tái)用來檢測(cè)呼出氣體中肺癌特征性VOCs的檢測(cè)單元——MOS檢測(cè)單元和SAW檢測(cè)單元,以此來構(gòu)成肺癌呼吸檢測(cè)電子鼻。這兩個(gè)檢測(cè)單元分別采用了金屬氧化物傳感器(MOS)和聲表面波傳感器(SAW)[7-8]。根據(jù)傳感器和檢測(cè)單元的特性,從26種肺癌特征性VOCs中選擇了5種作為兩個(gè)檢測(cè)單元的檢測(cè)目標(biāo)。MOS檢測(cè)單元主要用來檢測(cè)苯、苯乙烯和正己烷3種標(biāo)志物,SAW檢測(cè)單元主要用來檢測(cè)十三烷、十三酮2種標(biāo)志物。
本研究采用這兩個(gè)檢測(cè)單元所構(gòu)成的電子鼻,分析了肺癌患者和健康人呼出氣體的樣本,并對(duì)數(shù)據(jù)進(jìn)行了處理;采用多種識(shí)別算法對(duì)兩類樣本的數(shù)據(jù)進(jìn)行識(shí)別,并對(duì)其診斷結(jié)果進(jìn)行了評(píng)價(jià)。
1.1.1 材料
所用到的采氣材料有:一次性吹嘴、3 L Tedlar氣袋、鼻夾、硅膠管。其中,氣袋可以多次重復(fù)使用,但每次使用后都需用氮?dú)馇逑?~3次。每次清洗都需在氣袋中充滿氮?dú)?,然后?0℃的烘箱中放置1~2 h。
1.1.2 采氣過程
受試者在采氣前被要求禁食禁煙12 h,前一天晚餐避免高脂飲食,采氣前0.5 h清水漱口清潔口腔。所有受試者的呼吸氣體均在同一環(huán)境下(通風(fēng)室內(nèi))采集,以減少環(huán)境因素對(duì)實(shí)驗(yàn)的影響。受試者平靜呼吸30 min后,采用鼻夾夾鼻以防止漏氣;通過一次性吹嘴向氣袋內(nèi)吹氣,共收集3 L氣體樣本。然后,將氣體吸附到Tenax TA?管。
1.1.3 實(shí)驗(yàn)對(duì)象
在浙江大學(xué)醫(yī)學(xué)院附屬邵逸夫醫(yī)院,共采集了27例原發(fā)性肺癌患者的呼出氣體樣本,以及27例同期住院體檢正常健康者的呼出氣體樣本。所有樣本的具體信息情況見表1,肺癌樣本的臨床分期及病理類型統(tǒng)計(jì)情況見表2。
表1 樣本信息表Tab.1 The information of the samples
表2 肺癌樣本的臨床分期及病理類型統(tǒng)計(jì)Tab.2 The statistics of lung cancer stage and pathological mechanism
1.2.1 傳感器響應(yīng)曲線特征值提取
將吸附了樣本氣體的Tenax TA?管分別連接至MOS和SAW檢測(cè)單元進(jìn)行分析,得到各自的響應(yīng)曲線,再對(duì)曲線進(jìn)行相應(yīng)的濾波處理,消除噪聲和基線漂移。根據(jù)MOS檢測(cè)單元傳感器陣列的響應(yīng)模式(見表3),得到9條傳感器響應(yīng)曲線,對(duì)每條傳感器響應(yīng)曲線分別提取6個(gè)曲線特征值(見圖1(a)),共54個(gè)特征值。根據(jù)SAW檢測(cè)單元的傳感器響應(yīng)曲線的出峰時(shí)間(見表4),從響應(yīng)曲線中提取十三烷和十三酮所對(duì)應(yīng)峰的峰高作為特征值(見圖1(b))。
表3 MOS傳感器對(duì)標(biāo)志物的響應(yīng)情況Tab.3 The biomarkers response of MOS sensors
圖1 檢測(cè)單元響應(yīng)曲線的特征值提取。(a)MOS檢測(cè)單元;(b)SAW檢測(cè)單元Fig.1 Feature extraction of the response curves of two detection units.(a)MOS detection unit;(b)SAW detection unit
表4 SAW傳感器對(duì)標(biāo)志物的響應(yīng)情況Tab.4 The biomarkers response of SAW sensors
1.2.2 模型建立方法
為了使兩類樣本具有最佳的區(qū)分效果,共建立了6種診斷模型:LDA模型、ANN模型、PLS模型、PCA-LDA模型、PCA-ANN模型、PCA-PLS模型。前3種模型分別采用線性判別分析(LDA)算法、BP人工神經(jīng)網(wǎng)絡(luò)(ANN)算法、偏最小二乘回歸分析(PLS)算法構(gòu)建。后3種模型先通過主成分分析(PCA)提取具有最大貢獻(xiàn)率的4個(gè)主成分,將原始多維數(shù)據(jù)降至4維,然后再將這4個(gè)主成分的值作為變量,采用上述3種算法建立模型,具體結(jié)構(gòu)如圖2所示。
圖2 復(fù)合模型結(jié)構(gòu)Fig.2 The structure of the composite model
1.2.3 模型變量
從MOS傳感器響應(yīng)曲線中提取54個(gè)特征值,從SAW傳感器響應(yīng)曲線中提取2個(gè)特征值,融合后得到56個(gè)特征值,并將其歸一化,所有模型的初始變量均為這56個(gè)特征值。
為了分析兩種檢測(cè)單元各自對(duì)識(shí)別肺癌人群的貢獻(xiàn),還對(duì)MOS傳感器的特征值和SAW傳感器的特征值分別進(jìn)行人工神經(jīng)網(wǎng)絡(luò)方法建模,然后比較它們各自的靈敏度和特異性。
1.2.4 交叉檢驗(yàn)方法
由于樣本量不足,無法將樣本劃分成訓(xùn)練組和測(cè)試組,所以采用留一法交叉檢驗(yàn)的方法,對(duì)所有模型的特異性(健康人判斷正確的比率)和靈敏度(肺癌患者判斷正確的比率)進(jìn)行評(píng)價(jià)[3]。
2.1.1 LDA模型
LDA模型將56個(gè)特征值所構(gòu)成的特征空間通過Fisher鑒別準(zhǔn)則,投影到二維的具有最大類間離散度和最小類內(nèi)離散度的矢量空間(見圖3(a)),模型可以根據(jù)這兩類樣本的分布自動(dòng)畫出它們的橢圓分界線。從圖中可以看出,兩類樣本具有較好的區(qū)分效果,而且橫軸(LD1)這個(gè)矢量對(duì)樣本的分類起了決定性的作用,因此將所有的點(diǎn)又投影到LD1上,就有了圖3(b)所示的一維區(qū)分圖。模型也能自動(dòng)給出兩類樣本的分界線,分界線左側(cè)為健康人樣本,右側(cè)為肺癌樣本。根據(jù)留一法交叉檢驗(yàn),得到該模型的靈敏度為 85.19%,特異性為81.48%。
2.1.2 ANN模型
ANN模型將56個(gè)特征值輸入到BP人工神經(jīng)網(wǎng)絡(luò)的輸入層,傳遞函數(shù)為sigmod函數(shù)。輸出層為1個(gè)神經(jīng)元,如果輸入的樣本為肺癌,則神經(jīng)網(wǎng)絡(luò)輸出層的神經(jīng)元期望值為1;如果輸入的樣本為健康人,則神經(jīng)網(wǎng)絡(luò)輸出層的神經(jīng)元期望值為0。每次訓(xùn)練時(shí),可以通過調(diào)節(jié)隱含層的層數(shù)和神經(jīng)元的個(gè)數(shù)以及學(xué)習(xí)速率和慣性系數(shù)來調(diào)整模型,使模型工作在最佳狀態(tài),最終隱含層的神經(jīng)元個(gè)數(shù)為7個(gè),并得到神經(jīng)網(wǎng)絡(luò)的權(quán)值(網(wǎng)絡(luò)結(jié)構(gòu)見圖4)。然后,用這個(gè)權(quán)值對(duì)當(dāng)前測(cè)試樣本進(jìn)行測(cè)試,當(dāng)神經(jīng)網(wǎng)絡(luò)輸出層,神經(jīng)元值大于0.5時(shí),則模型判斷結(jié)果為肺癌,否則為健康人。根據(jù)留一法交叉檢驗(yàn),得到靈敏度為92.59%,特異性為88.89%。
圖3 LDA分類結(jié)果(三角形表示肺癌樣本,方塊表示健康人樣本)。(a)二維分類結(jié)果;(b)一維分類結(jié)果Fig.3 Discrimination result of LDA(The triangles symbolizelung cancer.The squares symbolize the healthy).(a)Two-dimensional result;(b) One dimensional result
圖4 人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 The structure of ANN
2.1.3 PLS模型
圖5 PLS模型分類結(jié)果(圓圈表示肺癌樣本,三角形表示健康人樣本)Fig.5 Discrimination result of PLS (The circles symbolizelung cancer.The triangles symbolize the healthy)
PLS模型將56個(gè)特征值自變量與樣本類型這個(gè)因變量之間的關(guān)系擬合成一個(gè)回歸方程。樣本類型為肺癌患者,則因變量的期望值為0;樣本類型為健康人,則因變量的期望值為1。圖5是該模型的分類結(jié)果,可以看出,以0.5為分界線,有少量肺癌樣本的回歸方程輸出值介于0.5~1之間,也有少量健康人落入肺癌區(qū)間。采用留一法對(duì)該模型進(jìn)行測(cè)試,最終得到靈敏度為 81.48%,特異性為88.89%。
采用PCA算法提取出具有最大貢獻(xiàn)率的4個(gè)主成分的累積貢獻(xiàn)率為78%。具有最大貢獻(xiàn)率的3個(gè)主成分的分布如圖6所示。
圖6 PCA分布(三角形表示肺癌樣本,方塊表示健康人樣本)Fig.6 The discrimination chart of PCA(The triangles symbolize lung cancer.The squares symbolize the healthy)
2.2.1 PCA-LDA模型
圖7是PCA-LDA模型的二維和一維分類結(jié)果。留一法對(duì)一維PCA-LDA模型的測(cè)試結(jié)構(gòu)顯示,該模型的靈敏度為92.59%,特異性為77.78%。
圖7 PCA-LDA分類結(jié)果(三角形表示肺癌樣本,方塊表示健康人樣本)。(a)二維分類結(jié)果;(b)一維分類結(jié)果Fig.7 Discrimination result of PCA-LDA(The triangles symbolize lung cancer.The squares symbolize the healthy).(a)Two-dimensional result;(b)One-dimensional result
2.2.2 PCA-ANN模型
該模型的留一法測(cè)試靈敏度為85.19%,特異性為66.67%。
2.2.3 PCA-PLS模型
PCA-PLS模型的結(jié)果見圖8,并得到靈敏度為77.78.%,特異性為85.19%。
從以上6種模型中可以看出,人工神經(jīng)網(wǎng)絡(luò)模型具有最高的靈敏度和特異性,所以用該方法分別對(duì)MOS和SAW的特征值進(jìn)行分析。
2.3.1 MOS特征值建模
將MOS的54個(gè)特征值構(gòu)建ANN模型,再用留一法對(duì)模型進(jìn)行測(cè)試,得到靈敏度為85.19%,特異性為77.78%(見表5)。
圖8 PCA-PLS分類結(jié)果 (圓圈表示肺癌患者樣本,三角形表示健康人樣本)Fig.8 Discrimination result of PCA-PLS(The circles symbolize lung cancer.The triangles symbolize controls)
表5 MOS、SAW和MOS-SAW的特征值建模結(jié)果Tab.5 The result of MOS,SAW and MOS-SAW models
2.3.2 SAW特征值建模
將SAW的2個(gè)特征值構(gòu)建ANN模型,并用留一法進(jìn)行評(píng)價(jià),得到靈敏度為88.89%,特異性為74.07%(見表5)。
對(duì)以上6種模型的結(jié)果進(jìn)行分析比較,見表6。采用復(fù)合算法建立模型的診斷正確率反而比用單一算法的要低。因?yàn)樗崛〉?個(gè)主成分的累計(jì)貢獻(xiàn)為78%,就意味著有22%的原始信息在PCA分析過程中丟失;由于只將這78%的信息用來做后面的分析,所以導(dǎo)致最終的診斷正確率不如單一算法的診斷正確率。另外,ANN模型具有最高的靈敏度和特異性,這是因?yàn)闃颖绢愋团c從電子鼻原始響應(yīng)曲線中提取出來的特征值之間并非簡(jiǎn)單的線性關(guān)系,說明傳感器信號(hào)的峰高、峰面積等信息與樣本類型之間并非簡(jiǎn)單的線性相關(guān),所以采用 LDA和PLS算法構(gòu)建的模型特異性和靈敏度都比 ANN模型的要小。所以本研究最終采用了BP人工神經(jīng)網(wǎng)絡(luò)算法來構(gòu)建診斷模型,并對(duì)MOS和SAW兩類傳感器的特征值進(jìn)行比較分析。
用人工神經(jīng)網(wǎng)絡(luò)分別對(duì) MOS、SAW及 MOSSAW特征值建立了3種模型,MOS-SAW特征值構(gòu)建的模型具有最好的特異性和靈敏度,從而可以說明在MOS和SAW的特征值對(duì)區(qū)分肺癌和健康人都有貢獻(xiàn),進(jìn)一步反映所選取的5種標(biāo)志物在肺癌和健康人樣本中均有差別,因此將MOS和SAW檢測(cè)單元的數(shù)據(jù)聯(lián)合建模的方法在肺癌診斷上具有一定的優(yōu)勢(shì)。但從結(jié)果中也可以看到,除了 PLS和PCA-PLS模型以外,其他模型最終的特異性均比靈敏度低,這可能與只選擇了5種標(biāo)志物有關(guān),因此在接下來的研究中應(yīng)增加檢測(cè)單元的檢測(cè)對(duì)象,以便同時(shí)提高靈敏度和特異性。
表6 6種模型的結(jié)果比較Tab.6 The comparison of the results of the 6 models
另外,模型的靈敏度和特異性還取決于訓(xùn)練樣本的代表性。由于實(shí)驗(yàn)對(duì)象是未經(jīng)過化療和手術(shù)治療的原發(fā)性肺癌患者,所以在樣本的選擇上要排除一部分不符合的患者。在健康志愿者的篩選上,要考慮性別、年齡、吸煙與肺癌組一致等因素。此外,加上患者呼氣采集過程中的嚴(yán)格控制,如禁食、禁煙12 h以上以及呼吸氣體量等要求,所以目前滿足上述要求的患者樣本量不是很多,影響了模型的靈敏度和特異性。為了進(jìn)一步提高診斷正確率,接下來的研究還需繼續(xù)擴(kuò)大樣本量,減小樣本在年齡、性別、吸煙情況等因素上的差異。
目前,國際上也有人建立了多種基于電子鼻的肺癌呼吸診斷模型,主要都是基于 LDA、PLS、PCA等線性的算法[9-12],本應(yīng)用這些算法對(duì)前期研發(fā)的MOS-SAW呼吸診斷電子鼻所得到的數(shù)據(jù)進(jìn)行了詳細(xì)分析,結(jié)果表明非線性的人工神經(jīng)網(wǎng)絡(luò)模型在MOS-SAW電子鼻肺癌呼吸診斷的應(yīng)用中效果最佳。因此,要提高電子鼻的最終診斷正確率,必須找到一種真正能反映呼出氣體中標(biāo)志物與傳感器響應(yīng)結(jié)果之間關(guān)系的算法。筆者采用的人工神經(jīng)網(wǎng)絡(luò)雖具有較高的靈敏度,但要應(yīng)用于臨床檢測(cè)還需繼續(xù)完善,不斷擴(kuò)大樣本量,以期取得更好的臨床應(yīng)用效果。
應(yīng)用呼吸氣體檢測(cè)電子鼻分析了肺癌患者和健康人的呼出氣體樣本,并分析了MOS和SAW2種傳感器檢測(cè)標(biāo)志物的響應(yīng)結(jié)果,對(duì)響應(yīng)結(jié)果的特征值進(jìn)行了多種模式識(shí)別算法分析,并分別對(duì)MOS和SAW檢測(cè)單元的數(shù)據(jù)在肺癌診斷中的意義進(jìn)行了比較分析,最終用模型的靈敏度和特異性來評(píng)價(jià)各個(gè)模型。從臨床實(shí)驗(yàn)結(jié)果中可以看出,所提出的基于呼出氣體檢測(cè)電子鼻的肺癌診斷方法在臨床篩查上取得了很好的效果。下一步,將對(duì)呼出氣體冷凝物中的標(biāo)志物進(jìn)行研究,如氮氧化物、CEA、ET-1、核酸等,因?yàn)檫@些標(biāo)志物可直接和間接地反映支氣管哮喘、慢性阻塞性肺疾病(COPD)、支氣管擴(kuò)張、肺囊性纖維化、肺癌等疾?。?3-14],具有收集簡(jiǎn)單、無創(chuàng)傷等優(yōu)點(diǎn)[15]和一定的穩(wěn)定性[16]。此外,將對(duì)目前診斷算法做進(jìn)一步改進(jìn)和發(fā)展,結(jié)合氣體和液體不同類型標(biāo)志物的復(fù)合診斷模型和聯(lián)合診斷算法,實(shí)現(xiàn)呼出氣體診斷電子鼻更準(zhǔn)確的診斷效果,最終實(shí)現(xiàn)臨床的應(yīng)用。
[1]Pauling L,Robinson AB,Teranishi R,et al.Quantitative analysis ofurine vaporand breath by gas-liquid partition chromatography[J].Proc Nat Acad Sci USA,1971,68(10):2374-2376.
[2]Phillips M,Cataneou RN,Cummin ARC,et al.Detection of lung cancer with volatile markers in the breath [J].Chest,2003,123:2115-2123.
[3]Chen Xin,Xu Fengjuan,Wang Yue,et al.A study of the volatile organic compounds exhaled by lung cancer cells in vitro for breath diagnosis[J].Cancer,2007,110(4):835 -844.
[4]Turner APF,Magan N.Electronic noses and disease diagnostics[J].Nature Reviews Microbiology,2004,2:161 -166.
[5]應(yīng)可凈,黃強(qiáng).呼吸氣體檢測(cè)在肺癌早期診斷中的應(yīng)用[J].國際呼吸雜志,2006,26(2):143 -145.
[6]於錦.呼出氣體及其冷凝物中肺癌標(biāo)志物及其檢測(cè)方法的研究[D].杭州:浙江大學(xué),2011.
[7]Yu Kai,Wang Yishan,Yu Jin,et al.A portable electronic nose intended for home healthcare based on a mixed sensor array and multiple desorption methods[J].Sensor Letters,2011,9:876-883.
[8]王樂,王鏑,於錦,等.基于諧振型SAW 傳感器的呼吸檢測(cè)系統(tǒng)設(shè)計(jì)[J].傳感技術(shù)學(xué)報(bào),2011,24(4):498-502.
[9]Dragonieri S,Annema JT,Schot R,et al.An electronic nose in the discrimination of patients with non-small cell lung cancer and COPD[J].Lung Cancer,2009,64(2):166 -170.
[10]D’Amico A,Pennazza G,Santonico M,et al.An investigation on electronic nose diagnosis of lung cancer[J].Lung Cancer,2010,68(2):170-176.
[11]Machado RF,Laskowski D,Deffenderfer O,et al.Detection of lung cancer by sensor array analyses of exhaled breath[J].American Journal of Respiratory and Critical Care Medicine,2005,171:1286-1291.
[12]Di Natale C,Macagnano A,Martinelli E,et al.Lung canceridentification by analysis of breath by means of an array of nonselective gas sensors[J].Biosensors and Bioelectronics,2003,18(10):1209-1218.
[13]劉加良,金號(hào)令,呂曉東,等.呼出氣冷凝液癌胚抗原測(cè)定對(duì)肺癌的診斷價(jià)值[J].臨床內(nèi)科雜,2004,21(4):230.
[14]Christian G,Hartmut K,Katja T,et al.Detection of p53 gene mutations in exhaled breath condensate of non-small cell lung cancer patients[J].Lung Cancer,2009,64:219 -225.
[15]Hunt JF,F(xiàn)angK,Malik R,etal. Endogenousairway acidification:implications for asthma pathophysiology [J].American Journal of Respiratory and Critical Care Medicine,2000,161:694-699.
[16]Carpagnano GE,RestaO,F(xiàn)oschino-Barbaro MP,etal.Interleukin-6 is increased in breath condensate of patients with non-small-celllung cancer[J]. InternationalJournalof Biological Markers,2002,17:141 -415.