桂 林,黃遠帥
(西南醫(yī)科大學附屬醫(yī)院輸血科,四川瀘州 646000)
基于血清4項腫瘤標志物的模式識別技術(shù)對胃癌的診斷價值*
桂 林,黃遠帥△
(西南醫(yī)科大學附屬醫(yī)院輸血科,四川瀘州 646000)
目的 探討基于血清CA72-4、CA242、CA19-9和CEA的模式識別技術(shù)對胃癌的診斷價值。 方法 對212例胃癌患者,116例胃良性疾病患者和117例健康體檢者血清4項腫瘤標志物測定結(jié)果進行回顧性分析,比較單項指標的診斷效能并建立主成分分析(PCA)、決策樹、PCA-決策樹和Fisher判別分析模型。結(jié)果 4項指標中CA242對胃癌的診斷效能最佳,ROC曲線下面積(AUC)為0.841(95%CI:0.804~0.877)。PCA模型表明,胃癌組患者血清4項腫瘤標志物代謝明顯紊亂,與胃良性疾病患者和健康對照個體差異顯著。決策樹、PCA-決策樹和Fisher判別分析模型對胃癌患者的診斷準確率分別為58.6%、65.5%和58.6%,預測準確率分別為65.7%、77.6%和73.1%;對非胃癌患者(胃良性疾病患者+健康對照)的診斷準確率分別為94.7%、99.4%和97.6%,預測準確率分別為87.5%、96.9%和96.9%。結(jié)論 血清CA72-4、CA242、CA19-9和CEA的PCA-決策樹模型有助于胃癌的鑒別診斷和預測分析。
胃癌;診斷;主成分分析;決策樹;Fisher判別分析
胃癌的發(fā)病率和病死率在我國高居首位且呈逐年上升趨勢[1-2]。據(jù)統(tǒng)計,2015年我國胃癌新增病例67.9萬,死亡49.8萬,80%以上的胃癌患者確診時已處于進展期[3]。因此,早期、及時診斷胃癌刻不容緩。目前,腫瘤標志物如癌胚抗原(CEA),糖類抗原CA19-9,CA72-4和CA242等常用于胃癌的早期診斷,但單項指標的靈敏度較低[4]。多項并聯(lián)或串聯(lián)試驗均能提高診斷的靈敏度或特異度[5],但并聯(lián)時降低了特異度,串聯(lián)時降低了靈敏度且均不能預測分析。為此,本研究以胃癌患者為研究對象,采用多元統(tǒng)計分析中主成分分析(PCA)、決策樹分析、PCA-決策樹分析和Fisher判別分析的策略,探討血清CEA、CA19-9,CA72-4和CA242對胃癌的診斷和預測價值。
1.1 一般資料 選擇本院2014年5月至2016年6月首診胃癌患者212例作為胃癌組,其中男115例,女97例;平均年齡(48.4±14.9)歲;印戒細胞癌95例,管狀腺癌67例,其他類型50例。選取消化內(nèi)科胃良性疾病患者共116例作為胃良性病組,其中男67例,女49例;平均年齡(47.7±18.2)歲;急、慢性胃炎80例,胃潰瘍30例,胃平滑肌瘤4例,胃食管反流2例。胃癌組和胃部良性病組患者均經(jīng)胃窺鏡和病理組織學診斷確診。健康對照組為本院體檢中心門診體檢者,共117例,其中男64例,女53例;平均年齡(45.6±21.8)歲;體檢生化指標,心肌損傷標志物和腫瘤標志物等未見明顯異常。3組性別、年齡差異無統(tǒng)計學意義(P>0.05),具有可比性。
表1 3組血清CA724,CA242,CA199和CEA水平比較
a:P<0.01,與胃癌組比較;b:P<0.05,與胃良性病比較。
1.2 方法 采用MAGLUMI 2000 Plus化學發(fā)光儀及配套試劑測定血清CA72-4、CA242、CA19-9和CEA,其參考區(qū)間分別為 CA72-4 0~6.0 U/L,CA242 0~12.8 U/L,CA19-9 0~35.0 U/L和CEA 0~5.5 g/L。比較3組患者血清CA72-4、CA242、CA19-9和CEA水平、ROC曲線下面積(AUC),對3組PCA進行分析。
2.1 3組患者血清CA72-4、CA242、CA19-9和CEA水平比較 胃癌組血清CA72-4、CA242、CA19-9和CEA水平均高于健康對照組和胃良性病組,差異有統(tǒng)計學意義(P<0.01)。胃良性病組與健康對照組比較,血清CA242水平顯著升高,差異有統(tǒng)計學意義(P<0.05),見表1。
2.2 血清CA72-4、CA242、CA19-9和CEA的AUC比較 4種血清腫瘤標志物對胃癌均有中等的診斷效能(AUC>0.70)。CA242的診斷效能優(yōu)于CEA、CA19-9和CA72-4,AUC[95%(CI)]分別為:0.841(0.804~0.877)、0.816 (0.775~0.857)、0.744(0.698~0.790)和0.703(90.654~0.753)。
2.3 血清CA72-4、CA242、CA19-9和CEA的PCA分析 基于血清4種標志物的第1主成分(PC1)和第2主成分(PC2)能揭示原始數(shù)據(jù)74.9%的綜合信息。PCA模型中,胃癌患者體內(nèi)血清CA72-4、CA242、CA19-9和CEA水平明顯紊亂,個體差異大,主要分布在PCA模型橢圓的1、4象限;健康對照組個體差異較小,分布在1、3象限且聚類明顯;良性疾病患者主要分布在橢圓中心,個體差異較小,與胃癌患者有部分重疊,3組個體有分離的趨勢,見圖1。
2.4 基于血清單項和聯(lián)合腫瘤標志物的PCA-決策樹模型 單項腫瘤標志物中僅CA242進入決策樹模型(χ2=142.87,P<0.01),10次交叉驗證風險為41.7%。以血清CA72-4、CA242、CEA和CA19-9提取PC,PC方程=1.936CEA+0.484CA19-9+0.507CA242+0.492CA72-4。4項聯(lián)合的PCA-決策樹模型的10次交叉驗證風險為32.8%。4項聯(lián)合的Fisher判別方程(Y)為,Y=0.657CEA+0.600CA19-9+0.737CA242+0.558CA72-4。3種模型對胃癌組和非胃癌組(胃良性病組+健康對照組)的診斷和預測準確率比較結(jié)果見表2。
圖1 基于血清CA72-4,CA242,CA19-9和CEA聯(lián)合檢測的PCA模型
表2 3種模型對胃癌組和非胃癌組的診斷和預測比較(%)
胃癌是發(fā)病率高、治愈率低的惡性腫瘤。胃癌患者早期癥狀不典型,確診時多已是晚期,故錯過了手術(shù)和治療的最佳時機[4]。胃癌的確診主要是通過胃鏡檢查和病理組織活檢,但胃鏡檢查有侵入性,需專人操作,費用高,患者耐受性差。目前,由于診斷技術(shù)的局限性,胃癌的早期鑒別診斷仍較困難。血清腫瘤標志物具有靈敏、簡便和易復檢等優(yōu)點,在臨床應用廣泛[6]。CA19-9,CA72-4,CA242和CEA均是臨床上常用的腫瘤標志物,對腫瘤的療效判斷、病情監(jiān)測和預后評估均有一定的指導意義[7-8]。薛雯娟等[4]證實,胃癌患者血清CA72-4、CEA、CA242和CA19-9水平顯著高于胃良性疾病患者和健康人,單項指標的AUC均較低,與本研究結(jié)果一致。單項腫瘤標志物和多指標并聯(lián)實驗對胃癌的診斷仍有一定的局限性[9-10],故探索新的數(shù)據(jù)模型對胃癌的鑒別診斷和預測分析有重要意義。
PCA是常用的數(shù)據(jù)降維方法,通過特征根提取有代表性的PC,用2~3個PC揭示原始數(shù)據(jù)的綜合信息[11]。王魏等[12]采用PCA對胃癌患者血紅蛋白的拉曼光譜進行分析,揭示了胃癌患者和健康對照個體的空間分布差異。陶海燕等[13]利用胃潰瘍患者的臨床參數(shù),成功構(gòu)建了胃潰瘍和潰瘍型胃癌患者的PCA特征譜。本研究通過血清4項標志物建立二維PCA模型,較好地揭示了胃癌患者、胃良性疾病患者和健康對照個體的空間分布特征,有助于后續(xù)建模分析。決策樹分析是一類在醫(yī)學診斷中常用的非線性數(shù)據(jù)挖掘方法,利用概率原理尋找最優(yōu)分類節(jié)點,具有簡單、分類速度快,適合處理大樣本數(shù)據(jù)等優(yōu)點[14]。王輝等[15]以血清CEA、甲胎蛋白(AFP)、CA125、CA19-9和CA50建立了胃癌-健康對照和胃癌-胃良性疾病的決策樹模型,該模型的診斷準確率均優(yōu)于聯(lián)合診斷試驗和傳統(tǒng)的Logistic回歸分析。決策樹因其輸出結(jié)果易于理解和解釋,而被廣泛應用于各個領(lǐng)域,但隨著樣本量增加和測定指標增多,決策的準確性也會受影響[16]。采用PCA對測定變量進行綜合再建立PCA-決策樹模型能減少預測模型的輸入量,消除數(shù)據(jù)間的干擾,提高診斷的準確率[17]。本研究中,PCA-決策樹的交叉驗證風險更低,診斷和預測準確率優(yōu)于決策樹模型和傳統(tǒng)的Fisher判別分析,故PCA-決策樹更有助于胃癌的診斷和預測分析。
由于海量醫(yī)學信息不斷產(chǎn)生,對比分析不同數(shù)據(jù)模型能更好地挖掘有價值的臨床信息。本研究建立了胃癌的PCA-決策樹模型并與傳統(tǒng)的決策樹和Fisher判別分析模型對比分析,取得了較好的診斷和預測效果。PCA-決策樹分析為胃癌的輔助診斷和預測分析提供了一種新思路。
[1]Zong L,Abe M,Seto Y,et al.The challenge of screening for early gastric cancer in China[J].Lancet,2016,388(10060):2606-2606.
[2]彭鵬,吳春曉,龔楊明,等.上海人群胃癌生存率研究[J].中國癌癥雜志,2016,26(5):414-420.
[3]Chen W,Zheng R,Baade PD,et al.Cancer statistics in China,2015[J].CA Cancer J Clin,2016,66(2):115-132.
[4]薛雯娟,康艷.腫瘤標志物在胃癌早期診斷中的應用價值[J].實用癌癥雜志,2016,31(3):393-395.
[5]王勝,單綠虎,束新華.血清胃蛋白酶原及CA199、CA242、CEA聯(lián)合檢測在胃癌早期診斷中的價值[J].中華全科醫(yī)學,2016,14(4):646-648.
[6]Liu H,Liu R,Zhou XY.A system for tumor heterogeneity evaluation and diagnosis based on tumor markers measured routinely in the laboratory [J].Clin Biochem,2015,48(18):1241-1245.
[7]Yin LK,Sun XQ,Mou DZ.Value of combined detection of serum CEA,CA72-4,CA19-9 and TSGF in the diagnosis of gastric cancer [J].Asian Pac J Cancer P,2015,16(9):3867-3870.
[8]Virgilio E,Giarnieri E,Montagnini M,et al.Analyzing gastric lavage of gastric cancer patients:a prospective observational study on cytopathology and determination of intragastric CEA,CA19-9,CA72-4 and CA50 [J].Acta cytologica,2016,60(2):161-166.
[9]Gwak HK,Lee JH,park SG.Preliminary evaluation of clinical utility of CYFRA21-1,CA72-4,NSE,CA19-9 and CEA in stomach cancer[J].Asian Pac J Cancer Prev,2014,15(12):4933-4938.
[10]Tian SB,Yu JC,Kang WM,et al.Combined detection of CEA,CA19-9,CA242 and CA50 in the diagnosis and prognosis of resectable gastric cancer [J].Asian Pac J Cancer P,2014,15(15):6295-6300.
[11]王颯,盛萍,姚藍,等.維藥多傘阿魏體外抗胃癌活性部位 GC-MS 指紋圖譜的研究[J].中草藥,2016,46(19):2874-2879.
[12]王巍,潘志峰,唐偉躍,等.胃癌患者血紅蛋白的表面增強拉曼光譜分析[J].光譜學與光譜分析,2016,36(8):1178-1184.
[13]陶海燕,李鵬,周萍,等.內(nèi)鏡下胃潰瘍性病變鑒別診斷的數(shù)學模型[J].中華消化內(nèi)鏡雜志,2015,32(3):180-186.
[14]Wang XQ,Liu Z,Lv WP,et al.Safety validation of decision trees for hepatocellular carcinoma[J].World J Gastroenterol,2015,21(31):9394-9402.
[15]王輝,黃鋼.腫瘤標志物檢測結(jié)合支持向量機模型在胃癌診斷中的應用[J].中華核醫(yī)學雜志,2010,30(2):87-89.
[16]張棪,曹健.面向大數(shù)據(jù)分析的決策樹算法[J].計算機科學,2016,43(6):374-379.
[17]孔喜梅,木拉提·哈米提,嚴傳波,等.基于PCA和C4.5決策樹的新疆哈薩克族食管癌圖像鑒別研究[J].科技通報,2016,32(9):52-57.
The diagnostic value of four serum tumor markers for gastric cancer based on pattern recognition techniques*
Objective To evaluate the diagnostic value of serum tumors CA72-4,CA242,CA19-9 and carcino-embryonic antigen (CEA) in patients with gastric cancer based on pattern recognition techniques.Methods Data of serum concentrations of CA72-4,CA242,CA19-9 and CEA of 212 patients with gastric cancer,116 patients with benign gastric disease and 117 healthy subjects were retrospectively analyzed;and the diagnostic performance of each tumor marker,four tumor markers based principle component analysis(PCA),decision tree,PCA-decision tree and the fisher discriminant analysis models were established.Results CA242 had the best diagnostic effect on gastric cancer,and the area under the ROC curve (AUC) was 0.841 (95%CI:0.804-0.877).PCA model showed that the serum levels of four tumor markers in patients with gastric cancer were significantly different from those in benign and healthy patients,and obvious metabolic disorders of serum with four tumor markers were found among the patients with gastric cancer.The diagnosis accuracy of the decision tree,PCA-decision tree and the Fisher discriminant analysis models for gastric cancer patients was 58.6%,65.5% and 58.6% respectively,and for non-gastric cancer patients (benign gastric diseases and healthy controls) was 94.7%,99.4% and 97.6%.And the prediction accuracy of the decision tree,PCA-decision tree and the fisher discriminant analysis models for gastric cancer patients was 65.7%,77.6% and 73.1%,and for non-gastric cancer patients was 87.5%,96.9% and 96.9%,respectively.Conclusion The PCA-decision tree model of serum CA72-4,CA242,CA19-9 and CEA might be helpful for the diagnosis and prediction of patients with gastric cancer.
stomach neoplasms;diagnosis;principle component analysis;decision tree analysis;Fisher discriminant analysis
10.3969/j.issn.1671-8348.2017.15.015
四川省衛(wèi)生廳課題資助項目(120336);西南醫(yī)科大學人才基金(2014ZD-017)。 作者簡介:桂林(1986-),技師,碩士,主要從事輸血相關(guān)疾病方面研究?!?/p>
,E-mail:26074937@qq.com。
R735.2
A
1671-8348(2017)15-2060-03
GuiLin,HuangYuanshuai△
(DepartmentofBloodTransfusion,theAffiliatedHospitalofSouthwestMedicalUniversity,Sichuan,Luzhou646000,China)
2016-11-20
2017-01-10)