孫小宇 姚 晨 康曉平△
支持向量機(jī)在建立冠心病早期診斷模型中的應(yīng)用*
孫小宇1姚 晨2康曉平1△
目的探索支持向量機(jī)方法在建立冠心病早期診斷模型中的應(yīng)用,為冠心病危險(xiǎn)因素在早期診斷中的合理應(yīng)用提供理論依據(jù)。方法 首先應(yīng)用logistic回歸分析方法篩選冠心病危險(xiǎn)因素,將有統(tǒng)計(jì)學(xué)意義的危險(xiǎn)因素與24 h動(dòng)態(tài)心電圖檢查結(jié)果共同構(gòu)建支持向量機(jī)模型,并應(yīng)用測(cè)試數(shù)據(jù)集對(duì)各模型的診斷能力進(jìn)行評(píng)價(jià)。結(jié)果 24 h動(dòng)態(tài)心電圖檢查結(jié)果與危險(xiǎn)因素共同構(gòu)建的支持向量機(jī)模型較單獨(dú)應(yīng)用24 h動(dòng)態(tài)心電圖診斷有更好的診斷準(zhǔn)確率和靈敏度,特異度較低。對(duì)應(yīng)用不同變量構(gòu)建的模型進(jìn)行比較,應(yīng)用24 h動(dòng)態(tài)心電圖,結(jié)合年齡、性別、糖尿病、高血壓構(gòu)建的模型診斷效果較好,準(zhǔn)確率為70.35%,靈敏度為90.27%,特異度為34.76%。結(jié)論 應(yīng)用支持向量機(jī)可以建立合適的冠心病早期診斷模型;結(jié)合主要危險(xiǎn)因素進(jìn)行冠心病的早期診斷可以提高診斷準(zhǔn)確率。
支持向量機(jī) 冠心病 診斷模型 24 h動(dòng)態(tài)心電圖
*:“十一五”國(guó)家科技支撐計(jì)劃項(xiàng)目(2006BAI01A02)
1.北京大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)系(100191)
2.北京大學(xué)第一醫(yī)院(100034)
△通訊作者:康曉平,E-mail:Xpkang@bjmu.edu.cn
冠狀動(dòng)脈粥樣硬化性心臟病(簡(jiǎn)稱冠心病)已成為世界范圍內(nèi)的首位死亡原因,明確診斷是防治的首要任務(wù)〔1〕?,F(xiàn)研究已證實(shí),核素心肌灌注顯像、冠狀動(dòng)脈成像、冠狀動(dòng)脈造影等檢查方法的診斷能力較強(qiáng)〔2-4〕。但這些方法由于設(shè)備昂貴、操作技術(shù)要求高、檢查費(fèi)用高且為侵入性檢查,使它們更適用于疾病的確定性診斷,而不適合在早期診斷中應(yīng)用,特別是在基層醫(yī)院還不能作為常規(guī)檢查普及?;谠搯栴},一些研究者提出了聯(lián)合多種無創(chuàng)檢查方法的診斷策略,其中研究較多的是動(dòng)態(tài)心電圖、運(yùn)動(dòng)心電圖及多排螺旋CT冠脈成像之間的組合。但聯(lián)合診斷雖能一定程度上提高疾病診斷效率,卻同樣存在技術(shù)、人員、費(fèi)用上的限制。美國(guó)冠心病診療指南中提出,冠心病的診斷應(yīng)結(jié)合對(duì)直接危險(xiǎn)因素的評(píng)估進(jìn)行〔5〕。在中國(guó)基層醫(yī)院的臨床實(shí)踐中,醫(yī)生對(duì)冠心病的診治多數(shù)憑個(gè)人臨床經(jīng)驗(yàn),缺少科學(xué)應(yīng)用指南的循證依據(jù),導(dǎo)致較高的假陰性率或假陽(yáng)性率出現(xiàn)。在影響冠心病的眾多因素中,哪些組合能提高診斷的靈敏度和特異度,有關(guān)的研究較少。因此,本研究將應(yīng)用支持向量機(jī)(support vectormachine,SVM)這種可以解決非線性可分問題的模式識(shí)別方法,結(jié)合臨床中普及面較廣的24 h動(dòng)態(tài)心電圖檢查及冠心病常見危險(xiǎn)因素,建立不同組合的冠心病診斷模型,并比較其診斷準(zhǔn)確率,探索適用于冠心病早期診斷的組合模型。
數(shù)據(jù)來源于國(guó)內(nèi)20家三級(jí)甲等醫(yī)院中自2000年1月至2007年12月期間就診疑診冠心病并初次進(jìn)行診斷性冠脈造影患者的資料。本文選取其中進(jìn)行24h動(dòng)態(tài)心電圖檢查,并能提供人口學(xué)及現(xiàn)病史資料的病例,共3 469例。其中,確診為冠心病者為2 237例,非冠心病者1 232例;性別分布為男性2 144例,女性1 325例,平均年齡為61歲。
(1)金標(biāo)準(zhǔn)的選擇 本研究中冠心病診斷的金標(biāo)準(zhǔn)為冠狀動(dòng)脈造影檢查結(jié)果,其中以至少一支主要冠狀動(dòng)脈或其主要分支的內(nèi)徑有≥50%的狹窄診斷為陽(yáng)性。
(2)24h動(dòng)態(tài)心電圖診斷標(biāo)準(zhǔn) 診斷結(jié)果共分為三類,即明確心肌缺血改變、可疑缺血改變以及正常,定義如下:明確心肌缺血改變:ST段呈水平型或下斜型壓低≥1mm且持續(xù)時(shí)間≥1min,且兩次缺血發(fā)作間隔至少1min;可疑缺血改變:有ST段壓低、T波倒置或高尖、QT間期延長(zhǎng)、U波倒置等缺血心電圖表現(xiàn),但未達(dá)到明確心肌缺血改變?cè)\斷標(biāo)準(zhǔn);或室性早搏≥100次/24h;或II度2型房室傳導(dǎo)阻滯。
(3)影響因素的篩選及賦值
以金標(biāo)準(zhǔn)診斷的是否患病為因變量,以患者性別、年齡、體質(zhì)指數(shù)、吸煙史、飲酒史、是否患有高血壓、高脂血癥、糖尿病、腦血管病等為自變量進(jìn)行l(wèi)ogistic回歸,應(yīng)用后退法篩選變量,檢驗(yàn)水準(zhǔn)定為0.10。經(jīng)篩選具有統(tǒng)計(jì)學(xué)意義的主要危險(xiǎn)因素(年齡、性別、是否患有高血壓、高脂血癥、糖尿病)及24h動(dòng)態(tài)心電圖檢查結(jié)果的賦值見表1。
該理論是Vapnik等人1995年首先提出來的一種模式識(shí)別的新方法,在解決有限樣本、非線性及高維問題中表現(xiàn)出特有的優(yōu)勢(shì),它追求的是在現(xiàn)有信息下的最優(yōu)解,克服了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法中合理結(jié)構(gòu)難以確定和存在局部最優(yōu)等缺陷,大大提高了學(xué)習(xí)方法的推廣能力〔6〕。
表1 篩選出的各變量賦值表
支持向量機(jī)通過非線性映射φ:Rn→H,將輸入空間的樣本映射到高維特征空間H中,在該空間中構(gòu)造最優(yōu)分類超平面。該最優(yōu)分類平面以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為原則,使錯(cuò)分個(gè)數(shù)最少以保證經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,間隔最大使推廣界的置信范圍最小。當(dāng)數(shù)據(jù)為二維兩類線性可分,假設(shè)分類面方程為ω·x+b=0,將判別函數(shù)進(jìn)行歸一化后,則要求所有樣本滿足如下約束:
其中,支持向量(SV)就是使式(1)中等號(hào)成立的樣本,其是訓(xùn)練集中的關(guān)鍵元素,它們離決策邊界最近。分類間隔算式為:
為控制模型推廣能力,則需最大化分類間隔,即通過最小化‖ω‖2來實(shí)現(xiàn)。為解決此問題,引入如式(3)所示Lagrange函數(shù):
式中αi>0為L(zhǎng)agrange系數(shù),此函數(shù)對(duì)ω和b最小化,對(duì)αi最大化。將上述問題轉(zhuǎn)化為其對(duì)偶問題,根據(jù)KKT條件,最終求解得到的最優(yōu)分類函數(shù)是:
當(dāng)需要將輸入空間映射到高維特征空間時(shí),只需通過核函數(shù) K,使得 K(xi,xj)= φ(xi)·φ(xj),就可以得到高維特征空間中的內(nèi)積,相應(yīng)的決策函數(shù)就變?yōu)椋?/p>
常用的核函數(shù)有多項(xiàng)式核函數(shù)、徑向基核函數(shù)、Sigmoid核函數(shù)等。當(dāng)訓(xùn)練樣本為線性不可分時(shí),將允許一些錯(cuò)分點(diǎn)的存在,此時(shí)引入一個(gè)非負(fù)松弛變量ξi≥1,i=1,…,l。此時(shí),式(1) 變?yōu)椋?/p>
則是在上述條件下求下列目標(biāo)函數(shù)的極小值:
其中,C是一個(gè)用戶自定義的懲罰因子,用于控制對(duì)錯(cuò)分的懲罰程度,以保持樣本偏差與機(jī)器泛化能力之間的平衡。這樣,同時(shí)考慮最少錯(cuò)分樣本和最大分類間隔,就得到了線性不可分情況下的最優(yōu)超平面。
本研究中應(yīng)用的核函數(shù)為支持向量機(jī)中應(yīng)用較多的徑向基核函數(shù),應(yīng)用中需要確定的參數(shù)有g(shù)和C,借助參數(shù)尋優(yōu)函數(shù),分別在10-2~102之間尋找,經(jīng)交叉驗(yàn)證為最優(yōu)結(jié)果時(shí),確定兩參數(shù)的值。
研究中將所有病例資料隨機(jī)抽取70%(2 427例)為訓(xùn)練樣本,剩余30%(1 042例)為測(cè)試樣本,訓(xùn)練樣本用于構(gòu)建支持向量機(jī)模型,測(cè)試樣本用于評(píng)價(jià)模型的分類效果。準(zhǔn)確率、靈敏度及特異度為模型好壞的評(píng)價(jià)指標(biāo)。
計(jì)量指標(biāo)以均數(shù)和標(biāo)準(zhǔn)差描述,計(jì)數(shù)指標(biāo)以例數(shù)及百分?jǐn)?shù)描述。
支持向量機(jī)模型的建立應(yīng)用Matlab 7.0軟件,結(jié)合臺(tái)灣林智仁教授等編寫的Libsvm-2.89-3支持向量機(jī)工具包實(shí)現(xiàn)〔7〕;統(tǒng)計(jì)學(xué)描述應(yīng)用SAS 9.1.3軟件實(shí)現(xiàn)。
測(cè)試數(shù)據(jù)集內(nèi)樣本共1 042例,其中非冠心病患者374例,冠心病患者668例。通過將24h動(dòng)態(tài)心電圖診斷結(jié)果中可疑心肌缺血和明確心肌缺血?dú)w類為陽(yáng)性,正常為陰性,24h動(dòng)態(tài)心電圖檢查結(jié)果的診斷靈敏度為68.11%,特異度為44.12%,準(zhǔn)確率為59.50%。對(duì)測(cè)試數(shù)據(jù)集內(nèi)研究對(duì)象的基本情況進(jìn)行描述性統(tǒng)計(jì),結(jié)果見表2。
表2 測(cè)試數(shù)據(jù)集內(nèi)研究對(duì)象基本情況描述
以是否患有冠心病為因變量,對(duì)變量進(jìn)行l(wèi)ogistic回歸分析篩選主要的因素,表3列出有統(tǒng)計(jì)學(xué)意義的變量及統(tǒng)計(jì)量。
表3 logistic回歸模型的變量及統(tǒng)計(jì)量
應(yīng)用Libsvm-2.89-3工具包及Matlab 7.0軟件建立支持向量機(jī)模型,核函數(shù)選擇徑向基函數(shù)。將納入的研究因素劃分為人口學(xué)因素及現(xiàn)病史兩部分,人口學(xué)因素包括年齡及性別,現(xiàn)病史包括高血壓、高脂血癥及糖尿病。首先應(yīng)用24h動(dòng)態(tài)心電圖檢查結(jié)果與人口學(xué)因素構(gòu)建診斷模型,繼而根據(jù)OR值大小依次納入病史信息,分別構(gòu)建不同的模型。不同模型的參數(shù)選取及測(cè)試結(jié)果如表4所見。
表4 納入不同變量構(gòu)建模型的參數(shù)及評(píng)價(jià)
支持向量機(jī)方法已逐漸應(yīng)用在醫(yī)學(xué)診斷領(lǐng)域,尤其對(duì)于一些非線性可分?jǐn)?shù)據(jù),更顯示了它的優(yōu)勢(shì),并且其設(shè)計(jì)簡(jiǎn)單,建模涉及參數(shù)較少〔8〕。本研究中建立的支持向量機(jī)模型僅有兩個(gè)參數(shù),分別為徑向基核函數(shù)的參數(shù)g以及懲罰因子C。在既往一些研究中,模型參數(shù)通常使用默認(rèn)值,但此時(shí)建立的模型很可能不是最優(yōu)模型。武振宇等人的研究中提到,應(yīng)對(duì)核函數(shù)參數(shù)進(jìn)行調(diào)整,以確定最優(yōu)參數(shù)〔9〕。本研究中應(yīng)用了參數(shù)尋優(yōu)函數(shù),對(duì)選取不同參數(shù)的模型進(jìn)行比較,確定最優(yōu)參數(shù)。研究中五個(gè)模型的最優(yōu)參數(shù)g變動(dòng)幅度不大,包括0.25和0.5兩種取值,而懲罰因子C變動(dòng)稍大,取值變化范圍為0.5~8。懲罰因子反應(yīng)了模型對(duì)離群點(diǎn)的重視程度,當(dāng)離群點(diǎn)帶來的損失不容忽視時(shí),則需要相應(yīng)提高懲罰因子的大小。在應(yīng)用年齡、性別和24h動(dòng)態(tài)心電圖構(gòu)建模型時(shí),可能由于僅有三個(gè)變量用于建模,一些離群點(diǎn)對(duì)于模型構(gòu)建的影響不可忽視,因此,經(jīng)尋優(yōu)函數(shù)選取的最優(yōu)C值為8,較其他模型的C值大。由于計(jì)算機(jī)業(yè)的迅速發(fā)展,用支持向量機(jī)計(jì)算及建立模型的方法變得簡(jiǎn)單,應(yīng)用中的關(guān)鍵則是如何進(jìn)行參數(shù)尋找、評(píng)價(jià)模型效果及建立合適的模型。
本研究中,僅用24h動(dòng)態(tài)心電圖檢查診斷冠心病時(shí)診斷靈敏度為68.11%,特異度為44.12%,準(zhǔn)確率為59.50%。構(gòu)建支持向量機(jī)模型時(shí),在24h動(dòng)態(tài)心電圖檢查的基礎(chǔ)上加入人口學(xué)因素,模型的診斷準(zhǔn)確率及靈敏度高于單獨(dú)應(yīng)用24h動(dòng)態(tài)心電圖,但特異度有所下降;繼而根據(jù)OR值的大小先后在模型中加入是否患有糖尿病、高血壓,模型的準(zhǔn)確率及靈敏度得到了進(jìn)一步的上升,特異度變化不大,均較低。這說明了對(duì)與冠心病密切相關(guān)的危險(xiǎn)因素水平的評(píng)估有助于冠心病診斷靈敏度的提高。但在加入高脂血癥后,模型的準(zhǔn)確率有所下降,這與既往研究中高脂血癥與冠心病關(guān)系密切的研究結(jié)果不符,這可能由于本研究中病例組和對(duì)照組的高脂血癥患病率均較高,分別為57.04%和51.60%,遠(yuǎn)高于2006年中國(guó)心血管病報(bào)告中的血脂異?;疾÷?8.6%〔10〕。導(dǎo)致這種情況發(fā)生的原因可能與本研究納入標(biāo)準(zhǔn)有關(guān),本研究所選病例為同時(shí)進(jìn)行了24h動(dòng)態(tài)心電圖及冠狀動(dòng)脈造影的患者,為疑診冠心病患者,其血脂水平可能高于正常人群,而兩組高脂血癥患病率均高掩蓋了血脂因素對(duì)疾病的影響。對(duì)于logistic回歸中OR值較小的年齡,考察將其移除模型的診斷結(jié)果,雖然靈敏度有所提高,但特異度大幅度下降,準(zhǔn)確率也有所下降,因此,作為冠心病的直接危險(xiǎn)因素,年齡應(yīng)保留在模型中。本研究中的各模型診斷特異度均不高,一方面由于支持向量機(jī)模型以高總體正確率為目標(biāo),若樣本中患者數(shù)多于非患者數(shù),兩類的不均衡導(dǎo)致少數(shù)類錯(cuò)分更多,特異度有可能較低。在下一步的工作中,可考慮嘗試一些解決非均衡數(shù)據(jù)問題的新方法構(gòu)建模型〔11〕,探索提高特異度的方法;另一方面,本研究是將24h動(dòng)態(tài)心電圖檢查結(jié)果與各種冠心病高危因素組合后出現(xiàn)的假陽(yáng)性增高現(xiàn)象,使誤診率升高,這也說明在冠心病的早期診斷中,將高危人群納入監(jiān)測(cè)是非常重要的。
冠心病的早期診斷對(duì)及時(shí)治療疾病,控制病情發(fā)展有重要意義,但應(yīng)用何種早期診斷方法一直是研究的熱點(diǎn)。一些診斷效率高的診斷方法對(duì)操作人員、檢查費(fèi)用等均有較高要求,不適于基層醫(yī)院的應(yīng)用和疾病的早期診斷;其他檢查方法如靜息心電圖的診斷效率較低,運(yùn)動(dòng)或藥物負(fù)荷心電圖對(duì)操作者、患者狀態(tài)均有要求,這些不足也限制了他們與其他無創(chuàng)檢查方法聯(lián)合診斷的推廣和應(yīng)用。因此,探索適合冠心病早期診斷的方法有重要意義。美國(guó)冠心病診斷與治療指南中提出冠心病的診斷需結(jié)合冠心病的直接危險(xiǎn)因素進(jìn)行,因此,本研究探索了結(jié)合危險(xiǎn)因素進(jìn)行早期診斷,為其在臨床實(shí)踐中應(yīng)用提供理論依據(jù)。結(jié)果顯示,在應(yīng)用較易實(shí)現(xiàn)的24h動(dòng)態(tài)心電圖檢查的基礎(chǔ)上,結(jié)合患者年齡、性別、是否患有糖尿病、高血壓的情況,借助支持向量機(jī)模型,提高了對(duì)冠心病診斷的準(zhǔn)確率和靈敏度。盡管診斷模型的特異度不高,但對(duì)于冠心病一類有確定性診斷方法且有系統(tǒng)治療方案的疾病,早期診斷的高靈敏度即降低疾病的漏診率至關(guān)重要,且被誤診的患者亦是冠心病的高危人群,應(yīng)予以重視。
1.The global burden of disease:2004 update.http://www.who.int/healthinfo/global_burden_disease/2004_report_update/en/index.htm l.
2.Loong CY,Anagnostopoulos C.Diagnosis of coronary artery disease by radionuclide myocardial perfusi on imaging.Heart,2004,90 Suppl5:v2-v9.
3.M iller JM,Rochitte CE,Dewey M,et al.Diagnostic performance of coronary angiography by 64-row CT.N Engl JMed,2008,359(22):2324-2336.
4.Hamon M,Biondi-Zoccai GG,Malagutti P,et al.Diagnostic performance ofmultislice spiral computed tomography of coronary arteries as compared with conventional invasive coronary angiography:a meta-analysis.JAm Coll Cardiol,2006,48(9):1896-1910.
5.Gibbons RJ,Abrams J,Chatterjee K,et al.ACC/AHA 2002 guideline update for the management of patients with chronic stable angina—summary article:a report of the American College of Cardiology/American Heart Association Task Force on practice guidelines(Committee on the Management of Patients With Chronic Stable Angina).JAm Coll Cardiol,2003,41(1):159-168.
6.高雋.人工神經(jīng)網(wǎng)絡(luò)原理與仿真實(shí)例.北京:機(jī)械工業(yè)出版社,2007,78-93.
7.Chang C,Lin C.LIBSVM—A Library for Support Vector Machines.http://www.csie.ntu.edu.tw/~cjlin/libsvm/.
8.李磊,黃水平.支持向量機(jī)原理及其在醫(yī)學(xué)分類中的應(yīng)用.中國(guó)衛(wèi)生統(tǒng)計(jì),2009(1):22-25.
9.武振宇,李康.支持向量機(jī)在基因表達(dá)數(shù)據(jù)分類中的應(yīng)用研究.中國(guó)衛(wèi)生統(tǒng)計(jì),2007(1):8-10.
10.孔靈芝,胡盛獸.中國(guó)心血管病報(bào)告.北京:中國(guó)大百科全書出版社,2006,21-21.
11.解丹蕊,韓建新,薛惠鋒,等.非均衡數(shù)據(jù)的支持向量機(jī)新方法.計(jì)算機(jī)應(yīng)用研究,2009(5):1654-1656.
The Application of Support Vector Machine in Building the Early Diagnostic Model of Coronary Artery Disease
SunXi-aoyu,YaoChen,KangXiaoping.DepartmentofEpidemiologyand Biostatistics,SchoolofPublicHealth,PekingUniversity(100191),Beijing
Objective To explore the application of the Support Vector Machine(SVM)in the diagnosis of Coronary Artery Disease(CAD);And to provide the theory basis for the usage of risk factors in the early diagnosis.Methods Backward logistic regression was used to choose significant variables.We used significant variables and 24-hour holter to build the SVM.Then different models were evaluated with the same test dataset.ResultsThe accuracy and sensitivity of the SVM which was built with risk factors were higher than 24-hour holter to diagnose CHD,and the specificity was lower.After contrasting the diagnostic capabilities among different SVM models,we found that the model built with 24-hour holter,combined with age,sex,diabetes,hypertension was better.The accuracy was 70.35%,the sensitivity was 90.27% and the specificity was 34.76%.ConclusionSVM could be used as the early diagnostic method for CHD,and the accuracy of early diagnosis would be higher in consideration of major risk factors.
Support vector machine;Coronary artery disease;Diagnostic model;24-hour holter
中國(guó)衛(wèi)生統(tǒng)計(jì)2011年2期