摘 要:針對(duì)重癥監(jiān)護(hù)室病人接受呼吸器插管治療后,肺炎感染狀況無(wú)法得到實(shí)時(shí)監(jiān)控和診斷的問(wèn)題,提出了一種基于支持向量機(jī)模型的呼吸器肺炎檢測(cè)方案。使用電子鼻裝置采集未注射抗生素病人的呼出氣體作為實(shí)驗(yàn)數(shù)據(jù),建立了支持向量機(jī)肺炎檢測(cè)模型,利用交叉驗(yàn)證和受試者工作特征曲線對(duì)模型的穩(wěn)定性和準(zhǔn)確性進(jìn)行分析。實(shí)驗(yàn)結(jié)果表明,支持向量機(jī)模型對(duì)呼吸器肺炎感染檢測(cè)是非常穩(wěn)定、有效的,為醫(yī)師早期用藥提供科學(xué)有效的參考。
關(guān)鍵詞:呼吸器肺炎;支持向量機(jī);交叉驗(yàn)證;受試者工作特征曲線
中圖分類(lèi)號(hào):TP391.4
文獻(xiàn)標(biāo)識(shí)碼: A
呼吸器肺炎(Ventilator-associated Pneumonia, VAP)[1]的傳統(tǒng)診斷方法中,痰液檢查只有40%的病人能夠得到診斷;藉由血液培養(yǎng)方式只有20%的病人有陽(yáng)性反應(yīng)[2];氣管鏡檢查和皮胸部穿刺檢查診斷可信度較高,卻為侵襲式檢測(cè)方式,致病風(fēng)險(xiǎn)度高,易造成病患死亡;X光檢查可以確診病人是否感染肺炎,卻無(wú)法判別感染肺炎的菌種[3]。
近年來(lái),隨著醫(yī)學(xué)的發(fā)展進(jìn)步,非侵襲式檢測(cè)及診斷方法不斷研究發(fā)展,呼吸氣體診斷越來(lái)越受到醫(yī)學(xué)界的重視,且將其視為非侵襲式診斷的重要方式之一。本研究提出基于支持向量機(jī)(Support Vector Machine, SVM)模型的VAP檢測(cè)算法。通過(guò)使用電子鼻采集病人呼吸氣體,建立SVM模型對(duì)病人是否感染肺炎進(jìn)行實(shí)時(shí)有效預(yù)測(cè),最后計(jì)算SVM模型的受試者工作特征曲線下面積,對(duì)模型的準(zhǔn)確度進(jìn)行評(píng)估。
1 相關(guān)工作
施崇鴻等[4]提出可以藉由病患身體發(fā)散出來(lái)的揮發(fā)性有機(jī)化合物進(jìn)行其組成成分的分析,作為診斷病患是否感染肺炎的依據(jù)。王家銘[5]使用K個(gè)最鄰近點(diǎn)分類(lèi)器(K-nearest Neighbor Classifier,KNN)進(jìn)行肺炎辨識(shí),肺炎菌種的辨識(shí)度約75%。在上述的肺炎檢測(cè)研究中,電子鼻已廣泛應(yīng)用于呼吸氣體的采集與檢測(cè),但VAP的檢測(cè)準(zhǔn)確率均有待提高,數(shù)據(jù)分析方法也有待進(jìn)一步完善。如何能夠快速、精準(zhǔn)地檢測(cè)ICU病人是否感染VAP,是當(dāng)前肺炎臨床診斷治療的重要研究課題。
2 實(shí)驗(yàn)數(shù)據(jù)和方法
2.1實(shí)驗(yàn)數(shù)據(jù)
本研究使用Cyranose-320型電子鼻裝置對(duì)病患進(jìn)行呼出氣體數(shù)據(jù)采集,肺炎氣體數(shù)據(jù)來(lái)源為臺(tái)北醫(yī)學(xué)大學(xué)醫(yī)院。為防止因醫(yī)師實(shí)施治療導(dǎo)致肺炎致病細(xì)菌發(fā)生變異,本研究采集未注射抗生素病人的呼吸氣體作為實(shí)驗(yàn)數(shù)據(jù)。數(shù)據(jù)采集從病患的胸腔和呼吸器吐氣端口兩個(gè)位置進(jìn)行。首先將轉(zhuǎn)接頭連接氣管插管,然后將采集管兩端分別接在轉(zhuǎn)接頭的抽氣口以及500 CC的負(fù)壓瓶后開(kāi)始抽氣,每個(gè)病人皆在兩個(gè)部位各取樣5瓶氣體。為確保病患安全,取樣過(guò)程皆由專業(yè)醫(yī)護(hù)人員進(jìn)行,取樣時(shí)間限制在10 s。
ICU中常見(jiàn)的肺炎病菌有5種:克雷伯氏菌、鮑氏不動(dòng)桿菌、大腸桿菌、葡萄球菌以及綠膿桿菌[6]。在本研究中,雖然采集了多種肺炎菌種氣體數(shù)據(jù),但多數(shù)菌種數(shù)據(jù)數(shù)量皆過(guò)少。因此,只取用樣本數(shù)量較多的綠膿桿菌數(shù)據(jù)作為VAP檢測(cè)指標(biāo)氣體,數(shù)據(jù)共計(jì)3780筆。
2.2 SVM演算方法
SVM是由Cortes C等[7]根據(jù)統(tǒng)計(jì)學(xué)理論所提出的一種新的機(jī)器學(xué)習(xí)方法,主要應(yīng)用于特征的分類(lèi)以及回歸。SVM是基于一群已經(jīng)分類(lèi)好的數(shù)據(jù),通過(guò)訓(xùn)練得到一組分類(lèi)模型,對(duì)于日后尚未分類(lèi)的數(shù)據(jù),能夠根據(jù)先前訓(xùn)練出來(lái)的模型去預(yù)測(cè)尚未分類(lèi)數(shù)據(jù)的所屬類(lèi)別[8]。
SVM模型的主要參數(shù)包括懲罰系數(shù)C和核函數(shù)參數(shù)σ [9]。SVM算法中參數(shù)的選擇對(duì)SVM的學(xué)習(xí)性能非常重要,合理的參數(shù)值可以使SVM具有更高的訓(xùn)練精度以及更強(qiáng)的泛化能力。因此,本研究將首先篩選出最優(yōu)化的C和σ參數(shù)組合,并在最優(yōu)化的C和σ參數(shù)組合下建立SVM模型,以期模型有更好的分類(lèi)性能。根據(jù)林智仁[10]的建議,C和σ的取值范圍一般為2-5,2-4,...,24,25。
為了選擇最優(yōu)化的C和σ參數(shù)組合,SVM模型建立過(guò)程如圖1所示。
(1)首先,將整個(gè)數(shù)據(jù)集分為三部分:80%的訓(xùn)練數(shù)據(jù)集、10%的驗(yàn)證數(shù)據(jù)集和10%的測(cè)試數(shù)據(jù)集。感染肺炎數(shù)據(jù)標(biāo)記為“Infection”,未感染肺炎數(shù)據(jù)標(biāo)記為“Non-infection”。
(2)針對(duì)不同的C和σ參數(shù)組合,SVM模型不斷更新核函數(shù)進(jìn)行訓(xùn)練和驗(yàn)證。當(dāng)驗(yàn)證結(jié)果的準(zhǔn)確率最大時(shí),表示SVM模型的分類(lèi)誤差最小,從而得到最優(yōu)化的參數(shù)組合,模型停止訓(xùn)練。
(3)確定模型結(jié)構(gòu),并使用測(cè)試數(shù)據(jù)集對(duì)模型進(jìn)行測(cè)試。測(cè)試數(shù)據(jù)集主要用來(lái)測(cè)試模型的泛化性能,防止過(guò)度訓(xùn)練現(xiàn)象的出現(xiàn)。
2.3 交叉驗(yàn)證
使輸入值所對(duì)應(yīng)的實(shí)際輸出值等于或者近似等于目標(biāo)輸出值,是SVM預(yù)測(cè)模型的最終目標(biāo)。然而在模型訓(xùn)練過(guò)程中,訓(xùn)練數(shù)據(jù)可以匹配得非常好,但是當(dāng)輸入新的未知的數(shù)據(jù)集合時(shí),SVM模型預(yù)測(cè)表現(xiàn)卻很差,這種現(xiàn)象稱為過(guò)度訓(xùn)練。為了避免過(guò)度訓(xùn)練現(xiàn)象的發(fā)生,使用交叉驗(yàn)證方法來(lái)評(píng)估SVM模型的泛化性能。K次交叉驗(yàn)證是應(yīng)用最廣泛的驗(yàn)證形式[11,12]。把數(shù)據(jù)集分割成K個(gè)子集,一個(gè)單獨(dú)的子集用來(lái)驗(yàn)證模型,其他K-1個(gè)樣本子集用來(lái)訓(xùn)練模型,交叉驗(yàn)證重復(fù)K次,每個(gè)子樣本驗(yàn)證一次,平均K次的結(jié)果或者使用其它結(jié)合方式,最終得到一個(gè)單一預(yù)測(cè)值。
基于上述交叉驗(yàn)證方法,本研究采用六折交叉驗(yàn)證,將整個(gè)數(shù)據(jù)集隨機(jī)分為六等份,一部分作為測(cè)試數(shù)據(jù)集,剩下的五個(gè)部分作為訓(xùn)練數(shù)據(jù)集。該過(guò)程重復(fù)六次,從而生成具有不同測(cè)試數(shù)據(jù)的六個(gè)數(shù)據(jù)集(數(shù)據(jù)集1,數(shù)據(jù)集2,…,數(shù)據(jù)集6)。
2.4 受試者工作特征曲線分析
受試者工作特征曲線(The Receiver Operating Characteristic Curve, ROC)分析已廣泛應(yīng)用于分類(lèi)器性能的評(píng)估[13]。本研究中,ROC曲線分析也用于評(píng)估SVM肺炎檢測(cè)模型的辨識(shí)性能。ROC曲線下面積(The Area Under the ROC Curve, AUC)是分類(lèi)器性能的主要指標(biāo)[14]。當(dāng)AUC等于1.0時(shí)表示分類(lèi)器是完美的;當(dāng)AUC小于0.5時(shí)表示辨識(shí)方法完全不起作用,在實(shí)際運(yùn)用中基本上不會(huì)出現(xiàn)[15]。為了直觀描述SVM模型的準(zhǔn)確度,計(jì)算SVM模型的準(zhǔn)確度(Accuracy, ACC)、靈敏度(Sensitivity, SEN)、陽(yáng)性預(yù)測(cè)值(Positive Predictive Value,PPV),它們是非常重要的呼吸器肺炎診斷指標(biāo)。
3 實(shí)驗(yàn)結(jié)果與分析
根據(jù)上述SVM模型建模方法及流程,建立SVM分類(lèi)器模型,首先針對(duì)模型進(jìn)行最優(yōu)化的參數(shù)選擇。重復(fù)訓(xùn)練過(guò)程以得到最佳化的參數(shù)組合,如表1所示。當(dāng)C= 4,σ= 8時(shí),SVM模型的肺炎辨識(shí)率最高,達(dá)到0.846。
為了評(píng)估SVM肺炎檢測(cè)模型的泛化能力,使用測(cè)試數(shù)據(jù)集對(duì)模型進(jìn)行交叉測(cè)試。SVM模型交叉驗(yàn)證的結(jié)果如表2所示,SVM模型的ACC平均值為0.8789±0.0359(平均值±標(biāo)準(zhǔn)差),SEN平均值為0.9202±0.0556,PPV平均值為0.8513±0.0409。ACC、SEN、PPV三個(gè)指標(biāo)的平均值大且標(biāo)準(zhǔn)差值小說(shuō)明SVM肺炎辨識(shí)模型是穩(wěn)定可靠的。
為了評(píng)估SVM模型的分類(lèi)性能,對(duì)SVM模型的ROC曲線進(jìn)行分析,并計(jì)算ROC曲線下AUC,如表2所示。模型的曲線下面積AUC平均值為0.9419±0.0350。ROC曲線下面積AUC在0.9以上且標(biāo)準(zhǔn)差較小,說(shuō)明SVM分類(lèi)器具有很好的分類(lèi)效果,是非常不錯(cuò)的分類(lèi)模型。
4 結(jié)語(yǔ)
本研究中,使用SVM演算方法建立了有效辨識(shí)肺炎感染的檢測(cè)模型。SVM模型兩個(gè)重要參數(shù)C和σ的取值范圍為2-5,2-4,...,24,25,并在最優(yōu)化參數(shù)組合下進(jìn)行模型訓(xùn)練和測(cè)試,測(cè)試結(jié)果類(lèi)似于“局部最優(yōu)化”,而實(shí)際上C和σ參數(shù)并不局限于此特定區(qū)間。同時(shí),SVM模型使用的核函數(shù)為徑向基函數(shù),它是SVM分類(lèi)模型中使用最多的核函數(shù),而SVM常用的核函數(shù)還包括齊次多項(xiàng)式函數(shù)、非齊次多項(xiàng)式函數(shù)、雙曲正切函數(shù)等。未來(lái)工作中,將擴(kuò)大SVM模型重要參數(shù)的取值范圍,并使用不同核函數(shù)建立模型,以期SVM模型有更好的肺炎辨識(shí)表現(xiàn)。同時(shí),將繼續(xù)使用更高階的演算方法建立模型,包括“Weka”、MATLAB等軟件,并整合多種演算方法,以使肺炎辨識(shí)模型的準(zhǔn)確率更高,穩(wěn)定性更好。
由于肺炎病患數(shù)據(jù)資料有限,本研究中以綠膿桿菌作為肺炎檢測(cè)的指標(biāo)氣體進(jìn)行肺炎感染預(yù)測(cè)。而常見(jiàn)的肺炎病菌有5種:克雷伯氏菌、鮑氏不動(dòng)桿菌、大腸桿菌、葡萄球菌以及綠膿桿菌。按致病菌種的不同,肺炎又可分為病毒性肺炎、細(xì)菌性肺炎、支原體肺炎、真菌性肺炎以及其他非感染因素所引發(fā)肺炎等。未來(lái)工作中,將收集更多的病患數(shù)據(jù)資料,建立病患資料數(shù)據(jù)庫(kù),不斷完善傳感器的功能和制成,對(duì)多種不同肺炎致病菌進(jìn)行辨識(shí),并測(cè)試系統(tǒng)的強(qiáng)健性和適應(yīng)性,不斷完善模型的結(jié)構(gòu)和功能。
參考文獻(xiàn):
[1]Chastre J, Fagon J Y. Ventilator-associated pneumonia[J]. Amer. J. Resp. Crit. Care Med, 2002, 16(5): 867-903.
[2]Morehead R, Pinto S. Ventilator-associated pneumonia[J].Arch.Intern. Med, 2000, 16(4): 1926-1936.
[3]Koenig S M,Truwit J D. Ventilator-Associated Pneumonia: Diagnosis, treatment, and prevention[J]. Clin. Microbiol. Rev, 2006, 19(11): 637-657.
[4]施崇鴻, 鄭桂忠. 以電子鼻系統(tǒng)芯片早期預(yù)測(cè)及同步診斷使用人工呼吸器病患的肺炎菌種[R]//科技部補(bǔ)助專題研究計(jì)劃成果報(bào)告.新竹:新竹科技園, 2015: 45-55.
[5]王家銘. 利用樣式識(shí)別實(shí)現(xiàn)電子鼻肺炎偵測(cè)[D]. 新竹: 國(guó)立清華大學(xué), 2013.
[6]Gibson T D, Prosser O, Hulbert J N. Detection and simultaneous identification of microorganisms from head space samples using an electronic nose[J]. Sensors and Actuators B: Chemical, 2007, 11(2): 413-422.
[7]Cortes C,Vapnik V. Support vector networks[J]. Machine Learning, 1995, 20(5): 273-297.
[8]Drucker H, Burgers C, Kaufman L. Support vector regression machines[J]. Advanced in neural information processing system, 1996,28(7):779-784.
[9]Freund Y,Schapire R E. A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of computer and System Sciences, 2017, 5(7): 22-31.
[10]Ho C H, Lin C J. Large-scale linear support vector regression[J]. Journal of machine learning research, 2012, 13(26): 3323-3348.
[11]Prechelt L. Automatic early stopping using cross validation: quantifying thecriteria[J]. Neural networks, 2013, 11(5): 761-767.
[12]Rodríguez J D, Pérez A, Lozano J A. Sensitivity analysis of k-fold cross validation in prediction error estimation[J]. IEEE Trans. Pattern Anal. Mach.Intell, 2010, 32(3): 569-575.
[13]Downey T J, Maker D J. Price R K. Using the receiver operating characteristic to assess the performance of neural classifiers[J]. Int. Joint Conf. Neural Networks, 2009, 5(12): 3642-3646.
[14]Dougherty S,Boweyer K W, Kranenburg C. ROC curve evaluation of edge detector performance[J]. Proc. Int. Conf. Image Processing, 2008, 2(13): 525-529.
[15]DeLeo J M, Rosenfeld S J. Essential roles for receiver operating characteristic (ROC) methodology in classifier neural network applications[J]. Proc. Int. Conf. Image Processing, 2011, 4(3): 2730-2739.
(責(zé)任編輯:曾 晶)