張博超,楊朝,郭立泉,陳靜,熊大曦
1.中國(guó)科學(xué)技術(shù)大學(xué)生物醫(yī)學(xué)工程學(xué)院(蘇州)生命科學(xué)與醫(yī)學(xué)部,安徽合肥市 230026;2.中國(guó)科學(xué)院蘇州生物醫(yī)學(xué)工程技術(shù)研究所,江蘇蘇州市 215163;3.南京醫(yī)科大學(xué)附屬蘇州科技城醫(yī)院呼吸內(nèi)科,江蘇蘇州市215163
慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)是一種常見的,以持續(xù)性氣流受限為特征,可防可治的肺部疾病。氣流受限進(jìn)行性發(fā)展,急性加重以及并發(fā)癥,會(huì)影響疾病的嚴(yán)重程度和預(yù)后[1]。根據(jù)世界衛(wèi)生組織統(tǒng)計(jì),COPD 是全球四大慢病之一,目前已成為全球第三大死因[2]。
COPD 病程可分為穩(wěn)定期和急性加重期。其中,慢性阻塞性肺疾病急性加重(acute exacerbation of chronic obstructive pulmonary disease,AECOPD)表現(xiàn)為呼吸系統(tǒng)癥狀的急性惡化,伴隨著不同程度的生理惡化。AECOPD 降低患者的身體健康狀態(tài)和生活質(zhì)量,加速肺功能下降,與死亡率顯著相關(guān)[3]。
2017 年,320 萬(wàn)人死于COPD,占慢性呼吸系統(tǒng)疾病死亡人數(shù)的81.7%[4]。AECOPD 患者需要住院治療,死亡率約10%[5]。對(duì)COPD 患者病情進(jìn)行有效識(shí)別并早期干預(yù),有助于降低患者的發(fā)病率和死亡率,從而降低COPD惡化所造成的嚴(yán)重社會(huì)經(jīng)濟(jì)負(fù)擔(dān)[6]。
COPD 全球倡議(Global initiative for Chronic Obstructive Lung Disease,GOLD)[3]指南指出,一秒用力呼氣容積(forced expiratory volume in one second,FEV1)和用力肺活量(forced vital capacity,FVC)可作為肺功能檢測(cè)的有效指標(biāo)。根據(jù)這兩個(gè)指標(biāo),可以將病情分為4個(gè)等級(jí)。見表1。
表1 COPD氣流受限嚴(yán)重程度分級(jí)
然而,肺功能檢測(cè)是一種依賴患者與醫(yī)生配合的測(cè)試,測(cè)試結(jié)果取決于測(cè)量技術(shù)和個(gè)人因素。相關(guān)研究表明[7],近一半的肺功能檢查由于未能有效完成測(cè)試而造成數(shù)據(jù)不可靠,且對(duì)治療造成一定困擾。此外,患者在急性加重期入院后仍然存在不確定的病情,有經(jīng)驗(yàn)的醫(yī)療專業(yè)人員也難以給出確切的臨床診斷。
為了準(zhǔn)確對(duì)COPD 患者的病情進(jìn)行分類和有效治療,許多學(xué)者研究機(jī)器學(xué)習(xí)算法來(lái)輔助臨床決策,為醫(yī)生提供多角度的病癥分析。Wu 等[8]利用可穿戴設(shè)備、家庭空氣質(zhì)量傳感設(shè)備和智能手機(jī)應(yīng)用收集患者生活方式、環(huán)境溫濕度等數(shù)據(jù),采用多個(gè)機(jī)器學(xué)習(xí)模型,預(yù)測(cè)患者是否在未來(lái)7 d 內(nèi)經(jīng)歷急性加重。模型可以在一定程度上提供患者的病情發(fā)展趨勢(shì),但是隨訪患者在家庭環(huán)境中收集的數(shù)據(jù)容易受到多種因素干擾,無(wú)法測(cè)量患者戶外的空氣數(shù)據(jù),易造成數(shù)據(jù)質(zhì)量惡化,且患者需要長(zhǎng)期檢測(cè),模型預(yù)測(cè)的高效性有待提高。Zhou 等[9]測(cè)量呼吸頻率、收縮壓、舒張壓、脈率、住院人數(shù)、體溫、吸煙情況等特征,利用CART分類樹(classification and regression tree)預(yù)測(cè)住院患者的病情發(fā)展和預(yù)后。然而,AECOPD 患者的病情發(fā)展受多種因素的影響,該研究使用的幾種常規(guī)特征可能限制了對(duì)患者的準(zhǔn)確判斷。Sanchez-Morillo 等[10]利用AECOPD 早期檢測(cè)的新型電子問卷,采用K-均值聚類分類器幫助醫(yī)生評(píng)估患者早期病情嚴(yán)重程度,該研究使用的樣本量較少,數(shù)據(jù)獲取時(shí)間周期較長(zhǎng),可能會(huì)影響模型預(yù)測(cè)的準(zhǔn)確性和穩(wěn)定性。
本研究提出一種在肺功能檢測(cè)失效的情況下,利用人口統(tǒng)計(jì)參數(shù)和炎癥標(biāo)記物對(duì)AECOPD患者病情進(jìn)行嚴(yán)重程度分類評(píng)估和風(fēng)險(xiǎn)預(yù)測(cè)的方法,利用K-最近鄰(K-nearest neighbors,KNN)、邏輯回歸(logistic regression,LR)、支持向量機(jī)分類(support vector classification,SVC)、樸素貝葉斯(na?ve Bayes,NB)、決策樹(decision tree,DT)和隨機(jī)森林(random forest,RF) 6 種機(jī)器學(xué)習(xí)模型,比較不同學(xué)習(xí)模型在AECOPD分類預(yù)測(cè)方面的性能,并選擇準(zhǔn)確率最高的機(jī)器學(xué)習(xí)模型。選擇多種算法,是因?yàn)樗鼈兇聿煌倪\(yùn)算特性,并被其他研究者廣泛使用。此外,進(jìn)行特征選擇,可以尋找最優(yōu)特征子集。機(jī)器學(xué)習(xí)算法可以通過使用較少的輸入特征,減少數(shù)據(jù)的誤差,同時(shí)也提高分類模型的易用性。
本研究的主要目的:①在6 種分類模型中,識(shí)別出適用于AECOPD患者肺功能嚴(yán)重程度分類的最優(yōu)機(jī)器學(xué)習(xí)模型;②在AECOPD患者進(jìn)行肺功能檢測(cè)失效時(shí),尋找能夠替代肺功能檢測(cè)的患者分類任務(wù)的最優(yōu)特征集;③輔助醫(yī)生根據(jù)不同患者的患病嚴(yán)重程度進(jìn)行多角度患者分類。
COPD惡化是一個(gè)急性發(fā)作的過程,在此過程中,患者的呼吸系統(tǒng)癥狀持續(xù)惡化,頻繁發(fā)作加速患者FEV1的下降。這是患者急性加重的重要參考依據(jù)。由于COPD 患者多為老年人,在急性加重期內(nèi)無(wú)法有效完成肺功能的評(píng)估,這嚴(yán)重影響醫(yī)生對(duì)患者的診斷與預(yù)測(cè)。
機(jī)器學(xué)習(xí)很少應(yīng)用于AECOPD相關(guān)數(shù)據(jù),大多研究側(cè)重于AECOPD 發(fā)生的早期預(yù)測(cè),而不是在AECOPD 發(fā)生時(shí)對(duì)患者病情的正確識(shí)別并且分類。針對(duì)患者無(wú)法有效完成肺功能檢測(cè),且醫(yī)生需要對(duì)AECOPD 患者進(jìn)行正確分類的需求下,本研究建立一個(gè)不需要肺功能檢測(cè)就能準(zhǔn)確預(yù)測(cè)急性加重期患者,并根據(jù)相關(guān)特征將患者進(jìn)行準(zhǔn)確分類的模型,該模型在臨床實(shí)驗(yàn)中具有重要意義。
基于機(jī)器學(xué)習(xí)的AECOPD分類預(yù)測(cè)模型可以分為4 個(gè)步驟。第一階段:收集并建立COPD 患者的數(shù)據(jù)庫(kù),對(duì)符合要求患者的病況進(jìn)行觀察和檢測(cè)。第二階段:對(duì)數(shù)據(jù)進(jìn)行單因素分析,選擇并提取合適的特征,并對(duì)數(shù)據(jù)上采樣進(jìn)行適當(dāng)擴(kuò)充并劃分?jǐn)?shù)據(jù)集。第三階段:選擇機(jī)器學(xué)習(xí)模型,使用不同的機(jī)器學(xué)習(xí)模型對(duì)數(shù)據(jù)進(jìn)行分類預(yù)測(cè),并比較準(zhǔn)確性。第四階段:模型評(píng)估,對(duì)模型進(jìn)行交叉驗(yàn)證,并對(duì)比受試者工作特征曲線下面積(area under the curve of receiver operating characteristic,AUC-ROC),選出最優(yōu)模型。通過在急性加重期間的特征對(duì)患者進(jìn)行分類預(yù)測(cè),確定患者病情嚴(yán)重程度。預(yù)測(cè)模型對(duì)醫(yī)生提供輔助判斷,醫(yī)生根據(jù)預(yù)測(cè)結(jié)果對(duì)患者進(jìn)行針對(duì)性治療。數(shù)據(jù)處理算法流程圖見圖1。
圖1 數(shù)據(jù)處理算法流程圖
選取2018年1月至2020年2月因AECOPD于南京醫(yī)科大學(xué)附屬蘇州科技城醫(yī)院呼吸科住院COPD 患者90 例,其中男性81 例,女性9 例。所有患者均符合GOLD診斷指南[3]。
納入標(biāo)準(zhǔn):①年齡>40 歲;②無(wú)影響肺功能病史,排除肺結(jié)核后遺癥等;③癥狀加重。
排除標(biāo)準(zhǔn):①拒絕提供知情同意;②哮喘;③多種共病;④急性加重患者診斷不清或缺失;⑤非感染性加重,包括氣胸或心力衰竭引起的急性加重;⑥正在參與其他研究項(xiàng)目;⑦有非抑郁性精神病病史;⑧因非呼吸功能障礙(如肌肉骨骼問題)而運(yùn)動(dòng)能力有限。
本研究經(jīng)南京醫(yī)科大學(xué)附屬蘇州科技城醫(yī)院倫理委員會(huì)批準(zhǔn)(No.IRB202102006RI),按照《赫爾辛基宣言》進(jìn)行。所有研究對(duì)象均簽署書面知情同意,且本研究在分析前已刪除所有患者的敏感信息,如地址、聯(lián)系方式等。
2.2.1 數(shù)據(jù)采集
入院后記錄患者人口學(xué)信息,包括性別、年齡、身高、體質(zhì)量。所有患者在專業(yè)醫(yī)生的指導(dǎo)下采用肺功能檢測(cè)設(shè)備(美國(guó)CAREFUSION公司)進(jìn)行肺功能測(cè)試。所有患者在同一專業(yè)肺功能檢測(cè)醫(yī)師指導(dǎo)下進(jìn)行3 次有效檢測(cè),記錄平均FEV1和FVC。同期取外周靜脈血做外周血檢查。采用免疫比濁法測(cè)定C-反應(yīng)蛋白(C-reactive protein,CRP)。特異性蛋白分析儀(IMMAGE800)和檢測(cè)試劑來(lái)自BECKMAN KURT 公司。采用全自動(dòng)血液分析儀(日本SYSMEX 公司)計(jì)算白細(xì)胞總數(shù)(white blood cells,WBC)和中性粒細(xì)胞百分比(neutrophils%,NEU%)。
2.2.2 特征選擇
本研究基于臨床特征的有效性和合理性,選取與AECOPD 患者的病情相關(guān)的特征,建立一個(gè)利用人口統(tǒng)計(jì)參數(shù)和炎癥標(biāo)記物進(jìn)行AECOPD患者的肺功能分級(jí)預(yù)測(cè)的模型,共選取8個(gè)變量:性別、年齡、身高、體質(zhì)量、體質(zhì)量指數(shù)(body mass index,BMI)、CRP、WBC、NEU%為輸入特征。
2.2.3 模型訓(xùn)練
將每一分類中隨機(jī)80%的數(shù)據(jù)用于模型訓(xùn)練,剩下20%數(shù)據(jù)作為測(cè)試集,考慮到樣本較少,采用上采樣的方式。本研究選擇如下常用的機(jī)器學(xué)習(xí)分類算法:K-最近鄰[11]、邏輯回歸[12]、支持向量機(jī)分類[13]、樸素貝葉斯[14]、決策樹[15]和隨機(jī)森林[16]建立肺功能等級(jí)預(yù)測(cè)模型,并比較不同機(jī)器學(xué)習(xí)算法在測(cè)試集上的分類性能。
2.2.4 模型評(píng)估
本研究采用10 折交叉驗(yàn)證來(lái)評(píng)估模型的穩(wěn)定性,采用AUC-ROC、敏感性、特異性、準(zhǔn)確性等指標(biāo)評(píng)估基于測(cè)試集的識(shí)別模型的性能。
K 折交叉驗(yàn)證是將初始采樣分割成k 個(gè)子樣本,一個(gè)單獨(dú)的子樣本被保留作為驗(yàn)證模型的數(shù)據(jù),其他k-1個(gè)樣本用來(lái)訓(xùn)練。交叉驗(yàn)證重復(fù)k次,每個(gè)子樣本驗(yàn)證一次,平均k次的結(jié)果,最終得到一個(gè)單一估測(cè)。
ROC 曲線是以1-特異性為橫軸、敏感性為縱軸的曲線,能夠反映不同閾值對(duì)機(jī)器學(xué)習(xí)模型泛化性能的影響,并且有助于選擇最佳的閾值。同時(shí)ROC 曲線也可以比較不同學(xué)習(xí)模型的性能,將不同模型曲線繪制在同一坐標(biāo)內(nèi),可以直觀鑒別優(yōu)劣。
AUC-ROC 可以衡量機(jī)器學(xué)習(xí)模型的性能價(jià)值,是對(duì)所有可能的分類閾值效果進(jìn)行綜合衡量,反映分類模型對(duì)樣本的排序能力。敏感性越高,特異性越高,AUC-ROC 越大,說(shuō)明模型性能越好,預(yù)測(cè)準(zhǔn)確性越高。
采用SPSS 22.0 對(duì)特征進(jìn)行單因素分析,分類變量采用秩和檢驗(yàn),連續(xù)變量數(shù)據(jù)采用Shapiro-Wilk 檢驗(yàn)。計(jì)量資料符合正態(tài)分布,以(±s)表示,采用單因素方差分析進(jìn)行比較;不符合正態(tài)分布以中位數(shù)(四分位距)表示,進(jìn)行k 個(gè)獨(dú)立樣本非參數(shù)檢驗(yàn)。顯著性水平α=0.05。
COPD患者GOLD 3級(jí)、4級(jí)癥狀相似,肺功能均受限嚴(yán)重。GOLD 4 種分級(jí)間體質(zhì)量和NEU/%均有顯著性差異(P<0.05)。其中,體質(zhì)量隨分級(jí)嚴(yán)重程度逐級(jí)下降,4 級(jí)由于樣本量小體質(zhì)量略有上升,但是相比于1級(jí)、2級(jí)下降明顯;NEU%隨分級(jí)嚴(yán)重程度逐級(jí)上升。見表2。
表2 COPD患者不同GOLD分級(jí)間人口統(tǒng)計(jì)參數(shù)和炎癥標(biāo)記物比較
6 種學(xué)習(xí)模型中,決策樹和樸素貝葉斯的AUC 較小,隨機(jī)森林最大。隨機(jī)森林集成了所有的分類選擇結(jié)果,將選擇次數(shù)最多的類別指定為最終的輸出,而且該算法簡(jiǎn)單,就有較好的準(zhǔn)確性,能夠處理高維特征的輸入樣本。見圖2。
圖2 各分類器ROC曲線以及AUC值比較
隨機(jī)森林算法對(duì)AECOPD 患者的識(shí)別性能最好,準(zhǔn)確率達(dá)到0.844,而樸素貝葉斯在預(yù)測(cè)識(shí)別中表現(xiàn)不佳,只有0.500。這是因?yàn)闃闼刎惾~斯算法假設(shè)各個(gè)屬性之間相互獨(dú)立,這個(gè)假設(shè)在實(shí)際應(yīng)用中往往是不成立的,這給樸素貝葉斯分類帶來(lái)了一定影響,使得分類決策存在錯(cuò)誤。見圖3。
圖3 預(yù)測(cè)模型準(zhǔn)確性和AUC值比較
AECOPD 患者由于病情原因難以完成正常的肺功能檢測(cè),同時(shí)不同嚴(yán)重程度患者之間的臨床表現(xiàn)和病情進(jìn)展具有明顯的異質(zhì)性,對(duì)COPD 患者進(jìn)行分類預(yù)測(cè)并進(jìn)行針對(duì)性治療具有重要意義。機(jī)器學(xué)習(xí)為AECOPD患者的肺功能分類和預(yù)測(cè)提供了強(qiáng)有力的工具。
目前研究大多集中于AECOPD 患者的早期預(yù)測(cè)。Mohktar 等[17]提出利用CART 分類樹用于早期識(shí)別COPD 患者,提前預(yù)測(cè)患者病情準(zhǔn)確率到達(dá)71.8%。Shah 等[18]使用脈搏、血氧飽和度和呼吸頻率3 種生命體征預(yù)測(cè)AECOPD,平均AUC-ROC 達(dá)68%。Verma等[19]設(shè)計(jì)基于Logistic 回歸、Lasso 正則化和多層感知器(multi-layer perception,MLP)深度神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型,預(yù)測(cè)再次入院的敏感性為0.88,陽(yáng)性預(yù)測(cè)值為0.75,假陽(yáng)性為0.25,AUC-ROC 為0.50。此外,之前相關(guān)工作存在數(shù)據(jù)集小、特征集冗余等問題。本研究提出的AECOPD患者肺功能預(yù)測(cè),從患者人口統(tǒng)計(jì)學(xué)參數(shù)以及炎癥細(xì)胞角度進(jìn)行分析考慮,對(duì)于臨床了解患者的病情發(fā)展具有指導(dǎo)意義。
相關(guān)研究表明,性別、年齡、身高和體質(zhì)量可解釋肺功能變異約50%[20-22]。此外,大量研究表明,肺部炎癥細(xì)胞及其分泌物與COPD 的嚴(yán)重程度和急性加重密切相關(guān)[23-24]。Karadeniz 等[25]發(fā)現(xiàn),當(dāng)COPD 患者發(fā)生急性加重時(shí),CRP 顯著上升,是臨床敏感的急性期反應(yīng)指標(biāo),且CRP 值與死亡風(fēng)險(xiǎn)增加有關(guān)。Thomsen 等[26]發(fā)現(xiàn),CRP、WBC 和血纖維蛋白原可以用作COPD 病情評(píng)估,是有效判斷COPD 急性風(fēng)險(xiǎn)增加的重要炎癥生物標(biāo)記物。有文獻(xiàn)表明[27],WBC 和NEU%是急性加重期患者感染的敏感指標(biāo),其中NEU處于機(jī)體抵御微生物病原體入侵的第一線,發(fā)揮著極大作用。這些標(biāo)記物的水平可以對(duì)COPD 患者急性加重肺功能情況起到預(yù)測(cè)作用。
本研究提出的預(yù)測(cè)病情嚴(yán)重程度的模型,對(duì)AECOPD患者的肺功能等級(jí)預(yù)測(cè)準(zhǔn)確性達(dá)0.844。且特征提取便捷準(zhǔn)確,可以應(yīng)用于門診檢測(cè)甚至患者自我評(píng)估。
本研究只是一個(gè)探索性數(shù)據(jù)分析,未來(lái)還需采集更加充足的數(shù)據(jù)樣本,繼續(xù)優(yōu)化機(jī)器學(xué)習(xí)模型,驗(yàn)證模型在不同類型的數(shù)據(jù)上的性能,并進(jìn)一步提高預(yù)測(cè)準(zhǔn)確性。
綜上所述,在肺功能檢測(cè)誤差較大的情況下,可以根據(jù)人口統(tǒng)計(jì)學(xué)和炎癥相關(guān)標(biāo)記物對(duì)AECOPD患者的肺功能等級(jí)進(jìn)行預(yù)測(cè)和識(shí)別。其中,隨機(jī)森林模型預(yù)測(cè)準(zhǔn)確率最高。本研究為使用機(jī)器學(xué)習(xí)方法識(shí)別AECOPD 患者肺功能等級(jí)提供了良好的數(shù)據(jù)集,有望為臨床醫(yī)生提供多角度決策依據(jù)。
利益沖突聲明:所有作者聲明不存在利益沖突。