摘" 要: 為了準(zhǔn)確識(shí)別頸動(dòng)脈斑塊的重要生物標(biāo)志物,在改進(jìn)生物標(biāo)志物所包含信息量的度量方法的基礎(chǔ)上,通過(guò)向前逐步回歸建立了基于變換AUC(Transformed area under curve)的頸動(dòng)脈斑塊穩(wěn)定性預(yù)測(cè)模型。首先,在ROC(Receiver operating characteristic)空間提出變換AUC,并給出該指標(biāo)在雙正態(tài)分布模型和自由分布模型下的估計(jì)方法;然后,使用R統(tǒng)計(jì)軟件,對(duì)比分析變換AUC與AUC等常用評(píng)估指標(biāo)對(duì)非傳統(tǒng)生物標(biāo)志物的評(píng)估性能;最后,基于浙江醫(yī)院提供的影像數(shù)據(jù),利用變換AUC度量生物標(biāo)志物的信息量,使用向前逐步回歸篩選模型的方法建立高精度的頸動(dòng)脈斑塊穩(wěn)定性預(yù)測(cè)模型。研究結(jié)果表明,該頸動(dòng)脈斑塊穩(wěn)定性預(yù)測(cè)模型的AUC值達(dá)到0.9以上,能夠準(zhǔn)確識(shí)別斑塊的穩(wěn)定性,為臨床醫(yī)師對(duì)患者進(jìn)行個(gè)性化診療提供更精準(zhǔn)的參考依據(jù)。
關(guān)鍵詞: 變換AUC;向前逐步回歸;斑塊穩(wěn)定性;生物標(biāo)志物;模型篩選
中圖分類(lèi)號(hào): TP181;R445.2
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1673-3851 (2024) 04-0529-08
DOI:10.3969/j.issn.1673-3851(n).2024.04.012
收稿日期: 2023-11-16" 網(wǎng)絡(luò)出版日期:2024-04-12網(wǎng)絡(luò)出版日期
基金項(xiàng)目: 國(guó)家自然科學(xué)基金項(xiàng)目(12071436);浙江省基礎(chǔ)公益類(lèi)項(xiàng)目(GF22H096743)
作者簡(jiǎn)介: 李翔宇(1999—" ),男,山東臨沂人,碩士研究生,主要從事大數(shù)據(jù)分析、應(yīng)用統(tǒng)計(jì)方面的研究。
通信作者: 吳" 炯,E-mail:wujiong0118@aliyun.com
引文格式:李翔宇,楊建萍,吳炯. 基于變換AUC的頸動(dòng)脈斑塊穩(wěn)定性預(yù)測(cè)模型[J]. 浙江理工大學(xué)學(xué)報(bào)(自然科學(xué)),2024,51(4):529-536.
Reference Format: LI Xiangyu, YANG Jianping, WU Jiong. A prediction model of carotid plaque stability based on transformed AUC[J]. Journal of Zhejiang Sci-Tech University,2024,51(4):529-536.
A prediction model of carotid plaque stability based on transformed AUC
LI Xiangyu1a, YANG Jianping1b, WU Jiong2
(1a.School of Computer Science and Technology; 1b.School of Science, Zhejiang Sci-Tech University, Hangzhou 310018, China; 2.Affiliated Zhejiang Hospital, Zhejiang University School of Medicine, Hangzhou 310000, China)
Abstract:" To precisely identify critical biomarkers of carotid plaques, a model for predicting carotid plaque stability based on the transformed area under curve (transformed AUC) using forward regression was built on the basis that the method for quantifying the information content within biomarkers was improved. Firstly, transformed AUC was introduced in the receiver operating characteristic (ROC) space, and the estimation methods were provided under the binormal distribution model and free distribution model, respectively. Then, R statistical software was used to compare and analyze the evaluation performance of transformed AUC index with common evaluation indices such as AUC for non-traditional biomarkers. Finally, a carotid plaque stability prediction model with high-accuracy was built by using transformed AUC to measure the information of biomarkers and stepwise forward regression based on image data provided by Zhejiang Hospital. These research findings illustrate that the AUC value of the carotid plaque stability prediction model is above 0.9, indicating the model can accurately identify the plaque stability and provide more precise reference to clinicians for personalized diagnosis and treatment decisions.
Key words: transformed AUC; forward stepwise regression; plaque stability; biomarker; model selection
0" 引" 言
腦卒中的發(fā)生已成為威脅人類(lèi)生命安全的第二大原因[1]。醫(yī)學(xué)研究表明,20%~30%的腦卒中是由不穩(wěn)定的頸動(dòng)脈斑塊引起[2]:不穩(wěn)定的頸動(dòng)脈斑塊會(huì)導(dǎo)致頸動(dòng)脈狹窄或阻塞,使腦部血供減少,進(jìn)而引起缺血性腦卒中。因此,如何準(zhǔn)確有效地評(píng)估頸動(dòng)脈斑塊的穩(wěn)定性,對(duì)頸動(dòng)脈斑塊患者實(shí)施針對(duì)性診治,已成為醫(yī)學(xué)研究中一個(gè)亟待解決的問(wèn)題。
提取頸動(dòng)脈斑塊的重要生物標(biāo)志物對(duì)于評(píng)估斑塊穩(wěn)定性至關(guān)重要。隨著影像學(xué)技術(shù)的飛速發(fā)展,利用頸動(dòng)脈斑塊的影像數(shù)據(jù),使用AUC(Area under curve)、F1分?jǐn)?shù)(F1 score)等常用評(píng)估指標(biāo)度量生物標(biāo)志物所包含的信息量,已成為提取頸動(dòng)脈斑塊重要生物標(biāo)志物的主要方法[3]。Saba等[4]利用頸動(dòng)脈斑塊的CT測(cè)量值,使用二分類(lèi)模型和AUC,發(fā)現(xiàn)斑塊密度變化值是評(píng)估頸動(dòng)脈斑塊穩(wěn)定性的一個(gè)重要生物標(biāo)志物。李楊等[5]利用頸動(dòng)脈斑塊的CTA測(cè)量值,使用假設(shè)檢驗(yàn)和AUC,發(fā)現(xiàn)斑塊的體積是評(píng)估頸動(dòng)脈斑塊穩(wěn)定性的另一個(gè)重要生物標(biāo)志物。Lu等[6-7]利用頸動(dòng)脈斑塊的MRI測(cè)量值,使用logistic回歸模型和F1分?jǐn)?shù),發(fā)現(xiàn)頸動(dòng)脈斑塊的形狀和位置是評(píng)估頸動(dòng)脈斑塊穩(wěn)定性的重要生物標(biāo)志物。目前,基于不同的常用評(píng)估指標(biāo)已得到一些重要的頸動(dòng)脈斑塊生物標(biāo)志物,但在實(shí)際應(yīng)用中,僅僅使用這些重要生物標(biāo)志物識(shí)別頸動(dòng)脈斑塊的穩(wěn)定性,精度仍比較低。
AUC、F1分?jǐn)?shù)和Cohen′s kappa統(tǒng)計(jì)系數(shù)等是對(duì)ROC曲線(Receiver operating characteristic curve)使用描述性統(tǒng)計(jì)分析方法得到的一些評(píng)估指標(biāo)[8-10]。ROC曲線是一個(gè)二維圖表,它以敏感度和特異性為變量,描述生物標(biāo)志物在不同決策閾值預(yù)測(cè)二元疾病結(jié)果的操作特征,ROC曲線所在的二維空間可稱(chēng)作ROC空間[11-13]。若ROC曲線完全位于單位正方形內(nèi)的45°對(duì)角線上方,稱(chēng)ROC曲線是有效的[14-15],此時(shí)相應(yīng)的AUC等評(píng)估指標(biāo)能準(zhǔn)確地度量生物標(biāo)志物所包含的信息量,且能夠精確地評(píng)估生物標(biāo)志物的重要性。然而,最近的一些醫(yī)學(xué)病理研究表明,醫(yī)學(xué)統(tǒng)計(jì)中常用的AUC等評(píng)估指標(biāo)存在著某些缺陷,無(wú)法精確地評(píng)估某些生物標(biāo)志物的重要性。如Bantis等[16]將肺表面活性蛋白B(ProSFTPB)作為肺癌標(biāo)志物進(jìn)行了臨床病理研究,發(fā)現(xiàn)ProSFTPB是肺癌的重要生物標(biāo)志物;但是該生物標(biāo)志物的ROC曲線是S型的,在醫(yī)學(xué)統(tǒng)計(jì)分析中,其AUC等常用評(píng)估指標(biāo)的值都很低,不能認(rèn)為是肺癌的重要生物標(biāo)志物。因此,為了能夠準(zhǔn)確評(píng)估生物標(biāo)志物的重要性,提高醫(yī)學(xué)分析時(shí)的準(zhǔn)確性,必須改進(jìn)目前醫(yī)學(xué)統(tǒng)計(jì)中評(píng)估生物標(biāo)志物重要性的方法。
本文首先在ROC空間中提出一種新的評(píng)估指標(biāo),即變換AUC(Transformed AUC),并提出其在雙正態(tài)分布模型和自由分布模型下的兩種估計(jì)方法;然后,利用R軟件對(duì)變換AUC在實(shí)際應(yīng)用中的性能與AUC等常用的評(píng)估指標(biāo)進(jìn)行對(duì)比分析;最后,利用ITK-SNAP軟件對(duì)浙江醫(yī)院提供的頸動(dòng)脈斑塊的MRI影像數(shù)據(jù)進(jìn)行分割和特征提取,使用變換AUC度量頸動(dòng)脈斑塊的生物標(biāo)志物所包含的信息量,篩選出重要生物標(biāo)志物,并結(jié)合向前逐步回歸,建立評(píng)估頸動(dòng)脈斑塊穩(wěn)定性的最優(yōu)模型。本文提出的新指標(biāo)和篩選模型的新方法能夠有效應(yīng)用于實(shí)際決策者篩選重要生物標(biāo)志物,且能夠提高醫(yī)學(xué)分析時(shí)的準(zhǔn)確性。
1" 變換AUC及估計(jì)
1.1" 變換AUC
在醫(yī)學(xué)統(tǒng)計(jì)研究領(lǐng)域,一般生物標(biāo)志物分為傳統(tǒng)生物標(biāo)志物和非傳統(tǒng)生物標(biāo)志物。假設(shè)X0=[X|D=0]和X1=[X|D=1]分別是患病和健康受試者的生物標(biāo)志物的連續(xù)測(cè)試值,它們的密度函數(shù)分別為f(x)和g(x)。此生物標(biāo)志物患病總體和健康總體之間的密度函數(shù)曲線和ROC曲線存在兩種情況,示例分別如圖1和圖2所示。在生物標(biāo)志物的統(tǒng)計(jì)分析中,常把具有有效ROC曲線的生物標(biāo)志物稱(chēng)為傳統(tǒng)的生物標(biāo)志物,而不滿足此條件的稱(chēng)為非傳統(tǒng)生物標(biāo)志物。使用AUC以及一些常用的評(píng)估指標(biāo)通常不能有效地度量非傳統(tǒng)生物標(biāo)志物的信息量。例如,圖1中的非傳統(tǒng)生物標(biāo)志物具有很高的信息量,是一個(gè)重要的生物標(biāo)志物;但是它的ROC曲線不是有效的,對(duì)應(yīng)的AUC值接近于0.5,因此在醫(yī)學(xué)統(tǒng)計(jì)分析時(shí),不能認(rèn)為該生物標(biāo)志物是重要生物標(biāo)志物。
本文針對(duì)非傳統(tǒng)生物標(biāo)志物ROC曲線的特征,提出了變換ROC曲線(Transformed receiver operating characteristic curve, TROC)和變換AUC。假設(shè)X0和X1的分布函數(shù)分別為F(x)和G(x),令u=F(x)或u=G(x),對(duì)任意的u∈(0,1),稱(chēng)曲線
TROC(u)=G(F-1(u)),F(xiàn)-1(u)≥G-1(u);
F(G-1(u)),F(xiàn)-1(u)lt;G-1(u)
為變換ROC曲線;稱(chēng)變換的ROC曲線與坐標(biāo)軸所圍的面積為變換AUC,記為A1。
顯然,當(dāng)F(x)沒(méi)有下穿G(x)時(shí),變化的ROC曲線與原始的ROC曲線形狀相同,呈現(xiàn)凹形,此時(shí)生物標(biāo)志物的變換AUC值等于AUC值。當(dāng)F(x)下穿G(x)時(shí),原始ROC曲線通常與單位正方形中的45°對(duì)角線存在多個(gè)交點(diǎn)。此時(shí)將45°線下方的ROC曲線部分對(duì)稱(chēng)翻轉(zhuǎn)到45°線上方,得到變換ROC曲線。計(jì)算可知,生物標(biāo)志物的變換AUC值大于AUC值。因此,變換AUC可認(rèn)為是改進(jìn)的AUC。
對(duì)于任意的連續(xù)遞增非負(fù)有界函數(shù)ψ(x),有如下的非單調(diào)變換
h(x)=ψ(x),F(xiàn)(x)≤G(x);
-ψ(x),F(xiàn)(x)gt;G(x)(1)
可以使生物標(biāo)志物的變換AUC的值等于對(duì)它實(shí)施了非單調(diào)變換后的AUC的值,即A1=P(h(X0)gt;h(X1)),本文稱(chēng)此非單調(diào)變換為H變換。
1.2" 雙正態(tài)分布模型下的變換AUC參數(shù)估計(jì)
在醫(yī)學(xué)生物標(biāo)志物的診斷識(shí)別中,很多生物標(biāo)志物是連續(xù)且服從雙正態(tài)分布的。為了使變換AUC能更好地應(yīng)用于醫(yī)學(xué)中重要生物標(biāo)志物的識(shí)別,本文首先提出了一種在雙正態(tài)分布模型下的變換AUC參數(shù)估計(jì)。
假設(shè)某一生物標(biāo)志物在患病受試者中的測(cè)試值X0~N(μ0,σ20),在健康受試者中的測(cè)試值X1~N(μ1,σ21)。此生物標(biāo)志物的變換AUC計(jì)算公式可表示為:
A1=∫x0-∞Φx-μ1σ1dΦx-μ0σ0+∫∞x0Φx-μ0σ0dΦx-μ1σ1,σ0lt;σ1;
∫x0-∞Φx-μ0σ0dΦx-μ1σ1+∫∞x0Φx-μ1σ1dΦx-μ0σ0,σ0gt;σ1;
1-Φμ1-μ0σ20+σ21,σ0=σ1,μ0gt;μ1;
Φμ1-μ0σ20+σ21,σ0=σ1,μ0≤μ1(2)
其中:x0=(σ0μ1-σ1μ0)/(σ0-σ1)為分布函數(shù)F(x)和G(x)的交點(diǎn),Φ(·)為標(biāo)準(zhǔn)正態(tài)分布函數(shù)。
假設(shè)X01,…,X0m是來(lái)自于總體X0樣本容量為m的樣本;X11,…,X1n是來(lái)自于總體X1樣本容量為n的樣本。令μ^0=m-1∑mi=1X0i,μ^1=n-1∑nj=1X1j,σ^20=m-1∑mi=1(X0i-μ^0)2,σ^21=n-1∑nj=1(X1j-μ^1)2。本文采用 x^0=(σ^0 μ^1-σ^1 μ^0)/(σ^0-σ^1)來(lái)估計(jì)分布函數(shù)F(x)和G(x)的交點(diǎn)x0,構(gòu)建雙正態(tài)分布總體下變換AUC A1的估計(jì)值A(chǔ)^1:
A^1=∫x^0-∞Φx-μ^1σ^1dΦx-μ^0σ^0+∫∞x^0Φx-μ^0σ^0dΦx-μ^1σ^1,σ^0lt;σ^1;
∫x^0-∞Φx-μ^0σ^0dΦx-μ^1σ^1+∫∞x^0Φx-μ^1σ^1dΦx-μ^0σ^0,σ^0gt;σ^1;
1-Φμ^1-μ^0σ^20+σ^21,σ^0=σ^1,μ^0gt;μ^1;
Φμ^1-μ^0σ^20+σ^21,σ^0=σ^1,μ^0≤μ^1(3)
因?yàn)棣蘜0、μ^1、σ^20、σ^21為μ0、μ1、σ20、σ21的極大似然估計(jì),具有漸近相合正態(tài)性,而A1是μ0、μ1、σ0、σ1的連續(xù)可微函數(shù),因此A^1是A1的極大似然估計(jì),也具有較高的估計(jì)效率。
1.3" 自由分布模型下變換AUC的非參數(shù)估計(jì)
考慮到在實(shí)際應(yīng)用中,也存在著連續(xù)但并不服從雙正態(tài)分布的生物標(biāo)志物。因此,本文還提供了自由分布模型下基于H變換的變換AUC非參數(shù)估計(jì)。滿足H變換條件的函數(shù)有很多,本文選取了一個(gè)特殊的H變換函數(shù),即:
h(x)=2Φ(x-μ0)I{F(x)≤G(x)}-Φ(x-μ0)(4)
其中:I{·}為示性函數(shù),E[X0]=μ0。
假設(shè)某一生物標(biāo)志物在患病受試者中的測(cè)試值為X0,在健康受試者中的測(cè)試值為X1。X01,…,X0m是來(lái)自患病總體X0樣本容量為m的一個(gè)簡(jiǎn)單隨機(jī)樣本;X11,…,X1n來(lái)自健康總體X1樣本容量為n的一個(gè)簡(jiǎn)單隨機(jī)樣本。令
Fm(x)=m-1∑mi=1I(X0i≤x),
Gn(x)=n-1∑nj=1I(X1j≤x)(5)
構(gòu)建H變換h的非參數(shù)估計(jì):
h^(x)=2Φx-μ^0I{Fm(x)≤Gn(x)}-Φx-μ^0(6)
變換AUC的非參數(shù)估計(jì)為:
A^*=(mn)-1∑mi=1∑nj=1Ih^(X0i)gt;h^(X1j)(7)
由大樣本理論可知,當(dāng)樣本量m、n足夠大時(shí),A^*也具有相合漸近正態(tài)性,估計(jì)效率同樣較高。
2" 變換AUC評(píng)估性能的仿真分析
為了說(shuō)明本文所提供的變換AUC能夠準(zhǔn)確地度量生物標(biāo)志物所包含的信息量,本文設(shè)計(jì)了兩個(gè)仿真實(shí)驗(yàn),對(duì)比分析了變換AUC與醫(yī)學(xué)生物統(tǒng)計(jì)中常用的生物標(biāo)志物評(píng)估指標(biāo)AUC、F1分?jǐn)?shù)以及Cohen’s kappa統(tǒng)計(jì)系數(shù)在評(píng)估方面的性能。
第一個(gè)仿真實(shí)驗(yàn)假設(shè)生物標(biāo)志物服從正態(tài)分布,選取患病受試者生物標(biāo)志物的測(cè)試值X0~N(2,102),健康受試者生物標(biāo)志物的測(cè)試值X1~N(2.3,52)。假設(shè)X01,…,X0m是來(lái)自患病總體X0樣本容量為m的一個(gè)簡(jiǎn)單隨機(jī)樣本;X11,…,X1n來(lái)自健康總體X1樣本容量為n的一個(gè)簡(jiǎn)單隨機(jī)樣本。設(shè)定樣本容量(m,n)=(50,50),(100,100),(200,200),(500,500),(520,500),(800,800),(830,800)。變換AUC的值使用式(3)估計(jì),采用經(jīng)典的參數(shù)估計(jì)方法估計(jì)AUC的值,采用常用的計(jì)算方法計(jì)算F1分?jǐn)?shù)和Cohen′s kappa統(tǒng)計(jì)系數(shù)的值。在不同樣本數(shù)量下均重復(fù)計(jì)算10000次,將計(jì)算結(jié)果的均值作為各指標(biāo)值,實(shí)驗(yàn)結(jié)果如表1所示。
變換AUC和AUC的取值范圍在0到1之間,取值越接近0.5,表示其評(píng)估性能越差;F1分?jǐn)?shù)的取值范圍在0到1之間,取值越接近1,表示其評(píng)估性能越好;Cohen′s kappa統(tǒng)計(jì)系數(shù)的取值在-1到1之間,取值越大,表示其評(píng)估性能越好。根據(jù)表1的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn):用AUC、F1分?jǐn)?shù)以及Cohen′s kappa統(tǒng)計(jì)系數(shù)評(píng)估該生物標(biāo)志物的識(shí)別能力,得到的結(jié)果都是低識(shí)別能力生物標(biāo)志物;而變換AUC的估計(jì)值大于0.6,說(shuō)明該生物標(biāo)志物具有一定的識(shí)別能力。顯然這是一個(gè)非傳統(tǒng)的生物標(biāo)志物,因此,相較于AUC等常用的評(píng)估指標(biāo),變換AUC能更準(zhǔn)確地度量非傳統(tǒng)的生物標(biāo)志物所包含的信息量,使用AUC等常用的評(píng)估指標(biāo)篩選生物標(biāo)志物時(shí),該生物標(biāo)志物極有可能被遺漏。
第一個(gè)仿真實(shí)驗(yàn)的結(jié)果表明,在雙正態(tài)總體模型下,變換AUC比AUC等常用的指標(biāo)有更準(zhǔn)確的評(píng)估能力。第二次仿真實(shí)驗(yàn)對(duì)非雙正態(tài)總體模型下的變換AUC的評(píng)估性能進(jìn)行分析。選取患病受試者生物標(biāo)志物的測(cè)試值X0~N(2,42),健康受試者生物標(biāo)志物的測(cè)試值X1~F(4,2)。假設(shè)X01,…,X0m是來(lái)自患病總體X0樣本容量為m的一個(gè)簡(jiǎn)單隨機(jī)樣本;X11,…,X1n來(lái)自健康總體X1樣本容量為n的一個(gè)簡(jiǎn)單隨機(jī)樣本。設(shè)定樣本容量(m,n)=(50,50),(100,100),(200,200),(500,500),(520,500),(1000,1000),(1000,1200)。使用式(7)估計(jì)變換AUC的值,采用經(jīng)典的非參數(shù)估計(jì)方法估計(jì)AUC的值。不同樣本數(shù)量下均進(jìn)行10000次重復(fù)計(jì)算,將計(jì)算結(jié)果的均值作為各指標(biāo)值,實(shí)驗(yàn)結(jié)果如表2所示。
根據(jù)表2同樣可以發(fā)現(xiàn),相較于AUC等常用的評(píng)估指標(biāo),變換AUC能夠更準(zhǔn)確地度量非傳統(tǒng)的生物標(biāo)志物所包含的信息量。從這兩個(gè)仿真實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),在實(shí)際應(yīng)用中使用本文所提出的變換AUC評(píng)估生物標(biāo)志物,可以防止重要生物標(biāo)志物被遺漏。
3" 頸動(dòng)脈斑塊穩(wěn)定性評(píng)估的logistic回歸模型
3.1" MRI影像數(shù)據(jù)提取
本文使用的頸動(dòng)脈斑塊MRI影像數(shù)據(jù)由浙江醫(yī)院提供。首先采用ITK-SNAP軟件讀取原始MRI影像數(shù)據(jù),并進(jìn)行圖像分割處理;圖像分割時(shí),由于頸動(dòng)脈斑塊同周?chē)M織的灰度相近,本文使用ITK-SNAP框選ROI(Region of interest),通過(guò)調(diào)整閾值屏蔽灰度值過(guò)高或過(guò)低的部分,再在符合選定閾值范圍內(nèi)的區(qū)域添加參考點(diǎn)。然后,使用ITK-SNAP自動(dòng)選擇與參考點(diǎn)相連并且灰度相近的組織進(jìn)行標(biāo)注,在完成自動(dòng)標(biāo)注后,對(duì)有明顯斑塊的區(qū)域進(jìn)行手動(dòng)勾畫(huà),去掉明顯沒(méi)有斑塊的部分。手動(dòng)選取ROI及勾畫(huà)的過(guò)程在臨床醫(yī)師的指導(dǎo)下進(jìn)行,并經(jīng)過(guò)檢驗(yàn)與確認(rèn)。圖像ROI的選取及標(biāo)注示例圖像如圖3所示。
頸動(dòng)脈斑塊MRI影像標(biāo)注完成以后,本文利用Python中的PyRadiomics庫(kù)對(duì)標(biāo)注區(qū)域進(jìn)行特征數(shù)據(jù)提取,共提取了107個(gè)生物標(biāo)志物,包括三維形狀特征(Shape-based)、一階統(tǒng)計(jì)量(First-order statistics)、灰度共生矩陣(Gray-level co-ocurrence matrix)、灰度游程矩陣(Gray-level run-length matrix)、灰度區(qū)域大小矩陣(Gray-level size-zone matrix)、灰階相關(guān)矩陣(Gray-level dependence matrix)和鄰域灰階差分矩陣(Neighboring gray tone difference matrix),使用F1,…,F(xiàn)107表示;然后根據(jù)病患的病歷信息,給每一個(gè)頸動(dòng)脈斑塊MRI影像添加了標(biāo)簽,其中穩(wěn)定的頸動(dòng)脈斑塊影像用D=1表示,不穩(wěn)定用D=0表示。共采集樣本141個(gè),其中:斑塊穩(wěn)定的有35個(gè)樣本,不穩(wěn)定的有106個(gè)樣本。
3.2" MRI影像特征的描述性統(tǒng)計(jì)分析
為了有效地提取頸動(dòng)脈斑塊穩(wěn)定性的重要生物標(biāo)志物,本文首先對(duì)每個(gè)生物標(biāo)志物按類(lèi)進(jìn)行了描述性統(tǒng)計(jì)分析,主要包括計(jì)算各類(lèi)生物標(biāo)志物的均值、標(biāo)準(zhǔn)差和偏度,同時(shí)進(jìn)行Shapiro-Wilk正態(tài)性檢驗(yàn),部分生物標(biāo)志物的計(jì)算結(jié)果如表3所示。根據(jù)計(jì)算結(jié)果把生物標(biāo)志物分為三類(lèi),分別是:第一類(lèi)為類(lèi)均值、方差具有較大的差異性且服從雙正態(tài)分布,第二類(lèi)為類(lèi)均值、方差的差異性較小且服從雙正態(tài)分布,第三類(lèi)為不服從雙正態(tài)分布。對(duì)第一類(lèi)生物標(biāo)志物,例如F6等生物標(biāo)志物,使用變換AUC度量這些生物標(biāo)志物的信息量時(shí),本文建議使用雙正態(tài)分布模型下變換AUC的估計(jì)方法;對(duì)第二類(lèi)生物標(biāo)志物,例如F2等生物標(biāo)志物,這些生物標(biāo)志物在進(jìn)行初篩時(shí)應(yīng)該去掉;對(duì)第三類(lèi)生物標(biāo)志物,例如F5、F8等生物標(biāo)志物,建議使用自由分布模型下變換AUC的估計(jì)方法估計(jì)這些生物標(biāo)志物的變換AUC值。
3.3 "基于變換AUC的重要生物標(biāo)志物的篩選
基于描述性統(tǒng)計(jì)分析,對(duì)具有區(qū)分能力的生物標(biāo)志物,本文分別用AUC、F1分?jǐn)?shù)、Cohen′s kappa統(tǒng)計(jì)系數(shù)以及變換AUC評(píng)估它們的識(shí)別能力,部分結(jié)果如表4所示。從表4中可以看出,F(xiàn)3、F85等生物標(biāo)志物的變換AUC值和AUC值有明顯不同,且F1分?jǐn)?shù)均在0附近,Cohen′s kappa統(tǒng)計(jì)系數(shù)都接近-1,若使用AUC等常用的評(píng)估指標(biāo)來(lái)度量這些生物標(biāo)志物的信息量,則這些生物標(biāo)志物可能會(huì)被漏選;而這些生物標(biāo)志物的變換AUC值顯著大于0.65,表明變換AUC能較好地度量這些生物標(biāo)志物的信息量,可避免醫(yī)學(xué)篩選時(shí)重要生物標(biāo)志物被錯(cuò)失。因此,本文建議在一般的醫(yī)學(xué)篩選生物標(biāo)志物時(shí),使用變換AUC評(píng)估生物標(biāo)志物的信息量。
3.4" 頸動(dòng)脈穩(wěn)定性預(yù)測(cè)模型的構(gòu)建
本文根據(jù)變換AUC建立一個(gè)高精度的頸動(dòng)脈斑塊穩(wěn)定性預(yù)測(cè)模型,為了進(jìn)一步說(shuō)明在醫(yī)學(xué)診斷識(shí)別中使用變換AUC的優(yōu)勢(shì),本文還建立了基于AUC的頸動(dòng)脈斑塊穩(wěn)定性預(yù)測(cè)模型,并進(jìn)行了對(duì)比分析。
本文分別使用AUC和變換AUC度量生物標(biāo)志的信息量,篩選出一些重要的生物標(biāo)志物,建立變量池。具體過(guò)程如下:a)把AUC值大于0.6的生物標(biāo)志物放入變量池Ⅰ,共51個(gè)生物標(biāo)志物;b)篩選出變換AUC值大于0.6的生物標(biāo)志物放入變量池Ⅱ,共105個(gè)生物標(biāo)志物。
為了快速找到基于AUC的最優(yōu)頸動(dòng)脈斑塊穩(wěn)定性預(yù)測(cè)模型,本文將選用變量池Ⅰ,使用向前逐步回歸篩選模型的方法,并使用AIC(Akaike information criterion)值、AUC值度量模型偏差值,以說(shuō)明預(yù)測(cè)模型的精度。具體的建模過(guò)程如表5所示。
對(duì)于變量池Ⅱ中的生物標(biāo)志物F,若其變換AUC值顯著大于AUC值,則對(duì)它按式(4)進(jìn)行H變換,變換后的生物標(biāo)志物用HF表示,將變換后的變量池Ⅱ記為變量池Ⅲ。為了快速找到基于變換AUC的最優(yōu)頸動(dòng)脈穩(wěn)定性預(yù)測(cè)模型,本文使用變量池Ⅲ,采用了向前逐步回歸篩選模型的方法,并使用AIC(Akaike Information Criterion)值、AUC值度量模型的精度。具體的建模過(guò)程如表6所示。
由表5和表6發(fā)現(xiàn),基于變換AUC的最優(yōu)頸動(dòng)脈斑塊穩(wěn)定性預(yù)測(cè)模型的精度顯著高于基于AUC的最優(yōu)頸動(dòng)脈斑塊穩(wěn)定性預(yù)測(cè)模型,最重要的原因是:a)變量池Ⅱ中包含的有識(shí)別能力的生物標(biāo)志物顯著多于變量池Ⅰ,使用變換AUC評(píng)估生物標(biāo)志物的識(shí)別能力能有效地防止重要生物標(biāo)志物的遺漏;b)本文建議的非單調(diào)H變換能提高某些非傳統(tǒng)的生物標(biāo)志物的識(shí)別能力。因此,在實(shí)際應(yīng)用中,基于變換AUC評(píng)估生物標(biāo)志物的識(shí)別能力,對(duì)原始生物標(biāo)志物進(jìn)行非單調(diào)H變換,能提高醫(yī)學(xué)診斷模型的精度。
4" 結(jié)" 論
為了準(zhǔn)確評(píng)估頸動(dòng)脈斑塊的穩(wěn)定性,本文在ROC空間提出了變換AUC及其在雙正態(tài)模型下的參數(shù)估計(jì)方法和自由分布模型下的非參數(shù)估計(jì)方法,有效解決了常用的AUC、F1分?jǐn)?shù)和Cohen′s kappa統(tǒng)計(jì)系數(shù)等評(píng)估指標(biāo)不能準(zhǔn)確度量非傳統(tǒng)生物標(biāo)志物的信息量的問(wèn)題。實(shí)驗(yàn)研究表明,變換AUC能很好地度量非傳統(tǒng)生物標(biāo)志物的信息量,其值均在0.6以上,可以有效防止重要生物標(biāo)志物的遺漏。此外,基于變換AUC建立的醫(yī)學(xué)診斷預(yù)測(cè)模型,模型的AUC值達(dá)到了0.9以上,相較于傳統(tǒng)的模型篩選方法,具有更高的精度。
本文提出了高精度頸動(dòng)脈斑塊穩(wěn)定性預(yù)測(cè)模型及其應(yīng)用過(guò)程,然而,對(duì)于變換AUC的估計(jì)問(wèn)題,本文只提供了雙正態(tài)模型下的參數(shù)估計(jì)方法和自由分布模型下的非參數(shù)估計(jì)方法,且這兩種估計(jì)方法的準(zhǔn)確性和可靠性尚未進(jìn)行系統(tǒng)研究。此外,關(guān)于是否存在更有效的估計(jì)方法仍需進(jìn)一步研究。
參考文獻(xiàn):
[1]Micari A, Nerla R, Vadal G, et al. 2-year results of paclitaxel-coated balloons for long femoropopliteal artery disease: Evidence from the SFA-long study[J]. JACC Cardiovascular Interventions, 2017, 10(7): 728-734.
[2]Schmidt A, Piorkowski M, Grner H, et al. Drug-coated balloons for complex femoropopliteal lesions: 2-year results of a real-world registry[J]. JACC: Cardiovascular Interventions, 2016, 9(7): 715-724.
[3]王雪利, 崔志新, 呂文君, 等. 頸動(dòng)脈斑塊的無(wú)創(chuàng)影像評(píng)價(jià)方法的研究進(jìn)展[J]. 承德醫(yī)學(xué)院學(xué)報(bào), 2021, 38(2): 157-162.
[4]Saba L, Francone M, Bassareo P P, et al. CT attenuation analysis of carotid intraplaque hemorrhage[J]. AJNR American Journal of Neuroradiology, 2018, 39(1): 131-137.
[5]李楊, 查云飛. CTA評(píng)價(jià)頸動(dòng)脈斑塊成分及體積與腦血管癥狀相關(guān)性[J]. CT理論與應(yīng)用研究, 2016, 25(5): 601-607.
[6]Lu M M, Cui Y Y, Peng P, et al. Shape and location of carotid atherosclerotic plaque and intraplaque hemorrhage: A high-resolution magnetic resonance imaging study[J]. Journal of Atherosclerosis and Thrombosis, 2019, 26(8): 720-727.
[7]Lu M M, Yuan F, Zhang L C, et al. Segment-specific progression of carotid artery atherosclerosis: A magnetic resonance vessel wall imaging study[J]. Neuroradiology, 2020, 62(2): 211-220.
[8]Fawcett T. An introduction to ROC analysis[J]. Pattern Recognition Letters, 2006, 27(8): 861-874.
[9]余昊,趙超群,楊建萍.基于密度比模型的pAUC半?yún)?shù)估計(jì)方法及其應(yīng)用[J/OL].(2023-03-01)[2023-11-21].http:∥kns.cnki.net/kcms/detail/33.1338.TS.20230331.0921.009.html.
[10]趙超群,余昊,楊建萍.正態(tài)總體決策曲線參數(shù)估計(jì)方法及其應(yīng)用[J].浙江理工大學(xué)學(xué)報(bào)(自然科學(xué)), 2023,49(3):379-387.
[11]王彥光, 朱鴻斌, 徐維超. ROC曲線及其分析方法綜述[J]. 廣東工業(yè)大學(xué)學(xué)報(bào), 2021, 38(1): 46-53.
[12]王曼, 徐春燕, 施學(xué)忠. 醫(yī)學(xué)論文中ROC曲線應(yīng)用錯(cuò)誤例析[J]. 編輯學(xué)報(bào), 2019, 31(2): 159-161.
[13]何小梅, 王林曉. Logistic 模型和ROC曲線對(duì)替加環(huán)素致凝血異常的預(yù)測(cè)分析[J]. 中南藥學(xué), 2020, 18(9): 1577-1580.
[14]Zhou X H, Obuchowski N A, McClish D K. Statistical Methods in Diagnostic Medicine[M]. Hoboken: John Wiley amp; Sons, 2009:261-296.
[15]Zou K, Liu A, Bandos A, Ohno-Machado L, Rockette H. Statistical Evaluation of Diagnostic Performance: Topics in ROC Analysis[M]. Boca Raton: CRC Press, 2012:6-14.
[16]Bantis L E, Tsimikas J V, Chambers G R, et al. The length of the receiver operating characteristic curve and the two cutoff Youden index within a robust framework for discovery, evaluation, and cutoff estimation in biomarker studies involving improper receiver operating characteristic curves[J]. Statistics in Medicine, 2021, 40(7): 1767-1789.
(責(zé)任編輯:康" 鋒)