陳文波,盧 雪,金潔玚,鄭榮琴
(1.清遠(yuǎn)市人民醫(yī)院超聲科,廣東清遠(yuǎn) 511500;2.中山大學(xué)附屬第三醫(yī)院超聲科,廣東廣州 510630)
慢性肝?。╟hronic liver disease,CLD)是多種肝臟疾病的統(tǒng)稱,表現(xiàn)為肝臟慢性壞死和炎癥,需要臨床干預(yù),包括保肝或抗纖維化治療[1]。目前肝纖維化評(píng)估國(guó)際上常用的標(biāo)準(zhǔn)為METAVIR 病理分級(jí)標(biāo)準(zhǔn):F0、F1、F2、F3、F4,纖維化程度依次加重[2]。準(zhǔn)確評(píng)估肝纖維化,對(duì)于指導(dǎo)治療、評(píng)估療效及預(yù)后判斷均有重要意義[3]。但肝臟組織穿刺活檢是侵襲性技術(shù),易產(chǎn)生疼痛、出血等不良后果[4],且存在取樣誤差[5-6]及觀察者間誤差[2]。常用無(wú)創(chuàng)評(píng)估手段有血小板比值(AST to platelet ratio index,APRI)、FIB-4 指數(shù)(Fibrosis-4 Score,F(xiàn)IB-4),尤其瞬時(shí)彈性成像(transient elastography,TE)和二維剪切波彈性成像(two dimension shear wave elastography,2D-SWE),得到臨床和眾多指南推薦[4,7-8],但APRI 和FIB-4 診斷效能較低,而TE 仍具備無(wú)成像系統(tǒng)、適用性不佳、取樣范圍小等局限性,2D-SWE不同研究、不同制造商之間存在較大的差異性[8]。近年來(lái)影像組學(xué)定量評(píng)估及自動(dòng)化分析,以其無(wú)創(chuàng)性、全面性、簡(jiǎn)便易行性等特點(diǎn),備受關(guān)注[9]。國(guó)內(nèi)外學(xué)者利用影像組學(xué),對(duì)肝纖維化進(jìn)行評(píng)估,準(zhǔn)確率0.82~0.90,最高受試者工作曲線下面積(area under the receiver-operator-characteristic curve,AUC)0.87~0.97[10-14]。這些研究仍有局限性,如沒有組織學(xué)作為金標(biāo)準(zhǔn)、樣本量較小、提取的特征不如2DSWE 與肝纖維化關(guān)系緊密等。因此,深度學(xué)習(xí)分析剪切波彈性圖像(deep learning elastography,DLE)有可能克服2D-SWE 技術(shù)局限性、提高診斷效能,實(shí)現(xiàn)肝纖維化精準(zhǔn)評(píng)估。
收集2012 年11 月至2016 年10 月感染科臨床確診的行2D-SWE 檢查的CLD 患者,納入標(biāo)準(zhǔn):①各種病因?qū)е碌腃LD;②年齡≥18 歲;③行肝臟組織穿刺活檢。排除標(biāo)準(zhǔn):①2D-SWE 圖像資料不全;②缺失重要的血清學(xué)結(jié)果;③肝移植術(shù)后。本研究為回顧性分析,無(wú)法取得患者知情同意,但經(jīng)過(guò)倫理委員會(huì)批準(zhǔn),并在Clinical Trails 上注冊(cè)(審批號(hào):NCT03221049)。
1.2.1 2D-SWE 操作者具有超過(guò)300例腹部超聲檢查經(jīng)驗(yàn),在監(jiān)督指導(dǎo)下進(jìn)行超過(guò)50 例2D-SWE檢查,使用統(tǒng)一標(biāo)準(zhǔn)化操作流程及標(biāo)準(zhǔn)進(jìn)行2DSWE檢查訓(xùn)練[15-17]。2位2D-SWE 操作經(jīng)驗(yàn)超過(guò)兩年、超聲操作經(jīng)驗(yàn)超過(guò)10 年的高年資醫(yī)師是本研究的質(zhì)量控制者。采用Supersonic Aixplorer型超聲診斷儀(Supersonic Imagine,SSI,F(xiàn)rance),選擇SC6-1型凸陣探頭,探頭頻率范圍為1.0~6.0 MHz。儀器條件設(shè)置如下:二維灰階圖像放大至120%,深度調(diào)節(jié)至8 cm,聚焦設(shè)置于6 cm?;颊呓?~12 h,平臥位,右上肢上抬,于右肋間避開膽囊及肝臟內(nèi)大血管等管道結(jié)構(gòu),凍結(jié)圖像后在充盈較好的區(qū)域選取直徑為20 mm 的感興趣區(qū)域。重復(fù)測(cè)量5 次,采用中位數(shù)作為肝臟硬度測(cè)值。
1.2.2 血清學(xué)檢查 選取2D-SWE 檢查的前后一周內(nèi)的結(jié)果,包括:空腹血糖、谷丙轉(zhuǎn)氨酶(alanine aminotransferase,ALT)、谷草轉(zhuǎn)氨酶(aspartate aminotransferase,AST)、血小板計(jì)數(shù)(platelets,PLT)、總膽紅素、直接膽紅素、間接膽紅素、谷酰轉(zhuǎn)肽酶、凝血酶原活動(dòng)度百分比、堿性磷酸酶、白蛋白。APRI=[(AST/AST 正常值上限)×100]/PLT;FIB-4=(年齡×AST)/(PLT×ALT1/2)。其中,AST、ALT 單位均為IU/L,PLT 單位為109/L,AST 正常值上限為40 U/L。
1.2.3 TE 部分納入的患者自愿進(jìn)行了TE(FibroScan;Echosens)的檢查?;颊咭笈c2D-SWE一致。采樣位置盡量與2D-SWE 一致,深度為皮下2.5 cm~6.5 cm,避開大血管區(qū)域。滿足:①10 次有效測(cè)量;②總測(cè)量成功率≥60%;③四分位距/中位數(shù)≤30%。
1.2.4 DLE 確保F0~F4 各期患者比例一致的前提下,將最終納入分析的患者使用隨機(jī)數(shù)法分成兩組,一組為訓(xùn)練組,另一組為驗(yàn)證組,訓(xùn)練組略多于驗(yàn)證組。DLE 模型建立于Ubuntu 16.04 操作系統(tǒng)(Canonical Group Limited,London,United Kingdom),使 用GeForce 980 Ti(NVidia Corporation,Santa Clara,California,United States)的6G 圖形處理器,深度學(xué)習(xí)框架為Keras(Version 1.4,F(xiàn)ran?ois Chollet,California,United States),后端是Tensorflow(Version 1.3,Google,Inc.,California,United States)。使用卷積神經(jīng)網(wǎng)絡(luò)方法,輸入圖層使用訓(xùn)練組的2D-SWE 圖像,經(jīng)過(guò)卷積、激活、池化3 個(gè)步驟[14],最終建立深度學(xué)習(xí)模型(圖1)。
1.2.5 病理取材及診斷 穿刺時(shí)盡量選擇2DSWE與TE檢查時(shí)的相近部位。病理標(biāo)本由兩位超過(guò)6 年經(jīng)驗(yàn)的病理科醫(yī)生診斷,若結(jié)果不一致,則由第3位超過(guò)10年診斷經(jīng)驗(yàn)的上級(jí)醫(yī)師進(jìn)行復(fù)查。
圖1 DLE的圖像處理示意圖Fig.1 Image processing of DLE
1.3.1 DLE 的診斷效能 使用建立好的深度學(xué)習(xí)模型于驗(yàn)證組中評(píng)估各期肝纖維化,并分別將其與單獨(dú)使用2D-SWE、血清學(xué)標(biāo)志物、TE 時(shí)的診斷效能進(jìn)行比較。
1.3.2 DLE 的穩(wěn)定性 確保亞組間F0~F4 各期患者比例一致前提下,將驗(yàn)證組中F0~F4各期患者隨機(jī)平分為3 個(gè)亞組。分別以DLE 模型進(jìn)行測(cè)試,比較三組間的差異以反映DLE的穩(wěn)定性。
1.3.3 統(tǒng)計(jì)方法 使用SPSS 20.0 及Medcalc 11.2。Shapiro-Wilk 檢驗(yàn)?zāi)挲g及血清學(xué)資料的正態(tài)性,其中正態(tài)性方差齊的定量資料差異性檢驗(yàn)使用Student’st-test,否則使用Mann-WhitneyU非參數(shù)檢驗(yàn)。無(wú)序分類定性資料如性別、纖維化病理分級(jí)使用卡方檢驗(yàn)。在Medcal 中構(gòu)建受試者工作曲線,診斷效能以AUC 表示。兩組間的AUC 差異性檢驗(yàn)選擇Delong test,如各種手段評(píng)估同一纖維化病理分級(jí)時(shí)AUC 的兩兩比較、驗(yàn)證組中3個(gè)亞組評(píng)估穩(wěn)定性時(shí)的AUC 兩兩比較。結(jié)果均選擇雙側(cè)假設(shè)檢驗(yàn),以P<0.05為界定義差異是否有統(tǒng)計(jì)學(xué)意義。
感染科臨床確診并行2D-SWE 檢查的共572名慢性肝病患者,納入本研究。其中27 例因?yàn)閳D像資料不齊全、缺失重要血清學(xué)結(jié)果及肝移植術(shù)后被排除,最終545例患者納入分析(圖2),包括乙型肝炎367 例、自身免疫性肝病45 例、膽汁性肝硬變30 例、藥物性肝損傷13 例、丙型肝炎9 例、酒精性肝損傷2 例、其他79 例。包括一般資料、血清學(xué)資料、纖維化病理分級(jí),結(jié)果見表1,正態(tài)性定量資料表示為均數(shù)加減標(biāo)準(zhǔn)差,非正態(tài)性定量資料表示為中位數(shù)及四分位差,定性資料表示為數(shù)量及占比。所有項(xiàng)目差異均無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。
圖2 患者納入情況Fig.2 The results of patient enrollments
訓(xùn)練組建立DLE模型,可知訓(xùn)練組中迭代次數(shù)為80 左右時(shí),模型已經(jīng)可以趨于穩(wěn)定(圖3),而本研究訓(xùn)練組樣本量為305,每個(gè)患者可以提供5 張圖像,迭代次數(shù)為1 525。DLE 評(píng)估CLD 患者F=4、F≥3、F≥2 的診斷效能,結(jié)果見表2~4,所有方法中,DLE 的診斷效能最高(圖4),AUC 分別達(dá)0.99[95%置信區(qū)間為(0.97,1.00)]、0.98[95%置信區(qū)間為(0.99,0.99)]、0.92[95%置信區(qū)間為(0.88,0.95)],均明顯高于2D-SWE、APRI、FIB-4、TE,差異有統(tǒng)計(jì)學(xué)意義;2D-SWE 表現(xiàn)出第二高的診斷效能,AUC 分別為0.89[95%置信區(qū)間為(0.86,0.92)]、0.86[95%置信區(qū)間為(0.83,0.89)]、0.86[95%置信區(qū)間為(0.83,0.89)],高于APRI(分別P<0.01,P<0.01,P<0.01)、FIB-4(分別P<0.01,P<0.01,P<0.01)、TE(分別P=0.188 4,P<0.05,P=0.073)。而APRI、FIB-4、TE 三者間兩兩比較,評(píng)估F=4、F≥3、F≥2 的診斷效能差異均無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05),AUC 最高只達(dá)0.81[95% 置信區(qū)間為(0.71,0.89)]。
表1 患者基線資料Table 1 Baseline characteristics of the patients [ or M(IQR)]
表1 患者基線資料Table 1 Baseline characteristics of the patients [ or M(IQR)]
DLE 評(píng)估纖維化的穩(wěn)定性結(jié)果見表5,不同驗(yàn)證組的選擇,并不影響DLE 的診斷效能(圖5),評(píng)估同一肝纖維化病理分級(jí)時(shí),3 次試驗(yàn)兩兩之間分別比較診斷效能,差異均無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。
圖3 損失函數(shù)變化趨勢(shì)Fig.3 The trend of the loss function
此為單中心、回顧性隊(duì)列研究,樣本量較大,對(duì)比了DLE、2D-SWE、血清學(xué)標(biāo)志物、TE評(píng)估肝纖維化的診斷效能。對(duì)于CLD 患者F=4、F≥3、F≥2 的評(píng)估,DLE 均表現(xiàn)出明顯高于其他手段的診斷效能(表2~4),差異有統(tǒng)計(jì)學(xué)意義,AUC 最高達(dá)0.99[95%置信區(qū)間為(0.97,1.00)],其診斷能力堪比肝臟組織穿刺活檢。2D-SWE 表現(xiàn)出第二高的診斷效能,AUC 最高達(dá)0.89[95%置信區(qū)間為(0.86,0.92)]。其他手段診斷效能差別不大,最高只達(dá)0.81[95%置信區(qū)間為(0.71,0.89)]。提示DLE 可用于準(zhǔn)確評(píng)估肝纖維化。
不同病因造成的肝纖維化病理分級(jí)與超聲表現(xiàn)上存在差異。但結(jié)果部分我們可知80 次迭代訓(xùn)練組已經(jīng)可以滿足需求(圖3),而本研究迭代次數(shù)為1 525,遠(yuǎn)大于80。基于巨大迭代數(shù)的深度學(xué)習(xí)模型,完全可以忽略不計(jì)不同病因造成影響。而上述優(yōu)秀的診斷效能也足以說(shuō)明,模型幾乎沒有受到不同病因造成的干擾。
DLE 相對(duì)于2D-SWE 有兩個(gè)明顯的優(yōu)勢(shì)。第一,DLE 的輸入圖層包含了整個(gè)2D-SWE 的2.5 cm×2.5 cm 的感興趣區(qū)域。第二,DLE 使用卷積神經(jīng)網(wǎng)絡(luò)技術(shù),對(duì)2D-SWE 圖像自動(dòng)化特征提取及深度學(xué)習(xí)。因此,與2D-SWE 單獨(dú)使用基于剪切波速度的較小的感興趣區(qū)域內(nèi)的肝硬度平均測(cè)值不同,DLE 可以消除單一測(cè)值帶來(lái)的不同研究、不同制造商之間的差異,并實(shí)現(xiàn)大量特征的分析,包括隱藏在2D-SWE 圖像中各圖層的信息,最終對(duì)肝纖維化進(jìn)行定量自動(dòng)化分析,顯然更加徹底和全面,最終顯著提高診斷效能。
表2 DLE、2D-SWE、TE、APRI、FIB-4評(píng)估F=4的診斷效能Table 2 Diagnostic performance of DLE,2D-SWE,APRI and FIB-4,TE for assessing F=4
表3 DLE、2D-SWE、TE、APRI、FIB-4評(píng)估F≥3的診斷效能Table 3 Diagnostic performance of DLE,2D-SWE,APRI and FIB-4,TE for assessing F≥3
結(jié)果顯示DLE表現(xiàn)出良好的穩(wěn)定性,更改驗(yàn)證組,DLE 評(píng)估肝纖維化的診斷效能差異均無(wú)統(tǒng)計(jì)學(xué)意義(表5),且與基本試驗(yàn)中(表2-4)DLE 的診斷效能類似。說(shuō)明無(wú)論我們使用哪些數(shù)據(jù)作為驗(yàn)證組,DLE 均能得到較好的診斷效能,為其臨床推廣應(yīng)用提供了可能性。
由于本研究是探索性的,因此為回顧性單中心研究,較于前瞻性多中心研究證據(jù)質(zhì)量欠佳。另外,DLE 的技術(shù)本身仍有改進(jìn)空間,比如納入其它信息如肝實(shí)質(zhì)圖像、血清學(xué)結(jié)果等,構(gòu)建DLE 諾模圖綜合分析模型。
表4 DLE、2D-SWE、TE、APRI、FIB-4評(píng)估F≥2的診斷效能Table 4 Diagnostic performance of DLE,2D-SWE,APRI and FIB-4,TE for assessing F≥2
圖4 對(duì)比DLE、2D-SWE、APRI、FIB-4、TE評(píng)估肝纖維化的ROC曲線Fig.4 Comparison of ROC curves among DLE,2D-SWE,APRI,F(xiàn)IB-4 and TE for the assessment of liver fibrosis
圖5 對(duì)比DLE模型分別用于組1-3評(píng)估肝纖維化的ROC曲線Fig.5 Comparison of ROC curves among three groups when DLE model was used,respectively,for the assessment of liver fibrosis
表5 不同驗(yàn)證組應(yīng)用DLE評(píng)估肝纖維化時(shí)的診斷效能比較Table 5 Comparisons of using different validation groups for DLE to evaluate liver fibrosis
DLE 能準(zhǔn)確評(píng)估肝纖維化,其診斷效能高于其它常用手段,并具有較好的穩(wěn)定性,有望成為肝纖維化無(wú)創(chuàng)評(píng)估的新手段,有較好的臨床推廣前景。
中山大學(xué)學(xué)報(bào)(醫(yī)學(xué)科學(xué)版)2021年2期