尚美霞 閻小妍 李雪迎 朱賽楠 姚 晨,Δ
【提 要】 目的 探索基于多閱片者多病例研究設(shè)計的人工智能輔助醫(yī)療器械或軟件進行確證性臨床試驗的病例和閱片者樣本量的選擇依據(jù)和方法。方法 以某三甲醫(yī)院收集的某胸部CT影像輔助診斷系統(tǒng)用于肺結(jié)節(jié)診斷的試驗數(shù)據(jù)為例,采用R軟件對數(shù)據(jù)進行方差分析和診斷準(zhǔn)確度統(tǒng)計,以方差和協(xié)方差分析的結(jié)果為依據(jù)對計劃開展的正式試驗樣本量進行估算,同時探索分析不同參數(shù)組合條件下的樣本量變化情況。結(jié)果 7名具有不同胸部CT閱片經(jīng)驗的影像科醫(yī)生對回顧性納入的200例病例影像分別在AI輔助條件和無AI輔助條件下進行讀片,采用AI輔助醫(yī)生讀片的診斷準(zhǔn)確性優(yōu)于醫(yī)生獨立讀片的準(zhǔn)確性[AF-ROC差值0.119(95%CI:0.078,0.161),P<0.001],不同閱片者提高的準(zhǔn)確度水平不同。同一閱片者分別在兩種診斷模式下診斷結(jié)果的相關(guān)系數(shù)越大,需要病例樣本量越?。幌嗤喥J较虏煌喥唛g診斷結(jié)果的相關(guān)系數(shù)和不同閱片者在不同診斷模式間診斷結(jié)果的相關(guān)系數(shù)的差值越大,需要的病例樣本量越大。結(jié)論 基于多閱片者多病例研究設(shè)計的人工智能或機器學(xué)習(xí)輔助醫(yī)療類的器械或軟件的確證性臨床試驗中采用多閱片者會適當(dāng)減低病例的樣本量,采用合適的統(tǒng)計學(xué)方法可以對閱片者和病例的樣本量進行科學(xué)的估算。
目前的影像診斷實踐中,影像判讀和疾病診斷基本上都是由影像科醫(yī)生人工完成,比例大約在90%以上[1],但診斷需求日益增長,臨床醫(yī)生資源相對短缺,兩者之間存在著很大的不平衡,為此影像科醫(yī)生面臨著很大的工作壓力[2]。另一方面,以深度學(xué)習(xí)(deep learning)為核心的人工智能技術(shù)(artificial intelligence)與醫(yī)學(xué)影像技術(shù)的結(jié)合,輔助臨床醫(yī)生進行疾病的判讀和診斷,可大大減少臨床醫(yī)生的診斷時間,同時可明顯提高醫(yī)學(xué)影像的診斷效率[3-4],為此AI輔助條件下醫(yī)學(xué)影像的分析與處理已成為醫(yī)學(xué)信息中發(fā)展最快的領(lǐng)域之一,之前已有關(guān)于利用人工智能系統(tǒng)預(yù)測大面積腦梗死患者的轉(zhuǎn)歸的文章發(fā)表[5]?;诖罅康尼t(yī)療數(shù)據(jù)信息和各種算法研發(fā)深度學(xué)習(xí)輔助決策醫(yī)療器械軟件,幫助臨床進行輔助篩查、診斷、治療和結(jié)局預(yù)測等工作,是目前醫(yī)療器械行業(yè)研發(fā)和注冊申報的熱點和焦點[6]。
從批準(zhǔn)上市前對深度學(xué)習(xí)輔助醫(yī)療器械軟件確認(rèn)的臨床試驗角度出發(fā),考慮到軟件的真實使用場景和使用對象的差異性,國家監(jiān)管和有關(guān)評審部門建議臨床試驗采用多閱片者多病例(multireader multicase,MRMC)研究設(shè)計[7]。但多閱片者多病例的研究設(shè)計目前在國內(nèi)的相關(guān)研究和參考較少,如何從方法學(xué)角度對整個臨床試驗進行把控設(shè)計,尤其是樣本量的選擇一直是申辦者和監(jiān)管部門等比較關(guān)心的問題。為此,本文參考國外相關(guān)研究情況,從統(tǒng)計方法學(xué)角度對樣本量計算的參數(shù)需求和計算過程進行闡述,結(jié)合開展的一項MRMC設(shè)計的AI臨床試驗實例對此類研究設(shè)計的分析思路和樣本量選擇進行示例,最后評估不同參數(shù)條件下可能的樣本量,希望可以對今后開展的深度學(xué)習(xí)或人工智能之類醫(yī)療產(chǎn)品的確證性臨床試驗的設(shè)計和開展提供方法學(xué)的幫助和參考。
MRMC設(shè)計的臨床試驗中統(tǒng)計學(xué)評價指標(biāo)常基于ROC曲線計算得到的曲線下面積(AUC)以及相關(guān)的一些衍生指標(biāo)(如FROC-AUC、AFROC-AUC等)[8],或者是靈敏度和特異度等診斷類評價指標(biāo)。目前,國外針對MRMC設(shè)計的文獻(xiàn)或研究中最常用統(tǒng)計分析方法有OR(Obuchowski-Rockette)法和DBM(Dorfman-Berbaum-Metz)法兩種[9-10],兩種方法略有不同,OR模型的假設(shè)更科學(xué)合理且相對容易理解,從方差及協(xié)方差估計角度考慮DBM方法與OR方法之間相關(guān)參數(shù)可以進行互相轉(zhuǎn)換[10-11]。本研究統(tǒng)計學(xué)假設(shè)和方法部分的樣本量闡述假定研究分析是基于以非參數(shù)法估計的ROC-AUC為主要評價指標(biāo)的Obuchowski-Rockette方法進行統(tǒng)計。
采用OR方法對多閱片者多病例研究設(shè)計收集的數(shù)據(jù)進行統(tǒng)計分析,首先需構(gòu)建如下的統(tǒng)計學(xué)模型,該模型構(gòu)建與我們常見的混合效應(yīng)方差分析模型一致:
依據(jù)模型方差分解變異解釋的原理[14-15],但與常用的方差分析模型不同,混合效應(yīng)方差分析模型中的誤差項不獨立,標(biāo)準(zhǔn)F檢驗對于結(jié)果估計會存在偏差,據(jù)此Hills[11]考慮相同閱片模式下不同閱片者間和不同閱片方式下不同閱片者間的協(xié)方差估計值指出Obuchowski-Rockette方法針對上述混合效應(yīng)線性模型,構(gòu)建進行模型假設(shè)檢驗的可以考慮相關(guān)的一個關(guān)鍵修正統(tǒng)計量FOR,且FOR服從近似F分布Ft-1,df2,其中FOR和df2計算如下:
同時用不同閱片方法與閱片者間的二階交互隨機效應(yīng)項實際測量均方所對應(yīng)均方替換公式中的期望均方,用如下ddfH的計算方法去替代估計df2,
其中,H(.)為Hills定義的一個函數(shù),解釋如下:
假定c*和r*為預(yù)實驗估計結(jié)果對應(yīng)的入組病例和閱片者的數(shù)量,c和r為計劃開展正式試驗擬入組或需要的病例和閱片者數(shù)量,對應(yīng)上述計算公式轉(zhuǎn)換如下:
基于上述過程,最終推導(dǎo)出基于預(yù)試驗參數(shù)在目前的病例(c)和閱片者(r)樣本量組合條件下,可檢驗出兩種情況診斷準(zhǔn)確性具有差異的統(tǒng)計學(xué)檢驗效能如下[11]:
關(guān)于肺結(jié)節(jié)檢出與診斷的某基于深度學(xué)習(xí)理論的胸部CT影像輔助診斷系統(tǒng)AI輔助系統(tǒng)臨床試驗,研究目的為評價系統(tǒng)輔助醫(yī)生閱片診斷的診斷準(zhǔn)確性是否優(yōu)于醫(yī)生獨立診斷。研究正式開始時,參考MRMC的思路開展了臨床試驗的預(yù)試驗,此預(yù)試驗最終入組回顧性收集自某三甲醫(yī)院的200例臨床病例,其中“金標(biāo)準(zhǔn)”診斷為陽性病例110例,陰性病例90例。同時研究納入7名具有不同胸部CT影像閱片經(jīng)驗的影像科醫(yī)生作為研究的讀片醫(yī)生,閱片者按照事先培訓(xùn)規(guī)定的讀片流程記錄自己所觀察到的結(jié)節(jié)位置、結(jié)節(jié)大小和判定肺結(jié)節(jié)的可能性評分。
研究以判定肺結(jié)節(jié)的可能性分值對比金標(biāo)準(zhǔn)結(jié)果估計的AFROC-AUC(以結(jié)節(jié)為評價單位)作為主要評價指標(biāo),采用MRMC方差分析方法對研究中的各種變異進行分解,估計兩種閱片方法和閱片者間的各種相關(guān),最終分別統(tǒng)計軟件輔助醫(yī)生診斷和醫(yī)生獨立診斷的兩種方法的診斷準(zhǔn)確性并做出統(tǒng)計學(xué)比較。具體統(tǒng)計結(jié)果見表1。
表1 兩種診斷方法的診斷準(zhǔn)確性結(jié)果(AFROC-AUC)
可以看出,MRMC設(shè)計的臨床試驗中樣本量估計需要分病例和閱片者數(shù)目兩部分,影響樣本量的參數(shù)可以概括為試驗效應(yīng)、變異和相關(guān)三部分。試驗組和對照組間效應(yīng)差值和變異的大小會影響樣本量的大小[16],診斷準(zhǔn)確性的預(yù)期差別越大,說明試驗效應(yīng)差值越大,需要的樣本量會越少;同時方差分量反映的是變異的可解釋程度,方差分量越大,變異越大,需要的樣本量會越大。相同閱片者或不同閱片者相同閱片方法下閱片數(shù)據(jù)的各種相關(guān)性也會影響樣本量,本文對在不同相關(guān)性的組合條件下病例和閱片者的例數(shù)組合隨著相關(guān)系數(shù)的變化情況做了初步的探索和分析。在本部分進行相關(guān)性與估計樣本量的變化關(guān)系探索時,首先對其他參數(shù)的定義如下:
(1)優(yōu)效假設(shè),單側(cè)檢驗α=0.025,檢驗性能power為80%;
(2)兩種閱片方法條件下診斷準(zhǔn)確性的預(yù)期差別θΔ=0.05;
(5)預(yù)試驗中入組病例總數(shù)為100例,其中陽性病例和陰性病例的比例為1∶1;
(6)正式試驗擬納入的閱片人數(shù)為8人。
如前所述,若從相關(guān)性角度分析樣本量的變化過程,與樣本量相關(guān)的分別是同一閱片者分別在不同閱片方法下閱片結(jié)果的相關(guān)系數(shù)r1,以及相同閱片方法下不同閱片者閱片結(jié)果間的相關(guān)系數(shù)和不同閱片者分別在不同閱片方法中閱片結(jié)果相關(guān)系數(shù)的差值r2-r3。根據(jù)Rockette(1999)[17]一文中對20個MRMC試驗的報道,同一閱片者分別獨立閱片和聯(lián)合輔助軟件閱片結(jié)果的相關(guān)系數(shù)(r1)范圍為0.35~0.59,中位數(shù)為0.48,匯總r2-r3的范圍為-0.0196至0.0139,所以本次研究中選擇相關(guān)系數(shù)r1的取值范圍為0.10~0.60,r2-r3差值的取值范圍為0.00~0.30,匯總得到不同相關(guān)系數(shù)組合情況下的病例數(shù)目如表2所示??梢钥闯鲭S著相關(guān)系數(shù)r1的逐漸變大,需要的病例樣本量逐漸減少;同時相關(guān)系數(shù)r2和相關(guān)系數(shù)r3的差值也會影響病例的樣本量,差值越大,需要的病例樣本量越大。
表2 不同閱片相關(guān)性條件下對應(yīng)的病例數(shù)目
此外,為進一步明確閱片者數(shù)目和病例數(shù)目的組合變化情況,還分別定義在相關(guān)系數(shù)r1為0.30和0.60兩種條件,以及r2-r3為0.00和0.05兩種條件下不同閱片者數(shù)目和病例數(shù)目的變化曲線如圖1所示。從圖1可以看出,多閱片者多病例設(shè)計研究可以適當(dāng)減少需要的入組病例數(shù)目,但閱片者數(shù)目超過一定數(shù)(如圖1中提示的12名)之后所需病例的數(shù)目變化影響很小。
圖1 不同相關(guān)條件下閱片者和病例數(shù)目組合變化情況
綜上所述,除試驗設(shè)計類型和常規(guī)樣本量計算的參數(shù)外,基于MRMC設(shè)計的深度學(xué)習(xí)輔助醫(yī)療器械或軟件確證性臨床試驗樣本量計算需明確的主要參數(shù)有:
(1)診斷準(zhǔn)確性的預(yù)期差別θΔ;
(7)入組病例中金標(biāo)準(zhǔn)判定的陽性病例和陰性病例的比例。
對于入選病例中陽性病例和陰性病例的比例,本文并未探索不同陰陽比例與樣本量的變化關(guān)系,但不同入選人群中如果陽性病例的患病率不同,也會導(dǎo)致閱片者的閱片結(jié)果受到影響(或稱為背景偏倚),所以在通過預(yù)試驗估計正式試驗的預(yù)期結(jié)果和樣本量計算的所需參數(shù)時,需要注意兩部分人群中的陰陽比例情況。此外,研究設(shè)計類型也是影響樣本量計算的一個關(guān)鍵考慮因素,為方便理解本文統(tǒng)計過程中假設(shè)的設(shè)計類型為優(yōu)效設(shè)計(AI輔助醫(yī)生診斷優(yōu)于醫(yī)生獨立診斷),申辦者在計劃開展試驗時需要結(jié)合產(chǎn)品實際情況選擇合理的設(shè)計類型。國家監(jiān)管部門也建議優(yōu)先選擇同品種產(chǎn)品或臨床參考標(biāo)準(zhǔn)進行非劣效對照設(shè)計,若無同品種產(chǎn)品且難以獲取臨床參考標(biāo)準(zhǔn)可選擇替代方法,如選擇用戶結(jié)合軟件聯(lián)合決策與用戶單獨決策進行優(yōu)效對照設(shè)計[7]。但是不論是哪種設(shè)計,非劣效界值或優(yōu)效界值的確定應(yīng)當(dāng)有充分的臨床依據(jù)。
綜上所述,針對MRMC設(shè)計的關(guān)于輔助診斷軟件確證性臨床試驗研究中的樣本量估算相對較復(fù)雜,需考慮的因素較多,其中參數(shù)的定義主要來源于MRMC研究設(shè)計中多名閱片醫(yī)生同時對不同組別的同一群入組病例的影像結(jié)果做出判定的過程中,存在病例和閱片者兩部分的主要變異,以及相同或不同閱片醫(yī)生在比較組別間或比較組別內(nèi)判讀結(jié)果的相關(guān)性。開展的臨床試驗不同,這部分的變異和相關(guān)也不同,建議在開展MRMC設(shè)計類型的臨床試驗前先進行預(yù)試驗,通過預(yù)試驗的研究一方面熟悉規(guī)范整個試驗的流程,另一方面也為正式試驗病例和閱片醫(yī)生的數(shù)量估計提供參數(shù)依據(jù)。