孟祥峰,王浩,李佳戈
中國食品藥品檢定研究院 光機電室,北京 100050
隨著人工智能技術(shù)的發(fā)展,人工智能醫(yī)療器械得到了飛速的發(fā)展,目前在國內(nèi)外已有多種類型及用途的人工智能醫(yī)療器械上市,種類及數(shù)量呈上升趨勢。2018年4月11日,美國FDA批準了IDx公司IDx-DR糖尿病視網(wǎng)膜病篩查軟件,這是美國FDA批準的第一款采用新一代人工智能技術(shù)的糖網(wǎng)篩查軟件產(chǎn)品。隨后在輔助診斷、輔助篩查等諸多領(lǐng)域,基于影像、信號、文本等多種數(shù)據(jù)模態(tài)的產(chǎn)品出現(xiàn)[1-3]。2020年8月10日,我國兩款糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件產(chǎn)品獲批上市[4];2020年11月,又有兩款肺結(jié)節(jié)CT影像輔助檢測軟件獲批上市。
我國人工智能醫(yī)療器械產(chǎn)品功能不斷增加、快速迭代,目前還有多個產(chǎn)品處于注冊臨床試驗狀態(tài),不久以后將迎來人工智能產(chǎn)品上市的爆發(fā)期。大量產(chǎn)品的上市,將給市場監(jiān)管帶來壓力。目前對于人工智能醫(yī)療器械的評價方法已經(jīng)有相關(guān)機構(gòu)展開了研究[5-13],《人工智能醫(yī)療器械質(zhì)量要求和評價 第1部分:術(shù)語》《人工智能醫(yī)療器械質(zhì)量要求和評價 第2部分:數(shù)據(jù)集通用要求》兩項標準已完成審定[14],即將發(fā)布。
人工智能醫(yī)療器械在特定訓(xùn)練集訓(xùn)練或測試時,會得到較好的效果,然而在新的數(shù)據(jù)集上的表現(xiàn)很難保證,即說明其泛化能力差,魯棒性能有待提高。目前對其性能指標的評價主要通過利用產(chǎn)品在封閉測試集上的表現(xiàn)進行,因此封閉測試集的樣本量及樣本構(gòu)成必須進行合理的設(shè)計。本文對數(shù)據(jù)集的樣本量進行分析,在一定的樣品構(gòu)成情況下(對應(yīng)特定應(yīng)用場景),分析國內(nèi)已上市輔助診斷產(chǎn)品對于測試集樣本量的需求,在滿足測試的條件下,節(jié)約社會資源,以小樣本達到性能準確評價的目的。
建立一個測試集,需嚴格控制各類偏倚,設(shè)計標注流程,投入很大的人力物力,在人工智能產(chǎn)品不斷多樣化、模態(tài)與病種不斷聚合的情況下,為快速、有效地實現(xiàn)產(chǎn)品驗證,首先需考慮資源問題。人工智能醫(yī)療器械測試集樣本量的估計是基于主要評價指標的相應(yīng)假設(shè)進行的,樣本量的大小和構(gòu)成應(yīng)與產(chǎn)品預(yù)期要應(yīng)用的目標群體匹配,測試集樣本應(yīng)能很好地代表目標人群參數(shù)。適合的樣本量可有助于研究者用合理的資源發(fā)現(xiàn)有意義的性能差異;過少的樣本量難以準確地發(fā)現(xiàn)測試的科學(xué)問題;而過多的樣本量會造成資源的浪費[15-18]。
以診斷試驗為例,在臨床評價試驗中,其評價指標為靈敏度和特異度,可用靈敏度或特異度計算總體的樣本量[19]。
為保證靈敏度的抽樣誤差不大于允差,樣本量應(yīng)不低于式(1)的計算結(jié)果。
為保證特異度的抽樣誤差不大于允差,樣本量應(yīng)不低于式(2)的計算結(jié)果。
本文測試采用回顧性數(shù)據(jù)對產(chǎn)品進行性能驗證,參考臨床評價試驗中的樣本量計算方案,觀測該方法樣本量估算是否滿足測試需求。
根據(jù)衛(wèi)健委和中華醫(yī)學(xué)會的統(tǒng)計,我國糖尿病視網(wǎng)膜病變在糖尿病患者人群中的發(fā)病率約為25%[20],以此作為數(shù)據(jù)庫的患病率,假設(shè)產(chǎn)品預(yù)期靈敏度和特異度為90%,置信區(qū)間95%,允許誤差5%,因此根據(jù)公式,二者的最大值是單次測試樣本數(shù)量的最低要求。對于糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件,以靈敏度計算測試集樣本量,樣本最低數(shù)量為554例,以特異度計算測試集樣本量,樣本最低數(shù)量為185例。
選取某一糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件,在特定陰陽性比例情況下,采用分層隨機抽樣,陰陽性比例保持不變,設(shè)置18個不同樣本量,見表1,分別進行靈敏度、特異度測試,并對結(jié)果進行波動分析。
表1 糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件不同樣本量設(shè)置
肺癌的早期診斷和早期治療是提高患者生存率、降低醫(yī)療負擔的關(guān)鍵。近年來,我國人工智能在肺結(jié)節(jié)檢測上是研究的熱點。但肺結(jié)節(jié)不一定意味著是腫瘤,此外肺結(jié)節(jié)的發(fā)病率目前沒有具體的流行病學(xué)統(tǒng)計,如果以結(jié)節(jié)為單位估算召回率和精確度,按照式(1)和式(2)較難進行樣本量估算。本文從實際檢測角度出發(fā),對肺部CT影像輔助診斷軟件的測試樣本量進行估計和推測。
本文對某兩個肺部CT影像輔助診斷軟件,在測試集中(每個病例平均結(jié)節(jié)個數(shù)為10個)按照病例隨機抽樣,設(shè)置14個不同樣本量(表2),分別進行召回率、精確度測試,并對結(jié)果進行波動分析。
表2 肺部CT影像輔助診斷軟件不同樣本量設(shè)置
糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件在不同樣本量下靈敏度和特異度的測試結(jié)果如圖1所示。波動值的計算公式為式(3),靈敏度的波動度為11%,506例及以后的波動度為0.6%,633例及以后的波動度為0.4%;特異度波動度為2.6%,506例及以后的波動度為1.5%,633例及以后的波動度為0.6%。
圖1 糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件測試結(jié)果
式中,Pmax為測量結(jié)果最大值;Pmin為測量結(jié)果最小值;P為測量過過平均值;S為波動度。
肺部CT影像輔助診斷軟件兩個樣品在不同樣本量下召回率和精確度的測試結(jié)果如圖2~3所示。樣品1召回率的波動度為10.9%,精確度的波動為6.1%;400例(3942個結(jié)節(jié))及以后召回率的波動度為1.5%,精確度的波動為0.7%;450例(4635個結(jié)節(jié))及以后召回率的波動度為0.8%,精確度的波動為0.4%。樣品2召回率的波動度為5.5%,精確度的波動為2.4%;300例(2940個結(jié)節(jié))及以后召回率的波動度為0.6%,精確度的波動為1.1%;350例(3625個結(jié)節(jié))及以后召回率的波動度為0.5%,精確度的波動為0.9%。
圖2 樣品1測試結(jié)果
圖3 樣品2測試結(jié)果
從圖1~3可知,隨著樣本量的增加,被測參數(shù)的波動不斷減小,當樣本量達到一定數(shù)量時,被測參數(shù)的波動趨于穩(wěn)定,說明在測試過程中找到這個拐點即可保證統(tǒng)計結(jié)果準確性,也可不必追求更高數(shù)量的測試集。如果假設(shè)1%的波動能夠滿足測試要求,那么對于糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件,本文試驗?zāi)軌蛲瑫r滿足靈敏度和特異度的最低限為633例。測量結(jié)果與理論計算值相近。即說明對于人工智能產(chǎn)品基于回顧性樣本的測試集測試,其樣本量的估算可按照本文式(1)~(2)的方法進行估計。
對于肺部CT影像輔助診斷軟件,如果假設(shè)1%的波動能夠滿足測試要求,那么樣品1的樣本量為450例(4635個結(jié)節(jié)),樣品2為350例(3625個結(jié)節(jié))。二者結(jié)果的差異也體現(xiàn)了產(chǎn)品性能的差異,從圖2~3可知,樣品2整體波動量比樣品1低了2倍,樣品2的性能要優(yōu)于樣品1。造成差異的原因可能是產(chǎn)品的魯棒性能和泛化能力對結(jié)果的影響,產(chǎn)品抽樣更細分的構(gòu)成如結(jié)節(jié)尺寸、結(jié)節(jié)類型、數(shù)據(jù)質(zhì)量等,這些都會對測試結(jié)果帶來影響,因此在實際評價中也應(yīng)考慮測試集中各種維度抽樣帶來的統(tǒng)計偏倚。產(chǎn)品的魯棒性能、泛化能力越強,對于測試集數(shù)量的依賴程度越低。采用測試集對人工智能的評價是一種統(tǒng)計的評價方式,應(yīng)該在測試集數(shù)量的選取上考慮實際應(yīng)用場景,以預(yù)計測試指標和發(fā)病率等情況為基礎(chǔ)進行估計。
本文通過對糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件及肺部CT影像輔助診斷軟件兩類產(chǎn)品性能評價的試驗,測算其測試集樣本量??紤]實際抽樣的偏差,以本實驗<1%的波動推算,抽樣數(shù)量以百位向前取整,推薦糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件的測試集樣本量不低于700例,肺部CT影像輔助診斷軟件的測試集樣本量不低于500例(5300個結(jié)節(jié))。
目前對于人工智能醫(yī)療器械的功能越來越多,應(yīng)用場景也不盡相同。因此需要組建各類測試集對產(chǎn)品質(zhì)量進行檢測。測試集區(qū)別于訓(xùn)練集,測試集更突出對于檢測結(jié)果的客觀性、代表性和權(quán)威性,因此它的建設(shè)需要投入大量的人力、物力等社會資源?,F(xiàn)有的方法多建議選取大量的數(shù)據(jù)作為測試集,以保證評估結(jié)果有統(tǒng)計學(xué)意義,但是針對應(yīng)用場景不定,無流行病學(xué)統(tǒng)計的病種,大量數(shù)據(jù)的樣本量是多少很難把握。本文通過理論計算和試驗驗證相結(jié)合的方法,給出了目前兩類已取得醫(yī)療器械注冊證產(chǎn)品的測試集樣本量,這將有利于指導(dǎo)企業(yè)自檢或第三方檢驗機構(gòu)檢測對于測試集樣本量的構(gòu)成,而不必追求大樣本量進行測試,節(jié)約社會資源。
人工智能輔助診斷軟件樣本量的估算方法可參考臨床評價診斷試驗的樣本量估算方法。在沒有流行病學(xué)統(tǒng)計的情況下,可根據(jù)產(chǎn)品的預(yù)期用途、應(yīng)用場景進行發(fā)病率的推測,來估計樣本量。但人工智能醫(yī)療器械的模態(tài)已經(jīng)從影像擴展到信號、文本,甚至是多模態(tài),適用病種也包含多種,按照上述方法確定樣本量依然是個難題,需進一步研究。本文通過理論計算和實際驗證的方式,給出目前已上市的兩類人工智能輔助診斷產(chǎn)品的測試集樣本量估計,為人工智能醫(yī)療器械的測試集樣本量的研究提供了研究基礎(chǔ),具有實際應(yīng)用價值。