胡凱,甄輝,楊輝,夏建松,何蕊浙江省醫(yī)療器械審評中心,杭州市,311121
自美國國會通過“21世紀(jì)健康法案”以來,美國醫(yī)療產(chǎn)業(yè)界加大對人工智能產(chǎn)品的投入與應(yīng)用。2019年2月,美國總統(tǒng)特朗普簽署“美國人工智能倡議”行政令[1],釋放了產(chǎn)業(yè)扶持信號。我國十九大報告中明確指出“加快建設(shè)制造強(qiáng)國,加快發(fā)展先進(jìn)制造業(yè),推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實(shí)體經(jīng)濟(jì)融合”[2]。2018年10月,中央政治局集體學(xué)習(xí)了人工智能產(chǎn)業(yè)發(fā)展[3],也將醫(yī)學(xué)作為人工智能重要的應(yīng)用領(lǐng)域??梢?,人工智能醫(yī)療器械產(chǎn)業(yè)已經(jīng)受到全世界的重視,成為未來戰(zhàn)略的一部分。如何服務(wù)好人工智能器械產(chǎn)業(yè),引導(dǎo)其健康良性發(fā)展是醫(yī)療器械監(jiān)管從業(yè)人員共同的重任。據(jù)報道[4],2018年度FDA審批通過了十余款人工智能產(chǎn)品,文章列舉的產(chǎn)品中有10款通過510(k)上市、4款通過DE NOVO上市[5],預(yù)期用途包括影像輔助診斷、生理信號檢測與診斷、決策支持等。其中,數(shù)量最為豐富的產(chǎn)品為影像輔助診斷產(chǎn)品,涵蓋神經(jīng)科、心胸科、眼科。影像類人工智能輔助診斷軟件,由于其數(shù)據(jù)類型為“二維或三維圖像”,相比于體外診斷領(lǐng)域的量化指標(biāo),其特征的提取較為抽象和復(fù)雜,對診斷醫(yī)生的經(jīng)驗(yàn)要求較高。本文將選取其中的若干個產(chǎn)品,探討其臨床評價方式并概括要點(diǎn),探索國內(nèi)同類產(chǎn)品在臨床評價時的相關(guān)思路。
本文討論了2018年FDA上市總結(jié)中明確提出,使用人工智能(AI)或深度學(xué)習(xí)的幾款影像類人工智能輔助診斷軟件:糖尿病視網(wǎng)膜病變輔助篩查軟件IDx-DR、骨折輔助檢測軟件OsteoDetect、腦卒中輔助檢查軟件ContaCT、顱內(nèi)出血輔助檢查軟件AccipioIx、顱內(nèi)出血輔助檢查軟件BriefCase、乳腺異常輔助診斷軟件QuantX、冠狀動脈鈣化輔助評估軟件HealthCCS、影像輔助分析軟件ArterysMICA。其中IDx-DR、OsteoDetect、ContaCT、QuantX為低風(fēng)險新產(chǎn)品上市途徑De Novo(申請時無實(shí)質(zhì)性等同上市產(chǎn)品),AccipioIx、BriefCase、HealthCCS、ArterysMICA上市途徑為510(k)。
根據(jù)美國相關(guān)法律和規(guī)章要求,各上市途徑中臨床評價的要求不盡相同。對于高風(fēng)險III類產(chǎn)品上市途徑PMA,21 CFR 814.20部分明確要求提交包含人類數(shù)據(jù)的臨床研究[6];510(k)則基于“實(shí)質(zhì)性等同”的評價方式,可通過非臨床或臨床測試數(shù)據(jù)來證明與對比產(chǎn)品的等同性(21 CFR 807.92);而De Novo途徑的誕生基于FD&C法案513(f)部份,產(chǎn)品風(fēng)險尚未達(dá)到III類但尚無實(shí)質(zhì)性等同產(chǎn)品,目前CFR暫未有具體的要求,僅有指南《De Novo Classification Process》對臨床評價的要求作出建議,要求提供必要的臨床和非臨床數(shù)據(jù)。
但從FDA允許上市的若干影像類人工智能輔助診斷軟件來看,除ArterysMICA均提供了與臨床相關(guān)的數(shù)據(jù),分別來自于美國境內(nèi)外的臨床機(jī)構(gòu)。根據(jù)21 CFR 812/807.87等規(guī)定,對于取自臨床研究的數(shù)據(jù)需符合患者利益及倫理審查機(jī)構(gòu)等相關(guān)要求,前序需申請IDE。而對于使用回顧性臨床數(shù)據(jù)進(jìn)行性能測試,目前未有相關(guān)臨床法規(guī)要求,但應(yīng)保障數(shù)據(jù)的真實(shí)性。
基于這5個產(chǎn)品的臨床評價情況,并結(jié)合其預(yù)期用途表述要點(diǎn),分析如表1所示。
從上表可以觀察,產(chǎn)品均為輔助診斷工具,并不替代專業(yè)醫(yī)生最終的診斷結(jié)論;所輸出的結(jié)果,不具有臨床診斷意義,為物理學(xué)、圖像幾何學(xué)參數(shù)或基于這些參數(shù)所建立的評分指數(shù)、通知。
上表結(jié)合FDA公開發(fā)布文件,這8個II類影像類人工智能輔助診斷軟件的臨床評價具有以下特點(diǎn):
(1)用于非緊急情況篩查的輔助診斷產(chǎn)品無同品種產(chǎn)品時,若預(yù)期用途同時涉及陰性和陽性判斷提示,應(yīng)進(jìn)行臨床研究;對于流程優(yōu)化型產(chǎn)品,應(yīng)在臨床研究中考察使用者在有輔助和無輔助情況下的診斷結(jié)果差異;
(2)緊急情況下疾病篩查的輔助診斷產(chǎn)品若預(yù)期用僅涉及陽性判斷提示,無論是否具有同品種,需臨床數(shù)據(jù)性能測試,不進(jìn)行臨床研究;
(3)產(chǎn)品在有同類產(chǎn)品時均接受同品種比對。
根據(jù)FDA的CFR條款特點(diǎn),對于影像類人工智能輔助診斷軟件,部分II類產(chǎn)品除510(k)的一般控制外,可能以利用回顧性臨床數(shù)據(jù)進(jìn)行性能測試作為后續(xù)同類II類產(chǎn)品的特殊控制方式(Special Control)。
根據(jù)前文,影像類人工智能輔助診斷軟件的臨床數(shù)據(jù)可來自于性能測試和臨床研究兩方面。
其中IDx-DR的前瞻性臨床研究,OsteoDetect、HealthCCS的臨床數(shù)據(jù)性能測試使用3位讀者/專家采取多數(shù)表決法獲得結(jié)果,與軟件結(jié)果進(jìn)行對比;ContaCT的臨床數(shù)據(jù)性能測試采用“雙人復(fù)核+第三人仲裁”法獲取結(jié)果,與軟件結(jié)果對比;OsteoDetect、QuantX的臨床研究則進(jìn)行了全交叉研究,每個醫(yī)生對每個病例進(jìn)行閱讀。
從已上市產(chǎn)品的輸出結(jié)果分析,目標(biāo)癥狀均有陰陽性的二分類特征。絕大多數(shù)對照判斷均為單一的“陰/陽—是/否”維度;而OsteoDetect是性能測試使用框柱法,軟件結(jié)果表現(xiàn)除“是/否”外,還具有空間位置特異性,因此需特別注意假陽性(專家標(biāo)注陽性結(jié)果為所有專家標(biāo)注框邊界的并集,并集結(jié)果為0像素則是陰性)的兩類表現(xiàn)方式:軟件輸出框結(jié)果非空,專家標(biāo)注結(jié)果非空,但兩者無交集;軟件輸出框結(jié)果非空,專家標(biāo)注結(jié)果為空。
對于二分類結(jié)果,產(chǎn)品研究可采用混淆矩陣來分析靈敏度和特異性。部分產(chǎn)品的臨床評價終點(diǎn)公開數(shù)據(jù)如表2。
此外,全交叉的多讀者方案臨床研究的產(chǎn)品還關(guān)注了ROC曲線下的面積,進(jìn)行了兩組對照的AUC面積差的假設(shè)檢驗(yàn)。在臨床試驗(yàn)過程,得到了純?nèi)斯そM(無軟件輔助)的ROC曲線,以及輔助組的ROC曲線,驗(yàn)證兩者的曲線下面積差值的假設(shè)檢驗(yàn)。
由于不同產(chǎn)品在臨床決策的作用不同,所針對適應(yīng)癥的緩急等特征不同,因此在次要評價指標(biāo)的設(shè)置具有比較大的差異性。
(1)非緊急情況使用的輔助診斷產(chǎn)品考慮檢測結(jié)果的重復(fù)性。應(yīng)考慮同一素材其結(jié)果在不同時間和地點(diǎn)的測量值的重復(fù)性。IDx-DR軟件進(jìn)行了一項(xiàng)臨床子研究,對24名受試者進(jìn)行了重復(fù)試驗(yàn)。其中12名受試者人工判讀對照組結(jié)果陰性,12名受試者為陽性。每名受試者由3名不同的操作員在兩臺不同的Topcon眼底攝像機(jī)上成像。每人接受完整的IDx-DR判讀10次產(chǎn)生10組圖像,共240組圖像。結(jié)果一名受試者的5張圖像不能被分析,其余235張(97.9%)圖像可被分析。對于24名受試者中的23名,每人所有經(jīng)IDx-DR軟件輸出結(jié)果相同。因此,IDx-DR的輸出結(jié)果重復(fù)性(99.6%)好,且對人員和設(shè)備不敏感。
(2)對于結(jié)果呈現(xiàn)為框注感興趣區(qū)域[7]的輔助診斷產(chǎn)品,考慮其結(jié)果的位置精確程度。OsteoDetect的性能測試設(shè)置了中心位置對比,軟件預(yù)測邊界框的圖心與參考標(biāo)準(zhǔn)邊界框的圖心之間的平均像素距離是33.52(標(biāo)準(zhǔn)差為30.03)。圖像的平均大小為1 663像素 × 1 109像素(面積為1 844 267個像素),以及參考標(biāo)準(zhǔn)邊界框的平均面積為30 164個像素,軟件的預(yù)測邊界框的平均面積為34 924個像素,中心差遠(yuǎn)小于框的長寬尺度??梢?,OsteoDetect通常會在橈骨遠(yuǎn)端骨折部位檢出點(diǎn)附近畫出邊界框。
(3)對于緊急情況下使用的輔助診斷產(chǎn)品,時間與診療效果可能相關(guān)的適應(yīng)癥,應(yīng)考察其在工作流中的時間指標(biāo)。兩款用于檢測腦部血管狀態(tài)的軟件,性能測試均對真陽性病例統(tǒng)計觀察了時間指標(biāo),軟件檢測出陽性結(jié)果的時間和按照臨床的標(biāo)準(zhǔn)流程判斷出陽性結(jié)果的時間進(jìn)行了對比。t軟件/t標(biāo)準(zhǔn)的值為51.4 min、68.1 min,具有統(tǒng)計學(xué)意義。應(yīng)特別注意預(yù)期用途中未宣稱對陰性結(jié)果優(yōu)化工作流程,所以不需考察陰性結(jié)果的時間指標(biāo)。
2.4.1 最壞情況考慮
由于個體差異的存在,有較小概率人工判讀沒有結(jié)果。這種情況下,為最大限度地保證產(chǎn)品的安全性,將人工判讀無結(jié)果修正為人工判讀陽性。例如,IDx-DR在892名中的73名不可分析的受試者圖像中,有35名(4%)受試者無法通過人工評分(FPRC)[8]。在最壞的情況下,假設(shè)這35名受試者均患有糖尿病視網(wǎng)膜病變,則這73例病例靈敏度和特異性分別為80.7%和89.8%,仍符合總體的臨床評價指標(biāo)。
2.4.2 陰陽性病例數(shù)量
由于部分適應(yīng)癥可能存在人群發(fā)病率較低的情況,導(dǎo)致特異性虛高。為防止這一現(xiàn)象的發(fā)生,應(yīng)適當(dāng)調(diào)整陰陽性病例的比例:
(1)開展回顧性的臨床研究,可選擇已有的病例數(shù)據(jù)開展,盡量控制陰陽性病例的數(shù)量相等。但應(yīng)注意選擇過程對試驗(yàn)操作雙方“雙盲”。對人工判讀/標(biāo)注者盲,病例入組操作人員和判讀操作人員不能相同;對軟件“盲”是指,入組的病例不能在前期已作為軟件的基礎(chǔ)訓(xùn)練病例(如OsteoDetect)。
(2)前瞻性實(shí)驗(yàn)人為富集陽性病例。為防止陽性病例收集過慢,人為設(shè)置條件加快陽性病例入組,但應(yīng)從統(tǒng)計學(xué)角度觀察和排除該條件對結(jié)果的影響,同時盡可能防止陽性病例的漏判。如IDx-DR軟件依據(jù)糖化血紅蛋白水平(HbA1C)來收集陽性病例,并通過邏輯回歸的方式排除了這一影響;同時對糖尿病視網(wǎng)膜病變,陽性的判斷綜合考慮眼底相機(jī)數(shù)據(jù)、OCT數(shù)據(jù)、評分法的結(jié)果[9]。
2.4.3 真實(shí)世界數(shù)據(jù)
通過真實(shí)世界已有相關(guān)研究,來輔助臨床性能測試或臨床研究的指標(biāo)來衍生推論,從而證明產(chǎn)品的臨床價值。如已有足夠文獻(xiàn)指出,神經(jīng)血管專家在LVO患者的管理中起著關(guān)鍵作用,并且神經(jīng)血管專家的早期介入明顯有益于LVO患者。因此,通過軟件檢測發(fā)現(xiàn)LVO陽性的平均時間少于標(biāo)準(zhǔn)流程操作所用平均時間,可證明產(chǎn)品有利于LVO患者。
2.4.4 數(shù)據(jù)格式
預(yù)期用途中描述的硬件適配的不同可能造成輸出文件的不同,包括文件格式和因操作造成的圖像分辨率、圖像層間距等的不同。對于文件格式,可盡可能采用統(tǒng)一標(biāo)準(zhǔn)處理,如DICOM。
2.4.5 可用性因素
部分輔助診斷產(chǎn)品的模塊和功能較為復(fù)雜多樣,使用者學(xué)習(xí)曲線較為平緩。在實(shí)際操作過程中可加強(qiáng)對使用者的培訓(xùn),防止數(shù)據(jù)不必要的脫落。也可通過開展子研究來排除可用性因素干擾。
對比上述美國影像類人工智能輔助診斷軟件的上市途徑和臨床評價特點(diǎn),我國從業(yè)人員在臨床評價時存在諸多困難,如缺乏對臨床影像標(biāo)注的標(biāo)準(zhǔn)、同類產(chǎn)品臨床對比數(shù)據(jù)較難獲取、尚未有統(tǒng)一的產(chǎn)品標(biāo)準(zhǔn)、產(chǎn)品性能泛化能力弱等。結(jié)合以上情況,提出下文建議。
FDA對幾款影像類人工智能輔助診斷軟件公開了臨床評價信息,企業(yè)在申請文件中參照或?qū)Ρ韧惍a(chǎn)品的臨床或者性能測試數(shù)據(jù),而這些數(shù)據(jù)都可在公開數(shù)據(jù)庫中獲取。在中國,除了相關(guān)方主動公開(如發(fā)表文獻(xiàn)、審評報告公開等),較難獲取臨床數(shù)據(jù)和真實(shí)世界數(shù)據(jù)[10]。這直接增加了企業(yè)在同品種比對時獲取數(shù)據(jù)的時間和經(jīng)濟(jì)成本。對此,一方面對于企業(yè)公開相關(guān)信息給予支持和鼓勵;另一方面,可參考美國相關(guān)機(jī)構(gòu),將信息公開制度化。如FDA通過510(k)的summary文件明確了幾款影像類人工智能產(chǎn)品的部分評價終點(diǎn)數(shù)據(jù)(靈敏度、特異性、一致性);NIH(美國國立衛(wèi)生研究院)則將一些臨床試驗(yàn)予以公開和公布[11]。公開部分臨床評價數(shù)據(jù)有利于降低同品種對比數(shù)據(jù)獲取難度,縮短低風(fēng)險輔助診斷產(chǎn)品的上市時間。
在研發(fā)初步完成后,高效的產(chǎn)品研發(fā)檢測給后續(xù)的臨床評價做好鋪墊。“臨床數(shù)據(jù)性能測試+臨床研究”的模式可以理解為“驗(yàn)證+測試”,所使用數(shù)據(jù)分別為“驗(yàn)證集”與“測試集”[12]。對于人工智能輔助診斷軟件產(chǎn)品,通過高效的驗(yàn)證集來調(diào)整優(yōu)化產(chǎn)品的參數(shù),為臨床研究提供最佳的產(chǎn)品性能狀態(tài)。對于后續(xù)進(jìn)行臨床研究的產(chǎn)品,可考慮使用“公開數(shù)據(jù)+非公開數(shù)據(jù)”進(jìn)行前期的臨床數(shù)據(jù)性能測試。美國已建立部分開放資源,如NIH的CT圖像開放數(shù)據(jù)集DeepLesion[13],美國國家癌癥研究所(National Cancer Institute)的胸部影像數(shù)據(jù)集LIDC-IDRI[14],斯坦福大學(xué)的上肢肌肉骨骼X光片數(shù)據(jù)集MURA[15]等等。但也應(yīng)注意,在產(chǎn)品的訓(xùn)練時如使用了公開數(shù)據(jù)集訓(xùn)練,則應(yīng)避免驗(yàn)證集使用同一個數(shù)據(jù)集而造成結(jié)果偏倚。
軟件類產(chǎn)品的研發(fā)過程較為復(fù)雜,特別是人工智能產(chǎn)品訓(xùn)練集、驗(yàn)證集、測試集等各個環(huán)節(jié)的優(yōu)化,需要大量的前期工作基礎(chǔ)。而等到產(chǎn)品上市審批時,在短時間對智力密集型成果進(jìn)行評價有較大難度。目前美國FDA對產(chǎn)品提前介入形式有“早期可行性研究(EFS)”[16]和“預(yù)認(rèn)證(pre-cert)”[17]。EFS在提交臨床研究(IDE)之前,企業(yè)預(yù)提交器械概念描述、臨床背景和基本原理,目標(biāo)在于與FDA就基于風(fēng)險分析、非臨床測試和臨床風(fēng)險緩解策略支持研究啟動所需的信息達(dá)成共識。而對于數(shù)字軟件產(chǎn)品,F(xiàn)DA于2017年啟動了“pre-cert”計劃,并公布了一批參與該計劃的企業(yè)。2019年1月公布了該計劃最新的1.0版本,以簡化版De Novo途徑對相關(guān)廠家的產(chǎn)品進(jìn)行提前介入。該計劃的企業(yè)需先滿足質(zhì)量體系法規(guī)(QSR)的要求。國內(nèi)可參考美國的這一模式,提前介入人工智能產(chǎn)品的評價,加大對人工智能產(chǎn)品的支持力度。
由于人工智能產(chǎn)品自身特性,產(chǎn)品會不斷完善、更新和迭代。最直觀的如產(chǎn)品訓(xùn)練集發(fā)生變化,可能導(dǎo)致對于同一樣本前后兩次處理結(jié)果不相同,并且不能完全保證這種變化是有利于提高產(chǎn)品的性能。目前尚無統(tǒng)一模式對這一變化進(jìn)行量化評價??赏ㄟ^建立完善臨床再評價體系,利用包含獨(dú)立非公開的標(biāo)準(zhǔn)測試數(shù)據(jù)集合在內(nèi)的工具,定期對產(chǎn)品的性能進(jìn)行綜合的臨床評價和“校準(zhǔn)”[18],保證產(chǎn)品的可靠性。同時,參照再評價體系,成立合規(guī)的第三方再評價中心,客觀上促進(jìn)數(shù)據(jù)的標(biāo)準(zhǔn)化和網(wǎng)絡(luò)資源的數(shù)據(jù)安全,并促進(jìn)影像類人工智能輔助診斷軟件質(zhì)量的提升,引導(dǎo)產(chǎn)業(yè)健康務(wù)實(shí)發(fā)展。