孫嘉偉 盧坤明 廣州奧咨達(dá)醫(yī)療器械技術(shù)股份有限公司 (廣東 廣州 510006)
人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。
目前人工智能在醫(yī)學(xué)領(lǐng)域的應(yīng)用場(chǎng)景多種多樣,主要的應(yīng)用場(chǎng)景為:“需要重復(fù)學(xué)習(xí)才能掌握的技術(shù),且診療技術(shù)已經(jīng)固定的醫(yī)療情景”。其目的主要是減少醫(yī)生的重復(fù)勞動(dòng)。但總體上可以分為以下幾大類:①疾病診斷;②健康管理;③圖像分析;④手術(shù)引導(dǎo);⑤診療規(guī)劃。
雖然目前人工智能可以大體上分為以上幾大類,但它們有時(shí)是相互聯(lián)合,共同發(fā)揮臨床用途。比如一些健康管理系統(tǒng)不僅可以用患者的健康數(shù)據(jù)進(jìn)行管理,同時(shí)還會(huì)提出診療意見。
雖然人工智能在醫(yī)學(xué)領(lǐng)域的應(yīng)用越來(lái)越多,但這些產(chǎn)品還存在一些不成熟的地方,正是這些不成熟可能會(huì)影響人工智能未來(lái)在醫(yī)學(xué)領(lǐng)域的應(yīng)用。技術(shù)開發(fā)人員應(yīng)對(duì)這些問題有一個(gè)合理的認(rèn)識(shí),才能避免存在夸大和誤判產(chǎn)品技術(shù)水平的情況。人工智能目前存在的問題主要是以下幾大類。
人工智能的研發(fā)是基于大量的診療數(shù)據(jù),數(shù)據(jù)質(zhì)量直接決定了產(chǎn)品開發(fā)以及它的結(jié)果運(yùn)算。如果醫(yī)生對(duì)患者是否存在眼底病變都不能做出正確的判斷,很難期待基于此類數(shù)據(jù)所研發(fā)的產(chǎn)品也能做出正確的判斷。如果產(chǎn)品研發(fā)階段沒有對(duì)數(shù)據(jù)質(zhì)量進(jìn)行識(shí)別,一味的追求大數(shù)據(jù),可能會(huì)導(dǎo)致數(shù)據(jù)庫(kù)的數(shù)據(jù)質(zhì)量不高,甚至出現(xiàn)錯(cuò)誤的地方,進(jìn)而最終影響產(chǎn)品的結(jié)果輸出。
有些診療數(shù)據(jù)為文字性描述,其描述過程具有較大的自由度,不同的醫(yī)生對(duì)同一情況可能會(huì)存在不同種說法。目前的人工智能對(duì)于識(shí)別自然語(yǔ)言還是不及人腦,有時(shí)定性數(shù)據(jù)的標(biāo)準(zhǔn)化還需要人腦的協(xié)助。因此未來(lái)如果人工智能要有長(zhǎng)足的發(fā)展,醫(yī)療數(shù)據(jù)的標(biāo)準(zhǔn)化是一個(gè)極其重要的基礎(chǔ)工程,需要花費(fèi)大量的人力物力進(jìn)行建設(shè)。
診療數(shù)據(jù)有時(shí)需要基于一定的硬件設(shè)備才能采集,比如血壓計(jì)、心電圖等等。由于每家硬件設(shè)備生產(chǎn)商的技術(shù)路線、原材料、質(zhì)量控制、器械原理等各不相同。所以同一類數(shù)據(jù)由于采樣設(shè)備的不同,可能存在系統(tǒng)誤差。真實(shí)的醫(yī)療環(huán)境中,每個(gè)醫(yī)療機(jī)構(gòu)的醫(yī)療設(shè)備都不可能是一樣的,這就為人工智能產(chǎn)品的硬件適配性帶來(lái)了很大的挑戰(zhàn)。
目前的人工智能產(chǎn)品都逐漸采用云平臺(tái)和云計(jì)算的數(shù)據(jù)管理方式。此時(shí)患者數(shù)據(jù)的儲(chǔ)存和分析都在醫(yī)院的監(jiān)控范圍之外,如何保證這些數(shù)據(jù)的安全以及不被非法利用是人工智能產(chǎn)品在未來(lái)需要首要解決的合法性問題。
目前中國(guó)還沒有專門針對(duì)人工智能產(chǎn)品的法規(guī),特別是針對(duì)機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)模型等這種新技術(shù)、新方法,以及應(yīng)用在自動(dòng)診斷的產(chǎn)品。類似的法規(guī)只有《醫(yī)療器械軟件注冊(cè)技術(shù)審查指導(dǎo)原則》和《醫(yī)學(xué)圖像存儲(chǔ)傳輸軟件(PACS)注冊(cè)技術(shù)審查指導(dǎo)原則》,但這兩份指導(dǎo)原則無(wú)法應(yīng)對(duì)目前人工智能產(chǎn)品申報(bào)注冊(cè)所面臨的一系列挑戰(zhàn)。而FDA相關(guān)的法規(guī)也只有《Clinical Performance Assessment: Considerations for Computer-Assisted Detection Devices Applied to RadiologyImages and Radiology Device Data -Premarket Approval(PMA) and Premarket Notification [510(k)]Submissions》和《Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data - Premarket Notification[510(k)]Submissions》這兩份指導(dǎo)原則也僅僅只能作為類似產(chǎn)品的參考。配套監(jiān)管法規(guī)的缺失,給這類產(chǎn)品的注冊(cè)檢測(cè)和臨床試驗(yàn)都帶來(lái)了不小的挑戰(zhàn),使得這類產(chǎn)品在申報(bào)注冊(cè)時(shí)存在一定的不確定性。
對(duì)于IT類產(chǎn)品,其軟件的更新迭代是非常快而且頻繁的。診療產(chǎn)品的首要關(guān)鍵問題不是算法創(chuàng)新、算法優(yōu)化、界面美觀、使用體驗(yàn),而是其結(jié)果的準(zhǔn)確性。它準(zhǔn)確性可能會(huì)影響醫(yī)生后面的診療措施,一旦出現(xiàn)錯(cuò)誤可能是難以挽回的??梢灶A(yù)見,審評(píng)機(jī)構(gòu)對(duì)產(chǎn)品的迭代更新是非常重視的,每一次軟件迭代更新,特別是核心算法的迭代更新都將是產(chǎn)品的許可變更事項(xiàng),都有可能導(dǎo)致需要重新評(píng)估產(chǎn)品的風(fēng)險(xiǎn)受益比。
此外,有些人工智能產(chǎn)品在使用過程中,隨著數(shù)據(jù)量的提升,其算法的準(zhǔn)確性可能會(huì)不斷改變,這種改變是正向的還是負(fù)向的可能不得而知。對(duì)此,審評(píng)機(jī)構(gòu)可能會(huì)要求企業(yè)定期提交產(chǎn)品相關(guān)數(shù)據(jù),以評(píng)估這種變化對(duì)產(chǎn)品的風(fēng)險(xiǎn)受益比的影響。
人工智能是否可以真的替代醫(yī)生,誰(shuí)將對(duì)其診療結(jié)果承擔(dān)法規(guī)責(zé)任,如果是算法出現(xiàn)問題人工智能研發(fā)公司是否要承擔(dān)全部責(zé)任;如果醫(yī)生依靠人工智能出現(xiàn)診療錯(cuò)誤,醫(yī)生應(yīng)該承擔(dān)什么的責(zé)任;這將是需要討論的問題。目前的人工智能只是輔助醫(yī)生進(jìn)行診療,最終的診療結(jié)果還是應(yīng)由醫(yī)生做出。但人工智能的“誤導(dǎo)”可能成為醫(yī)院與企業(yè)未來(lái)的糾紛點(diǎn)。
目前圖像分析類人工智能產(chǎn)品逐漸火熱,鑒于目前圖像分析類人工智能產(chǎn)品開始越來(lái)越多的進(jìn)行臨床試驗(yàn),本文就對(duì)這類人工智能產(chǎn)品進(jìn)行分析論述,希望可以引發(fā)大家對(duì)這類產(chǎn)品臨床試驗(yàn)設(shè)計(jì)的思考。
圖像分析主要目的是為醫(yī)生提供輔助診斷結(jié)果。雖然目前人工智能圖像分析類產(chǎn)品各種各樣,但如果將其各種預(yù)期用途簡(jiǎn)化,其本質(zhì)就是“診斷產(chǎn)品”。那么臨床試驗(yàn)設(shè)計(jì)思路就需要按診斷試驗(yàn)的方法進(jìn)行,而診斷試驗(yàn)的主要目的是驗(yàn)證待評(píng)價(jià)方法與“金標(biāo)準(zhǔn)”或參考方法對(duì)某種測(cè)量參數(shù)判斷結(jié)果的一致性以及其程度。
在進(jìn)行診斷試驗(yàn)設(shè)計(jì)前,企業(yè)首先要明確的問題是:產(chǎn)品屬于定量診斷還是定性診斷,或者說側(cè)重于定量診斷還是定性診斷。需要說明的是:在某些條件下,定量指標(biāo)是可以轉(zhuǎn)換為定性指標(biāo)。如,以1cm為分界點(diǎn)(Cutoff值),當(dāng)CT圖像中發(fā)現(xiàn)大于1cm的結(jié)節(jié)時(shí)可認(rèn)為存在“陽(yáng)性”結(jié)節(jié),當(dāng)CT圖像中發(fā)現(xiàn)小于1cm的結(jié)節(jié)時(shí)可認(rèn)為存在“陰性”結(jié)節(jié)。此時(shí)根據(jù)分界點(diǎn)就可以將定量指標(biāo)轉(zhuǎn)換為定性指標(biāo)。
企業(yè)在撰寫適應(yīng)證或適用范圍應(yīng)仔細(xì)斟酌用詞,應(yīng)結(jié)合產(chǎn)品的特點(diǎn),客觀的描述產(chǎn)品的適應(yīng)證或適用范圍,切忌不要為了突出產(chǎn)品特點(diǎn)而有意夸大適應(yīng)證或適用范圍。
根據(jù)目前圖像分析類產(chǎn)品的研發(fā)規(guī)律、所存在的問題以及醫(yī)學(xué)倫理等,建議企業(yè)在撰寫適應(yīng)證或適用范圍時(shí)應(yīng)選擇“輔助診斷”的描述,而謹(jǐn)慎使用“診斷”的描述。
在撰寫產(chǎn)品所涉及的疾病或癥狀時(shí),要區(qū)分針對(duì)的是某種特定的疾病還是某種特定的癥狀。如“用于視網(wǎng)膜眼底病變的篩查”還是“用于糖尿病視網(wǎng)膜眼底病變的篩查”。
因此,企業(yè)在描述產(chǎn)品的適應(yīng)證或適用范圍時(shí),應(yīng)結(jié)合產(chǎn)品的研發(fā)數(shù)據(jù),判斷產(chǎn)品的研發(fā)數(shù)據(jù)是針對(duì)于“疾病”還是“癥狀或體征”,如果研發(fā)數(shù)據(jù)是針對(duì)“癥狀或體征”的判斷,那么在適應(yīng)證或適用范圍就不要夸大為針對(duì)某種“疾病”。
診斷試驗(yàn)的主要目的是驗(yàn)證待評(píng)價(jià)方法與“金標(biāo)準(zhǔn)”或參考方法對(duì)某種測(cè)量參數(shù)判斷結(jié)果的一致性以及其程度。因此,“金標(biāo)準(zhǔn)”或參考方法選擇就至關(guān)重要。但由于目前圖像分析類人工智能產(chǎn)品的算法各不相同,且已上市的同類產(chǎn)品很少,所以目前圖像分析類人工智能產(chǎn)品還是選擇“金標(biāo)準(zhǔn)”作對(duì)照。
圖像分析類人工智能產(chǎn)品主要是對(duì)醫(yī)學(xué)圖像進(jìn)行分析,因此這類產(chǎn)品的“金標(biāo)準(zhǔn)”一般都是醫(yī)生判讀結(jié)果。但在選擇醫(yī)生判讀結(jié)果作為“金標(biāo)準(zhǔn)”應(yīng)注意以下問題:①最好是采用公認(rèn)的“金標(biāo)準(zhǔn)”。如果是采用量表作為“金標(biāo)準(zhǔn)”,需要保證量表的信度和效度是經(jīng)過檢驗(yàn)的;②為保證讀片數(shù)據(jù)的客觀性,圖像數(shù)據(jù)可以采用中心化閱片的方式進(jìn)行;③可采用設(shè)置圖像結(jié)果討論小組的方法對(duì)讀片不一致的情況以予解決。
圖像分析類人工智能產(chǎn)品除了要有發(fā)現(xiàn)目標(biāo)疾病的能力,還要有排除非目標(biāo)疾病的能力。因此,在受試者選擇時(shí)既要包括“陽(yáng)性”患者,也要包括“陰性”患者;既要包括有病情較輕的患者,也要包括病情較重的患者;既要包括有典型的患者,也要包括非典型的患者或易混疾病患者。如果受試者選擇,特別是對(duì)照組患者選擇不當(dāng),其臨床結(jié)果將是不可靠的,結(jié)果也難以在一般人群中進(jìn)行推斷。
根據(jù)圖像分析類人工智能產(chǎn)品的最終分析結(jié)果,其評(píng)價(jià)指標(biāo)主要為定性指標(biāo)和定量指標(biāo)。定性指標(biāo)主要有:靈敏度、特異度、符合率和Kappa值。定量指標(biāo)主要有:離群點(diǎn)檢查、回歸擬合方程、Pearson相關(guān)系數(shù)、Bland-Altman圖、醫(yī)學(xué)決定水平處偏倚。
由于定量診斷可在一定條件下轉(zhuǎn)換為定性診斷,定性診斷為較為固定的樣本量估算公式。因此,人工智能樣本量一般采用定性診斷樣本量計(jì)算公式。下文以定性診斷樣本量計(jì)算公式為例,來(lái)講解樣本量計(jì)算過程。
根據(jù)《醫(yī)療器械臨床試驗(yàn)方案設(shè)計(jì)指導(dǎo)原則》后的診斷試驗(yàn)樣本量公式,定性的樣本量估算需要分陽(yáng)性受試者和陰性受試者兩部分,分別按照診斷試驗(yàn)樣本量估算公式(1)進(jìn)行計(jì)算。
Z1-α/2正態(tài)分布分位數(shù),)為方差函數(shù),通常V()=θ(1-θ),θ為靈敏度或特異度,L為估計(jì)誤差,可以取參考文獻(xiàn)報(bào)道的置信區(qū)間寬度的1/2以下。
以靈敏度為例,某診斷眼底病變的人工智能軟件預(yù)期靈敏度為89%,規(guī)定雙側(cè)α=0.05(Z1-α/2=1.96),靈敏度估計(jì)誤差為±0.05計(jì)算得陽(yáng)性受試者為151例。考慮合適的脫落率(通常不超過20%)來(lái)使樣本量達(dá)到189例,以保證納入分析的陽(yáng)性受試者至少為151例。
然而,根據(jù)《醫(yī)療器械臨床試驗(yàn)方案設(shè)計(jì)指導(dǎo)原則》后的診斷試驗(yàn)樣本量公式算出的陽(yáng)性病例數(shù)和陰性病例數(shù)是理論數(shù)值,但是實(shí)際的診斷試驗(yàn)過程中,由于無(wú)法提前預(yù)知目標(biāo)人群的陰陽(yáng)性比例,所以在分組前必須先用“金標(biāo)準(zhǔn)”或其他方法先將患者的陰陽(yáng)性區(qū)分出來(lái),然后再?gòu)倪@些患者中選擇陰陽(yáng)性受試者。由于實(shí)際目標(biāo)人群中的陰陽(yáng)性比例與理論值的比例不一樣,這就導(dǎo)致實(shí)際參與篩選的患者要多于理論值,且這個(gè)篩選的患者數(shù)量與目標(biāo)人群中的陽(yáng)性率相關(guān),陽(yáng)性率越高,需篩患者就越少。
為了有更高的概率獲得陽(yáng)性受試者,可以考慮在眼科專科醫(yī)院進(jìn)行試驗(yàn),假設(shè)來(lái)該專科醫(yī)院就診的患者有50%機(jī)會(huì)患有眼底病變,則可以通過公式(2)計(jì)算陽(yáng)性受試者和陰性受試者總數(shù)Ntotal。
假設(shè)Prev=50%,n=189,Z1-β取正態(tài)分布曲線下95%對(duì)應(yīng)的界值1.645,計(jì)算得至少納入412例患者。因此,有95%的把握認(rèn)為412例患者中至少有189例受試者患眼底病變。
因此,樣本量估算時(shí)會(huì)看到兩組數(shù)據(jù),一組是陰陽(yáng)性患者理論值,一組是受試者篩選數(shù)量。
圖像分析類人工智能產(chǎn)品進(jìn)行臨床試驗(yàn)時(shí)除了考慮上述問題外,還有一些問題是需要注意的。
①重復(fù)使用受試者數(shù)據(jù)。由于這類產(chǎn)品只是對(duì)患者的圖像數(shù)據(jù)進(jìn)行分析,有時(shí)可能存在重復(fù)使用同一名患者不同時(shí)期的圖像數(shù)據(jù)。當(dāng)然如果是有意對(duì)測(cè)量結(jié)果的可重復(fù)性進(jìn)行分析時(shí)除外;②這類產(chǎn)品的注冊(cè)試驗(yàn)不建議采用歷史數(shù)據(jù)進(jìn)行分析;③“金標(biāo)準(zhǔn)”與人工智能算法天生的存在不一致的情況,特別是產(chǎn)品研發(fā)時(shí)采用了沒有經(jīng)“金標(biāo)準(zhǔn)”標(biāo)注的數(shù)據(jù),其算法結(jié)果與臨床試驗(yàn)結(jié)果的差異需要企業(yè)認(rèn)真考慮;④如何獲取高質(zhì)量的圖像可能是臨床試驗(yàn)前需要企業(yè)關(guān)注的一個(gè)重點(diǎn),在必要的時(shí)候可能需要對(duì)圖像拍攝者進(jìn)行培訓(xùn);⑤在進(jìn)行臨床試驗(yàn)前企業(yè)前考慮參研單位硬件條件,特別是圖像采集軟件是否可以滿足試驗(yàn)要求;⑥為客觀評(píng)價(jià)產(chǎn)品的性能,建議企業(yè)對(duì)分析結(jié)果的測(cè)量精密度進(jìn)行分析。即,對(duì)同一個(gè)人同一個(gè)時(shí)期內(nèi)的多幅照片進(jìn)行分析時(shí),結(jié)果的一致性;⑦建議參研單位對(duì)其進(jìn)行統(tǒng)一的培訓(xùn),必要時(shí)可以選擇一些高年資的醫(yī)生參與“金標(biāo)準(zhǔn)”判斷。
目前人工智能產(chǎn)品火熱,但火熱的背后還是有許多問題值得思考,希望以此篇文章拋磚引玉,引發(fā)大家的思考。