譯者:熊云云,李子孝,3,丁玲玲,谷鴻秋,王春娟,3,王春雪,王擁軍,3
目前,人工智能在醫(yī)學領域的臨床試驗數(shù)量十分有限,因此相關研究方案和報告的首份指南的出現(xiàn)恰逢其時。更好的研究方案設計,以及一致、完整的數(shù)據(jù)展示將極大地促進對這些試驗的理解和驗證,并促進該領域向前發(fā)展。
過去十年中,深度學習算法在醫(yī)療保健領域的應用前景令人興奮。作為人工智能(artificial intelligence,AI)的亞類型,它能夠提高解釋大型數(shù)據(jù)集(如圖像、語音和文本)的準確性和速度。然而,若要在患者醫(yī)療管理中接受和應用深度學習,尚需要隨機臨床試驗的證據(jù)支持。
隨機臨床試驗在19世紀80年代初期開始廣泛應用,旨在為醫(yī)學實踐提供證據(jù)基礎,但是直到近二十年后的1996年,才制定出《試驗報告統(tǒng)一標準》(Consolidated Standards of Reporting Trials,CONSORT)[1]。相比之下,AI,特別是深度神經網絡,在醫(yī)學中的應用仍處于初級階段,使用AI的臨床試驗直到過去兩年才開始。Nature Medicine雜志新發(fā)表兩篇姊妹篇文章,分別針對AI干預試驗方案報告標準(Standard Protocol Items:Recommendations for Interventional Trials-Artificial Intelligence extension,SPIRIT-AI extension)和出版(CONSORT-AI extension)的指南進行了介紹[2-3]。
雖然目前有數(shù)百篇AI“臨床試驗”范疇的回顧性報告,但這些并不是真正的試驗。盡管這是奠定基礎的必要步驟,但這些研究是通過對數(shù)據(jù)集進行計算機評估來研究深層神經網絡執(zhí)行臨床任務的能力,并將其與少數(shù)醫(yī)師的工作進行比較。此類AI研究沒有模擬臨床實踐,而是處理清潔的、相對原始的、帶注釋的數(shù)據(jù)集。相比之下,真實的醫(yī)學世界是混亂的,廣泛存在缺失數(shù)據(jù)和非結構化數(shù)據(jù),其重點是管理患者而不是為研究分析提供“原料”。決不能忽視臨床環(huán)境與計算機模擬環(huán)境的鮮明差別,因此需要進行AI的臨床試驗。
目前共有2篇關于AI臨床研究的系統(tǒng)綜述和Meta分析,這也說明了這方面的研究嚴重不足[4-5]。一項對82項研究的綜述發(fā)現(xiàn),這些試驗的報告缺乏某些關鍵方面的信息,從而導致數(shù)據(jù)、某些關鍵術語及這些關鍵術語定義的缺失。作者還發(fā)現(xiàn),模型性能和效度指標變化很大,缺乏外部驗證(在測試和內部驗證之外的樣本外驗證)。尚沒有一項研究進行樣本量計算以保證研究的功效。最大的問題是深度學習模型很少將算法和醫(yī)療專業(yè)人員對相同數(shù)據(jù)集進行評估的綜合方法進行比較。另一項對81項研究的綜述肯定了之前綜述的觀點,并進一步指出了其他不足[5]。其作者發(fā)現(xiàn):研究透明度存在重大問題;用于可重復性評估的可用數(shù)據(jù)集和代碼有限;可以與算法性能進行比較的臨床醫(yī)師數(shù)量非常少;結論夸張。這種臨床醫(yī)師與機器的較量是臨床實踐的對立面——臨床實踐總需要人的參與,至少在任何重要的、嚴肅的診斷中應該如此。我們不能僅僅依靠神經網絡來決定患者的生死。
患者管理相關的前瞻性試驗至關重要。例如,AI在醫(yī)學領域的首批重要研究之一:將深度神經網絡與21名經認證的皮膚科醫(yī)師通過分析病變照片進行皮膚癌診斷比較[6]。當皮膚科醫(yī)師評估皮膚病變時,他們不是單獨地分析一張照片,而是結合患者的病史和體格檢查,這與深度神經網絡的使用非常不同。此外,曾有多項回顧性研究發(fā)現(xiàn),視網膜成像算法診斷糖尿病性視網膜病變的準確性是顯著的、近乎完美的。但是,首次使用這些算法的前瞻性試驗發(fā)現(xiàn),其診斷準確性雖然是可接受的,甚至可視為自動化診斷的進步,但并不是很高[7]。因此,醫(yī)療領域中AI的回顧性研究僅可提供一些假設,通常為理想狀態(tài),并不能作為確定的支持證據(jù)。然而不幸的是,目前美國食品和藥物管理局(Food and Drug Administration,F(xiàn)DA)對算法的審批大多依賴于這樣的初步證據(jù)[8]。此外,私營公司用于開發(fā)算法的回顧性數(shù)據(jù)很少被公開,因此對于計劃將基于它們所研發(fā)的算法用于患者診療的臨床社區(qū)來說,這是不透明的,可能無意中傷害真實診療的患者。
雖然這并不是AI算法的意圖,但臨床算法可能無意中造成傷害。當一種算法內部存在偏差,或者該算法開發(fā)時所基于的群體不能很好地代表它將被應用的群體時,可能會出現(xiàn)嚴重的診斷誤差或預測誤差。一旦應用于臨床實踐,鑒于這類軟件的可擴展性非常強,可能很快就會對患者產生潛在的無意的傷害,并呈指數(shù)樣增加。為了識別和理解算法導致這種危害的可能,來自臨床試驗的可靠證據(jù)就必不可少。
AI臨床應用的最終證據(jù)將來自于隨機試驗,理想情況是這些隨機試驗通過臨床醫(yī)師與算法相結合,來比較深度學習算法與臨床醫(yī)師的診斷準確性。目前,僅有約12項前瞻性試驗(表1)和7項隨機試驗(表2)的公開信息。7項隨機試驗中有6項與內鏡息肉診斷相關,到目前為止,除1項以外,其他研究均在中國進行(表2)。有限的前瞻性和隨機試驗,表明AI在醫(yī)學領域的應用尚處于萌芽階段。
表1 在臨床環(huán)境中評估人工智能深度神經網絡性能的前瞻性試驗
表2 醫(yī)療領域人工智能深度神經網絡的隨機試驗
這個潛在的AI臨床實踐轉折點并沒有被浪費,醫(yī)學AI臨床試驗必須以透明和無傷害的方式進行,這也是出臺新指南的關鍵所在。值得一提的是,這些指南的產生是由一個龐大的國際跨學科團隊經過多個階段的艱苦工作完成的。起草之初,先是由在臨床試驗開展和方法學方面有豐富經驗的學術工作者組成的指導小組對300多項注冊試驗(僅7項已發(fā)表,62項已完成)進行審查,之后進行了為期兩個階段的專家調查(德爾菲研究審查),并由169名跨學科專家就候選內容(“項目”)進行投票,最終于2020年1月在伯明翰大學舉行了為期兩天的共識會議。會議產出了15個必要項目,以用于臨床試驗研究方案和報告兩種獨立清單形式呈現(xiàn)。這些項目旨在彌補目前AI醫(yī)學研究存在的關鍵不足,增加臨床試驗的可重復性和獨立評估的簡易性。
簡單來看,深度學習模型由輸入(數(shù)據(jù),如圖像)和輸出(解釋或預測,如胸部X光片是否表明存在肺炎)組成。在AI的臨床試驗中,對于輸入環(huán)節(jié),我們必須知道患者的納入和排除數(shù)據(jù),它們對于相關的臨床問題的代表性如何,以及數(shù)據(jù)的質量和來源。對于輸出環(huán)節(jié),也有許多重要特征,比如它們是如何被具體化的,對臨床決策的貢獻等。指南規(guī)定研究需要提供大量關于算法本身的信息,比如是哪個版本,在測試和內部驗證期間發(fā)生的更改,以及模型的擬合度等。需要避免醫(yī)療數(shù)據(jù)的過度擬合,即將狹隘的分析結果推廣到更廣泛、無限制的臨床環(huán)境中。該指南要求詳細說明如何檢測、預測和解釋任何已經產生的錯誤,這將有助于說明AI應用的相對安全性。此外,試驗中人類-AI的交互必須被閱讀臨床試驗的讀者完全理解,為此,作者以一個結腸鏡臨床試驗為例,說明了為什么讀者需要了解供胃腸病專家審查使用的視頻片段是如何準備的細節(jié)[2-3]。同時,機器學習依賴于正確標注數(shù)據(jù),標注數(shù)據(jù)代表著絕對正確的標準,但建立算法時所基于的標注數(shù)據(jù)可能不是實際的真實數(shù)據(jù),推薦建議中要求詳細說明這些細節(jié)。這些只是兩個指南組確定的對于構建研究方案和出版很重要的一些項目。
毫無疑問,建立這些標準和保持透明度將有助于推動這一領域的發(fā)展。但必須承認,關于臨床試驗的最佳實踐,還有更多方面需要注意,未來幾年中可能會修訂新的標準。目前指南主要是以影像數(shù)據(jù)為中心,對語音和文本數(shù)據(jù)尚無有意義的詳細說明。目前,幾乎所有的臨床應用都使用了監(jiān)督學習,如何處理無監(jiān)督、自我監(jiān)督形式尚存在疑問。此外,幾乎所有的臨床試驗都僅包含與醫(yī)療專業(yè)人員相關的AI,AI中患者自我診斷的功效并沒有被證實。目前已經有深度學習算法被消費者大規(guī)模使用,如智能手表上根據(jù)靜息心率診斷心房纖顫的應用程序[9]。目前還沒有任何在真實世界進行的前瞻性、使用后試驗來進行另一種形式的驗證。除了實用性評估外,此類研究還將面臨其他挑戰(zhàn),包括軟件故障和惡意的敵對攻擊。
深度神經網絡的一個特殊優(yōu)勢是其自動學習能力,學習的數(shù)據(jù)越多,性能越好。然而目前的指南還沒有解決這個問題,就像監(jiān)管機構一直在努力解決這個問題一樣。顯然我們希望利用這種能力為醫(yī)療服務,但不確定的是,一旦算法進一步“學習”,其性能是否會與已公布的臨床試驗證據(jù)之間產生偏差。相反,目前當一個算法發(fā)布后,它會被凍結,這就抑制了AI潛在的最強大的一部分能力。
我們將期待未來CONSORT-AI 和SPIRIT-AI團隊進行更新,以解決醫(yī)療AI應用于現(xiàn)實世界時所面臨的問題?,F(xiàn)在,我們需要對他們?yōu)樘嵘鼳I醫(yī)學研究的標準所做的努力表示深深的感謝。
文章來源:TOPOL E J. Welcoming new guidelines for AI clinical research[J]. Nat Med,2020,26:1318-1320.
本翻譯獲得Nature Medicine出版社同意,參見知識共享許可http://creativecommons.org/licenses/by/4.0/。譯文對原文未做刪減。