【作 者】胡凱,楊輝,鄭超,王雯,馬琳榕
1 浙江省醫(yī)療器械審評中心(浙江省醫(yī)療器械不良事件監(jiān)測中心),杭州市,310009
2 浙江省藥品檢查中心,杭州市,310000
具有人工智能/機器學習(artificial intelligence/machine learning,AI/ML)技術特點的醫(yī)療器械產品已經(jīng)在多個國家獲得上市。如2018年,美國上市了8款AI/ML類的軟件器械產品[1]。近年來,國內企業(yè)在藥監(jiān)部門政策支持下也有該類產品上市,如“冠脈血流儲備分數(shù)計算軟件產品”“肺炎CT影像輔助分診與評估軟件”“糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件”“兒童手部X線影像骨齡輔助評估軟件”等。
根據(jù)AI/ML技術發(fā)展特點,該類產品通過實時數(shù)據(jù)改進性能是一個發(fā)展的方向,即含自適應算法的器械產品,但是自適應算法可能改變產品的技術指標和結果。目前,國外未對具有自適應算法特點的產品細化監(jiān)管要求。我國現(xiàn)行的評價方式中,明確了算法驅動型和數(shù)據(jù)驅動型兩種軟件更新[2]。其中算法驅動型更新,以及導致算法性能評估結果發(fā)生顯著性改變的數(shù)據(jù)驅動型更新,屬于重大軟件更新,需進行許可事項變更,根據(jù)最新發(fā)布的《人工智能醫(yī)療器械注冊審查指導原則》,建議產品關閉自適應學習。這對于自適應算法來說,會導致頻繁的許可事項變更,既不經(jīng)濟也不現(xiàn)實。美國相關機構試圖解決這一問題,發(fā)布一系列試點政策。下面將介紹自適應算法產品的特點和美國的系列政策,并進行初步探討。
含自適應算法器械產品的算法比傳統(tǒng)產品的復雜度更高。有學者將自適應定義為“處理和分析過程中,根據(jù)處理數(shù)據(jù)的數(shù)據(jù)特征自動調整處理方法、處理順序、處理參數(shù)、邊界條件或約束條件,使其與所處理數(shù)據(jù)的統(tǒng)計分布特征、結構特征相適應,以取得最佳的處理效果”[3]。具有自適應算法的AI/ML軟件可能改變其性能和模式,給監(jiān)管帶來挑戰(zhàn)。
面對挑戰(zhàn),一種觀點是只允許鎖定的算法上市,安全性極好但缺點也明顯。例如,訓練數(shù)據(jù)缺少某亞組人群,算法面對該亞組人群患者時將產生不適宜的結果。如文獻[4]展示了傳統(tǒng)算法的乳房X線圖像分析乳腺癌風險產品,缺點是可能無法識別潛在亞組。自適應算法可識別出潛在亞組,甚至可以針對不同的亞組自動調整算法模型,但是如果按照各國傳統(tǒng)上市前審查途徑,則該更新的效率會受到時間的影響。
另一種觀點是允許器械產品使用自適應算法,并在無審查的情況下更新算法。自適應算法更新過程包括“參數(shù)驅動型”和“算法驅動型”(例如,用多項式替換線性模型)?!皡?shù)驅動型”更新面臨一個問題,其質量嚴重依賴相關基礎數(shù)據(jù)的質量。案例顯示[5],用戶的錯誤或有意的對抗性攻擊,激發(fā)系統(tǒng)產生了低質量的醫(yī)學數(shù)據(jù)。
根據(jù)美國21 CFR 807.81相關規(guī)定,510(k)產品在兩種變化情形下需提交申請:對器械的更改或修改可能會嚴重影響安全性或有效性;器械預期用途的重大更改或修改。而針對軟件修改的措施,F(xiàn)DA在軟件變更指南[6]中列舉了提交軟件更改的一些常見情形,如:平臺、架構、核心算法、需求細化、外觀更改、重建與重構。
自美國頒布《21世紀治愈法案》以來,F(xiàn)DA加強了數(shù)字醫(yī)學產品的科學管理,部分調整了醫(yī)療器械范圍,特別細分了“軟件功能”的差異。法案明確了“用于醫(yī)療機構的行政管理”“用于維持和促進健康生活”“用于患者的電子記錄”“用于數(shù)據(jù)的傳輸、存儲、格式轉換、重現(xiàn)”這四類預期用途為非醫(yī)療器械功能[7]。
此外,為適應獨立軟件醫(yī)療器械的日益發(fā)展,F(xiàn)DA探索了獨立軟件的監(jiān)管模式——發(fā)布“軟件預認證程序”試運行[8]。預認證程序用于高風險獨立軟件醫(yī)療器械的上市前審查而豁免低風險產品。程序接軌了目前IMDRF對獨立軟件醫(yī)療器械的共識[9],如基于“信息對醫(yī)療決策的意義”“對健康的影響程度”兩個要素的“四級風險”分類。同時,將510(k)、PMA、De Novo三大上市前審查程序的共同要素統(tǒng)一并簡化程序。
預認證程序的運行得到利益相關方的積極響應。其簡化了中風險和低風險產品的上市前審核并注重上市后評價,但高風險產品,如涉及關鍵的診斷與治療軟件產品的變更審核,如何定義變化的大小等問題懸而未決。
FDA在2019年4月的討論文件中提出的試點,基于AI/ML的獨立軟件醫(yī)療器械可以在獲得授權后在一定程度上進行自我更新[10]?;贏I/ML的獨立軟件醫(yī)療器械的上市前審查時,制造商可以選擇提交“預定的變更控制計劃”(SaMD pre-specifications,SPS),其中包含對預期變更的描述和“算法變更協(xié)議”(algorithm change protocol,ACP),包括用于實現(xiàn)變更的相關方法[11]。
SPS,即制造商對“性能”或“輸入”的預期修改,或與產品的“預期用途”相關的計劃更改。
ACP,即制造商已實現(xiàn)的,和為適當?shù)乜刂芐PS文檔中描述的預期變更類型的風險所采用的特定方法。ACP表述了產品更新應符合的程序和需求的數(shù)據(jù),使得更新后的產品滿足SPS要求且保證安全有效。其要素包括:數(shù)據(jù)管理、再訓練計劃、性能評估、升級流程。
根據(jù)試點政策的SPS和ACP要求,對于AI/ML軟件器械進行包括數(shù)據(jù)管理在內的“預先的描述”,其要求與“自適應”本身的不可預先描述性相沖突。未知亞群對產品性能造成的影響,使得ACP文件“再訓練”一項中“發(fā)起再評價的標準”是否符合臨床實踐也是不確定的。如應當發(fā)起再評價但系統(tǒng)性能卻無變化或相反的“假陰陽性”情形,存在風險。
通過查閱文獻,試點政策可能面臨的難題如下:
(1)數(shù)據(jù)分布的變化。數(shù)據(jù)流中的數(shù)據(jù)分布隨時間發(fā)生不可預測的變化,使原有的分類器分類不準確或決策系統(tǒng)無法正確決策[12]。大量樣本改變權重和差異特別明顯的個體樣本均會改變“分類邊界”。案例展示了這種[13],系統(tǒng)用于識別出皮膚病的良惡性,但訓練數(shù)據(jù)集未考慮膚色要素,將導致對輸入輸出的真實函數(shù)關系估計的偏離。結果,相同的圖像在不同時間可能會導致兩種不同的概率診斷。試點政策同樣會面臨此難題。ACP文檔要求制造商描述“再訓練計劃”,包括計劃、算法的架構與參數(shù)、數(shù)據(jù)的預處理、開展性能評估的細則。站在制造商角度,因為自適應算法的處理過程是動態(tài)且復雜的,測試用數(shù)據(jù)的典型性、再評價的觸發(fā)條件的可描述性,無參照和依據(jù)。
(2)未識別的隱藏數(shù)據(jù)維度。在某項潛在未知數(shù)據(jù)分布維度上,當自適應獲得的新數(shù)據(jù)與ACP描述的數(shù)據(jù)不同時,結果產生協(xié)變量平移[14],也是一種遷移學習的情況。例如由于資源限制,訓練數(shù)據(jù)可能采集自該隱藏維度特征單一的區(qū)域。而上市后的產品被部署在該區(qū)域外時,制造商可能無法事前預見新數(shù)據(jù)的特征值和已有數(shù)據(jù)特征值在隱藏維度下的區(qū)別,所以在第一次上市前審查時提出通過SPS和ACP文檔規(guī)定數(shù)據(jù)的描述特性存在不完整的情形。
(3)臨床視角的不穩(wěn)定性。不同患者間醫(yī)學上輕微的差異不應導致診斷或治療的實質性差異。穩(wěn)定的算法在面對輸入之間的細微變化時,應給出在輸出空間中類似的預測[15]。DWORK等[15]在文獻討論了這種基于個體的公平性,醫(yī)學上相似的患者如果得到不同診斷,則該產品是不穩(wěn)定的。從患者安全的角度來看,不希望某產品經(jīng)常將醫(yī)學上相似的病變進行非常不同即“不夠平滑”的分類。對于AI/ML產品,很多常用的分類系統(tǒng)是高度非線性的。這使得它們特別容易受到這種不穩(wěn)定的影響[16]。這對SPS和ACP描述文檔來說,如何制定“性能評估”的合理閾值還需要結合醫(yī)學臨床實踐,防止過多觸發(fā)性能評價造成的資源浪費。
上文從美國試點政策在面對含自適應算法的器械產品時,從SPS和ACP文檔審查要素出發(fā),討論了實踐困難的情形。在此基礎上,提出相關策略供業(yè)界討論。
基于“收益-風險”是醫(yī)療器械上市前評價的核心思想之一。對含自適應算法產品的評價,需考慮在使用場景下產品使用“鎖定算法”和自適應算法哪個具有更有效的風險控制。
首先,應當考慮應用場景是否適合使用自適應算法。因素包括:輸入數(shù)據(jù)的豐富程度、算法的成熟程度和穩(wěn)定程度??紤]這些因素,主要是為了控制“未知”風險的數(shù)量,盡可能降低后續(xù)風險措施的成本。其次,應當考慮自適應算法的風險,是否小于帶來的收益。例如,對輸入和輸出之間真實函數(shù)的估計偏離,而可能對患者帶來收益和造成傷害的評價。再次,考慮采用自適應算法所帶來的收益是否顯著高于傳統(tǒng)的“鎖定算法”。如果“鎖定算法”已能夠為患者帶來良好的收益,改用自適應算法增加的邊際收益不顯著,那么采用自適應算法也是不適合的。
將自適應算法的重點放在開發(fā)流程上,建立良好機器學習管理實踐的規(guī)則(good machine learning practices),利用電子系統(tǒng)等現(xiàn)代化信息手段,同時建立具有深層專業(yè)背景的監(jiān)管專家?guī)?,以“連續(xù)”監(jiān)控、識別和管理由于AI/ML特性而導致的相關風險。
監(jiān)管機構可能需要對所有以往數(shù)據(jù)的隨機子集進行定期的系統(tǒng)測試。也可通過擾動已有的患者數(shù)據(jù)來生成“新數(shù)據(jù)”,甚至利用技術手段生成對抗樣本,用于檢查AI/ML模型的魯棒性。充分考慮患者類型的多樣性。監(jiān)管機構還可以使用對抗性方法在AI/ML軟件的整個生命周期中進行算法壓力測試。
此外,可利用電子系統(tǒng)和數(shù)據(jù)分析技術,例如變更點檢測或異常檢測,以連續(xù)監(jiān)視AI/ML算法。例如,F(xiàn)DA用國家醫(yī)療產品監(jiān)視系統(tǒng)Sentinel[17]來連續(xù)監(jiān)視批準的基于AI/ML醫(yī)療器械產品的行為。
建立多方參與機制是為避免涉及自適應算法帶來的醫(yī)學倫理復雜情形而導致的誤判漏判。目前在國外,學界特別關注高級人工智能算法所帶來的公平性、透明度和責任歸屬問題[18-20],因為這些問題會導致潛在的倫理困境。
醫(yī)療產品多方參與機制在美國是有例可循的。依據(jù)FDASIA法案第618節(jié)要求FDA與國家健康信息技術協(xié)調員辦公室(ONC)和聯(lián)邦通訊委員會(FCC)協(xié)商,發(fā)布健康類信息技術產品的監(jiān)管框架以避免重復監(jiān)管[21]。
在產品上市后的監(jiān)管部門的主導下,從產品的安全有效性出發(fā),通過建立某種利益相關機構的多方參與機制,幫助制造商杜絕某些涉及技術敏感、倫理困境、國家安全的違規(guī)行為,同時降低因多程序監(jiān)管而帶來的時間問題。
通過對美國現(xiàn)有政策的研究,并結合自適應算法技術特點的部分文獻檢索,提出了美國現(xiàn)行試點政策框架所面臨的挑戰(zhàn)。但是,研究僅建立在現(xiàn)有認識的基礎上,必然會有很多限制因素。含自適應算法的器械產品乃至廣泛意義上人工智能產品對各個領域帶來的“黑箱”問題,是所有人面臨的挑戰(zhàn),關系到全人類的利益。
我國藥品監(jiān)管相關部門為此進行了大量的探索,付出了巨大的努力。如國家局醫(yī)療器械技術審評中心建立的“人工智能醫(yī)療器械創(chuàng)新合作平臺”,通過建立各個工作組開展了相關工作,為業(yè)內制造商提供了交流溝通的渠道。
我們呼吁產業(yè)中的制造商和臨床機構在探索科技前沿的同時,能夠同時為相關機構提供建設性、普惠性的行業(yè)觀點,從患者福祉和人民需求的角度出發(fā),形成一個良性的產業(yè)環(huán)境。相信隨著自適應算法產品技術的不斷進步,在各方的共同努力下,最終形成科學的監(jiān)管規(guī)則。