曾雪,王浩,李佳戈
中國食品藥品檢定研究院 醫(yī)療器械檢定所,北京 102629
近年來,人工智能醫(yī)療器械發(fā)展較快,成為有源醫(yī)療器械領(lǐng)域新的分支。這一類醫(yī)療器械使用人工智能技術(shù)實現(xiàn)預(yù)期用途,形態(tài)包括醫(yī)療器械軟件、軟件組件、智能硬件或系統(tǒng)等,應(yīng)用場景不斷擴展,包括方艙醫(yī)院[1-3]等特殊場所。例如新冠疫情期間,搭建方艙醫(yī)院使用的醫(yī)療影像設(shè)備、病人數(shù)據(jù)管理系統(tǒng),需要適應(yīng)運輸和非常規(guī)溫濕度條件。用于野外應(yīng)急救災(zāi)的武警省級移動部署醫(yī)院,一般包含8~10輛專業(yè)醫(yī)療車和3~4個應(yīng)急醫(yī)療帳篷[4],配備大量的專業(yè)醫(yī)療設(shè)備和手術(shù)設(shè)備[5-8],人工智能醫(yī)療器械可能需要考慮極端溫濕度、振動、碰撞等環(huán)境條件的影響[9-10]。
目前,人工智能醫(yī)療器械領(lǐng)域尚未建立環(huán)境試驗專用要求,需要研究環(huán)境條件對算法性能的影響。從產(chǎn)品實際運行的情況看,運行人工智能算法的計算平臺需要納入評價范圍,例如計算機組件、服務(wù)器等。在現(xiàn)行有效的醫(yī)療器械行業(yè)標(biāo)準(zhǔn)中,針對對環(huán)境有特殊要求的相關(guān)硬件設(shè)備,例如醫(yī)用X射線設(shè)備、醫(yī)用超聲設(shè)備等,一般在醫(yī)用電器環(huán)境標(biāo)準(zhǔn)(GB/T 14710)[11]基礎(chǔ)上針對相關(guān)設(shè)備的特殊需求,分析制定專用環(huán)境試驗要求。例如《YY/T 0291-2016 醫(yī)用X射線設(shè)備環(huán)境要求及試驗方法》[12]、《YY T 1420-2016 醫(yī)用超聲設(shè)備環(huán)境要求及試驗 方法》[13],但都不涉及計算平臺。在工業(yè)領(lǐng)域,GB/T 9813系列標(biāo)準(zhǔn)[14]規(guī)定了計算機的環(huán)境試驗條件,但與醫(yī)療器械存在差異。
為研究環(huán)境條件對AI算法的影響,本文用心電AI算法模擬實際的AI產(chǎn)品,在不同的環(huán)境試驗條件和模式下連續(xù)運行,觀測執(zhí)行效率和準(zhǔn)確性的變化情況[15-19],為下一步明確人工智能醫(yī)療器械的環(huán)境試驗要求提供參考。
運行AI算法的計算平臺為聯(lián)想品牌的臺式計算機,內(nèi)存4 G,CPU型號參數(shù):英特爾第三代酷睿i5-3470@3.20 GHz四核,安裝MATLAB程序,用于運行心電AI算法。
本文選擇公開的AI心電算法[20]作為本次性能測試的對象。該算法將心電信號分為4類,分別是正常(Normal,N)、左束支阻滯(Left Bundle Branch Block,LBBB,L)、右束支阻滯(Right Bundle Branch Block,RBBB)及室性早搏(Ventricular Premature Beats,PVC)。算法采用MIT數(shù)據(jù)庫中的數(shù)據(jù)來進(jìn)行訓(xùn)練和測試,共計20000個心拍, 4類心拍各有5000個心拍。
AI心電算法模型訓(xùn)練完成后,使用測試集進(jìn)行測試,并計算4種心拍分類的準(zhǔn)確率,準(zhǔn)確率的表述為一個測試集中被正確分類的樣本數(shù)與總樣本數(shù)之比。
以判斷正常心拍(N)的二分類問題為例,如果MIT數(shù)據(jù)庫中的分類結(jié)果為N,則作為陽性心拍,否則作為陰性心拍;如果AI算法判定為N,則表示AI算法的結(jié)果為陽性,如果判定為其余3種心拍,則表示AI算法的結(jié)果為陰性。分類準(zhǔn)確率具體計算方法,見表1。
表1 AI測試結(jié)果的混淆矩陣
準(zhǔn)確率計算公式如式(1)所示。
式中,N1,1為真陽性的數(shù)量,即被AI算法正確地預(yù)測為陽性的陽性心拍數(shù)量;N1,2為假陽性的數(shù)量,即被AI算法錯誤地預(yù)測為陽性的陰性心拍數(shù)量;N2,1為假陰性的數(shù)量,即被AI算法錯誤地預(yù)測為陰性的陽性心拍數(shù)量;N2,2為真陰性,即被AI算法正確地預(yù)測為陰性的陰性心拍數(shù)量。
1.2.1 隨機訓(xùn)練模式
首先,為了觀測環(huán)境條件對算法訓(xùn)練的影響,從MIT數(shù)據(jù)集中隨機抽取10000個心拍用于訓(xùn)練心電AI算法模型,剩下的用于測試。算法運行的每個循環(huán)包括30次訓(xùn)練迭代和1次測試,訓(xùn)練的平均迭代時間被記錄下來,作為效率的表征。
根據(jù)極端使用情況考慮,按照GB/T 14710規(guī)定的氣候環(huán)境III組和機械環(huán)境III組的要求,設(shè)計環(huán)境試驗方案,具體包括:
(1)額定工作濕熱試驗條件。溫度:50℃,相對濕度:93%±3%,持續(xù)4 h。試驗過程中,運行MATLAB程序,記錄AI算法訓(xùn)練迭代時間和準(zhǔn)確率。
(2)濕熱貯存試驗條件。溫度:60℃,相對濕度:93%±3%,持續(xù)48 h,恢復(fù)24 h。恢復(fù)后,運行MATLAB程序,記錄AI算法訓(xùn)練迭代時間和準(zhǔn)確率。
1.2.2 固定參數(shù)模式
其次,作為對比,從MIT數(shù)據(jù)集中抽取固定的10000個心拍用于訓(xùn)練心電AI算法模型,其他心拍作為測試集。該模型的參數(shù)進(jìn)行鎖定后,算法循環(huán)運行的每個循環(huán)僅包括1次測試,每次的測試時間被記錄下來,作為效率的表征。同樣按照GB/T 14710的氣候環(huán)境Ⅲ組和機械環(huán)境Ⅲ組的要求,進(jìn)行額定工作濕熱試驗。
環(huán)境試驗各階段的AI算法準(zhǔn)確率和迭代時間結(jié)果,見表2。
表2 環(huán)境試驗前后的AI算法準(zhǔn)確率和迭代時間
2.1.1 AI算法迭代時間
環(huán)境試驗前,單次迭代時間的平均值為3.7521 s,標(biāo)準(zhǔn)差為0.0446,見圖1。
圖1 環(huán)境前初始結(jié)果:AI算法單次迭代時間
額定工作濕熱試驗中,全程單次迭代時間的平均值為3.7722 s,標(biāo)準(zhǔn)差為0.0915,見圖2。將額定工作試驗進(jìn)程分為濕熱工作期和濕熱恢復(fù)期兩個階段進(jìn)行分析。根據(jù)試驗條件,截取第40~200個循環(huán)作為濕熱工作期,這部分的單次迭代時間平均值為3.8381 s,標(biāo)準(zhǔn)差為0.0791。使用Student’st-test,可以得到濕熱工作期的單次迭代平均時間與其余階段的單次迭代平均時間有顯著差異,P<0.001。濕熱工作期單次迭代平均時間明顯增大,迭代效率降低。
圖2 額定工作濕熱試驗:AI算法單次迭代時間
濕熱貯存試驗恢復(fù)后,運行MATLAB程序,單次迭代時間的平均值為3.6602 s,標(biāo)準(zhǔn)差為0.0261,見圖3。
圖3 濕熱貯存試驗后結(jié)果:AI算法單次迭代時間
2.1.2 AI算法準(zhǔn)確率
圖4為正常心拍N、LBBB、RBBB、PVC四類心拍在各個階段的盒狀圖,其中紅線位置顯示了準(zhǔn)確率的中位數(shù),盒子的上下限分別對應(yīng)其分布的25%/75%,“+”顯示了離群值的分布情況。
圖4 環(huán)境試驗AI算法四種心拍準(zhǔn)確率盒狀圖
環(huán)境試驗各階段的AI算法準(zhǔn)確率和迭代時間結(jié)果,見表3。
表3 環(huán)境試驗前后的AI算法準(zhǔn)確率和迭代時間
環(huán)境試驗前,單次測試時間的平均值為0.2752 s,標(biāo)準(zhǔn)差為0.0015,見圖5。
圖5 環(huán)境前初始結(jié)果,AI算法單次迭代時間
額定工作濕熱試驗中,全程單次測試時間的平均值為0.2761 s,標(biāo)準(zhǔn)差為0.0019,見圖6。
圖6 額定工作濕熱試驗,AI算法單次迭代時間
使用Student’st-test,未發(fā)現(xiàn)濕熱工作期的單次測試平均時間與環(huán)境前的單次測試平均時間存在顯著差異。
本次研究選取了AI心電算法作為測試對象,在額定工作濕熱試驗和濕熱貯存試驗中運行算法,在隨機訓(xùn)練和固定參數(shù)兩種模式下連續(xù)運行并對AI算法準(zhǔn)確率和迭代時間進(jìn)行記錄。根據(jù)試驗結(jié)果,在隨機訓(xùn)練模式下,額定濕熱工作期間的訓(xùn)練迭代效率有顯著下降;試驗中,AI算法的準(zhǔn)確率有輕微變化,未發(fā)現(xiàn)與環(huán)境條件直接相關(guān)。作為對照,在固定參數(shù)模式下,AI算法的準(zhǔn)確率和運行效率保持穩(wěn)定。
從理論來看,本次實驗所設(shè)置的環(huán)境條件會影響運行心電AI算法的計算機。溫度與電路元器件的穩(wěn)定息息相關(guān)。溫度過高則會加速元器件的老化,也會導(dǎo)致設(shè)備高溫報警停止工作,甚至燒壞電路板。溫度過低則會出現(xiàn)水汽凝聚和結(jié)霜,也會導(dǎo)致金屬元器件的鈍化。濕度太高會影響設(shè)備散熱,或易使電路板出現(xiàn)短路事故,對計算機的運行速度和效率造成影響。濕度過低則易產(chǎn)生靜電,從而導(dǎo)致放電現(xiàn)象,造成電子電路的擊穿損壞,同時可能存在火災(zāi)隱患。此外,低濕度產(chǎn)生的靜電還容易吸附灰塵。從廣義環(huán)境試驗的角度看,電源質(zhì)量、包裝運輸、振動碰撞等因素也會影響計算機的性能,將來需納入考慮。
一般來說,普通計算機滿足GB/T 9813《計算機通用規(guī)范》系列標(biāo)準(zhǔn)[14],其中包含了環(huán)境試驗的相關(guān)要求。本次試驗主要執(zhí)行醫(yī)療器械環(huán)境試驗標(biāo)準(zhǔn)GB/T 14710[11],試驗條件的設(shè)置更加苛刻(表4),結(jié)果發(fā)現(xiàn)算法效率降低。這意味著當(dāng)計算機作為醫(yī)療器械組件或醫(yī)學(xué)AI計算平臺時,醫(yī)療器械生產(chǎn)廠家有必要以更嚴(yán)格的標(biāo)準(zhǔn)對整個系統(tǒng)進(jìn)行測試,避免在特殊或極端環(huán)境下出現(xiàn)質(zhì)量問題。
表4 標(biāo)準(zhǔn)對比表
另外,對比固定參數(shù)的試驗結(jié)果,當(dāng)僅針對固定模型進(jìn)行循環(huán)測試時,環(huán)境試驗前和濕熱工作期的運算效率沒有明顯變化,這暗示了AI算法單次任務(wù)的運算量越小,算法受環(huán)境影響的可能性也越小。
在隨機訓(xùn)練模式下,四種心拍的準(zhǔn)確率在環(huán)境試驗中有一定的差異,但未見明顯趨勢。產(chǎn)生這些差異的主要原因是訓(xùn)練集、測試集在每次循環(huán)時隨機確定。這意味著在數(shù)據(jù)總量不變的情況下,訓(xùn)練集和測試集的選取對于模型的性能是有影響的。對于不同類型的心拍,數(shù)據(jù)集變化導(dǎo)致的波動程度也不一樣。例如,正常心拍的變化范圍為0.9955~1;室性早搏的變化范圍為0.95~0.999,離群值甚至接近0.9。這說明,用于多分類的AI算法在進(jìn)行研發(fā)時,需要綜合考慮各個分類的準(zhǔn)確率,數(shù)據(jù)的使用過程需要優(yōu)化。
隨著人工智能醫(yī)療器械產(chǎn)業(yè)的發(fā)展,人工智能醫(yī)療器械預(yù)期使用的環(huán)境可能擴展到方艙醫(yī)院、野戰(zhàn)醫(yī)院等更嚴(yán)苛的場所,需要考量環(huán)境對產(chǎn)品質(zhì)量的影響。本次試驗初步揭示了溫濕度條件對算法運行效率的影響,為后續(xù)制訂人工智能醫(yī)療器械環(huán)境試驗規(guī)范積累了數(shù)據(jù)。
本研究的局限性在于,使用的心電數(shù)據(jù)屬于一維數(shù)據(jù),而實際應(yīng)用中可能出現(xiàn)更復(fù)雜的情況,在之后的研究中,將嘗試用更復(fù)雜的二維三維影像數(shù)據(jù)繼續(xù)進(jìn)行分析和驗證。另外,在每一個循環(huán)中,采用訓(xùn)練+測試的方式,沒有考慮數(shù)據(jù)本身的變化,數(shù)據(jù)池是固定的,沒有引入新的數(shù)據(jù),與真實應(yīng)用中持續(xù)學(xué)習(xí)的場景有一定差距。
在人工智能醫(yī)療器械的實際使用中,有必要提前對可能面臨的惡劣環(huán)境進(jìn)行評估,從電源、溫濕度、振動等方面做好相應(yīng)防護(hù)措施;并考慮到此條件下的算法迭代效率和準(zhǔn)確性可能會受到影響,應(yīng)采用其他手段進(jìn)行額外評估,以保證較好的使用效果。