趙曉陽, 許樹林, 潘為領(lǐng), 唐慧勇, 張守波
(中國人民解放軍第960醫(yī)院淄博醫(yī)療區(qū), 山東 淄博, 255300)
膝關(guān)節(jié)骨性關(guān)節(jié)炎(KOA)是常見的慢性退行性骨關(guān)節(jié)病,以疼痛和功能障礙為特征[1-2]。KOA嚴(yán)重影響患者生活質(zhì)量,給其家庭和社會(huì)造成嚴(yán)重的經(jīng)濟(jì)負(fù)擔(dān)[3]。KOA準(zhǔn)確分期可避免患者病程的快速進(jìn)展[4]。目前,骨關(guān)節(jié)炎(OA)常用的3種分期方法[5-6]中, Kellgren-Lawrence (KL)分期使用最廣泛,其結(jié)果與疼痛及功能障礙相關(guān),且術(shù)前KL分期能預(yù)測手術(shù)成功率。但人工分期不僅耗時(shí),還會(huì)因個(gè)人主觀偏倚存在差異。傳統(tǒng)人工智能模型的建立需要大量的專家和資源,普通醫(yī)師難以獲得。近年來,谷歌、百度等集團(tuán)提供了公共人工智能云平臺(tái),使普通醫(yī)師能夠在沒有人工智能經(jīng)驗(yàn)的情況下建立人工智能模型。但關(guān)于公共人工智能平臺(tái)對(duì)KOA自動(dòng)分期效果的研究較少。故本研究探討利用公共人工智能平臺(tái)對(duì)KOA嚴(yán)重程度自動(dòng)分期的可行性。
骨關(guān)節(jié)炎倡議(OAI)是有關(guān)KOA研究的公共數(shù)據(jù)庫,其可供公眾調(diào)閱使用。拍攝X線片: 由2名訓(xùn)練有素的肌骨放射學(xué)醫(yī)師使用KL系統(tǒng)[7-9]對(duì)每張X線片的每個(gè)關(guān)節(jié)進(jìn)行分期。如有分歧,則由第3位醫(yī)師協(xié)議解決,最終公布的為共識(shí)結(jié)果。
本研究下載了一組按照KL分期完成分組的數(shù)據(jù)。訓(xùn)練模型最多時(shí)使用了其中5 777個(gè)關(guān)節(jié)X線片,并在訓(xùn)練過程中進(jìn)行了不同數(shù)據(jù)集的多次訓(xùn)練,以求獲得最佳的模型方案,模型訓(xùn)練在百度公共人工智能平臺(tái)EasyDL(https: //ai.baidu.com/easydl/)中進(jìn)行。該平臺(tái)提供免費(fèi)的人工智能培訓(xùn)、評(píng)估和基于圖像的預(yù)測、分類。該平臺(tái)計(jì)算能力出色,每個(gè)模型都可在20 min內(nèi)完成訓(xùn)練并進(jìn)行自我評(píng)估[11-14]。平臺(tái)分別隨機(jī)選擇圖像進(jìn)行訓(xùn)練,并使用約為上傳數(shù)據(jù)集30%的數(shù)據(jù)進(jìn)行自我評(píng)估。之后,平臺(tái)返回本研究模型整體的準(zhǔn)確率、F1-score、精確率、召回率以及按照每一個(gè)KL分期的F1-score, 用以評(píng)價(jià)模型價(jià)值。訓(xùn)練過程中,本研究通過調(diào)整圖像數(shù)據(jù)集,訓(xùn)練了多個(gè)迭代版本,最終得到效果最好的模型。其中不同的訓(xùn)練集以O(shè)Atrain加不同下標(biāo)命名,例如OAtrain 5.0, 各版本所用訓(xùn)練及測試數(shù)據(jù)集詳情見表1。
為了判斷OAI(作為標(biāo)準(zhǔn))、人工智能模型和單個(gè)醫(yī)師之間的評(píng)分一致性,本研究選取了2名高年資放射科副主任醫(yī)師進(jìn)行KL評(píng)分(在應(yīng)用KL評(píng)分系統(tǒng)方面具有多年經(jīng)驗(yàn))。然后按照KL分期,從每個(gè)KL等級(jí)分別隨機(jī)選擇10張X線照片,構(gòu)成總量為50張圖像的測試集(命名為50-test), 以供上述醫(yī)生評(píng)分。
表1 訓(xùn)練及測試數(shù)據(jù)集詳細(xì)信息
50-test: 圖像與訓(xùn)練數(shù)據(jù)集均無重復(fù)。
訓(xùn)練使用的圖像格式為PNG, 分辨率為299像素×299像素。利用多個(gè)不同的數(shù)據(jù)集和多個(gè)訓(xùn)練參數(shù)進(jìn)行組合訓(xùn)練,得到多個(gè)迭代版本。
使用F1-score和加權(quán)Kappa系數(shù)進(jìn)行效能評(píng)估,其可反映整體及每個(gè)KL分類的效能,而且其他關(guān)于KL分期的研究中也使用了該參數(shù),使得本研究能夠與之進(jìn)行比較。F1-score對(duì)某類別而言為精確率和召回率的調(diào)和平均數(shù),范圍為0~1, 其中1表示完全一致。對(duì)于多類分類,平臺(tái)及本研究分別計(jì)算每個(gè)分類的F1-score, 并對(duì)結(jié)果進(jìn)行平均。Kappa系數(shù)的大小用來衡量2種方法的一致程度,Kappa系數(shù)越大說明2種結(jié)果越一致,若Kappa≥0.75, 說明結(jié)果一致性較好,若Kappa<0.40, 說明缺乏一致性[14]。
使用SPSS 26.0及Python 3.8軟件進(jìn)行數(shù)據(jù)分析,計(jì)算加權(quán)Kappa系數(shù)、準(zhǔn)確率、召回率和F1-score, 并對(duì)結(jié)果進(jìn)行直接比較。
以O(shè)AI的分期結(jié)果為標(biāo)準(zhǔn),在百度公共人工智能平臺(tái),經(jīng)過多次迭代訓(xùn)練,各版本效能結(jié)果顯示, 5級(jí)V4版本效能最好,其中F1-score為0.72, 準(zhǔn)確率為0.73, 見圖1、表2。
圖1 5級(jí)V4版本平臺(tái)整體評(píng)估結(jié)果截圖
表2 各版本效能統(tǒng)計(jì)
對(duì)于50-test測試子集,本研究2位醫(yī)師的F1-score和準(zhǔn)確率分別為0.63和0.64。模型對(duì)該測試子集的F1-score為0.69,準(zhǔn)確率為0.70。模型對(duì)單個(gè)KL分期0期、3期和4期的F1-score超過了醫(yī)師,而醫(yī)師的KL分期為2期的F1-score更高,另外對(duì)KL分期為1期的F1-score兩者相等。這些結(jié)果可與THOMAS K A等[10]報(bào)告的F1-score進(jìn)行直接比較。同時(shí),因?yàn)樽蛹瑏碜悦總€(gè)KL分類的相等數(shù)量的圖像,所以這些得分結(jié)果可以直接與ANTONY J等[12]研究中報(bào)告的加權(quán)F1-score進(jìn)行比較。見表3。
表3 在KL分期系統(tǒng)中醫(yī)師及各模型效能比較
KL分期系統(tǒng)中2期特別重要,因?yàn)樵谑褂肒L分期系統(tǒng)進(jìn)行隊(duì)列選擇時(shí),其經(jīng)常被用作確定OA發(fā)病率的閾值[10]。為了評(píng)估模型,確定OA發(fā)病率模型的效能,本研究將0期和1期的KL評(píng)分合并到一個(gè)類別中,并將2期、3期和4期的KL評(píng)分合并到另一個(gè)類別中。本研究對(duì)此在百度人工智能平臺(tái)中重新訓(xùn)練了相應(yīng)的模型,該模型的總體F1-score和準(zhǔn)確率均達(dá)到了0.91, 而針對(duì)50-test測試子集, F1-score為0.89, 準(zhǔn)確率為0.90。2位醫(yī)師對(duì)此效能的得分為F1-score為0.87, 準(zhǔn)確率為0.88。見表4。
平臺(tái)測試集準(zhǔn)確率原始數(shù)據(jù)為 308/424, 完整測試集準(zhǔn)確率原始數(shù)據(jù)為2 890/4 090。
表4 在發(fā)病率判斷中醫(yī)師及各模型效能比較
在以O(shè)AI為標(biāo)準(zhǔn)一致性評(píng)估時(shí),在50-test測試子集中醫(yī)師的加權(quán)Kappa系數(shù)為0.76, 此測試子集的模型獲得的加權(quán)Kappa系數(shù)為0.82, 模型對(duì)完整測試集的加權(quán)Kappa系數(shù)為0.82, 與THOMAS K A等[10]報(bào)告的0.86及TIULPIN A等[13]研究模型的最佳Kappa系數(shù)0.83相近,見表5。
表5 評(píng)價(jià)者與金標(biāo)準(zhǔn)一致性比較
在評(píng)估評(píng)價(jià)者之間一致性時(shí),醫(yī)師與模型之間的加權(quán)Kappa系數(shù)分別為0.75和0.74。醫(yī)師之間的加權(quán)Kappa系數(shù)為0.76, 略低于THOMAS K A等[10]報(bào)告中的醫(yī)師間加權(quán)Kappa系數(shù)0.79, 高于RIDDLE D等[15]報(bào)告中最一致的2個(gè)評(píng)價(jià)者之間的Kappa系數(shù)0.65, 見表6。
表6 不同研究醫(yī)師間一致性比較
目前, KOA的發(fā)病率日益增高,而其診斷和分期依據(jù)主要為影像學(xué)檢查結(jié)果,因此進(jìn)行準(zhǔn)確的影像學(xué)分期,對(duì)KOA的治療和預(yù)后有重要意義。本研究利用公共人工智能平臺(tái)建立模型,實(shí)現(xiàn)對(duì)KOA的自動(dòng)分期,并取得了良好的效果。
從本研究訓(xùn)練的模型的表現(xiàn)來看,無論是對(duì)KOA按照KL分期系統(tǒng)進(jìn)行5期分期,還是在KOA發(fā)病率的判斷上,本研究模型均取得較好的效能,許多表現(xiàn)達(dá)到甚至超過了本研究的高年資醫(yī)師。本研究針對(duì)KL分期系統(tǒng)的整體效能達(dá)到F1-score為0.72, 準(zhǔn)確率為0.73, 與之前研究中THOMAS K A等[10]模型的F1-score(0.70)、準(zhǔn)確率(0.71)相近。在發(fā)病率模型測試中,本研究模型F1-score為0.91, 優(yōu)于THOMAS K A等[10]報(bào)道的0.87, 說明本模型在發(fā)病率判斷中的表現(xiàn)較優(yōu)。在各項(xiàng)一致性評(píng)估中,本研究的模型加權(quán)Kappa系數(shù)為0.82, 略低于THOMAS K A等[10]報(bào)告的0.86及TIULPIN A等[13]研究模型的最佳Kappa系數(shù)0.83, 但仍可表明其具有較好的一致性,與之前的研究差異較小。
本研究提出的臨床醫(yī)師利用公共人工智能平臺(tái)訓(xùn)練模型和利用X線片對(duì)KOA進(jìn)行自動(dòng)KL分期具有可行性和一定的優(yōu)越性。首先,由于模型是在云平臺(tái)上自動(dòng)、迅速地進(jìn)行訓(xùn)練,因此其在普通個(gè)人的計(jì)算機(jī)上便可運(yùn)行,不需要專門的、價(jià)格高昂的計(jì)算機(jī)設(shè)備及人工智能專業(yè)知識(shí)儲(chǔ)備。本研究在百度公共人工智能平臺(tái)所建立的模型的效能可以達(dá)到甚至超出經(jīng)驗(yàn)豐富的醫(yī)師的評(píng)估效能。其次,既往研究往往依賴于手動(dòng)標(biāo)注,對(duì)圖像進(jìn)行標(biāo)注可能會(huì)增加噪聲和錯(cuò)誤的發(fā)生,并且需要額外的時(shí)間和人力成本。而本研究模型只需上傳圖片數(shù)據(jù)即可,其操作簡單、便捷,即使毫無人工智能經(jīng)驗(yàn)的醫(yī)師也可進(jìn)行操作。既往研究往往需要大量的原始圖片數(shù)據(jù),比如THOMAS K A等[10]研究總共使用了40 280張圖像,而本研究最終使用1 445張圖像進(jìn)行模型訓(xùn)練,且取得了與其模型相當(dāng)?shù)男芙Y(jié)果。本研究還發(fā)現(xiàn),提高模型訓(xùn)練效果的重要因素除增大數(shù)據(jù)量,還需每個(gè)子分類的數(shù)據(jù)量相當(dāng),這一點(diǎn)百度公共人工智能平臺(tái)在訓(xùn)練時(shí)也進(jìn)行了相應(yīng)提示。在本研究模型訓(xùn)練過程中,子分類數(shù)據(jù)量比例失調(diào)的數(shù)據(jù)集得到的結(jié)果更好,且選擇AutoDL Transfer算法,在訓(xùn)練時(shí)間及效果上均具有良好表現(xiàn),推薦在訓(xùn)練模型時(shí)選擇此算法。
本研究使用的公共人工智能模型本質(zhì)上是一個(gè)分類器,平臺(tái)可以根據(jù)本研究提供的不同類別的圖像進(jìn)行模型訓(xùn)練。因此,公共人工智能平臺(tái)的潛能不僅限于本研究范圍內(nèi),在其他醫(yī)療領(lǐng)域范圍同樣具有巨大潛能。隨著越來越多的公共人工智能平臺(tái)出現(xiàn),更多的基層普通醫(yī)師可以獲得人工智能服務(wù)。本研究認(rèn)為,公共人工智能平臺(tái)將促進(jìn)醫(yī)學(xué)和人工智能的共同發(fā)展。本研究仍具有一定局限性。首先,本研究使用相對(duì)較小的訓(xùn)練數(shù)據(jù)集來訓(xùn)練模型,隨著訓(xùn)練數(shù)據(jù)集的增加,模型的性能可能會(huì)被影響。其次,本研究將模型性能與僅使用50張圖像進(jìn)行測試的醫(yī)師的評(píng)估結(jié)果進(jìn)行比較,醫(yī)師測試樣本相對(duì)較小,結(jié)果可能存在偏差。此外,本研究模型是針對(duì)標(biāo)準(zhǔn)的膝關(guān)節(jié)X線片設(shè)定,對(duì)一些特殊體位或不標(biāo)準(zhǔn)位置的圖像的分類效果無法判斷。
綜上所述,本研究使用公共人工智能平臺(tái)進(jìn)行模型訓(xùn)練,利用X線圖像進(jìn)行KOA的自動(dòng)KL分期,具有可行性和優(yōu)越性,為利用人工智能平臺(tái)進(jìn)行臨床研究與工作提供了良好依據(jù)。