【摘要】 目的 評估2種生成式人工智能(AI)在生成腹部影像學報告方面的表現(xiàn),并與人類醫(yī)師進行比較。方法 回顧性研究2023年6月至2024年5月在中山大學附屬第三醫(yī)院接受腹部CT和MRI檢查的300例患者的影像學報告。使用生成式AI模型ERNIE 4.0和Claude 3.5 Sonnet對300例患者的影像學所見重新生成影像學報告,由5名放射科醫(yī)師采用五點Likert量表(1表示強烈不同意,5表示強烈同意)評估其完整性、準確性、表達、幻覺和無修改接受度。采用Friedman和Nemenyi檢驗進行統(tǒng)計學分析。比較生成式AI與人類醫(yī)師的表現(xiàn)差異。結果 研究共納入300例患者的影像學報告。在完整性方面,Claude 3.5 Sonnet與人類醫(yī)師相當,均優(yōu)于ERNIE 4.0 [(4.86±0.37)分 vs.(4.76±0.46)分 vs.(4.40±0.64)分,前兩者比較P = 0.200,前兩者與后者比較P均< 0.01]。在準確性方面,人類醫(yī)師優(yōu)于2種AI模型[(4.96±0.22)分 vs.(4.66±0.57)分 vs.(4.69±0.57)分,前者與后兩者比較P均< 0.01]。在無修改可接受度方面,Claude 3.5 Sonnet與人類醫(yī)師相當,均優(yōu)于ERNIE 4.0[(4.64±0.53)分 vs.(4.69±0.54)分 vs.(4.30±0.59)分,前兩者比較P = 0.595,前兩者與后者比較P均< 0.01]。在表達和幻覺上,三者比較差異無統(tǒng)計學意義(P均> 0.05)。結論 Claude 3.5 Sonnet生成的影像學報告與人類醫(yī)師水平相當。這提示先進的生成式AI有潛力輔助人類醫(yī)師的工作,有助于提高效率并減輕認知負擔。
【關鍵詞】 生成式人工智能;自然語言處理;影像學報告;腹部
Evaluation of the performance of generative artificial intelligence in generating radiology reports
LI Chao, CHEN Youmei, DUAN Yani, CHEN Yaoping, CHEN Xiuzhen, QIN Jie
(Department of Radiology, the Third Affiliated Hospital of Sun Yat-sen University, Guangzhou 510630, China)
Corresponding author: QIN Jie, E-mail: qinjie@mail.sysu.edu.cn
【Abstract】 Objective To evaluate the performance of two categories of generative artificial intelligence (AI) in generating abdominal radiology reports, and compare with the performance of radiologists. Methods The radiology reports of 300 patients who underwent abdominal CT scan and MRI in the Third Affiliated Hospital of Sun Yat-sen University from June 2023 to May 2024 were retrospectively studied. The generative AI models of ERNIE 4.0 and Claude 3.5 Sonnet were utilized to re-generate radiology reports of 300 patients. Five radiologists evaluated the comprehensiveness, accuracy, expressiveness, hallucinations, and acceptance without revision of the impressions using a five-point Likert scale. Friedman test and Nemenyi test were used to compare the performance between two models and radiologists. Results CT and MRI reports from 300 patients were evaluated. For comprehensiveness,Claude 3.5 Sonnet was on a par with human physicians, and both were superior to ERNIE 4.0 (scores of 4.86±0.37 vs. 4.76±0.46 vs. 4.40±0.64; comparison between the first two, P = 0.200, comparison between the first two and the third, both P < 0.01). For accuracy, Radiologists outperformed both ERNIE 4.0 and Claude 3.5 Sonnet (scores of 4.96±0.22 vs. 4.66±0.57 vs. 4.69±0.57; comparison between the first and the latter two, both P < 0.01). For acceptance without revision, Claude 3.5 Sonnet was on a par with human physicians, and both were superior to ERNIE 4.0 (scores of 4.64±0.53 vs. 4.69±0.54 vs. 4.30±0.59; comparison between the first two, P = 0.595, comparison between the first two and the third, both P < 0.01). Expressiveness and hallucinations metrics showed minimal variations among the three (all P > 0.05). Conclusions Claude 3.5 Sonnet yields comparable performance to radiologists in generating radiology reports, indicating that advanced generative AI has the potential to assist radiologists, improve the work efficiency and reduce cognitive burden.
【Key words】 Generative artificial intelligence; Natural language processing; Radiology report; Abdomen
目前,患者影像學檢查需求激增程度已經遠遠超過了放射科醫(yī)師增長數(shù)量[1-3],這種失衡導致工作負荷增加、診斷發(fā)布延遲,且增高了醫(yī)療人員的職業(yè)倦怠風險[4],影響了醫(yī)療服務效率與診療護理質量[5]。近年來,人工智能(AI)在醫(yī)學中的應用越來越廣泛[6-7]。其中,生成式AI技術憑借其快速生成詳細文本的能力,為影像學報告生成自動化提供了一種潛在的解決方案,有助于提高放射科醫(yī)師的工作效率并減輕工作負擔[8-10],使他們能夠專注于復雜病例和關鍵決策上[11-12]。
近期研究探索了生成式AI在影像學報告生成方面的潛力,但結果不一,引發(fā)了爭議。Sun等[13]評估了GPT-4在生成50份胸部X線報告方面的表現(xiàn),認為AI生成的結論不如放射科醫(yī)師。然而這一結論受到了Ray[14]的質疑,他們強調了AI的潛力和進一步研究的必要性。其他研究顯示AI在輔助醫(yī)學文本生成方面有積極的成果,例如用于影像學報告的迭代優(yōu)化框架提示了放射科醫(yī)師與AI協(xié)作改善報告質量的好處[15],而使用預訓練變換器自動生成放射學報告的初步評估為AI在這一領域的潛力提供了早期證據[16]。盡管取得了這些進展,但現(xiàn)有研究仍受限于樣本量小、缺乏放射學專家的全面評估以及簡化的提示可能無法充分利用AI的能力。此外,一些研究過度依賴自動化指標而非放射科醫(yī)師的評估[15, 17],可能忽視了臨床實用性和可解釋性的關鍵方面[18-19]。
本研究評估了生成式AI ERNIE 4.0和Claude 3.5 Sonnet在影像學報告生成方面的表現(xiàn),通過擴大樣本量并將研究范圍擴大到更復雜的腹部CT和MRI檢查以解決前期研究的局限性。并且在采用了模擬放射科醫(yī)師診斷過程的高級提示工程技術的基礎上,進一步由專業(yè)放射科醫(yī)師對模型進行評估。這些改進有助于更全面地探討生成式AI在影像學報告生成方面的能力?,F(xiàn)將研究結果報告如下,以期為同行們進一步合理應用生成式AI生成影像學報告提供參考。
1 對象與方法
1.1 研究對象
本研究回顧性收集2023年6月至2024年5月在我院進行腹部CT或MRI檢查的患者的影像學報告。初步納入該期間的所有腹部CT和MRI報告(共43 648份)。在排除了影像所見部分少于100字的報告后,從剩余報告中隨機選取300例獨立患者的300份報告進行分析(篩選報告時僅選擇“檢查部位”字段含有“上腹部”“下腹部”或“盆腔”的病例,涵蓋廣泛的疾病類型,不限于典型特征)。詳細的數(shù)據選擇過程代碼已公開發(fā)表在GitHub平臺(https: //github.com/lichao312214129/code_for_impressionGeneration)。隨機數(shù)據選擇程序在’random_data_selection.py’腳本中實現(xiàn)。除上述300份報告外,本研究還納入了2021年12月的35份CT和MRI報告,專門用于提示工程,以指導生成式AI基于影像學檢查結果生成結論。在每份報告中,所有受檢對象的個人健康信息和潛在可識別數(shù)據均被刪除。研究設計見圖1。本研究獲得我院倫理委員會的批準(批件號:中大附三醫(yī)倫Ⅱ2023-042-01),并因使用非身份識別數(shù)據而豁免了知情同意。
1.2 生成式AI的選擇
于2024年6月13日至7月5日期間訪問ERNIE 4.0(ERNIE-4.0-8K-Latest,https: //qianfan.cloud.baidu.com)和Claude 3.5 Sonnet(claude-3-5-sonnet-20240620,http: //claude.ai)。選用這2個模型是基于它們在生成式AI領域的領先地位和廣泛認可度。ERNIE 4.0在本研究進行時被認為是中國先進的大型語言模型之一;Claude 3.5 Sonnet在本研究進行時代表了美國生成式AI的前沿,在多個方面超越了GPT-4。選用這2個模型旨在比較中美兩國在生成式AI領域的最新技術進展,并在放射學報告生成的具體應用場景中評估它們的性能差異。
本研究使用Python 3.8.16腳本和OpenAI 1.33.0 包與ERNIE 4.0和Claude 3.5 Sonnet的應用程序編程接口(application programming interface,API)進行交互。將所有模型的溫度參數(shù)設置為1×10-10
以限制隨機性[20]??紤]到單次輸出的令牌長度限制,對每個案例進行了多次對話迭代,以確保生成完整和連貫的影像學結論。用于此過程的代碼已公開發(fā)布在GitHub平臺(https: //github.com/lichao312214129/code_for_generating_impression)。使用正則表達式從AI模型的輸出中提取影像學結論。
1.3 提示工程
受近期關于如何創(chuàng)建優(yōu)秀放射學報告建議研究的啟發(fā)[21],對初始提示實施了逐步優(yōu)化提示以提高質量和透明度。這種思維鏈方法模擬了放射科醫(yī)師的推理過程,通過結構化分析引導AI。迭代過程涉及每個案例的多次對話,并在每一步進行人工驗證以確保內容的完整性、準確性和連貫性。所有提示采用中文以匹配中國放射科醫(yī)師的臨床環(huán)境和患者的目標受眾。通過反復優(yōu)化提示結構和語言(例如開始時可能只是1個簡單的指令,如“根據報告的描述部分生成報告的結論部分”,發(fā)現(xiàn)效果不佳后改為“逐一列出描述中的所有異常,然后結合所有異常生成相應的影像學結論”),使生成式AI生成的影像學結論的質量和可靠性得到顯著提高,為后續(xù)比較分析提供堅實基礎。
1.4 性能評估
由5名放射科醫(yī)師(3名分別具有17年、9年、9年工作經驗的中級醫(yī)師及2名具有4年工作經驗的初級醫(yī)師)對納入研究的300份影像學報告(每一份中均包含生成式AI與放射科醫(yī)師的結論)進行獨立評估。為確保評估的一致性,對5名評估者進行了校準練習:隨機選擇5個案例,評估者分別對其進行獨立評估,然后開會討論結果并形成統(tǒng)一標準。這一過程旨在正式評估前提高評估者間的一致性。
本研究分析了300份影像學報告,將其隨機分為2個子集:子集1包含250份報告,子集2包含50份報告。將子集1隨機分配給5名評估者,每名評估者獨立評估50份報告。將子集2分配給所有評估者進行重復評估,即5名評估者均對子集2的50份報告進行獨立評估。這一設計旨在測量評估者之間的一致性。在評估過程中,對除影像學報告外的其他臨床數(shù)據進行盲法處理。為比較生成式AI和放射科醫(yī)師的表現(xiàn),將子集1(250份報告)的評估數(shù)據與年資最高的評估者對子集2(50份報告)的評估數(shù)據整合在一起,創(chuàng)建一個包含300份報告的綜合數(shù)據集用于進一步分析。這種一致性分析方法在以往文獻中已有相關報道[22]。
為減少偏倚,每份影像學報告 (無論是生成式AI的結論還是放射科醫(yī)師的結論)均被分配由7個隨機字符串構成的唯一標識符。對于每個案例,ERNIE 4.0、Claude 3.5 Sonnet和放射科醫(yī)師的結論的順序被隨機化,以防止任何與順序相關的評估偏倚。報告以隨機順序呈現(xiàn)的方式在以往的研究中已有報道[20]。
評估采用五點Likert量表(1表示強烈不同意,5表示強烈同意),重點關注5個關鍵標準:完整性、幻覺、準確性、表達和無修改接受度,每個指標的詳細評分標準已公開發(fā)布在GitHub平臺(https: //github.com/lichao312214129/code_for_generating_impression)。這種評估方法參考了既往研究中的實踐經驗[23]。
1.5 統(tǒng)計學方法
所有統(tǒng)計分析使用Python 3.8.16、SciPy 1.10.1、
Scikit-posthocs 0.8.1和Statsmodels 0.13.5進行[24]。對連續(xù)變量(如年齡和報告字數(shù))采用M(P25,P75)
描述,對分類變量(如性別、患者來源、檢查方式、增強情況和檢查部位)采用n(%)描述,以全面概括300例研究對象的基本特征分布。由于某些標準(如幻覺)的評分分布極端,大多數(shù)案例被5名評估者一致評為1,常規(guī)的評估者間一致性測量標準(如Fleiss’ Kappa系數(shù))不適用,因此,對于每項評估標準(完整性、幻覺、準確性、表達和無修改接受度)進行評估者間評分一致性的占比計算,一致性被定義為3個層級:完全一致(5位評估者給出相同評分),高度一致(4位評估者給出相同評分)和基本一致(3位評估者給出相同評分),比較采用χ 2檢驗。
采用Friedman檢驗比較ERNIE 4.0、Claude 3.5 Sonnet和放射科醫(yī)師在5個評估標準上的表現(xiàn)。使用Nemenyi檢驗進行事后成對比較(每項評估標準評分采用表示)。采用雙側檢驗,P < 0.05為差異有統(tǒng)計學意義。為確??芍貜托?,所有用于數(shù)據分析和可視化的代碼同樣公開發(fā)布在GitHub平臺(https: //github.com/lichao312214129/code_for_generating_impression)。
2 結 果
2.1 一般資料
本研究分析了300例患者的300份CT和MRI報告,300例患者以中年男性為主,檢查部位以上腹部為主,主要來源于住院部和門診。報告包括164份CT掃描和136份MRI掃描,其中253份為增強檢查。影像學所見部分描述的字數(shù)中位數(shù)為320字?;颊咭话阗Y料見表1。
2.2 5名評估者之間的一致性
所有評估標準顯示評估者間一致性均較高,見圖2。對于ERNIE 4.0生成的結論,至少3/5的評估者評分一致的占比情況:完整性(92.0%),幻覺(100%),準確性(96.0%),表達(96.0%),無修改接受度(94.0%)。對于Claude 3.5 Sonnet生成的結論,至少3/5的評估者評分一致的占比情況:完整性(96.0%),幻覺(100%),準確性(98.0%),表達(100%),無修改接受度(98.0%)。對于放射科醫(yī)師的結論,至少3/5的評估者評分一致的占比情況:完整性(98.0%),幻覺(100%),準確性(100%),表達(100%),無修改接受度(100%)。ERNIE 4.0、Claude 3.5 Sonnet和放射科醫(yī)師在完整性(χ 2 = 12.59,P < 0.01)、幻覺(χ 2 =12.59,P < 0.01)、準確性(χ 2 = 12.24,P < 0.01)、表達(χ 2 = 24.32,P < 0.01)和無修改接受度(χ 2 = 21.58,P < 0.01)5個指標比較差異均有統(tǒng)計學意義。
2.3 性能比較
Nemenyi檢驗顯示,在完整性和無修改接受度方面,ERNIE 4.0的得分低于Claude 3.5 Sonnet和放射科醫(yī)師(P均 = 0.001),后兩者之間比較差異無統(tǒng)計學意義(P均> 0.05)。在準確性方面,放射科醫(yī)師優(yōu)于ERNIE 4.0和Claude 3.5 Sonnet(P均=
0.001)。在幻覺和表達方面,3組表現(xiàn)相似,比較差異均無統(tǒng)計學意義(P均> 0.05),見圖3。
總體而言,Claude 3.5 Sonnet在多個方面的表現(xiàn)與放射科醫(yī)師相當,而ERNIE 4.0在某些領域仍有改進空間。Friedman檢驗顯示幻覺在3組間的差異具有統(tǒng)計學意義,但進一步采用Nemenyi檢驗進行兩兩比較,并未發(fā)現(xiàn)任意2組間的差異具有統(tǒng)計學意義,這可能是由于大多數(shù)幻覺得分為1、分布高度偏斜所致。生成式AI與放射科醫(yī)師在影像學報告生成任務中的表現(xiàn)見表2。
本研究發(fā)現(xiàn)人類醫(yī)師生成的影像學報告也存在“幻覺”現(xiàn)象,即影像學結論包含了影像學所見中未描述的內容。這主要源于放射科報告的審核流程:資深醫(yī)師在審核初級醫(yī)師的報告時,可能發(fā)現(xiàn)初級醫(yī)師遺漏的重要病變,但出于對工作效率的考慮,資深醫(yī)師往往在影像學結論部分直接添加這些內容,而未更新影像學所見部分,導致兩者出現(xiàn)不一致的情況。
ERNIE 4.0和Claude 3.5 Sonnet以及放射科醫(yī)師的結論案例見圖4、5。
3 討 論
本研究比較了2種先進的生成式AI在生成腹部CT和MRI影像學報告方面的表現(xiàn),并與放射科醫(yī)師進行比較。結果表明,Claude 3.5 Sonnet在多個方面達到了與放射科醫(yī)師相當?shù)乃?,而ERNIE 4.0則顯示出有改進空間,尤其是在完整性和無修改接受度方面,ERNIE 4.0的表現(xiàn)劣于Claude 3.5 Sonnet。三者在表達和幻覺方面表現(xiàn)相似。然而在準確性方面,放射科醫(yī)師優(yōu)于Claude 3.5 Sonnet和ERNIE 4.0。上述結果表明了Claude 3.5 Sonnet在生成影像學報告方面具有較強能力,同時也表明當前由生成式AI生成影像學報告應在放射科醫(yī)師的監(jiān)督下完成。
Claude 3.5 Sonnet的表現(xiàn)在某些方面優(yōu)于ERNIE 4.0,這可能歸因于訓練數(shù)據、模型架構或每個模型的提示工程效果的差異。這凸顯了將AI應用于放射學時模型選擇和優(yōu)化的重要性[20, 23]。
本研究的結果不僅驗證了既往研究的部分發(fā)現(xiàn),還在多個方面拓展了現(xiàn)有的認知范圍。與Sun等[13]的研究結果不同,本研究顯示,在多個評估維度上,先進的AI模型能夠生成與放射科醫(yī)師質量相當?shù)慕Y論,這一差異可能與AI模型在性能上的提升以及本研究采用了更復雜的提示工程技術有關。與Nakaura等[16]的研究相比 ,本研究進行了更全面的評估,Nakaura等僅納入具有典型影像學特征的28份報告,而本研究的影像學報告涵蓋了更廣泛的疾病類型,不限于典型特征。這種方法更有助于評估AI在處理各種復雜和不同表現(xiàn)形式病例時的性能。
本研究所用方法更接近Ziegelmayer等[18]的建議,強調專業(yè)放射科醫(yī)師評估在評價AI生成內容方面的重要性。與Gundogdu等[17]主要依賴自動化指標的研究相比,本研究進行了更具臨床相關性的評估。此外,本研究在樣本規(guī)模和影像學模態(tài)多樣性方面具有顯著優(yōu)勢,涵蓋了大量CT和MRI檢查結果。這種研究設計不僅增強了統(tǒng)計分析的可靠性,還有助于全面評估AI模型在處理不同解剖復雜度和成像模態(tài)時的性能。通過這種多維度的分析方法,本研究深入探討了2種生成式AI在應對腹部影像學報告中各類挑戰(zhàn)時的能力,從而提供了更為細致和全面的見解。
本研究存在一定局限性。首先,作為單中心研究,本研究結果的泛化性可能有限,需要多中心研究來驗證這些結果在不同臨床環(huán)境中的適用性。其次,本研究專注于腹部影像學報告,可能無法反映AI在其他檢查部位的表現(xiàn),未來的研究應擴展至更全面的人體檢查部位。第三,雖然本研究的評估標準較全面,但開發(fā)更細化的指標可能更有助于對AI模型在特定臨床環(huán)境中的表現(xiàn)進行深入分析。最后,未來應開展縱向研究,以評估AI模型在臨床實踐中的整合對放射科醫(yī)師診斷的準確性、工作效率以及患者臨床結局的長期影響。
本研究結果表明,生成式AI在放射學工作流程中展現(xiàn)出顯著潛力,有望成為一種有價值的輔助工具。本研究也揭示了一些需要進一步優(yōu)化和改進的部分。隨著AI技術的持續(xù)發(fā)展,將其有效整合到放射學臨床實踐中可能會顯著提升工作效率,并有望改善患者的管理質量。未來在放射學領域融入AI模型時,應著重關注放射科醫(yī)師與AI模型協(xié)作模式的構建,而非單純追求技術替代。這種協(xié)作應充分發(fā)揮AI的計算能力和放射科醫(yī)師的臨床經驗,以此優(yōu)化診斷流程,提高整體診斷的準確性和效率。此外,還需要進行更多的前瞻性研究,以評估AI技術輔助診斷在實際臨床環(huán)境中的長期效果和影響。
參 考 文 獻
[1] MASKELL G. Why does demand for medical imaging keep
rising[J]. BMJ, 2022, 379: o2614.DOI: 10.1136/bmj.o2614.
[2] LAI A Y T. The growing problem of radiologist shortage: Hong Kong’s perspective[J]. Korean J Radiol, 2023, 24(10): 931-
932. DOI: 10.3348/kjr.2023.0838.
[3] RAWSON J V, SMETHERMAN D, RUBIN E. Short-term strategies for augmenting the national radiologist workforce[J].
AJR Am J Roentgenol, 2024, 222(6): e2430920.DOI:10.2214/ajr.24.30920.
[4] VOSSHENRICH J, BRANTNER P, CYRIAC J, et al. Quantifying radiology resident fatigue: analysis of preliminary reports[J]. Radiology, 2021, 298(3): 632-639.DOI:10.1148/radiol.2021203486.
[5] ALEXANDER R, WAITE S, BRUNO M A, et al. Mandating limits on workload, duty, and speed in radiology[J]. Radiology,2022, 304(2): 274-282. DOI: 10.1148/radiol.212631.
[6] 許溪, 康寧, 羅敏婷, 等. 人工智能在兒童耳鼻咽喉頭頸外科中應用的系統(tǒng)綜述[J]. 新醫(yī)學, 2024, 55(7): 497-505. DOI: 10.3969/j.issn.0253-9802.2024.07.002.
XU X, KANG N, LUO M T, et al. Application of artificial intelligence in pediatric otolaryngology-head and neck surgery: a systematic review[J]. J New Med, 2024, 55(7): 497-505. DOI: 10.3969/j.issn.0253-9802.2024.07.002.
[7] 諸露冰, 汪建華. 醫(yī)學影像人工智能在胰腺癌精準診療中的研究進展[J]. 新醫(yī)學, 2024, 55(3): 153-158. DOI: 10.3969/j.issn.0253-9802.2024.03.001.
ZHU L B, WANG J H. Research progress on medical imaging-based artificial intelligence in precision diagnosis and treatment of pancreatic cancer[J]. J New Med, 2024, 55(3): 153-158. DOI: 10.3969/j.issn.0253-9802.2024.03.001.
[8] BHAYANA R. Chatbots and large language models in radiology: a practical primer for clinical and research applications[J]. Radiology, 2024, 310(1): e232756. DOI: 10.1148/radiol.
232756.
[9] MOOR M, BANERJEE O, ABAD Z S H, et al. Foundation models for generalist medical artificial intelligence[J]. Nature, 2023, 616(7956): 259-265. DOI: 10.1038/s41586-023-05881-4.
[10] HASANI A M, SINGH S, ZAHERGIVAR A, et al. Evaluating the performance of Generative Pre-trained Transformer-4(GPT-4) in standardizing radiology reports [J]. Eur Radiol, 2024,
34(6): 3566-3574. DOI: 10.1007/s00330-023-10384-x.
[11] MESE I, TASLICAY C A, SIVRIOGLU A K. Improving radiology workflow using ChatGPT and artificial intelligence[J].
Clin Imaging, 2023, 103: 109993. DOI:10.1016/j.clinimag.
2023.109993.
[12] 秦江濤, 王繼榮, 肖一浩, 等. 人工智能在醫(yī)學領域的應用綜述[J]. 中國醫(yī)學物理學雜志, 2022,39(12): 1574-1578. DOI: 10.3969/j.issn.1005-202X.2022.12.019.
QIN J T, WANG J R, XIAO Y H, et al. Artificial intelligence in medical application: a review[J]. Chin J Med Phys, 2022, 39(12): 1574-1578. DOI: 10.3969/j.issn.1005-202X.
2022.12.019.
[13] SUN Z, ONG H, KENNEDY P, et al. Evaluating GPT4 on impressions generation in radiology reports[J]. Radiology,2023, 307(5): e231259.DOI: 10.1148/radiol.231259.
[14] RAY P P.The need to re-evaluate the role of GPT-4 in generating radiology reports[J]. Radiology, 2023, 308(2): e231696. DOI: 10.1148/radiol.231696.
[15] MA C, WU Z, WANG J, et al. An iterative optimizing framework for radiology report summarization with ChatGPT[J].
IEEE Trans Artif Intell, 2024, 5(8): 4163-4175. DOI: 10.1109/TAI.2024.3364586.
[16] NAKAURA T, YOSHIDA N, KOBAYASHI N, et al. Preliminary assessment of automated radiology report generation with generative pre-trained transformers: comparing results to radiologist-generated reports[J]. Jpn J Radiol, 2024, 42(2): 190-200. DOI: 10.1007/s11604-023-01487-y.
[17] GUNDOGDU B, PAMUKSUZ U, CHUNG J H, et al. Customized impression prediction from radiology reports using BERT and LSTMs[J]. IEEE Trans Artif Intell, 2021, 4(4): 744-753. DOI: 10.1109/TAI.2021.3086435.
[18] ZIEGELMAYER S, MARKA A W, LENHART N, et al. Evaluation of GPT-4’s chest X-ray impression generation: a reader study on performance and perception[J]. J Med Internet Res, 2023, 25: e50865. DOI: 10.2196/50865.
[19] KIM W. Seeing the unseen: advancing generative AI research in radiology[J]. Radiology, 2024, 311(2): e240935. DOI:10.1148/radiol.240935.
[20] BHAYANA R, NANDA B, DEHKHARGHANIAN T, et al. Large language models for automated synoptic reports and resectability categorization in pancreatic cancer[J]. Radiology, 2024, 311(3): e233117. DOI: 10.1148/radiol.233117.
[21] HARTUNG M P, BICKLE I C, GAILLARD F, et al. How to create a great radiology report[J]. Radiographics, 2020,
40(6): 1658-1670. DOI: 10.1148/rg.2020200020.
[22] 鐘麗茹,羅娜, 唐文杰. 雙能量CT電子云密度和有效原子序數(shù)在甲狀腺良惡性結節(jié)鑒別診斷中的價值[J]. 新醫(yī)學, 2024, 55(9): 716-721.DOI:10.3969/j.issn.0253-9802.
2024.09.006.
ZHONG L R , LUO N , TANG W J. The value of dual-energy CT electron cloud density and effective atomic number in differential diagnosis of benign and malignant thyroid nodules [J].
J New Med, 2024, 55(9): 716-721.DOI:10.3969/j.issn.
0253-9802.2024.09.006.
[23] FINK M A, BISCHOFF A, FINK C A, et al. Potential of ChatGPT and GPT-4 for data mining of free-text CT reports on lung cancer[J]. Radiology, 2023, 308(3): e231362. DOI:10.1148/radiol.231362.
[24] POLLARD T J, JOHNSON A E W, RAFFA J D, et al. Tableone: an open source Python package for producing summary statistics for research papers[J]. JAMIA Open, 2018, 1(1): 26-31. DOI: 10.1093/jamiaopen/ooy012.
(責任編輯:洪悅民)