摘 要:自動化的醫(yī)學(xué)影像報告生成可以提高影像醫(yī)生的工作效率。傳統(tǒng)的醫(yī)學(xué)影像報告生成方法大多數(shù)基于判別式和圖像描述生成式,在準(zhǔn)確性、流暢性、多樣性方面存在不足?;诖笳Z言模型微調(diào)的醫(yī)學(xué)影像生成技術(shù)有望改善以上問題。在預(yù)訓(xùn)練多模態(tài)大語言模型基礎(chǔ)上,提出一種判別增強(qiáng)的微調(diào)方法——MedVLM。以影像診斷作為輔助的判別目標(biāo),引入低秩自適應(yīng)微調(diào)法、提示微調(diào)法以及凍結(jié)微調(diào)法,來微調(diào)多模態(tài)大語言模型的特征提取模塊、視覺-語言轉(zhuǎn)換模塊以及大語言模型模塊,使其能夠準(zhǔn)確診斷肺部CT影像的疾病,并生成準(zhǔn)確性更高的肺部CT影像報告。所提方法的BLEU@4得分率為40.85%(40.41%~40.94%),METEOR得分率為70.56%(70.37%~70.8%),生成報告的肺炎診斷準(zhǔn)確率為87.67%(86.06%~87.39%)。顯著超越傳統(tǒng)的圖像描述方法。判別增強(qiáng)大語言模型微調(diào)的醫(yī)學(xué)影像報告生成方法,可以顯著提高肺部CT影像報告生成的準(zhǔn)確性,具有廣泛的應(yīng)用潛力。
關(guān)鍵詞:醫(yī)學(xué)影像報告生成;大語言模型;微調(diào);判別增強(qiáng)
中圖分類號:TP391.1"" 文獻(xiàn)標(biāo)志碼:A"" 文章編號:1001-3695(2025)03-016-0762-08
doi:10.19734/j.issn.1001-3695.2024.08.0303
Medical imaging report generation via multi-modal large language
models with discrimination-enhanced fine-tuning
Qian Qian1,2,Sun Liping1,Liu Jialin1,2,Du Huijiang1,Ling Chen1
(1.College of Medical Instrumentation,Shanghai University of Medicine amp; Health Sciences,Shanghai 201318,China;2.School of Health Sciences amp; Engineering,University of Shanghai for Science amp; Technology,Shanghai 200093,China)
Abstract:Automated medical imaging report generation significantly enhances the work efficiency of radiologists.Most traditional methods for generating medical imaging reports rely on classification or image caption models,which exhibit deficiencies in accuracy,fluency,and diversity.Fine-tuning techniques with large language models are a promising way to address these issues.This paper proposed a discrimination-enhanced fine-tuning method called MedVLM,based on a pre-trained multi-modal large language model.It used classification labels for specific diseases serve as auxiliary targets in fine-tuning.Fine-tuning techniques such as low-rank adaptation,P-Tuning V2,and freeze refined the feature extraction,vision-language conversion,and large language model modules.These approached enable accurate diagnosis of diseases in lung CT images and facilitates the generation of higher-quality reports.MedVLM achieves a BLEU@4 score of 40.85%(range 40.41%~40.94%), an METEOR score of 70.56%(range 70.37%~70.8%),and a pneumonia diagnosis accuracy rate of 87.67%(range 86.06%~87.39%),significantly surpassing traditional image caption methods.The discriminate-enhanced fine-tuning method for large pre-trained multi-modal language models significantly improves the accuracy of lung CT image report generation and demonstrates broad application potential.
Key words:medical imaging report generation;large language model;fine-tuning;discrimination enhancement
0 引言
在臨床上,醫(yī)學(xué)影像報告提供了患者在醫(yī)學(xué)影像中所暴露出癥狀的客觀描述和診斷信息,對患者治療方案的制定有極為重要的意義。醫(yī)學(xué)影像報告的撰寫是放射科醫(yī)生重要的工作,臨床醫(yī)生不僅需要具備專業(yè)的知識和判斷力,還需要對醫(yī)學(xué)影像進(jìn)行細(xì)致觀察,更需要到對患者病史和癥狀的綜合深入理解[1]。然而,放射科醫(yī)生數(shù)量年增長數(shù)量遠(yuǎn)遠(yuǎn)比不上醫(yī)學(xué)影像數(shù)據(jù)的增長量,放射科醫(yī)生缺口較大。醫(yī)院迫切需要智能化的影像分析及報告生成輔助工具來減輕醫(yī)生的負(fù)擔(dān)和壓力,因此醫(yī)學(xué)影像報告生成技術(shù)是當(dāng)前醫(yī)學(xué)人工智能研究的熱點(diǎn)問題。
當(dāng)前,醫(yī)學(xué)影像報告生成方法主要有基于標(biāo)簽或模板的判別式方法、基于圖像描述(image caption)的生成式[2~8]方法,以及基于預(yù)訓(xùn)練多模態(tài)大語言模型的微調(diào)方法[9,10]三類。
判別式方法依賴于結(jié)構(gòu)化、半結(jié)構(gòu)化的標(biāo)簽或模板,該方法原理較為簡單,但不同部位、不同類型的醫(yī)學(xué)影像所對應(yīng)的報告模板數(shù)據(jù)結(jié)構(gòu)差異很大,具體的疾病需要設(shè)計特定的模板,導(dǎo)致靈活性、多樣性缺失?;趫D像描述的生成式方法[2~8]雖然能夠生成自然語言形式的文本報告,但生成影像報告的準(zhǔn)確性有待進(jìn)一步提高。
當(dāng)前,多模態(tài)大預(yù)言模型在跨模態(tài)生成方面的能力廣受關(guān)注。多模態(tài)大語言模型在海量數(shù)據(jù)上以自監(jiān)督方式掌握了通用領(lǐng)域中圖像與文本的語義對齊關(guān)系,通過微調(diào)遷移學(xué)習(xí),能夠充分利用其已有的跨模態(tài)語義理解能力。此外,預(yù)訓(xùn)練大語言模型所輸出的文本更接近自然語言的表達(dá)形式,流暢性和多樣性更好。因此,在醫(yī)學(xué)影像報告生成領(lǐng)域中,基于多模態(tài)大語言模型已有的知識,通過小數(shù)據(jù)集微調(diào),可以提高影像報告生成的準(zhǔn)確性、流暢性、多樣化。此外,預(yù)訓(xùn)練大模型也有極強(qiáng)的可擴(kuò)展性,可以以增量學(xué)習(xí)的方式快速遷移到其他疾病的影像報告生成問題。在撰寫影像報告時,放射科醫(yī)生遵循一套系統(tǒng)化的工作流程,以確保診斷的準(zhǔn)確性和全面性。以胸部CT影像報告撰寫為例:在讀片階段,醫(yī)生會切換不同的窗寬窗位以進(jìn)行CT圖像中特定器官和解剖細(xì)節(jié)的詳細(xì)觀察。在肺窗和軟組織窗下,醫(yī)生檢查肺部及軟組織的影像特征,尋找解剖結(jié)構(gòu)的異常,推斷出潛在的病變。最終通過讀片所獲取的異常以及人工判別的病變信息,撰寫出詳盡的影像報告,最終得出影像結(jié)論,如圖1所示。
在影像報告撰寫過程中,臨床醫(yī)生會對發(fā)現(xiàn)的特定解剖結(jié)構(gòu)異常進(jìn)行潛在病變的判別。這個判別過程存在相關(guān)關(guān)系:詳細(xì)的影像異??梢酝茖?dǎo)出可能的病變,而可能的病變又可以反推其影像異常。因此,融入對影像中病變信息的診斷判別,能夠更有效地理解影像異常與潛在病變之間的關(guān)系。該思路應(yīng)用到影像報告生成的大模型中,可以使大模型更精確地識別影像異常,進(jìn)而提供更為準(zhǔn)確的病變信息,從而提升所生成的影像報告的準(zhǔn)確性。
為提高自動化生成影像報告的準(zhǔn)確性,本文借鑒了臨床醫(yī)生的工作流程,提出了一種基于判別增強(qiáng)的大語言模型微調(diào)方法MedVLM(medical vision language model),應(yīng)用于肺部CT影像報告生成。MedVLM基于開源的VisualGLM-6B架構(gòu),使用小規(guī)模胸部CT影像報告數(shù)據(jù)進(jìn)行微調(diào)。在胸部CT影像報告生成任務(wù)上取得了較好的結(jié)果。簡而言之,本文的主要貢獻(xiàn)如下:
a)提出了一種基于微調(diào)多模態(tài)大語言模型的影像報告生成方法MedVLM。該方法基于開源的VisualGLM-6B模型,引入LoRA等參數(shù)高效微調(diào)方法,對影像特征提取模塊、視覺-語言轉(zhuǎn)換模塊,以及語言模型模塊進(jìn)行微調(diào),并比較不同模塊微調(diào)的效果。
b)借鑒臨床醫(yī)生的工作過程,利用影像報告生成和影像診斷任務(wù)之間的相關(guān)性,在多模態(tài)大語言模型VisualGLM-6B的影像特征提取模塊和視覺-語言轉(zhuǎn)換模塊之間融入影像診斷的判別增強(qiáng)模塊,利用判別任務(wù)來約束生成任務(wù),提高影像報告生成的準(zhǔn)確性,同時增強(qiáng)了大語言模型的影像診斷能力。
c)實(shí)驗(yàn)中,基于臨床的700多條胸部“CT影像-報告文本”的成對標(biāo)簽數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)。結(jié)果顯示,融入判別增強(qiáng)模塊后,VisualGLM-6B生成的胸部CT報告在文本生成評估指標(biāo)(BLEU、METEOR)上有較大幅度的提升。同時,影像報告中對于胸部CT影像中肺炎診斷結(jié)論的準(zhǔn)確率也有顯著提高。
1 相關(guān)工作
早期,醫(yī)學(xué)影像報告生成的目標(biāo)文本大多是結(jié)構(gòu)化或半結(jié)構(gòu)化的模板或標(biāo)簽,而非自然文本。Kisilev等人[11]使用支持向量機(jī)(support vector machine,SVM)來預(yù)測醫(yī)學(xué)影像的屬性。Shin等人[12]采用基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)與循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的框架來預(yù)測胸部X射線圖像的標(biāo)簽(例如位置、嚴(yán)重程度等)。雖然結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)更容易被算法程序理解和判別,但其可能在某一種特定身體部位的醫(yī)學(xué)影像中適用,而在另一種模態(tài)的醫(yī)學(xué)影像或不同身體部位上失效。需要重新設(shè)計新的模板,也需要重新訓(xùn)練模型。因此,生成的影像報告靈活性、多樣性較差。
隨著深度生成模型的發(fā)展[13,14],圖像描述(image caption)[15,16]技術(shù)被引入醫(yī)學(xué)影像報告生成問題。大量工作采用了其典型工作的編碼器-解碼器架構(gòu)。Jing等人[2]通過CNN提取對應(yīng)影像的特征圖,并通過一個分層的長短時記憶網(wǎng)絡(luò)(long short-term memory network,LSTM)作為解碼器來生成影像報告。Wang等人[3]提出了基于CNN-RNN變體的報告生成網(wǎng)絡(luò)TieNet,該網(wǎng)絡(luò)融入了多級注意力來突出顯示有意義的文本單詞和圖像區(qū)域來幫助生成報告。為了進(jìn)一步提高模型生成報告的準(zhǔn)確性,一些工作采用了Transformer來替代LSTM網(wǎng)絡(luò)。Chen等人[4]通過改進(jìn)Transformer,在Transformer中增加能夠記錄關(guān)鍵信息的模塊以增強(qiáng)報告生成網(wǎng)絡(luò)的性能。Wang等人[17]在每層視覺Transformer編碼器中加入了多個專家token來學(xué)習(xí)關(guān)注不同的影像區(qū)域,通過添加正交損失來使得每個專家token捕獲可靠并且互補(bǔ)的視覺信息,最終使得生成效果提升。除了對神經(jīng)網(wǎng)絡(luò)地基礎(chǔ)單元進(jìn)行改進(jìn),通過融入內(nèi)部或外部的額外信息也能有效提升生成報告的質(zhì)量。Li等人[18]通過融入外部醫(yī)學(xué)教材知識來提高生成報告的準(zhǔn)確性。Yang等人[19]在模型中加入了一個可訓(xùn)練的知識庫組件來使得模型能夠更好地學(xué)習(xí)有利于報告生成的影像學(xué)知識。Tanida等人[20]使用目標(biāo)檢測技術(shù)提取解剖區(qū)域的視覺特征,使得模型能夠生成針對每個解剖區(qū)域的獨(dú)立描述句子,從而實(shí)現(xiàn)報告的完整性和一致性。除此之外,也有一些研究采用強(qiáng)化學(xué)習(xí)的方式來訓(xùn)練生成模型。Li等人[21]結(jié)合了檢索和生成報告的模型架構(gòu),模型在檢索和生成的報告片段之間進(jìn)行選擇并拼接成為完整的報告,并通過強(qiáng)化學(xué)習(xí)來進(jìn)行訓(xùn)練。Xu等人[22]融合了可以學(xué)習(xí)多維高階特征交互的M-Linear注意力模塊,并采用強(qiáng)化學(xué)習(xí)來生成影像報告。
總的來看,在醫(yī)學(xué)影像報告生成領(lǐng)域,缺乏大量有標(biāo)簽的公開訓(xùn)練數(shù)據(jù)。其次,基于深度生成式方法在通用數(shù)據(jù)集上學(xué)習(xí)到的圖像特征和解碼模式,因?yàn)槠鋮?shù)量較小的原因,這些圖像特征和解碼模式在應(yīng)對數(shù)據(jù)偏移量較大的醫(yī)學(xué)影像數(shù)據(jù)中表現(xiàn)不佳。再次,由于成像方法和人體組織本身的原因,不同檢測者的同一種醫(yī)學(xué)影像具有高度的相似性,描述正常區(qū)域的句子可能會在每個數(shù)據(jù)集中重復(fù)出現(xiàn),這會導(dǎo)致模型無法描述特定的關(guān)鍵異常。
為了解決傳統(tǒng)深度生成式的影像生成報告方法的不足,微調(diào)預(yù)訓(xùn)練大模型的影像報告生成方法被提出。Zhou [23]發(fā)現(xiàn)大模型如ChatGPT可以生成連貫、全面和臨床相關(guān)的醫(yī)療報告,但也存在局限性,缺乏對影像數(shù)據(jù)的處理手段,后續(xù)工作彌補(bǔ)了該缺陷。CLIP(contrastive language-image pre-training)[24]利用對比學(xué)習(xí)方法和大量圖像-文本對數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,使得模型能夠?qū)D片與其描述文字相匹配。Endo等人[10]使用預(yù)訓(xùn)練的CLIP模型,在大型數(shù)據(jù)集的多個報告中檢索句子來生成影像報告,取得了較好的效果。此外,BLIP(bootstrapping language-image pre-training)[25]使用了多目標(biāo)訓(xùn)練的方法,融合對比學(xué)習(xí)、圖像文本匹配和掩碼語言建模三個不同的目標(biāo)損失進(jìn)行訓(xùn)練,在圖像描述任務(wù)中取得了更好的性能。Li等人[26]在BLIP的基礎(chǔ)上提出了BLIP-2。通過將提取的圖像特征對齊到凍結(jié)的大語言模型的輸入空間,利用預(yù)訓(xùn)練大語言模型強(qiáng)大的零樣本學(xué)習(xí)能力來進(jìn)行推理,在幾個不同的下游任務(wù)上表現(xiàn)出了不錯的效果。Selivanov等人[27]通過結(jié)合大語言模型和傳統(tǒng)生成式模型,在醫(yī)療影像報告生成任務(wù)上取得了較好的性能。智譜清言團(tuán)隊(duì)使用來自于CogView數(shù)據(jù)集[28]的30 M高質(zhì)量中文圖文對,與300 M經(jīng)過篩選的英文圖文對進(jìn)行預(yù)訓(xùn)練,得到了視覺語言大模型VisualGLM,該模型在中文圖像和語料數(shù)據(jù)上表現(xiàn)優(yōu)異。在影像報告生成任務(wù)中,Wang等人[9]使用高效的視覺對齊模塊將卷積層抽取的視覺特征與大型語言模型的詞嵌入空間對齊,生成相應(yīng)的放射科影像報告。以上研究表明,基于多模態(tài)大語言模型微調(diào)的方法在醫(yī)學(xué)影像報告生成領(lǐng)域具有很大的優(yōu)勢。
2 方法:判別增強(qiáng)的微調(diào)
2.1 模型結(jié)構(gòu)
2.1.1 整體結(jié)構(gòu)
本文提出的影像診斷報告生成模型(MedVLM)包括影像特征提取模塊、判別增強(qiáng)模塊、圖像-語言轉(zhuǎn)換模塊和大語言模型模塊,如圖2所示。在模型推理過程中,CT影像首先通過影像特征提取層,獲得對應(yīng)的影像特征;其次,影像特征在判別增強(qiáng)模塊中融入相應(yīng)的判別標(biāo)簽信息,變?yōu)槿诤咸卣?;再次,視覺-語言轉(zhuǎn)換模塊將融合特征轉(zhuǎn)換為大語言模型所能接收的文本向量,并與預(yù)設(shè)的文本提問拼接;最后,大語言模型模塊接收輸入,最終生成相應(yīng)的影像報告。
圖中淡綠色背景的虛線框內(nèi)為模型的主要微調(diào)模塊,它們所使用的微調(diào)方法在其上方進(jìn)行了標(biāo)注;藍(lán)色背景的模型塊在實(shí)際訓(xùn)練中不會更改其參數(shù);黃色背景的模型塊在部分微調(diào)過程中,會改變其參數(shù);紅色背景是新增模塊——判別增強(qiáng)模塊(見電子版)。本文所做的主要創(chuàng)新工作在判別增強(qiáng)模塊,具體細(xì)節(jié)將在3.2節(jié)展示。
2.1.2 大語言模型
MedVLM使用的大語言基座模型是ChatGLM-6B,它是一個開源的、支持中英雙語的對話語言模型,具有62億參數(shù)。ChatGLM-6B的文本生成性能在6B大小的中文大語言模型中有較好的表現(xiàn)。大語言模型接收文本編碼作為輸入,輸出文本概率值。輸入的文本編碼由兩部分組成:一部分由文本提問根據(jù)大語言模型的詞匯表轉(zhuǎn)換而來;另一部分由融合特征通過視覺-語言轉(zhuǎn)換模塊轉(zhuǎn)換而來。在訓(xùn)練中,生成文本的概率值與真實(shí)影像報告計算交叉熵?fù)p失并更新模型參數(shù),在推理過程中,文本概率值通過查閱大語言模型的詞匯表得到影像報告。為了使生成的文本更加符合下游任務(wù)——影像報告生成任務(wù)需要對大語言模型進(jìn)行微調(diào),MedVLM分別采用了低秩自適應(yīng)微調(diào)法、提示微調(diào)法和凍結(jié)微調(diào)法。由于預(yù)訓(xùn)練大模型的前幾層主要學(xué)習(xí)到的是前一個模塊輸出的特征表示,而后幾層則是用于特定下游任務(wù)的特征表示,所以主要的微調(diào)工作聚焦于ChatGLM-6B的第0和14層,即首層和尾層。
2.1.3 影像特征提取
影像特征提取模塊采用預(yù)訓(xùn)練的視覺Transformer來提取影像特征,其權(quán)重來自于EVA-ViT-G[29]。原始視覺Transformer是在通用領(lǐng)域圖像數(shù)據(jù)集訓(xùn)練的,因此其在提取醫(yī)學(xué)影像領(lǐng)域相關(guān)圖像特征時效果不佳。為更有效地提取醫(yī)學(xué)影像領(lǐng)域相關(guān)的特征圖,以便提高影像報告生成質(zhì)量,本文對其進(jìn)行凍結(jié)法微調(diào)。在特征提取模型中,越接近輸出層的模塊,輸出越低級的圖像特征。為了使這些最基礎(chǔ)的圖像特征表示能夠更適配醫(yī)學(xué)影響領(lǐng)域,對其最后一層視覺Transformer進(jìn)行凍結(jié)法微調(diào),以在通用領(lǐng)域訓(xùn)練的基礎(chǔ)上獲得更接近醫(yī)學(xué)影像領(lǐng)域的特征圖。
2.1.4 視覺-語言轉(zhuǎn)換
MedVLM采用VisualGLM自帶的query-Transformer作為視覺-語言轉(zhuǎn)換模塊,該模塊的主要功能是將輸入的影像特征對齊為大語言模型可以處理的文本嵌入。query-Transformer來自于BLIP-2[26]提出的架構(gòu),由Transformer和可學(xué)習(xí)的查詢矩陣Q組成,查詢矩陣Q可以學(xué)習(xí)到視覺特征和語言特征之間的特定關(guān)系,因此通過訓(xùn)練查詢矩陣Q的參數(shù)可以縮小視覺特征與語言特征之間的差距。它是影像報告生成模型的重要橋梁,若影像特征能夠有效對齊為語言模型能夠理解的文本特征,生成的影像報告準(zhǔn)確性能夠大幅提升??紤]到其重要性,及其相比其他模塊而言較小的參數(shù)量,在訓(xùn)練過程中,使用凍結(jié)法微調(diào)其全部參數(shù)。
2.2 判別增強(qiáng)模塊
受Conditional-GAN[30]等方法的啟發(fā),MedVLM將影像的分類標(biāo)簽作為判別目標(biāo),增加判別增強(qiáng)模塊。通過該方法,使得生成的影像報告能夠更加符合疾病診斷的預(yù)期,能夠更加貼近真實(shí)的疾病狀況。圖3為判別增強(qiáng)模塊的具體細(xì)節(jié),該模塊接收影像特征作為輸入,影像特征通過預(yù)訓(xùn)練的影像分類標(biāo)簽判別模塊,將醫(yī)學(xué)影像特征轉(zhuǎn)換為分類標(biāo)簽,再通過標(biāo)簽嵌入層將分類標(biāo)簽轉(zhuǎn)換為標(biāo)簽嵌入,與原始影像特征進(jìn)行特征拼接,并輸入至投影層進(jìn)行維度變換,最終輸出與原影像特征維度一致的融合特征。判別模塊由全連接層和激活函數(shù)層組成,其參數(shù)在微調(diào)過程中固定。
判別增強(qiáng)模塊的影像分類標(biāo)簽判別模塊由全連接層和激活函數(shù)層組成。在訓(xùn)練過程中,該判別模塊所接收的影像特征由MedVLM的影像特征提取模塊所抽取,利用了COV-CTR數(shù)據(jù)集進(jìn)行了遷移學(xué)習(xí),最終在驗(yàn)證集上的準(zhǔn)確率為99.32%。在隨后的微調(diào)實(shí)驗(yàn)中,該影像分類標(biāo)簽判別模塊全程凍結(jié)參數(shù),不進(jìn)行調(diào)整,僅利用其提取特征圖中新冠肺炎分類信息的能力。
判別增強(qiáng)模塊通過預(yù)訓(xùn)練醫(yī)學(xué)影像分類器將影像特征轉(zhuǎn)換為分類標(biāo)簽,該標(biāo)簽為是否感染新冠肺炎的二分類標(biāo)簽。隨后將該分類標(biāo)簽融入特征圖中,能夠使得生成的報告更加符合原始報告的數(shù)據(jù)分布,在文本生成指標(biāo)和肺炎診斷準(zhǔn)確率上均有所提升;同時,以分類標(biāo)簽作為判別目標(biāo),能夠使得生成的影像報告更貼近該標(biāo)簽,這意味著文本生成可以通過特定的分類任務(wù)進(jìn)行控制性的生成。
在訓(xùn)練和推理的過程中,預(yù)訓(xùn)練影像分類標(biāo)簽判別模塊的具體運(yùn)算過程包含了一個矩陣乘法、一個矩陣加法和一個激活函數(shù),輸入的影像特征Xfeat通過參數(shù)矩陣Wclf和Bclf得到對應(yīng)的輸出,并使用ReLU激活函數(shù)將其轉(zhuǎn)換為標(biāo)簽概率L,運(yùn)算過程如下:
L=ReLU(Wclf*Xfeat+Bclf)
(1)
隨后標(biāo)簽概率L與標(biāo)簽嵌入層E的參數(shù)矩陣WE相乘,并加上其偏置矩陣BE,轉(zhuǎn)換為條件嵌入ec,并與特征圖Xfeat進(jìn)行拼接,得到整體嵌入e:
ec=L*WE+BE
(2)
e={ec,Xfeat}
(3)
最終通過投影層Proj進(jìn)行維度變換,輸出帶有標(biāo)簽信息的融合特征Xfus,該融合特征隨后將被傳遞至大語言模型模塊中:
Xfus=Proj(e)
(4)
2.3 微調(diào)方法
由于大語言模型的參數(shù)量巨大,全量微調(diào)方法難以實(shí)施,所以,參數(shù)高效微調(diào)技術(shù)應(yīng)運(yùn)而生。參數(shù)高效微調(diào)技術(shù)能固定大部分預(yù)訓(xùn)練參數(shù),僅微調(diào)少量或額外的模型參數(shù),從而顯著減少計算的需求。本文所采用的預(yù)訓(xùn)練權(quán)重來自于VisualGLM。在預(yù)訓(xùn)練階段,模型已經(jīng)通過大量數(shù)據(jù)學(xué)習(xí)到了豐富的語言知識和圖像特征表示。這些預(yù)訓(xùn)練知識可以被有效地應(yīng)用于各種下游任務(wù)。通過僅微調(diào)其部分參數(shù),模型可以在保持預(yù)訓(xùn)練知識的基礎(chǔ)上,快速適應(yīng)特定的下游任務(wù)要求。
MedVLM采用影像特征提取模塊、圖像-語言轉(zhuǎn)換模塊和大語言模型模塊三種參數(shù)高效微調(diào)的方法對模型的不同部分進(jìn)行微調(diào)。其中,在影像特征提取模塊和視覺-語言轉(zhuǎn)換模塊上使用了凍結(jié)微調(diào)法,在大語言模型模塊使用了低秩自適應(yīng)微調(diào)法、提示微調(diào)法和凍結(jié)微調(diào)法。三種微調(diào)方式原理如圖4所示,圖4中的三種微調(diào)策略能夠有效降低需要的顯卡計算資源。圖4(a)為凍結(jié)(freeze)微調(diào)法,該微調(diào)方式包含了凍結(jié)的模型層和可訓(xùn)練的模型層;圖4(b)為低秩自適應(yīng)微調(diào)法(low-rank adaptation,LoRA),該方法通過增加旁路低秩矩陣進(jìn)行微調(diào);圖4(c)為提示微調(diào)法(prompt-tuning V2),該方法通過訓(xùn)練每一層輸入前添加的提示詞前綴來微調(diào)模型。
2.3.1 凍結(jié)微調(diào)
最簡單且行之有效的參數(shù)高效微調(diào)方法便是凍結(jié)部分參數(shù),即凍結(jié)微調(diào)法[9]。在凍結(jié)微調(diào)法中,將模型的權(quán)重分為需要微調(diào)的權(quán)重矩陣θ0和不需要微調(diào)的權(quán)重θ1兩個部分。以線性層為例,模型運(yùn)算可以表示為
2.3.2 提示微調(diào)
Prefix-Tuning[31]對模型增加一小段可訓(xùn)練的虛擬詞向量作為前綴,不需要優(yōu)化整個模型的參數(shù),能夠在下游任務(wù)中得到更好的性能且大幅降低訓(xùn)練的參數(shù)量。Liu等人[32]提出了prompt-tuning方法,通過在輸入層增加一個prompt編碼器對額外增加的虛擬詞向量進(jìn)行編碼學(xué)習(xí),能夠得到更好的輸入詞向量模板;P-tuning V1僅在第一層Transformer層加入prompt編碼器。prompt-tuning V2[33]方法在此基礎(chǔ)上進(jìn)行改進(jìn),將prompt編碼器加入到模型的每一個Transformer層中,使用prompt-tuning V2進(jìn)行微調(diào),使得模型在不同規(guī)模的任務(wù)中性能得到更大提升。
例如要把一篇電影評論x=“了不起的電影!”分類為正面或負(fù)面,大多數(shù)研究者自然會想到在評論中附加一個提示——“它是[MASK]”,并將生成的[MASK]被預(yù)測為好或壞的條件概率作為分類。在這種情況下,提示詞{“它(it)”、“是(is)”、“[MASK]”}都屬于模型的單詞表v,而輸入嵌入序列將為
其中:α為縮放因子;r為降維矩陣降維后的大小,兩者相除作為縮放因子。LoRA微調(diào)時只需通過梯度下降更新B與A。推理時可直接將W0矩陣同BA矩陣合并,就像LoRA模塊不存在一樣。因此這也是LoRA模塊的一個優(yōu)勢,它并不會帶來推理延遲。
3 實(shí)驗(yàn)和結(jié)論
3.1 數(shù)據(jù)集
本文在COV-CTR數(shù)據(jù)集上進(jìn)行模型的訓(xùn)練和評估,該數(shù)據(jù)集在COVID-CT數(shù)據(jù)集[35]的基礎(chǔ)上,增加了放射科醫(yī)生的專業(yè)標(biāo)注,總共包含了726張新冠肺炎CT圖像以及其對應(yīng)的影像所見、影像結(jié)論、匹配的疾病術(shù)語以及新冠肺炎的二分類標(biāo)簽。數(shù)據(jù)集實(shí)例如圖5所示,其中,新冠肺炎陽性的數(shù)據(jù)為335條,陰性數(shù)據(jù)391條。數(shù)據(jù)集被按照8∶2的比例隨機(jī)拆分為訓(xùn)練集和測試集。
圖5所展示的數(shù)據(jù)由肺部CT影像和醫(yī)生撰寫的醫(yī)學(xué)影像報告兩部分組成,每一張CT影像圖對應(yīng)一份醫(yī)學(xué)影像報告。除此之外,每一張CT影像也有對應(yīng)的其他數(shù)據(jù),例如:是否感染了新冠肺炎的二分類標(biāo)簽,本文將該標(biāo)簽用于訓(xùn)練提取標(biāo)簽信息的判別模塊。
3.2 評價指標(biāo)
為了評估每個訓(xùn)練的醫(yī)學(xué)影像報告生成模型的效果,使用文本生成任務(wù)和臨床診斷準(zhǔn)確兩種不同的評估指標(biāo)。
本文采用的文本生成任務(wù)指標(biāo)包括了BLEU和METEOR。BLEU(bilingual evaluation understudy)是雙語評估替補(bǔ)。替補(bǔ)是指代替人進(jìn)行翻譯結(jié)果的評估。盡管這項(xiàng)指標(biāo)是為翻譯而發(fā)明的,但它可以用于評估一組自然語言處理任務(wù)生成的文本。
bleun=∑c∈can∑n-gcountclip(n-g)∑c′∈can∑n-g′count(n-g′)
(11)
神經(jīng)網(wǎng)絡(luò)生成的候選句是can(candidate),給定的標(biāo)準(zhǔn)譯文是ref(reference)。分子上第一個求和符號是統(tǒng)計所有生成的候選句個數(shù);第二個求和符號則是統(tǒng)計在生成的候選句中,長度為n的單詞切片(n-gram,n-g)在標(biāo)準(zhǔn)譯文中出現(xiàn)的個數(shù);分母的第一個求和符號與分子相同,而后一個求和符號則是統(tǒng)計候選句的所有長度為n的單詞切片的個數(shù)。故BLEU指標(biāo)越高,則生成的文本與譯文越相近。
METEOR算法首先計算單個單詞的(1-gram)情況下的準(zhǔn)確率P和召回率R(計算方式與BLEU、ROUGE類似),得到調(diào)和均值F值。
F=(α2+1)PR+αP(α=1)
(12)
METEOR將詞序納入評估范疇,如果生成句子中有很多與參考譯文所匹配的單詞(matched),但這兩個句子的詞序可能有很大的不同,句子被分成很多小的單詞切片(chunks)時才能找到相同的匹配單詞,因此設(shè)立基于詞序變化的罰分機(jī)制,當(dāng)生成的候選句詞序與參考譯文不同時,進(jìn)行適當(dāng)?shù)牧P分,METEOR的懲罰項(xiàng)P通過式(13)得出。
P=γ(chunksmatched)θ(γ=0.5,θ=3)
(13)
最后,METEOR分?jǐn)?shù)通過懲罰項(xiàng)和調(diào)和均值F值計算得出:
Meteor=(1-P)×F
(14)
除此之外,本文通過訓(xùn)練一個單獨(dú)的文本分類模型clfbert來評估報告生成模型的肺炎診斷準(zhǔn)確率(accuracy)。該模型是一個判定新冠肺炎的BERT[36]分類模型。clfbert采用了在大型中文數(shù)據(jù)集上預(yù)訓(xùn)練的bert-base-Chinese參數(shù),在COV-CTR數(shù)據(jù)集上微調(diào),其在訓(xùn)練集和驗(yàn)證集集上分別取得了99.8%和98.6%的準(zhǔn)確率,故將其采用作為肺炎診斷準(zhǔn)確率的判定模型。具體統(tǒng)計肺炎診斷準(zhǔn)確率(accuracy)的計算為
f(x,y)=1 clfbert(x)=y0 clfbert(x)≠y
(15)
Accuracy=∑ni=1f(candidatei,labeli)n
(16)
3.3 訓(xùn)練過程
本文方法MedVLM在PyTorch 2.1.1框架上實(shí)現(xiàn),運(yùn)行服務(wù)器CPU為24核的AMD Ryzen Threadripper 3960X 24-core,內(nèi)存為128 GB。通過一塊顯存為24 GB的NVIDIA RTX4090 GPU加速訓(xùn)練。預(yù)訓(xùn)練大模型微調(diào)6 000個訓(xùn)練步,學(xué)習(xí)率設(shè)置為1E-4,數(shù)據(jù)批量大小為4,并采用了余弦退火學(xué)習(xí)率改變策略,使用Adam優(yōu)化器在交叉熵?fù)p失下進(jìn)行訓(xùn)練。在推理過程中為了消除隨機(jī)性導(dǎo)致的影響,選取了固定的隨機(jī)種子。
其他的對比模型為了能夠得到更好的效果,在訓(xùn)練時用到了更多的訓(xùn)練步;除此之外,因?yàn)槟P碗y以收斂的問題,在訓(xùn)練CNN-Transformer模型時在數(shù)據(jù)集中加入了Flicker8K-CN數(shù)據(jù)進(jìn)行補(bǔ)充。
3.4 實(shí)驗(yàn)結(jié)果
3.4.1 微調(diào)策略比較
表1展示了通過不同微調(diào)手段訓(xùn)練后模型生成影像報告的評估結(jié)果。評估數(shù)值包含了兩個部分,上半部分為全部測試集的均值統(tǒng)計數(shù)據(jù),下半部分為通過使用Bootstrap的重采樣方法,在95%置信水平的條件下所估計的置信區(qū)間。表1顯示對于大語言模型不同模塊微調(diào)的效果有較大的差異??傮w看來,凍結(jié)微調(diào)query-Transformer模塊效果最明顯,這是由于微調(diào)query-Transformer可以更好地將醫(yī)學(xué)影像的語義信息和大語言模型的文本嵌入對齊。此外,增加融入標(biāo)簽信息的判別增強(qiáng)模塊可以全面提高每個模塊的微調(diào)效果。表1也顯示了加入該模塊前后的模型表現(xiàn),通過增加判別增強(qiáng)模塊,雖然在對特征提取層最后一層進(jìn)行凍結(jié)微調(diào)的基礎(chǔ)上融合標(biāo)簽判別模塊,會導(dǎo)致肺炎診斷準(zhǔn)確率略有下降,但幾乎所有的微調(diào)方法都在評估指標(biāo)上有較大提升,特別是在文本生成指標(biāo)上,這表明了增加判別增強(qiáng)模塊對于報告生成任務(wù)有巨大的幫助作用。
除此之外,在對大語言模型進(jìn)行微調(diào)的幾個方法中,利用低秩自適應(yīng)微調(diào)和提示微調(diào)法得到的效果都不是很好,采用凍結(jié)微調(diào)和融入判別增強(qiáng)的方法最好,但是凍結(jié)微調(diào)會導(dǎo)致大語言模型的參數(shù)改變,使其預(yù)訓(xùn)練的部分能力失效,產(chǎn)生不可逆轉(zhuǎn)的災(zāi)難性遺忘,使得大語言模型無法用于其他任務(wù)當(dāng)中,可擴(kuò)展性降低。凍結(jié)微調(diào)視覺Transformer加入判別增強(qiáng)的方法同樣也表現(xiàn)出不錯的結(jié)果,但其肺炎診斷準(zhǔn)確率的指標(biāo)為81.51%(79.67%~81.53%),較加入信息前的準(zhǔn)確率有所下降,這是因?yàn)閮鼋Y(jié)微調(diào)視覺Transformer也會導(dǎo)致災(zāi)難性遺忘,預(yù)訓(xùn)練的醫(yī)學(xué)影像分類器十分依賴于視覺Transformer的輸出特征,但該方法對視覺Transformer的參數(shù)進(jìn)行了調(diào)整,分類器的參數(shù)卻沒有隨之改變。故最終選擇凍結(jié)微調(diào)query-Transformer并加入判別增強(qiáng)的方法作為本文方法(MedVLM)。該方法在本文的四個評估指標(biāo)中取得了最佳的效果,在肺炎診斷準(zhǔn)確率的指標(biāo)上表現(xiàn)最好,為87.67%(86.06%~87.39%)。
3.4.2 與傳統(tǒng)模型比較
本文將Show and Tell[15]、Show Attend and Tell[16]等模型所使用的CNN-RNN與CNN-Transformer的模型結(jié)構(gòu)作為基線模型,并將MedVLM與其進(jìn)行了比較。表2顯示了這些模型在COV-CTR測試數(shù)據(jù)集上的性能。文本生成任務(wù)指標(biāo)和肺炎診斷準(zhǔn)確率的結(jié)果一致表明,通過增加判別模塊來提取標(biāo)簽信息可以幫助影像報告生成,MedVLM可以在醫(yī)學(xué)影像報告生成任務(wù)上比其他基線模型做得更好。
除此之外,微調(diào)預(yù)訓(xùn)練大模型的方法所生成的結(jié)果更加魯棒,其他的模型在小樣本數(shù)據(jù)上進(jìn)行訓(xùn)練或多或少都產(chǎn)生了過擬合或欠擬合的現(xiàn)象。這是因?yàn)閷τ卺t(yī)學(xué)領(lǐng)域來說,算法研究人員難以獲取大量公開的圖像報告對數(shù)據(jù),除此之外,醫(yī)學(xué)影像報告是結(jié)構(gòu)化的、具有大量的模板語言,所以模型從頭開始訓(xùn)練時,模型容易學(xué)到捷徑解,這些捷徑解會十分類似醫(yī)生撰寫報告的模板語句;其次,大量的模板語言、單一的領(lǐng)域也會導(dǎo)致訓(xùn)練模型前構(gòu)建的詞匯表的詞匯量較小,這也會導(dǎo)致生成文本的多樣性銳減,最終也會導(dǎo)致模型的過擬合,產(chǎn)生捷徑解。
在訓(xùn)練CNN-RNN和CNN-Transformer架構(gòu)的兩種模型時,一開始僅采用了COV-CTR數(shù)據(jù)集進(jìn)行訓(xùn)練,CNN-RNN模型學(xué)到了捷徑解,所有測試集圖像數(shù)據(jù)生成的報告均相同;類似地,CNN-Transformer經(jīng)過該數(shù)據(jù)集訓(xùn)練后生成的文本包含了大量詞匯表中的〈unk〉單詞。為了解決數(shù)據(jù)缺少導(dǎo)致的基線模型效果差的問題,本文在COV-CTR數(shù)據(jù)集中加入了Fliker8K-CN數(shù)據(jù)集的全部數(shù)據(jù)來訓(xùn)練基線模型。
大語言模型的參數(shù)是通過范圍廣、數(shù)量大、質(zhì)量高的公開數(shù)據(jù)集訓(xùn)練的,MedVLM通過微調(diào)的方式能夠很好地將大模型的文本生成能力遷移到對應(yīng)的特定領(lǐng)域中,有效避免了過擬合和產(chǎn)生捷徑解的問題。凍結(jié)微調(diào)預(yù)訓(xùn)練大模型的方法Med-VLM以及CNN-Transformer模型的部分影像報告生成效果如圖6所示。
在圖6中,下畫線的句子是與真實(shí)情況中的原始病變相匹配的病變描述。所選的CT切片圖像均來自于測試數(shù)據(jù)集。MedVLM的表現(xiàn)比CNN-Transformer方法更優(yōu),能夠匹配到更多與原始報告相似的描述。除此之外,CNN-Transformer的模型參數(shù)中記錄了一些錯誤的模板信息,例如“縱隔居中”“紋理增強(qiáng)”這種表述。
胸廓對稱,縱隔心影居中,縱隔內(nèi)未見腫大淋巴結(jié)影,雙肺紋理增強(qiáng),雙肺下葉見彌漫分布小圓形低密度影,雙側(cè)胸腔內(nèi)未見異常密度影胸廓對稱,縱隔心影居中,縱隔內(nèi)未見腫大淋巴結(jié)影,雙肺紋理增強(qiáng),雙肺下葉見多發(fā)小結(jié)節(jié)影,其周圍見低密度影;雙側(cè)胸腔內(nèi)未見異常密度影胸廓對稱,縱隔居中,縱隔腫大淋巴結(jié)影,紋理增強(qiáng),下葉見多發(fā)小低密度影,邊緣清楚,支氣管通暢,胸腔內(nèi)未見異常密度影
胸廓對稱,縱隔心影居中,縱隔內(nèi)未見腫大淋巴結(jié)影,雙肺紋理增強(qiáng),雙肺內(nèi)未見異常密度影;葉段支氣管通暢,雙側(cè)胸腔內(nèi)未見異常密度影,增強(qiáng)后肺內(nèi)及縱隔內(nèi)未見異常強(qiáng)化影。胸椎椎板旁見金屬影及其偽影胸廓對稱,縱隔心影居中,縱隔內(nèi)未見腫大淋巴結(jié)影,雙肺紋理增強(qiáng);葉段支氣管通暢,雙側(cè)胸腔內(nèi)未見異常密度影。強(qiáng)化處見金屬影胸廓對稱,縱隔居中,縱隔腫大淋巴結(jié)影,紋理增強(qiáng),內(nèi)未見異常密度影;支氣管通暢,胸腔內(nèi)未見異常密度影,增強(qiáng)后肺內(nèi)及縱隔明確異常強(qiáng)化影
胸廓較對稱,縱隔心影居中,縱隔內(nèi)未見腫大淋巴結(jié)影,雙肺胸膜下見網(wǎng)格影及磨玻璃影,邊緣較模糊,葉段支氣管通暢,雙側(cè)胸腔內(nèi)未見異常密度影胸廓對稱,縱隔心影居中,縱隔內(nèi)未見腫大淋巴結(jié)影,雙肺紋理增強(qiáng),雙肺下葉見網(wǎng)格影及磨玻璃影,邊緣不清;其內(nèi)見多發(fā)低密度影,范圍較廣,其內(nèi)見小低密度影,葉段支氣管通暢,雙側(cè)胸腔內(nèi)未見異常密度影胸廓對稱,縱隔居中,縱隔腫大淋巴結(jié)影,紋理增強(qiáng),下葉胸膜磨玻璃影,邊緣,雙不大,支氣管通暢,胸腔內(nèi)未見異常密度影
3.4.3 問題模板的效果
MedVLM方法中,大語言模型所接收的文本輸入包含了兩部分,即一部分圖像特征轉(zhuǎn)換而來的文本嵌入,另一部分是問題模板的文本嵌入,因此在文本輸入這里可以加入人工設(shè)定的問題模板。文本輸入為
〈img〉[Vec]〈/img〉Q:[Vec]A:
(17)
為了能夠更好地對齊到預(yù)訓(xùn)練大語言模型的語義空間,本文在COV-CTR數(shù)據(jù)集的基礎(chǔ)上增加了對應(yīng)的人工問題模板,如表3所示。通過增加人工問題模板,將該數(shù)據(jù)集構(gòu)建成一個視覺問答(VQA)數(shù)據(jù)集。每一條數(shù)據(jù)的影像所見作為回答(answer),CT影像切片圖作為視覺圖像(visual),從人工問題模板中選取的模板作為問題(question)。式(17)中,被圖像標(biāo)簽〈img〉〈/img〉包圍的[Vec]是MedVLM的影像特征提取模塊、判別增強(qiáng)模塊對CT影像切片圖運(yùn)算后得到的嵌入向量,后續(xù)的Q和A分別代表question和answer,是問題模板的重要組成部分,中間的[Vec]則是問題模板中隨機(jī)抽取的問題經(jīng)過語言模型的分詞器轉(zhuǎn)換而來的詞向量。
增加問題模板,是為了對齊模型預(yù)訓(xùn)練參數(shù)所采用的問答數(shù)據(jù)集的語義空間。為了探究該方法是否有效,在使用問題模板和不使用問題模板的前提下各對MedVLM進(jìn)行了一次實(shí)驗(yàn),具體的實(shí)驗(yàn)結(jié)果如表4所示。表4顯示,MedVLM方法在增加了問題模板后,在所有指標(biāo)上均有所提升,在診斷準(zhǔn)確指標(biāo)上有將近一倍的提升。因此,在訓(xùn)練數(shù)據(jù)當(dāng)中增加問題模板可以使模型的性能有所提升。
4 結(jié)束語
本文提出了一種基于微調(diào)預(yù)訓(xùn)練大模型并融合判別增強(qiáng)的肺部CT影像報告生成方法——MedVLM。MedVLM充分利用了大語言模型的優(yōu)勢,并借鑒了臨床醫(yī)生的工作流程,在模型中融入了影像分類標(biāo)簽判別模塊,利用判別任務(wù)來約束生成任務(wù),使得生成的影像報告更加準(zhǔn)確和流暢。
在實(shí)驗(yàn)過程中,對預(yù)訓(xùn)練多模態(tài)大語言模型的不同模塊進(jìn)行了微調(diào),并新增了影像分類標(biāo)簽判別模塊。凍結(jié)微調(diào)影像特征提取模塊、圖像-語言轉(zhuǎn)換模塊、大語言模型模塊的方法在多個指標(biāo)上分別取得了最好的效果。但是凍結(jié)微調(diào)法會對原始參數(shù)造成影響,這會導(dǎo)致影像特征提取模塊和大語言模型模塊造成災(zāi)難性遺忘,失去其原有的能力。在效果差異較不顯著的情況下,為避免災(zāi)難性遺忘,以及更好地將醫(yī)學(xué)影像的語義信息對齊到大語言模型的文本嵌入,選擇微調(diào)圖像-語言轉(zhuǎn)換模塊的query-Transformer是最好的選擇。
盡管MedVLM方法能夠生成更加準(zhǔn)確和流暢的影像報告,但這項(xiàng)工作仍然有一些不足之處。首先,醫(yī)學(xué)影像報告的價值在于能夠從中提取出相關(guān)的疾病信息,但目前缺乏對疾病信息準(zhǔn)確性的專業(yè)評估手段,因此它所生成的報告未被完全信任;其次,微調(diào)模型時僅采用了單目標(biāo)訓(xùn)練的方法,單目標(biāo)訓(xùn)練可能導(dǎo)致模型對單一目標(biāo)的過度擬合,使得模型在面對多變的實(shí)際情況時缺乏適應(yīng)性和靈活性,多目標(biāo)訓(xùn)練則能夠解決該問題,使得模型更加魯棒。
未來可從以下幾個方面來改進(jìn)MedVLM,進(jìn)一步提高影像報告生成的質(zhì)量:
a)融入信息量更大的先驗(yàn)信息,通過知識圖譜(knowledge graph,KG)或是檢索增強(qiáng)生成(retrieval-augmented generation,RAG)[37]獲得醫(yī)學(xué)影像相關(guān)的額外信息融入生成過程。知識圖譜是一種結(jié)構(gòu)化的語義知識庫,用于以圖結(jié)構(gòu)來表達(dá)實(shí)體之間的關(guān)系,通過知識圖譜能查詢到與特定實(shí)體最相關(guān)的知識;檢索增強(qiáng)生成使用檢索技術(shù)從大量數(shù)據(jù)中找到與當(dāng)前生成文本最相關(guān)的知識。通過這兩種方法,能夠查詢到有效幫助報告生成的醫(yī)學(xué)影像知識,使得模型生成的影像報告受到醫(yī)學(xué)知識的約束,更加準(zhǔn)確和可靠。
b)構(gòu)建醫(yī)學(xué)影像報告生成基準(zhǔn)測試來測驗(yàn)?zāi)P偷男阅?。模型的性能不單單體現(xiàn)于生成單一種類影像報告的準(zhǔn)確性,應(yīng)當(dāng)在多種類影像及其報告上經(jīng)受測驗(yàn),除了肺部CT影像、胸部X射線外,需要構(gòu)建包含乳腺超聲圖、心電圖、腦部核磁共振圖像等影像數(shù)據(jù)的數(shù)據(jù)集來進(jìn)行基準(zhǔn)測試。此外,生成報告的準(zhǔn)確性也不僅體現(xiàn)在客觀指標(biāo)上,除了利用相應(yīng)的生成指標(biāo)來評判影像報告的準(zhǔn)確性,還應(yīng)當(dāng)邀請相關(guān)領(lǐng)域?qū)<襾磉M(jìn)行評分。
c)通過組合圖像文本匹配、圖像文本對比學(xué)習(xí)、文本生成等任務(wù),使用多目標(biāo)的方式來進(jìn)行模型的訓(xùn)練,使得模型更加魯棒,且能夠適用于更多與醫(yī)學(xué)影像相關(guān)領(lǐng)域的任務(wù)。
參考文獻(xiàn):
[1]Goergen S K,Pool F J,Turner T J,et al.Evidence-based guideline for the written radiology report:methods,recommendations and implementation challenges[J].Journal of Medical Imaging and Radiation Oncology,2013,57(1):1-7.
[2]Jing Baoyu,Xie Pengtao,Xing E.On the automatic generation of medical imaging reports[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:2577-2586.
[3]Wang Xiaosong,Peng Yifan,Lu Le,et al.TieNet:text-image embedding network for common thorax disease classification and reporting in chest X-rays[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:9049-9058.
[4]Chen Zhihong,Song Yan,Chang T H,et al.Generating radiology reports via memory-driven transformer[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2020:1439-1449.
[5]Yan Bin,Pei Mingtao,Zhao Meng,et al.Prior guided transformer for accurate radiology reports generation[J].IEEE Journal of Biome-dical and Health Informatics,2022,26(11):5631-5640.
[6]You Di,Liu Fenglin,Ge Shen,et al.AlignTransformer:hierarchical alignment of visual regions and disease tags for medical report generation[M]//de Bruijne M,Cattin Philippe C,Cotin S,et al.Medical Image Computing and Computer Assisted Intervention.Cham:Sprin-ger,2021:72-82.
[7]Zhang Yixiao,Wang Xiaosong,Xu Ziyue,et al.When radiology report generation meets knowledge graph[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:12910-12917.
[8]Li C Y,Liang Xiaodan,Hu Zhiting,et al.Knowledge-driven encode,retrieve,paraphrase for medical image report generation[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence and the 31st Innovative Applications of Artificial Intelligence Conference and the 9th AAAI Symposium on Educational Advances in Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:6666-6673.
[9]Wang Zhanyu,Liu Lingqiao,Wang Lei,et al.R2GenGPT:radiology report generation with frozen LLMs[J].Meta-Radiology,2023,1(3):100033.
[10]Endo M,Krishnan R,Krishna V,et al.Retrieval-based chest X-ray report generation using a pre-trained contrastive language-image model[C]//Proc of Machine Learning for Health.[S.l.]:PMLR,2021:209-219.
[11]Kisilev P,Walach E,Barkan E,et al.From medical image to automatic medical report generation[J].IBM Journal of Research and Development,2015,59(2-3):7.
[12]Shin H C,Roberts K,Lu Le,et al.Learning to read chest X-rays:recurrent neural cascade model for automated image annotation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2497-2506.
[13]Goodfellow I,Pouget-Abadie J,Mirza M,et al.Generative adversarial networks[J].Communications of the ACM,2020,63(11):139-144.
[14]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.New York:ACM Press,2017:6000-6010.
[15]Vinyals O,Toshev A,Bengio S,et al.Show and tell:a neural image caption generator[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3156-3164.
[16]Xu K,Ba J L,Kiros R,et al.Show,attend and tell:neural image caption generation with visual attention[C]//Proc of the 32nd International Conference on Machine Learning.[S.l.]:JMLR.org,2015:2048-2057.
[17]Wang Zhanyu,Liu Lingqiao,Wang Lei,et al.METransformer:radiology report generation by transformer with multiple learnable expert tokens[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023:11558-11567.
[18]Li Mingjie,Liu Rui,Wang Fuyu,et al.Auxiliary signal-guided know-ledge encoder-decoder for medical report generation[J].World Wide Web,2023,26(1):253-270.
[19]Yang Shuxin,Wu Xian,Ge Shen,et al.Radiology report generation with a learned knowledge base and multi-modal alignment[J].Medical Image Analysis,2023,86:102798.
[20]Tanida T,Müller P,Kaissis G,et al.Interactive and explainable region-guided radiology report generation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023:7433-7442.
[21]Li C Y,Liang Xiaodan,Hu Zhiting,et al.Hybrid retrieval-generation reinforced agent for medical image report generation[C]//Proc of the 32nd International Conference on Neural Information Processing Systems.New York:ACM Press,2018:1537-1547.
[22]Xu Zhenghua,Xu Wenting,Wang Ruizhi,et al.Hybrid reinforced medical report generation with M-linear attention and repetition penalty[J].IEEE Trans on Neural Networks and Learning Systems,2023,99:1-15.
[23]Zhou Zeyu.Evaluation of ChatGPT’s capabilities in medical report generation[J].Cureus,2023,15(4):e37589.
[24]Radford A,Kim J W,Hallacy C,et al.Learning transferable visual models from natural language supervision[C]//Proc of the 38th International Conference on Machine Learning.[S.l.]:PMLR,2021:8748-8763.
[25]Li Junnan,Li Dongxu,Xiong Caiming,et al.BLIP:bootstrapping language-image pre-training for unified vision-language understanding and generation[C]//Proc of International Conference on Machine Learning.[S.l.]:PMLR,2022:12888-12900.
[26]Li Junnan,Li Dongxu,Savarese S,et al.BLIP-2:bootstrapping language-image pre-training with frozen image encoders and large language models[C]//Proc of International Conference on Machine Learning.[S.l.]:JMLR.org,2023:article No.814.
[27]Selivanov A,Rogov O Y,Chesakov D,et al.Medical image captioning via generative pretrained transformers[J].Scientific Reports,2023,13(1):4171.
[28]Ding Ming,Yang Zhuoyi,Hong Wenyi,et al.CogView:mastering text-to-image generation via Transformers[C]//Advances in Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2021:19822-19835.
[29]Fang Yuxin,Wang Wen,Xie Binhui,et al.EVA:exploring the limits of masked visual representation learning at scale[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2023:19358-19369.
[30]Dai Bo,F(xiàn)idler S,Urtasun R,et al.Towards diverse and natural image descriptions via a conditional GAN[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2989-2998.
[31]Li X L,Liang P.Prefix-Tuning:optimizing continuous prompts for ge-neration[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2021:4582-4597.
[32]Liu Xiao,Zheng Yanan,Du Zhengxiao,et al.GPT understands,too[J].AI Open,2024,5:208-215.
[33]Liu Xiao,Ji Kaixuan,F(xiàn)u Yicheng,et al.P-Tuning:prompt tuning can be comparable to fine-tuning across scales and tasks[C]//Proc of the 60th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2022:61-68.
[34]Hu J E,Shen Yelong,Wallis P,et al.LoRA:low-rank adaptation of large language models[EB/OL].(2021-06-17).https://arxiv.org/abs/2106.09685.
[35]Zhao Jinyu,Zhang Yichen,He Xuehai,et al.COVID-CT-Dataset:a CT scan dataset about COVID-19[EB/OL].(2020-05-30)[2024-08-04].https://arxiv.org/abs/2003.13865.
[36]Devlin J,Chang M-W,Lee K,et al.BERT:pre-training of deep bidirectional Transformers for language understanding[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2019:4171-4186.
[37]Lewis P,Perez E,Piktus A,et al.Retrieval-augmented generation for knowledge-intensive NLP tasks[C]//Proc of the 34th International Conference on Neural Information Processing Systems.New York:ACM Press,2020:9459-9474.