王瑞 梁建國(guó) 花嶸
北京大學(xué)學(xué)報(bào)(自然科學(xué)版) 第60卷 第1期 2024年1月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 60, No. 1 (Jan. 2024)
10.13209/j.0479-8023.2023.076
2023–05–18;
2023–07–31
基于多尺度特征解析的放射學(xué)報(bào)告生成方法
王瑞 梁建國(guó) 花嶸?
山東科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院, 青島 266590; ?通信作者, E-mail: huarong@sdust.edu.cn
在使用深度學(xué)習(xí)模型自動(dòng)生成放射學(xué)報(bào)告時(shí), 由于數(shù)據(jù)的極度不平衡, 當(dāng)前的模型難以識(shí)別異常區(qū)域特征, 從而導(dǎo)致對(duì)疾病的錯(cuò)判與漏判。為了提升模型對(duì)疾病的識(shí)別能力, 提高放射學(xué)報(bào)告的質(zhì)量, 提出使用多尺度特征解析 Transformer(MFPT)模型來(lái)生成放射學(xué)報(bào)告。構(gòu)建一個(gè)關(guān)鍵特征強(qiáng)化注意力(KFEA)模塊, 以便加強(qiáng)對(duì)關(guān)鍵特征的利用; 設(shè)計(jì)一個(gè)多模態(tài)特征融合(MFF)模塊, 以便促進(jìn)語(yǔ)義特征與視覺特征的特征融合, 緩解特征差異造成的影響; 探索階段感知(SA)模塊在放射學(xué)報(bào)告任務(wù)中對(duì)初級(jí)特征的優(yōu)化作用。最后, 在流行的放射學(xué)報(bào)告數(shù)據(jù)集 IU X-Ray 上, 與當(dāng)前的主流模型進(jìn)行對(duì)比實(shí)驗(yàn), 結(jié)果表明, 所提模型取得當(dāng)前最佳 效果。
注意力機(jī)制;特征融合;放射學(xué)報(bào)告;Transformer;圖像–文本生成
圖像描述是一個(gè)涉及自然語(yǔ)言處理和計(jì)算機(jī)視覺的跨模態(tài)任務(wù), 目的是使計(jì)算機(jī)理解圖片的內(nèi)容并對(duì)其生成相應(yīng)的描述[1–9]。在 Huang 等[8]提出的模型中, 注意力模塊通過度量注意力結(jié)果與查詢之間的相關(guān)性來(lái)提升效果, Wang 等[9]利用多特征預(yù)融合的方法來(lái)減少特征偏差造成的特征損失。放射學(xué)報(bào)告的生成任務(wù)由圖像描述任務(wù)衍生而來(lái), 圖 1 為一份來(lái)自 IU X-Ray 數(shù)據(jù)集的放射學(xué)報(bào)告, 其中包含大量關(guān)鍵單詞和初級(jí)單詞。關(guān)鍵單詞主要由醫(yī)學(xué)專業(yè)單詞構(gòu)成, 初級(jí)單詞主要由描述關(guān)鍵單詞的形容詞組成。模型對(duì)關(guān)鍵特征和初級(jí)特征的解析能力將直接影響這兩種單詞的預(yù)測(cè)準(zhǔn)確度, 從而影響報(bào)告的質(zhì)量。與普通圖片相比, 放射學(xué)圖片具有相似度高以及數(shù)據(jù)不平衡等特點(diǎn), 因此, 現(xiàn)有的圖像描述模型不能很好地適用放射學(xué)報(bào)告自動(dòng)生成任務(wù), 研究人員開始針對(duì)放射學(xué)報(bào)告生成的特點(diǎn)進(jìn)行相應(yīng)的研究[10–16]。
單下劃線標(biāo)注的單詞代表初級(jí)單詞, 加粗的單詞表示關(guān)鍵單詞
Liu 等[10]首先預(yù)測(cè)醫(yī)學(xué)單詞, 然后有條件地生成與這些單詞關(guān)系密切的單詞來(lái)生成報(bào)告。這種方法過度依賴醫(yī)學(xué)單詞的預(yù)測(cè)準(zhǔn)確度, 導(dǎo)致其仍然具有一定的限制性。Jing 等[11]提出使用標(biāo)簽特征來(lái)緩解關(guān)鍵特征和初級(jí)特征的損失, 但是忽略了對(duì)標(biāo)簽數(shù)量的學(xué)習(xí), 致使模型引入新的特征偏差。Zhang等[12]通過構(gòu)建醫(yī)學(xué)知識(shí)圖, 使模型能夠了解不同疾病之間的關(guān)聯(lián), 從而提高對(duì)關(guān)鍵單詞預(yù)測(cè)的準(zhǔn)確度。但是, 他們未使用 Transformer 框架作為解碼器, 并且沒有考慮初級(jí)單詞的生成, 致使關(guān)鍵單詞與初級(jí)單詞之間的依賴關(guān)聯(lián)性不足以滿足任務(wù)的需要。Song 等[13]使用一種新的方法來(lái)提升對(duì)關(guān)鍵單詞和初級(jí)單詞的預(yù)測(cè)精度, 將輸入圖片與正常圖片進(jìn)行對(duì)比, 學(xué)習(xí)兩者之間的差距, 提升模型對(duì)疾病的預(yù)測(cè)能力。但是, 該方法隨機(jī)提取的正常圖片特征不可避免地與輸入的正常圖片特征有所差別, 導(dǎo)致模型對(duì)疾病的判斷能力下降, 影響報(bào)告的整體質(zhì)量。
模型對(duì)語(yǔ)義特征和視覺特征之間的多模態(tài)特征解析能力直接影響能否生成結(jié)構(gòu)合適的報(bào)告。最近, 針對(duì)生成放射學(xué)報(bào)告任務(wù)的多模態(tài)模型研究取得一定的進(jìn)展。Chen 等[14]提出一個(gè)跨模態(tài)記憶模塊, 加強(qiáng)了模型對(duì)文本與圖像之間映射關(guān)系的學(xué)習(xí)。Chen 等[15]設(shè)計(jì)一個(gè)具有記憶功能的內(nèi)存模塊和一個(gè)基于內(nèi)存模塊的歸一化層來(lái)學(xué)習(xí)不同時(shí)期的多模態(tài)特征依賴關(guān)系, 使模型能生成結(jié)構(gòu)合適的放射學(xué)報(bào)告。上述研究未對(duì)關(guān)鍵特征和初級(jí)特征進(jìn)行優(yōu)化處理, 導(dǎo)致模型對(duì)圖像特征的理解不夠充分, 從而影響模型對(duì)疾病的預(yù)測(cè)能力。You 等[16]提出Align Hierarchical Attention (AHA)模塊來(lái)對(duì)齊標(biāo)簽語(yǔ)義特征和視覺特征, 但沒有針對(duì)單詞語(yǔ)義特征與視覺特征之間的差異進(jìn)行優(yōu)化, 導(dǎo)致生成的報(bào)告質(zhì)量未達(dá)到預(yù)期。
為了加強(qiáng)模型的特征解析能力, 緩解多模態(tài)特征之間的特征差異, 本文提出使用多尺度特征解析Transformer (multi-scale feature parsing Transformer,MFPT)模型來(lái)生成放射學(xué)報(bào)告, 以便減少對(duì)疾病的誤判和錯(cuò)判, 生成更高質(zhì)量的放射學(xué)報(bào)告。本文構(gòu)建了一個(gè) KFEA (key features enhance attention)模塊, 對(duì)關(guān)鍵特征進(jìn)行特征強(qiáng)化, 提高對(duì)關(guān)鍵單詞的預(yù)測(cè)準(zhǔn)確性。設(shè)計(jì)一個(gè) MFF (multi-modal feature fusion)模塊, 促進(jìn)語(yǔ)義特征與視覺特征融合, 調(diào)整報(bào)告的結(jié)構(gòu)。本文還探索了 SA (stage awareness)模塊在醫(yī)療報(bào)告領(lǐng)域中對(duì)初級(jí)特征的強(qiáng)化作用。
本研究使用序列到序列(sequence-to-sequence, Seq2Seq)的方法來(lái)自動(dòng)生成放射學(xué)報(bào)告。首先使用視覺提取器, 提取放射學(xué)圖像特征作為初始序列, 編碼解碼后得到最終的報(bào)告:
其中,是提取到的第個(gè)patch特征,是映射的特征向量的大小,表示生成序列中第個(gè)單詞對(duì)應(yīng)的張量,表示生成報(bào)告中的所有單詞的集合。
如圖 2 所示, 本文提出的多尺度特征解析 Trans-former (MFPT)模型由視覺提取器、編碼器和解碼器三部分組成。本文工作主要體現(xiàn)在解碼器中的KFEA 和 MFF 模塊以及編碼器中的 SA 模塊。
圖2 多尺度特征解析Transformer模型整體結(jié)構(gòu)
視覺提取器 本文使用預(yù)訓(xùn)練過的 ResNet-101模型[17]作為視覺提取器來(lái)提取視覺特征, 如式(3) 所示:
其中,ve代表視覺提取器的提取操作,表示輸入的放射學(xué)圖片所對(duì)應(yīng)的張量空間。
編碼器 本文的編碼器與 Vanilla Transformer的編碼器有所不同, 我們額外使用一個(gè)階段感知模塊來(lái)整合不同編碼器層數(shù)之間的初級(jí)特征。此模塊用下式表示:
其中,e代表編碼器,表示第層編碼器的輸出,表示編碼器最終的輸出, SA 表示階段感知模塊的操作。
解碼器 解碼器的設(shè)計(jì)是在 Vanilla Transformer的解碼器基礎(chǔ)上增加 KFEA 模塊和MFF模塊, 解碼器根據(jù)編碼器的輸出={1,2, …,z}和已經(jīng)預(yù)測(cè)完的單詞序列, 生成下一個(gè)單詞, 計(jì)算過程如下:
其中,表示在第個(gè)時(shí)間步長(zhǎng)預(yù)測(cè)的單詞序列所對(duì)應(yīng)的張量,d表示解碼器,CA表示交叉注意力模塊的輸出。
損失函數(shù) 本文采用與 Chen 等[15]相同的損失函數(shù)來(lái)訓(xùn)練模型, 具體表示為
其中,表示模型的參數(shù)。
受 Zeng 等[18]的啟發(fā), 我們使用 SA 模塊來(lái)減少訓(xùn)練過程中初級(jí)特征的損失。該模塊分為兩步執(zhí)行, 第一步對(duì)不同的編碼層設(shè)置不同的權(quán)重, 如式(8)所示:
式中,表示一個(gè)可調(diào)節(jié)的權(quán)重因子。
傳統(tǒng)的特征融合方法如圖 3 所示, 它使用單一的語(yǔ)義特征作為查詢向量, 直接對(duì)視覺特征進(jìn)行過濾查詢。具體來(lái)說, 首先將目標(biāo)報(bào)告所對(duì)應(yīng)的文本序列送入嵌入層形成語(yǔ)義特征; 然后使用 Masked Multi-Head Attention 模塊對(duì)語(yǔ)義特征進(jìn)行注意力運(yùn)算, 經(jīng) Add&layer Norm 層處理; 最后, 將結(jié)果作為查詢向量輸入交叉注意力模塊中, 與經(jīng)過編碼器的視覺特征進(jìn)行交叉注意運(yùn)算, 從而實(shí)現(xiàn)多模態(tài)的融合。這種方法忽略了視覺特征與語(yǔ)義特征之間的特征差異, 特征融合過程中計(jì)算跨度過大, 限制了模型的推理能力。
圖3 傳統(tǒng)的特征融合方法
如圖 4 所示, 本文提出使用多模態(tài)特征融合模塊來(lái)解決這一問題。該模塊將語(yǔ)義特征和關(guān)鍵的視覺特征作為查詢向量, 幫助模型建立視覺特征與語(yǔ)義特征之間的聯(lián)系。首先提取視覺關(guān)鍵特征, 然后使用多模態(tài)特征融合模塊, 將其與語(yǔ)義特征進(jìn)行預(yù)融合后, 再進(jìn)行傳統(tǒng)的特征融合計(jì)算。計(jì)算公式可表示為
式中, Zm表示視覺關(guān)鍵特征, Mean 表示平均運(yùn)算, H1 表示在執(zhí)行 MFF 模塊過程中的隱藏狀態(tài), ,和表示可訓(xùn)練的投影矩陣, σ代表 Sigmoid激活函數(shù),表示哈達(dá)瑪積, H2 表示 MFF 模塊的輸出, H3 表示交叉注意力模塊的查詢向量, MMSA 表示 Masked Multi-Head Attention 模塊。之后, H3 被輸入交叉注意力模塊中, 生成當(dāng)前的隱藏狀態(tài) H。
以往的研究中大多使用交叉注意力模塊輸出的隱藏狀態(tài), 直接預(yù)測(cè)放射學(xué)報(bào)告, 但由于關(guān)鍵單詞比普通單詞出現(xiàn)頻率低, 導(dǎo)致模型不能生成合適的關(guān)鍵單詞。在進(jìn)行交叉注意力運(yùn)算時(shí), 視覺特征難以滿足關(guān)鍵單詞的查詢要求, 不可避免地?fù)p失了部分關(guān)鍵特征。本文使用 KFEA 模塊, 利用全局特征和突出特征對(duì)上下文特征進(jìn)行注意力計(jì)算, 從而提高對(duì)關(guān)鍵特征的特征利用能力。計(jì)算流程如下:
本文采用廣泛使用的公共放射學(xué)數(shù)據(jù)集 IU X-Ray[19], 其中包括 7470 張胸部 X 光圖像和3955 份報(bào)告。采用與主流模型相同的 7:1:2 的比例劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集。根據(jù)當(dāng)前主流的研究慣例, 去除沒有報(bào)告的圖片, 將所有字母轉(zhuǎn)換為小寫, 并且剔除特殊符號(hào)等影響因素。用 BLEU[20], METE-OR[21]和 ROUGE[22]指標(biāo)來(lái)評(píng)估本文模型。其中, BN表示 N-grams 為時(shí)的 BLEU 指標(biāo)。
我們遵循當(dāng)前主流模型的實(shí)驗(yàn)設(shè)置, 將 Vanilla Transformer 作為 Base 模型。此外, 使用在 Image-Net 1K數(shù)據(jù)集預(yù)訓(xùn)練的 ResNet-101 模型提取網(wǎng)格特征, 多頭注意力機(jī)制的頭數(shù)設(shè)置為 8, 嵌入向量為512。IU X-Ray 數(shù)據(jù)集中包含一個(gè)患者的正面和側(cè)面圖像, 將其合并, 作為視覺提取器的輸入。將每個(gè) epoch 的速率衰減設(shè)置為 0.8, beam size 的大小設(shè)置為 3, 視覺提取器和其他參數(shù)的學(xué)習(xí)率分別設(shè)置為 1×10–4和 5×10–5, batch size 的大小設(shè)置為 32。
將本文提出的模型與當(dāng)前的主流模型 Ada-Att[23], M2Transformer[24], CMCL[25], R2Gen[15],CMN[14], PPKED[26], CA[13]和 GSKET[27]進(jìn)行對(duì)比, 實(shí)驗(yàn)結(jié)果如表 1 所示。與圖像描述模型 AdaAtt[23]和 M2Transformer[24]相比, 本文模型的性能提升明顯, 表明需要為醫(yī)療報(bào)告生成設(shè)計(jì)專用模型。與文獻(xiàn)[13–15,25–27]對(duì)比可知, 本文模型在各項(xiàng)指標(biāo)中均優(yōu)于當(dāng)前主流模型, 表明對(duì)關(guān)鍵特征和初級(jí)特征進(jìn)行強(qiáng)化利用, 對(duì)多模態(tài)特征進(jìn)行預(yù)融合, 有助于生成更可靠的放射學(xué)報(bào)告。
通過消融實(shí)驗(yàn), 對(duì)比 Base 模型與本文模型的效果, 結(jié)果如表 2 所示??梢钥闯? 與 Base 模型相比, 增加每個(gè)模塊后性能都有所提升, 3 種模塊隨機(jī)組合也都能獲得不錯(cuò)的效果。此外, 可以發(fā)現(xiàn) KFEA模塊的提升幅度最大, 證明在沒有引進(jìn)標(biāo)簽特征的情況下, 本文提出的針對(duì)關(guān)鍵單詞優(yōu)化方法獲得良好的效果, 為緩解錯(cuò)判漏判問題提出了新思路。
表1 本文模型和已有模型的自然語(yǔ)言生成指標(biāo)效果對(duì)比(%)
說明: 粗體數(shù)字表示性能最優(yōu), 下同。
表2 Base模型與本文模型的效果比較(%)
在數(shù)據(jù)集 IU X-Ray 上, 對(duì) SA 模塊中新引進(jìn)的超參數(shù)進(jìn)行消融實(shí)驗(yàn), 結(jié)果如表 3 所示。可以發(fā)現(xiàn), 當(dāng)=0.2 時(shí), 綜合指標(biāo)達(dá)到最優(yōu)效果, 超過 0.2后, 各項(xiàng)指標(biāo)小幅度下降。
基于 IU X-Ray 數(shù)據(jù)集, 對(duì)本文模型進(jìn)行復(fù)雜度分析, 結(jié)果如表 4 所示。與 R2Gen 模型[15]相比, 在使用更少參數(shù)的情況下, 本文模型能夠獲得更好的效果。
為了更好地了解本文模型生成的報(bào)告質(zhì)量, 對(duì)一組前胸部和側(cè)面胸部圖像醫(yī)學(xué)案例進(jìn)行測(cè)試分析, 結(jié)果如圖 5 所示。可以看出, 與 Base 模型相比, 本文模型可以生成更多更準(zhǔn)確的關(guān)鍵單詞和初級(jí)單詞, 成功地捕捉到生成影像學(xué)報(bào)告所需要的關(guān)鍵特征和初級(jí)特征, 能夠生成與 Ground-truth 基本上一致的描述。此外, 本文模型生成的報(bào)告明顯長(zhǎng)于Base 模型生成的報(bào)告, 說明本文模型采取的多模態(tài)融合策略更加有效。
本研究提出一個(gè)多尺度特征解析 Transformer (MFPT)的模型。在該模型中, 設(shè)計(jì)了一個(gè)關(guān)鍵特征強(qiáng)化注意力模塊, 構(gòu)建了一個(gè)多模態(tài)特征融合模塊, 集成了一個(gè)階段感知模塊來(lái)生成影像學(xué)報(bào)告。本文模型在提升模型對(duì)關(guān)鍵特征和初級(jí)特征解析能力的同時(shí), 促進(jìn)了語(yǔ)義特征與視覺特征融合, 使得錯(cuò)報(bào)、漏報(bào)問題得到初步解決, 生成的放射學(xué)報(bào)告結(jié)構(gòu)更加合理。但是, 本文模型未對(duì)疾病之間的關(guān)系進(jìn)行學(xué)習(xí), 具有一定的局限性。未來(lái)研究中將嘗試建立并利用疾病關(guān)系知識(shí)圖, 以便加強(qiáng)模型對(duì)疾病之間關(guān)系的理解。
表3 SA模塊中加權(quán)因子 μ的消融結(jié)果(%)
表4 復(fù)雜度分析結(jié)果
Ground-truth 表示人工書寫的報(bào)告, Base 表示基礎(chǔ)模型生成的報(bào)告, Ours 表示本模型生成的報(bào)告。單下劃線標(biāo)注的單詞代表初級(jí)單詞, 加粗的單詞表示關(guān)鍵單詞
[1] Chen X, Fang H, Lin T Y, et al. Microsoft COCO cap-tions: data collection and evaluation server. Computer Science, 2015, 5: 1–7
[2] Anderson P, He X, Buehler C, et al. Bottom-up and top-down attention for image captioning and visual ques-tion answering // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 6077–6086
[3] Vinyals O, Toshev A, Bengio S, et al. Show and tell: a neural image caption generator // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, 2015: 3156–3164
[4] Xu K, Ba J, Kiros R, et al. Show, attend and tell: neural image caption generation with visual attention // Pro-ceedings of the International Conference on Machine Learning. Lille, 2015: 2048–2057
[5] Liu Fenglin, Liu Yuanxin, Ren Xuancheng, et al. Alig-ning visual regions and textual concepts for semantic-grounded image representations // Proceedings of the Annual Conference on Neural Information Processing Systems. Vancouver, 2019: 6847–6857
[6] Liu Fenglin, Ren Xuancheng, Liu Yuanxin, et al. Exp-loring and distilling cross-modal information for image captioning // Proceedings of the International Joint Conference on Artificial Intelligence. Macau, 2019: 5095–5101
[7] Liu Fenglin, Ren Xuancheng, Liu Yuanxin, et al. sim-Net: stepwise image-topic merging network for gene-rating detailed and comprehensive image captions // Proceedings of the Conference on Empirical Methods in Natural Language Processing. Brussels, 2018: 137–149
[8] Huang L, Wang W, Chen J, et al. Attention on attention for image captioning // Proceedings of the IEEE Con-ference on Computer Vision and Pattern Recognition. Long Beach, 2019: 4634–4643
[9] Wang Y, Xu J, Sun Y. End-to-end transformer based model for image captioning // Proceedings of the AAAI Conference on Artificial Intelligence. Online Meeting, 2022: 2585–2594
[10] Liu G, Hsu T M H, McDermott M, et al. Clinically accurate chest X-ray report generation // Proceedings of the Conference on Machine Learning for Healthcare Conference. Ann Arbor, 2019: 249–269
[11] Jing B, Xie P, Xing E. On the Automatic generation of medical imaging reports // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, 2018: 2577–2586
[12] Zhang Y, Wang X, Xu Z, et al. When radiology report generation meets knowledge graph. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34 (7): 12910–12917
[13] Song X, Zhang X, Ji J, et al. Cross-modal contrastive attention model for medical report generation // Pro-ceedings of the 29th International Conference on Com-putational Linguistics. Gyeongju, 2022: 2388–2397
[14] Chen Z, Shen Y, Song Y, et al. Cross-modal memory networks for radiology report generation. Computers & Electrical Engineering, 2022, 98: 1879–0755
[15] Chen Z, Song Y, Chang T H, et al. Generating radio-logy reports via memory-driven transformer // Pro-ceedings of the Conference on Empirical Methods in Natural Language Processing. Online Meeting, 2020: 1439–1449
[16] You D, Liu F, Ge S, et al. Aligntransformer: hierarchi-cal alignment of visual regions and disease tags for medical report generation // Proceedings of the 24th International Conference on Medical Image Computing and Computer Assisted Intervention. Strasbourg, 2021: 72–82
[17] He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition // Pro-ceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, 2016: 770–778
[18] Zeng Pengpeng, Zhang Haonan, Song Jingkuan, et al. S2 transformer for image captioning // Proceedings of the International Joint Conference on Artificial Intel-ligence. Vienna, 2022: 1608–1614
[19] Demner-Fushman D, Kohli M D, Rosenman M B, et al. Preparing a collection of radiology examinations for distribution and retrieval. Journal of the American Me-dical Informatics Association, 2016, 23(2): 304–310
[20] Papineni K, Roukos S, Ward T, et al. BLEU: a method for automatic evaluation of machine translation // Pro-ceedings of the Annual Meeting of the Association for Computational Linguistics. Philadelphia, 2002: 311–318
[21] Denkowski M, Lavie A. Meteor 1.3: automatic metric for reliable optimization and evaluation of machine translation systems // Proceedings of the sixth work-shop on statistical machine translation. Edinburgh, 2011: 85–91
[22] Lin C Y. Rouge: a package for automatic evaluation of summaries // Proceedings of the Workshop on Text Summarization Branches Out (WAS 2004). Barcelona, 2004: 74–81
[23] Lu Jiasen, Xiong Caiming, Parikh D, et al. Knowing when to look: adaptive attention via a visual sentinel for image captioning // Proceedings of the IEEE Con-ference on Computer Vision and Pattern Recognition. Honolulu, 2017: 3242–3250
[24] Cornia M, Stefanini M, Baraldi L, et al. Meshed-memory transformer for image captioning // Procee-dings of the IEEE Conference on Computer Vision and Pattern Recognition. Online Meeting, 2020: 10575–10584
[25] Liu Fenglin, Ge Shen, Wu Xian. Competence-based multimodal curriculum learning for medical report generation // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Online Meeting, 2021: 3001–3012
[26] Liu Fenglin, Wu Xian, Ge Shen, et al. Exploring and distilling posterior and prior knowledge for radiology report generation // Proceedings of the IEEE Confe-rence on Computer Vision and Pattern Recognition. Online Meeting, 2021: 13753–13762
[27] Yang S, Wu X, Ge S, et al. Knowledge matters: chest radiology report generation with general and specific knowledge. Medical Image Analysis, 2022, 80: 102510
Radiology Report Generation Method Based on Multi-scale Feature Parsing
WANG Rui, LIANG Jianguo, HUA Rong?
College of Computer Science and Engineering, Shandong University of Science and Technology, Qingdao 266590; ? Corresponding author, E-mail: huarong@sdust.edu.cn
When using deep learning models to automatically generate radiology reports, due to the extreme imbalance of data, it is difficult for current models to identify abnormal regional features, which leads to misjudgment and missed judgment of the disease. In order to improve the model’s ability to identify diseases and improve the quality of reports, the authors use a multi-scale feature parsing Transformer (MFPT) model to generate radiology reports. Among them, a key feature enhanced attention (KFEA) module is constructed to strengthen the utilization of key features. A multi-modal feature fusion (MFF) module is designed to promote the feature fusion of semantic features and visual features and alleviate the impact caused by feature differences. This paper explores the role of stage-aware (SA) module in optimizing primary features in radiology reporting tasks. Finally, compared with the current mainstream models on the popular radiology report dataset IU X-Ray, the results show that the proposed model has achieved the current best effect.
attention mechanism; feature fusion; radiology report; Transformer; image-text generation