王 怡 周鑫儀 徐黎明 鄧 丹 冉海濤
女性乳腺癌已成為全球最常見的癌癥之一,早期篩查可有效降低其死亡率[1-2]。超聲因具有成本低、操作便捷、無輻射等優(yōu)點(diǎn),目前已成為篩查乳腺癌的重要工具。但是超聲診斷具有一定主觀性,故解決乳腺癌篩查中的巨大工作量,并提高診斷準(zhǔn)確率,減少漏誤診,成為超聲醫(yī)師面臨的一項(xiàng)重大挑戰(zhàn)。人工智能和深度學(xué)習(xí)在提高乳腺癌篩查效率和準(zhǔn)確性方面具有巨大潛力。圖像描述的深度學(xué)習(xí)方法能夠?qū)⒂?jì)算機(jī)視覺與自然語言處理相結(jié)合,生成描述圖像內(nèi)容的文本信息。圖像描述在自然圖像領(lǐng)域已取得了較大的研究進(jìn)展,這一技術(shù)目前逐漸運(yùn)用于醫(yī)學(xué)領(lǐng)域,使醫(yī)學(xué)圖像描述模型得以設(shè)計(jì)和實(shí)現(xiàn)。本研究首次將改良Transformer模型[3]應(yīng)用于乳腺結(jié)節(jié)超聲報(bào)告自主生成,并對(duì)其可行性進(jìn)行初步探討。
選取2021 年6 月至2022 年10 月我院經(jīng)手術(shù)病理證實(shí)的乳腺結(jié)節(jié)患者832例,均為女性,年齡11~85 歲,平均(42.4±13.6)歲;共1284 個(gè)結(jié)節(jié),其中良性984 個(gè),包括纖維腺瘤590 個(gè)、腺病199 個(gè)、囊腫12 個(gè)、其他良性疾病183個(gè);惡性300個(gè),包括浸潤(rùn)癌253個(gè)、原位癌24 個(gè),其他惡性腫瘤23 個(gè);BI-RADS 2 類13 個(gè)、3 類592個(gè)、4A類379個(gè)、4B類117個(gè)、4C類127個(gè)、5類56個(gè);結(jié)節(jié)最大徑2~100 mm,中位數(shù)13(12)mm;共獲得乳腺結(jié)節(jié)二維超聲圖像1284 張,均以JPG 格式存儲(chǔ)(圖像質(zhì)量>30 kb)。圖像納入標(biāo)準(zhǔn):①圖像清晰,結(jié)節(jié)可識(shí)別;②每張圖像中僅包含1個(gè)結(jié)節(jié)。排除標(biāo)準(zhǔn):①未完整包含目標(biāo)結(jié)節(jié);②結(jié)節(jié)顯示不清晰,不可分辨。為避免不同超聲模式下圖像質(zhì)量不同所造成的偏倚,本研究?jī)H納入二維超聲圖像。本研究經(jīng)我院醫(yī)學(xué)倫理委員會(huì)批準(zhǔn),為回顧性研究故免除患者知情同意。
1.數(shù)據(jù)集采集:使用Philips EPIQ7、EPIQ7C及邁瑞Resona 7T 等彩色多普勒超聲診斷儀,M12L、ML615、L125、L175 線陣探頭,頻率5~17 MHz?;颊呷⊙雠P位,充分暴露胸部,獲取乳腺二維超聲圖像,記錄結(jié)節(jié)大小、形態(tài)等基本特征。收集整理超聲圖像和相應(yīng)的文本報(bào)告構(gòu)建乳腺結(jié)節(jié)數(shù)據(jù)集,為了保證人工智能模型能夠更好地讀取目標(biāo)結(jié)節(jié)的文字描述,分別由具有3年和5年工作經(jīng)驗(yàn)的超聲醫(yī)師對(duì)報(bào)告進(jìn)行規(guī)范整理,并從邊界、邊緣、方向、內(nèi)部回聲、后方回聲特點(diǎn)、鈣化及提示診斷等方面對(duì)每個(gè)乳腺結(jié)節(jié)進(jìn)行描述;此外,其他具有判斷結(jié)節(jié)性質(zhì)的個(gè)性化描述也將記錄在報(bào)告中。為了方便引用,本研究將這一數(shù)據(jù)集命名BND。BND 數(shù)據(jù)集中乳腺結(jié)節(jié)圖像及對(duì)應(yīng)的報(bào)告描述見圖1。為了評(píng)估模型在其他組織中的性能,本研究引入了LGK 數(shù)據(jù)集[4]。LGK 為來自中國(guó)重慶市三級(jí)甲等醫(yī)院的超聲數(shù)據(jù)集,包含6000多張超聲圖像及相應(yīng)的診斷報(bào)告,涵蓋了肝臟、膽囊和腎臟3類臟器的正?;虿∽冑Y料。所有圖像的大小均調(diào)整為360×360像素。
圖1 BND數(shù)據(jù)集中乳腺結(jié)節(jié)超聲圖像、報(bào)告描述及病理結(jié)果
2. 研究方法:本研究基于Meshed-Memory Transformer[3],改良Transformer 模型框架圖如圖2 所示,將超聲圖像作為輸入,經(jīng)過級(jí)聯(lián)編碼器-解碼器結(jié)構(gòu),最終輸出對(duì)應(yīng)的診斷報(bào)告。為了使模型重點(diǎn)關(guān)注圖像病灶區(qū)域,特引入自注意力機(jī)制。具體而言,編碼器負(fù)責(zé)對(duì)輸入圖像中的區(qū)域進(jìn)行處理,解碼器從每個(gè)編碼層的輸出讀取,逐字生成診斷報(bào)告。由于自注意力機(jī)制不能建立圖像區(qū)域之間關(guān)系的先驗(yàn)知識(shí)模型,為了克服這一局限性,本研究利用記憶增強(qiáng)注意算子,同時(shí)擴(kuò)展自注意力機(jī)制中的鍵和關(guān)鍵值,從而編碼先驗(yàn)信息。在視覺編碼器中,圖像區(qū)域之間的關(guān)系是利用所學(xué)的先驗(yàn)知識(shí)以多層級(jí)的方式進(jìn)行編碼,而先驗(yàn)知識(shí)則通過持久的記憶向量進(jìn)行建模。解碼器以先前生成的字和區(qū)域編碼為條件,并負(fù)責(zé)生成輸出標(biāo)題的下一個(gè)標(biāo)記。具體步驟為:①將每個(gè)標(biāo)準(zhǔn)切面圖像特征重塑為一系列平坦的塊,得到一個(gè)塊序列;②在每個(gè)塊序列中拼接一個(gè)可學(xué)習(xí)塊拼接作為圖像表示;③將可學(xué)習(xí)的一維位置信息添加到塊序列中以保存位置信息;④將獲得的塊序列作為編碼器的輸入進(jìn)行特征識(shí)別;⑤解碼器從每個(gè)編碼層的輸出中讀取,并逐字生成輸出字幕。
圖2 改良Transfomer模型框架圖
3.實(shí)施細(xì)則:遵循圖像描述的實(shí)踐標(biāo)準(zhǔn),使用詞級(jí)交叉熵?fù)p失(XE)預(yù)先訓(xùn)練模型,并使用強(qiáng)化學(xué)習(xí)對(duì)序列生成進(jìn)行微調(diào)。當(dāng)使用XE 進(jìn)行訓(xùn)練時(shí),模型在給定先前真實(shí)單詞的情況下預(yù)測(cè)下一個(gè)標(biāo)記,在這種情況下可以立即獲取解碼器的輸入序列,并且一次性完成整個(gè)輸出序列的計(jì)算,隨著時(shí)間的推移并行化所有操作。數(shù)據(jù)集按7∶1∶2 的比例隨機(jī)分為訓(xùn)練集、驗(yàn)證集及測(cè)試集,訓(xùn)練集用于優(yōu)化模型中的可學(xué)習(xí)參數(shù),驗(yàn)證集用于調(diào)整超參數(shù)并選擇最佳模型,測(cè)試集用于評(píng)估使用驗(yàn)證集選擇的模型性能。
所有試驗(yàn)均在Intel(R)Xeon(R)Gold6148 CPU 上進(jìn)行,共有20個(gè)內(nèi)核和8個(gè)Tesla V100-SXM2 GPU,使用相同的設(shè)置以確保公正性和客觀性。為了訓(xùn)練模型,本研究使用Adam 優(yōu)化器(β1,β2)=(0.9,0.99)。初始學(xué)習(xí)率設(shè)置為10-4。C-GAN 中有2 個(gè)超參數(shù)。本研究直接計(jì)算最優(yōu)參數(shù)并搜索帕累托最優(yōu)以節(jié)省時(shí)間,減少人工。
為了驗(yàn)證改良Transformer 模型的有效性,本研究將其與目前最優(yōu)秀的幾種隱算數(shù)方法包括Ensemble Model[5]、SSD[6]、R-FCN[7]、TieNet[8]、Kerp[9]、VTI[10]、RNCM[11]進(jìn)行比較。選擇自然語言生成指標(biāo)BLEU[12]評(píng)分評(píng)估各模型性能。BLEU 可以分析生成句與參考句之間的n-gram 相關(guān)性。每個(gè)超聲圖像對(duì)應(yīng)一個(gè)參考句,使用BLEU-1、BLEU-2、BLEU-3 和BLEU-4 評(píng)分分別表示試驗(yàn)中1-gram、2-gram、3-gram 和4-gram的相關(guān)性。
Ensemble Model、SSD、R-FCN 和改良Transformer模型用于BND 數(shù)據(jù)集中BLEU-1~BLEU-4評(píng)分見表1,其中改良Transformer 模型的BLEU-1~BLEU-4 評(píng)分均高于其他三種模型。
表1 不同模型在BND 數(shù)據(jù)集中BLEU-1~BLEU-4評(píng)分
TieNet、Kerp、VTI、RNCM 和改良Transformer 模型用于LGK 數(shù)據(jù)集中BLEU-1~BLEU-4 評(píng)分見表2,其中RNCM 模型的BLEU-1 評(píng)分最高,VTI 模型的BLEU-2、BLEU-3中評(píng)分最高,Kerp模型的BLEU-4評(píng)分最高,改良Transformer 模型的BLEU-1~BLEU-4 評(píng)分均較高。
表2 不同模型在LGK 數(shù)據(jù)集中BLEU-1~BLEU-4評(píng)分
改良Transformer 模型在BND 數(shù)據(jù)集中可以生成描述乳腺結(jié)節(jié)超聲特征的文字報(bào)告,在LGK 數(shù)據(jù)集中可以識(shí)別病灶部位并診斷疾病類型。生成報(bào)告與臨床報(bào)告見圖3,4。
圖3 改良Transformer模型在BND數(shù)據(jù)集中生成的報(bào)告案例展示
圖4 改良Transformer模型在LGK數(shù)據(jù)集中生成的報(bào)告案例展示
計(jì)算機(jī)輔助診斷(computer-aided diagnosis,CAD)技術(shù)已成熟運(yùn)用于臨床工作當(dāng)中,傳統(tǒng)的CAD 是基于指定的特征匹配識(shí)別可疑病灶的算法,其局限性是需要程序員指定惡性腫瘤的特征,這是一個(gè)繁瑣且主觀的過程,同時(shí)采用人工指定的數(shù)學(xué)公式難以捕捉人類識(shí)別乳腺癌的所有跡象,新一代人工智能算法的引入克服了這一局限[13]。新一代深度學(xué)習(xí)算法可以從醫(yī)學(xué)圖像中提取特征,并能更準(zhǔn)確和快速地執(zhí)行分類、檢測(cè)、分割及可視化任務(wù)[14-16],這一過程是客觀和數(shù)據(jù)驅(qū)動(dòng)的,因此較傳統(tǒng)方法具有更高的性能。為了對(duì)圖像做出更全面、詳細(xì)的分析,各研究開始聚焦圖像描述領(lǐng)域。圖像描述模型是通過識(shí)別圖像并提取圖像特征,在識(shí)別目標(biāo)之間的關(guān)系后生成文本描述,即有序形式的單詞序列。圖像分類和分割雖在語義層面取得了一定進(jìn)展,但對(duì)醫(yī)學(xué)圖像的理解較為片面,與上述任務(wù)相比,超聲圖像報(bào)告生成更加困難,因?yàn)槊枋霾粌H要識(shí)別圖像中包含的對(duì)象,還要分析這些對(duì)象之間的關(guān)系和屬性[5]。目前圖像描述的主流方式是基于神經(jīng)網(wǎng)絡(luò)的編碼器-解碼器模式。編碼器主要為具有獲取圖像特征的卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN),如RCNN、FCN等;然后利用解碼器,如循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)或長(zhǎng)短期記憶網(wǎng)絡(luò)(long short term memory,LSTM)生成圖片中的語義描述。Zeng等[4]提出了一種基于區(qū)域檢測(cè)的超聲圖像字幕生成方法,該方法利用Faster RCNN 同時(shí)執(zhí)行區(qū)域檢測(cè)和圖像編碼任務(wù),然后利用LSTM 對(duì)編碼向量進(jìn)行解碼,并生成超聲圖像中疾病的注釋文本信息,明顯提高了工作效率。但是基于RNN 和CNN模型的表示能力和順序性有限。2017 年,谷歌提出了Transformer 模型[17],該模型基于自注意力機(jī)制,摒棄卷積和池化等網(wǎng)絡(luò)架構(gòu),可以實(shí)現(xiàn)輸入和輸出的全局依賴關(guān)系,具有更高的并行化能力,使模型訓(xùn)練達(dá)到突出效果[18]。基于Transformer 的體系結(jié)構(gòu)代表了序列建模任務(wù)的最新進(jìn)展,但標(biāo)準(zhǔn)Transformer 模型在圖像描述多模態(tài)環(huán)境中的適用性仍待進(jìn)一步研究,圖像描述的多模態(tài)特性需特定的體系結(jié)構(gòu),為了解決這一問題,Cornia 等[3]以Transformer 為靈感,并總結(jié)了以往所有圖像描述算法相關(guān)的2 個(gè)關(guān)鍵亮點(diǎn):①圖像區(qū)域及其關(guān)系采用多級(jí)方式編碼,對(duì)這些關(guān)系建模時(shí)采用持久性記憶向量來學(xué)習(xí)和編碼先驗(yàn)知識(shí);②語句的生成采用多層結(jié)構(gòu),這一過程通過學(xué)習(xí)門控機(jī)制實(shí)現(xiàn),其可以在每個(gè)階段對(duì)多層級(jí)的貢獻(xiàn)進(jìn)行加權(quán)。由此創(chuàng)建了編碼器層與解碼器層之間的網(wǎng)狀連接模式,這種連接模式在其他完全注意力機(jī)制中前所未有,并將其命名為“Meshed-Memory Transformer”,其在COCO數(shù)據(jù)集中的測(cè)試獲得了在線排行第一的成績(jī)。因此,本研究擬將這種改良Transformer 模型運(yùn)用于乳腺結(jié)節(jié)超聲報(bào)告自主生成,并對(duì)其可行性進(jìn)行初步探討。
為了構(gòu)建更類似于實(shí)際臨床超聲報(bào)告的數(shù)據(jù)集,本研究對(duì)乳腺結(jié)節(jié)的超聲特征描述進(jìn)行了細(xì)化,生成報(bào)告中包含了對(duì)乳腺結(jié)節(jié)邊界、邊緣、內(nèi)部回聲等表現(xiàn)的描述,對(duì)比LGK 數(shù)據(jù)集中比較單一的疾病特征及種類,乳腺結(jié)節(jié)具有更復(fù)雜多變的超聲表現(xiàn),結(jié)節(jié)的正確識(shí)別需更深刻的機(jī)器理解。根據(jù)兩組數(shù)據(jù)集的特點(diǎn),為了公平比較,篩選TieNet、Kerp、VTI、RNCM 模型作為L(zhǎng)GK 數(shù)據(jù)集的比較方法。在BND 數(shù)據(jù)集中,改良Transformer 模型的BLEU-1~BLEU-4 評(píng)分均高于其他模型,其中BLEU-1、BLEU-2 評(píng)分均>0.4 分,說明圖像報(bào)告中的詞匯能夠較好地重現(xiàn),可以評(píng)價(jià)為高質(zhì)量的翻譯。LGK 數(shù)據(jù)集中,改良Transformer模型均獲得較好的BLEU評(píng)分,且BLEU-2~BLEU-4 評(píng)分均較穩(wěn)定。BLEU-1 評(píng)分最高的是RNCM 模型,該種模型利用CNN/RNN 模型,通過循環(huán)級(jí)聯(lián)模型從圖像和報(bào)告中挖掘和預(yù)測(cè)標(biāo)簽,然而該方法運(yùn)算較為繁瑣,且在n-gram(n>1)相關(guān)性評(píng)估中評(píng)分均不高。通過具體分析生成的報(bào)告,并與原數(shù)據(jù)集中的報(bào)告進(jìn)行對(duì)比分析,總結(jié)生成報(bào)告的一般情況如下:在BND 數(shù)據(jù)集中,報(bào)告對(duì)乳腺結(jié)節(jié)進(jìn)行了詳盡的描述,句子一般較長(zhǎng),通過對(duì)生成結(jié)果進(jìn)行分析發(fā)現(xiàn)改良Transformer 模型對(duì)乳腺病灶的常規(guī)描述較為全面,能夠準(zhǔn)確定位結(jié)節(jié),并對(duì)結(jié)節(jié)的回聲、邊界、邊緣等進(jìn)行較為準(zhǔn)確的判斷,對(duì)于典型的結(jié)節(jié)能夠給出準(zhǔn)確的診斷。而對(duì)于一些個(gè)性化描述,如“內(nèi)可見細(xì)小點(diǎn)狀弱回聲”,生成報(bào)告中僅描述為“弱回聲”,這可能與數(shù)據(jù)集中個(gè)別特征描述數(shù)據(jù)較少,未能達(dá)到充分訓(xùn)練有關(guān)。針對(duì)類似問題,Najdenkoska 等[10]對(duì)影像圖進(jìn)行概率建模來改善解釋過程中存在的多樣性和不確定性,以解決確定性編碼器-解碼器模型傾向于過擬合數(shù)據(jù)而產(chǎn)生一般結(jié)果,這種方法在本研究LGK 數(shù)據(jù)集中的BLEU-2、BLEU-3 評(píng)分也最高。本研究有1 份臨床報(bào)告中對(duì)病灶的描述為“混合回聲”,而生成報(bào)告中則為“低回聲”,這可能與超聲的動(dòng)態(tài)掃查有關(guān),一些在圖像中表現(xiàn)為低回聲的病灶,在進(jìn)行探頭加壓等操作后會(huì)發(fā)現(xiàn)其具有液體成分,僅通過靜態(tài)圖片分析難以辨別。實(shí)時(shí)動(dòng)態(tài)掃查是超聲檢查區(qū)別于其他影像學(xué)檢查方法的重要優(yōu)勢(shì),但動(dòng)態(tài)圖像的分析必將進(jìn)一步增大運(yùn)算負(fù)荷,這也是人工智能運(yùn)用于超聲圖像領(lǐng)域所面臨的一項(xiàng)巨大挑戰(zhàn)。
LGK 數(shù)據(jù)集涵蓋了肝臟、膽囊和腎臟的正?;虍惓D像,對(duì)應(yīng)的描述簡(jiǎn)潔明了,字符較短,如“正常肝臟”“膽囊結(jié)石”“膽囊壁稍高回聲,膽囊息肉樣病變”。通過人工分析發(fā)現(xiàn),生成報(bào)告能夠準(zhǔn)確地識(shí)別臟器并給出相應(yīng)疾病診斷,但也存在部分報(bào)告對(duì)疾病識(shí)別錯(cuò)誤,如將“膽囊結(jié)石”識(shí)別為“膽囊息肉樣病變”,或者部位識(shí)別缺失,如“正常膽囊”僅給出“正常”的情況。
本研究的局限性:①為單中心研究,樣本量較小,且因乳腺結(jié)節(jié)疾病種類偏倚,使得部分樣本訓(xùn)練不足,如傾向于良性的BI-RADS 3 類結(jié)節(jié)占整個(gè)數(shù)據(jù)集的46.1%,病理結(jié)果證實(shí)為纖維腺瘤的結(jié)節(jié)占該數(shù)據(jù)集的45.9%,而其他惡性結(jié)節(jié)僅占1.7%,模型對(duì)這部分小樣本量結(jié)節(jié)的診斷性能有待改進(jìn),待今后收集更多少見結(jié)節(jié)數(shù)據(jù),進(jìn)一步提升模型的診斷性能;②為回顧性研究,超聲報(bào)告的規(guī)范設(shè)計(jì)受限,待今后更大樣本量的前瞻性試驗(yàn)的開展;③采用的改良Transformer模型中未加入分類模塊,無法對(duì)結(jié)節(jié)進(jìn)行有效分類,故本研究未納入BI-RADS 分類,因此無法對(duì)生成報(bào)告與臨床報(bào)告的一致性和準(zhǔn)確性做出詳細(xì)的統(tǒng)計(jì)學(xué)分析。
綜上所述,本研究首次將改良Transformer 模型用于乳腺結(jié)節(jié)超聲報(bào)告自主生成,其能夠應(yīng)對(duì)圖像多模態(tài)特性,準(zhǔn)確識(shí)別乳腺結(jié)節(jié),并生成反映乳腺結(jié)節(jié)超聲特征的文字描述,同時(shí)該模型具有良好的泛化性能。自主報(bào)告生成模型可以幫助超聲醫(yī)師快速診斷疾病,減少疾病篩查的工作量。從長(zhǎng)遠(yuǎn)來看,可能在一定程度上改變超聲醫(yī)師工作模式,推動(dòng)檢查技師和診斷醫(yī)師崗位細(xì)化,實(shí)現(xiàn)超聲檢查與診斷的分離,改善超聲醫(yī)師工作現(xiàn)狀。