李季蘭
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
近幾年以來,隨著大數(shù)據(jù)以及深度學(xué)習(xí)技術(shù)的飛速發(fā)展,深層神經(jīng)網(wǎng)絡(luò)極大地推動了圖像分類和檢測領(lǐng)域的進(jìn)步,因?yàn)樯疃染矸e網(wǎng)絡(luò)模型能更有效地從大量樣本中學(xué)習(xí)到圖像特征,避開傳統(tǒng)圖像分類算法中復(fù)雜的特征提取過程,實(shí)現(xiàn)端到端的分類和檢測。同時人工智能與醫(yī)療領(lǐng)域的結(jié)合也成為研究關(guān)注的重點(diǎn)。因此本文著手于彩超數(shù)據(jù)中的乳腺彩超圖像,利用深度神經(jīng)網(wǎng)絡(luò)對圖像或圖像中病變進(jìn)行良惡性分類。
深度學(xué)習(xí)模型依賴于數(shù)據(jù)精確標(biāo)簽和龐大的數(shù)據(jù)量,而臨床數(shù)據(jù)存儲非結(jié)構(gòu)化的特點(diǎn)導(dǎo)致數(shù)據(jù)標(biāo)注工作量大,對標(biāo)注者專家知識要求嚴(yán)格。因此本文考慮使用半監(jiān)督學(xué)習(xí)算法對存在噪音甚至是錯漏標(biāo)簽的數(shù)據(jù)進(jìn)行研究。通過和三甲醫(yī)院合作獲取到1915 例彩超數(shù)據(jù),其中有彩超圖像約15000 張。篩選后,選出其中的乳腺部位彩超進(jìn)行自動標(biāo)注和研究,檢索醫(yī)院系統(tǒng)中乳腺彩超報告的BI-RADS 分級描述,生成自動標(biāo)注結(jié)果如圖1 所示。其中BI-RADS 分級1 類、2 類為良性,5 類和6 類為惡性,其中3 類和4 類根據(jù)惡性風(fēng)險不同有進(jìn)一步的細(xì)分。
圖1 某一次自動標(biāo)注數(shù)據(jù)結(jié)果
根據(jù)世界衛(wèi)生組織的相關(guān)報告可知,乳腺癌的高死亡率是一個世界級的公共衛(wèi)生難題,而臨床認(rèn)為乳腺彩超的篩查可以降低死亡率[1]。其中,乳腺超聲篩查由于其便捷實(shí)惠,無輻射性、無入侵性和無致敏性而被廣泛運(yùn)用與常規(guī)篩查和體檢中,因而結(jié)合深度學(xué)習(xí)模型的計(jì)算機(jī)輔診斷系統(tǒng)能夠在一定程度上協(xié)助放射技師的工作,且在輔助臨床醫(yī)師進(jìn)行乳腺彩超良惡性判斷上具有一定實(shí)際意義。
利用計(jì)算機(jī)輔助診斷技術(shù)來協(xié)助醫(yī)生進(jìn)行自動診斷的研究已有多年的發(fā)展積累,這些輔助診斷系統(tǒng)能較大程度地減少環(huán)境和操作人員對彩超圖像影響。對于圖像分類問題,該領(lǐng)域的相應(yīng)輔助技術(shù)可分為傳統(tǒng)方法和深度學(xué)習(xí)方法。
傳統(tǒng)圖像分類法通常分三步:①圖像預(yù)處理流程:利用小波過濾或滑動窗口算法去除圖像中的斑點(diǎn)、偽影和噪聲;②特征工程:提取紋理特征,形態(tài)特征、基于模型的特征和基于描述的特征等,將高維度的圖像數(shù)據(jù)抽象降維;③有監(jiān)督機(jī)器學(xué)習(xí)分類:建立線性或非線性的學(xué)習(xí)模型,包括支持向量機(jī)、決策樹、神經(jīng)網(wǎng)絡(luò)和貝葉斯神經(jīng)網(wǎng)絡(luò)等分類算法[4]。
深度學(xué)習(xí)方法:2016 年Voets 在美國醫(yī)學(xué)協(xié)會雜志上發(fā)表的糖尿病視網(wǎng)膜病變診斷工作,驗(yàn)證了端到端的深度學(xué)習(xí)模型可以直接運(yùn)用在醫(yī)學(xué)圖像任務(wù)中[5],且能取得逼近甚至優(yōu)于人類專家的診斷結(jié)果。此后,深度神經(jīng)網(wǎng)絡(luò)分類模型逐漸被應(yīng)用在各類醫(yī)學(xué)圖像任務(wù)中,如國內(nèi)針對乳腺病理圖像自動分類的工作[3]以及在針對早產(chǎn)兒視網(wǎng)膜病變圖像的良惡性分類任務(wù)[6]。其余大部分研究中醫(yī)學(xué)圖像數(shù)據(jù)量有限,除了2019 年陳思文采取數(shù)據(jù)處理和數(shù)據(jù)增廣來擴(kuò)充數(shù)據(jù)集,并使用AlexNet 模型訓(xùn)練[7],消耗時間和運(yùn)算資源來換取更好的分類結(jié)果。
利用預(yù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)對醫(yī)學(xué)圖像數(shù)據(jù)進(jìn)行分類學(xué)習(xí)和精調(diào)參數(shù)并不能簡單實(shí)現(xiàn)一個穩(wěn)定的模型,研究過程中存在以下問題:
(1)乳腺彩超診斷技術(shù)自身發(fā)展,各類新技術(shù)如超聲彈性成像與彩色多普勒超聲數(shù)據(jù)的圖像差異對模型會產(chǎn)生無法預(yù)知的影響。
(2)醫(yī)學(xué)圖像數(shù)據(jù)的小樣本和模糊標(biāo)簽問題。相對于其他圖像數(shù)據(jù)集,醫(yī)學(xué)圖像數(shù)據(jù)分布的一致性導(dǎo)致有限的數(shù)據(jù)集中過擬合現(xiàn)象嚴(yán)重。而本文中所使用的數(shù)據(jù)還存在標(biāo)簽?zāi):龁栴},即圖像結(jié)果中BI-RADS 3 類和4 類為惡性的概率逐漸遞增,而非確定的量化值。同時彩超報告中放射技師的主觀操作傾向會影響彩超結(jié)果,給標(biāo)簽帶來噪聲。只有病理結(jié)果才能作為診斷金標(biāo)準(zhǔn),而病理標(biāo)簽數(shù)量較少。
(3)數(shù)據(jù)集不平衡問題。如圖1 所示,不平衡的數(shù)據(jù)集進(jìn)一步限制深層網(wǎng)絡(luò)模型的性能。因此,數(shù)據(jù)量和注釋的可靠性比模型結(jié)構(gòu)更為重要,使得模型的評價缺乏客觀性和穩(wěn)定性。
基于以上問題,使用現(xiàn)有的預(yù)訓(xùn)練深度學(xué)習(xí)模型對彩超圖像進(jìn)行有監(jiān)督訓(xùn)練后,正確率收到部分?jǐn)?shù)據(jù)影響難以擬合至最優(yōu)結(jié)果。因此本文提出假設(shè)——本批數(shù)據(jù)的標(biāo)注結(jié)果存在大量噪音和因?yàn)椴≡畋旧硖禺愋远y以分類的數(shù)據(jù),即困難樣本,因而適用于半監(jiān)督學(xué)習(xí)場景。
不同于簡單的將無監(jiān)督的預(yù)訓(xùn)練與有監(jiān)督學(xué)習(xí)結(jié)合起來,或者利用有監(jiān)督學(xué)習(xí)模型添加各種正則化策略。本文使用了深度對抗生產(chǎn)網(wǎng)絡(luò)進(jìn)行半監(jiān)督學(xué)習(xí),假設(shè)本文使用數(shù)據(jù)存在噪音標(biāo)簽,但數(shù)據(jù)本身符合平滑假設(shè)和流形假設(shè),使得生成器可以從噪音數(shù)據(jù)中學(xué)習(xí)到隱藏的特征,對判別器產(chǎn)生正向影響。
在整個訓(xùn)練過程中,利用病理標(biāo)簽篩選出少量精確數(shù)據(jù)標(biāo)簽,經(jīng)過多位專家審核后,作為有監(jiān)督學(xué)習(xí)的訓(xùn)練集和驗(yàn)證集。而剩余部分?jǐn)?shù)據(jù)則作為無監(jiān)督訓(xùn)練數(shù)據(jù),投入生成器中進(jìn)行訓(xùn)練。
對抗生成對抗網(wǎng)絡(luò)常用于圖像生成、風(fēng)格遷移等場合,少見于分類任務(wù)。在生成器和判別器進(jìn)行最大最小博弈的同時,二者任務(wù)目標(biāo)相反則會導(dǎo)致訓(xùn)練大幅度波動。本文目標(biāo)是分類模型,因此在最基本的卷積生成對抗網(wǎng)絡(luò)基礎(chǔ)上,強(qiáng)化判別器結(jié)構(gòu)。構(gòu)造的判別器為多個使用殘差模塊構(gòu)造[8]的深層神經(jīng)網(wǎng)絡(luò),并對生成器進(jìn)行簡單預(yù)訓(xùn)練。
設(shè)計(jì)一個普通的K 類分類器時,輸入為圖像,輸出為K 維向量,經(jīng)Softmax 后選擇最大概率類。訓(xùn)練過程中,以最小化目標(biāo)函數(shù)的損失為目的,使得輸出與標(biāo)簽分布的交叉熵滿足最小。在半監(jiān)督學(xué)習(xí)的生成網(wǎng)絡(luò)的判別器中,網(wǎng)絡(luò)結(jié)構(gòu)和輸入數(shù)據(jù)不變,鑒別器輸出為(K+1)維向量,第(K+1)類為偽圖像,真實(shí)樣本則為前K 類。由于Softmax 在兩邊各個維度減去同一個常量最終結(jié)果不變的特性,可通過推導(dǎo)約去第K+1 類輸出[10]。整個系統(tǒng)中包括有標(biāo)簽的真實(shí)數(shù)據(jù)、無標(biāo)簽的噪音數(shù)據(jù)和生成數(shù)據(jù),對應(yīng)的概率分別為Llabel、Lun?label 和Lfake,其計(jì)算方式如下,推導(dǎo)過程省略:
圖2 對抗生成網(wǎng)絡(luò)模型結(jié)構(gòu)
LD 是分類器優(yōu)化目標(biāo),w 為權(quán)重。生成器輸出概率LG 則是為了欺騙分類器而進(jìn)行訓(xùn)練的。整體訓(xùn)練流程如下,首先對生成器G 進(jìn)行預(yù)訓(xùn)練。然后開始半監(jiān)督學(xué)習(xí)迭代過程,如圖3 所示。
訓(xùn)練生成器:
(1)輸入隨機(jī)噪聲z 至G,輸出生成數(shù)據(jù)偽圖像X1;
(2)輸入圖像X1 至D,輸出偽圖像分類;輸入所有X 至D,輸出對應(yīng)分類。
(3)反向傳播,按LG更新G 的參數(shù)。
訓(xùn)練判別器:
(1)輸入隨機(jī)噪聲z 至G,輸出生成數(shù)據(jù)偽圖像X1
(2)輸入圖像X1 和精確數(shù)據(jù)X`至D,輸出為各個分類;
(4)反向傳播,根據(jù)LD更新D 的參數(shù)。
圖3 對抗生成網(wǎng)絡(luò)半監(jiān)督學(xué)習(xí)流程
對2000 余張含精確標(biāo)簽的乳腺彩超數(shù)據(jù)進(jìn)行劃分,按比例提取作為訓(xùn)練集和驗(yàn)證集,余下的所有數(shù)據(jù)無論是否含有精確標(biāo)簽都放入生成模型進(jìn)預(yù)訓(xùn)練和生成對抗學(xué)習(xí)。若符合假設(shè),該模型相較于一般的監(jiān)督學(xué)習(xí)會更健壯、穩(wěn)定和泛用。
本文使用了SELU 來代替原始的ReLU,以加速收斂過程。由于生成器沒有類似結(jié)構(gòu),加速訓(xùn)練過程中的收斂過程可以緩解生成器與鑒別器之間的性能差距。而前三個轉(zhuǎn)置層使用二維批處理歸一化,因此最后一個轉(zhuǎn)置層具有權(quán)重歸一化的任務(wù)。在初始化時通過重寫網(wǎng)絡(luò)模型中某些層的權(quán)重,實(shí)現(xiàn)加快權(quán)重參數(shù)標(biāo)準(zhǔn)化和網(wǎng)絡(luò)模型收斂。它不需要額外的空間來存儲最小批量的均值和方差,因此可以減少時間和空間成本。通過PyTorch 框架實(shí)現(xiàn)基礎(chǔ)的網(wǎng)絡(luò)模型結(jié)構(gòu)后,通過初始化參數(shù)和快速預(yù)訓(xùn)練,加快生成器的收斂模型。再將整個模型搭建起來,迭代訓(xùn)練生成器和判別器。
由于半監(jiān)督學(xué)習(xí)本身對數(shù)據(jù)的要求極高,加上訓(xùn)練圖像像素較高,訓(xùn)練過程容易波動,模型最后難以收斂,且模型的收斂速度慢。本文利用訓(xùn)練過程中最后一個小批次的指數(shù)移動平均(EMA)權(quán)重來構(gòu)建更好的目標(biāo),為梯度提供額外的平滑度,并避免劇烈振動。在訓(xùn)練過程中每間隔一段時間就存儲當(dāng)前層的權(quán)重,當(dāng)loss 出現(xiàn)較大抖動,并超過一定閾值時,鑒別器模型使用此時間與最后一次存儲的權(quán)重,進(jìn)行EMA 權(quán)重更新。更新參數(shù)時,我們將θt0 定義為第一步的權(quán)重。然后訓(xùn)練步驟t 作為權(quán)重θ的EMA。
本文所設(shè)計(jì)的Semi-Model 在相同體量的數(shù)據(jù)集下,與單純的有監(jiān)督學(xué)習(xí)進(jìn)行對比,同時與其他半監(jiān)督學(xué)習(xí)方法如Mean Teacher[11]和時序?qū)W習(xí)模型[9]進(jìn)行對照,其結(jié)果如表1。在數(shù)據(jù)量有限的情況下,本文提出的半監(jiān)督模型的確能輕微提升準(zhǔn)確度。圖像生成方面,作為一個不對稱的生成對抗網(wǎng)絡(luò),即使采取預(yù)訓(xùn)練參數(shù)和指數(shù)移動平均等加速收斂的優(yōu)化,成功消除了一部分圖像偽影。
表1 模型結(jié)果正確率對比
為了測試模型效果,本文也完成了一個Qt 開發(fā)的簡易C/S 系統(tǒng),提供給醫(yī)院用于測試。實(shí)際應(yīng)用時,僅需要部署辨別器至云端,生成器在訓(xùn)練過程中蒸餾相關(guān)特征的任務(wù)已經(jīng)完成,因此模型更加精巧,運(yùn)算速度更快。
半監(jiān)督模型通常能在低像素數(shù)據(jù)集上取得遠(yuǎn)勝于有監(jiān)督學(xué)習(xí)的結(jié)果,而本文使用像素更高的乳腺超聲圖像數(shù)據(jù),提出了一種較新的半監(jiān)督學(xué)習(xí)方法來診斷乳房超聲圖像,并使用EMA 正則化來確保在線模型的穩(wěn)定性,實(shí)現(xiàn)了一個較為穩(wěn)定、健壯的乳腺彩超良惡性分類模型。盡管從大量噪音樣本中提取特征對模型進(jìn)行了正則化,該量級的數(shù)據(jù)集訓(xùn)練所的模型依然不能保證與實(shí)際應(yīng)用場合中遇到的數(shù)據(jù)分布能完全一致,半監(jiān)督學(xué)習(xí)僅僅是緩和了深度神經(jīng)網(wǎng)絡(luò)模型在醫(yī)學(xué)圖像中的過擬合問題。
醫(yī)學(xué)輔助診斷需要對模型的靈敏度和泛用性有更高的標(biāo)準(zhǔn),半監(jiān)督模型離實(shí)際應(yīng)用還比較遙遠(yuǎn),需要在臨床上進(jìn)一步研究。今后,該模型需要在更多類型的數(shù)據(jù)集上進(jìn)行測試和評估,以證明其可行性。
圖4 乳腺彩超智能診斷系統(tǒng)
在醫(yī)療資源分配不均,醫(yī)患數(shù)量不匹配的情況下,一個可靠的計(jì)算機(jī)輔助診斷系統(tǒng)能夠節(jié)省培養(yǎng)經(jīng)驗(yàn)豐富的專家所需耗費(fèi)資源,縮短醫(yī)療檢查流程的時間,這是醫(yī)療結(jié)合深度學(xué)習(xí)算法的初衷。而目前看來,在擁有海量精確數(shù)據(jù)標(biāo)簽的情況下,一個深度卷積網(wǎng)絡(luò)在有監(jiān)督學(xué)習(xí)的情況下也許才是最好的選擇。本文提出的半監(jiān)督學(xué)習(xí)方法,可作為一種正則化和蒸餾參數(shù)的方式,使得深度學(xué)習(xí)模型能夠更好地擬合未知數(shù)據(jù),也可作為智能醫(yī)學(xué)領(lǐng)域在研究途中數(shù)據(jù)不足或數(shù)據(jù)質(zhì)量差時的優(yōu)化選擇。