程順達(dá),程 穎,孫士江
(1.河北省中醫(yī)院,河北 石家莊 050000;2.河北省衛(wèi)健委 統(tǒng)計(jì)信息中心,河北 石家莊 050051)
在各種惡性腫瘤病例中,乳腺癌對(duì)于婦女健康的威脅最大[1-2]。乳腺腫瘤病灶較小,病變特點(diǎn)不典型。在臨床診斷時(shí),僅通過人工識(shí)別所得出的診斷結(jié)果易受到主觀因素的影響,降低診斷的準(zhǔn)確率。因此,基于人工智能的輔助診斷技術(shù)[3]應(yīng)運(yùn)而生,其不僅能快速地輔助醫(yī)生完成臨床診斷,還能大幅降低乳腺腫瘤臨床診斷的誤診率和漏診率。
本文提出了一種基于監(jiān)督學(xué)習(xí)的人工智能輔助診斷模型,可有效解決因特征提取數(shù)據(jù)量過大而導(dǎo)致的過擬合問題。通過引入層次聚類分析對(duì)提取完成的特征進(jìn)行有效降維,同時(shí)選擇人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)作為模型的分類器,將聚類后的特征作為人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的特征進(jìn)行輸入,并以此實(shí)現(xiàn)分類器的有效訓(xùn)練,最終完成鉬靶乳腺腫瘤的高精度區(qū)分。
監(jiān)督學(xué)習(xí)[4]作為機(jī)器學(xué)習(xí)領(lǐng)域[5]的一個(gè)重要分支,其主要利用樣本數(shù)據(jù)和已知標(biāo)簽,通過訓(xùn)練迭代的方式不斷確定最優(yōu)的參數(shù)和系統(tǒng),以達(dá)到識(shí)別同類未知數(shù)據(jù)的最佳性能?;诒O(jiān)督學(xué)習(xí)的人工智能輔助診斷系統(tǒng)主要由以下3個(gè)部分組成:特征提取部分[6]、特征降維部分[7]和機(jī)器學(xué)習(xí)分類器部分,具體如圖1所示。
圖1 人工智能輔助診斷流程圖Figure 1. Flow chart of AI-assisted diagnosis
在醫(yī)學(xué)影像領(lǐng)域,影像數(shù)據(jù)特征提取是將輸入的影像數(shù)據(jù)進(jìn)行計(jì)算,提取主要的計(jì)算結(jié)果,最終轉(zhuǎn)換為一系列數(shù)字進(jìn)行展現(xiàn)。
在人工智能輔助診斷系統(tǒng)的研究中,主要將灰度描述[8]、紋理描述[9]以及梯度空間分布描述[10]作為常用的特征描述方法。表1羅列了部分常用的影像特征。本文分別在原始良性影像數(shù)據(jù)集和原始惡性影像數(shù)據(jù)集上使用影像數(shù)據(jù)特征提取方法提取隱藏模式,以實(shí)現(xiàn)對(duì)訓(xùn)練集樣本特征的有效提取。
表1 影像數(shù)據(jù)特征分類
特征提取也會(huì)帶來一系列問題,例如當(dāng)特征數(shù)量超出矩陣索引的維度之后,訓(xùn)練的樣本數(shù)量無法傳遞到特征矩陣中,這就對(duì)計(jì)算機(jī)的計(jì)算性能提出了更高的要求。為解決這一問題,本文引入了層次聚類分析[11]來進(jìn)行有效的特征降維,從而提升了算法的健壯性和運(yùn)行效率。
層次聚類的實(shí)現(xiàn)步驟如下:
步驟1為數(shù)據(jù)集中所有樣本單獨(dú)設(shè)類,表示出其包含的所有類;
步驟2依次計(jì)算類間包含的不同樣本之間的樣本距離;
步驟3對(duì)步驟1和步驟2中生成的兩個(gè)類別數(shù)據(jù)進(jìn)行舉例計(jì)算。
在重復(fù)上述3個(gè)步驟一定次數(shù)后,樣本最后的訓(xùn)練結(jié)果就會(huì)生成一個(gè)新的數(shù)據(jù)類,之后再進(jìn)行相似性度量,方法如下
(1)
(2)
式中,davg是在同一類Sk中每個(gè)成員i到中心μk距離的平均值;dmin是任意兩個(gè)類中心距離的最小值;簇最優(yōu)數(shù)目K*由最小有效率θ來確定。
(3)
式(3)可以計(jì)算出腫瘤樣本數(shù)據(jù)集隱藏模式中最優(yōu)數(shù)據(jù)簇的數(shù)目。當(dāng)搜索出有效率的最小值以后,每個(gè)樣本距離其簇中心的平均距離davg減小,而任意兩個(gè)簇中心的最小距離增加。
本文從實(shí)際應(yīng)用場景出發(fā),選擇人工神經(jīng)網(wǎng)絡(luò)模型作為二分類器[12-13]。人工神經(jīng)網(wǎng)絡(luò)模型由輸入層、輸出層以及一個(gè)或多個(gè)隱藏層共同構(gòu)成。
人工神經(jīng)網(wǎng)絡(luò)模型的工作過程包括信號(hào)前向傳遞[14]和誤差逆向傳輸。信號(hào)的前向傳遞是指在不同網(wǎng)絡(luò)分層中的不同節(jié)點(diǎn)之間進(jìn)行全連接操作后,賦予不同的權(quán)重信息。逆向傳輸是指由結(jié)果不斷修正相鄰節(jié)點(diǎn)之間的權(quán)重信息,最終使得預(yù)測(cè)數(shù)據(jù)和正確數(shù)據(jù)之間的誤差值滿足一定的閾值,即可終止迭代。
在分類器的選擇中,本文采用神經(jīng)網(wǎng)絡(luò)作為模型的分類器,如圖2所示。本文使用的神經(jīng)網(wǎng)絡(luò)共有3層,輸入層為乳腺腫瘤圖像數(shù)據(jù)的輸入預(yù)處理部分,其個(gè)數(shù)由上文中的特征選擇數(shù)目決定。將信息輸入到隱藏層中即可確定隱藏函數(shù)。隨后,根據(jù)樣本數(shù)量確定隱藏層節(jié)點(diǎn)數(shù)目。最后,將處理好的分類數(shù)據(jù)送至輸出層。
圖2 人工神經(jīng)網(wǎng)絡(luò)Figure 2. Artificial neural networks
本文所設(shè)計(jì)算法的整體流程如圖3所示。算法包含3個(gè)階段:首先,對(duì)數(shù)據(jù)集的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化;然后,對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行特征提取,并將提取完成的數(shù)據(jù)進(jìn)行層次聚類分析以獲得良性數(shù)據(jù)樣本和惡性數(shù)據(jù)樣本;最后,將聚類完成的樣本數(shù)據(jù)輸入人工神經(jīng)網(wǎng)絡(luò)分類器,從而實(shí)現(xiàn)鉬靶乳腺腫瘤的高精度區(qū)分。
圖3 算法整體流程圖Figure 3. Flow chart of the proposed algorithm
本文選取BCDR(Breast Cancer Digital Repository)影像數(shù)據(jù)庫[15-16]作為實(shí)驗(yàn)數(shù)據(jù)集。該數(shù)據(jù)集的數(shù)據(jù)來源于葡萄牙北部地區(qū)的乳腺腫瘤患者,包含406個(gè)鉬靶影像案例,包括230個(gè)良性案例和176個(gè)惡性案例。良性腫瘤和惡性腫瘤的具體案例如圖4所示,其中圖4(a)、圖4(b)為惡性腫瘤示例,圖4(c)、圖4(d)為良性腫瘤示例。
(a) (b) (c) (d)圖4 乳腺腫塊案例Figure 4. Cases of breast lumps
由于樣本數(shù)據(jù)集存在良、惡性影像數(shù)量不平衡的問題,因此需要對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理。預(yù)處理步驟如下:
步驟1腫塊區(qū)域提取。對(duì)影像數(shù)據(jù)進(jìn)行選取,選取矩形為20個(gè)像素;
步驟2影像二值化處理。對(duì)影像數(shù)據(jù)進(jìn)行二值化處理,保留最大的連通區(qū)域,在該區(qū)域內(nèi)依次進(jìn)行開運(yùn)算、閉運(yùn)算和孔洞填充;
步驟3數(shù)據(jù)樣本增加處理。采用旋轉(zhuǎn)和鏡像的方式對(duì)樣本的數(shù)量進(jìn)行擴(kuò)充。
本文在進(jìn)行實(shí)驗(yàn)驗(yàn)證時(shí),以BCDR數(shù)據(jù)集作為訓(xùn)練集和測(cè)試集,使用10折交叉驗(yàn)證方法,共進(jìn)行1 000次迭代,具體的實(shí)驗(yàn)環(huán)境配置參數(shù)如表2所示。
表2 數(shù)據(jù)環(huán)境配置
為了驗(yàn)證本文所提算法的性能,并確定本文算法在檢測(cè)鉬靶乳腺腫瘤分期時(shí)的精度,將本文算法與多個(gè)相關(guān)算法進(jìn)行對(duì)比實(shí)驗(yàn),并通過準(zhǔn)確率(Accurary)、精確率(Precision)、靈敏度(Sensitivity)、特異性(Specificity)、F值(F-measure)、ROC曲線以及AUC值等多個(gè)評(píng)價(jià)指標(biāo)對(duì)算法的綜合性能進(jìn)行評(píng)估。表3展示了本文算法與對(duì)比算法的準(zhǔn)確率比較結(jié)果。
表3 不同算法在BCDR數(shù)據(jù)集中的準(zhǔn)確率
由表3可以看出,在5種方法的準(zhǔn)確率對(duì)比中,本文算法最為理想。為進(jìn)一步評(píng)估本文所提出算法的性能,接下來將對(duì)本文算法進(jìn)行精確率、靈敏度、特異性、F1值和AUC評(píng)估,具體評(píng)估結(jié)果如表4所示。
表4 算法整體性能評(píng)估
從精確率、靈敏度、特異性、F1值計(jì)算結(jié)果來看,本文方法具有特征維度低和泛化能力強(qiáng)的優(yōu)勢(shì),其綜合檢測(cè)能力也較高。
在機(jī)器學(xué)習(xí)領(lǐng)域中,ROC曲線和AUC值常用來評(píng)估機(jī)器學(xué)習(xí)算法的性能。由于ROC曲線只能定性地進(jìn)行性能展示,因此通常使用AUC值對(duì)ROC曲線進(jìn)行定量描述。上述4種算法和本文所提算法的AUC值對(duì)比如表5所示。
表5 各算法AUC值對(duì)比
由表5可以看出,各算法的分類性能大體相當(dāng),但本文算法對(duì)應(yīng)的AUC值更高,因此本文算法具有更高的靈敏度和更強(qiáng)的特異性。
傳統(tǒng)機(jī)器學(xué)習(xí)輔助診斷算法在提取大量特征時(shí)會(huì)增加算法計(jì)算成本。針對(duì)這一問題,本文提出一種基于監(jiān)督學(xué)習(xí)的人工智能輔助診斷模型。該模型在對(duì)特征進(jìn)行降維的同時(shí)引入了層次聚類分析,可對(duì)數(shù)據(jù)進(jìn)行有效分類。實(shí)驗(yàn)結(jié)果表明,本文所提算法的各項(xiàng)性能指標(biāo)均優(yōu)于其他算法,但也存在一些不足,例如訓(xùn)練樣本集的數(shù)量較少。在今后的研究中,將通過增加樣本集數(shù)量來進(jìn)一步提升模型的精確度。