摘" 要: 針對(duì)口腔醫(yī)療資源緊缺和齲齒治療效率不足的問題,提出一種改進(jìn)YOLOv7的齲齒圖像檢測(cè)算法,旨在協(xié)助醫(yī)生進(jìn)行更有效的醫(yī)療診斷,同時(shí)增強(qiáng)患者對(duì)預(yù)防齲齒的意識(shí)。首先,在YOLOv7算法的主干網(wǎng)絡(luò)引入ECA?MobileOne網(wǎng)絡(luò)模塊代替原有的ELAN模塊,降低模型參數(shù)量,提高對(duì)小目標(biāo)齲齒特征的有效提取;其次,在特征圖輸出層采用自適應(yīng)特征融合(ASFF),自適應(yīng)地學(xué)習(xí)各尺度特征圖在融合時(shí)的空間權(quán)重,充分獲取口腔圖像中不同尺度下的關(guān)鍵特征,提高檢測(cè)的全局性和準(zhǔn)確性;另外,采用soft?NMS算法替換原有的非極大值抑制算法(NMS),在牙齒異位或重疊等情況下能更有效地提升檢測(cè)效果。使用在保定市第二醫(yī)院口腔科采集的口腔照片數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果顯示,改進(jìn)后的算法mAP達(dá)到93.4%,相較于原始YOLOv7算法提高了5.5%,并且與當(dāng)前主流算法相比,具有一定的先進(jìn)性,為促進(jìn)口腔健康的整體改善提供了新的技術(shù)支持。
關(guān)鍵詞: 齲齒檢測(cè); MobileOne; 自適應(yīng)特征融合; YOLOv7; soft?NMS; 圖像檢測(cè)
中圖分類號(hào): TN911.1?34; TP391" " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " nbsp; 文章編號(hào): 1004?373X(2024)17?0079?09
Improved YOLOv7 algorithm for caries image detection
FAN Xiaocong1, YAO Jingfa2, TENG Guifa1, MA Yongping3
(1. School of Information Science and Technology, Hebei Agricultural University, Baoding 071000, China;
2. Department of Software Engineering, Hebei Software Institute, Baoding 071000, China;
3. Stomatology Department of Baoding No. 2 Hospital of Hebei Province, Baoding 071000, China)
Abstract: In view of the shortage of oral healthcare resources and the inefficiency in caries treatment, a scheme of an improved YOLOv7 algorithm for caries image detection is proposed to assist doctors in making more effective medical diagnosis, and assist patients in enhancing their awareness of caries prevention. The network module ECA?MobileOne is introduced into the backbone layer of YOLOv7 algorithm instead of the original module ELAN, so as to reduce the number of model parameters and improve the feature extraction of little caries (little objects). An adaptive spatial feature fusion (ASFF) is used in the output layer of feature map to adaptively learn the spatial weight of the feature maps of different scales in the process of fusion, and fully acquire the key features of different scales of the oral cavity image, so as to improve the global nature and accuracy of the detection. In addition, the soft?NMS algorithm is used to replace the original NMS (non?maximum suppression) algorithm, so as to improve the detection effect more effectively in the case of teeth ectopic or overlapping. Experiments were conducted based on an oral photograph dataset collected from the stomatology department of Baoding No. 2 Hospital. The results show that the improved algorithm achieved an mAP (mean average precision) of 93.4%, which was 5.5% higher in comparison with that of the original YOLOv7 algorithm. It can be seen that the improved algorithm is advanced in comparison with the current mainstream algorithms, and can provide technical support for the overall improvement of oral health.
Keywords: caries detection; MobileOne; ASFF; YOLOv7; soft?NMS; image detection
0" 引" 言
隨著社會(huì)的不斷發(fā)展,人們的物質(zhì)生活水平不斷提高,口腔問題也越來越受到人們和政府的重視??谇患膊》N類繁多,在全球口腔疾病的類別中,最為常見的是齲齒和牙周病。齲齒俗稱蟲牙或蛀牙,是一種由牙菌斑中的微生物引起的局部牙體硬組織疾病,與心血管疾病和惡性腫瘤并列為三大非傳染性疾病[1]。根據(jù)衛(wèi)生部發(fā)布的第四次中國(guó)口腔健康流行病學(xué)調(diào)查報(bào)告[2]顯示,我國(guó)兒童乳牙平均患齲率為62.1%,青少年恒牙平均患齲率為41.5%,中老年人恒牙平均患齲率為94.2%,這表明齲齒在我國(guó)口腔健康問題中占據(jù)著重要地位。未經(jīng)及時(shí)治療的齲齒有可能沿牙根向更深層組織擴(kuò)散,進(jìn)而引發(fā)根尖周炎、頜骨骨髓炎、間隙感染,甚至導(dǎo)致全身性感染。因此,加強(qiáng)口腔中齲齒的檢測(cè)并及時(shí)終止齲齒病變,對(duì)于維護(hù)整體口腔健康至關(guān)重要。
近年來,一些先進(jìn)的成像技術(shù)和計(jì)算機(jī)輔助診斷(CAD)系統(tǒng)已經(jīng)在齲齒檢測(cè)和預(yù)防方面取得了一些進(jìn)展,如基于熒光效應(yīng)的齲齒診斷技術(shù)[3],創(chuàng)建和分析三維數(shù)字牙模型幫助醫(yī)生更全面地了解牙齒表面的微小變化,或者使用圖像分割和圖像分類兩個(gè)獨(dú)立步驟的算法實(shí)現(xiàn)齲齒的識(shí)別[4]。但是目前最突出有效的方法是通過深度學(xué)習(xí)算法構(gòu)建目標(biāo)檢測(cè)器進(jìn)行精準(zhǔn)的齲齒識(shí)別。文獻(xiàn)[5]提出一種基于遷移學(xué)習(xí)和模型融合技術(shù)的齲齒檢測(cè)網(wǎng)絡(luò)(MDfuseNet),在根尖周X光片上進(jìn)行檢測(cè),模型準(zhǔn)確率達(dá)到97.08%。文獻(xiàn)[6]采用CNN MobileNetv2網(wǎng)絡(luò)在裁剪的全景X光片中檢測(cè)第三磨牙是否有齲壞情況,實(shí)驗(yàn)顯示模型的準(zhǔn)確度達(dá)到了87%。文獻(xiàn)[7]采用級(jí)聯(lián)的ResNet網(wǎng)絡(luò)在根尖周X光片中進(jìn)行齲齒和根尖周炎的自動(dòng)化診斷,[F1]分別為82.9%和82.8%,模型的表現(xiàn)優(yōu)于年輕醫(yī)生的診斷結(jié)果。文獻(xiàn)[8]采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)口腔照片中的齲齒進(jìn)行檢測(cè),實(shí)驗(yàn)結(jié)果表明,CNN能夠正確檢測(cè)92.5%病例的齲齒。文獻(xiàn)[9]根據(jù)SSD算法的特點(diǎn),開發(fā)了一種卷積神經(jīng)網(wǎng)絡(luò)判斷口腔照片中是否存在齲齒并對(duì)齲齒位置進(jìn)行定位,結(jié)果表明,模型達(dá)到了64.6%的定位精度。文獻(xiàn)[10]對(duì)Faster R?CNN、YOLOv3、RetinaNet、SSD四種算法在檢驗(yàn)通過智能手機(jī)拍攝的口腔照片中是否存在齲齒進(jìn)行了比較,研究表明,YOLOv3和Faster R?CNN算法模型在通過智能手機(jī)圖像診斷齲齒方面的臨床應(yīng)用前景廣闊。
但是總體而言,目前大多數(shù)研究主要聚焦于通過X光片檢測(cè)齲齒。口腔X光片需要經(jīng)專業(yè)培訓(xùn)的醫(yī)療人員使用專業(yè)的設(shè)備進(jìn)行拍攝,在醫(yī)療資源緊缺的地區(qū),醫(yī)護(hù)人員的專業(yè)培訓(xùn)和昂貴的設(shè)備增加了口腔X光片獲取的難度,制約了口腔健康水平的改善。目前有關(guān)手機(jī)拍攝的口腔照片的齲齒檢測(cè)研究還比較少,其檢測(cè)精度不夠高,模型不夠輕量化,不利于后續(xù)在移動(dòng)設(shè)備的部署。因此構(gòu)建準(zhǔn)確的、輕量化的口腔齲齒診斷系統(tǒng),用來協(xié)助醫(yī)生進(jìn)行更有效的醫(yī)療診斷,減少醫(yī)生工作量,提高患者對(duì)預(yù)防齲齒的意識(shí)是非常有必要的。
口腔環(huán)境復(fù)雜,對(duì)口腔中的齲齒進(jìn)行檢測(cè)時(shí)存在以下問題:在部分口腔圖像中,齲齒目標(biāo)區(qū)域較小且數(shù)量眾多,分布位置較為分散,牙齒可能存在異位或重疊等情況;另外,齲齒的檢測(cè)容易受到牙漬、牙髓炎等因素的干擾,從而使得算法的穩(wěn)定性和準(zhǔn)確性受到影響。齲齒檢測(cè)算法后續(xù)在移動(dòng)設(shè)備部署的需求等也都加大了齲齒檢測(cè)的難度。
針對(duì)上述問題,本文采用YOLOv7算法并進(jìn)行改進(jìn),在YOLOv7的主干網(wǎng)絡(luò)中引入ECA?MobileOne網(wǎng)絡(luò)模塊,提高對(duì)小目標(biāo)齲齒特征的有效提取,減少模型參數(shù)量以滿足后續(xù)在移動(dòng)設(shè)備的部署需求;在YOLOv7頭部網(wǎng)絡(luò)的特征圖輸出模塊采用自適應(yīng)特征融合(ASFF),自適應(yīng)地學(xué)習(xí)各尺度特征圖在融合時(shí)的空間權(quán)重,充分利用口腔圖像中不同尺度下的關(guān)鍵特征,提高檢測(cè)的全局性和準(zhǔn)確性;后處理過程采用soft?NMS算法替換原有的非極大值抑制算法(NMS),調(diào)整候選框之間的重疊度,更精細(xì)地控制最終輸出的目標(biāo)框,改善漏檢和誤檢等問題。在保定市第二醫(yī)院口腔科采集的口腔照片數(shù)據(jù)集上進(jìn)行訓(xùn)練與測(cè)試,并與其他常用目標(biāo)檢測(cè)模型進(jìn)行齲齒檢測(cè)效果對(duì)比,以期為口腔問題的改善提供一種新思路。
1" YOLOv7目標(biāo)檢測(cè)算法
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法主要分為單階段目標(biāo)檢測(cè)算法和兩階段目標(biāo)檢測(cè)算法,作為單階段目標(biāo)檢測(cè)經(jīng)典算法,YOLO憑借其較快的運(yùn)行速度,常被用于系統(tǒng)實(shí)時(shí)檢測(cè)。2022年7月提出的YOLOv7[11]算法無論是在實(shí)時(shí)性還是準(zhǔn)確率上都取得了相對(duì)較好的效果。鑒于口腔照片中的齲齒檢測(cè)算法需要同時(shí)滿足實(shí)時(shí)性和準(zhǔn)確性要求,本文選擇YOLOv7算法作為齲齒檢測(cè)的基礎(chǔ)算法模型。
YOLOv7網(wǎng)絡(luò)由輸入層、主干網(wǎng)絡(luò)和頭部三部分組成。輸入層的主要作用是對(duì)圖像預(yù)處理,以滿足主干網(wǎng)絡(luò)的輸入大小要求。主干網(wǎng)絡(luò)的主要作用是提取不同尺度的圖像特征。主干網(wǎng)絡(luò)由若干CBS模塊、ELAN模塊和MP模塊組成,其中,ELAN模塊是一個(gè)高效的網(wǎng)絡(luò)結(jié)構(gòu),采用梯度路徑策略進(jìn)行設(shè)計(jì),使網(wǎng)絡(luò)學(xué)習(xí)到更多的特征。頭部主要用于對(duì)特征進(jìn)行解碼和分類,并輸出目標(biāo)檢測(cè)的結(jié)果。頭部主要工作流程為將經(jīng)過上采樣輸出的三個(gè)特征圖分別通過三個(gè)REPConv和卷積層輸出三個(gè)不同大小、未經(jīng)處理的預(yù)測(cè)結(jié)果。另外,NMS算法是YOLOv7算法后處理的一個(gè)重要步驟。NMS算法的作用是抑制重疊的邊界框,從而提高檢測(cè)結(jié)果的準(zhǔn)確性。
2" 改進(jìn)YOLOv7目標(biāo)檢測(cè)算法
為了提高齲齒檢測(cè)精度,減少模型參數(shù)量,本文對(duì)YOLOv7算法做出如下改進(jìn):首先,在YOLOv7的Backbone層引入ECA?MobileOne網(wǎng)絡(luò)模塊,替換原有的ELAN模塊,改善YOLOv7算法中存在著大量的冗余特征、檢測(cè)延遲性高等問題;其次,YOLOv7算法采用直接銜接或者直接相加等方式輸出多層特征,但是高層包含低層特征,直接銜接或者直接相加等方式不能充分利用不同尺度特征。因此在Head層的特征圖輸出模塊引入ASFF,自適應(yīng)地學(xué)習(xí)每個(gè)尺度的空間權(quán)重,充分融合不同尺度特征;最后,采用soft?NMS算法替換原有的非極大值抑制算法(NMS),在牙齒異位或重疊等情況下能有效提升檢測(cè)效果,改善齲齒漏檢和誤檢等問題。
改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
2.1" 融入ECA?MobileOne網(wǎng)絡(luò)模塊
針對(duì)YOLOv7算法中存在著大量的冗余特征、檢測(cè)延遲性高等問題,以及口腔照片齲齒檢測(cè)算法后續(xù)在移動(dòng)手持設(shè)備上的部署需求,將具有網(wǎng)絡(luò)復(fù)雜度低、實(shí)時(shí)性高特點(diǎn)的MobileOne網(wǎng)絡(luò)引入到Y(jié)OLOv7的Backbone層,以優(yōu)化齲齒特征的提取過程。通過觀察數(shù)據(jù)集中齲齒口腔圖像,發(fā)現(xiàn)部分口腔圖像中,齲齒分布范圍較小、數(shù)量較多,且分布位置較為分散,提取到的特征信息十分有限,容易發(fā)生齲齒漏檢和誤檢等問題。為增強(qiáng)網(wǎng)絡(luò)對(duì)通道的學(xué)習(xí)能力,將通道注意力機(jī)制ECA添加到MobileOne模塊后形成ECA?MobileOne網(wǎng)絡(luò)模塊,取代YOLOv7網(wǎng)絡(luò)Backbone層的ELAN模塊,以提高對(duì)小目標(biāo)齲齒特征的有效提取。
1) MobileOne網(wǎng)絡(luò)模塊
MobileOne[12]是2022年蘋果公司(Apple Inc.)提出的用于移動(dòng)設(shè)備的新型輕量化神經(jīng)網(wǎng)絡(luò),主要用于解決大量計(jì)算造成的精度下降和預(yù)測(cè)延遲等問題,其變體在移動(dòng)設(shè)備上的推理時(shí)間低于1 ms,相比MobileNetv3和ShuffleNetv2等目前較為主流的輕量化神經(jīng)網(wǎng)絡(luò),準(zhǔn)確度也略占優(yōu)勢(shì),可應(yīng)用到圖像分類、目標(biāo)檢測(cè)和語義分割領(lǐng)域。
MobileOne模型基于MobileNetv1設(shè)計(jì),由大量MobileOne Block構(gòu)成,MobileOne Block結(jié)構(gòu)如圖2所示。左側(cè)部分是由深度卷積和點(diǎn)卷積組成的完整結(jié)構(gòu)塊,深度卷積是分組卷積,組的數(shù)量與輸入通道數(shù)相同,深度卷積模塊最左側(cè)分支是1×1卷積,中間分支是過參數(shù)化的3×3卷積,最右側(cè)分支是一個(gè)包含BN層的跳躍連接。1×1卷積和3×3卷積都是深度卷積。點(diǎn)卷積由過參數(shù)化的1×1卷積和包含BN層的跳躍連接兩條分支構(gòu)成,其主要功能是自由改變輸出通道的數(shù)量,并且和深度卷積輸出特征圖通道融合。在模型訓(xùn)練階段,MobileOne由如圖2所示的神經(jīng)網(wǎng)絡(luò)塊堆疊而成,以提取更多特征。在模型訓(xùn)練結(jié)束后,將多分支結(jié)構(gòu)進(jìn)行重參數(shù)化為單分支結(jié)構(gòu),使模型更加簡(jiǎn)單,參數(shù)量減少,推理速度更快。
2) ECA注意力機(jī)制
注意力機(jī)制是指通過對(duì)感興趣的局部信息聚焦,使網(wǎng)絡(luò)更加關(guān)注齲齒區(qū)域,從而提高對(duì)小目標(biāo)檢測(cè)的準(zhǔn)確率。通道注意力機(jī)制已被證明在改善深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)性能方面有巨大潛力。然而,目前的方法為了實(shí)現(xiàn)更好的性能大多致力于開發(fā)更復(fù)雜的注意力機(jī)制模塊,這不可避免地增加了模型的復(fù)雜性。為了解決性能和復(fù)雜性之間的矛盾,本文引入ECA通道注意力機(jī)制,該模塊只增加少量的參數(shù),便可獲得明顯的性能增益。
如圖3所示為ECA注意力機(jī)制結(jié)構(gòu)[13],圖中的[W]和[H]分別為輸入圖像的寬度和高度,[C]為特征圖通道數(shù)。為了避免SE注意力機(jī)制中的降維操作,采用全局平均池化對(duì)特征圖的空間維度進(jìn)行壓縮,然后使用大小為[K]的一維卷積核替代兩層卷積層,以確定跨通道信息交流的覆蓋范圍。最后,通過將壓縮后的特征圖與原始特征圖相乘,完成了特征圖的重新校準(zhǔn),實(shí)現(xiàn)了網(wǎng)絡(luò)對(duì)重要特征的選擇性強(qiáng)調(diào),同時(shí)抑制了無用特征。一維卷積核大小[K]與通道數(shù)[C]成正比關(guān)系,如公式(1)所示:
[K=φC=lbCγ+bγodd] (1)
ECA注意力機(jī)制采用一維卷積,有效避免了全連接層降維帶來的副作用。自適應(yīng)卷積核大小[K]通過交互相鄰?fù)ǖ佬畔?,能夠有效捕獲口腔圖像中容易被忽略漏檢的小目標(biāo)齲齒。ECA注意力機(jī)制通過跨信道的信息交互,在不明顯增加內(nèi)存開銷和網(wǎng)絡(luò)深度的情況下,避免了口腔圖像中非目標(biāo)冗余特征的學(xué)習(xí),同時(shí)兼顧有效特征,可以有效增強(qiáng)口腔圖像中齲齒的檢測(cè)性能。
2.2" 添加自適應(yīng)特征融合(ASFF)
與其他目標(biāo)檢測(cè)模型類似,YOLOv7也采用直接銜接或者直接相加等方式輸出多層特征,但是高層包含低層特征,直接銜接或者直接相加等方式不能充分利用不同尺度特征,并且口腔圖像是復(fù)雜的,會(huì)產(chǎn)生特征冗余和背景噪聲干擾,因此本文采用一種自適應(yīng)特征融合方法[14](ASFF),自適應(yīng)地學(xué)習(xí)每個(gè)尺度的空間權(quán)重,以實(shí)現(xiàn)圖像多尺度特征的充分融合。ASFF結(jié)構(gòu)如圖4所示。
假設(shè)YOLOv7輸出的三個(gè)特征圖分別為F1、F2、F3,則三個(gè)特征圖的分辨率和通道數(shù)均不同,其分辨率分別為原始圖像的[18]、[116]和[132]。因此,每個(gè)尺度的特征層需要采用相應(yīng)的上采樣或下采樣策略以及1×1卷積進(jìn)行調(diào)整,確保不同尺度特征圖在后續(xù)處理中能夠協(xié)同工作。
以ASFF?1為例。對(duì)于F2,首先經(jīng)過1×1卷積操作,得到與F1相同的通道數(shù),然后再進(jìn)行兩次插值操作調(diào)整尺度大??;同理,對(duì)于F3,先經(jīng)過1×1卷積操作調(diào)整通道數(shù),再進(jìn)行四次插值操作調(diào)整尺度大小。最后對(duì)F1、F2和F3加權(quán)融合得到ASFF?1,具體過程如公式(2)所示:
[ASFF?1=α1ij?F1→1ij+β1ij?F2→1ij+γ1ij?F3→1ij] (2)
式中:[F2→1ij]和[F3→1ij]表示經(jīng)過尺度變換后,與F1層通道數(shù)和分辨率相同的[i,j]處的特征向量;[α1ij]、[β1ij]和[γ1ij]表示三個(gè)不同特征層第一層的空間融合權(quán)重。這些權(quán)重通過網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)得到,并且[α1ij]、[β1ij]、[γ1ij∈[0,1]],三者滿足如下關(guān)系式:
[α1ij+β1ij+γ1ij=1] (3)
定義[α1ij]、[β1ij]、[γ1ij]三者的值如式(4)~式(6)所示:
[α1ij=eλ1αijeλ1αij+eλ1βij+eλ1γij] (4)
[β1ij=eλ1βijeλ1αij+eλ1βij+eλ1γij] (5)
[γ1ij=eλ1γijeλ1αij+eλ1βij+eλ1γij] (6)
2.3" 改進(jìn)非極大值抑制算法(soft?NMS)
YOLOv7模型默認(rèn)采用NMS算法作為模型的后處理算法,傳統(tǒng)的NMS算法是通過迭代的形式篩選候選框,最大得分框不斷地與其他框做IoU操作,如果相鄰檢測(cè)框得分大于閾值,則直接設(shè)置為零。傳統(tǒng)NMS算法的分?jǐn)?shù)重置函數(shù)如公式(7)所示:
[si=si," " " IoUM,bilt;Nt0," " " IoUM,bi≥Nt] (7)
若采用傳統(tǒng)的NMS算法,在密集擁擠的場(chǎng)景中,如口腔中牙齒異位、牙齒重疊時(shí),超過閾值的相鄰檢測(cè)框的分?jǐn)?shù)被強(qiáng)制歸為零,則將導(dǎo)致對(duì)齲齒的檢測(cè)失敗,從而降低算法的檢測(cè)精確率。另外,NMS算法的閾值也很難確定,若設(shè)置過小,會(huì)出現(xiàn)檢測(cè)框誤刪的情況,若設(shè)置過大,則易出現(xiàn)誤檢等問題。
因此,本文引入soft?NMS算法進(jìn)行改進(jìn)。soft?NMS算法[15]通過修改得分重置函數(shù),為高于閾值的相鄰檢測(cè)框設(shè)置懲罰函數(shù),以降低這些檢測(cè)框的分?jǐn)?shù),而不是將其歸零。因此對(duì)于一些高分檢測(cè)框,即使在非極大值抑制階段降低了分?jǐn)?shù),也可以在后續(xù)計(jì)算中作為正確的檢測(cè)框,有效提高檢測(cè)精度和召回率。
Soft?NMS算法有線性加權(quán)和高斯加權(quán)兩種方式,線性加權(quán)如式(8)所示。在線性加權(quán)方式中,當(dāng)一個(gè)邊界框與具有最高得分的邊界框重疊超過某個(gè)閾值時(shí),該邊界框的得分會(huì)根據(jù)重疊程度線性減少,具有不連續(xù)性。高斯加權(quán)使用高斯函數(shù)來減少重疊邊界框的得分,當(dāng)兩個(gè)邊界框的重疊程度很高時(shí),得分的減少會(huì)比線性加權(quán)更加平緩。因此本文采用高斯加權(quán)解決連續(xù)性問題,高斯加權(quán)如式(9)所示:
[si=si," " IoU(M,bi)lt;Ntsi1-IoU(M,bi)," " IoU(M,bi)≥Nt] (8)
[si=sie-IoUM,bi2σ] (9)
2.4" 整體檢測(cè)流程圖
本文采用改進(jìn)后的YOLOv7算法進(jìn)行齲齒檢測(cè),整體檢測(cè)流程如圖5所示。
首先,通過采集口腔圖像,獲取包含齲齒的數(shù)據(jù)集;隨后,對(duì)改進(jìn)的YOLOv7算法進(jìn)行訓(xùn)練,使其能夠準(zhǔn)確地識(shí)別口腔圖像中的齲齒。在訓(xùn)練過程中為了最大限度地恢復(fù)真實(shí)的口腔內(nèi)部圖像,采用數(shù)據(jù)增強(qiáng)手段對(duì)訓(xùn)練集進(jìn)行增強(qiáng),提高模型的魯棒性和泛化能力;接著對(duì)特征圖進(jìn)行預(yù)測(cè),通過模型對(duì)圖像中的齲齒目標(biāo)進(jìn)行有效識(shí)別,準(zhǔn)確地定位和識(shí)別齲齒的位置和形狀;最后,采用soft?NMS算法對(duì)模型生成的目標(biāo)候選框進(jìn)行處理,優(yōu)化檢測(cè)結(jié)果。soft?NMS算法通過調(diào)整候選框之間的重疊度,更精細(xì)地控制最終輸出的目標(biāo)框,提高檢測(cè)結(jié)果的準(zhǔn)確性。
3" 實(shí)驗(yàn)與結(jié)果分析
3.1" 數(shù)據(jù)集
3.1.1" 數(shù)據(jù)集采集
本文實(shí)驗(yàn)數(shù)據(jù)使用了在保定市第二醫(yī)院口腔科采集的包含800張齲齒口腔照片的數(shù)據(jù)集,用于拍攝的手機(jī)類型包括Honor 10X和HUAWEI Mate 40,拍攝之前未對(duì)拍攝過程中的照明條件、分辨率和曝光率等條件進(jìn)行設(shè)置,所有圖像都是用智能手機(jī)拍攝的,未使用專業(yè)設(shè)備如反射器等。在拍攝時(shí),患者盡可能要求平躺,張開口上頜咬合面與地板成90°~120°,對(duì)口腔中包含有齲齒的區(qū)域進(jìn)行拍攝,拍攝上牙時(shí),將手機(jī)攝像頭放在盡可能低的位置,從下到上拍攝;拍攝下牙時(shí),采用從上到下拍攝。拍攝時(shí),也借助常見工具,例如開口器進(jìn)行輔助。
本文數(shù)據(jù)集來源于臨床診斷,并經(jīng)過脫敏處理,取得患者同意。根據(jù)牙齒的形態(tài)特點(diǎn)及其功能的不同,牙齒可分為切牙、尖牙、前磨牙和后磨牙[16],位于中間的8顆是切牙,牙冠較薄,主要用于切割食物;切牙外側(cè)是尖牙,牙冠較為尖利,主要用于撕碎食物并送至口腔內(nèi)部;尖牙外側(cè)較為粗大的是磨牙,磨牙分為前磨牙和后磨牙,主要用于磨碎食物,幫助消化吸收。本文所采集數(shù)據(jù)集包含所有類別,且每種類別數(shù)量均勻。圖片的標(biāo)簽數(shù)據(jù)是在專業(yè)醫(yī)生的指導(dǎo)下采用LabelImg工具所標(biāo)注的,LabelImg是開源的圖像標(biāo)注工具,常用作圖像檢測(cè)、分割和分類任務(wù)的標(biāo)注,標(biāo)簽文件以XML格式保存。
3.1.2" 數(shù)據(jù)預(yù)處理
將在保定市第二醫(yī)院口腔科采集的包含800張齲齒口腔照片的數(shù)據(jù)集劃分為訓(xùn)練集、測(cè)試集、驗(yàn)證集,按6∶2∶2進(jìn)行隨機(jī)劃分,其中訓(xùn)練集480張、測(cè)試集160張、驗(yàn)證集160張。
由于口腔圖像的復(fù)雜性,齲齒的病變區(qū)域和正常區(qū)域之間可能沒有足夠的對(duì)比,易受到牙漬、牙髓炎等其他干擾因素的影響,因此,為了最大限度地恢復(fù)真實(shí)的口腔內(nèi)部圖像,采用數(shù)據(jù)增強(qiáng)手段對(duì)訓(xùn)練集進(jìn)行增強(qiáng),提高訓(xùn)練模型的泛化能力。圖像增強(qiáng)手段包括90°旋轉(zhuǎn)、180°旋轉(zhuǎn)、翻轉(zhuǎn)、調(diào)亮、調(diào)暗以及給圖像添加高斯噪聲等六種方式。通過數(shù)據(jù)增強(qiáng)方式,訓(xùn)練集擴(kuò)充到3 360張,驗(yàn)證集和測(cè)試集保持不變。
3.2" 實(shí)驗(yàn)平臺(tái)
本文使用的實(shí)驗(yàn)平臺(tái)為 Ubuntu 20.04 LTS操作系統(tǒng),CPU為Intel[?] Xeon[?] Gold 6248R,顯卡為NVIDIA GeForce RTX 3090,運(yùn)行內(nèi)存為24 GB,深度學(xué)習(xí)框架PyTorch 版本為1.13.1,CUDA版本為11.7。
3.3" 評(píng)價(jià)指標(biāo)
本文通過精確率([P])、召回率([R])、[F1]得分([F1])、平均精度的均值(mAP)和平均檢測(cè)時(shí)間對(duì)齲齒的檢測(cè)性能進(jìn)行評(píng)估,具體如式(10)~式(14)所示。
[P=TPTP+FP×100%] (10)
[R=TPTP+FN×100%] (11)
[F1=2PRP+R×100%] (12)
[AP=01PRdR×100%] (13)
[mAP=1ni=1nAPi×100%] (14)
式中:精確率[P]表示所有預(yù)測(cè)為齲齒的結(jié)果中,正確預(yù)測(cè)的比率;召回率[R]表示所有真正為齲齒的樣本中,被正確預(yù)測(cè)為齲齒的概率;[F1]得分表示精確率[P]和召回率[R]的綜合性能;平均精度的均值(mAP)衡量每類牙齒齲齒檢測(cè)率的平均好壞程度。
3.4" 網(wǎng)絡(luò)訓(xùn)練結(jié)果分析
將YOLOv7算法與改進(jìn)YOLOv7算法采用相同的實(shí)驗(yàn)平臺(tái)進(jìn)行實(shí)驗(yàn),對(duì)損失函數(shù)的收斂性和迭代過程中的mAP值變化進(jìn)行對(duì)比驗(yàn)證。圖6a)為兩種網(wǎng)絡(luò)mAP變化曲線,顯示了本文改進(jìn)的YOLOv7算法能夠顯著提高對(duì)齲齒的檢測(cè)性能。圖6b)為損失函數(shù)值變化曲線,從圖中可以看出,兩種網(wǎng)絡(luò)都隨著迭代次數(shù)的增加最終處于一個(gè)收斂的狀態(tài),但改進(jìn)YOLOv7算法的損失函數(shù)值明顯比YOLOv7算法的損失函數(shù)值要小,穩(wěn)定性也更高。
3.5" 消融實(shí)驗(yàn)
為了驗(yàn)證本文提出的改進(jìn)方法對(duì)齲齒檢測(cè)效果的提升,在YOLOv7算法的基礎(chǔ)上進(jìn)行了消融實(shí)驗(yàn),每一組實(shí)驗(yàn)都采用相同的訓(xùn)練策略,并設(shè)置相同的超參數(shù),實(shí)驗(yàn)結(jié)果如表1所示。
從表1中可以看出,每一種改進(jìn)方法都提升了齲齒的檢測(cè)效果。將ECA注意力機(jī)制添加到Y(jié)OLOv7算法主干網(wǎng)絡(luò)中,齲齒檢測(cè)精確率提高了1.8%,參數(shù)量幾乎沒有增加,這是因?yàn)镋CA注意力機(jī)制結(jié)構(gòu)中的自適應(yīng)卷積核大小交互相鄰?fù)ǖ佬畔?,使得ECA機(jī)制在不明顯增加內(nèi)存開銷的情況下,能夠有效捕獲口腔圖像中容易被忽略漏檢的小目標(biāo)齲齒。用MobileOne模塊替換YOLOv7算法主干網(wǎng)絡(luò)的ELAN模塊,平均檢測(cè)時(shí)間減少了43%,參數(shù)量減少了79%,精確率和mAP也均有增加。其原因在于模型訓(xùn)練結(jié)束后,MobileOne將多分支結(jié)構(gòu)進(jìn)行重參數(shù)化為單分支結(jié)構(gòu),使模型更加簡(jiǎn)單,參數(shù)量減少,推理速度更快。將ECA注意力機(jī)制添加到MobileOne模塊之后形成ECA?MobileOne網(wǎng)絡(luò)模塊,替換YOLOv7算法主干網(wǎng)絡(luò)的ELAN模塊,mAP比原始YOLOv7算法mAP提高了2.6%,參數(shù)量減少了77%。ECA注意力機(jī)制和MobileOne網(wǎng)絡(luò)模塊使模型展現(xiàn)出協(xié)同作用,提供了更高水平的性能。在頭部輸出層添加ASFF后,mAP提高了1.7%,檢測(cè)時(shí)間和模型參數(shù)量略有增加,都在允許范圍之內(nèi)。采用soft?NMS函數(shù)替代原有的NMS算法,mAP提高了1.2%,模型參數(shù)量幾乎不變,準(zhǔn)確率達(dá)到95.1%。這是因?yàn)閟oft?NMS算法代碼容易實(shí)現(xiàn),不增加計(jì)算量,并且soft?NMS算法通過調(diào)整候選框之間的重疊度,可更精細(xì)地控制最終輸出的目標(biāo)框。
3.6" 對(duì)比實(shí)驗(yàn)
3.6.1" 注意力機(jī)制對(duì)比實(shí)驗(yàn)
為驗(yàn)證YOLOv7算法引入ECA注意力機(jī)制的有效性,將YOLOv7算法中分別引入ECA注意力機(jī)制、CBAM注意力機(jī)制和SE注意力機(jī)制進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。
從實(shí)驗(yàn)結(jié)果可以看出,CBAM注意力機(jī)制相較于通道注意力機(jī)制對(duì)齲齒特征的提取能力較弱。SE和ECA都是通道注意力機(jī)制,但相比之下,ECA注意力機(jī)制通過引入一維卷積層來提高通道注意力,從而更高效地捕捉關(guān)鍵特征。因此在齲齒檢測(cè)過程中,將ECA注意力機(jī)制引入YOLOv7算法中,在增加的參數(shù)量較少的情況下,提升了齲齒檢測(cè)準(zhǔn)確率。
3.6.2" 輕量化神經(jīng)網(wǎng)絡(luò)對(duì)比實(shí)驗(yàn)
為評(píng)估MobileOne網(wǎng)絡(luò)模塊對(duì)模型輕量化的影響,分別用MobileOne、MobileNetv3、ShuffleNetv2網(wǎng)絡(luò)替換YOLOv7算法的ELAN模塊,并在齲齒數(shù)據(jù)集上進(jìn)行訓(xùn)練對(duì)比,檢測(cè)性能如表3所示。
YOLOv7算法引入MobileOne網(wǎng)絡(luò)模塊后,參數(shù)量減少了79%,平均檢測(cè)時(shí)間減少43%,并且準(zhǔn)確率、mAP以及[F1]值均高于其他兩種模型。YOLOv7算法的主干網(wǎng)絡(luò)中引入MobileOne網(wǎng)絡(luò)模塊,目標(biāo)檢測(cè)性能明顯提升,可實(shí)現(xiàn)模型輕量化快速檢測(cè)。
3.6.3" 與其他算法對(duì)比實(shí)驗(yàn)
為了更全面地驗(yàn)證改進(jìn)后的YOLOv7算法檢測(cè)齲齒的性能,將其與9種主流的目標(biāo)檢測(cè)算法SSD、Faster R?CNN、YOLOv3、YOLOv5s、YOLOv7、YOLOv7?tiny、RTMDet?tiny、PP?YOLOEs、YOLOv8進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果見表4。
從表4中可以看出,雖然改進(jìn)YOLOv7算法與YOLOv5s、YOLOv7?tiny、RTMDet?tiny和PP?YOLOEs算法相比,參數(shù)量略有增加,但是其mAP明顯優(yōu)于其他算法。與其他9種目標(biāo)檢測(cè)算法相比,mAP分別提高了7.9%、8.9%、8%、7.7%、5.5%、13.8%、4%、12%、9.7%。在齲齒檢測(cè)精確率和權(quán)值大小的綜合考量方面較其他算法有明顯優(yōu)勢(shì),可以有效實(shí)現(xiàn)口腔中的齲齒檢測(cè),使得在移動(dòng)設(shè)備上的部署變得更為可行。
3.6.4" 不同類別牙齒檢測(cè)對(duì)比
為了進(jìn)一步驗(yàn)證改進(jìn)YOLOv7算法對(duì)四種不同類別牙齒的齲齒檢測(cè)性能,將改進(jìn)的YOLOv7算法對(duì)四種不同類別牙齒的齲齒檢測(cè)性能與SSD、Faster R?CNN、YOLOv3、YOLOv5s、RTMDet?tiny、PP?YOLOEs、YOLOv7、YOLOv7?tiny和YOLOv8進(jìn)行了比較,數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境保持不變,實(shí)驗(yàn)結(jié)果如圖7所示。
從圖7中可以看出,相比其他檢測(cè)模型,本文提出的改進(jìn)YOLOv7算法對(duì)四種不同類別牙齒的齲齒檢測(cè)性能均表現(xiàn)出色,切牙的齲齒檢測(cè)AP為94.7%,尖牙的齲齒檢測(cè)AP為93.7%,前磨牙的齲齒檢測(cè)AP為92.9%,后磨牙的齲齒檢測(cè)AP為92.4%。結(jié)果進(jìn)一步證實(shí)了本文提出的改進(jìn)YOLOv7算法對(duì)每一種牙齒的齲齒檢測(cè)性能都有顯著提高,表明改進(jìn)策略是行之有效的。
3.7" 實(shí)驗(yàn)結(jié)果可視化分析
為了更直觀地感受改進(jìn)YOLOv7算法的效果,圖8展示了YOLOv7算法與改進(jìn)YOLOv7算法對(duì)不同類別牙齒檢測(cè)的結(jié)果。
圖8第一行為切牙的檢測(cè)對(duì)比圖,第二行和第三行為尖牙的檢測(cè)對(duì)比圖,第四行和第五行為磨牙的檢測(cè)對(duì)比圖,第六行是既有尖牙又有磨牙的檢測(cè)對(duì)比圖。從第六行的圖片可以看出,有多個(gè)牙患有齲齒時(shí),改進(jìn)YOLOv7算法能更好地減少檢測(cè)時(shí)出現(xiàn)漏檢等情況。從第三行、第五行的圖片可以看出,YOLOv7算法易受牙漬等因素的影響,改進(jìn)YOLOv7算法更容易剔除這些影響,精準(zhǔn)識(shí)別出齲齒,抗干擾性更強(qiáng),魯棒性更高。從圖8可以看出,相較于YOLOv7算法,改進(jìn)YOLOv7算法對(duì)每種類別牙齒的齲齒檢測(cè)能力均有所提升,有效地減少了漏檢和誤檢發(fā)生的次數(shù)。
4" 結(jié)" 語
深度學(xué)習(xí)在齲齒檢測(cè)領(lǐng)域的應(yīng)用為口腔醫(yī)學(xué)帶來了新的機(jī)遇,利用目標(biāo)檢測(cè)算法實(shí)現(xiàn)對(duì)齲齒的自動(dòng)化檢測(cè),不僅有助于節(jié)約醫(yī)療資源,降低醫(yī)療成本,還提高了治療效率和人們對(duì)齲齒預(yù)防的意識(shí)。本文提出的改進(jìn)YOLOv7算法旨在精準(zhǔn)地檢測(cè)口腔照片中的齲齒。在YOLOv7算法的主干網(wǎng)絡(luò)中引入ECA?MobileOne網(wǎng)絡(luò)模塊,減少了模型的參數(shù)量,提高了齲齒特征提取能力,進(jìn)而提升小目標(biāo)齲齒檢測(cè)效果。在頭部輸出層引入了自適應(yīng)特征融合,這使得模型自適應(yīng)地學(xué)習(xí)各尺度特征圖在融合時(shí)的空間權(quán)重,充分利用不同尺度的特征信息,從而提高了齲齒檢測(cè)的全局性和準(zhǔn)確性。在后處理算法引入了soft?NMS算法替換原有的NMS算法,更好地調(diào)整了候選框之間的重疊度,有效改善了齲齒漏檢和誤檢的問題。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的YOLOv7算法對(duì)齲齒檢測(cè)的精確率更高,召回率也提高,漏檢和誤檢情況減少,模型大小滿足后續(xù)在移動(dòng)設(shè)備的部署需求。為迅速普及和實(shí)施口腔醫(yī)療技術(shù)提供了可行性,為提升口腔健康水平做出了積極的貢獻(xiàn)。
注:本文通訊作者為姚竟發(fā)、滕桂法。
參考文獻(xiàn)
[1] FRENCKEN J E. The ART approach using glass?ionomers in relation to global oral health care [J]. Dental materials, 2009, 26(1): 1?6.
[2] 馮希平.中國(guó)居民口腔健康狀況:第四次中國(guó)口腔健康流行病學(xué)調(diào)查報(bào)告[C]//2018年中華口腔醫(yī)學(xué)會(huì)第十八次口腔預(yù)防醫(yī)學(xué)學(xué)術(shù)年會(huì)論文匯編.西安:中華口腔醫(yī)學(xué)會(huì),2018:14.
[3] 曾泰.基于熒光效應(yīng)的齲齒檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].重慶:重慶大學(xué),2021.
[4] PATIL S, KULKARNI V, BHISE A. Algorithmic analysis for dental caries detection using an adaptive neural network architecture [J]. Heliyon, 2019, 5(5): e01579.
[5] 張蓓蕾,畢錦桐,郭宇佳,等.基于遷移學(xué)習(xí)和模型融合的齲齒檢測(cè)[J].天津科技大學(xué)學(xué)報(bào),2023,38(5):49?56.
[6] VINAYAHALINGAM S, KEMPERS S, LIMON L, et al. Classification of caries in third molars on panoramic radiographs using deep learning [J]. Scientific reports, 2021, 11(1): 12609.
[7] LI S H, LIU J L, ZHOU Z R, et al. Artificial intelligence for caries and periapical periodontitis detection [J]. Journal of dentistry, 2022, 122: 104107.
[8] KUHNSCH J, MEYER O, HESENIUS M, et al. Caries detection on intraoral images using artificial intelligence [J]. Journal of dental research, 2021, 101(2): 158?165.
[9] ZHANG X, LIANG Y, LI W, et al. Development and evaluation of deep learning for screening dental caries from oral photographs [J]. Oral diseases, 2022, 28(1): 173?181.
[10] THANH M T G, VAN TOAN N, NGOC V T N, et al. Deep learning application in dental caries detection using intraoral photos taken by smartphones [J]. Applied sciences, 2022, 12(11): 5504.
[11] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable bag?of?freebies sets new state?of?the?art for real?time object detectors [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 7464?7475.
[12] VASU P K A, GABRIEL J, ZHU J, et al. MobileOne: An improved one millisecond mobile backbone [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 7907?7917.
[13] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 13713?13722.
[14] ZHANG R, SHI Y X, YU X Z. Pavement crack detection based on deep learning [C]// 2021 33rd Chinese Control and Decision Conference (CCDC). New York: IEEE, 2021: 7367?7372.
[15] BODLA N, SINGH B, CHWLLAPPA R, et al. Soft?NMS: Improving object detection with one line of code [C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2017: 5561?5569.
[16] 陳世賢.法齒學(xué)概論[M].北京:北京大學(xué)出版社,1992.