李健昱,王慧琴*,劉 瑞,王 可,王 展
(1. 西安建筑科技大學(xué) 信息與控制工程學(xué)院,陜西 西安 710055;2. 中國(guó)社會(huì)科學(xué)院 考古研究所,北京 100101;3. 陜西省文物保護(hù)研究院,陜西 西安 710075)
骨簽出土于漢長(zhǎng)安城未央宮遺址,數(shù)量巨大,記錄了西漢王朝地方工官向皇室和中央上繳的各種產(chǎn)品,是西漢王朝中央政府備查的重要文字資料,同時(shí)也是秦漢考古方面不可多得的寶貴研究資料,對(duì)其內(nèi)容的解讀、性質(zhì)的判定極其必要[1-2]。由于骨簽?zāi)甏眠h(yuǎn),其表面不可避免地出現(xiàn)了裂痕、磨損等紋理背景干擾,骨簽上所刻文字也存在部分粘連和缺失,因此提取骨簽文字信息需依靠文物專(zhuān)家的經(jīng)驗(yàn)。然而骨簽數(shù)量龐大,人工檢測(cè)并提取骨簽文字信息的工作量巨大,因此使用數(shù)字圖像處理等技術(shù)對(duì)骨簽文字進(jìn)行自動(dòng)檢測(cè)十分必要。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,越來(lái)越多的目標(biāo)檢測(cè)技術(shù)[3]應(yīng)用到文字檢測(cè)中,代表算法有SSD[4]、R-CNN[5]、Faster-RCNN[6]、RetinaNet[7]和YOLO[8](You Only Look Once)等。其中,Redmon 等在2016 年提出的YOLO 系列性能更高,最具有代表性。YOLO 將目標(biāo)檢測(cè)問(wèn)題視為回歸問(wèn)題,進(jìn)而將目標(biāo)和背景更好地進(jìn)行區(qū)分。Redmon 等[9]在2017 年提出YOLOv2,使用darknet-19 網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),在簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu)的同時(shí)提高了目標(biāo)檢測(cè)的準(zhǔn)確率。劉杰等[10]提出一種基于YOLOv2的改進(jìn)方法,對(duì)目標(biāo)候選框聚類(lèi)分析,并將其應(yīng)用于自然場(chǎng)景中文字符檢測(cè)中。之后,Redmon[11]在2018 年提出YOLOv3,在保持高檢測(cè)速度的同時(shí)提高了檢測(cè)精度。殷航等[12]將YOLOv3 與最大極值穩(wěn)定區(qū)域相結(jié)合,實(shí)現(xiàn)了傾斜文本行的檢測(cè)。Alexey[13]在2020 年提出YOLOv4,使用CSPDarknet53 作為主干網(wǎng)絡(luò)并采用FPN 和PAN融合特征圖,進(jìn)一步提高了檢測(cè)準(zhǔn)確率。同年,Ultralytics[14]提出了YOLOv5,模型檢測(cè)準(zhǔn)確率高于以往的目標(biāo)檢測(cè)模型且檢測(cè)速度快,YOLOv5也因此成為目前目標(biāo)檢測(cè)表現(xiàn)最好的網(wǎng)絡(luò)模型之一[15-18]。本文主要針對(duì)骨簽文字檢測(cè)。骨簽存在大量與文字特征相似的裂痕,使用YOLOv5 等現(xiàn)有技術(shù)進(jìn)行文字檢測(cè)會(huì)受到裂痕等復(fù)雜紋理背景信息的干擾,產(chǎn)生誤檢問(wèn)題。骨簽文字具有密集、粘連的特點(diǎn),現(xiàn)有技術(shù)檢測(cè)骨簽文字時(shí)會(huì)出現(xiàn)檢測(cè)框冗余,造成一框多字的問(wèn)題。
針對(duì)上述問(wèn)題,本文基于YOLOv5 提出改進(jìn)的骨簽文字檢測(cè)算法SAC-YOLOv5(Self-Attention Convolutional-YOLOv5)。該算法通過(guò)融合自注意力卷積關(guān)注骨簽文字位置信息,擴(kuò)展模型捕獲特征圖全局信息和豐富上下文信息的能力,并引入損失函數(shù)Focal-EIOU Loss 替換原網(wǎng)絡(luò)的CIOU 計(jì)算定位損失,提高模型的精準(zhǔn)定位能力。實(shí)驗(yàn)結(jié)果表明,本文算法在保持較快檢測(cè)速度的同時(shí)提高了骨簽文字的檢測(cè)精度。
為了解決現(xiàn)有檢測(cè)算法在骨簽文字檢測(cè)中的問(wèn)題,本文基于YOLOv5 提出復(fù)雜紋理背景下的密集骨簽文字檢測(cè)算法,主要包括Input 輸入端、Backbone 特征提取端、Neck 頸部端和Prediction 預(yù)測(cè)端。Input 端使用Mosaic 數(shù)據(jù)增強(qiáng)和自適應(yīng)錨框(Anchors)計(jì)算方法。Backbone 部分由切片結(jié)構(gòu)Focus、4 次卷積ConV、C3 模塊、空間金字塔池化(Spatial pyramid pooling,SPP)模塊和SAC 模塊組成。SAC 模塊加強(qiáng)網(wǎng)絡(luò)對(duì)骨簽文字深層特征的注意,同時(shí)擴(kuò)展模型捕獲特征圖全局信息和豐富上下文信息的能力,抑制骨簽圖像上裂痕對(duì)文字檢測(cè)的干擾;Neck 端采用FPN(Feature Pyramid Networks)[19]和PAN(Pyramid Attention Network)[20]結(jié)構(gòu)融合特征圖,經(jīng)過(guò)下采樣輸出端生成3 個(gè)特征圖用于檢測(cè)不同尺寸的目標(biāo),同時(shí)引入損失函數(shù)Focal-EIOU Loss 替換原始網(wǎng)絡(luò)的CIOU 計(jì)算定位損失。其中,EIOU 使用預(yù)測(cè)框和真實(shí)框的寬和高損失代替縱橫比,從而使預(yù)測(cè)框與真實(shí)框的寬度和高度之差最小,生成預(yù)測(cè)框時(shí)能剔除大于真實(shí)框的預(yù)測(cè)框,解決了骨簽文字檢測(cè)框冗余的問(wèn)題。本文提出的骨簽文字檢測(cè)算法SAC-YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 SAC-YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 SAC-YOLOv5 network architecture
骨簽由于年代久遠(yuǎn),出現(xiàn)了與文字特征相似的裂痕、磨損等復(fù)雜紋理背景信息,在進(jìn)行文字特征提取時(shí)困難較大。為了從裂痕等信息干擾的骨簽圖像中提取到更精確的骨簽文字特征信息并使模型聚焦到這些文字信息上,本文提出自注意力卷積模塊,具體結(jié)構(gòu)如圖2 所示。
圖2 SAC 模塊結(jié)構(gòu)Fig.2 Self-attention convolutional module architecture
輸入特征圖F∈RH×W×C首先經(jīng)過(guò)全局平均池化操作,然后進(jìn)行卷積核大小為k的一維卷積操作,并經(jīng)過(guò)Sigmoid 激活函數(shù)得到各個(gè)通道的權(quán)重,最后將權(quán)重與原始輸入特征圖對(duì)應(yīng)元素相乘,得到的特征圖輸入到空間自注意力機(jī)制中,沿空間維度展開(kāi)得到矩陣F∈RN×C,其中N=H·W,C表示不同圖像區(qū)域的高維向量。然后通過(guò)可學(xué)習(xí)的權(quán)重矩陣Wq∈RC×C',Wk∈RC×C',Wv∈RC×C'分別計(jì)算得到Q、K、V3 個(gè)向量,其中C'=C/r,r>1,r是還原比,用于減少向量的維數(shù),并計(jì)算注意權(quán)重和低維子空間中的值。
式中:α∈RN×N為自注意矩陣;aij是區(qū)域i對(duì)區(qū)域j的注意權(quán)重;V∈RC×C'是低維子空間中的權(quán)重矩陣,使用Wv∈RC×C'將其投射到原始子空間獲得自注意特征圖S∈RC×C',最后通過(guò)殘差連接獲得最終的輸出。
其中,a是初始化為0 的可訓(xùn)練標(biāo)量參數(shù)。SAC模型首先學(xué)習(xí)局部鄰域周?chē)膱D像特征,然后逐漸繼續(xù)學(xué)習(xí)全局依賴(lài)關(guān)系,為網(wǎng)絡(luò)提供具有豐富內(nèi)容和上下文信息的特征圖,在關(guān)注骨簽文字位置信息的同時(shí)擴(kuò)展模型捕獲特征圖全局信息和豐富上下文信息的能力,優(yōu)化特征提取時(shí)混淆裂痕特征與文字特征的問(wèn)題。
YOLOv5 的損失函數(shù)由分類(lèi)損失、定位損失和置信度損失組成。其中定位損失使用CIOU[21]計(jì)算。CIOU 考慮了邊界框回歸的重疊面積、中心點(diǎn)距離、縱橫比,其計(jì)算公式為:
其中:IOU 為交并比,b和bgt分別表示預(yù)測(cè)框和真實(shí)框的中心點(diǎn),ρ(·)表示歐幾里得距離,c表示包含預(yù)測(cè)框和真實(shí)框的最小外接矩的對(duì)角線(xiàn)長(zhǎng)度,α是用于平衡比例的參數(shù):
v用于衡量預(yù)測(cè)框和真實(shí)框?qū)捄透咧g的比例一致性:
式中:wgt、hgt代表真實(shí)框的寬和高,w和h代表預(yù)測(cè)框的寬和高。
由公式(7)可得,CIOU 使用的是預(yù)測(cè)框和真實(shí)框的寬和高的相對(duì)比例,并不是寬和高的值。根據(jù)縱橫比v的定義,可以看出當(dāng)預(yù)測(cè)框的寬和高和真實(shí)框的比例滿(mǎn)足:
即預(yù)測(cè)框和真實(shí)框的寬高縱橫比呈線(xiàn)性比例時(shí),CIOU 中添加的相對(duì)比例的懲罰項(xiàng)便不再起作用。從預(yù)測(cè)框的寬和高的相對(duì)于v的公式:
可以推導(dǎo)出:
預(yù)測(cè)框w和h的梯度值和具有相反的符號(hào)。在預(yù)測(cè)框回歸過(guò)程中w和h其中某一個(gè)值增大時(shí),另外一個(gè)值必須減小,不能同增或者同減。由于骨簽文字具有密集和粘連的特點(diǎn),因此在骨簽文字檢測(cè)時(shí)使用CIOU 作為損失函數(shù),縱橫比v決定了預(yù)測(cè)框的寬和高不能同增或同減,總是會(huì)出現(xiàn)預(yù)測(cè)框大于真實(shí)框的情況,從而導(dǎo)致一框多字的問(wèn)題。
為了解決這個(gè)問(wèn)題,采用EIOU[22]替換原網(wǎng)絡(luò)的CIOU 計(jì)算定位損失。EIOU 計(jì)算公式為:
其中,cw和ch分別是預(yù)測(cè)框和真實(shí)框最小外接矩形的寬和高。EIOU 將損失函數(shù)分成了3 個(gè)部分:預(yù)測(cè)框和真實(shí)框的重疊損失LIOU、預(yù)測(cè)框和真實(shí)框的中心距離損失Ldis以及預(yù)測(cè)框和真實(shí)框的寬高損失Lasp。
EIOU 損失的前兩部分延續(xù)CIOU 中的方法,第三部分使用寬高損失代替縱橫比。寬高損失使預(yù)測(cè)框與真實(shí)框的寬度和高度之差最小,生成預(yù)測(cè)框時(shí)能剔除大于真實(shí)框的預(yù)測(cè)框,解決檢測(cè)框冗余問(wèn)題。圖3 是CIOU 和EIOU 損失預(yù)測(cè)框迭代過(guò)程對(duì)比圖,橘色點(diǎn)線(xiàn)框是真實(shí)框,黑色實(shí)線(xiàn)框是預(yù)先設(shè)定的錨框,紅色虛線(xiàn)框和藍(lán)色虛線(xiàn)框是預(yù)測(cè)框的回歸過(guò)程。
圖3 預(yù)測(cè)框迭代過(guò)程對(duì)比圖Fig.3 Prediction box iterative process comparison diagram
為了更好地提高模型性能,使用Focal L1 損失針對(duì)文字和裂痕內(nèi)容失衡的樣本將錯(cuò)誤率大的地方設(shè)置更高梯度,如式(13)所示,降低低質(zhì)量骨簽樣本對(duì)模型性能的影響。通過(guò)整合EIOU損失和Focal L1 損失,得到最終的Focal-EIOU 損失,如式(14)所示:
骨簽數(shù)據(jù)來(lái)源于中國(guó)社會(huì)科學(xué)院考古研究所。由于年代久遠(yuǎn),表面不可避免地出現(xiàn)了裂痕。骨簽文字具有密集、粘連的特點(diǎn),骨簽圖像樣本及標(biāo)注結(jié)果如圖4 所示。本文骨簽文字?jǐn)?shù)據(jù)集采用“LabelImg”標(biāo)注工具進(jìn)行人工標(biāo)注,標(biāo)注信息存儲(chǔ)至txt 標(biāo)簽文件,共計(jì)標(biāo)注2 500 張骨簽數(shù)據(jù),按照8∶2 的比例劃分訓(xùn)練集和驗(yàn)證集。
圖4 實(shí)驗(yàn)數(shù)據(jù)Fig.4 Experimental data
YOLOv5 中使用了Mosaic 數(shù)據(jù)增強(qiáng)方法,主要思想是將4 張圖片隨機(jī)裁剪縮放后拼接成一張圖片,在豐富數(shù)據(jù)集的同時(shí)增加小樣本目標(biāo),提高網(wǎng)絡(luò)的魯棒性。一次性計(jì)算4 張骨簽圖片使模型對(duì)內(nèi)存的需求降低。本文在Mosaic 思想的基礎(chǔ)上,將8 張骨簽圖片隨機(jī)裁剪、排列、縮放后拼接成一張圖片,以此增加骨簽圖像中小文字樣本,增加數(shù)據(jù)多樣性并提升網(wǎng)絡(luò)的訓(xùn)練速度。數(shù)據(jù)增強(qiáng)的流程如圖5 所示。
圖5 數(shù)據(jù)增強(qiáng)Fig.5 Data enhancement
本文使用Windows10 64 位系統(tǒng),實(shí)驗(yàn)環(huán)境為python3.7、pytorch1.8.0、cuda11.1。所有的模型都在NVIDIA RTX 3090Ti GPU 運(yùn)行,在相同超參數(shù)下進(jìn)行訓(xùn)練、驗(yàn)證和測(cè)試。圖片設(shè)置為640×640 JPG 格式,Batch size設(shè)置為8,訓(xùn)練200個(gè)epoch,選取準(zhǔn)確率(Precision,P)、召回率(Recall,R)、平均精度均值(mAP0.5)、每秒10 億次的浮點(diǎn)運(yùn)算數(shù)(GFLOPs)、權(quán)重大小(Weight)和實(shí)際檢測(cè)速度(FPS)作為評(píng)價(jià)指標(biāo)。其中P和R的計(jì)算公式如(15)和(16)所示:
式中:TP(True Positive)表示真正例,即預(yù)測(cè)正確的文字?jǐn)?shù)量;FP(False Positive)表示假正例,即非文字樣本被預(yù)測(cè)為文字的數(shù)量;FN(False Negative)表示假負(fù)例,即文字樣本被預(yù)測(cè)為非文字的數(shù)量。GFLOPs 用于衡量訓(xùn)練模型時(shí)的計(jì)算復(fù)雜度。mAP 為學(xué)習(xí)的類(lèi)別精度均值。mAP0.5表示將交并比IOU 設(shè)為0.5 時(shí),骨簽圖像文字?jǐn)?shù)據(jù)集的AP 的平均值。精度均值A(chǔ)P 為以準(zhǔn)確率(Precision)和召回率(Recall)所圍成的曲線(xiàn)面積值。因本文檢測(cè)目標(biāo)為單類(lèi)別目標(biāo),故mAP 值與AP 值相等。mAP 計(jì)算公式如式(17)所示:
YOLOv5 目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)共有YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x 4 個(gè)模型,網(wǎng)絡(luò)深度和寬度逐次遞增。在自建骨簽文字?jǐn)?shù)據(jù)集上對(duì)YOLOv5 基礎(chǔ)模型對(duì)比,結(jié)果如表1 所示。
表1 YOLOv5 基礎(chǔ)模型結(jié)果對(duì)比Tab.1 Compared results of Yolov5 basic model
如表1 所示,隨著網(wǎng)絡(luò)深度和寬度的遞增,mAP 值基本保持一致,而計(jì)算量和模型權(quán)重文件逐漸增大,導(dǎo)致訓(xùn)練時(shí)間變長(zhǎng),檢測(cè)實(shí)時(shí)性下降明顯。本文以檢測(cè)精度和速度為側(cè)重點(diǎn)。由于在檢測(cè)精度基本保持一致時(shí),模型實(shí)時(shí)性會(huì)因?yàn)榫W(wǎng)絡(luò)規(guī)模的增大而降低,因此選擇YOLOv5s作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行改進(jìn),模型參數(shù)量和計(jì)算量較小,具有更好的實(shí)時(shí)性和檢測(cè)精度,能更好地滿(mǎn)足骨簽文字檢測(cè)的實(shí)際項(xiàng)目需求。
為驗(yàn)證引入多頭注意力機(jī)制及改進(jìn)損失函數(shù)的有效性,本文進(jìn)行消融實(shí)驗(yàn)評(píng)估不同模塊在相同實(shí)驗(yàn)條件下對(duì)骨簽文字檢測(cè)算法性能的影響。在消融實(shí)驗(yàn)中選擇YOLOv5s 作為基準(zhǔn)模型,結(jié)果如表2 所示。
表2 消融實(shí)驗(yàn)結(jié)果Tab.2 Experimental results of ablation
消融實(shí)驗(yàn)中,模型B 表明在引入SAC 模塊后,mAP0.5 在YOLOv5s 的基礎(chǔ)上提升了1.88%,證明了SAC 模塊的有效性,但檢測(cè)速度降低,分析認(rèn)為SAC 計(jì)算需要消耗較大的計(jì)算資源,且檢測(cè)速度與計(jì)算復(fù)雜度呈負(fù)相關(guān)性。因此,為提高訓(xùn)練效率,本文只在特征提取網(wǎng)絡(luò)中插入SAC 結(jié)構(gòu)。模型C 驗(yàn)證了改進(jìn)損失函數(shù)后的網(wǎng)絡(luò)性能,mAP0.5 提高了1.05%,解決了骨簽文字密集、粘連產(chǎn)生的一框多字問(wèn)題。模型D 驗(yàn)證了最終改進(jìn)模型的性能,mAP0.5 比原YOLOv5s 提高了3.08%,證明了本文改進(jìn)方法對(duì)骨簽文字檢測(cè)的有效性。
為了進(jìn)一步驗(yàn)證自注意力卷積模塊的有效性,利用CAM[23]方法繪制增加SAC 模塊前后的骨簽圖像的熱力圖,結(jié)果如圖6 所示。
圖6 熱力圖對(duì)比結(jié)果Fig.6 Thermodynamic diagram comparison results
由于骨簽圖像背景復(fù)雜,文字與裂痕紋理信息過(guò)于相近,未經(jīng)過(guò)SAC 模塊的骨簽文字目標(biāo)區(qū)域激活值較低且激活范圍小,難以有效反映出真實(shí)文字目標(biāo)位置;而經(jīng)過(guò)SAC 模塊后,相對(duì)更準(zhǔn)確地在骨簽文字目標(biāo)區(qū)域形成聚焦產(chǎn)生了較高的激活值。由此可見(jiàn),本文提出的SAC 模塊有效增強(qiáng)了骨簽文字的特征,抑制了檢測(cè)中復(fù)雜紋理背景對(duì)文字檢測(cè)的干擾。
為了驗(yàn)證改進(jìn)損失函數(shù)的有效性,對(duì)改進(jìn)前后的模型檢測(cè)效果進(jìn)行可視化,結(jié)果如圖7 所示。
圖7 Focal-EIOU 改進(jìn)前后的對(duì)比結(jié)果Fig.7 Comparison results of Focal-EIOU before and after improvement
可以看出,使用CIOU 作為損失函數(shù)對(duì)粘連骨簽文字進(jìn)行檢測(cè)時(shí),出現(xiàn)了檢測(cè)框冗余現(xiàn)象;而使用Focal-EIOU 作為損失函數(shù)時(shí),完整地檢測(cè)到每個(gè)文字,驗(yàn)證了Focal-EIOU 的有效性。
為驗(yàn)證所提算法的先進(jìn)性,在自建骨簽數(shù)據(jù)集上與當(dāng)前幾種主流算法在相同訓(xùn)練環(huán)境下進(jìn)行客觀(guān)指標(biāo)對(duì)比,結(jié)果如表3 所示,P-R曲線(xiàn)如圖8所示。
表3 不同算法的對(duì)比實(shí)驗(yàn)Tab.3 Contrast experiment of different algorithms
圖8 對(duì)比實(shí)驗(yàn)的P-R 曲線(xiàn)圖Fig.8 P-R curves of contrast experiments
由圖8 實(shí)驗(yàn)結(jié)果可得,在相同實(shí)驗(yàn)條件下本文算法的精確率、召回率和平均精確率均優(yōu)于對(duì)比算法,mAP0.5 比YOLOv4 提高了11.23%;檢測(cè)速度相較于改進(jìn)前的YOLOv5s略有下降,但仍?xún)?yōu)于其他對(duì)比算法。為進(jìn)一步驗(yàn)證本文算法對(duì)骨簽文字的檢測(cè)效果,選取上述經(jīng)典檢測(cè)算法與本文算法針對(duì)含有裂痕干擾、粘連骨簽文字以及密集骨簽文字3 種典型問(wèn)題進(jìn)行測(cè)試驗(yàn)證,圖9 展示了裂痕干擾樣本。圖10 展示了粘連骨簽文字樣本。圖11 展示了密集骨簽文字樣本的檢測(cè)結(jié)果。
圖9 裂痕干擾樣本的檢測(cè)結(jié)果對(duì)比Fig.9 Comparison of detection results of crack interference samples
圖10 粘連骨簽文字樣本的檢測(cè)結(jié)果對(duì)比Fig.10 Comparison of test results of adhesive bone stick text samples
圖9 中,骨簽有嚴(yán)重的裂痕信息干擾,其他對(duì)比算法均產(chǎn)生了漏檢,本文算法則完整地檢測(cè)到裂痕干擾下的骨簽文字。圖10 為粘連骨簽文字的檢測(cè)結(jié)果,RetinaNet、YOLOv3、YOLOv4 將粘連文字檢測(cè)為一個(gè)文字,SSD 存在漏檢文字,F(xiàn)aster-RCNN、YOLOv5s產(chǎn)生了檢測(cè)框冗余問(wèn)題,本文算法則很好地檢測(cè)出粘連文字。圖11 所示為密集骨簽文字的檢測(cè)結(jié)果,SSD、YOLOv3、YOLOv4、YOLOv5s 等算法均產(chǎn)生了漏檢問(wèn)題,本文算法則完整地檢測(cè)出每個(gè)文字,檢測(cè)結(jié)果較理想。在實(shí)驗(yàn)中,發(fā)現(xiàn)本文算法檢測(cè)的置信度較低,分析認(rèn)為YOLOv5 加入了標(biāo)簽平滑,標(biāo)簽平滑是一種正則化技術(shù),它擾動(dòng)目標(biāo)變量,如果出現(xiàn)錯(cuò)誤標(biāo)簽,算法受到的影響就會(huì)更小。對(duì)比實(shí)驗(yàn)表明,本文算法相比其他對(duì)比算法能更有效地檢測(cè)骨簽文字。
針對(duì)骨簽存在裂痕等復(fù)雜紋理背景干擾、文字密集及粘連的問(wèn)題,本文提出融合自注意力卷積和改進(jìn)損失函數(shù)的骨簽文字檢測(cè)算法,建立了骨簽文字?jǐn)?shù)據(jù)集,基于此數(shù)據(jù)集進(jìn)行訓(xùn)練和對(duì)比實(shí)驗(yàn)。首先,使用Mosaic 數(shù)據(jù)增強(qiáng),增加小樣本目標(biāo),提升網(wǎng)絡(luò)的訓(xùn)練速度;其次,設(shè)計(jì)自注意力卷積模塊加入特征提取網(wǎng)絡(luò)中,通過(guò)為文字信息分配更大的權(quán)重增強(qiáng)網(wǎng)絡(luò)對(duì)骨簽文字特征的注意,同時(shí)綜合利用各子空間的特征信息,緩解單純使用自注意力機(jī)制產(chǎn)生的過(guò)度集中自身位置信息的問(wèn)題,從全局提取出更多的有效特征,獲得更豐富的上下文信息,抑制骨簽圖像上裂痕對(duì)文字檢測(cè)的干擾;最后,采用Focal-EIOU 損失函數(shù)替換原網(wǎng)絡(luò)的CIOU 進(jìn)行優(yōu)化,使用寬高損失使預(yù)測(cè)框與真實(shí)框的寬度和高度之差最小,提高模型的精準(zhǔn)預(yù)測(cè)能力。實(shí)驗(yàn)結(jié)果表明,本文算法針對(duì)骨簽文字檢測(cè)的mAP0.5 達(dá)到了93.35%,在檢測(cè)速度基本不變的情況下,有效增強(qiáng)了YOLOv5 的魯棒性和骨簽文字的檢測(cè)能力,解決了大量檢測(cè)框冗余、漏檢和誤檢的問(wèn)題,對(duì)復(fù)雜紋理背景下的密集粘連骨簽文字檢測(cè)任務(wù)更為適用。