• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多類別形態(tài)的未隸定青銅器銘文細(xì)粒度識別

      2024-10-14 00:00:00劉可欣王慧琴王可王展王宏
      計算機應(yīng)用研究 2024年10期

      摘 要:未隸定銘文的識別主要依靠傳統(tǒng)卷積網(wǎng)絡(luò)提供單一的全局特征,卻忽略了部位識別和特征學(xué)習(xí)的關(guān)系,導(dǎo)致模型難以充分表達復(fù)雜形態(tài)的文字構(gòu)造,進而產(chǎn)生識別誤差。針對上述問題,提出了一種姿態(tài)對齊的多部位特征細(xì)粒度識別模型(MP-CNN)。在第一個階段,構(gòu)建空間轉(zhuǎn)換器引導(dǎo)銘文統(tǒng)一字形姿態(tài),輔助模型準(zhǔn)確定位文字的鑒別性部位;在第二個階段,構(gòu)建級聯(lián)的ECA(efficient channel attention)注意力機制引導(dǎo)特征通道組合,定位多個獨立的鑒別性部位,并通過相互增強的方式細(xì)?;靥崛°懳牡男螒B(tài)特征,解決復(fù)雜形態(tài)的文字識別問題;在第三個階段,構(gòu)建特征融合層獲取識別結(jié)果。實驗表明,該算法在銘文標(biāo)準(zhǔn)數(shù)據(jù)集和多類別形態(tài)數(shù)據(jù)集上的識別準(zhǔn)確率分別為97.25%和97.18%,相比于傳統(tǒng)卷積網(wǎng)絡(luò)ResNet34分別提升4.63%和8.89%。結(jié)果顯示,該算法能夠有效針對銘文實際形態(tài)的獨特性,實現(xiàn)未隸定銘文的細(xì)粒度識別。

      關(guān)鍵詞:未隸定青銅器銘文; 細(xì)粒度識別; 姿態(tài)對齊; ECA注意力機制; 特征融合

      中圖分類號:TP391.1 文獻標(biāo)志碼:A

      文章編號:1001-3695(2024)10-045-3194-07

      doi:10.19734/j.issn.1001-3695.2023.11.0594

      Fine-grained recognition of untranscribed bronze inscriptions based on multi-category morphology

      Liu Kexin1, Wang Huiqin1, Wang Ke1, Wang Zhan2, Wang Hong2

      (1.School of Information & Control Engineering, Xi’an Univversity of Architecture & Technology, Xi’an 710055, China; 2.Shaanxi Provincial Institute of Cultural Relics Protection, Xi’an 710075, China)

      Abstract:Fine-grained recognition of untranscribed bronze inscriptions relies on traditional convolutional neural networks. However, this method used overlooks the relationship between localization and feature learning, leading to difficulties in accurately representing the complex structures of the text and resulting in recognition errors. This paper proposed a model, named MP-CNN, addressed this issues through a pose-aligned multi-part fine-grained recognition approach. In the first stage,it employed a spatial transformer to guide inscriptions to adopt a consistent glyph posture, aiding the model in accurately locating key text regions. The second stage incorporated constructing a cascaded efficient channel attention(ECA) mechanism to guide the combination of feature channels, locating multiple independent discriminative regions and refining the extraction of morphological features for complex text structures. Finally, in the third stage, it built a feature fusion layer to obtain the recognition results. Experimental results demonstrate that the algorithm achieves recognition accuracies of 97.25% and 97.18% on stan-dard and multi-category morphology datasets, respectively. Compared to the traditional convolutional network ResNet34, the method exhibits improvements of 4.63% and 8.89% on these datasets. The results indicate that the algorithm effectively adapts to the actual morphological variations in inscriptions, achieving fine-grained recognition of untranscribed bronze inscriptions.

      Key words:untranscribed bronze inscriptions; fine-grained recognition; pose alignment; ECA attention mechanism; feature fusion

      0 引言

      中華青銅文明源遠流長,青銅器銘文歷經(jīng)商周秦漢各個時期,記錄了不同朝代的盛衰興廢,具有寶貴的研究價值[1]。目前,待識別的青銅器銘文數(shù)量龐大,人工釋讀面臨著兩個主要難題:首先,不同類別的銘文字體存在較多相似之處,部分文字僅在偏旁部首和筆畫轉(zhuǎn)折處呈現(xiàn)細(xì)微差異,且同類別銘文存在多種變體形式,特征信息差異性大,缺乏內(nèi)在一致性;其次,青銅器年代久遠,致使其表面遭受嚴(yán)重銹蝕,產(chǎn)生大量銹斑遮蓋原有字體的偏旁部首,造成文字構(gòu)件殘缺。以上兩點導(dǎo)致銘文難以獲取與類別相匹配的特征,需要經(jīng)驗豐富的專家花費大量時間拆解文字的局部結(jié)構(gòu),再逐一比對細(xì)節(jié)特征,識別效率不高。

      銘文的多類別形態(tài)指的是文字呈現(xiàn)出多種復(fù)雜形式,包括形近銘文、變體銘文和構(gòu)件缺損銘文等不同表現(xiàn)形式。銘文識別多依賴于文字輪廓的全局特征[2]。羅彤瑤等人[3]提出融合形態(tài)特征的銘文分類方法,通過結(jié)合AlexNet網(wǎng)絡(luò)[4]和SURF(speeded-up robust features)算子[5],旨在全面提取銘文的整體輪廓特征。然而對于同類別中存在顯著差異的變體銘文和構(gòu)件缺損銘文,僅通過整體輪廓的比對缺乏可信度。

      細(xì)粒度特征學(xué)習(xí)為銘文識別提供了新的研究方向[6] 。受該思想啟發(fā),本文提出一種適用于多類別形態(tài)銘文的識別方法(MP-CNN),通過關(guān)注銘文圖像多個獨立的鑒別部位,解決文字高類內(nèi)方差、低類間差異以及特征殘缺的問題。在模型識別中,銘文圖像的某一特征構(gòu)件能夠輕易區(qū)分其與不同類別時,卷積網(wǎng)絡(luò)將會過分地依賴這一種學(xué)習(xí)到的特征,進而忽略其他部位產(chǎn)生的貢獻。本文提出的部位識別方法,旨在通過單獨的部位對銘文圖像進行識別,學(xué)習(xí)文字具有鑒別力的細(xì)節(jié)特征,并通過相互增強的方式促進各獨立部位學(xué)習(xí)更多的細(xì)粒度特征。在模型識別銘文時,若主要鑒別部位存在殘缺,模型將定位和表示次要部位的特征,以彌補特征信息丟失導(dǎo)致的識別損失;對于形近銘文的識別,模型通過定位多個部位,獲取不同特征部位的建議,以得到類別之間更具鑒別力的細(xì)微差異;而在變體銘文的識別中,模型采用獨立的部位識別,消除對其他區(qū)域的依賴,優(yōu)化與同類別相關(guān)的一組鑒別部位,總結(jié)文字結(jié)構(gòu)的內(nèi)部共通性[7]。本文期望通過以上方式,將模型應(yīng)用于實際未隸定銘文的識別任務(wù)。

      本文的主要貢獻如下:基于多類別形態(tài)的未隸定銘文,設(shè)計了一種細(xì)粒度識別模型(MP-CNN)。首先是構(gòu)建空間轉(zhuǎn)換器[8],引導(dǎo)銘文對齊字形姿態(tài),以減少多樣化姿態(tài)對類內(nèi)空間分布的影響,輔助模型在后續(xù)任務(wù)中準(zhǔn)確定位鑒別性部位,其次是構(gòu)建級聯(lián)的ECA注意力[9]模塊,以引導(dǎo)特征通道組合,選擇性地定位多個具有獨立鑒別能力的部位,并通過相互增強的方式細(xì)?;靥崛°懳牡男螒B(tài)特征;最后是構(gòu)建特征融合層,進一步利用部位集成的能力,獲取綜合識別結(jié)果,為釋讀工作提供更準(zhǔn)確的參考意見。

      1 相關(guān)工作

      1.1 圖像姿態(tài)對齊

      青銅器銘文類別繁多,不同書寫者鏨刻的變體形式風(fēng)格迥異[10],例如字體的大小、位置和形態(tài)章法均各有千秋。傳統(tǒng)卷積網(wǎng)絡(luò)已被證實缺乏平移不變性[11],當(dāng)銘文字體的結(jié)構(gòu)位置發(fā)生偏移時,將會對識別結(jié)果產(chǎn)生影響。Wang等人[12]借助關(guān)鍵點估計算法學(xué)習(xí)圖像的特征節(jié)點,并通過圖卷積層匹配節(jié)點之間的關(guān)系信息,從而實現(xiàn)特征對齊。然而,銘文字體結(jié)構(gòu)多變,缺乏明確的特征節(jié)點。Zhang等人[13]借助圖像的局部特征信息,動態(tài)計算相似部位間的特征距離,以實現(xiàn)部位的姿態(tài)對齊。Liu等人[14]采用網(wǎng)絡(luò)分層對齊的策略,以逐步校準(zhǔn)圖像的局部特征,解決姿態(tài)之間的空間錯位問題。然而,由于銘文結(jié)構(gòu)的特殊性,僅改變文字的局部形態(tài)易引起類別變化,所以期望模型能夠基于字體的整體結(jié)構(gòu),對文字特征進行粗略對齊。其次,本文旨在卷積網(wǎng)絡(luò)的層結(jié)構(gòu)中使用姿態(tài)對齊模塊,從而與網(wǎng)絡(luò)形成端到端的學(xué)習(xí),以協(xié)助特征提取模塊從字體多樣的姿態(tài)中推斷出期望的形態(tài)輪廓,動態(tài)地矯正特征部位,達到縮小類內(nèi)差異的目的。圖1為“元”字的部分變體形式,圖(a)中可以看出同類別銘文具有多樣化的書寫風(fēng)格,文字的結(jié)構(gòu)位置和形態(tài)大小均有差別。圖(b)中通過空間轉(zhuǎn)換器將銘文的空間位置、大小和姿態(tài)進行統(tǒng)一對齊。

      1.2 細(xì)粒度圖像識別

      細(xì)粒度圖像識別將目標(biāo)對象劃分為多個部分,主要方法分為強監(jiān)督和弱監(jiān)督模式下的特征學(xué)習(xí)兩類。強監(jiān)督方法除了使用類別級標(biāo)簽外,還利用邊界框等額外注釋定位圖像的關(guān)鍵區(qū)域。 Zhang等人[15]提出基于目標(biāo)層面的R-CNN方法,利用標(biāo)注框輔助模型檢測物體的關(guān)鍵部位。Huang等人[16]提出借助標(biāo)注部位的堆疊策略,通過雙分支結(jié)構(gòu)定位目標(biāo)對象的局部區(qū)域。Diao等人[17]基于多元異構(gòu)數(shù)據(jù)提出一種聯(lián)合學(xué)習(xí)的方法,通過融合視覺和元信息為模型提供充足的識別特征。然而,這些方法依賴于注釋等額外信息,難以適用于大規(guī)模的銘文數(shù)據(jù)集。弱監(jiān)督方法僅利用類別級標(biāo)簽,通過類激活映射等端到端的訓(xùn)練方式來定位鑒別區(qū)域。Hu等人[18]提出一種雙線性注意力機制,用于定位圖像的鑒別部位,并將定位區(qū)域進行裁剪和放大操作,從而捕獲圖像深層的細(xì)節(jié)特征。Wang等人[19]應(yīng)用強大域適應(yīng)性的ResNet50 IBN作為主干網(wǎng)絡(luò),增強模型特征提取的穩(wěn)健性,并通過HDBSCAN算法聚類相鄰特征,以引導(dǎo)模型學(xué)習(xí)類別間的鑒別信息。Chou等人[20]提出一種高溫細(xì)化模塊,通過逐層學(xué)習(xí)圖像的全局和局部特征,以兼顧上下文結(jié)構(gòu)的同時捕捉更為精細(xì)的鑒別特征。此外,該模型還結(jié)合了背景抑制模塊用于去除圖像噪聲,以增強鑒別信息,實現(xiàn)相似圖像的區(qū)分。然而,這些方法忽略了部位識別和特征學(xué)習(xí)的關(guān)系。獨立的部位識別可以消除部位之間的依賴關(guān)系,進而優(yōu)化相關(guān)部位的特征學(xué)習(xí),提取更為準(zhǔn)確的歧視性特征。同時,次要的鑒別部位也應(yīng)在圖像識別中受到關(guān)注,當(dāng)主要特征不滿足于鑒別相似的目標(biāo)對象時,次要特征則起到關(guān)鍵的補充作用,這一點在識別形近銘文和構(gòu)件缺損時尤為重要。

      圖2展示了三組不同類別的形近銘文,可以看出每組銘文具有相似的形態(tài)結(jié)構(gòu),其理想的鑒別部位僅在局部節(jié)點、筆畫轉(zhuǎn)折和偏旁構(gòu)件等位置存在細(xì)微差異。

      圖3展示了多種形態(tài)的銘文圖像。正常形態(tài)的銘文圖像具有清晰的字體輪廓和完整的形態(tài)結(jié)構(gòu),構(gòu)件缺損的銘文圖像存在構(gòu)件缺失。在第二行的銘文圖像中,分別存在筆畫缺失和部首缺失;在第三行的銘文圖像中,分別存在噪斑和斷痕。這些因素破壞了原始銘文字體的整體結(jié)構(gòu)特征。

      2 多注意力引導(dǎo)的卷積神經(jīng)網(wǎng)絡(luò)

      青銅器銘文數(shù)據(jù)集涵蓋了形近銘文、變體銘文以及構(gòu)件缺損銘文等多種類別形式,具有高類內(nèi)方差和低類間差異的特點。本文提出了一種細(xì)粒度識別的方法,即MP-CNN模型,旨在通過部位識別學(xué)習(xí)銘文鑒別性的特征,以解決實際場景中未隸定銘文的識別問題。模型結(jié)構(gòu)通過姿態(tài)對齊、部位定位和特征融合三部分子網(wǎng)絡(luò)構(gòu)成,如圖4所示。在MP-CNN模型中,采用ResNet34網(wǎng)絡(luò)作為特征提取器,以提供基礎(chǔ)特征。由于銘文涵蓋眾多類別,且每個類別的樣本數(shù)量存在嚴(yán)重失衡,所以需要卷積網(wǎng)絡(luò)具備一定的深度,同時保持良好的收斂效果,以提供充足的特征通道圖,用于定位多個有效的鑒別部位。ResNet34網(wǎng)絡(luò)引入了殘差塊,即恒等映射層,通過跳躍連接的方式,有效解決了不均衡數(shù)據(jù)在超深結(jié)構(gòu)中容易過擬合的問題,從而不斷挖掘銘文圖像中各種鑒別性特征。

      2.1 姿態(tài)對齊模塊

      姿態(tài)對齊模塊旨在降低銘文的類內(nèi)空間分布,輔助模型在后續(xù)任務(wù)中準(zhǔn)確定位鑒別性部位。主要起到兩個作用:首先,通過空間變換器降低銘文姿態(tài)對識別的干擾,使卷積網(wǎng)絡(luò)在一定程度上保持字體形態(tài)的空間一致性,將銘文多樣的姿態(tài)統(tǒng)一對齊為規(guī)范的、期待的樣式,有助于模型準(zhǔn)確定位鑒別性部位。其次,在銘文圖像背景中存在噪斑,通過空間變換器剪裁圖像邊緣位置的噪斑,以抑制背景噪聲。

      空間變換器由定位網(wǎng)絡(luò)、采樣網(wǎng)格和圖像采樣三部分構(gòu)成。作為可微分模塊并聯(lián)接入ResNet34網(wǎng)絡(luò)第一個卷積結(jié)構(gòu)前,對每張輸入的銘文圖片,產(chǎn)生適當(dāng)?shù)目臻g位置變換。如圖5所示,第一部分用于計算定位網(wǎng)絡(luò)的輸出參數(shù)θ,作為銘文圖像空間變換的依據(jù);第二部分利用預(yù)測的空間變換系數(shù)創(chuàng)建采樣網(wǎng)格,并定義采樣點處的像素;第三部分將輸入圖片與采樣網(wǎng)格結(jié)合,生成姿態(tài)矯正后的銘文圖片,提供給ResNet34網(wǎng)絡(luò)進行特征提取。本文模型針對銘文類別中數(shù)量的不均衡性問題,通過優(yōu)化空間變換器的網(wǎng)絡(luò)層數(shù)以及卷積核數(shù),減少對特定特征的依賴,這有效地避免了模型過度擬合每一種形態(tài)g1GjksnVqOOtUt5w/3SGrg==的銘文結(jié)構(gòu),提高網(wǎng)絡(luò)的泛化能力。

      定位網(wǎng)絡(luò)接受輸入的銘文圖像X∈Euclid ExtraaBpH×W×C,其中H、W 和C分別為輸入圖片的高度、寬度和通道數(shù)。定位網(wǎng)絡(luò)結(jié)構(gòu)采用優(yōu)化的AlexNet提取目標(biāo)特征,在其基礎(chǔ)架構(gòu)上將5層卷積減少至4層。同時,限制每一層卷積核數(shù)最多為128,以降低模型的復(fù)雜度。隨后,通過全連接層輸出預(yù)測的空間變換參數(shù)θ=floc(X),即為應(yīng)用于銘文圖片二維仿射變換的系數(shù)Aθ。

      Aθ=floc(X)=θ11θ12θ13θ21θ22θ23(1)

      其中:二維仿射系數(shù)Aθ用于網(wǎng)絡(luò)對輸入的銘文圖片進行裁剪、旋轉(zhuǎn)和縮放的操作,同時通過裁剪可以去除邊緣噪斑,從而增強圖像中的目標(biāo)對象。

      采樣網(wǎng)格用于執(zhí)行輸入銘文圖像對應(yīng)的輸出映射變換。輸出的映射圖像Y∈Euclid ExtraaBpH1×W1×C1由位于規(guī)則采樣網(wǎng)格上的像素Gi=(uti,vti)形成,其中H1、W1 和C1分別為變換后的高度、寬度和通道數(shù)。將其與二維仿射變換矩陣相結(jié)合,得到輸出銘文圖像特征映射Y在每個輸入銘文圖像特征映射X中對應(yīng)的坐標(biāo)位置,即為生成的采樣網(wǎng)格Tθ(Gi)。

      usivsi=Tθ(Gi)=Aθutivti1=θ11θ12θ13θ21θ22θ23utivti1(2)

      其中:輸入銘文圖像的采樣點由源坐標(biāo)(usi,vsi)構(gòu)成,輸出特征圖在規(guī)則網(wǎng)格上的目標(biāo)坐標(biāo)由(uti,vti)構(gòu)成。在生成轉(zhuǎn)換期間,通過定位網(wǎng)絡(luò)查找并框選出銘文圖像中的目標(biāo)文字,從而生成相應(yīng)的網(wǎng)格Gi。

      通過采樣網(wǎng)格,在輸入銘文特征圖X中尋找相應(yīng)空間位置坐標(biāo)(usi,vsi)處的像素值。使用雙線性插值算法作為采樣核,以同等方式計算不同通道下輸出銘文圖像的目標(biāo)像素值,將其在經(jīng)過空間轉(zhuǎn)換后映射到給定輸出坐標(biāo)處的像素值Yci。

      Yci=∑Hh∑WwXchwmax(0,1-usi-w)max(0,1-vsi-h)(3)

      其中:Xchw代表輸入銘文圖像中第c維通道特征圖對應(yīng)空間坐標(biāo)(h,w)處的像素值。通過像素間的局部相似性原理,取最鄰近的像素點生成均值,填補銘文目標(biāo)映射對應(yīng)特征通道圖中缺失的像素值Yci。同時,雙線性采樣具有可微分性質(zhì),允許使用反向傳播,將梯度損失傳遞至定位網(wǎng)絡(luò)的各層,從而不斷更新輸出參數(shù),形成完整的端到端學(xué)習(xí)。

      2.2 部位定位模塊

      部位定位模塊旨在對銘文圖像實現(xiàn)細(xì)粒度識別,解決形近銘文、變體銘文以及構(gòu)件缺損銘文的識別任務(wù)。主要起到兩個作用:首先,利用通道特征圖多樣化的峰值響應(yīng),聚類一組最高峰值響應(yīng)位置相鄰的通道特征圖,用于生成部位注意力圖,以定位一個獨立的鑒別區(qū)域。其次,通過各個獨立的部位對銘文圖像進行識別,交替學(xué)習(xí)對應(yīng)部位的識別損失,并將學(xué)習(xí)結(jié)果回流至特征提取網(wǎng)絡(luò),使得部位識別和特征學(xué)習(xí)相互增強,促進模型提取更有鑒別性的特征,從而解決文字高類內(nèi)方差、低類間差異以及特征殘缺的問題。

      如圖6所示,部位定位模塊通過級聯(lián)ECA注意力機制,對輸入的特征圖進行聚類和部位定位。將姿態(tài)對齊的銘文圖片X′ 輸入ResNet34網(wǎng)絡(luò),卷積層中不同通道對銘文形態(tài)的關(guān)鍵信息有不同的感知能力,因此,將特征通道圖展開,得到各通道對應(yīng)的激活區(qū)域。其中,將每個特征通道表示為位置向量,最高響應(yīng)值的坐標(biāo)作為此通道的代表特征。

      [l1x,l1y,l2x,l2y,…,lmx,lmy,…,lΩx,lΩy](4)

      其中:lmx、lmy代表訓(xùn)練集中第m張銘文圖片最高響應(yīng)值的坐標(biāo);Ω為訓(xùn)練集的總數(shù)量。通過聚類不同通道相鄰最高響應(yīng)位置作為一簇,代表銘文圖像的一組鑒別性部位,并對每一簇進行編碼。

      [1{1},1{2},…,1{C}](5)

      其中:C代表第m張銘文圖像經(jīng)過ResNet34網(wǎng)絡(luò)后的輸出特征通道數(shù)目;1{·}代表當(dāng)前通道是否屬于對應(yīng)簇,若屬于則設(shè)置為1,若不屬于則設(shè)置為0。由此聚類n個鑒別性部位。然而,特征通道硬性編碼的分組方式不能確保網(wǎng)絡(luò)進行反向傳播。因此,采用每個ECA注意力機制對應(yīng)一簇,代表一個部位注意力圖。同時,通過一維卷積學(xué)習(xí)跨通道的交互關(guān)系,以近似編碼產(chǎn)生各特征通道圖的權(quán)重,并希望通過訓(xùn)練,使得分組卷積層的權(quán)重向量盡可能地趨近硬性編碼。假設(shè)ResNet34提取得到銘文特征圖為X″∈Euclid ExtraaBpW×H×C,每個ECA注意力層接受各通道的輸入,產(chǎn)生一簇權(quán)重。首先,利用全局平均池化層d收縮銘文特征圖的空間維度,將其空間信息聚合為d∈Euclid ExtraaBpc,有助于通道維度間的交互。

      d(X″)=1W×H ∑W,Hi=1,j=1X″ij(6)

      其次,采用卷積操作捕獲局部通道間的依賴關(guān)系。銘文圖片中第c維特征通道圖dc,僅通過k=4個相鄰特征通道之間的相互作用生成權(quán)重qn,文獻[9]中表明當(dāng)k=4時, ECA注意力機制具有最好的魯棒性。

      qnc(d)=∑kj=1wjcdjc(7)

      其中:qn=[qn1,qn2,…,qnC]代表第n簇部位特征通道分組對應(yīng)的權(quán)重;djc是第j張通道圖的c×c維參數(shù)矩陣。通過訓(xùn)練使得權(quán)重qnc(d)≈[1{1},1{2},…,1{C}],并采用sigmoid函數(shù)歸一化特征通道,依次得到對應(yīng)的部位注意力特征圖Mn。

      Mn(X″)=sigmoid(∑Cc=1qncX″c)(8)

      最后,對得到的部位注意力特征圖進一步歸一化。

      Pn(X″)=∑Cc=1(MnX″c)(9)

      部位定位網(wǎng)絡(luò)通過級聯(lián)ECA注意力機制,引導(dǎo)通道特征圖進行分組,強調(diào)攜帶關(guān)鍵信息的特征通道,定位多個鑒別性部位。

      2.3 特征融合模塊

      特征融合模塊旨在利用部位集成獲取全面的識別結(jié)果,主要作用為:充分考慮不同部位攜帶特征的能力存在顯著差異。因此,為了避免使用均等權(quán)重以削弱最優(yōu)辨別部位在識別中的貢獻,從而采用了自適應(yīng)加權(quán)融合特征的策略,以更精準(zhǔn)地衡量各個部位的重要程度。

      將n個部位以及基礎(chǔ)特征進行加性融合,得到對應(yīng)權(quán)重α′f,從而增強模型對最優(yōu)辨別部位的關(guān)注度。

      α′f=eωf∑n+1r=1eωr f=1,2,…,n+1(10)

      其中:ωf為初始化指數(shù)權(quán)重;ωr為各特征權(quán)重。采用加性融合疊加各特征Pf,得出未隸定銘文的綜合識別得分Ftotal。

      Ftotal=∑nf=1α′fPf(11)

      3 實驗結(jié)果及分析

      本文實驗基于Windows 10操作系統(tǒng),采用PyTorch 1.7.0深度學(xué)習(xí)框架搭建模型的基本環(huán)境,實驗設(shè)備為AMD Ryzen 9 5900X 12-Core Processor 3.70 GHz處理器和NVIDIA GeForce 下RTX 3090 GPU。

      3.1 實驗數(shù)據(jù)集

      實驗數(shù)據(jù)來源于《新金文編》全三冊,該著作中銘文圖像一律采用計算機剪貼原始拓片的方式,以最大化保留出土銘文的形態(tài)構(gòu)造。為了進一步驗證提出算法在未隸定銘文識別實際應(yīng)用過程中的有效性,將其分為兩類數(shù)據(jù)集進行對照,分別為標(biāo)準(zhǔn)數(shù)據(jù)集和多類別形態(tài)的銘文數(shù)據(jù)集。

      a)標(biāo)準(zhǔn)數(shù)據(jù)集中僅包含形態(tài)結(jié)構(gòu)完整且類別間差異較大的銘文圖像,共整理出2 647個類別,每個類別包含3~80張銘文圖像。

      b)多類別形態(tài)的銘文數(shù)據(jù)集中包含了形近銘文、變體銘文和構(gòu)件缺損銘文等多種類別形態(tài)的銘文圖像,以模擬實際應(yīng)用中末隸定銘文形態(tài)特征的不穩(wěn)定性。該數(shù)據(jù)集共整理出2 647個類別,每個類別包含3~80張銘文圖像。如圖7所示為兩類數(shù)據(jù)展示。

      經(jīng)過數(shù)據(jù)預(yù)處理后,將銘文圖像的像素大小統(tǒng)一為224×224,按照6∶2∶2的分配比例隨機為兩種數(shù)據(jù)集劃分出訓(xùn)練集、驗證集和測試集,實驗數(shù)據(jù)分布如表1所示。

      3.2 實驗參數(shù)設(shè)置

      實驗采用圖4所示的MP-CNN模型結(jié)構(gòu),通過分階段訓(xùn)練的方式使用梯度下降法完成模型權(quán)重參數(shù)的學(xué)習(xí)。batch size設(shè)置為128,第一步使用Adam優(yōu)化器訓(xùn)練ResNet34_ST網(wǎng)絡(luò),epochs設(shè)置為50,learning_rate設(shè)置為0.000 1,以實現(xiàn)銘文圖像的特征提取和姿態(tài)對齊。第二步固定ResNet34_ST學(xué)到的權(quán)重,使用Adam優(yōu)化器訓(xùn)練ECA注意力機制,epochs設(shè)置為5,learning_rate設(shè)置為0.001,以引導(dǎo)模型準(zhǔn)確定位各鑒別性部位。第三步使用SGD優(yōu)化器訓(xùn)練整個模型,epochs設(shè)置為30,以全局優(yōu)化調(diào)整各部位的特征權(quán)重。

      3.3 消融實驗

      為驗證改進的空間轉(zhuǎn)換器的有效性,本文在標(biāo)準(zhǔn)和多類別形態(tài)的銘文數(shù)據(jù)集上,以ResNet34網(wǎng)絡(luò)作為識別框架,對比了空間變換器中不同配置的定位網(wǎng)絡(luò),包括傳統(tǒng)的AlexNet、精簡層數(shù)的AlexNet、精簡卷積核數(shù)的AlexNet以及本文提出的AlexNet。實驗結(jié)果如表2所示,本文模型在兩種數(shù)據(jù)集中表現(xiàn)出優(yōu)于其他對比網(wǎng)絡(luò)的性能。盡管不同銘文呈現(xiàn)多樣性的姿態(tài),但每個類別的圖像數(shù)目仍然存在不均衡性,對網(wǎng)絡(luò)的抗擬合能力提出了較高的要求。本文模型在更少參數(shù)量和計算復(fù)雜度的情況下,展現(xiàn)出更高的準(zhǔn)確性。圖8展示了姿態(tài)矯正后的效果圖,其中,圖(a)為原始的銘文圖像;圖(b)為對原始銘文圖像進行了縮小處理;而圖(c)在縮小后的銘文圖像上再次施加了旋轉(zhuǎn)操作。通過使用空間轉(zhuǎn)換器實現(xiàn)文字姿態(tài)的對齊,使得不同尺度大小和結(jié)構(gòu)位置的銘文圖像能夠在統(tǒng)一尺度下對齊至圖像中心。

      為了評估各模塊對未隸定銘文識別的有效性,本文在兩種銘文數(shù)據(jù)集上驗證了不同模塊的識別準(zhǔn)確率,包括Resnet34網(wǎng)絡(luò)、加入空間轉(zhuǎn)換器的ResNet34_ST網(wǎng)絡(luò)、兩部位定位的ResNet34_ST+ECA_2 part網(wǎng)絡(luò)、三部位定位的ResNet34_ST+ECA_3 part網(wǎng)絡(luò)和四部位定位的ResNet34_ST+ECA_4 part網(wǎng)絡(luò),實驗結(jié)果如表3所示。

      在兩種數(shù)據(jù)集上,傳統(tǒng)ResNet34模型的識別準(zhǔn)確率分別為92.62%和88.29%。通過加入空間轉(zhuǎn)換器對齊銘文姿態(tài),有效地減小了類內(nèi)空間分布的差異,使得定位區(qū)域更加精準(zhǔn),識別準(zhǔn)確率提高至93.45%和91.38% 。進一步加入兩個ECA注意力機制,用于定位兩個獨立的鑒別部位,以應(yīng)對單一焦點區(qū)域存在噪斑和特征缺失,模型的識別準(zhǔn)確率提升了3.36百分點和5.18百分點。當(dāng)加入三個ECA注意力機制時,模型的識別準(zhǔn)確率再次提高了0.42百分點和0.54百分點,表明兩個獨立的鑒別部位仍然不足以充分表達銘文多樣化的形態(tài)特征。模型加至四個ECA注意力機制后,部分焦點區(qū)域重疊,特征信息開始產(chǎn)生冗余,識別準(zhǔn)確率分別下降了0.29百分點和0.38百分點,表現(xiàn)出過擬合狀態(tài)。圖9展示在三種姿態(tài)下,五個模塊區(qū)域定位的效果圖。在圖(b)中,受到銘文字體大小和角度的影響,定位區(qū)域產(chǎn)生偏移;在圖(c)中,經(jīng)過空間變換器對齊文字姿態(tài),模型能夠更加精準(zhǔn)地定位鑒別區(qū)域;在圖(d)中,模型定位了兩個有效的鑒別部位;在圖(e)中,模型定位了三個有效的鑒別部位,其中僅存在輕微的區(qū)域重疊;在圖(f)中,重疊區(qū)域增加,藍色方框區(qū)域即為冗余定位區(qū)域。

      為了進一步分析各模塊的有效性,圖10展示了各部分消融模塊的識別準(zhǔn)確率條形圖(參見電子版)。在標(biāo)準(zhǔn)數(shù)據(jù)集中,不同模塊的識別準(zhǔn)確率均高于復(fù)雜形態(tài)下的銘文數(shù)據(jù)集,而準(zhǔn)確率差值主要源于形近銘文、變體銘文和構(gòu)件缺損銘文等識別誤差的影響。隨著空間變換器、ECA注意力機制和加權(quán)機制的逐步引入,識別準(zhǔn)確率差值由4.43百分點不斷縮小至0.07百分點。這一趨勢表明,通過逐步引入消融模塊,MP-CNN模型在實際應(yīng)用中的泛化能力得到了顯著提升。

      3.4 對比實驗

      為驗證所提出模型的有效性,本文在兩種銘文數(shù)據(jù)集上采用同等的參數(shù)配置,并以精確率(accuracy)作為評價指標(biāo),綜合評估了本文MP-CNN模型與傳統(tǒng)模型、相關(guān)銘文識別模型以及細(xì)粒度識別模型的性能表現(xiàn)。

      青銅器銘文的識別因其具有獨特的形態(tài)結(jié)構(gòu)而具有挑戰(zhàn)性,其中部分文字結(jié)構(gòu)受到嚴(yán)重的風(fēng)化腐蝕,導(dǎo)致大量團狀噪斑和構(gòu)件缺損。為驗證MP-CNN模型相較于傳統(tǒng)卷積網(wǎng)絡(luò),本文在表4中將MP-CNN模型與傳統(tǒng)網(wǎng)絡(luò)對復(fù)雜形態(tài)銘文的特征提取能力進行了對比??v向觀察,MP-CNN模型的識別準(zhǔn)確率均優(yōu)于傳統(tǒng)網(wǎng)絡(luò),這表明傳統(tǒng)網(wǎng)絡(luò)粗粒度的特征提取方式直接應(yīng)用于銘文識別,難以充分捕捉文字的形態(tài)特征。橫向觀察,在兩種數(shù)據(jù)集下,AlexNet相差5.32百分點,VGG16網(wǎng)絡(luò)相差1.22百分點,ResNet34網(wǎng)絡(luò)相差4.33百分點,而MP-CNN模型相差0.07百分點,這表明傳統(tǒng)網(wǎng)絡(luò)在應(yīng)對形近銘文、變體銘文以及構(gòu)件缺損的銘文時,難以精準(zhǔn)地定位至有效的鑒別部位。

      表5展示了兩種數(shù)據(jù)集下,MP-CNN模型和相關(guān)銘文識別模型的對比。文獻[3,7]中,分別采用兩階段映射和融合算法,旨在關(guān)注文字更多的細(xì)微特征,以區(qū)分形近字體。SENet[23]和CBAM[24]利用注意力機制引導(dǎo)模型關(guān)注文字更具鑒別性的位置,但受限于模型提取鑒別性特征的能力。相較之下,MP-CNN模型通過定位多個獨立的辨別部位,獲取更多精準(zhǔn)的鑒別特征,解決銘文圖像中高類內(nèi)方差、低類間差異的問題,并取得了最佳的性能結(jié)果。

      表6展示了兩種數(shù)據(jù)集下,本文MP-CNN模型和細(xì)粒度識別模型的對比。UFCL算法[19]通過聚類相鄰特征引導(dǎo)模型學(xué)習(xí)類別間的鑒別信息;MS-ResNet算法[25]通過融合多尺度特征獲取充分的細(xì)節(jié)信息。這兩種算法旨在獲取圖像中的歧視性特征,以區(qū)分相似圖像,在銘文標(biāo)準(zhǔn)數(shù)據(jù)集中準(zhǔn)確率分別為94.34%和91.06%。然而,在多類別形態(tài)的銘文數(shù)據(jù)集中,識別準(zhǔn)確率分別下降了3.28百分點和3.43百分點。模型主要關(guān)注于歧視性區(qū)域,從而忽略次要部位對于識別的貢獻。變體銘文多存在局部結(jié)構(gòu)的變化,且部分銘文背景存在噪斑,模型容易錯誤地將其識別為有價值的鑒別信息。HERBS算法[14]通過高溫細(xì)化模塊逐層學(xué)習(xí)圖像特征,并結(jié)合背景抑制模塊增強目標(biāo)對象;SM-ViT算法[26]通過生成目標(biāo)對象的掩碼引導(dǎo)模型提取鑒別性的局部特征;TransFG算法[27]通過部位選擇模塊引導(dǎo)模型準(zhǔn)確定位鑒別特征。這三種算法雖然增強了目標(biāo)對象,但是依賴于特征間的關(guān)系,忽略了獨立部位對識別的作用,難以用于識別構(gòu)件存在缺損的銘文。在多類別形態(tài)的銘文數(shù)據(jù)集中,識別準(zhǔn)確率分別下降2.59百分點、2.19百分點和2.28百分點。WS-DAN算法[18]和MAMC算法[28]通過類激活映射定位圖像多個具有鑒別性的局部區(qū)域,引導(dǎo)模型提取局部細(xì)節(jié)特征。這兩種算法充分利用了主要和次要鑒別部位,但是忽略了部位識別和特征學(xué)習(xí)的關(guān)系,在多類別形態(tài)的銘文數(shù)據(jù)集中,識別準(zhǔn)確率分別下降1.69百分點和1.88百分點。MP-CNN算法通過姿態(tài)對齊模塊增強目標(biāo)對象,降低圖像的類內(nèi)差異,其次利用部位識別消除特征間的依賴關(guān)系,學(xué)習(xí)文字具有鑒別力的特征。相較于前述算法,提出模型在標(biāo)準(zhǔn)數(shù)據(jù)集上識別準(zhǔn)確率為97.25%,在多類別形態(tài)的銘文數(shù)據(jù)集上,識別準(zhǔn)確率為97.18%,略微下降0.07百分點。

      圖11展示了不同算法對于標(biāo)準(zhǔn)形態(tài)的銘文(A-1)、構(gòu)件缺損的銘文(A-2)和噪斑干擾的銘文(A-3)的可視化結(jié)果,其中,區(qū)域亮度表示注意力權(quán)重的分布。文獻[8]和UFCL算法關(guān)注于大面積的焦點區(qū)域;其余算法關(guān)注于局部的多個鑒別部位。在識別存在缺損和噪斑的銘文圖像時,由于缺損位置和噪斑區(qū)域存在特征丟失,模型的關(guān)注焦點產(chǎn)生偏移。MP-CNN模型采用三個ECA注意力機制,將整片連續(xù)的焦點區(qū)域替換為獨立的部位,以捕捉主要和次要鑒別特征。即使主要特征存在偏差,該模型仍能利用剩余部位完成銘文識別。

      圖12展示了同一類別中變體銘文的可視化結(jié)果。識別此類文字的關(guān)鍵在于模型能夠準(zhǔn)確地總結(jié)字體結(jié)構(gòu)的內(nèi)在一致性。文獻[8]、UFCL算法和TransFG算法分別定位于兩個變體文字的不同結(jié)構(gòu)區(qū)域,未能準(zhǔn)確地總結(jié)出文字真正的歧視性特征;WS-DAN算法基本能夠定位于字體的相同結(jié)構(gòu)部位,較為準(zhǔn)確地總結(jié)出文字的鑒別特征;HERBS算法在定位鑒別區(qū)域時存在部分偏差。MP-CNN模型則通過消除區(qū)域依賴,分別定位于文字的三個獨立部位,其中兩個部位的定位區(qū)域基本一致,能夠較為準(zhǔn)確地總結(jié)出文字的鑒別特征,應(yīng)用于部位識別。

      圖13展示了不同類別中形近銘文的可視化結(jié)果。文獻[8]聚焦于文字的整片焦點區(qū)域,其他細(xì)粒度算法能夠更加準(zhǔn)確地定位到鑒別區(qū)域,提取文字歧視性特征。MP-CNN模型通過部位識別和特征學(xué)習(xí)相互增強,以精確獲取類別之間的細(xì)微差異。

      4 結(jié)束語

      本文提出一種細(xì)粒度識別的方法,即MP-CNN模型,該方法在多類別形態(tài)的未隸定銘文識別任務(wù)中展現(xiàn)出卓越性能。本文方法借助空間轉(zhuǎn)換器引導(dǎo)銘文對齊字形姿態(tài),從而減少多樣化姿態(tài)對類內(nèi)空間分布的影響。其次,借助獨立的鑒別部位實現(xiàn)銘文的部位識別,并通過部位識別和特征學(xué)習(xí)相互增強的方式,學(xué)習(xí)文字更具有鑒別力的細(xì)節(jié)特征,解決銘文圖像中高類內(nèi)方差、低類間差異以及部位殘缺的問題。實驗結(jié)果表明,MP-CNN模型在標(biāo)準(zhǔn)數(shù)據(jù)集和多類別形態(tài)的銘文數(shù)據(jù)集上的識別準(zhǔn)確率分別為97.25%和97.18%,均優(yōu)于對比模型,該方法在解決實際場景中未隸定銘文的識別問題上取得了顯著成效,為相關(guān)釋讀工作提供了更為準(zhǔn)確的參考意見。

      參考文獻:

      [1]王固生. 青銅時代——中國青銅器基本知識與辯偽[J]. 收藏界, 2018(5): 86-89. (Wang Gusheng. The bronze age—basic know-ledge of Chinese bronze wares and counterfeiting[J]. Collectors, 2018(5): 86-89.)

      [2]李零. 青銅器銘文考釋 (三則)[J]. 中國國家博物館館刊, 2022(4): 30-37. (Li Ling. Interpretation of three pieces bronze inscriptions[J]. Journal of the National Museum of ChLC46gJzafN2vi/pyBP7I6w==ina, 2022(4): 30-37.)

      [3]羅彤瑤, 王慧琴, 王可, 等. 融合形態(tài)特征的小樣本青銅器銘文分類算法[J]. 激光與光電子學(xué)進展, 2023, 60(4): 175-184. (Luo Tongyao, Wang Huiqin, Wang Ke, et al. Small-sample bronze inscription classification algorithm based on morphological features[J]. Advances in Laser and Optoelectronics, 2023, 60(4): 175-184.)

      [4]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

      [5]Bay H, Ess A, Tuytelaars T, et al. Speeded-up robust features(SURF)[J]. Computer Vision and Image Understanding, 2008, 110(3): 346-359.

      [6]趙婷婷, 高歡, 常玉廣, 等. 基于知識蒸餾與目標(biāo)區(qū)域選取的細(xì)粒度圖像分類方法[J]. 計算機應(yīng)用研究, 2023, 40(9): 2863-2868. (Zhao Tingting, Gao Huan, Chang Yuguang, et al. Fine-grained visual classification method based on knowledge distillation and target regions selection[J]. Application Research of Compu-ters, 2023, 40(9): 2863-2868.)

      [7]李文英, 曹斌, 曹春水, 等. 一種基于深度學(xué)習(xí)的青銅器銘文識別方法[J]. 自動化學(xué)報, 2018, 44(11): 2023-2030. (Li Wen-ying, Cao Bin, Cao Chunshui, et al. A deep learning based method for bronze inscription recognition[J]. Acta Automatica Sinica, 2018, 44(11): 2023-2030.)

      [8]Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks[J]. Advances in Neural Information Processing Systems, 2015, 28.

      [9]Wang Qilong, Wu Banggu, Zhu Pengfei, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 11534-11542.

      [10]馬承源. 中國古代青銅器[M]. 2版. 上海: 上海人民出版社, 2016: 9-41. (Ma Chengyuan. Ancient Chinese bronze wares[M]. 2nd ed. Shanghai: Shanghai People’s Publishing House, 2016: 9-41.)

      [11]Lenc K, Vedaldi A. Understanding image representations by measu-ring their equivariance and equivalence[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2015: 991-999.

      [12]Wang Guan’an, Yang Shuo, Liu Huanyu, et al. High-order information matters: learning relation and topology for occluded person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 6449-6458.

      [13]Zhang Xuan, Luo Hao, Fan Xing, et al. Alignedreid: surpassing human-level performance in person re-identification[EB/OL]. (2017). https://arxiv.org/abs/1711.08184.

      [14]Liugwqiw7QEJkGIgo/Q1bo6EA== Zhenguang, Feng Runyang, Chen Haoming, et al. Temporal feature alignment and mutual information maximization for video-based human pose estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 11006-11016.

      [15]Zhang Ning, Donahue J, Girshick R, et al. Part-based R-CNNs for fine-grained category detection[C]//Proc of the 13th European Conference on Computer Vision. Cham:Springer International Publishing, 2014: 834-849.

      [16]Huang Shaoli, Xu Zhe, Tao Dacheng, et al. Part-stacked CNN for fine-grained visual categorization[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press, 2016: 1173-1182.

      [17]Diao Qishuai, Jiang Yi, Wen Bin, et al. MetaFormer: a unified meta framework for fine-grained recognition[EB/OL]. (2022). https://arxiv.org/abs/2203.02751.

      [18]Hu Tao, Qi Honggang, Huang Qingming, et al. See better before looking closer: weakly supervised data augmentation network for fine-grained visual classification[EB/OL].(2019).https://arxiv.org/abs/1901.09891.

      [19]Wang Jiabao, Li Yang, Wei Xiushen, et al. Bridge the gap between supervised and unsupervised learning for fine-grained classification[J]. Information Sciences, 2023, 649: 119653.

      [20]Chou Poyung, Kao Yuyung, Lin Chenghung. Fine-grained visual classification with high-temperature refinement and background sup-pression[EB/OL]. (2023).https://arxiv.org/abs/2303. 06442.[21]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2014). https://arxiv.org/abs/1409.1556.

      [22]Wang Fei, Jiang Mengqing, Qian Chen, et al. Residual attention network for image classification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press, 2017: 3156-3164.

      [23]Hu Jie, Shen Li, Sun Gang. Squeeze-and-excitation networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press, 2018: 7132-7141.

      [24]Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2018: 3-19.

      [25]Du Mengxiu, Wang Huiqin, Liu Rui, et al. Research on bone stick text recognition method with multi-scale feature fusion[J]. Applied Sciences, 2022, 12(24): 12507.

      [26]Demidov D, Sharif M H, Abdurahimov A, et al. Salient mask-guided vision transformer for fine-Grained classification[EB/OL]. (2023).https://arxiv.org/abs/2305.07102.

      [27]He Ju, Chen Jieneng, Liu Shuai,et al. TransFG: a transformer architecture for fine-grained recognition[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2022: 852-860.

      [28]Sun Ming, Yuan Yuchen, Zhou Feng, et al. Multi-attention multi-class constraint for fine-grained image recognition[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2018: 805-821.

      临沭县| 乌拉特中旗| 泗阳县| 富川| 吴桥县| 楚雄市| 河池市| 怀安县| 响水县| 连云港市| 化德县| 五大连池市| 炉霍县| 五华县| 皋兰县| 喜德县| 聊城市| 电白县| 师宗县| 凉山| 清镇市| 南召县| 百色市| 海南省| 永川市| 乡宁县| 嘉义县| 金堂县| 多伦县| 济南市| 嵊州市| 保定市| 得荣县| 霍林郭勒市| 威宁| 南乐县| 集安市| 保靖县| 白山市| 衡阳市| 巴林左旗|