張志劍,夏蘇迪,劉政昊,王文慧,陳帥樸,霍朝光
(1. 武漢大學(xué)信息管理學(xué)院,武漢 430072;2. 武漢大學(xué)大數(shù)據(jù)研究院,武漢 430072;3. 武漢大學(xué)信息資源研究中心,武漢 430072;4. 南京中醫(yī)藥大學(xué)衛(wèi)生經(jīng)濟(jì)管理學(xué)院,南京 210023;5. 中國人民大學(xué)信息資源管理學(xué)院,北京 100872)
我國印章文化源遠(yuǎn)流長(zhǎng),最早的印章可以追溯到殷商晚期三方銅印,著錄于《鄴中片羽》,距今約有3700年歷史[1]。印章文化流行于戰(zhàn)國時(shí)期,其功能、章法和規(guī)制在隋唐時(shí)期初步形成并不斷完善,與詩歌、繪畫和書法共同構(gòu)成我國重要的四大傳統(tǒng)藝術(shù)形式。恰如黃賓虹[2]所言,“一印雖微,可與尋丈摩崖、千鈞重器同其精妙”。印章文化不但展示了中華民族獨(dú)特的審美特質(zhì)和情懷,也傳承和弘揚(yáng)了中華文化的精神內(nèi)涵[3]。印章通??梢苑譃楣儆『退秸聝煞N,作為一種身份憑證,被廣泛應(yīng)用于權(quán)利和身份認(rèn)證、財(cái)物封存和文書遞送等場(chǎng)景[4]。當(dāng)下的印章文化更多在于文化傳承上,用于寄托主人的志趣。由于書法繪畫作品通常具有極高的鑒賞和收藏價(jià)值,歷代藏家都會(huì)悉心保存,作品上的印章也能夠得以保留。因此,觀賞和了解印章有助于人們領(lǐng)悟作品背后的文化內(nèi)涵,提高自身審美修養(yǎng)和藝術(shù)鑒賞能力,增強(qiáng)民族文化自豪感。
篆書是一種具有結(jié)構(gòu)規(guī)整、筆畫長(zhǎng)短精確、形態(tài)簡(jiǎn)潔美觀等特點(diǎn)的字體,它通過篆刻技藝應(yīng)用于印章上,能夠確保印文的清晰、準(zhǔn)確和規(guī)范。然而,與簡(jiǎn)體字相比,篆書的使用場(chǎng)景較為有限,不再被人們所熟知。此外,印章作為主人的一種精神寄托,通常體現(xiàn)主人的巧思和獨(dú)特性。在印章內(nèi)容和布局的設(shè)計(jì)上,人們更加注重創(chuàng)新和個(gè)性化。因此,印章的樣式千差萬別,每個(gè)印章都有其獨(dú)特的魅力。此外,還演變出了象形印章。但上述情況也增加了人們理解印章的難度。在公眾欣賞書法字畫時(shí),常常會(huì)看到大量復(fù)雜的印章,這些印章記錄了作品的創(chuàng)作信息和歷史流傳過程。只是這些印章主要為篆書或象形表示,非專業(yè)人士往往難以辨識(shí)?,F(xiàn)有的識(shí)圖軟件和方法無法識(shí)別印章內(nèi)容,而通過翻閱專業(yè)印章書籍來識(shí)別印章不僅耗時(shí)耗力,往往還難以得到滿意的結(jié)果,導(dǎo)致欣賞者在面對(duì)印章圖像時(shí)產(chǎn)生沮喪感,失去了欣賞書法字畫的興趣,這也是導(dǎo)致中國傳統(tǒng)文化藝術(shù)作品不易推廣的重要原因之一。因此,急需一種印章圖像識(shí)別方法,降低用戶的理解與鑒賞的負(fù)擔(dān),并激發(fā)公眾對(duì)傳統(tǒng)文化藝術(shù)的興趣,推動(dòng)中華傳統(tǒng)文化的傳承和發(fā)展。
由于印章類別繁多,印章識(shí)別任務(wù)屬于超多分類問題,只有當(dāng)印章數(shù)據(jù)充分時(shí),神經(jīng)網(wǎng)絡(luò)模型才能發(fā)揮其較強(qiáng)的特征提取能力,從而準(zhǔn)確地識(shí)別不同印章。然而,古代印章存世數(shù)量有限,而多次出現(xiàn)的印章也較少。因此,在訓(xùn)練集數(shù)據(jù)缺乏的情況下,難以對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行充分訓(xùn)練。數(shù)據(jù)增強(qiáng)方法可以通過對(duì)有限的數(shù)據(jù)進(jìn)行變換得到新的數(shù)據(jù),在保證標(biāo)簽不變的前提下,可以對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)展。但是數(shù)據(jù)增強(qiáng)方法并非總是有效的,當(dāng)數(shù)據(jù)存在較多噪聲和錯(cuò)誤標(biāo)簽時(shí),數(shù)據(jù)增強(qiáng)方法在擴(kuò)充數(shù)據(jù)集的同時(shí)也將噪聲和錯(cuò)誤進(jìn)行了放大,導(dǎo)致模型學(xué)習(xí)到錯(cuò)誤信息。某些任務(wù)無法通過數(shù)據(jù)增強(qiáng)捕捉到數(shù)據(jù)的關(guān)鍵信息,例如,在醫(yī)學(xué)影像任務(wù)中,病變的形狀和位置具有較強(qiáng)的多樣性,常規(guī)的數(shù)據(jù)增強(qiáng)無法滿足需求。一枚相同的印章在鈐印和傳承過程中受到不同因素的影響,表現(xiàn)出較強(qiáng)的多樣性;但是同一枚實(shí)體印章鈐印出的印章圖像具有同源性,導(dǎo)致同一枚印章的圖像在形狀、尺寸、內(nèi)容等方面具有一定程度的相似性。通過分析印章圖像的特點(diǎn)進(jìn)行數(shù)據(jù)增強(qiáng)可以有效提升模型在復(fù)雜場(chǎng)景下的識(shí)別能力。因此,本文使用數(shù)據(jù)增強(qiáng)的方法應(yīng)對(duì)上述問題,并針對(duì)不同場(chǎng)景設(shè)計(jì)不同的數(shù)據(jù)增強(qiáng)策略,以確保訓(xùn)練數(shù)據(jù)的充分性。由于經(jīng)過數(shù)據(jù)增強(qiáng)的數(shù)據(jù)集較為充分,可以使用特征提取能力較強(qiáng)的ViT(vision transformer)模型提取印章特征并進(jìn)行識(shí)別,以取得較好的識(shí)別效果。
鑒于印章識(shí)別任務(wù)屬于圖像分類任務(wù),且本文使用了數(shù)據(jù)增強(qiáng)方法,本節(jié)從圖像分類方法、數(shù)據(jù)增強(qiáng)方法和印章識(shí)別方法三個(gè)角度探討當(dāng)前研究進(jìn)展。
圖像分類任務(wù)是計(jì)算機(jī)視覺領(lǐng)域的核心問題,其目的是將輸入的圖像分配到預(yù)定義的多個(gè)類別之一[5]。早期的圖像分類方法主要依賴于手工構(gòu)建特征。Lowe等[6]提出了一種尺度不變性較好的SITF(scale-invariant feature transform)方法,其在圖像旋轉(zhuǎn)、縮放、平移等變換情況下具有較強(qiáng)的魯棒性,并且能夠抑制局部遮擋和形變;然而該方法計(jì)算量較大,且對(duì)于模糊和邊緣平滑圖像的特征提取效果較差。Dalal等[7]提出一種梯度方向直方圖(histo‐grams of oriented gradient,HOG)方法,該方法通過對(duì)圖像進(jìn)行灰度化表示和gamma校正來抑制噪聲的影響。因此,該方法具有對(duì)光照和噪聲不敏感以及計(jì)算量較小的優(yōu)點(diǎn),但是該方法的尺度不變性較差。為了降低SITF方法的計(jì)算量,Bay等[8]提出了SURF(speeded up robust features)方法,Rublee等[9]提出了ORB(oriented FAST and rotated BRIEF)方法。此外,Ojala等[10]提出了一種局部二值模式(local binary pattern,LBP)方法,該方法是一種描述圖像局部紋理的方法,具有旋轉(zhuǎn)不變性和灰度不變性等優(yōu)點(diǎn)。Viola等[11]提出了一種基于一維Haar小波變換的Haar方法,可以較好地描述明暗變化,該方法常被用于人臉檢測(cè)任務(wù)。
傳統(tǒng)的圖像分類方法通常需要先手工構(gòu)建特征,再使用支持向量機(jī)、決策樹、樸素貝葉斯等算法進(jìn)行分類[12]。然而,手工構(gòu)建特征的過程不僅耗時(shí)費(fèi)力,而且無法完整地表達(dá)數(shù)據(jù)中的全部有用特征。神經(jīng)網(wǎng)絡(luò)具備的強(qiáng)大特征提取能力和自適應(yīng)學(xué)習(xí)特征的優(yōu)勢(shì)逐漸取代了手工構(gòu)建特征的過程。例如,LeCun等[13]提出了卷積神經(jīng)網(wǎng)絡(luò)(convolution‐al neural network,CNN)用于手寫數(shù)字識(shí)別,并在圖像識(shí)別領(lǐng)域中獲得了良好的分類效果。CNN模型在情感分類[14-16]、期貨價(jià)格預(yù)測(cè)[17]、股票指數(shù)預(yù)測(cè)[18]等任務(wù)中也表現(xiàn)出了卓越性能。許多研究人員針對(duì)CNN模型進(jìn)行了改進(jìn)。Simonyan等[19]提出了VGG(visual geometry group)模型,通過加深網(wǎng)絡(luò)的隱藏層以提取圖像中的隱藏特征,獲得了較好的分類效果。Szegedy等[20]提出了GoogleNet模型,該模型采用了inception module結(jié)構(gòu),通過多個(gè)分支提取圖像特征,并在不同分支間進(jìn)行拼接,進(jìn)一步提升了模型的性能。He等[21]提出了ResNet(residual network)方法,該方法基于深度殘差網(wǎng)絡(luò),通過引入residual block結(jié)構(gòu)有效抑制了神經(jīng)網(wǎng)絡(luò)的退化問題,提升了模型的訓(xùn)練穩(wěn)定性。還有研究基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)提出了RNN-CNN方法,該方法使用CNN提取圖像特征,并使用RNN來處理這些特征序列,在性能上取得了一定的提升[22]。此外,Bahdanau等[23]提出了注意力機(jī)制,作為一種機(jī)器翻譯模型。注意力機(jī)制可以區(qū)分不同特征的重要性,因此在圖像分類任務(wù)上逐漸處于領(lǐng)先位置,基于注意力機(jī)制的改進(jìn)方法ViT模型依然是當(dāng)今較為先進(jìn)的模型之一[24]。
數(shù)據(jù)增強(qiáng)方法通過對(duì)原始數(shù)據(jù)進(jìn)行一定程度的變換來增加訓(xùn)練數(shù)據(jù),從而提神經(jīng)網(wǎng)絡(luò)模型的泛化能力[25]。數(shù)據(jù)增強(qiáng)的思想可以追溯到1998年,Le‐Cun等[13]在過采樣應(yīng)用的討論中使用過采樣方法緩解類別數(shù)據(jù)不平衡的問題。過采樣方法旨在復(fù)制或生成數(shù)量較少的類別數(shù)據(jù),后續(xù)改進(jìn)的過采樣方法也均可視為數(shù)據(jù)增強(qiáng)算法[26-28]。數(shù)據(jù)增強(qiáng)可以分為基于圖像變換的方法和基于生成模型的方法兩大類別。
基于圖像變換的方法主要包括三種類型:基于幾何變換的方法,通過翻轉(zhuǎn)、模糊、縮放和裁剪等方式實(shí)現(xiàn)[29-31];基于像素變換的方法,通過改變圖像的亮度、對(duì)比度和銳化處理等方式實(shí)現(xiàn)[32];基于混合樣本的方法,通過將不同的樣本進(jìn)行混合從而生成新的圖像數(shù)據(jù)。其中,mixup方法通過對(duì)兩個(gè)不同樣本和標(biāo)簽進(jìn)行線性插值,模擬樣本和標(biāo)簽間的線性關(guān)系,從而生成新的訓(xùn)練數(shù)據(jù),提高模型的泛化能力[33]。AdaMixUp方法可以自適應(yīng)地選擇混合參數(shù),更好地適應(yīng)不同數(shù)據(jù)樣本的特征分布,解決了mixup中存在生成圖像與原始圖像都不相似的問題[34]。sample pairing方法通過將一個(gè)Batch的數(shù)據(jù)劃分為兩個(gè)子集,并將兩個(gè)子集的樣本兩兩組合生成新的數(shù)據(jù)樣本[35]。另外,RICAP(random im‐age cropping and patching)方法隨機(jī)選擇四個(gè)樣本,并從上述樣本中隨機(jī)剪裁一部分進(jìn)行拼接,進(jìn)而生成新的樣本[36]。MixStyle是一種基于風(fēng)格遷移的數(shù)據(jù)增強(qiáng)方法,該方法通過對(duì)輸入樣本的樣式和內(nèi)容進(jìn)行分離和混合,生成新的訓(xùn)練樣本以提高模型的魯棒性和泛化能力[37]。這些方法可以有效增加訓(xùn)練數(shù)據(jù)的多樣性,從而提升模型的泛化性能和魯棒性,已被廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域。
基于生成模型的數(shù)據(jù)增強(qiáng)方法是通過生成對(duì)抗網(wǎng)絡(luò)直接生成新的圖像樣本,并將這些生成的樣本加入訓(xùn)練集中。生成對(duì)抗網(wǎng)絡(luò)由生成器和判別器組成,二者相互博弈,生成器負(fù)責(zé)生成逼近真實(shí)的新樣本,判別器負(fù)責(zé)區(qū)分真假樣本,使生成的樣本質(zhì)量不斷提升[38]。常見的生成模型包括GANs(gener‐ative adversarial networks)[38]、CGANs(conditional generative adversarial networks)[39]、ACGANs(aux‐iliary classifier generative adversarial networks)[40]、DAGANs(data augmentation generative adversarial networks)[41]等,這些模型設(shè)計(jì)了不同的機(jī)制來提高生成樣本質(zhì)量和多樣性。另外,自動(dòng)編碼器(auto-encoder,AE)[42]和變分自動(dòng)編碼器(varia‐tional auto-encoder,VAE)[43]也可用于樣本生成。AE通過編碼器和解碼器實(shí)現(xiàn)樣本重構(gòu),而VAE在AE基礎(chǔ)上約束了潛在空間,使其生成的樣本更加清晰。GAN與VAE結(jié)合的VAE-GANs模型[44]可以進(jìn)一步改善生成樣本的真實(shí)性。
雖然基于生成模型的數(shù)據(jù)增強(qiáng)方法通常具有較強(qiáng)的通用性,但是這類方法的本質(zhì)是學(xué)習(xí)并模仿訓(xùn)練數(shù)據(jù)的底層特征,對(duì)關(guān)鍵特征進(jìn)行保留和組合,從而生成相似但不相同的數(shù)據(jù)。在印章識(shí)別任務(wù)中,印章圖像是由實(shí)體印章鈐印所得,具有客觀的物理形態(tài)特征。生成模型在模仿訓(xùn)練數(shù)據(jù)的過程中,可能改變或扭曲印章圖像的關(guān)鍵物理特征,從而生成不符合實(shí)際情況的樣本圖像。失真的訓(xùn)練集會(huì)降低模型的識(shí)別能力,因此,在印章識(shí)別任務(wù)中選擇基于圖像變換的數(shù)據(jù)增強(qiáng)方式更為有效。
印章識(shí)別技術(shù)研究主要針對(duì)字畫印章和公文印章兩大類,雖然兩者的應(yīng)用場(chǎng)景不同,但其識(shí)別技術(shù)具有較強(qiáng)的通用性。相關(guān)研究主要聚焦印章定位、印章提取和印章識(shí)別三個(gè)方面。印章定位主要用于識(shí)別印章的位置,印章提取能將印章主體從復(fù)雜背景中分離出來,而印章識(shí)別則需對(duì)印章含義進(jìn)行識(shí)別。由于印章數(shù)據(jù)集一般較小,因此,鮮有研究直接使用深度學(xué)習(xí)進(jìn)行模型訓(xùn)練。
楊琴等[45]提出了一種高光譜成像系統(tǒng),可對(duì)模糊印章進(jìn)行信息增強(qiáng),提高其辨識(shí)度。牟加俊等[46]開發(fā)了一種印章定位算法,該算法可通過雙板濾波和顏色增強(qiáng),準(zhǔn)確定位印章區(qū)域。楊有等[47]提出了UNet-S(UNet for seal)方法,可用于精準(zhǔn)分割民國檔案圖像中的印章。周新光等[48]利用高光譜成像技術(shù)采集圖像,結(jié)合最小噪聲分離和波段剪裁來提取辨識(shí)度不高的印章??笛喷鞯萚49]首先將印章圖像轉(zhuǎn)換到SN色彩空間,并提取印章主體,然后使用基于雙邊濾波的自適應(yīng)Canny算子來提取印章邊緣,抑制偽邊緣。葛懷東等[50]提出了一種基于HSV(hue, saturation, value)顏色空間和自適應(yīng)紅色連通分量的算法,能夠有效去除背景噪聲。陳婭婭等[51]提出了一種基于ResNet和遷移學(xué)習(xí)的古印章文本識(shí)別方法,可避免模型過擬合,提高識(shí)別準(zhǔn)確率和泛化能力。歐陽歡等[52]提出了一種多特征融合決策的印章識(shí)別算法,該算法具有準(zhǔn)確率高和抗造性好等優(yōu)點(diǎn)。戴俊峰等[53]提出了一種基于極坐標(biāo)轉(zhuǎn)換的方法,該方法根據(jù)印章元素排列特點(diǎn)展開中文印章圖像極坐標(biāo),緩解了印文方法不統(tǒng)一的問題。
印章識(shí)別的難點(diǎn)在于缺乏足夠的標(biāo)注數(shù)據(jù),導(dǎo)致神經(jīng)網(wǎng)絡(luò)模型無法得到充分訓(xùn)練,使得印章識(shí)別效果不理想。為解決這一問題,通常會(huì)采取包括數(shù)據(jù)增強(qiáng)、遷移學(xué)習(xí)、生成對(duì)抗網(wǎng)絡(luò)以及數(shù)據(jù)采集等四種策略。然而,遷移學(xué)習(xí)的應(yīng)用前提是源任務(wù)和目標(biāo)任務(wù)存在一定的相似性,而在印章識(shí)別任務(wù)中,往往難以找到具有相似數(shù)據(jù)分布的源任務(wù)或模型。生成對(duì)抗網(wǎng)絡(luò)可以通過生成與真實(shí)數(shù)據(jù)相似的新數(shù)據(jù)來緩解數(shù)據(jù)匱乏的問題,但在印章識(shí)別任務(wù)中,可能生成與印章本體偏離的圖像,這可能會(huì)對(duì)現(xiàn)實(shí)中印章圖像的識(shí)別造成干擾。數(shù)據(jù)采集則依賴于領(lǐng)域?qū)<覍?duì)額外數(shù)據(jù)進(jìn)行標(biāo)注得到的擴(kuò)充數(shù)據(jù)集,然而受制于印章圖像的多樣性,難以覆蓋所有特殊情況的印章圖像。印章圖像均由實(shí)體印章鈐印所得,通過對(duì)印章圖像的出現(xiàn)情況進(jìn)行分析,使用數(shù)據(jù)增強(qiáng)方式對(duì)上述情況進(jìn)行模擬,可以有效提高模型的泛化和識(shí)別能力。因此,數(shù)據(jù)增強(qiáng)方法與任務(wù)更為契合。在數(shù)據(jù)集充足的前提下,ViT模型使用Transformer作為特征提取器,更容易捕獲印章圖像的全局特征,從而適應(yīng)印章圖像的多種復(fù)雜情境?;谏鲜龇治?,本文提出了一種基于數(shù)據(jù)增強(qiáng)和ViT的印章識(shí)別方法,其流程如圖1所示。本文方法主要分為印章數(shù)據(jù)獲取與標(biāo)注、數(shù)據(jù)增強(qiáng)模塊和印章識(shí)別模塊三個(gè)部分,其中印章數(shù)據(jù)獲取與標(biāo)注負(fù)責(zé)從作品中截取清晰的印章圖像,并由領(lǐng)域?qū)<覙?biāo)注印章的主人和內(nèi)容。然后,使用數(shù)據(jù)增強(qiáng)模塊對(duì)標(biāo)注數(shù)據(jù)進(jìn)行多維度增強(qiáng)。最后,使用增強(qiáng)數(shù)據(jù)訓(xùn)練印章識(shí)別模塊中的ViT模型,并保存效果最佳的模型用于最終印章識(shí)別。
圖1 基于數(shù)據(jù)增強(qiáng)與ViT的印章識(shí)別模型
數(shù)據(jù)增強(qiáng)需要基于一定規(guī)模的高質(zhì)量數(shù)據(jù)集,首先需要標(biāo)注一定數(shù)量的印章圖像。圖1左側(cè)為印章數(shù)據(jù)獲取與標(biāo)注模塊,為保證基礎(chǔ)印章圖像具有較高的清晰度,需要獲取TIFF(tag image file for‐mat)格式的字畫作品圖像。TIFF格式是一種非失真的壓縮格式,可以保留原始圖像的顏色和層次。然后,從作品中逐個(gè)截取印章圖像,在截取過程中剔除缺損嚴(yán)重或無法識(shí)別的印章圖像。同時(shí),盡可能減少截取圖像中的非印章部分,即截取的印章圖像要貼近印章邊緣。最后,由領(lǐng)域?qū)<覍?duì)印章的所有人和內(nèi)容進(jìn)行識(shí)別和標(biāo)注。
如圖2所示,印章所有人可能擁有多枚內(nèi)容一致但樣式不同的印章。因此,本文在標(biāo)注過程中使用“人物-內(nèi)容-樣式-編號(hào)”格式,其中人物為印章的所有人,內(nèi)容為印章所包含的內(nèi)容,樣式使用英文字母進(jìn)行區(qū)分。同一枚印章可能鈐印在不同地方,在采集過程中可能多次出現(xiàn)。為避免重復(fù)命名的情況,需要為每個(gè)印章賦予一個(gè)編號(hào)。根據(jù)這個(gè)標(biāo)注格式,圖2a的印章標(biāo)注為“乾隆-五福五代堂古稀天子寶-A-1”,圖2b的印章標(biāo)注為“乾隆-五福五代堂古稀天子寶-B-1”。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型時(shí),去除編號(hào)后的“人物-內(nèi)容-樣式”即數(shù)據(jù)集的標(biāo)簽。
圖2 “五福五代堂古稀天子寶”印章
數(shù)據(jù)增強(qiáng)是一種通過旋轉(zhuǎn)、裁剪、亮度與對(duì)比度變換、潛在空間變換等方式對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)增的方法。然而,原始數(shù)據(jù)集本身包含的信息有限,數(shù)據(jù)增強(qiáng)方法可以通過人工先驗(yàn)知識(shí)添加部分信息,但這些信息不能無限增加。若采用與任務(wù)不符合的數(shù)據(jù)增強(qiáng)方式,則會(huì)在數(shù)據(jù)集中引入噪聲,導(dǎo)致模型識(shí)別能力下降。因此,選擇與人物特性相符的數(shù)據(jù)增強(qiáng)方式至關(guān)重要。
在印章識(shí)別任務(wù)中,印章圖像無論鈐印在何處,都無法脫離原始實(shí)體印章。模擬印章圖像出現(xiàn)場(chǎng)景可有效擴(kuò)充印章數(shù)據(jù),提升模型泛化能力。領(lǐng)域?qū)<彝ㄟ^深入分析印章圖像的形狀、紋理、顏色、大小、種類和分布情況,在全面了解印章數(shù)據(jù)的整體特性后,結(jié)合印章圖像所處的不同復(fù)雜場(chǎng)景,制定了相應(yīng)的數(shù)據(jù)增強(qiáng)方法(表1),字跡覆蓋模塊、紋理覆蓋模塊、邊緣擴(kuò)大模塊的詳細(xì)流程見附錄。
表1 數(shù)據(jù)增強(qiáng)模塊參數(shù)
涉及圖像尺寸和方向調(diào)整類的數(shù)據(jù)增強(qiáng)方法通過改變圖像大小和方向,模擬特定現(xiàn)實(shí)場(chǎng)景。通過圖像縮小模塊對(duì)圖像按比例縮小,模擬由于圖像采集設(shè)備質(zhì)量低、拍攝晃動(dòng)、網(wǎng)絡(luò)傳輸對(duì)圖像壓縮等因素導(dǎo)致的模糊情況。圖像裁剪模塊則按不同方向和尺寸對(duì)圖像進(jìn)行裁剪,模擬作品在重新裝裱或拍攝角度不當(dāng)?shù)惹闆r下,印章圖像出現(xiàn)橫向或縱向缺失的情況。圖像旋轉(zhuǎn)模塊將圖像隨機(jī)旋轉(zhuǎn)不同角度,模擬拍攝或印章鈐印時(shí)角度不正導(dǎo)致的印章圖像偏轉(zhuǎn)。由于印章實(shí)體和印章圖像為水平翻轉(zhuǎn)關(guān)系,通過圖像翻轉(zhuǎn)模塊能夠模擬印章本體圖形。同時(shí),拍攝印章實(shí)體時(shí),更容易存在圖像不正的情況,需要同時(shí)搭配印章旋轉(zhuǎn)模塊。
有關(guān)圖像質(zhì)量調(diào)整的數(shù)據(jù)增強(qiáng)通過改變印章圖像亮度和對(duì)比度以及添加噪聲點(diǎn)的方式,提升模型識(shí)別能力。在采集過程中,印章圖像可能出現(xiàn)圖案過亮或過暗的情況,可以通過圖像亮度調(diào)整模塊模擬不同光照條件。相機(jī)硬件的差異、智能手機(jī)在拍攝時(shí)采用的不同白平衡算法、色彩還原算法、HDR(high dynamic range)模式或曝光補(bǔ)償?shù)炔呗裕伎赡軐?duì)圖像對(duì)比度造成顯著影響,導(dǎo)致對(duì)比度存在較大差異。為模擬這種現(xiàn)象,可以使用圖像對(duì)比度調(diào)整模塊。圖像的噪聲情況是另一種需要模擬的現(xiàn)實(shí)世界中的圖像采集情況。隨機(jī)噪聲模塊通過添加高斯噪聲和椒鹽噪聲來實(shí)現(xiàn)這一模擬。這些模擬有助于使模型更好地應(yīng)對(duì)真實(shí)世界的噪聲干擾,從而提高其識(shí)別能力。
有關(guān)圖像內(nèi)容修改的數(shù)據(jù)增強(qiáng)則通過掩蓋部分區(qū)域和添加字跡與紋理來模擬現(xiàn)實(shí)場(chǎng)景。圖像掩蓋模塊用于模擬書法字畫在長(zhǎng)期保存過程中可能出現(xiàn)的污漬和斑點(diǎn),或在鑒賞、借閱、展覽過程中可能對(duì)畫面產(chǎn)生的損壞。該方法詳細(xì)流程可參見附錄的算法1。字跡覆蓋模塊則通過生成少量文字并將其覆蓋到印章圖像上,模擬在題跋過程中因規(guī)劃不佳而導(dǎo)致字跡與印章圖像的重疊。此外,作者在題跋上鈐印印章以標(biāo)識(shí)身份,也可能導(dǎo)致字跡與印章圖像的重疊。該方法的實(shí)現(xiàn)代碼可參見附錄的算法2。紋理覆蓋模塊則用于模擬印章圖像因不當(dāng)保存而導(dǎo)致的細(xì)密紋路的褪色,以及因不同材質(zhì)載體(如紙張或絲綢布帛)而導(dǎo)致的印章圖像多樣性紋理。這些模擬有助于模型更好地處理現(xiàn)實(shí)世界中的各種復(fù)雜情況,從而提升其識(shí)別能力。
附錄:關(guān)鍵數(shù)據(jù)增強(qiáng)模塊算法
算法1. 圖像掩蓋模塊算法
算法2. 圖像字跡覆蓋模塊算法
有關(guān)圖像邊緣處理的數(shù)據(jù)增強(qiáng)為邊緣擴(kuò)大模塊。在鈐印過程中,印章可能蘸取過多的印泥導(dǎo)致印章圖案存在粘連現(xiàn)象,增加了印章識(shí)別的難度。因此,本文通過提取印章的印文區(qū)域并擴(kuò)大數(shù)個(gè)像素點(diǎn)來模擬這種情境。首先,需要將印章圖像轉(zhuǎn)換到HSV顏色空間,該色彩空間使用色調(diào)(hue)、飽和度(saturation)和亮度(value)三個(gè)分量來表示顏色。通過將色調(diào)的取值范圍限定在[0,36] ∪[216,300] ,可以提取印章圖像中的紅色區(qū)域。其次,使用skimage中的morphology模塊對(duì)紅色區(qū)域進(jìn)行膨脹操作,本文在水平和垂直方向擴(kuò)大r像素,r∈[5,15] 。最后,將擴(kuò)大的區(qū)域填充為紅色區(qū)域內(nèi)的平均顏色。該模塊的具體過程見附錄的算法3。
算法3. 圖像邊緣膨脹模塊算法
使用上述方法進(jìn)行數(shù)據(jù)增強(qiáng),增強(qiáng)后的數(shù)據(jù)集可以提高模型在復(fù)雜場(chǎng)景下對(duì)印章的識(shí)別能力。圖3為“安歧-?邨”印章圖像的數(shù)據(jù)增強(qiáng)示例。
如圖1右側(cè)所示,本文方法使用ViT模型來完成印章識(shí)別任務(wù)。與CNN模型不同,ViT模型使用Transformer替換卷積層提取圖像特征。由于CNN受到卷積核尺寸固定的限制,難以獲取輸入序列的全局特征。而Transformer中的自注意力機(jī)制卻能夠捕捉輸入序列所有元素之間的關(guān)系,從而獲取輸出序列的全局特征。因此,在面臨圖像遮擋(occlu‐sion)、數(shù)據(jù)分布偏移(distribution shift)、存在對(duì)抗patch(adversarial patch)和圖像分割重排列(per‐mutation)等情況下,ViT模型具有比CNN更強(qiáng)的魯棒性[54]。這些情況與印章被字跡覆蓋、鈐印位置材質(zhì)不同導(dǎo)致的紋理不同、印章圖像存在污漬、印章圖像被裁剪或缺失的情況相似,因此,ViT模型對(duì)印章識(shí)別的復(fù)雜情境具有較強(qiáng)的適應(yīng)能力。原始的印章數(shù)據(jù)難以滿足ViT模型的訓(xùn)練要求,經(jīng)過數(shù)據(jù)增強(qiáng)的印章數(shù)據(jù)恰好解決了該問題。此外,由于Transformer具有較強(qiáng)的可擴(kuò)展性,隨著模型參數(shù)和數(shù)據(jù)量的增長(zhǎng)不存在性能飽和的現(xiàn)象。因此,使用ViT模型可以較好地適應(yīng)后續(xù)數(shù)據(jù)集增加情況。綜上所述,基于數(shù)據(jù)增強(qiáng)的ViT模型可以較好地應(yīng)用于印章識(shí)別任務(wù)。
使用ViT模型進(jìn)行印章識(shí)別可以分為數(shù)據(jù)預(yù)處理、特征提取和印章分類三步。首先,數(shù)據(jù)預(yù)處理模塊將輸入圖像轉(zhuǎn)換為可供Transformer編碼器接受的形狀。該模塊通過將圖像大小縮放至[224,224,3] ,其中的參數(shù)分別表示圖像的高度、寬度和通道數(shù)。其次,將其分割為196個(gè)邊長(zhǎng)為16的正方形圖像塊,在圖像塊嵌入模塊中將其從三維降至一維,使用長(zhǎng)度為768的向量來表示每個(gè)大小為[16,16,3] 小圖像塊,此時(shí)輸入圖像的維度變?yōu)閇196,768] 。然而,在不同的印章圖像中,最重要的圖像塊位置是不固定的,無法用某一個(gè)圖像塊來代替全局特征。因此,在ViT模型的頭部位置添加[class] 標(biāo)記。由于該標(biāo)記本身不包含印章圖像信息,在該標(biāo)記與其余196個(gè)圖像塊向量一起輸入Transformer中進(jìn)行學(xué)習(xí)后,即可得到印章圖像的全局特征。同時(shí),位置信息也是印章圖像中重要的特征,需要在模型訓(xùn)練前加入位置信息,此處的位置信息是一個(gè)維度為[197,768] 的可訓(xùn)練矩陣。隨后將圖像塊嵌入和位置嵌入相加,即可得到用于Transformer學(xué)習(xí)的矩陣。在特征提取步驟中,使用16層疊加的Transformer編碼器對(duì)輸入的矩陣進(jìn)行學(xué)習(xí),此時(shí)的[class] 標(biāo)簽已經(jīng)包含了輸入印章圖像的全局特征信息。最后,將[class] 標(biāo)簽輸入分類器進(jìn)行印章分類,該分類器是一個(gè)長(zhǎng)度為印章類別數(shù)的全連接層,使用soft‐max作為激活函數(shù)。分類器的輸出是輸入印章圖像對(duì)應(yīng)每個(gè)類別的概率,輸出概率最大的類別即可得到印章的識(shí)別結(jié)果。
實(shí)驗(yàn)選取了16幅著名的書法字畫,包括《蘭亭序》《祭侄文稿》《寒食帖》《伯遠(yuǎn)帖》《韭花帖》《快雪時(shí)晴帖》《資治通鑒殘稿》《中秋帖》《仲尼夢(mèng)奠帖》《上陽臺(tái)帖》《洛神賦》《松風(fēng)閣帖》《蜀素帖》《自敘帖》《秾芳詩帖》和《清明上河圖》。獲取上述作品的TIFF格式高清圖像,由領(lǐng)域?qū)<以谄渲薪厝〔?biāo)注了1259枚印章圖像,共計(jì)529類。每一類都代表一個(gè)實(shí)體印章所鈐印出的圖像,如圖2左側(cè)印章的類別為“乾隆-五福五代堂古稀天子寶-A”。該類別也是模型的預(yù)測(cè)目標(biāo),通過模型預(yù)測(cè)可以獲取印章圖像的所有者和印章內(nèi)容。印章的所有者包含古代皇室、貴族、書畫家、收藏家、官員、機(jī)構(gòu)等多種類型,內(nèi)容涵蓋了姓名字號(hào)、收藏、格言志趣、年號(hào)、職務(wù)等方面。數(shù)據(jù)集中的印章圖像時(shí)間跨度大且種類豐富,可用于合理評(píng)估模型的識(shí)別能力。
訓(xùn)練集和測(cè)試集的構(gòu)建過程如下。初始訓(xùn)練集包含1259枚印章圖像,對(duì)此初始訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng),利用不同的模塊生成新的印章圖像。這包括使用10個(gè)數(shù)據(jù)增強(qiáng)模塊(除圖像翻轉(zhuǎn)模塊外)對(duì)原始印章進(jìn)行增強(qiáng),每個(gè)模塊根據(jù)一枚原始的印章圖像生成10枚新的印章圖像。由于圖像翻轉(zhuǎn)模塊對(duì)印章圖像進(jìn)行水平方向的翻轉(zhuǎn),其結(jié)果具有唯一性,因此對(duì)原始印章圖像進(jìn)行一次水平翻轉(zhuǎn)??偟膩碚f,每枚印章圖像通過增強(qiáng)生成了101張新的圖像。經(jīng)過上述步驟,形成兩個(gè)訓(xùn)練集,即原始訓(xùn)練集和數(shù)據(jù)增強(qiáng)訓(xùn)練集。為了更全面地評(píng)估本文方法在復(fù)雜情境下的印章圖像識(shí)別能力,并避免數(shù)據(jù)泄露,測(cè)試集應(yīng)獨(dú)立于訓(xùn)練集并盡可能覆蓋所有類別。因此,從互聯(lián)網(wǎng)上獲取獨(dú)立的印章數(shù)據(jù)作為測(cè)試集,該集合包含了模糊、不完整、亮度和對(duì)比度差異大、角度偏斜、字跡覆蓋、紋理不同以及邊緣粘連等各種情況的印章圖像。對(duì)上述數(shù)據(jù)集分別進(jìn)行隨機(jī)排序,最終,初始訓(xùn)練集、數(shù)據(jù)增強(qiáng)數(shù)據(jù)集和測(cè)試集分別包含了1259、127159和522枚印章圖像。
本文使用武漢大學(xué)超級(jí)計(jì)算機(jī)中心的GPU(graphics processing unit)服務(wù)器集群作為實(shí)驗(yàn)平臺(tái),該服務(wù)器采用Intel(R) Xeon(R) E5-2640 CPU和Nvidia Tesla V100 GPU,配備了128 GB內(nèi)存,操作系統(tǒng)為CentOS 7.7。實(shí)驗(yàn)代碼基于python 3.8和Ten‐sorflow 2.5框架編寫。為了降低隨機(jī)誤差的影響,采用重復(fù)實(shí)驗(yàn)的方法。具體地,每個(gè)實(shí)驗(yàn)均重復(fù)10次,取結(jié)果的平均值作為最終實(shí)驗(yàn)結(jié)果。此外,實(shí)驗(yàn)采用了early stop策略來避免模型過擬合和降低實(shí)驗(yàn)時(shí)間開銷。在訓(xùn)練過程中,當(dāng)驗(yàn)證集的損失值連續(xù)3個(gè)epoch(訓(xùn)練輪次)沒有降低時(shí),停止模型的訓(xùn)練并保存損失值最小的模型。該方法在保證實(shí)驗(yàn)結(jié)果可靠的前提下,提高了實(shí)驗(yàn)效率。為了確定最優(yōu)的模型參數(shù)組合,實(shí)驗(yàn)采用網(wǎng)格搜索策略,為每個(gè)參數(shù)設(shè)置了候選值列表,通過遍歷循環(huán)的方式得到每一種參數(shù)組合的實(shí)驗(yàn)結(jié)果,最終選擇效果最佳的組合作為模型的最終參數(shù),具體的參數(shù)和取值如表2所示。
表2 模型參數(shù)設(shè)置
模型的評(píng)價(jià)指標(biāo)為精確率P(precision)、召回率R(recall)和F1值。在多分類任務(wù)中,實(shí)際計(jì)算的是宏平均值(macro average)。單獨(dú)計(jì)算每個(gè)類別的P、R和F1,然后求所有類別的平均值。當(dāng)計(jì)算某一類別樣本時(shí),該類樣本為正樣本,其余樣本為負(fù)樣本。各指標(biāo)定義為。
其中,n表示類別總數(shù);TPi表示識(shí)別為第i類的樣本中,識(shí)別正確的樣本數(shù);FPi表示負(fù)樣本被識(shí)別為正樣本的個(gè)數(shù);FNi是正樣本被識(shí)別為負(fù)樣本的個(gè)數(shù);P表示被正確識(shí)別為第i類的樣本數(shù)和所有被識(shí)別為第i類的樣本數(shù)的比值,即被正確識(shí)別為第i類的占比;R表示被正確識(shí)別為第i類的樣本數(shù)和實(shí)際為第i類的樣本數(shù)的比值;F1值表示P和R的等權(quán)調(diào)和平均值,綜合了P和R對(duì)模型性能的評(píng)價(jià)。
實(shí)驗(yàn)使用CNN、VGG和ResNet作為對(duì)比模型,其中CNN模型的隱藏層由三層卷積層和三層池化層交替疊加所構(gòu)成,卷積層的神經(jīng)元個(gè)數(shù)分別為64、128和256,輸出層為兩層全連接層。VGG模型具有結(jié)構(gòu)簡(jiǎn)單和遷移性強(qiáng)的優(yōu)點(diǎn),是計(jì)算機(jī)視覺領(lǐng)域最常用的方法之一。ResNet通過引入殘差塊的概念可以在不發(fā)生梯度消失的前提下構(gòu)建更深的網(wǎng)絡(luò)結(jié)構(gòu)。為了探究模型深度對(duì)印章識(shí)別結(jié)果的影響,本實(shí)驗(yàn)采用了不同規(guī)模的ResNet模型,包括ResNet50、ResNet101和ResNet152。其中,VGG、ResNet和ViT模型通過加載TensorFlow Hub在Ima‐geNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,引入一定的先驗(yàn)知識(shí)。上述實(shí)驗(yàn)的結(jié)果如表3所示。
表3 數(shù)據(jù)增強(qiáng)對(duì)印章識(shí)別精度影響的模型性能評(píng)估
根據(jù)表3可以發(fā)現(xiàn),所有未經(jīng)數(shù)據(jù)增強(qiáng)的模型都無法實(shí)現(xiàn)有效擬合。這種情況主要是因?yàn)樵紨?shù)據(jù)集中印章圖像的數(shù)量不足,平均每類只有2.4張印章圖像。在這種數(shù)據(jù)稀疏的情況下,模型難以學(xué)習(xí)到不同印章之間的差異,進(jìn)而導(dǎo)致嚴(yán)重的過擬合現(xiàn)象,無法準(zhǔn)確識(shí)別測(cè)試集中的印章圖像。盡管VGG16、ResNet和ViT模型在ImageNet數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,獲得了一定的先驗(yàn)知識(shí),這仍然無法幫助模型實(shí)現(xiàn)有效擬合。然而,當(dāng)應(yīng)用了數(shù)據(jù)增強(qiáng)方法后,所有的模型都能夠?qū)崿F(xiàn)有效擬合,這說明在印章圖像識(shí)別任務(wù)中,數(shù)據(jù)增強(qiáng)方法可以有效地解決因數(shù)據(jù)稀疏所導(dǎo)致的過擬合問題,同時(shí)提升模型的魯棒性。
具體而言,CNN、VGG16、ResNet50、ResNet101、ResNet152和ViT模型的F1值分別提高至23.75%、64.94%、60.59%、58.57%、44.50%和72.76%。經(jīng)過數(shù)據(jù)增強(qiáng)后,模型需要處理更豐富且更復(fù)雜的圖像特征。由于CNN模型的結(jié)構(gòu)相對(duì)簡(jiǎn)單,難以捕獲到充足的特征用于印章識(shí)別,導(dǎo)致其F1值最低,相比之下,VGG16模型具有更深的網(wǎng)絡(luò)結(jié)構(gòu),包含13個(gè)卷積層和3個(gè)全連接層,因此,其特征提取能力較強(qiáng),增強(qiáng)了印章識(shí)別能力,F(xiàn)1值比CNN模型提高了41.19個(gè)百分點(diǎn)。一般而言,淺層的卷積核用于學(xué)習(xí)簡(jiǎn)單的邊緣、紋理和顏色特征,深層的卷積核則用于組合淺層特征,進(jìn)而學(xué)習(xí)到針對(duì)特定任務(wù)的區(qū)分性特征。ResNet50模型具有更深的網(wǎng)絡(luò)結(jié)構(gòu),但其F1值相較于VGG16降低了4.35個(gè)百分點(diǎn)。其原因可能是ResNet50更深的網(wǎng)絡(luò)結(jié)構(gòu)可以捕獲到更復(fù)雜的組合特征,但印章圖像的內(nèi)容和顏色特征相對(duì)簡(jiǎn)潔,過強(qiáng)的特征提取能力可能導(dǎo)致過擬合現(xiàn)象。類似地,ResNet101和ResNet152的F1值相較于VGG16分別降低了6.37和20.44個(gè)百分點(diǎn)。印章識(shí)別任務(wù)不僅需要考慮局部細(xì)節(jié),還需要考慮全局特征及其排布情況。ViT模型由于其Transformer中的自注意力機(jī)制,能夠更好地捕獲每個(gè)圖像塊之間的關(guān)系,而非像卷積核那樣主要關(guān)注局部信息。因此,在經(jīng)過數(shù)據(jù)增強(qiáng)方法后,ViT模型可以得到更為豐富的全局特征,并且實(shí)現(xiàn)了最佳的印章識(shí)別結(jié)果。
綜上所述,數(shù)據(jù)增強(qiáng)方法與印章識(shí)別任務(wù)的相容性較高,能有效提升模型的性能并促進(jìn)其擬合過程。然而,不同架構(gòu)的模型可能產(chǎn)生不同的數(shù)據(jù)增強(qiáng)效果。對(duì)于特征提取能力較弱的模型,可能難以充分提取訓(xùn)練集中的特征信息,導(dǎo)致識(shí)別效果較差。相反地,如果模型的特征提取能力過強(qiáng),那么可能導(dǎo)致過度學(xué)習(xí)訓(xùn)練集中的特征。由于訓(xùn)練集無法完全覆蓋印章圖像可能出現(xiàn)的所有場(chǎng)景,過度的特征提取可能降低模型的泛化能力。在這種情況下,模型可能難以識(shí)別與訓(xùn)練集有一定差異的印章圖像,而對(duì)于與訓(xùn)練集相似的印章圖像則能準(zhǔn)確識(shí)別。這導(dǎo)致了實(shí)驗(yàn)結(jié)果中模型的召回率低于精確率。因此,對(duì)于小規(guī)模的數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)時(shí),選擇具有針對(duì)性的策略以及合適的深度學(xué)習(xí)模型至關(guān)重要。
為了降低用戶查詢和識(shí)別印章的難度并提升印章文化的推廣水平,急需一種可以快速、準(zhǔn)確識(shí)別印章圖像內(nèi)容的方法。由于印章識(shí)別任務(wù)的類別數(shù)目較多且每一類樣本數(shù)量少,直接使用深度學(xué)習(xí)模型進(jìn)行訓(xùn)練會(huì)導(dǎo)致模型識(shí)別效果欠佳。即使通過細(xì)致的調(diào)參使其勉強(qiáng)擬合,也難以識(shí)別處于復(fù)雜情境下的印章圖像。因此,面對(duì)上述困境通常需要更大的數(shù)據(jù)集。然而印章圖像數(shù)據(jù)本身較為稀缺,同時(shí)對(duì)標(biāo)注人員本身印章知識(shí)的要求較高,導(dǎo)致印章識(shí)別領(lǐng)域缺少大規(guī)模的標(biāo)注數(shù)據(jù)集。
為解決上述問題,本文提出一種基于數(shù)據(jù)增強(qiáng)和ViT模型的印章識(shí)別方法。通過分析印章圖像的特征,有針對(duì)性地對(duì)上述場(chǎng)景進(jìn)行數(shù)據(jù)增強(qiáng),有效提升了模型在印章識(shí)別任務(wù)中的泛化能力。同時(shí),使用特征提取能力優(yōu)秀且擴(kuò)展性較強(qiáng)的ViT模型作為印章識(shí)別任務(wù)的特征提取器,取得了較好的印章識(shí)別結(jié)果。因此,本文方法對(duì)印章文化的傳播具有一定應(yīng)用價(jià)值,為快速、準(zhǔn)確識(shí)別復(fù)雜情境下的印章圖像提供了新的研究思路,針對(duì)印章圖像的數(shù)據(jù)增強(qiáng)模式還可以為后續(xù)印章識(shí)別研究提供基礎(chǔ)。但本文方法缺乏語義推理能力,模型通過建立印章圖像的全局特征與標(biāo)簽間的映射完成識(shí)別過程,尚無法對(duì)印章圖像進(jìn)行逐字識(shí)別。在未來的工作中,需要構(gòu)建具有語義推理能力的印章識(shí)別模型,通過圖像分割、文字識(shí)別、內(nèi)容排序來完成對(duì)印章語義層次的理解和識(shí)別,從而識(shí)別未知印章,擴(kuò)展深度學(xué)習(xí)模型在傳統(tǒng)文化領(lǐng)域的應(yīng)用,并為傳統(tǒng)文化的普及和傳承提供技術(shù)支持。