• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多流卷積神經(jīng)網(wǎng)絡(luò)的中文筆跡鑒別研究①

      2023-09-24 13:15:18毛穎裕張怡龍王海霞
      高技術(shù)通訊 2023年8期
      關(guān)鍵詞:筆跡支流字體

      毛穎裕 張怡龍 王海霞③

      (*浙江工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 杭州 310023)

      (**浙江工業(yè)大學(xué)信息工程學(xué)院 杭州 310023)

      0 引言

      筆跡鑒別是通過(guò)手寫字體信息來(lái)鑒別書寫人身份的一種文件分析技術(shù)。它是一個(gè)典型的模式識(shí)別問(wèn)題,在歷史文獻(xiàn)分析[1]和司法鑒定[2]中有著廣泛的實(shí)際應(yīng)用。根據(jù)筆跡樣本的獲取方式,可以將筆跡鑒別分成離線筆跡鑒別[3-4]與在線筆跡鑒別[5-7]2種。在線筆跡鑒別要比離線筆跡鑒別相對(duì)容易,因?yàn)樵诰€書寫的過(guò)程中可以收集到更多的作者書寫習(xí)慣信息,包括筆尖壓力[8]、書寫速度[9]、筆畫順序等,而這些動(dòng)態(tài)信息在離線筆跡鑒別過(guò)程中無(wú)法獲取。離線筆跡樣本的獲取,需要書寫者使用書寫工具(鋼筆、鉛筆等)在紙上書寫完成后進(jìn)行掃描或者拍攝。其相對(duì)于在線筆跡樣本具有更強(qiáng)的通用性和易獲取性,因此離線筆跡鑒別的應(yīng)用范圍更廣、實(shí)用性更高。在數(shù)字時(shí)代,手寫活動(dòng)大幅減少,這就帶來(lái)了基于少量可用文本來(lái)識(shí)別作者的需求。與英文字體相比,中文字體的形態(tài)結(jié)構(gòu)通常更復(fù)雜,這意味著中文字體在單個(gè)單詞中比英文字體包含更多的判別信息,并且有可能用更少的文字被識(shí)別。本文研究的就是基于單個(gè)手寫中文字體的離線筆跡鑒別問(wèn)題。

      離線筆跡鑒別受到多種因素的影響,譬如,書寫人在書寫時(shí)的現(xiàn)實(shí)物理環(huán)境、所使用筆的材料等。這對(duì)建模書寫人的書寫風(fēng)格提出了挑戰(zhàn)?;诰植繑?shù)據(jù)特征提取[10-12]和基于全局?jǐn)?shù)據(jù)特征提取[13-15]是離線筆記鑒別中常用的2 類方法。為更好地對(duì)中文字體進(jìn)行簽別,本文將結(jié)合基于局部數(shù)據(jù)的特征提取與基于全局?jǐn)?shù)據(jù)的特征提取為中文筆跡簽別服務(wù)。然而現(xiàn)有的結(jié)合方法,即FragNet 網(wǎng)絡(luò)是應(yīng)用在英文筆跡簽別中,在中文筆跡簽別應(yīng)用中存在一定不足。FragNet 是一個(gè)雙流的卷積神經(jīng)網(wǎng)絡(luò),它的支流1 輸入是整張手寫字體圖片,負(fù)責(zé)提取整張圖片的全局特征,形成圖像金字塔;支流2 的輸入是原圖片的切片,負(fù)責(zé)提取局部細(xì)節(jié)特征。兩個(gè)支流在整個(gè)提取特征的過(guò)程中進(jìn)行了多尺度的特征融合,最后采用SoftMax 函數(shù)作為網(wǎng)絡(luò)輸出。該模型在中文筆跡簽別使用中存在以下問(wèn)題:(1)特征利用不充分。該結(jié)構(gòu)只考慮了細(xì)節(jié)和全局特征在過(guò)程中的融合,并沒(méi)有將支流1 提取到的高級(jí)全局特征直接參與網(wǎng)絡(luò)輸出的決策;(2)原有的圖片分割方式在中文手寫字體中使用是不恰當(dāng)?shù)?導(dǎo)致其在中文數(shù)據(jù)集下細(xì)節(jié)特征獲取的來(lái)源不夠充分。因?yàn)橹形暮陀⑽牡臅鴮懥?xí)慣不同,所以英文數(shù)據(jù)集下采用的分割方式并不能直接用于中文數(shù)據(jù)集。

      綜上所述,本文基于FragNet 神經(jīng)網(wǎng)絡(luò),提出基于3 條支流結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò),采用了局部特征和全局特征融合的思想,1 條支流是對(duì)整張圖片進(jìn)行全局特征提取,另2 條支流以不同的方式對(duì)圖片進(jìn)行分割然后進(jìn)行局部特征的提取。并且在提取的過(guò)程中,3 種特征進(jìn)行了多尺度的融合。本文改進(jìn)了網(wǎng)絡(luò)中圖片的分割方式,增加了第3 條網(wǎng)絡(luò)支流,使得整個(gè)網(wǎng)絡(luò)中的細(xì)節(jié)特征的來(lái)源更加充分。并且讓全局特征提取支流最終提取到的高級(jí)特征直接參與了網(wǎng)絡(luò)最終輸出的決策,使得特征融合得更加充分。實(shí)驗(yàn)結(jié)果表明,本文提出的策略可以有效提升網(wǎng)絡(luò)模型最終的性能。

      本文的主要貢獻(xiàn)點(diǎn)有以下2 點(diǎn):(1)提出了一種多流卷積神經(jīng)網(wǎng)絡(luò)模型,該模型將基于局部數(shù)據(jù)的特征提取與基于全局?jǐn)?shù)據(jù)的特征提取融合的方法引入到中文筆記鑒別問(wèn)題中,并取得了不錯(cuò)的效果;(2)本文的網(wǎng)路結(jié)構(gòu)采用2 條支流對(duì)局部數(shù)據(jù)進(jìn)行特征提取,可以提取出更多的細(xì)節(jié)特征,更充分地融合局部特征和全局特征,有效地提升了模型的性能。

      1 相關(guān)研究

      一般來(lái)說(shuō),離線筆記鑒別方法[16-18]可以大致分為兩大類:基于傳統(tǒng)特征的方法[19-21]和基于神經(jīng)網(wǎng)絡(luò)特征的方法[10,13-14,22-23]?;趥鹘y(tǒng)特征的方法主要采用人為定義的特征作為鑒別的依據(jù)。比如文獻(xiàn)[19]將英文手寫字體看成是一種紋理,使用Gabor和XGabor 共同提取手寫體樣式的特征。文獻(xiàn)[16]使用二維Gabor 濾波提取特征,將筆記鑒別視為紋理識(shí)別。文獻(xiàn)[20,21]更注重拐角特征,提取手寫字體的形態(tài)信息,如筆畫與墨水的寬度和曲率等。文獻(xiàn)[24]提出了基于混合碼本與因子分析的文本獨(dú)立筆跡鑒別算法,該方法采用加權(quán)的方向指數(shù)直方圖法和距離變換法對(duì)每個(gè)書寫模式進(jìn)行雙因子方差分析,并在英文數(shù)據(jù)集上取得了不錯(cuò)的成績(jī)。文獻(xiàn)[17]提出了一種結(jié)合小波變換和廣義高斯模型的中文手寫體文檔識(shí)別方法,取得了良好的效果。使用傳統(tǒng)算法進(jìn)行特征提取的過(guò)程中,識(shí)別特征的選擇或多或少會(huì)受到研究者主觀意識(shí)的干擾,這將對(duì)最終的結(jié)果產(chǎn)生直接的影響。

      采用神經(jīng)網(wǎng)路算法可以很好地避免這一問(wèn)題。當(dāng)前,神經(jīng)網(wǎng)絡(luò)算法在筆跡鑒別中的應(yīng)用大致可以歸為2 類:基于全局?jǐn)?shù)據(jù)的特征提取方法[13-15]和基于局部數(shù)據(jù)的特征提取方法[10-12],這兩者最大的區(qū)別就是在網(wǎng)絡(luò)的輸入部分?;谌?jǐn)?shù)據(jù)的特征提取方法將整張圖片作為輸入進(jìn)行特征提取,是目前的主流方法。文獻(xiàn)[13]提出了一種雙流多任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)模型提取顯式信息和隱式信息,采用的是將整張圖片作為網(wǎng)絡(luò)的輸入。文獻(xiàn)[15]通過(guò)對(duì)傳統(tǒng)VGG-16 卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行改進(jìn),提出了一種CC-VGG 網(wǎng)絡(luò)模型,利用復(fù)合卷積層替換部分卷積層,實(shí)現(xiàn)了手寫體英文筆跡的自動(dòng)鑒別,提升了網(wǎng)絡(luò)性能。文獻(xiàn)[25]提出在對(duì)整圖進(jìn)行特征提取時(shí),對(duì)輸入的中文字體圖片中的字體筆畫進(jìn)行了隨機(jī)抹除的預(yù)處理方法,這既能對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行增強(qiáng)也提升了模型的泛化能力?;诰植繑?shù)據(jù)的特征提取方法則是在原有的圖片上進(jìn)行分割,形成不同的切片,然后將切片送入神經(jīng)網(wǎng)絡(luò)進(jìn)行局部特征提取。如文獻(xiàn)[11]提出的基于行分割方式并結(jié)合CaffeNet (convolutional architecture for fast feature embedding)提取局部特征的方法,然后通過(guò)取均值的編碼方式將每張筆跡材料的局部特征編碼為全局特征。該方法在CVL[26]和ICDAR 2011[27]數(shù)據(jù)集上取得了較好的成績(jī)。文獻(xiàn)[28]提出了將全局?jǐn)?shù)據(jù)與局部數(shù)據(jù)進(jìn)行特征提取與融合得到新的綜合特征的FragNet 網(wǎng)絡(luò)模型,證明特征融合之后的模型具有更好的泛化能力。文獻(xiàn)[10]提出了利用雙輸入網(wǎng)絡(luò)對(duì)局部數(shù)據(jù)進(jìn)行特征提取的算法,并且這2 條支路以網(wǎng)絡(luò)共享參數(shù)的方式來(lái)減少網(wǎng)絡(luò)訓(xùn)練時(shí)的參數(shù)。為了可以使得不同局部數(shù)據(jù)的位置信息也參與網(wǎng)絡(luò)的訓(xùn)練和預(yù)測(cè),文獻(xiàn)[12] 提出了GR-RNN(global-context residual recurrent neural network)網(wǎng)絡(luò),對(duì)不同局部數(shù)據(jù)中蘊(yùn)含的作者的書寫特征進(jìn)行提取,進(jìn)一步提升了網(wǎng)絡(luò)在英文數(shù)據(jù)集上的識(shí)別率。

      2 模型的網(wǎng)絡(luò)結(jié)構(gòu)

      本文研究的是中文手寫字體的離線筆記鑒別問(wèn)題。本節(jié)主要從以下3 個(gè)方面展開(kāi)。(1)局部數(shù)據(jù)獲取方式分析說(shuō)明。對(duì)本文為什么要采取切片分割的方式進(jìn)行以及本文在原有方式的改進(jìn)進(jìn)行分析說(shuō)明。(2)網(wǎng)絡(luò)結(jié)構(gòu)介紹。對(duì)本文提出的網(wǎng)絡(luò)基本構(gòu)成與功能進(jìn)行剖析介紹。(3)網(wǎng)絡(luò)訓(xùn)練。對(duì)本文采用的實(shí)驗(yàn)環(huán)境與網(wǎng)絡(luò)訓(xùn)練進(jìn)行說(shuō)明。

      2.1 局部數(shù)據(jù)分割方式分析

      基于局部數(shù)據(jù)的特征提取已被證明了其在筆跡簽別中的作用。本節(jié)針對(duì)中文字體的形態(tài)結(jié)構(gòu),對(duì)局部數(shù)據(jù)的分割方式進(jìn)行分析與設(shè)計(jì),并對(duì)其理論依據(jù)進(jìn)行論述。

      本文將手寫字體信息分為2 類:字體基本結(jié)構(gòu)單元和字體基本結(jié)構(gòu)單元之間的連接,稱為“連筆”。英文單詞的基本構(gòu)成單元為26 個(gè)英文字母,中文字體的基本構(gòu)成單元為32 種基本筆畫。如圖1所示,圖中列舉了一些中英文字體及其特征信息,其中具有豐富書寫人特征信息的連筆部分占據(jù)了比較大的比重。在網(wǎng)絡(luò)特征提取過(guò)程中,這些特征有較大概率會(huì)被網(wǎng)絡(luò)判別為“spotting region” (網(wǎng)絡(luò)的有效感受野),即注意區(qū)域。

      圖1 字體特征信息示例(箭頭指向處表示手寫字體中具有豐富書寫人特征信息的細(xì)節(jié)點(diǎn))

      文獻(xiàn)[29]僅僅使用了書寫時(shí)筆的活動(dòng)坐標(biāo)、落筆的位置以及最后提筆的位置這3 項(xiàng)坐標(biāo)數(shù)據(jù)序列,然后從中進(jìn)行采樣后送入循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)進(jìn)行訓(xùn)練,該方法在中文公開(kāi)數(shù)據(jù)集上可以獲得99.46%的準(zhǔn)確率,在英文公開(kāi)數(shù)據(jù)集上可獲得100%的準(zhǔn)確率。文中通過(guò)逆向工程發(fā)現(xiàn),使用少量采樣筆畫坐標(biāo)序列就可以獲得高準(zhǔn)確率的筆畫序列往往是筆畫間或者單個(gè)字體間的連筆部分。這說(shuō)明了連筆部分中包含了豐富的書寫者的身份信息。雖然這是線上筆跡鑒別問(wèn)題所采用的方法,但是,更偏向于使用字體筆畫進(jìn)行建模的離線筆跡鑒別問(wèn)題想要達(dá)到這樣高的準(zhǔn)確度存在較大難度。因此,如何更好地引導(dǎo)網(wǎng)絡(luò)關(guān)注“spotting region”是本文注重的問(wèn)題。

      采用對(duì)圖片進(jìn)行切片的方式送入網(wǎng)絡(luò)可以使網(wǎng)絡(luò)學(xué)習(xí)到的深層特征比從整張手寫字體圖像中學(xué)習(xí)到的深層特征更有效。這點(diǎn)在提出FragNet 的論文中已經(jīng)得到了證明。其根本原因是網(wǎng)絡(luò)在經(jīng)過(guò)分割后局部數(shù)據(jù)塊中可以更好地提取到更多的“spotting region”,得到更多的細(xì)節(jié)特征。中英文字體的展現(xiàn)形式不同,如圖2 所示,英文單詞的書寫順序都是從左往右寫,而中文字體的書寫卻沒(méi)有這樣的規(guī)律,從左往右、自上而下或者是兩者結(jié)合的書寫順序都是存在的。原網(wǎng)絡(luò)在英文數(shù)據(jù)中僅采用垂直分割方式,如圖3(a)所示,因?yàn)橛⑽膯卧~從左往右的書寫習(xí)慣確定了連筆只能發(fā)生在左右之間差不多高度的位置。但這在中文數(shù)據(jù)集中直接采用是不合適的,中文字體中可能同時(shí)存在自左而右、自上而下的寫法,筆畫間的連筆等特征信息可能發(fā)生在左右之間也有可能發(fā)生在上下之間,并且字體中其他形狀也包含對(duì)作者識(shí)別有用的書寫風(fēng)格信息。因此,充分地結(jié)合它們蘊(yùn)含的信息是可以提高網(wǎng)絡(luò)性能的。在FragNet 的網(wǎng)絡(luò)框架下,本文進(jìn)一步探索對(duì)輸入手寫字體圖像中所有形狀信息使用不同的局部切片進(jìn)行特征提取與集成。如圖4 所示,聚合局部塊會(huì)在輸入圖像中產(chǎn)生多個(gè)“spotting region”,從而使分類證據(jù)更加穩(wěn)健。基于這一觀點(diǎn),本文提出的了采用水平和垂直分割方式對(duì)輸入圖像進(jìn)行分割切片,以迫使網(wǎng)絡(luò)學(xué)習(xí)手寫風(fēng)格信息或在每個(gè)片段中找到定位區(qū)域。結(jié)合這些片段的結(jié)果使網(wǎng)絡(luò)具有多個(gè)定位區(qū)域,避免了對(duì)輸入圖像中某些特定部分的過(guò)度擬合,從而提高了網(wǎng)絡(luò)性能。

      圖2 中英文字體的書寫方向差異(箭頭代表字體的書寫方向)

      圖3 中英文字體中采用的分割方式的對(duì)比

      圖4 分割切片與整圖輸入進(jìn)行特征提取的差異

      根據(jù)文中之前的分析,本文在圖3(b)垂直切片的基礎(chǔ)上,新增滑動(dòng)窗口進(jìn)行水平切片,然后進(jìn)行特征提取。同時(shí)采用水平切片和垂直切片的方式來(lái)增加送入網(wǎng)絡(luò)的局部圖像塊的形式,迫使網(wǎng)絡(luò)可以在不同的局部圖像塊上產(chǎn)生不同的“spotting region”,即提取到更加充分的作者身份信息,減低網(wǎng)絡(luò)過(guò)擬合的風(fēng)險(xiǎn),提升網(wǎng)絡(luò)的泛化能力。這樣做的目的就是為了拓寬網(wǎng)絡(luò)細(xì)節(jié)特征獲取的來(lái)源,使得網(wǎng)絡(luò)更好適應(yīng)目標(biāo)字體變化帶來(lái)的變化。

      2.2 網(wǎng)絡(luò)結(jié)構(gòu)分析

      本文以FragNet 作為基本結(jié)構(gòu),提出了局部數(shù)據(jù)特征提取與全局?jǐn)?shù)據(jù)特征提取相結(jié)合的多流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如圖5 所示,神經(jīng)網(wǎng)絡(luò)由P1、P2、P3 3 條支流組成。P2 支流結(jié)構(gòu)的輸入是一整張手寫字體圖片,它負(fù)責(zé)提取整張圖片的全局特征,形成圖像金字塔。P1 與P3 支流的輸入是原始圖片的橫向與縱向切片圖,負(fù)責(zé)從局部圖像塊中提取出更多的“spotting region”。P1、P2 和P3 支流在整個(gè)提取特征的過(guò)程中進(jìn)行了多尺度的特征融合。最終3 條支流都通過(guò)一個(gè)自適應(yīng)平均池化層生成512 維的向量,將這3 個(gè)向量以直接相加的形式進(jìn)行融合后送入全連接層進(jìn)行結(jié)果預(yù)測(cè),最后通過(guò)SoftMax 函數(shù)輸出。

      圖5 多流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

      組成這3 條支流的基本結(jié)構(gòu)單位是相似的,都由池化層和2 個(gè)卷積層組成的卷積組構(gòu)成。3 條支流在第1 次提取特征后都沒(méi)有使用池化層,這是為了避免在初級(jí)特征階段丟失過(guò)多的信息。而后P1、P3 與P2 支流結(jié)構(gòu)在池化層作用的位置上發(fā)生了變化。因?yàn)镻1、P3都進(jìn)行特征圖的級(jí)聯(lián),所以在級(jí)聯(lián)之后需要進(jìn)一步地特征提取,故將池化層放在卷積組之后。而P2 支流沒(méi)有這一步操作,所以直接進(jìn)行了池化操作。P2 支流在每一階段提取的全局特征圖,通過(guò)滑動(dòng)窗口分割得到水平切片Sh和垂直切片Sv。特征圖切片Sh和Sv分別與P1、P3 支流的同級(jí)特征級(jí)聯(lián)。需要注意的是,因?yàn)榫W(wǎng)絡(luò)中有池化層的存在,所得到的特征圖的尺寸不斷地以2 的倍數(shù)方式在減小。因此,生成Sv與Sh的分割參數(shù)是不斷變換的。在分割時(shí),所使用的滑動(dòng)窗口的尺寸以及采用的步長(zhǎng)也都將以2 的倍數(shù)方式進(jìn)行減小,以保證所得到的全局特征圖的切片與局部特征圖具有相同的尺寸進(jìn)行融合。還需要注意的是,P1 和P3 支流結(jié)構(gòu)的卷積組不會(huì)改變輸入特征圖的通道數(shù),即當(dāng)輸入特征圖的尺寸為H×W×C(高×寬×通道數(shù)),輸出特征圖的尺寸依舊為H×W×C。而P2 支流則會(huì)對(duì)輸入特征圖的通道數(shù)進(jìn)行翻倍,即輸入特征圖的尺寸為H×W×C,輸出特征圖的尺寸為H×W×2C。換句話說(shuō),P2 支流中卷積通道數(shù)的增加是通過(guò)自身增加卷積核的數(shù)目來(lái)完成的,而P1 和P3支流則是通過(guò)特征圖的級(jí)聯(lián)來(lái)完成的。

      本文網(wǎng)絡(luò)的改進(jìn)包含2 個(gè)部分。首先,增加P1支流從而豐富網(wǎng)絡(luò)提取細(xì)節(jié)特征(“spotting region”)的來(lái)源。本文采用水平分割和垂直分割2 種圖片切片方式來(lái)增加網(wǎng)絡(luò)獲取細(xì)節(jié)特征的渠道,確保P1 和P3 支流可以提取到足夠多不同的細(xì)節(jié)特征與P2 中提取的全局特征進(jìn)行多尺度融合,形成更具綜合性的高級(jí)新特征,增強(qiáng)網(wǎng)絡(luò)的泛化能力。其次,在P2 支流中,增加M模塊,從而讓P2 支流中提取到的全局高級(jí)特征能直接參與網(wǎng)絡(luò)的最終決策,更加充分地利用P2 所提取的高級(jí)特征信息。

      2.3 網(wǎng)絡(luò)訓(xùn)練與環(huán)境

      本文最終所采用的分割方式如圖6 所示,P1 支流采用橫向滑動(dòng)窗口的水平分割方式,高為64,寬為112,移動(dòng)步長(zhǎng)為16,自上向下滑動(dòng)。它更專注于提取水平方向的連筆細(xì)節(jié)。P3 支流采用縱向滑動(dòng)窗口的垂直分割方式,高為112,寬為64,移動(dòng)步長(zhǎng)為16,自左向右滑動(dòng)。它更專注于提取垂直方向的連筆細(xì)節(jié)。

      圖6 本文所采用的圖片分割方式

      本文實(shí)驗(yàn)硬件環(huán)境包含CPU 處理器Intel i9-10900X,顯卡NIVIDA RTX2080Ti,顯存11 GB。軟件環(huán)境包含Python3.7,Pytorch 深度學(xué)習(xí)框架。本文提出的網(wǎng)絡(luò)模型訓(xùn)練時(shí)初始學(xué)習(xí)率設(shè)為0.000 08,在第20 輪除以4,第25 輪除以3,第30 輪設(shè)為0.000 003,一共進(jìn)行40 輪訓(xùn)練。本文網(wǎng)絡(luò)本質(zhì)上一個(gè)分類任務(wù),故采用交叉熵作為損失函數(shù),采用Adam[30]進(jìn)行模型優(yōu)化:

      其中n表示數(shù)據(jù)集中一共含有的作者數(shù)目,p表示網(wǎng)絡(luò)的輸出結(jié)果,q表示對(duì)應(yīng)圖片的標(biāo)簽。

      3 實(shí)驗(yàn)結(jié)果分析

      本節(jié)將對(duì)實(shí)驗(yàn)的結(jié)果進(jìn)行對(duì)比分析。本節(jié)內(nèi)容分為3 個(gè)部分:第1 部分對(duì)本文所用的公開(kāi)數(shù)據(jù)集進(jìn)行說(shuō)明;第2 部分對(duì)網(wǎng)絡(luò)進(jìn)行消融實(shí)驗(yàn)對(duì)比,證明網(wǎng)絡(luò)設(shè)計(jì)的有效性;第3 部分將本文提出的網(wǎng)絡(luò)模型的性能與其他網(wǎng)絡(luò)模型的性能進(jìn)行對(duì)比。

      3.1 數(shù)據(jù)集說(shuō)明

      本文使用的數(shù)據(jù)集HWDB1.1[31]是中國(guó)科學(xué)院自動(dòng)化研究所收集并發(fā)布的中文手寫字體數(shù)據(jù)集。它包含由300 位不同作者編寫的1 172 907 張中文字體圖像。每個(gè)作者大約有3755 個(gè)不同的漢字,它們以8 位灰度圖像的形式存儲(chǔ)。為了節(jié)省訓(xùn)練的時(shí)間,本文對(duì)HWDB1.1 數(shù)據(jù)集進(jìn)行了采樣,每個(gè)作者隨機(jī)抽取300 個(gè)詞。因此,形成了一個(gè)由300 位作者和90 000 張圖像組成的子數(shù)據(jù)集HWDB1.1-Sub。將這90 000 張圖像隨機(jī)分成3 等份,2 份用于訓(xùn)練,剩下的1 份用于測(cè)試。如圖7 所示,本文隨機(jī)挑選了其中的3 位作者書寫的5 個(gè)字,很明顯,它們擁有各自的書寫風(fēng)格。

      圖7 HWDB1.1 數(shù)據(jù)集中不同作者書寫的相同漢字的示例

      3.2 實(shí)驗(yàn)結(jié)果與分析

      本節(jié)對(duì)所提的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行消融實(shí)驗(yàn),并結(jié)合實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析。本節(jié)共進(jìn)行了5 組實(shí)驗(yàn),如表1所示,具體包括P2-M+P3(FragNet)、P2 +P3、P1 +P2、P1 +P3 以及P1 +P2 +P3。并分成3 部分進(jìn)行分析,分別為對(duì)加入M模塊有效性的證明、對(duì)加入P1 支流結(jié)構(gòu)有效性的證明以及對(duì)全局特征在筆跡鑒別問(wèn)題中的不可或缺性的驗(yàn)證。本文采用top-1(前1)準(zhǔn)確率和top-5(前5)準(zhǔn)確率這2 個(gè)指標(biāo)來(lái)對(duì)模型的性能進(jìn)行評(píng)估。top-1 準(zhǔn)確率是指將網(wǎng)絡(luò)輸出中概率最大的一個(gè)作為網(wǎng)絡(luò)的最終預(yù)測(cè)結(jié)果,并且與標(biāo)簽是一致,則認(rèn)為模型預(yù)測(cè)正確。top-5 準(zhǔn)確率是指網(wǎng)絡(luò)輸出中概率最大的5 類別中包含有標(biāo)簽對(duì)應(yīng)類別,則認(rèn)為模型預(yù)測(cè)正確。除此之外,為了能夠更細(xì)致地分析模型性能間的差異,本文還對(duì)每個(gè)模型中每一位作者的top-1 準(zhǔn)確率進(jìn)行了統(tǒng)計(jì),然后將需要對(duì)比的2 個(gè)模型的數(shù)據(jù)繪制成散點(diǎn)圖進(jìn)行作者級(jí)別的準(zhǔn)確率變化分析。

      表1 網(wǎng)絡(luò)模型結(jié)構(gòu)消融實(shí)驗(yàn)結(jié)果

      首先是對(duì)增加M模塊有效性的證明,即本文提出原本網(wǎng)絡(luò)中全局特征與局部特征融合的不夠充分,對(duì)P2 支流提取到的高級(jí)特征沒(méi)有充分利用的問(wèn)題而提出增加M模塊的有效性的證明。根據(jù)表1中第1、2 組實(shí)驗(yàn)結(jié)果可知,未加入M模塊以前網(wǎng)絡(luò)的top-1 準(zhǔn)確率僅為85.06%,top-5 準(zhǔn)確率為97.53%。當(dāng)加入了M模塊之后,也就是整個(gè)P2 +P3 支流組成的網(wǎng)絡(luò),它的top-1 準(zhǔn)確率提升到了87.91%,相比原來(lái)增長(zhǎng)了2.85%。top-5 準(zhǔn)確率也增長(zhǎng)了近0.4%。這充分說(shuō)明了將P2 支流提取到的高級(jí)全局特征融合入網(wǎng)絡(luò)參與網(wǎng)絡(luò)最終決策是十分有效的,原來(lái)網(wǎng)絡(luò)確實(shí)存在融合不充分,沒(méi)有充分利用已提取到的高級(jí)特征的問(wèn)題。此外,為進(jìn)一步分析M模塊的加入對(duì)網(wǎng)絡(luò)性能的影響,本文對(duì)每一位作者在加入M模塊前后的準(zhǔn)確率進(jìn)行了統(tǒng)計(jì)分析。如圖8 所示,圖中的每個(gè)點(diǎn)都代表一個(gè)作者,共300 個(gè)點(diǎn)。橫坐標(biāo)代表P2-M+P3(FragNet)支流結(jié)果中每位作者的準(zhǔn)確率,縱坐標(biāo)代表P2 +P3 支流結(jié)果中每位作者的準(zhǔn)確率。橫縱坐標(biāo)的表示范圍都是0~1。從圖中不難發(fā)現(xiàn),大多數(shù)點(diǎn)都是位于圖中虛對(duì)角線的上方,說(shuō)明這些作者的字在加入M模塊之后其鑒別的準(zhǔn)確率都得到了提升。特別是在0.6~0.8 范圍內(nèi),其中的各位作者的準(zhǔn)確率相較于原來(lái)得到了較大的提升。

      圖8 P2 +P3 與FragNet 網(wǎng)絡(luò)中每位作者top-1準(zhǔn)確率情況對(duì)比

      其次是對(duì)于加入P1 支流結(jié)構(gòu)有效性的證明,即對(duì)增加分割方式,拓寬細(xì)節(jié)特征來(lái)源有效性的證明。對(duì)于這部分的實(shí)驗(yàn),本文分2 步進(jìn)行證明。第1 步需要證明新增加的采用水平分割方式的P1 支流具有與原本存在的垂直分割方式的P3 支流具有相近的特征提取能力。根據(jù)表中的第2、3 組實(shí)驗(yàn)結(jié)果可知,P2 +P3 支流網(wǎng)絡(luò)top-1 準(zhǔn)確率與P1 +P2 支流網(wǎng)絡(luò)的top-1 準(zhǔn)確率僅相差0.17%,top-5 的準(zhǔn)確率幾乎相等。這2 組實(shí)驗(yàn)證明了新增加的采用水平分割方式的P1 支流具有與采用垂直方式的P3 支流相近的特征提取能力(P3 支流略高于P1 支流)。第2 步需要證明同時(shí)采用水平分割方式和垂直分割方式進(jìn)行特征提取能否增加網(wǎng)絡(luò)獲取細(xì)節(jié)特征來(lái)源,提升網(wǎng)絡(luò)性能的問(wèn)題。根據(jù)表中第2、3 和5 組實(shí)驗(yàn)結(jié)果可知,第2 組和第3 組分別單獨(dú)采用了垂直分割(P2 +P3)和水平分割方式(P1 +P2),而第5組實(shí)驗(yàn)是兩者的結(jié)合(P1 +P2 +P3)。其中P1 +P2+P3 網(wǎng)絡(luò)結(jié)構(gòu)的top-1 和top-5 準(zhǔn)確率都是最高的,分別達(dá)到了88.18%和98.07%。雖然最終的結(jié)果比采用單個(gè)支流的結(jié)果最多僅高出了大約0.44%(top-1)和0.17%(top-5)。但這依然可以說(shuō)明增加采用水平分割方式的P1 支流確實(shí)拓寬了網(wǎng)絡(luò)獲取細(xì)節(jié)特征的能力,提升了網(wǎng)絡(luò)的性能。最終結(jié)果之所以沒(méi)有拉開(kāi)很大的差距,可能是原本采用單個(gè)分割方式的網(wǎng)絡(luò)已經(jīng)具有了很強(qiáng)的特征提取能力了,增加不同分割方式的支流進(jìn)入網(wǎng)絡(luò)所能提供新的特征信息對(duì)于整個(gè)網(wǎng)絡(luò)性能提升的幫助有限。同樣,本文也進(jìn)一步分析了它們?cè)诿總€(gè)作者準(zhǔn)確率上的差異,如圖9 和10 所示。從圖9 展示的結(jié)果來(lái)看,300位作者的準(zhǔn)確率分布在對(duì)角線兩邊大致是均勻的,沒(méi)有發(fā)生很明顯的偏向,這與總的準(zhǔn)確率結(jié)果是一致的。圖10 中將采用單一分割方式與采用2 種分割方式的每位作者的準(zhǔn)確率進(jìn)行了對(duì)比,總的來(lái)說(shuō)是在對(duì)角線上半部分的點(diǎn)多些,但是因?yàn)樗鼈兊目傮w的準(zhǔn)確率差距不是很大,圖中表現(xiàn)得并不明顯??赡艿脑蛟谇懊娴姆治鲋幸呀?jīng)提過(guò)。

      圖9 水平分割與垂直分割方法中每位作者top-1準(zhǔn)確率情況對(duì)比

      圖10 只采用單一分割方式和兩種分割方式的方法中每位作者top-1 準(zhǔn)確率情況對(duì)比

      最后是對(duì)全局特征在筆跡鑒別問(wèn)題過(guò)程中的不可替代性的驗(yàn)證。表1 中的第4 組實(shí)驗(yàn)沒(méi)有采用中間的P2 支流結(jié)構(gòu),只有P1 和P3 支流結(jié)構(gòu)。根據(jù)第2~4 組實(shí)驗(yàn)結(jié)果的對(duì)比可以發(fā)現(xiàn),在沒(méi)有全局特征的參與下,僅有P1 和P3 支流結(jié)構(gòu)組成的網(wǎng)絡(luò)性能明顯低于任何一個(gè)有全局特征參與的網(wǎng)絡(luò)結(jié)構(gòu)。這也進(jìn)一步驗(yàn)證了全局特征在筆跡鑒別問(wèn)題中是不可或缺的。而在之前的分析中同樣也證明了細(xì)節(jié)特征在筆跡鑒別中的重要性。因此,可以得出結(jié)論:在筆跡鑒別問(wèn)題中,手寫字體的細(xì)節(jié)特征和全局特征都是需要的,單獨(dú)依靠某一個(gè)特征無(wú)法取得很好的效果,提取2 種特征進(jìn)行融合處理才能獲得更好的效果。這3 個(gè)網(wǎng)絡(luò)模型的作者準(zhǔn)確率變動(dòng)情況如圖11所示??梢灾庇^地發(fā)現(xiàn),有全局特征參與,無(wú)論是對(duì)于水平分割還是垂直分割方式來(lái)說(shuō),都可以很好地提升作者被識(shí)別的準(zhǔn)確率。圖11 中2 幅圖都存在明顯的點(diǎn)向下偏移的情況。

      圖11 有無(wú)全局特征參與的方法中每位作者top-1 準(zhǔn)確率情況對(duì)比

      3.3 與其他算法的性能對(duì)比

      本節(jié)在HWDB1.1 數(shù)據(jù)集上與其他網(wǎng)絡(luò)模型方法進(jìn)行性能比較。研究中文字體筆跡鑒別的論文比研究英文字體的要少。本文關(guān)注的是基于單一手寫字體的離線筆記鑒別問(wèn)題,相應(yīng)的論文更少。由于使用相應(yīng)數(shù)據(jù)集進(jìn)行比較的論文很少,因此本文進(jìn)行了2 方面的對(duì)比。

      首先使用了研究單一手寫英文字體筆跡鑒別的網(wǎng)絡(luò)來(lái)進(jìn)行比較。本文使用ResNet18[32]、研究英文筆跡鑒別的FragNet[28]和Deep Adaptive[13]進(jìn)行比較。對(duì)于ResNet18、FragNet 和Deep Adaptive 網(wǎng)絡(luò),為了消除不同圖片大小帶來(lái)的影響,將輸入圖像的大小設(shè)置為112 ×112,并使用HWDB1.1-Sub 進(jìn)行訓(xùn)練和測(cè)試。實(shí)驗(yàn)使用60 000張的樣本進(jìn)行訓(xùn)練,30 000 樣本進(jìn)行測(cè)試。采用top-1 準(zhǔn)確率和top-5 準(zhǔn)確率這2 個(gè)指標(biāo)來(lái)對(duì)模型的性能進(jìn)行評(píng)估。其結(jié)果如表2 中前4 行所示。在top-1 和top-5 的這2 個(gè)準(zhǔn)確率指標(biāo)上,本文提出的方法都是最佳的。

      表2 本文方法與其他算法的性能對(duì)比

      其次,本文與使用相同了數(shù)據(jù)集的Deep Writer[7]算法進(jìn)行對(duì)比。Deep Writer 的結(jié)果選自文獻(xiàn)[7],由于它使用HWDB1.1 全部的數(shù)據(jù)集進(jìn)行劃分訓(xùn)練,本文也按照它使用的劃分方法重新對(duì)數(shù)據(jù)集進(jìn)行了劃分與訓(xùn)練。使用了大約780 000 張樣本進(jìn)行訓(xùn)練,大約260 000 樣本進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果如表2最后2 行所示,本文提出的方法在top-1 準(zhǔn)確率上比Deep Writer 高了4.32%。

      除此之外,本文還用了torchstat 工具對(duì)網(wǎng)絡(luò)實(shí)際的計(jì)算復(fù)雜度和參數(shù)量進(jìn)行了分析比較。從整體上來(lái)看,雖然無(wú)論是與目標(biāo)字體為英文字體的網(wǎng)絡(luò)還是目標(biāo)文字為中文字體的Deep Writer 網(wǎng)絡(luò)相比,本文提出的模型性能都是最佳的,但本文提出的網(wǎng)絡(luò)在參數(shù)量、計(jì)算訓(xùn)練的時(shí)間等3 個(gè)指標(biāo)上表現(xiàn)較弱。如何在不特別影響性能的前提下減少網(wǎng)絡(luò)中的參數(shù)和計(jì)算量是今后可以進(jìn)一步研究的方向。

      本節(jié)也對(duì)表2 中各個(gè)網(wǎng)絡(luò)模型中每位作者的準(zhǔn)確率情況做了統(tǒng)計(jì),如圖12 所示。需要說(shuō)明的是,由于本文直接采用了Deep Writer 論文中的數(shù)據(jù),而不是進(jìn)行重新訓(xùn)練得到的數(shù)據(jù),因此無(wú)法對(duì)其結(jié)果中的作者準(zhǔn)確率進(jìn)行統(tǒng)計(jì)。對(duì)于FragNet 來(lái)說(shuō),較低準(zhǔn)確率的作者在本文方法中提升的幅度很大,隨著準(zhǔn)確率的提高這一效果變得越來(lái)越弱。而對(duì)于其他2 個(gè)網(wǎng)絡(luò)來(lái)說(shuō)沒(méi)有這一現(xiàn)象,主要原因就是它們整體的識(shí)別率相較于本文方法來(lái)說(shuō)差距大,因而使得幾乎所有的點(diǎn)都位于對(duì)角線上方且偏離的幅度很大??梢?jiàn)本文提出的方法對(duì)于特征提取的能力都優(yōu)于其他3 種方法。

      圖12 本文提出方法與其他方法中每位作者top-1 準(zhǔn)確率情況對(duì)比

      4 結(jié)論

      針對(duì)現(xiàn)有局部特征與全局特征融合網(wǎng)絡(luò)在特征使用不充分、提取到的全局高級(jí)特征沒(méi)有直接參與網(wǎng)絡(luò)最終決策的問(wèn)題,本文提出了在原來(lái)的網(wǎng)絡(luò)結(jié)構(gòu)上增加卷積模塊與全連接層來(lái)保證提取到的高級(jí)特征能得到充分利用;針對(duì)原網(wǎng)絡(luò)中分割方式不適用中文字體,導(dǎo)致在中文數(shù)據(jù)集下細(xì)節(jié)特征獲取的來(lái)源不夠充分的問(wèn)題,本文以增加水平分割的方式來(lái)拓寬細(xì)節(jié)特征來(lái)源。通過(guò)消融實(shí)驗(yàn)數(shù)據(jù)的對(duì)比分析,證明了本文方法的有效性,促使網(wǎng)絡(luò)整體的性能得到了明顯提升。同時(shí),本文還驗(yàn)證了細(xì)節(jié)特征和全局特征對(duì)于筆跡鑒別問(wèn)題具有同等的重要性,兩者的結(jié)合能獲得更好的識(shí)別結(jié)果。最后,本文提出的模型在與其他模型的對(duì)比中也取得了最好的成績(jī)。

      本文提出的方法雖然采用了水平分割和垂直分割的方式對(duì)手寫字體圖片進(jìn)行分割,但對(duì)于切片序列之間的空間關(guān)系建模、增強(qiáng)切片局部特征的識(shí)別能力沒(méi)有涉及。針對(duì)該問(wèn)題,未來(lái)考慮在切片序列空間關(guān)系建模算法方面展開(kāi)研究工作。

      猜你喜歡
      筆跡支流字體
      世界上最大的升船機(jī)
      巧克力能否去除桌上的油性筆筆跡
      少兒科技(2021年3期)2021-01-20 13:18:34
      字體的產(chǎn)生
      筆跡泄露大秘密
      阿什河某支流河岸帶草本植物重要性初步研究
      筆跡不說(shuō)謊
      筆跡鑒定過(guò)程中的心理偏差及其控制
      組合字體
      金沙江支流東川玉碑地遺址
      大眾考古(2014年6期)2014-06-26 08:31:40
      字體安裝步步通
      昌吉市| 南城县| 新疆| 清流县| 鲜城| 策勒县| 乌拉特后旗| 普格县| 息烽县| 玛多县| 达拉特旗| 五河县| 固始县| 若尔盖县| 武鸣县| 綦江县| 南丹县| 兴安县| 宾川县| 思茅市| 姚安县| 金沙县| 桂平市| 广东省| 龙岩市| 怀柔区| 贡嘎县| 连平县| 南靖县| 克拉玛依市| 新源县| 陆河县| 吉林市| 中宁县| 舞阳县| 准格尔旗| 尼玛县| 宁德市| 财经| 新泰市| 新竹市|