摘 要:關(guān)鍵詞自動(dòng)識(shí)別與標(biāo)注算法在酒類歷史文獻(xiàn)自動(dòng)分析和機(jī)器識(shí)別理解領(lǐng)域中有重要價(jià)值. 首先采用YOLOv7 網(wǎng)絡(luò)模型進(jìn)行酒文獻(xiàn)的文本框識(shí)別,接著引入CBAM 注意力機(jī)制獲得文本框位置、大小等特征,然后采用PaddleOCR 算法實(shí)現(xiàn)酒文獻(xiàn)的關(guān)鍵詞識(shí)別,最后應(yīng)用文字修補(bǔ)技術(shù)進(jìn)行優(yōu)化處理. 應(yīng)用該檢測(cè)算法設(shè)計(jì)的實(shí)驗(yàn)分析系統(tǒng)能高效處理海量酒文獻(xiàn)數(shù)據(jù),以90% 的識(shí)別率提取文獻(xiàn)中與酒類相關(guān)的文字信息,能有效克服酒文獻(xiàn)中存在的文字印刷模糊不完整、字體種類多樣的特殊情形,實(shí)驗(yàn)中取得了較好的識(shí)別標(biāo)注效果.
關(guān)鍵詞:深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);文字識(shí)別;酒文獻(xiàn)
中圖分類號(hào):TP391
DOI: 10.19504/j.cnki.issn1671-5365.2024.06.05
在酒文獻(xiàn)整理與標(biāo)注分析研究中,由于文獻(xiàn)數(shù)量龐大,人工檢索和分析耗時(shí)耗力,因此采用人工智能和圖像分析技術(shù)進(jìn)行文獻(xiàn)分析[1]尤其迫切和重要. 命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語(yǔ)言處理中的一項(xiàng)關(guān)鍵任務(wù),旨在從文本中識(shí)別和提取出具有特定意義的命名實(shí)體,如人名、地名、組織機(jī)構(gòu)名、時(shí)間、日期等. 條件隨機(jī)場(chǎng)模型(CRF)[2]是較為成熟的技術(shù)方案,但其通常需要手動(dòng)設(shè)計(jì)特征函數(shù)來(lái)描述輸入序列和標(biāo)記序列之間的關(guān)系[3-4]. 隨著深度學(xué)習(xí)技術(shù)和理論的發(fā)展[5-6],遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短時(shí)神經(jīng)記憶網(wǎng)絡(luò)模型(LSTM)等應(yīng)用其中[7-10],有效提升了特征提取的效率. 雖然相關(guān)研究已經(jīng)探索了命名實(shí)體識(shí)別等技術(shù)在該領(lǐng)域的應(yīng)用,但在酒文獻(xiàn)處理上仍存在一些問題. 具體而言,當(dāng)前的研究局限于特定領(lǐng)域,而酒文獻(xiàn)涉及多方面,需要更細(xì)致和全面的分析. 本文擬利用大數(shù)據(jù)技術(shù)收集和整理酒史文獻(xiàn)數(shù)據(jù),結(jié)合卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建文獻(xiàn)識(shí)別模型,實(shí)現(xiàn)自動(dòng)化的酒文獻(xiàn)識(shí)別和處理,從而更全面地理解酒文獻(xiàn)中的內(nèi)容.
1 PaddleOCR算法及YOLOv7-tiny網(wǎng)絡(luò)模型
1.1 PaddleOCR 算法
PaddleOCR[11]基于PaddlePaddle 深度學(xué)習(xí)框架開發(fā),提供了OCR 模型和工具,具有文字檢測(cè)、文字識(shí)別和布局分析等功能. PaddleOCR 是一種基于深度學(xué)習(xí)模型,識(shí)別精度較高,具備良好的魯棒性和泛化能力. PaddleOCR 預(yù)訓(xùn)練模型包括EAST、DB?Net、SAST、Rosetta、CRNN 等,能適用于不同的OCR 場(chǎng)景和需求. 由于白酒文獻(xiàn)中的文字布局復(fù)雜、字體多樣、字形多變,本文選擇對(duì)繁體字識(shí)別效果較好的PaddleOCR 字符識(shí)別模型.
1.2 YOLOv7-tiny 網(wǎng)絡(luò)模型
YOLOv7-tiny[12] 網(wǎng)絡(luò)模型主要由輸入端(In?put)、主干網(wǎng)絡(luò)(backbone)、頸部和頭部(Neckamp;Head)四個(gè)部分組成,YOLOv7-tiny結(jié)構(gòu)如圖1所示.
YOLOv7-tiny 模型輸入端部分采用Mosaic 數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算、自適應(yīng)圖片縮放等方式對(duì)輸入圖像進(jìn)行預(yù)處理. 主干網(wǎng)絡(luò)部分由數(shù)個(gè)CBL 模塊、MCB 層、MP 層共同組成,其中CBL 模塊由1 個(gè)卷積層、1 個(gè)BN 層和Leakyrelu 激活函數(shù)組成;MCB層由5 個(gè)CBL 模塊組成,它可以有效地學(xué)習(xí)和快速收斂;MP 層由3 個(gè)CBL 模塊和一個(gè)最大池化層組成,兩部分都對(duì)特征圖進(jìn)行下采樣和通道數(shù)改變,最后將其結(jié)果融合,增強(qiáng)了特征提取能力. 頸部部分采用SPPCSP、UP 和MCB 結(jié)構(gòu),SPPCSP 模塊有4 個(gè)CBL 模塊,通過最大池化來(lái)增大感受野,以適應(yīng)不同分辨率的圖像;UP 模塊通過最近鄰插值的方式來(lái)進(jìn)行上采樣. 頭部部分采用conv 和CBL 模塊,通過提取特征,分別輸出不同尺度大小的3 個(gè)預(yù)測(cè)結(jié)果.
2 本文算法及網(wǎng)絡(luò)模型改進(jìn)
2.1 改進(jìn)的PaddleOCR 算法
由于古代酒文獻(xiàn)布局復(fù)雜、字體古老、字形多變、印刷模糊,PaddleOCR 算法對(duì)于文本框的檢測(cè)效果較差,有大量的漏檢情況,進(jìn)而影響了文字識(shí)別效率. 由于YOLO 在目標(biāo)檢測(cè)中的優(yōu)秀表現(xiàn),故將PaddleOCR 文本框檢測(cè)部分替換為YOLO 網(wǎng)絡(luò)模型,再將根據(jù)檢測(cè)結(jié)果中得到的文本框輸入到Pad?dleOCR 中,實(shí)現(xiàn)文獻(xiàn)關(guān)鍵詞的識(shí)別與標(biāo)注.
2.2 改進(jìn)的YOLOv7 網(wǎng)絡(luò)模型
改進(jìn)算法采用YOLOv7-tiny 網(wǎng)絡(luò)模型對(duì)文本框進(jìn)行檢測(cè),為了使文本框的方向、位置、大小特征獲得更多關(guān)注,引入注意力機(jī)制CBAM[13](Convolu?tional Block Attention Module)以優(yōu)化性能. CBAM模塊主要由兩個(gè)子模塊組成:通道注意力模塊(Channel Attention Module)和空間注意力模塊(Spatial Attention Module),如圖2 所示.
設(shè)輸入特征圖像為F ∈ RC × H × W(C、H、W 分別為特征圖的通道數(shù)、高和寬),利用CBAM 注意力機(jī)制獲得一維通道注意力特征Mc(F ) ∈ RC × 1 × 1 和二維空間注意力特征Ms (F ) ∈ R1 × H × W,計(jì)算式如下:
F' = Mc (F ) ? F (1)
F '' = Mc (F' ) ? F' (2)
其中:?表示元素乘法,F(xiàn) '' 表示最終結(jié)果.
在通道注意力模塊中,將輸入特征圖F ∈ RC × H × W 分別經(jīng)過基于水平和垂直方向的全局最大池化操作和全局平均池化操作之后,得到兩個(gè)C × 1 × 1 的特征圖,然后通過一個(gè)兩層的MLP,第一層神經(jīng)元個(gè)數(shù)為C/r(r 為減少率),激活函數(shù)為Relu,第二層神經(jīng)元個(gè)數(shù)為C,兩層權(quán)重是共享的.之后將兩部分做逐元素求和,再通過激活函數(shù)(Sig?moid)生成通道注意力特征. 最后,將通道注意力特征與輸入特征進(jìn)行元素乘法,并將其結(jié)果作為空間注意力模塊的輸入,即:
Mc (F )= Sigmoid (MLP (AvgPool (F ))+MLP (MaxPool (F ))) (3)
其中:Mc (F ) ∈ RC × 1 × 1 表示通道特征,F(xiàn) 為輸入特征圖F ∈ RC × H × W.
空間注意力模塊能學(xué)習(xí)特征圖像中不同空間位置之間的相關(guān)性,并根據(jù)這些空間位置之間的相關(guān)性來(lái)分配不同的注意力權(quán)重. 將輸入的特征圖通過基于通道的全局最大池化操作和全局平均池化操作,基于通道的全局最大池化是對(duì)輸入特征圖在通道維度上進(jìn)行全局最大池化,這一步的目的是獲取每個(gè)空間位置上特征的最大值,以捕捉每個(gè)位置上的顯著特征,計(jì)算公式為Pmax = maxc Xcij,Xcij 表示特征圖X 在通道c、位置(i,j ) 處的值. 基于通道的全局平均池化是對(duì)輸入特征圖在通道維度上進(jìn)行全局平均池化. 這一步的目的是獲取每個(gè)空間位置上特征的平均值,以捕捉每個(gè)位置的整體信息. 計(jì)算公式為Pavg =1/CΣc = 1CXcij,分別得到兩個(gè)1 × H × W 的特征圖,將兩個(gè)特征圖作通道拼接,再經(jīng)過一個(gè)7×7 的卷積操作,得到一個(gè)1 × H × W 的特征圖,然后通過激活函數(shù)(Sigmoid)來(lái)生成空間注意力特征. 最后,將其與輸入特征圖進(jìn)行元素乘法運(yùn)算,最終得到在空間維度上關(guān)注重要特征的特征圖,計(jì)算式為:
Ms (F ) =Sigmoid ( f 7 × 7 (AvgPool (F );MaxPool (F ))) (4)
其中:Ms (F ) ∈ R1 × H × W 表示空間特征,f 7 × 7 表示一個(gè)大小為7×7 的卷積運(yùn)算,F(xiàn) 為輸入特征.
2.3 文字修補(bǔ)技術(shù)
古代酒文獻(xiàn)關(guān)鍵詞識(shí)別實(shí)驗(yàn)存在部分文字?jǐn)嚅_的情況,嚴(yán)重影響文獻(xiàn)關(guān)鍵詞識(shí)別精度. 為了解決以上問題,本文先使用膨脹(Dilation)、再使用腐蝕(Erosion)方法對(duì)文字修補(bǔ)技術(shù),以達(dá)到修復(fù)填補(bǔ)文字?jǐn)嚅_的區(qū)域,進(jìn)而提升檢測(cè)效果. 在文本識(shí)別技術(shù)中,腐蝕和膨脹是一些基本的形態(tài)學(xué)操作,通常用于處理二值化圖像,其中文本區(qū)域被視為前景,背景為其他部分. 腐蝕和膨脹操作可以使用數(shù)學(xué)形式表示,其中結(jié)構(gòu)元素(kernel)通常用一個(gè)矩陣或二維數(shù)組表示.
膨脹操作使用結(jié)構(gòu)元素,在圖像中滑動(dòng)并將其放置在像素上. 如果結(jié)構(gòu)元素與文本區(qū)域有任何重疊,該像素就被標(biāo)記為前景. 主要作用是擴(kuò)展前景對(duì)象的邊界,填充空白區(qū)域,連接文本區(qū)域內(nèi)的斷裂部分. 膨脹操作有助于連接字符之間的空隙,填充筆畫之間的空白,使文本更加連貫. 如果圖像表示為二值矩陣I,結(jié)構(gòu)元素表示為矩陣K,膨脹操作Dilated (I,K )的數(shù)學(xué)表達(dá)如下:
Dilated(I,K ) (x,y ) = max(i,j ) ∈ KI (x + i,y + j ) (5)
其中:max 為取最大值操作,(x,y )表示當(dāng)前像素的坐標(biāo),(i,j ) 表示結(jié)構(gòu)元素的坐標(biāo). 該公式表示在位置(x,y ) 處,膨脹操作將圖像中與結(jié)構(gòu)元素K 重疊的部分的最大值作為輸出.
腐蝕操作通過在圖像中滑動(dòng)一個(gè)結(jié)構(gòu)元素(kernel)并將其放置在像素上,只有當(dāng)結(jié)構(gòu)元素完全覆蓋文本區(qū)域時(shí),該像素才被保留為前景,否則被置為背景. 主要作用是縮小或消除前景對(duì)象的邊界,去除小的細(xì)節(jié),使前景區(qū)域變得更加緊湊. 對(duì)于文本而言,腐蝕操作有助于消除細(xì)小的筆畫或連接線,使文本區(qū)域更加清晰. 腐蝕操作Eroded (I,K )的數(shù)學(xué)表達(dá)如下:
Eroded(I,K ) (x,y ) = min(i,j ) ∈ K I (x + i,y + j ) (6)
其中:min 為取最小值操作,(x,y )表示當(dāng)前像素的坐標(biāo),(i,j ) 表示結(jié)構(gòu)元素的坐標(biāo). 該公式表示在位置(x,y ) 處,腐蝕操作將圖像中與結(jié)構(gòu)元素K 重疊的部分的最小值作為輸出.
3 算法實(shí)現(xiàn)
首先引入YOLOv7-tiny 模型進(jìn)行文本框檢測(cè),接著采用膨脹和腐蝕方法對(duì)文字進(jìn)行修補(bǔ),最后采用的改進(jìn)的識(shí)別算法完成酒文獻(xiàn)的識(shí)別. 實(shí)現(xiàn)效果如圖3 所示,整體檢測(cè)識(shí)別算法具體實(shí)現(xiàn)步驟如下:
第一步:輸入初始圖像F.
第二步:對(duì)初始圖像F 利用YOLO 目標(biāo)檢測(cè)算法進(jìn)行文本框檢測(cè),并使用投影法[14]按列分割,從而得到文本框集合Φ: { Ni,i = 1,2,3… },其中Ni 表示第i 個(gè)文本框.
設(shè)M、N 分別分投影區(qū)域的水平和垂直像素點(diǎn)個(gè)數(shù),f (i,j )為像素點(diǎn)(i,j )處的灰度值,則投影法實(shí)現(xiàn)步驟如下:
(?。┦紫葘?duì)圖像采用閾值法進(jìn)行二值化處理,由于需識(shí)別圖像顏色較為單一,T 可取128,計(jì)算如式(7)所示.
其中:V [ i ]表示縱軸垂直投影值,i 表示橫軸.
(ⅲ)利用平滑后的曲線,計(jì)算出波谷之間的平均距離作為參考值,將波谷所對(duì)應(yīng)的垂直線作為列分割線.
第三步:再次利用YOLO 目標(biāo)檢測(cè)算法將得到的文本框集合Φ 按行分割,得到單個(gè)文字框Ω:{ Mj,j = 1,2,3… },其中Mj 表示第j 個(gè)文字框.
第四步:利用文字修補(bǔ)技術(shù),先膨脹后腐蝕. 膨脹后結(jié)果為F1 = max(i,j ) ∈ Kernel{F (x + i,y + j )},腐蝕后結(jié)果為F2 = min(i,j ) ∈ Kernel{F } 1 (x + i,y + j ) ,其 中Kernel為操作核,(i,j )為坐標(biāo),Kernel大小為α × α,α為操作核大小參數(shù),根據(jù)文字大小調(diào)整.
第五步:利用PaddleOCR 文本識(shí)別算法對(duì)單個(gè)文字框集合Ω結(jié)合F2 進(jìn)行識(shí)別,輸出檢測(cè)結(jié)果文字集合Λ和識(shí)別結(jié)果圖像F'.
PaddleOCR 文本識(shí)別算法步驟如下:
步驟一:特征提取,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)輸入的序列進(jìn)行特征提取. 這一步通過一系列的卷積層和池化層來(lái)從輸入圖像中提取特征,并生成特征圖(Feature Map).
步驟二:循環(huán)層處理,將特征圖輸入到循環(huán)層中進(jìn)行處理. 在PaddleOCR 中,循環(huán)層由一個(gè)雙向LSTM(Long Short-Term Memory,長(zhǎng)短時(shí)記憶)循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)成. LSTM 是一種特殊的RNN(Re?current Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))結(jié)構(gòu),能夠捕獲長(zhǎng)距離依賴關(guān)系. 在PaddleOCR 中,LSTM 使用了雙向結(jié)構(gòu),即同時(shí)使用過去和未來(lái)的信息,這有助于提高模型的性能和穩(wěn)定性.
步驟三:預(yù)測(cè)特征序列的標(biāo)簽分布,在循環(huán)層中,預(yù)測(cè)特征序列中的每一個(gè)特征向量的標(biāo)簽分布. 這一步通過將LSTM 網(wǎng)絡(luò)的輸出連接到一個(gè)全連接層和一個(gè)Softmax 函數(shù)來(lái)實(shí)現(xiàn),生成每個(gè)字符的概率分布.
步驟四:整合結(jié)果,最后,將LSTM 網(wǎng)絡(luò)預(yù)測(cè)的特征序列的結(jié)果進(jìn)行整合,轉(zhuǎn)換為最終輸出的結(jié)果. 在PaddleOCR 中,這一步通過轉(zhuǎn)錄層(Transcrip?tion Layer)完成,將LSTM 網(wǎng)絡(luò)的輸出轉(zhuǎn)換為最終的識(shí)別結(jié)果.
在PaddleOCR 中,文本識(shí)別的核心公式主要包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)的特征提取、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的處理以及全連接層和Softmax 函數(shù)的概率轉(zhuǎn)換. 這些公式是實(shí)現(xiàn)文本識(shí)別算法的關(guān)鍵部分,具體如下:
(ⅰ)卷積層:卷積層是用于特征提取的核心部分,通過在輸入圖像上應(yīng)用一系列的卷積核進(jìn)行卷積運(yùn)算,生成特征圖. 常用的卷積操作公式可以表示為: F (x,y ) =Σi = 1kwi × xi,y,其中F (x,y )表示在位置(x,y )的特征值,wi 表示第i 個(gè)卷積核的權(quán)重,xi,y 表示輸入圖像在位置(x,y )的特征值.
(ⅱ)循環(huán)層:循環(huán)層是用于處理序列數(shù)據(jù)的核心部分,通過定義一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)來(lái)捕捉序列數(shù)據(jù)的時(shí)序依賴關(guān)系. 在PaddleOCR 中,循環(huán)層使用了雙向LSTM 結(jié)構(gòu),其核心公式包括LSTM 單元的遞歸公式和輸出公式. LSTM 單元的遞歸公式可表示為:
[ ft,it,gt,ot ] =σ ( [Wxf xt + Whi ht - 1 + bf ] , [Wxi xt + Whi ht - 1 + bi ] ,[Wxg xt + Whg ht - 1 + bg ] , [Wxo xt + Who hp - 1 + bo ])
其中ft、it 、gt 、ot 分別表示遺忘門、輸入門、候選細(xì)胞狀態(tài)和輸出門的輸出,W 和b 分別表示權(quán)重和偏置項(xiàng),σ 表示激活函數(shù).
(ⅲ)全連接層和Softmax 函數(shù):全連接層用于將前一層的輸出轉(zhuǎn)換為固定長(zhǎng)度的向量,而Softmax 函數(shù)則用于將每個(gè)字符的概率轉(zhuǎn)換為概率分布. 全連接層的公式可以表示為:a = Wx + b,其中a 表示輸出向量,W 和b 分別表示權(quán)重和偏置項(xiàng),x 表示輸入向量. Softmax 函數(shù)的公式可以表示為:σ (x ) =ex/ex + ex + 1 + … + ex + N,其中σ (x ) 表示輸入向量x 經(jīng)過Softmax 函數(shù)后的概率分布.
4 實(shí)驗(yàn)分析
4.1 數(shù)據(jù)集介紹
數(shù)據(jù)集來(lái)源于中國(guó)酒史研究中心酒文獻(xiàn)數(shù)據(jù)庫(kù),包括《秋白詩(shī)集》《疇人傳》《諸子集成(論語(yǔ)正義)》《太平御覽》《中國(guó)文學(xué)》,數(shù)據(jù)集中含有隸書、楷書、繁體字等多種字體,皆為豎版排列,酒文獻(xiàn)數(shù)據(jù)豐富. 經(jīng)實(shí)驗(yàn)整理,選擇共計(jì)24 000 張作為初始圖像數(shù)據(jù)集. 選取其中一部分進(jìn)行文本框手工標(biāo)注,以此作為文本框檢測(cè)訓(xùn)練數(shù)據(jù)集,標(biāo)注如圖4 所示.
4.2 文本框單字分割
將通過投影法得到的各個(gè)列文本框,應(yīng)用YO?LOv7 算法框選出單個(gè)漢字,實(shí)現(xiàn)單個(gè)文字的分割,實(shí)驗(yàn)結(jié)果如圖5 所示. 對(duì)分割出的文字圖像進(jìn)行修補(bǔ),修補(bǔ)順序?yàn)橄扰蛎?、后腐蝕,以提高部分受損文字的識(shí)別準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如圖6 所示,圖中從左至右依次為原圖、膨脹后、腐蝕后變化效果.對(duì)分割出的酒文獻(xiàn)漢字進(jìn)行文本識(shí)別,實(shí)驗(yàn)結(jié)果如圖7 所示.
4.3 評(píng)價(jià)指標(biāo)
為定量判斷分析本文獻(xiàn)的改進(jìn)算法對(duì)古代酒文獻(xiàn)文本框的檢測(cè)和關(guān)鍵字識(shí)別效果,本文采用以下評(píng)價(jià)指標(biāo)來(lái)評(píng)估模型性能表現(xiàn),其中指標(biāo)包括精確率(Precision)、召回率(Recall)、平均精度均值(meanAverage Precision, mAP 值),計(jì)算如式9 所示.
式中:P 表示所有預(yù)測(cè)目標(biāo)中正確的比例,QTP 為正樣本被檢測(cè)正確的數(shù)量;QFP 為負(fù)樣本被檢測(cè)為正樣本的數(shù)量;QFN 為背景被錯(cuò)誤檢測(cè)為正樣本的數(shù)量;R 表示所有已標(biāo)注目標(biāo)中被正確檢測(cè)的比例;n 表示類別數(shù)量,SAP 表示以R 為橫軸、P 為縱軸形成的P -R 曲線的面積,該曲線反映了模型在不同置信度閾值下的性能. 平均精度是對(duì)這個(gè)曲線下面積的平均值. 在一個(gè)類別上,精度越高、召回越大,平均精度就越高. 對(duì)每個(gè)目標(biāo)類別計(jì)算出來(lái)的SAP 進(jìn)行取平均值,可以得到mAP 值(sˉmAP),用于評(píng)估目標(biāo)檢測(cè)模型的性能,特別是在處理多類別物體檢測(cè)任務(wù)時(shí),mAP 值越大表示模型性能越好.
在本文的實(shí)驗(yàn)分析中,將IoU 設(shè)為0.5 時(shí),計(jì)算每一類的所有圖片的SAP,把所有類別求平均,即可得到mAP@0.5. mAP@.5:.95 表示在不同IoU 閾值(從0.5 到0.95,步長(zhǎng)0.05,即0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95)上的平均mAP 值.
4.4 實(shí)驗(yàn)結(jié)果分析
本文采用YOLO 網(wǎng)絡(luò)模型進(jìn)行文本框檢測(cè),在此基礎(chǔ)上增加注意力機(jī)制CBAM 進(jìn)行優(yōu)化,進(jìn)行消融實(shí)驗(yàn),結(jié)果如表1 所示.
表1 表明,引入的CBAM 方法在P、R、mAP@0.5、mAP@.5:.95 四個(gè)評(píng)價(jià)指標(biāo)上均有提升,分別提升了2%、2%、3.2%、3.7%,證實(shí)本文方法的有效性,提升了模型在文獻(xiàn)中文本框的檢測(cè)性能,在海量文獻(xiàn)識(shí)別任務(wù)中的文本框漏檢情況得到了較好的解決.
圖8 的曲線反映了改進(jìn)后的模型性能隨訓(xùn)練輪次增加,mAP@.5:. 95 值的變化趨勢(shì). 在0-50 輪,mAP@.5:.95 快速提高,表明該模型收斂速度較快,性能較好. 50-70 輪,緩慢增長(zhǎng),70-100 輪之后基本趨于穩(wěn)定,模型已經(jīng)達(dá)到收斂狀態(tài).
酒文獻(xiàn)漢字識(shí)別結(jié)果如圖9 所示.
5 小結(jié)
基于卷積神經(jīng)網(wǎng)絡(luò)的酒文獻(xiàn)關(guān)鍵詞識(shí)別與提取算法能夠更加快速地識(shí)別和分類各種類型的酒類文獻(xiàn),實(shí)現(xiàn)關(guān)鍵詞的自動(dòng)提取和標(biāo)注,為酒文獻(xiàn)賦予標(biāo)簽,也為酒文獻(xiàn)的檢索和查詢提供更便捷的方法.本文借助深度學(xué)習(xí)與大數(shù)據(jù)技術(shù),旨在從海量歷史文獻(xiàn)資料中發(fā)現(xiàn)關(guān)鍵信息,并找到內(nèi)在聯(lián)系,揭示傳統(tǒng)文獻(xiàn)中隱藏的知識(shí)關(guān)系和發(fā)展趨勢(shì),以優(yōu)化傳統(tǒng)酒史文獻(xiàn)學(xué)研究和信息查找的路徑.
本項(xiàng)目的研究開展,還將充分利用搜索引擎和網(wǎng)絡(luò)爬蟲技術(shù)在網(wǎng)絡(luò)上尋找酒史文獻(xiàn)資料,同時(shí)作為酒史研究數(shù)據(jù)庫(kù)不斷新增豐富,為將來(lái)可能的歷史研究提供支持. 利用數(shù)字化技術(shù)實(shí)現(xiàn)文獻(xiàn)的提取與分類研究,項(xiàng)目的開展將在挖掘酒史文化數(shù)據(jù)方面具有潛在意義,能為酒史文化研究發(fā)現(xiàn)新知識(shí),提供新方法.
參考文獻(xiàn):
[1] GAO H, ERGU D, CAI Y, et al. A robust cross-ethnic digi?tal handwriting recognition method based on deep learning[J].Procedia Computer Science, 2022(199): 749-756. doi:10.1016/j.procs.2022.01.093.
[2] LAFFERTY J, MCCALLUM A, PEREIRA F C N. Condi?tional random fields: Probabilistic models for segmenting andlabeling sequence data[EB/OL]. (2001-06-28) [2023-01-27]. https://dl.acm.org/doi/10.5555/645530.655813.
[3] 黃水清,王東波,何琳. 基于先秦語(yǔ)料庫(kù)的古漢語(yǔ)地名自動(dòng)識(shí)別模型構(gòu)建研究[J]. 圖書情報(bào)工作,2015(12):135-140.
[4] 李娜. 面向方志類古籍的多類型命名實(shí)體聯(lián)合自動(dòng)識(shí)別模型構(gòu)建[J]. 圖書館論壇, 2021, 41(12):11.
[5] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Na?ture, 2015, 521(7553): 436-444.
[6] BENGIO Y, GOODFELLOW I, COURVILLE A. Deeplearning[M]. Cambridge, MA, USA: MIT Press, 2017.
[7] 謝韜. 基于古文學(xué)的命名實(shí)體識(shí)別的研究與實(shí)現(xiàn)[D]. 北京:北京郵電大學(xué),2018.
[8] 杜悅,王東波,江川,等. 數(shù)字人文下的典籍深度學(xué)習(xí)實(shí)體自動(dòng)識(shí)別模型構(gòu)建及應(yīng)用研究[J]. 圖書情報(bào)工作,2021,65(3):100-108.
[9] HOCHREITER S, SCHMIDHUBER J. Long short-termmemory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[10] GRAVES A, SCHMIDHUBER J. Framewise phoneme clas?sification with bidirectional LSTM and other neural networkarchitectures[J]. Neural Networks, 2005, 18(5-6): 602-610.
[11] LI C X, LIU W W, GUO R Y, et al. PP-OCRv3: More at?tempts for the improvement of ultra lightweight OCR system[EB/OL]. (2022-06-07) [2023-01-27]. ArXiv: abs/2206.03001.
[12] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YO?LOv7: Trainable bag-of-freebies sets new state-of-the-artfor real-time object detectors[EB/OL]. (2022-07-06)[2023-01-27]. arXiv:2207.02696.
[13] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutionalblock attention module[C]//Ferrari V, Hebert M, Sminchis?escu C, et al. Computer Vision – ECCV 2018. Springer,Cham, 2018. doi:10.1007/978-3-030-01234-2_1.
[14] 李治強(qiáng),楊強(qiáng). 基于時(shí)空分布特征的新聞字幕檢測(cè)改進(jìn)算法[J]. 廣播與電視技術(shù),2007,34(2):103-105.
【編校:王露】
基金項(xiàng)目:四川省哲學(xué)社會(huì)科學(xué)重點(diǎn)研究基地中國(guó)酒史研究中心開放基金項(xiàng)目(ZGJS2021-03);四川省科技計(jì)劃重點(diǎn)研發(fā)項(xiàng)目(2021YFG0029)