摘 要:該文提出一種基于 PaddleOCR 框架的金融票據(jù)手寫體文本識別方法,通過引入基于生成對抗網(wǎng)絡(luò)(GAN)的數(shù)據(jù)合成工具 Style-Text,增強模型對不同背景文本的識別能力。在真實的金融票據(jù)數(shù)據(jù)集上進行的實驗表明,該方法在處理復雜文本和低質(zhì)量圖像方面表現(xiàn)出顯著的優(yōu)勢,證明其在金融票據(jù)手寫體文本識別中的有效性和實用性。
關(guān)鍵詞:金融票據(jù)識別;PaddleOCR;數(shù)據(jù)合成;手寫體;文本識別
中圖分類號:TP391.4 文獻標志碼:A 文章編號:2095-2945(2024)30-0068-04
Abstract: This paper proposes a handwritten text recognition method for financial bills based on the PaddleOCR framework. By introducing Style-Text, a data synthesis tool based on GeYBXDgfRg+BmoO/I0YMqg5A==nerative Adversarial Network (GAN), it enhances the model's ability to recognize texts in different backgrounds. Experiments on real financial bill datasets show that this method has significant advantages in processing complex texts and low-quality images, proving its effectiveness and practicality in handwritten text recognition of financial bills.
Keywords: financial instrument recognition; PaddleOCR; data synthesis; handwriting; text recognition
金融票據(jù)作為金融交易和記錄的基礎(chǔ)憑證,其數(shù)字化處理對于提升業(yè)務(wù)效率、降低操作風險以及增強客戶體驗至關(guān)重要。手寫體文本識別技術(shù)在這一過程中扮演著核心角色,尤其是在處理支票、銀行匯票、信用卡賬單等涉及手寫信息的金融票據(jù)時。然而,手寫體文本的高度變異性、不規(guī)則書寫風格以及復雜的背景噪聲,使得自動化識別任務(wù)充滿挑戰(zhàn)。盡管光學字符識別(OCR)技術(shù)已取得顯著進展,但針對金融票據(jù)中的手寫體文本識別,仍需解決準確率和魯棒性的問題。所以,開發(fā)一種高效、準確的手寫體文本識別算法,對于金融行業(yè)的現(xiàn)代化和數(shù)字化轉(zhuǎn)型具有重要的戰(zhàn)略意義。
1 本研究的貢獻和創(chuàng)新點
本研究聚焦于金融票據(jù)手寫體文本識別的難題,提出了一種基于PaddleOCR框架[1]的識別方案,并通過引入Style-Text數(shù)據(jù)合成工具[2],顯著提升了模型對不同背景文本的識別能力。具體貢獻和創(chuàng)新點如下。
第一,提出了基于PaddleOCR的金融票據(jù)手寫體文本識別方案:結(jié)合金融票據(jù)的特殊性,采用了深度學習技術(shù)和GAN生成的數(shù)據(jù)集,顯著提高了手寫體文本識別的準確性和效率。
第二,引入GAN生成的數(shù)據(jù)集:使用Style-Text工具生成的數(shù)據(jù)集,提高了模型在不同背景和字體下的識別能力,增強了模型的泛化能力和魯棒性。
本研究在理論和實踐為金融行業(yè)的數(shù)字化轉(zhuǎn)型提供了有力的技術(shù)支持,并在2022年廣東省農(nóng)村信用社聯(lián)合社金融科技校園挑戰(zhàn)賽中獲得總決賽三等獎,充分證明了其在金融票據(jù)手寫體文本識別中的有效性和實用性。
2 相關(guān)工作
2.1 手寫體文本識別技術(shù)發(fā)展
手寫體文本識別(Handwritten Text Recognition,HTR)技術(shù)的發(fā)展經(jīng)歷了從早期基于規(guī)則的方法到現(xiàn)代的基于機器學習,尤其是深度學習的方法的轉(zhuǎn)變。在早期,手寫體文本識別主要依賴于特征工程和傳統(tǒng)機器學習算法,如支持向量機(SVM)和隱馬爾科夫模型(HMM)。這些方法通常需要專家設(shè)計復雜的特征提取過程,并且在處理多樣化的手寫風格時存在局限性。
隨著深度學習技術(shù)的發(fā)展,基于深度學習方法在手寫體文本識別領(lǐng)域取得了重大進展。這些方法主要可以分為2類(如圖1所示):基于序列和基于分割。
基于序列的方法主要基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)。其中,RNN方法主要通過建立字符級別的序列模型來捕捉上下文信息,包括基于CTC(Connectionist Temporal Classification)[3]的方法和基于Attention機制的方法[4]。CNN方法主要基于卷積神經(jīng)網(wǎng)絡(luò)來捕捉特征,并結(jié)合CTC和Attention機制進行識別[5]。最近,基于Transformer模型的序列模型也開始應(yīng)用于手寫文本識別領(lǐng)域。
基于分割的方法則主要基于分割和識別2個階段,分割階段將手寫文本分割為單個字符或單詞,而識別階段則主要使用CNN等模型對分割出的字符或單詞進行識別。代表性方法包括EAST、DB、Rosetta、Start-Net等。
由上可見,手寫體文本識別技術(shù)從依賴手工特征到利用深度學習自動學習特征轉(zhuǎn)變,技術(shù)逐漸趨于成熟。盡管如此,針對特定應(yīng)用場景的優(yōu)化和改進仍然是研究的熱點,隨著深度學習技術(shù)的進一步發(fā)展和優(yōu)化,手寫文本識別的性能將會進一步提升。
2.2 數(shù)據(jù)集
本研究使用了4種數(shù)據(jù)集,簡單介紹如下。
1)CASIA-HWDB數(shù)據(jù)集[6](如圖2所示):該數(shù)據(jù)集由中國科學院自動化研究所在2007—2010年間收集,它包含1 020人書寫的脫機(聯(lián)機)手寫中文文本,使用Anoto筆在點針紙上書寫后掃描、分割得到,數(shù)據(jù)集包含數(shù)千個手寫文本文檔,由多種書寫方式和多個手寫者書寫,覆蓋了各種字體、字號和傾斜角度等情況。利用該數(shù)據(jù)集可以提高OCR系統(tǒng)在長文本識別方面的準確性。
2)HCL2000單字數(shù)據(jù)集[7](如圖3所示):該數(shù)據(jù)集包含1 000人手寫的3 755個常用漢字字符集,共有3 000多萬個圖像數(shù)據(jù)。
3)由“科創(chuàng)金融,趣碼未來”廣東省農(nóng)信聯(lián)社2022年金融科技校園挑戰(zhàn)賽主辦方提供的真實業(yè)務(wù)場景下金融票據(jù)圖像切片數(shù)據(jù)集,該數(shù)據(jù)集包括3 148張圖像,分為4類,分別涉及銀行名稱、地址信息、金額、用途。圖像中存在一定量的干擾信息,通過圖像二值化運算,可以消除部分背景干擾(如圖4所示)。
4)基于GAN的數(shù)據(jù)合成工具Style-Text合成的數(shù)據(jù)集[2]:該工具可以生成各種樣式的手寫體文本圖像,包括不同的字體、顏色、形狀和傾斜角度等,使用該工具可以擴充數(shù)據(jù)集,從而提高OCR系統(tǒng)的魯棒性和準確性。
2.3 圖像預處理
在金融場景下,票據(jù)圖像質(zhì)量可能會受到多種因素的影響,例如光照不足、圖像模糊、扭曲變形等,這些因素會直接影響手寫體文本識別的準確性。因此,本研究采取了以下預處理步驟來提高圖像質(zhì)量。
1)圖像增強:使用直方圖均衡化技術(shù)對圖像進行增強,提高圖像對比度。
2)圖像去噪:使用基于小波變換的去噪算法對圖像進行降噪處理,去除圖像中的噪聲干擾。
3)圖像二值化:使用基于Otsu閾值法的二值化方法將圖像轉(zhuǎn)換為二值圖像,便于后續(xù)的文字分割和識別。
4)圖像切割:使用基于連通域分析的切割算法對圖像進行文字切割,將每個字符分離出來,便于后續(xù)的識別。
5)文本檢測預處理:對輸入圖像進行文本檢測預處理,例如縮放、裁剪、旋轉(zhuǎn)等操作,以確保輸入圖像適合文本檢測模型。
6)文本識別預處理:對檢測到的文本區(qū)域進行預處理,例如調(diào)整大小、去除噪聲、二值化等操作,以提高文本識別的準確性。
2.4 模型選擇
2.4.1 文本檢測模型
根據(jù)PaddleOCR文檔展示的在公開數(shù)據(jù)集上不同文本檢測算法的效果比較,可以看出不同的文本檢測模型在不同的骨干網(wǎng)絡(luò)和數(shù)據(jù)集上的性能表現(xiàn)有所不同。在ICDAR2015數(shù)據(jù)集上,骨干網(wǎng)絡(luò)為ResNet50_vd的SAST模型表現(xiàn)最好,其次是骨干網(wǎng)絡(luò)為ResNet50的DB++模型。在Total-text數(shù)據(jù)集上,骨干網(wǎng)絡(luò)為ResNet50_vd的SAST模型表現(xiàn)最好。目前PaddleOCR僅支持2種骨干網(wǎng)絡(luò),分別是MobileNetV3、ResNet_vd系列,因此我們選擇骨干網(wǎng)絡(luò)為ResNet50_vd的SAST模型作為文本檢測模型。
2.4.2 文本識別模型
根據(jù)PaddleOCR文檔展示的在公開數(shù)據(jù)集上不同文本識別算法的效果比較,可以看出SVTR的平均精度(Avg Accuracy)最高,達到了89.25%,其次是ABINet和VisionLAN,因此我們選擇骨干網(wǎng)絡(luò)為SVTR-Tiny的SVTR模型作為文本識別模型。
3 算法驗證與實驗結(jié)果分析
3.1 實驗設(shè)置
為了驗證基于PaddleOCR框架和Style-Text數(shù)據(jù)合成的金融票據(jù)手寫體文本識別方法的有效性,本研究設(shè)計了一系列實驗。以下是實驗設(shè)置的詳細描述。
1)數(shù)據(jù)集準備:實驗主要使用了前述4個不同的數(shù)據(jù)集。所有數(shù)據(jù)集在輸入模型之前都經(jīng)過了嚴格的預處理,包括圖像增強、去噪、二值化和切割,以提高后續(xù)識別任務(wù)的準確性。
2)模型配置:根據(jù)PaddleOCR文檔展示的在公開數(shù)據(jù)集上不同文本檢測算法和不同文本識別算法的效果比較,本研究采用了SAST模型作為文本檢測模型,選擇了基于SVTR-Tiny的SVTR模型作為文本識別模型。所有模型均在金融票據(jù)數(shù)據(jù)集上進行了進一步的訓練和微調(diào)。
3)訓練過程:模型訓練采用了端到端的訓練策略,其中包括文本檢測和識別2個階段。在文本檢測階段,模型通過學習區(qū)分文本區(qū)域和非文本區(qū)域來定位文本。在文本識別階段,模型則學習將檢測到的文本區(qū)域映射到正確的文本序列。模型訓練使用了基于PaddlePaddle的優(yōu)化算法,并設(shè)置了適當?shù)膶W習率(為0.001)和批次大小(為16)。
4)模型評估:我們選擇了多種評估指標,包括精確率(Precision)、召回率(Recall)、HMean(即F1值)和每張圖像的處理幀率(FPS)。準確率和召回率用于衡量模型在文本識別任務(wù)上的表現(xiàn),HMean則是兩者的調(diào)和平均,提供了一個綜合的性能度量。FPS指標則用于衡量模型在實際應(yīng)用中的處理速度。
通過上述實驗設(shè)置,本研究旨在全面評估所提方法在金融票據(jù)手寫體文本識別任務(wù)中的性能,并探討其在金融業(yè)務(wù)中的應(yīng)用潛力。
3.2 實驗結(jié)果
3.2.1 模型訓練指標
模型訓練過程的評價采用了Loss、Loss_threshold_maps、Loss_shrink_maps、Loss_binary_maps等指標(如圖5所示)。這些指標可以用來評估模型在訓練過程中的表現(xiàn)和學習進度,也能反映模型在不同階段的表現(xiàn)和學習效果。在訓練過程中,訓練集和驗證集上的損失都逐漸下降,收斂于較小的值,沒有出現(xiàn)過擬合。Loss_shrink_maps 和Loss_threshold_maps指標在訓練中的穩(wěn)定性和低損失值表明了模型在此任務(wù)上的有效性。
3.2.2 模型評估指標
模型在測試集上的評估指標包括HMean、Precision、Recall、Best_HMean等(如圖6所示)。
從實驗評估指標展示結(jié)果中可以看出,模型在金融票據(jù)手寫體文本識別中取得了較好的性能,模型在不同閾值下的表現(xiàn)差異較小,說明模型具有較好的魯棒性。但是,模型在某些情況下仍然存在錯誤識別的情況,需要進一步優(yōu)化模型的準確率。
3.2.3 模型部署和推理
本研究將訓練所得的模型部署在移動端APP上,進行性能實測。在實際測試中,該模型可以快速處理各種形狀、大小、顏色的金融票據(jù),并將該文本準確地提取出來。模型在移動端的最大處理效率約為每秒5幀,滿足金融票據(jù)識別的性能要求。
3.3 結(jié)果分析
本研究通過一系列實驗全面評估了基于PaddleOCR框架和Style-Text數(shù)據(jù)合成工具的金融票據(jù)手寫體文本識別方法。以下是對實驗結(jié)果的深入分析和討論。
1)模型性能:實驗結(jié)果顯示,模型在金融票據(jù)手寫體文本識別任務(wù)上取得了顯著的性能提升。特別是在處理復雜背景和低質(zhì)量圖像時,模型展現(xiàn)出了較高的準確率和召回率。這一結(jié)果驗證了PaddleOCR框架和Style-Text數(shù)據(jù)合成工具在提高模型泛化能力和魯棒性方面的有效性。
2)魯棒性:模型在不同閾值下的表現(xiàn)差異較小,表明了其在各種條件下的魯棒性。這一點在金融票據(jù)識別中尤為重要,因為票據(jù)的質(zhì)量和背景條件可能存在很大差異。
3)處理速度:模型的FPS指標表明,我們的識別系統(tǒng)不僅準確,而且高效。這對于需要快速處理大量票據(jù)的金融業(yè)務(wù)場景至關(guān)重要。
+dbeZHwzFPJwisVbnjx4wg==4 結(jié)論
本研究中通過一系列實驗全面評估了基于PaddleOCR框架和Style-Text數(shù)據(jù)合成工具的金融票據(jù)手寫體文本識別方法。實驗結(jié)果顯示,改后模型框架在金融票據(jù)手寫體文本識別任務(wù)上取得了顯著的性能提升。特別是在處理復雜背景和低質(zhì)量圖像時,模型展現(xiàn)出了較高的準確率和召回率。同時,模型在不同環(huán)境下的魯棒性和處理速度得到了很大的提升。
本研究推動了金融票據(jù)識別技術(shù)的自動化和智能化,為相關(guān)領(lǐng)域的OCR應(yīng)用提供了寶貴的經(jīng)驗和技術(shù)支持。然而,研究仍存在局限性,如長文本背景風格的單一性和形近字識別難題,未來研究仍需探索更多樣化的數(shù)據(jù)合成技術(shù)和精細的識別策略,提高對復雜背景和模糊手寫文本的識別能力,并探索更高效、智能的金融票據(jù)處理流程。
參考文獻:
[1] LI C, LIU W, GUO R, et al. PP-OCRv3: More attempts for the improvement of ultra lightweight OCR system[J]. arXiv preprint arXiv:2206.03001,2022.
[2] WU L, ZHANG C, LIU J, et al. Editing text in the wild[C]// Proceedings of the 27th ACM international conference on multimedia, 2019:1500-1508.
[3] GRAVES A, GRAVES A. Connectionist temporal classification[J]. Supervised sequence labelling with recurrent neural networks, 2012:61-93.
[4] FUKUI H, HIRAKAWA T, YAMASHITA T, et al. Attention branch network: Learning of attention mechanism for visual explanation[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019:10705-10714.
[5] SHI B, BAI X, YAO C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2016,39(11):2298-2304.
[6] LIU C L, YIN F, WANG D H, et al. CASIA online and offline Chinese handwriting databases[C]//2011 international conference on document analysis and recognition. IEEE, 2011:37-41.
[7] ZHANG H, GUO J, CHEN G, et al. HCL2000-A large-scale handwritten Chinese character database for handwritten character recognition[C]//2009 10th International Conference on Document Analysis and Recognition. IEEE, 2009:286-290.
基金項目:廣東省科技創(chuàng)新戰(zhàn)略專項資金立項項目(pdjh2022b0720)
第一作者簡介:張輝煌(1999-),男,大模型產(chǎn)品經(jīng)理。研究方向為大語言模型在實際業(yè)務(wù)場景的應(yīng)用。