方洪波,萬 廣,2,陳忠輝,黃以衛(wèi),張文勇,謝本亮,2
基于改進YOLOv5s的離線手寫數(shù)學符號識別
方洪波1,萬 廣1,2,陳忠輝1,黃以衛(wèi)3,張文勇4,謝本亮1,2
(1. 貴州大學大數(shù)據(jù)與信息工程學院,貴州 貴陽 550025;2. 教育部半導(dǎo)體功率器件可靠性工程中心,貴州 貴陽 550025;3. 貴州財經(jīng)大學西部現(xiàn)代化研究中心,貴州 貴陽 550025;4. 貴州大學計算機科學與技術(shù)學院,貴州 貴陽 550025)
離線數(shù)學符號識別是離線數(shù)學表達式識別的前提。針對現(xiàn)有離線符號識別方法只是單純的對符號進行識別,對離線表達式識別的其他環(huán)節(jié)未有任何幫助,反而會限制表達式識別,提出一種改進YOLOv5s的離線符號識別方法。首先,根據(jù)符號圖像小的特點,用生成對抗網(wǎng)絡(luò)(GAN)進行數(shù)據(jù)增強;其次,從符號類別的角度分析,在YOLOv5s模型中引入空間注意力機制,利用全局最大值和全局平均值池化,擴大類別間的差異特征;最后,從符號自身角度分析,引入雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)對符號特征矩陣進行處理,使符號特征具有上下相關(guān)聯(lián)的信息。實驗結(jié)果表明:改進后的YOLOv5s取得較好離線符號識別效果,有92.47%的識別率,與其他方法進行對比,證明了其有效性和穩(wěn)健性。同時,能有效避免離線數(shù)學表達式識別中錯誤累積的問題,且能為表達式的結(jié)構(gòu)分析提供有效依據(jù)。
離線手寫數(shù)學符號識別;數(shù)據(jù)增強;生成對抗網(wǎng)絡(luò);空間注意力機制;雙向長短期記憶網(wǎng)絡(luò)
隨著電子設(shè)備的廣泛應(yīng)用及人們學習習慣的改變,數(shù)學表達式識別(mathematical expression recognition,MER)成為人們關(guān)注的熱門話題。MER可以分為符號分割、符號識別和結(jié)構(gòu)分析3個環(huán)節(jié)[1]。符號識別是MER不可缺少的部分,研究始于幾十年前,但當時提取圖像特征的能力不強,以至MER發(fā)展受限。為推動MER的發(fā)展,國際文檔分析與識別會議(International Conference on Document Analysis and Recognition,ICDAR)在2011年開始引入數(shù)學表達式識別競賽(Competition on Recognition of Handwritten Mathematical Expressions and Typeset Formula Detection,CROHME),為MER和數(shù)學符識別提供了公共數(shù)據(jù)集。CROHME數(shù)據(jù)集以在線形式表示,可通過程序?qū)⒃诰€數(shù)據(jù)轉(zhuǎn)為離線數(shù)據(jù),但會失去一些特征信息,如符號筆畫時序特征,這是離線符號識別率低于在線的主要原因。
符號識別的關(guān)鍵是符號特征信息的提取,提取到的特征信息越豐富,識別率越高。MyScript[2]從在線符號的軌跡中提取動態(tài)信息,如方向和曲率,基于投影和直方圖的方法提取靜態(tài)特征,通過深度多層感知機(multilayer perceptron,MLP)和循環(huán)神經(jīng)網(wǎng)絡(luò)處理,識別率為92.81%。以上2種方法均通過人為設(shè)定的方式提取特征,其過程復(fù)雜,提取到的信息也有限。方定邦[3]提出基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)識別方法,用CNN自動提取符號在線和離線特征,符號特征提取更充分且簡化了特征提取的過程,在CROHME2016上的識別率為92.92%。
現(xiàn)有離線符號識別已取得較高識別率,把現(xiàn)有方法應(yīng)用到離線MER (offline MER,OMER)中效果并不好,根本原因是OMER存在錯誤累積的問題,即符號分割錯誤會導(dǎo)致符號識別和結(jié)構(gòu)分析錯誤,最終導(dǎo)致表達式識別錯誤。現(xiàn)有離線符號識別方法僅僅停留在符號識別環(huán)節(jié),忽視了離線符號識別最終目的是OMER,未對其另外2個環(huán)節(jié)起到改善和促進的作用?;谝陨涎芯?,本文提出一種能將OMER 3個環(huán)節(jié)聯(lián)系起來的符號識別方法,可將符號識別結(jié)果反饋到符號分割,從而有效避免OMER錯誤累積,還能為結(jié)構(gòu)分析提供依據(jù)。該方法以目標檢測模型YOLOv5s為基礎(chǔ),用空間注意力機制將符號類別間的差異特征放大,最后用雙向長短期記憶網(wǎng)絡(luò)使符號自身的特征具有關(guān)聯(lián)性。
解決錯誤累積最好的方法是解決錯誤源頭,OMER錯誤累積的根源是符號分割錯誤,符號分割的目的是符號識別和結(jié)構(gòu)分析,在不對表達式進行具體分割的情況下得到符號識別結(jié)果和結(jié)構(gòu)分析依據(jù)就能避免錯誤累積。受行人檢測的啟發(fā),對圖像中目標進行識別不需要將其從背景中完美分割出來,只需通過變化和移動推薦框,對推薦框進行識別,根據(jù)識別結(jié)果及對應(yīng)的置信度確定預(yù)測框,從而得到圖像中的目標種類和空間位置信息。將該思想遷移到符號識別上,通過變化和移動推薦框,對其符號進行識別,識別結(jié)果對推薦框有反饋作用,同時建議尋找置信度更高的推薦框,直至遍歷整個圖像,選出置信度最高的推薦框。此外,最佳推薦框是以中心點、長和寬的形式表示,包含了符號大小和空間位置,為結(jié)構(gòu)分析提供了依據(jù)。用尋找最佳推薦框的方式代替符號具體分割,能有效避免錯誤累積且能給出符號位置信息,這極大促進了OMER的發(fā)展,故本文采用目標檢測效果較好的YOLOv5s模型進行離線符號識別研究。
目前公開的符號數(shù)據(jù)集有HASYv2和CROHME。HASYv2是在線數(shù)據(jù)集HWRT轉(zhuǎn)化來的離線數(shù)據(jù)集,HWRT是由瀏覽器搜索界面收集而來,有369個種類,包含大部分CROHME類別,但沒有由這些符號組成的數(shù)學表達式,且含有很多非數(shù)學表達式的符號,如“ü”“田”和“☆”等符號。CROHME符號數(shù)據(jù)集是從其表達式數(shù)據(jù)集中得來,對表達式識別更有意義,故本文采用CROHME符號數(shù)據(jù)集進行研究。
圖1 左括號“ ( ”的inkml文件形式
圖2 左括號“ ( ”的圖像形式
通過inkml文件得到符號的類別,對保存的圖像進行水平和垂直方向上的投影,并得到圖像符號的長和寬,通過計算得到中心點坐標,即完成圖像標簽的制作。
圖3 CROHME的符號數(shù)目分布情況
由圖3可知,CROHME符號數(shù)據(jù)集類別間的數(shù)量相差較大,直接使用Mosaic操作會擴大類別間數(shù)量差異,降低模型的泛化能力。本文對數(shù)量低于5 000的類別進行增強,對高于5 000的類別進行隨機篩選,使各類別數(shù)量均為5 000。
生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)在小圖像數(shù)據(jù)增強方面有很好效果[8],能根據(jù)圖像特征快速生成與原圖像有相同特征卻不等同于原圖像的圖像。GAN包含判別網(wǎng)絡(luò)和生成網(wǎng)絡(luò),二者互為對抗目標,共同學習,最佳的結(jié)果就是達到納什平衡狀態(tài),其結(jié)構(gòu)如圖4所示。
圖4 GAN結(jié)構(gòu)
圖4中判別器(Discriminant,D)由卷積網(wǎng)絡(luò)和softmax函數(shù)構(gòu)成,用來判別是生成符號圖像還是真實符號圖像。生成器(Generator,G)由反卷積網(wǎng)絡(luò)構(gòu)成,從隨機噪聲(Random noise)中生成與真實符號圖像相似的圖像。本文用訓(xùn)練好的G增強符號數(shù)據(jù)集,經(jīng)過隨機篩選和數(shù)據(jù)增強后的符號數(shù)據(jù)集有505 000個符號。
為解決錯誤累積問題,本文用目標檢測模型YOLOv5s對離線符號進行檢測識別,為提升識別性能,從符號類別角度引入空間注意力,從符號自身角度引入雙向長短期記憶網(wǎng)絡(luò),以下是相關(guān)方法的介紹。
YOLOv5s由輸入端(Input)、主干網(wǎng)絡(luò)(Backbone)、檢測頸(Neck)和預(yù)測層(Prediction) 4部分組成[9]。其網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計很深,用殘差緩解梯度消失或爆炸問題,融合多層特征圖,通過上采樣與淺層特征進行通道拼接,使淺層特征也具有深層特性信息,可以對不同尺度的目標進行檢測,也可以實現(xiàn)對多個種類的預(yù)測,且精度較高。網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,Conv是卷積;C3是借鑒CSPNet[10]的思路來設(shè)計的結(jié)構(gòu),其目的是為了加強網(wǎng)絡(luò)特征融合的能力和減小計算量;SPP是空間金字塔池化,由Conv和Maxpool構(gòu)成;Concat是通道拼接。
圖5 YOLOv5s的網(wǎng)絡(luò)結(jié)構(gòu)
從符號類別的角度進行分析,可通過擴大類別間的差異特征來提升識別率,池化層具有過濾特征的作用,使用不同池化層可擴大差異特征。注意力機制[11]包含了不同的池化層,故引入注意力機制模塊來增強關(guān)鍵信息提取,抑制不相關(guān)的信息。注意力機制有2種,分別是通道注意力機制(channel attention module,CAM)和空間注意力機制(spatial attention module,SAM)。本文所用圖像數(shù)據(jù)均為白底黑字的符號,不存在顏色通道上的差異,只存在空間上的不同,SAM是通過關(guān)注圖像中物體的位置及變化獲取關(guān)鍵信息,故只引入了SAM,其結(jié)構(gòu)如圖6所示,引入SAM的YOLOv5s簡記為YOLOv5s_S,對應(yīng)3.2節(jié)中實驗3的模型。
圖6 SAM網(wǎng)絡(luò)結(jié)構(gòu)
本文將圖5中Backbone部分C3的輸出作為SAM的輸入,通過全局最大值和平均值池化對通道進行壓縮,利用卷積得到單通道,用Sigmoid激活函數(shù)歸一化權(quán)重信息,將權(quán)重與輸入特征對應(yīng)相乘后再相加,得到不同權(quán)重的特征信息,即過程為
從符號自身角度進行分析,將符號的特征矩陣每一行(每一列)看成是不同的個體,則可將符號看成是一系列個體的排列組合,從整體來看,其存在上下(左右)相關(guān)聯(lián)的信息,本文對這種信息能否提升識別率進行研究,從而引入具有記憶功能的網(wǎng)絡(luò)進行實驗。
傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)能實現(xiàn)信息的短期保存,長短記憶網(wǎng)絡(luò)(long short-term memory,LSTM)是RNN的改良版,信息保存的時間更長。LSTM[12]包括輸入門、遺忘門和輸出門。輸入門輸入當前時刻的信息,遺忘門決定輸入上一時刻的信息的多少,輸出門決定是否將當前得到的綜合信息作為輸出信息,3個門通過遞歸的方式調(diào)整LSTM中各層的輸入輸出,以此來實現(xiàn)信息的長期保存。LSTM的傳播過程為
雙向長短期記憶網(wǎng)絡(luò)(Bi-directional long short-term memory,BiLSTM)在單層LSTM上增加了一層結(jié)構(gòu)相同但方向相反的LSTM,如圖7所示,將2層LSTM的輸出融合,實現(xiàn)了特征信息的雙向傳播[13]。
圖7 BiLSTM的構(gòu)成
本文將Neck部分C3得到的特征圖的每一行通過BiLSTM,利用特征之間上下相關(guān)聯(lián)的信息,最后通過Prediction部分對符號進行預(yù)測分類,BiLSTM在模型中的具體位置見圖8,引入BiLSTM的YOLOv5s簡記為YOLOv5s_B,對應(yīng)3.2節(jié)中實驗4的模型。
從符號類別和自身角度綜合考慮,對同時引入SAM和BiLSTM能否提升識別率進行了實驗,網(wǎng)絡(luò)簡記為YOLOv5s_SB,對應(yīng)3.2節(jié)中實驗5的模型,結(jié)構(gòu)如圖8所示,紅色加粗字體的是引入的SAM的位置,藍色加粗字體是引入BiLSTM的位置。
其中:r為標注框中心點與回歸框中心點之間的歐幾里得距離;b為標注中心點;bgt為回歸中心點;c為標注框與回歸框最小外接矩形的對角線長度;IOU是標注框、回歸框的交集與標注框、回歸框并集的比值。
本文實驗采用的配置為Intel(R) Core(TM) i5-10400F@2.90 GHz;操作系統(tǒng)為Ubuntu18.0;GPU為tesla V100S 32 GB。網(wǎng)絡(luò)模型基于Pytorch框架搭建,CUDA版本為11.0,python版本為3.8.8,pytorch版本為1.8.0,實驗中batch size為120,epoch設(shè)置為100,動量為0.937,初始學習率為0.01,衰減系數(shù)為0.000 5。
本文用4個評價指標對模型進行評估,分別是識別率(Accuracy)、精確率(Precision)、召回率(Recall)和各類別AP的平均值(mean Average Precision),簡記為A,P,R和mAP[16]即
其中,為輸入正樣本且輸出正樣本的樣本數(shù)量;為輸入正樣本且輸出負樣本的樣本數(shù)量;為輸入負樣本輸出正樣本的樣本數(shù)量;為輸入正樣本輸出負樣本的樣本數(shù)量;為樣本類別數(shù);是曲線下方的面積。
實驗設(shè)置及結(jié)果見表1,每個實驗將對應(yīng)的數(shù)據(jù)集按8∶2的比例分成訓(xùn)練集和驗證集進行訓(xùn)練,用CROHME2016test進行測試。直接反映研究情況的評價指標是識別率A和mAP,P和R起到輔助的作用,用來評估模型的穩(wěn)定性,重點關(guān)注A和mAP的變化。
由表1中實驗1和2的結(jié)果對比可知,通過GAN增強數(shù)據(jù)集后4個指標均有提升,其中A提高8.54%,說明GAN完善了數(shù)據(jù)集,從一定程度上消除了數(shù)據(jù)集對模型的影響;實驗3的A比實驗2提高2%,說明在YOLOv5s模型中加入SAM可以提升模型離線符號識別率;實驗4比實驗2的A提高4.21%,說明YOLOv5s模型中加入BiLSTM也能提升A;實驗5是將改進點融合在一起,可以看到和實驗1的A相比,實驗5的A提高13.95%。實驗1和實驗5的A變化過程如圖9所示。
表1 實驗設(shè)置及結(jié)果
注釋:“ü”表示使用與之對應(yīng)的最左側(cè)條件進行實驗,“×”表示未使用,P,R,mAP及A表示實驗的結(jié)果
圖9 實驗1和實驗5的識別率
由圖9可知,20個epoch之前,識別率上升較快,之后,上升較慢,最終趨于穩(wěn)定。在第3個epoch時,實驗5的識別率就開始高于實驗1,之后也總是實驗5高于實驗1,說明實驗5的模型性能優(yōu)于實驗1。同時,實驗1和實驗5訓(xùn)練中的P,R和mAP變化如圖10和圖11所示。
圖10 實驗1的P,R和mAP的變化
由圖10和圖11可知,隨著迭代次數(shù)的增加,試驗1和實驗5的P和R2個指標總是一個相對較高另一個相對較低,最終趨于穩(wěn)定后,實驗5的P和R比實驗1的高,mAP指標總是介于P和R之間且穩(wěn)定,實驗5的mAP高于實驗1,說明實驗5的模型性能優(yōu)于實驗1。綜上所述,實驗5的4個評價指標均高于實驗1,所以實驗5的模型更優(yōu),說明本文在YOLOv5s基礎(chǔ)上針對符號識別的改進取得了較好效果。
圖11 實驗5的P,R和mAP的變化
部分符號識別結(jié)果如圖12所示,從圖12中可以看到每個推薦框上方有識別結(jié)果及對應(yīng)的置信度,有的符號會有多個推薦框從而有不同的結(jié)果,但可以根據(jù)置信度來選擇最可能的結(jié)果。以圖12中第一行第一列符號“i”為例,這個符號容易被分割成小數(shù)點和“2”,從而造成分割錯誤,被識別成“2”的置信度為0.462 5,識別成“i”的置信度為0.862 8,實際上還有一個識別成小數(shù)點的置信度,但結(jié)合點所在位置得到的置信度較低,根據(jù)置信度最終得到識別結(jié)果是“i”。本文方法不是對固定分割好的符號進行識別,是通過推薦框的靈活方式對符號識別,根據(jù)推薦框內(nèi)目標特征得到識別結(jié)果,這對OMER來說具有重要意義。如圖12中的“cos”符號,很容易分割成3個符號,且很容易引起歧義的符號,容易將“c”識別成“(”,將“o”識別成“O”或“0”,將“s”識別成“S”或“5”。本文方法對其識別可得到4個推薦框,選出置信度最大的推薦框,故可有效避免類似錯誤。此外,推薦框還包含了符號的位置信息,能為OMER的結(jié)構(gòu)分析提供依據(jù)。
本文對符號識別方法進行了調(diào)研,列出了一些比較經(jīng)典且具有較高識別率的模型,與其進行了對比,見表2。
圖12 部分離線手寫數(shù)學符號識別結(jié)果展示
表2 YOLOv5s_SB與其他模型的對比
從表2中可以看出,CNN+判別特征的識別率為92.92%,是非常優(yōu)秀的在線符號識別方法,VGG-HMS是離線符號識別中的經(jīng)典方法,在僅使用離線特征的情況下達到92.42%的識別率。表中本文方法高于VGG-HMS的識別率,證明了本文方法對于離線符號識別的有效性。此外,VGG-HMS在CROHME2014test上的識別率為91.82%,本文的識別率為92.44%,同樣高于VGG-HMS,證明了本文方法的穩(wěn)定性。
本文以離線手寫數(shù)學符號為研究對象,從數(shù)學符號識別目的出發(fā),用目標檢測模型YOLOv5s來有效避免OMER錯誤累積問題,從符號類別和自身的角度分別引入SAM和BiLSTM提高符號識別率。實驗結(jié)果表明,本文方法具有較高識別率,從符號識別角度來看提升有限,但具有較好前景,在OMER整個過程中,能有效避免錯誤累積問題,為OMER提供結(jié)構(gòu)分析的依據(jù)。在未來研究中,本文框架結(jié)構(gòu)也能用于OMER,將每個符號的最佳結(jié)果看成個體,這些個體具有前后相關(guān)聯(lián)的特征,BiLSTM可以利用這些特征對符號識別結(jié)果進行更正,如圖12中的“cos”符號一樣。因此,本文方法對OMER的貢獻度遠遠大于其他方法。
[1] 付鵬斌, 李建君, 楊惠榮. 基于粘連符號分割和多特征融合的手寫公式識別[J]. 北京工業(yè)大學學報, 2021, 47(8): 842-853.
FU P B, LI J J, YANG H R. Handwritten formula recognition based on segmentation of adhesive symbols and multi-feature fusion[J]. Journal of Beijing University of Technology, 2021, 47(8): 842-853 (in Chinese).
[2] MOUCHèRE H, VIARD-GAUDIN C, ZANIBBI R, et al. ICFHR2016 CROHME: competition on recognition of online handwritten mathematical expressions[C]//The 15th International Conference on Frontiers in Handwriting Recognition. New York: IEEE Press, 2016: 607-612.
[3] 方定邦. 基于卷積神經(jīng)網(wǎng)絡(luò)的手寫數(shù)學公式字符識別的算法研究[D]. 泉州: 華僑大學, 2020.
FANG D B. Research on character Recognition algorithm of Handwriting Mathematical Formula Based on Convolutional Neural Network [D]. Quanzhou: Huaqiao University, 2020 (in Chinese).
[4] RAMADHAN I, PURNAMA B, FARABY S A. Convolutional neural networks applied to handwritten mathematical symbols classification[C]//The 4th International Conference on Information and Communication Technology. New York: IEEE Press, 2016: 1-4.
[5] DONG L F, LIU H C. Recognition of offline handwritten mathematical symbols using convolutional neural networks[C]//The 9th International Conference on Image and Graphics. Heidelberg: Springer, 2017: 149-161.
[6] MAHDAVI M, ZANIBBI R, MOUCHERE H, et al. ICDAR 2019 CROHME + TFD: competition on recognition of handwritten mathematical expressions and typeset formula detection[C]//2019 International Conference on Document Analysis and Recognition. New York: IEEE Press, 2019: 1533-1538.
[7] 張楷偉. 基于深度學習的Mosaic圖像復(fù)原和識別方法研究[D]. 西安: 西安電子科技大學, 2019.
ZHANG K W. Mosaic image restoration and recognition research based on deep learning[D]. Xi’an: Xidian University, 2019 (in Chinese).
[8] 淦艷, 葉茂, 曾凡玉. 生成對抗網(wǎng)絡(luò)及其應(yīng)用研究綜述[J]. 小型微型計算機系統(tǒng), 2020, 41(6): 1133-1139.
GAN Y, YE M, ZENG F Y. Review of research on generative adversarial networks and its application[J]. Journal of Chinese Computer Systems, 2020, 41(6): 1133-1139 (in Chinese).
[9] 談世磊, 別雄波, 盧功林, 等. 基于YOLOv5網(wǎng)絡(luò)模型的人員口罩佩戴實時檢測[J]. 激光雜志, 2021, 42(2): 147-150.
TAN S L, BIE X B, LU G L, et al. Real-time detection for mask-wearing of personnel based on YOLOv5 network model[J]. Laser Journal, 2021, 42(2): 147-150 (in Chinese).
[10] WANG C Y, MARK LIAO H Y, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2020: 1571-1580.
[11] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]//The 15th European Conference on Computer Vision. Cham: Springer, 2018: 3-19.
[12] 金樂. 基于雙向長短期記憶網(wǎng)絡(luò)的高壓輸電線路短路故障識別方法[J]. 內(nèi)蒙古電力技術(shù), 2021, 39(2): 66-72.
JIN L. Research on short circuit fault identification method of high-voltage transmission line based on Bi-directional long short-term memory[J]. Inner Mongolia Electric Power, 2021, 39(2): 66-72 (in Chinese).
[13] YUE W, ZHU C M, GAO Y S. BiLSTM Chinese Text Sentiment Analysis Based on Pre-attention[J]. World Scientific Research Journal, 2021, 7(6): 33-42.
[14] WU Y, JIANG J Y, HUANG Z M, et al. FPANet: Feature pyramid aggregation network for real-time semantic segmentation[J]. Applied Intelligence, 2022, 52: 3319-3336.
[15] 王書獻, 張勝茂, 朱文斌, 等. 基于深度學習YOLOV5網(wǎng)絡(luò)模型的金槍魚延繩釣電子監(jiān)控系統(tǒng)目標檢測應(yīng)用[J]. 大連海洋大學學報, 2021, 36(5): 842-850.
WANG S X, ZHANG S M, ZHU W B, et al. Application of an electronic monitoring system for video target detection in tuna longline fishing based on YOLOV5deep learning model[J]. Journal of Dalian Ocean University, 2021, 36(5): 842-850 (in Chinese).
[16] 王莉, 何牧天, 徐碩, 等. 基于YOLOv5s網(wǎng)絡(luò)的垃圾分類和檢測[J]. 包裝工程, 2021, 42(8): 50-56.
WANG L, HE M T, XU S, et al. Garbage classification and detection based on YOLOv5s network[J]. Packaging Engineering, 2021, 42(8): 50-56 (in Chinese).
[17] MOUCHèRE H, VIARD-GAUDIN C, ZANIBBI R, et al. ICFHR 2014 competition on recognition of on-line handwritten mathematical expressions (CROHME 2014)[EB/OL]. [2021-07-03]. https://hal.archives-ouvertes.fr/ file/index/docid/1070712/filename/CROHME_ICFHR_2014.pdf.
[18] MOUCHèRE H, VIARD-GAUDIN C, ZANIBBI R, et al. ICFHR2016 CROHME: competition on recognition of online handwritten mathematical expressions[C]//The 15th International Conference on Frontiers in Handwriting Recognition. New York: IEEE Press, 2016: 607-612.
[19] DAI NGUYEN H, DUC LE A, NAKAGAWA M. Recognition of online handwritten math symbols using deep neural networks[J]. IEICE Transactions on Information and Systems, 2016, E99.D(12): 3110-3118.
[20] DAVILA K, LUDI S, ZANIBBI R. Using off-line features and synthetic data for on-line handwritten math symbol recognition[C]//The 14th International Conference on Frontiers in Handwriting Recognition. New York: IEEE Press, 2014: 323-328.
Offline handwriting mathematical symbol recognition based on improved YOLOv5s
FANG Hong-bo1, WAN Guang1,2, CHEN Zhong-hui1, HUANG Yi-wei3, ZHANG Wen-yong4, XIE Ben-liang1,2
(1. College of Big Data and Information Engineering, Guizhou University, Guiyang Guizhou 550025, China; 2. Semiconductor Power Device Reliability Engineering Center of Ministry of Education, Guiyang Guizhou 550025, China; 3. Western Modernization Research Center, Guizhou University of Finance and Economics, Guiyang Guizhou 550025, China; 4. College of Computer Science and Technology, Guizhou University, Guiyang Guizhou 550025, China)
Offline mathematical symbol recognition is the premise of offline mathematical expression recognition. The existing offline symbol recognition methods can only recognize symbols, but is of no help to other steps of offline expression recognition, even restricting expression recognition. Thus, an improved YOLOv5s offline symbol recognition method was proposed.Firstly, considering the small size of symbolic image, generative adversarial network (GAN) was employed to enhance the data. Secondly, from the point of view of symbolic categories, the spatial attention mechanism was introduced to YOLOv5s model, and the global maximum and global mean were pooled to enlarge the differences between categories. Finally, from the point of view of the symbol itself, the bidirectional long-short-term memory network (BiLSTM) was utilized to process the symbol feature matrix, so that the symbol feature could possess the upper and lower related information.Experimental results show that the improved YOLOv5s achieves better offline symbol recognition, with a recognition rate of 92.47%. Compared with other methods, the proposed method is effective and robust. At the same time, it can effectively avoid the problem of error accumulation in offline mathematical expression recognition and provide an effective basis for expression structure analysis.
offline handwriting mathematical symbol recognition; data enhancement; generative adversarial network; spatial attention mechanism; bidirectional long-short-term memory network
TP 391
10.11996/JG.j.2095-302X.2022030387
A
2095-302X(2022)03-0387-09
2021-09-27;
2021-12-17
27 September,2021;
17 December,2021
國家自然科學基金項目(61562009);國家重點研發(fā)計劃課題(2016YFD0201305-07);貴州大學人才引進科研項目(貴大人基合字(2015)29號);半導(dǎo)體功率器件教育部工程研究中心開放基金項目(ERCMEKFJJ2019-(06))
National Natural Science Foundation of China (61562009); National Key Research and Development Program of China (2016YFD0201305-07); Guizhou University Introduced Talent Research Project (2015-29); Open Fund Project in Semiconductor Power Device Reliability Engineering Center of Ministry of Education (ERCMEKFJJ2019-(06))
方洪波(1997-),男,碩士研究生。主要研究方向為深度學習、模式識別。E-mail:1583616027@qq.com
FANG Hong-bo (1997-), master student. His main research interests cover deep learning and pattern recognition. E-mail:1583616027@qq.com
謝本亮(1978-),男,副教授,博士。主要研究方向為機器學習、計算機視覺。E-mail:blxie@gzu.edu.cn
XIE Ben-liang (1978-), associate professor, Ph.D. His main research interests cover machine learning and computer vision. E-mail:blxie@gzu.edu.cn