摘要:針對農(nóng)資圖像中文本的檢測速度慢并且缺乏移動端的應(yīng)用等問題,基于農(nóng)資圖像數(shù)據(jù)集,提出了一種基于Ghost模塊的農(nóng)資圖像文本檢測算法,該算法對DB網(wǎng)絡(luò)進行改進,使用MobileNetv2網(wǎng)絡(luò)來提取基礎(chǔ)特征,引入多尺度特征融合模塊來獲得多層之間的特征融合,并采用可微分二值化后處理算法預(yù)測文本,使其能夠快速地檢測農(nóng)資圖像中的文本。該算法在農(nóng)資圖像數(shù)據(jù)集上的準(zhǔn)確率基本達到了主流算法的標(biāo)準(zhǔn),檢測速度達18.6 img/s,參數(shù)量為2.99 M,具備輕量級的特征,將此算法部署到移動端設(shè)備上并成功運行。
關(guān)鍵詞:農(nóng)資圖像;文本檢測;文本識別;Ghost模塊
中圖分類號:TP391.1" " " " "文獻標(biāo)識碼:A
文章編號:0439-8114(2024)08-0061-05
DOI:10.14088/j.cnki.issn0439-8114.2024.08.011 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
The text detection algorithm for agricultural materials image based on"Ghost module and its application
YIN Chang-shan,YANG Lin-nan,LUO Shuang
(School of Big Data/Agricultural Big Data Engineering Research Center of Yunnan Province/Green Agricultural Product Big Data Intelligent Information Processing Engineering Research Center, Yunnan Agricultural University, Kunming" 650201,China)
Abstract: In response to problems such as slow detection speed of text in agricultural materials image and lack of mobile applications, based on the agricultural materials image dataset, a Ghost module-based text detection algorithm for agricultural materials image was proposed, which improved the DB network, used the MobileNetv2 network to extract the base features, introduced a multi-scale feature fusion module to obtain feature fusion between multiple layers, and used a differentiable binary post-processing algorithm to predict the text, making it possible to quickly detect the text in agricultural materials image. The accuracy of the algorithm on the agricultural materials image dataset was basically up to the standard of mainstream algorithms, with a detection speed of 18.6 img/s and a census count of 2.99 M, with lightweight features, and the algorithm was deployed to mobile devices and ran successfully.
Key words: agricultural materials image;" text detection; text recognition; Ghost module
農(nóng)資圖像中文本主要包括有效成分含量、產(chǎn)品名稱、登記證號、生產(chǎn)許可證號、產(chǎn)品標(biāo)準(zhǔn)號、使用技術(shù)和使用方法等用于描述該產(chǎn)品相關(guān)信息的內(nèi)容。農(nóng)資消費者根據(jù)產(chǎn)品性能來判斷該產(chǎn)品是否符合自身需求,通過使用技術(shù)和使用方法來正確地使用產(chǎn)品,防止產(chǎn)品的效果不佳,并且可以通過產(chǎn)品登記證號來查詢該農(nóng)資是否合法,在一定程度上避免了購買仿冒劣質(zhì)農(nóng)資的情況,國外購買者也可以依據(jù)該信息對出口農(nóng)資進行識別。農(nóng)資安全監(jiān)管執(zhí)法部門通過傳統(tǒng)的手工紙本記錄監(jiān)管方式進行農(nóng)資抽檢,根據(jù)該信息進行農(nóng)資安全相關(guān)的檢測和分析。文本檢測的主要目的是為了在圖像中找到文本的位置,以便進行下一步的文本識別處理,所以農(nóng)資圖像文本檢測對于農(nóng)資安全監(jiān)管和識別農(nóng)資內(nèi)容非常重要。
目前,基于深度學(xué)習(xí)的文本檢測方法主要分為基于區(qū)域建議和基于分割這兩類[1]。基于區(qū)域建議的算法根據(jù)文本獨有的特點,在目標(biāo)檢測通用算法模型的框架下對其進行改進。Tian等[2]提出了CTPN網(wǎng)絡(luò),將骨干網(wǎng)絡(luò)提取的特征送到BiLSTM中學(xué)習(xí),最后加上一個全連接層,輸出預(yù)測結(jié)果。Zhang等[3]提出了一種新的網(wǎng)絡(luò)LOMO,通過考慮文本的幾何特點,包括面積、文本中心線和邊緣移動來檢測場景圖像中的長文本和任意形狀的文本。當(dāng)使用嚴(yán)格的字級邊界框進行訓(xùn)練時,上述方法在分析任意形狀的文本區(qū)域時表現(xiàn)出局限性。而基于分割的方法則是受到經(jīng)典語義分割算法的啟發(fā),在像素級上對每個點進行分類,經(jīng)后處理輸出文本區(qū)域。Li等[4]提出了PSENet,該網(wǎng)絡(luò)使用漸進式擴張算法,有助于緊密文本區(qū)域的分離,能夠精確地定位任意形狀的文本實例。Wang等[5]提出了一種像素聚集網(wǎng)絡(luò)PAN,該網(wǎng)絡(luò)由特征金字塔增強模塊和特征融合模塊組成低計算量的分割頭,以此來彌補PAN采用的骨干網(wǎng)絡(luò)特征感受野較小且表征能力不足。此外還提出像素聚合法,能夠通過預(yù)測出的相似向量來引導(dǎo)文字像素去糾正核參數(shù)。
不同的農(nóng)資圖像中包含不同尺寸、顏色、形狀、對比度的文本,并且農(nóng)資圖像的背景更加復(fù)雜,例如包裝自身褶皺、光照的影響,文本形狀以水平形狀規(guī)則文本居多,但也有任意形狀文本存在,導(dǎo)致農(nóng)資圖像中的文本檢測更具有難度,此外,農(nóng)資圖像中文本的檢測速度慢并且缺乏移動端的應(yīng)用?;谝陨想y題,提出了一個基于Ghost模塊的農(nóng)資圖像文本檢測算法,算法首先使用MobileNetV2[6]作為骨干網(wǎng)絡(luò),然后設(shè)計了多尺度特征融合模塊,使用Ghost模塊和上采樣來進行多層之間的特征融合,通過可微分二值化運算得到近似二值圖,最后經(jīng)過簡單的后處理輸出結(jié)果。試驗結(jié)果表明,該算法參數(shù)量低,可移植到移動設(shè)備上,可以對農(nóng)資圖像文本區(qū)域進行快速地檢測。
1 算法設(shè)計
圖1為算法的網(wǎng)絡(luò)架構(gòu),算法由3個部分組成,骨干網(wǎng)絡(luò)、多尺度特征融合模塊和檢測頭。該算法對DB網(wǎng)絡(luò)進行改進,使用MobileNetv2網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),其網(wǎng)絡(luò)準(zhǔn)確率高且可以部署在移動設(shè)備中,然后設(shè)計了一個新的多尺度特征融合模塊,先通過1×1卷積將基礎(chǔ)網(wǎng)絡(luò)提取到的特征圖[C1]、[C2]、[C3]和[C4]的通道統(tǒng)一為256維,再采用Ghost模塊減少大量的浮點型運算,得到4張?zhí)卣鲌D,在多尺度特征融合模塊的最后輸出中通過上采樣和連接的方法融合不同尺度的特征形成最后的特征圖,最后在檢測頭通過可微分二值化運算得到近似二值圖,經(jīng)過簡單的后處理就可輸出檢測結(jié)果。
1.1 輕量化網(wǎng)絡(luò)
為了減少網(wǎng)絡(luò)參數(shù)量,算法將原來的ResNet-18網(wǎng)絡(luò)更換為MobileNetv2網(wǎng)絡(luò),該網(wǎng)絡(luò)在MobileNetv1[7]的基礎(chǔ)上引入了線性瓶頸和逆殘差模塊來提高網(wǎng)絡(luò)的表征能力。使用線性瓶頸可以防止非線性破壞太多信息,逆殘差模塊如圖2所示,與普通的殘差模塊不同,逆殘差模塊先通過1×1的卷積提升通道數(shù),把高維特征映射到低維空間去,再使用3×3的深度可分離卷積來提取特征,最后用1×1的卷積降低通道數(shù),將低維空間映射到高維空間,這樣可以更好地學(xué)習(xí)到特征,同時網(wǎng)絡(luò)降低了計算量和參數(shù)量。此外,還使用了新的ReLU6激活函數(shù)來增強模型的魯棒性。
1.2 多尺度特征融合模塊
為了加強特征提取能力,減小參數(shù)量,重新設(shè)計了一個輕量但性能不錯的多尺度特征融合模塊,使用GhostNet[8]中的Ghost模塊來處理多層之間的特征融合問題。Ghost模塊主要由3步組成,如圖3所示,先用常規(guī)卷積得到內(nèi)在特征圖[Y],然后對[Y]中每一個通道的特征圖[y],用線性操作[Φ]來生成Ghost特征圖[yij],如式(1)所示,其中線性操作[Φ]就是逐通道卷積,最后將內(nèi)在特征圖[Y]和Ghost特征圖[yij]拼接得到最終結(jié)果,以此來保留原始特征圖的信息。
[yij=Φi,j(y′i)] (1)
多尺度特征融合模塊的具體結(jié)構(gòu)如圖1所示,將骨干網(wǎng)絡(luò)得到的不同尺度的特征圖[C1]、[C2]、[C3]和[C4]先通過1×1卷積統(tǒng)一通道數(shù),然后通過Ghost模塊和上采樣運算進行特征融合,得到不同尺度融合后的特征圖[P1]、[P2]、[P3]和[P4],如式(2)所示,最后先通過上采樣運算將[P1]、[P2]、[P3]和[P4]變?yōu)樵瓐D的1/4大小,再將4個特征圖拼接起來,用于預(yù)測輸出。
[Pi=G?ostConvUp×2(Ci+1)+Ci" " ?i=1,2,3] (2)
1.3 可微分二值化算法
可微二值化就是將標(biāo)準(zhǔn)二值化中的階躍函數(shù)進行了近似,公式如下所示。
[B=1e-k(Pi,j-Ti,j)] (3)
可微二值化本質(zhì)上是一個帶系數(shù)k的sigmoid 函數(shù),取值范圍為(0,1);k是膨脹因子;[Pi,j]是概率圖像素點;[Ti,j]是閾值圖像素點。
1.4 loss函數(shù)
損失函數(shù)L由近似二值圖損失函數(shù)[Lb]、概率圖損失函數(shù)[Ls]和閾值圖損失函數(shù)[Lt]三部分組成,如式(4)所示。
[L=Lb+αLs+βLt] (4)
式中,[α、β]為權(quán)重系數(shù)。[Lb]使用Dice損失,如式(5)所示。[Ls]使用帶 OHEM [9]的 Dice 損失,難樣本挖掘(Online hard example mining,OHEM)是一種特殊的自動采樣方式,解決正負(fù)樣本不均衡的問題,從而提升模型的訓(xùn)練效果。[Lt]是平滑后的L1損失函數(shù),計算預(yù)測值和標(biāo)簽間的距離。
[s=1-2X∩YX+Y] (5)
式中,[X]是真實框元素個數(shù);[|Y|]是預(yù)測框元素個數(shù);[X∩Y]是X和Y之間的交集,可近似為真實框和預(yù)測框之間的點乘,并將點乘元素的結(jié)果相加。
2 試驗研究
2.1 數(shù)據(jù)集
選用自構(gòu)建的農(nóng)資圖片數(shù)據(jù)集[10],含有708幅圖像和11 322個文本框的數(shù)據(jù)集,采用自助采樣法劃分?jǐn)?shù)據(jù)集,其中訓(xùn)練集圖像為448幅且包含7 171個文本框,測試集圖像為260幅且包含4 151個文本框。
2.2 試驗平臺與模型訓(xùn)練細節(jié)
試驗測試環(huán)境的硬件配置為2塊NVIDIA 3090顯卡,cpu型號為Intel(R) Xeon(R) Silver 4210R CPU @ 2.40 GHz,操作系統(tǒng)為Ubuntu20.04,軟件環(huán)境使用Pytorch深度學(xué)習(xí)框架。
在試驗中,模型在自建數(shù)據(jù)集上做600個epoch的微調(diào)訓(xùn)練,采用自適應(yīng)梯度優(yōu)化器,初始學(xué)習(xí)率為0.000 1,在第200次、第400次迭代進行學(xué)習(xí)率衰減。為了提高模型的泛化能力,增強模型的魯棒性,對訓(xùn)練圖像按50%的概率進行水平翻轉(zhuǎn)、隨機縮放、色彩抖動來做在線數(shù)據(jù)增強,最后將圖像尺寸隨機裁剪成640×640。
3 結(jié)果與分析
3.1 評價指標(biāo)
本研究的評價指標(biāo)采用準(zhǔn)確率(Precision)、召回率(Recall)、F分?jǐn)?shù)(F-score),還包含模型復(fù)雜度評價標(biāo)準(zhǔn),即參數(shù)量大?。∕)和每秒浮點運算次數(shù)(FLOPs),具體計算公式如下所示。
[Precision=TPTP+FP] (6)
[Recall=TPTP+FN] (7)
[F-score=2×Precision×RecallPrecision+Recall] (8)
式中,TP 是真陽性;FP是假陽性;FN 是假陰性;[F-score] 是F-分?jǐn)?shù)。
3.2 骨干網(wǎng)絡(luò)的影響
為驗證選用輕量化網(wǎng)絡(luò)的有效性,對比了不同骨干網(wǎng)絡(luò)對試驗結(jié)果的影響,訓(xùn)練時使用ImageNet公開數(shù)據(jù)集上進行預(yù)訓(xùn)練的模型,具體結(jié)果如表1所示。從表1中可以看出,輕量級網(wǎng)絡(luò)在參數(shù)量上明顯低于殘差網(wǎng)絡(luò),將骨干網(wǎng)絡(luò)更換為MobileNetV2,模型的參數(shù)量減少了87.5%,浮點運算量減少了60.9%,而F分?jǐn)?shù)只降低了0.3個百分點,雖然MobileNetV3在參數(shù)量上減少的更多,但F分?jǐn)?shù)降低了6.0個百分點,檢測效果太差,而ResNet-18檢測速度達到了20.0 img/s,其參數(shù)量為12.34 M,雖然參數(shù)量減少了53.0%,但與MobileNetV2相比,遠高于其參數(shù)量,所以模型使用MobileNetV2骨干網(wǎng)絡(luò),雖然帶來了輕微的性能損失,但是減少了模型的參數(shù)量和浮點運算,相比其他輕量級網(wǎng)絡(luò)來說,模型效果最好。
3.3 多尺度特征融合模塊的對比
為了驗證多尺度特征融合模塊對模型的影響,通過試驗對比改進前后的模型檢測性能,如表2所示。新的多尺度特征模塊在精確率、召回率、F分?jǐn)?shù)分別達83.9%,57.2%和68.0%,評測指標(biāo)雖有所下降,但其參數(shù)量減少了0.29 M,檢測速度提高了0.5 img/s。相較于改進前單純使用特征金字塔的方式,多尺度特征融合模塊以微小的準(zhǔn)確率為代價,獲得更低的參數(shù)量,提升了檢測速度,可以更為高效地檢測農(nóng)資圖像上的文本。
3.4 不同算法的對比
為了驗證提出模型的可靠性,先將提出的模型在IC17-MLT[13]訓(xùn)練集進行預(yù)先訓(xùn)練,之后再與主流的文本檢測算法在自建數(shù)據(jù)集上進行了對比,結(jié)果如表3所示。
在自建數(shù)據(jù)集上,算法與基準(zhǔn)模型DB算法相比,不僅在檢測速度上提高了4.6 img/s,而且在參數(shù)量上減少了88.6%;算法與基于區(qū)域建議算法FCENet相比,雖然在三項指標(biāo)上略遜一籌,但是檢測速度是FCENet的9倍,達到了18.6 img/s,模型體積卻只有FCENet的10.6%;與基于分割算法的PAN相比,雖然在檢測速度上落后1.5 img/s,但在參數(shù)量上減少了87.5%,浮點運算量減少了61.6%,所以綜合來看論文算法在參數(shù)量上優(yōu)于其他模型,可以對農(nóng)資圖像上的文本區(qū)域進行快速地檢測,能部署在移動設(shè)備上。
3.5 移動端算法結(jié)果的展示
Paddle-Lite是一個移動端深度學(xué)習(xí)框架,可將模型部署到多種硬件和平臺上,同時也兼容支持其他深度學(xué)習(xí)框架訓(xùn)練產(chǎn)出的模型。采用Paddle-Lite框架進行移動端本地部署,如圖4所示,測試的手機型號為Xiaomi MI 9,Android 版本為10.0,內(nèi)存為6.00 GB,圖中顯示了檢測的文本框區(qū)域和坐標(biāo)點,其中App檢測一張圖片的時間大概是0.227 s左右。
4 小結(jié)
針對農(nóng)資圖像文本檢測速度慢以及缺乏移動端應(yīng)用的問題,本研究提出了一種快速檢測農(nóng)資圖像的算法,該算法在DB網(wǎng)絡(luò)上進行改進,使用MobileNetV2作為骨干網(wǎng)絡(luò),并設(shè)計了多尺度特征融合模塊,使用GhostNet中的Ghost模塊和上采樣來進行多層之間的特征融合,其參數(shù)量為2.99 M,精確率、召回率和F分?jǐn)?shù)分別為83.4%、60.4%和70.4%,檢測速度達18.6 img/s,將模型移植到了手機移動端上,基本實現(xiàn)了快速精確檢測文本的需求,可以落地到農(nóng)業(yè)電子商務(wù)等實際場景中。接下來將致力于將文本識別加入到算法中,進一步提高算法的實用性。
參考文獻:
[1] 王建新,王子亞,田 萱.基于深度學(xué)習(xí)的自然場景文本檢測與識別綜述[J].軟件學(xué)報,2020,31(5):1465-1496.
[2] TIAN Z, HUANG W L, HE T, et al. Detecting text in natural image with connectionist text proposal network[A]. European conference on computer vision[C]. 2016. 56-72.
[3] ZHANG C Q, LIANG B R, HUANG Z M, et al. Look more than once: An accurate detector for text of arbitrary shapes[A]. Proceedings of the 2019 IEEE/CVF conference on computer vision and pattern recognition[C]. 2019.10552-10561.
[4] LI Y, WU Z, ZHAO S, et al. PSENet: Psoriasis severity evaluation network[A]. Proceedings of the AAAI conference on artificial intelligence[C]. 2020. 800-807.
[5] WANG W H, XIE E Z, SONG X G, et al. Efficient and accurate arbitrary-shaped text detection with pixel aggregation network[A]. Proceedings of the 2019 IEEE/CVF international conference on computer vision[C]. 2019. 8440-8449.
[6] SANDLER M,HOWARD A,ZHU M L,et al. MobileNetV2: Inverted residuals and linear bottlenecks[A]. Proceedings of the 2018 IEEE/CVF conference on computer vision and pattern recognition[C]. 2018.4510-4520.
[7] HOWARD A G, ZHU M L, CHEN B, et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications[J]. arXiv preprint arXiv:1704.04861, 2017.
[8] HAN K, WANG Y H, TIAN Q, et al. GhostNet: More features from cheap operations[A]. Proceedings of the 2020 IEEE/CVF conference on computer vision and pattern recognition[C]. 2020.1580-1589.
[9] SHRIVASTAVA A, GUPTA A, GIRSHICK R. Training region-based object detectors with online hard example mining[A]. Proceedings of the 2016 IEEE conference on computer vision and pattern recognition[C]. 2016.761-769.
[10] 殷昌山,楊林楠,胡海洋.基于注意力機制的農(nóng)資標(biāo)簽文本檢測[J].中國農(nóng)機化學(xué)報,2022,43(10):135-140,166.
[11] TAN M X, LE Q. EfficientNet: Rethinking model scaling for convolutional neural networks[A]. Proceedings of the 36th international conference on machine learning[C]. 2019.6105-6114.
[12] HOWARD A, SANDLER M, CHEN B, et al. Searching for MobileNetV3[A]. Proceedings of the 2019 IEEE/CVF" " international conference on computer vision[C]. 2019.1314-1324.
[13] NAYEF N, YIN F, BIZID I, et al. ICDAR2017 robust reading challenge on multi-lingual scene text detection and script identification-RRC-MLT[A]. 2017 14th IAPR international conference on document analysis and recognition (ICDAR)[C].2017. 1454-1459.
[14] LIAO M H, WAN Z Y, YAO C, et al. Real-time scene text detection with differentiable binarization[A]. Proceedings of the AAAI conference on artificial intelligence[C]. 2020.11474-11481.
[15] ZHANG S X, ZHU X B, HOU J B, et al. Deep relational reasoning graph network for arbitrary shape text detection[A]. Proceedings of the 2020 IEEE/CVF conference on computer vision and pattern recognition[C]. 2020. 9699-9708.
[16] ZHU Y Q, CHEN J Y, LIANG L Y, et al. Fourier contour embedding for arbitrary-shaped text detection[A]. Proceedings of the 2021 IEEE/CVF conference on computer vision and pattern recognition[C]. 2021.3123-3131.
[17] LONG S B,RUAN J Q, ZHANG W J, et al. TextSnake: A flexible representation for detecting text of arbitrary shapes[A]. Proceedings of the European conference on computer vision(ECCV)[C]. 2018.20-36.
基金項目:云南省重大科技專項計劃(202102AE090015)
作者簡介:殷昌山(1998-),男,安徽全椒人,碩士,主要從事計算機視覺研究,(電話)18855487851(電子信箱)yincss@126.com;通信作者,
楊林楠(1964-),男,云南保山人,教授,博士,主要從事農(nóng)業(yè)信息化研究,(電話)13888263241(電子信箱)lny5400@163.com。