張朝暉 劉遠(yuǎn)鐸
摘 要:為了探索智能批閱小學(xué)生作業(yè)的可行性,以小學(xué)生英文手寫體為研究對象,建立了基于關(guān)鍵點(diǎn)的CenterNet模型。首先,針對低顯存環(huán)境下CenterNet模型的構(gòu)造與學(xué)習(xí),提出了一種新的以組規(guī)范化(GN)替換批量規(guī)范化(BN)的池化模塊結(jié)構(gòu)改造方案,得到了改造版CenterNet模型;之后,將改造版CenterNet模型用于小學(xué)生英文手寫體區(qū)域檢測,實(shí)現(xiàn)了基于深度學(xué)習(xí)的英文手寫體區(qū)域檢測。將改造版CenterNet模型與原始CenterNet模型和CornerNet-Lite基準(zhǔn)模型進(jìn)行檢測比較。實(shí)驗(yàn)表明:2種版本CenterNet模型的英文手寫體區(qū)域檢測精度和平均召回率均高于基準(zhǔn)模型的相應(yīng)值,改造版CenterNet模型的AP0.5值甚至可達(dá)到73.1%,比基準(zhǔn)模型高出近6%;此外,相比于基準(zhǔn)模型,改造版的CenterNet模型的漏檢情況更少,并在一定程度上有效抑制了誤檢。改造版的CenterNet模型不僅檢測性能優(yōu)于原始CenterNet模型,而且其學(xué)習(xí)過程更穩(wěn)定、收斂更快,這為小學(xué)生作業(yè)智能批閱方案的設(shè)計(jì)提供了有價(jià)值的解決途徑。
關(guān)鍵詞:計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò);英文手寫體區(qū)域檢測;目標(biāo)檢測;CenterNet;組規(guī)范化;池化模塊結(jié)構(gòu)
中圖分類號:TP3914文獻(xiàn)標(biāo)識碼:A
doi: 10.7535/hbgykj.2020yx05001
收稿日期:2020-08-17;修回日期:2020-08-30;責(zé)任編輯:陳書欣
基金項(xiàng)目:國家自然科學(xué)基金(61702158);河北省自然科學(xué)基金(F2018205137,F(xiàn)2018205102)
第一作者簡介:張朝暉(1969—),女,河北樂亭人,副教授,博士,主要從事機(jī)器學(xué)習(xí)、圖像識別方面的研究。
通訊作者:劉遠(yuǎn)鐸。E-mail:lyuanduo@163.com
張朝暉,劉遠(yuǎn)鐸.
基于CenterNet的小學(xué)生英文手寫體區(qū)域檢測[J].河北工業(yè)科技,2020,37(5):291-299.
ZHANG Zhaohui, LIU Yuanduo. Detection of English handwriting area for primary school students based on CenterNet[J].Hebei Journal of Industrial Science and Technology,2020,37(5):291-299.
Detection of English handwriting area for primary school
students based on CenterNet
ZHANG Zhaohui1, LIU Yuanduo2
(1.College of Computer and Cyber Security,Hebei Normal University,Shijiazhuang, Hebei 050024, China; 2.Software College, Hebei Normal University, Shijiazhuang, Hebei 050024, China)
Abstract:
To explore the feasibility of intelligent workbook review for primary school students, a CenterNet model based on
the keypoints was established with primary English handwriting as the research object. Firstly, aiming at the construction and learning of CenterNet model in the case of low GPU (graphics processing unit) memory, a new scheme for pooling module structure modification was proposed by replacing BN (batch normalization) with GN (group normalization), and a modified CenterNet model was obtained. Then, the modified CenterNet model was used for the detection of English handwriting areas of primary school students, and the application of English handwriting area detection based on deep learning was realized. The comparison experiments with the original CenterNet model and the CornerNet-Lite baseline model show that the accuracy and average recall rate of the two versions of CenterNet model are higher than those of the baseline model, and the AP0.5 value of the modified CenterNet model can reach 73.1%, which is nearly 6% higher than that of CornerNet-Lite model. In addition, compared with the baseline model, the modified CenterNet model can get less missed detection and effectively suppress false detection to a certain extent. The improved CenterNet model not only has better detection performance than the original CenterNet model, but also has more stable learning process and faster convergence. This provides a valuable solution for the design of homework intelligent review scheme for primary school students.
Keywords:
computer neural network; English handwriting area detection; object detection; CenterNet; group normalization (GN); pooling module structure
當(dāng)今時(shí)代是人工智能技術(shù)快速發(fā)展的時(shí)代,伴隨著人工智能技術(shù)的不斷普及,與之相關(guān)的應(yīng)用不斷引起人們的關(guān)注。中小學(xué)教育質(zhì)量的優(yōu)劣關(guān)系著國家的未來,如何將人工智能的最新成果與中小學(xué)數(shù)字教育應(yīng)用需求有機(jī)結(jié)合成為研究的課題。在不斷提升教育教學(xué)質(zhì)量的背景下,作業(yè)批閱的質(zhì)量與效率對家長和老師都是一個(gè)不可避免的新問題與挑戰(zhàn)。準(zhǔn)確、高效的作業(yè)批閱,有助于家、校雙方更為客觀、及時(shí)地了解學(xué)生的學(xué)習(xí)情況以及教學(xué)質(zhì)量,因此實(shí)現(xiàn)作業(yè)的智能化批閱是一個(gè)迫切需要解決的問題。
目前小學(xué)生作業(yè)的載體以紙質(zhì)作業(yè)冊為主,而要實(shí)現(xiàn)作業(yè)的智能批閱,并構(gòu)造手寫體區(qū)域檢測模塊,以數(shù)字化的作業(yè)圖像為輸入,檢測圖像中的手寫體區(qū)域;進(jìn)而將檢測結(jié)果輸入至后續(xù)的手寫內(nèi)容識別及評分環(huán)節(jié)。其中,
一個(gè)尤為關(guān)鍵的環(huán)節(jié)是手寫體區(qū)域的檢測。它是實(shí)現(xiàn)準(zhǔn)確、可靠的智能批閱的核心模塊。為此
本文面向小學(xué)生作業(yè)智能批閱的應(yīng)用需求,圍繞作業(yè)圖像中手寫體區(qū)域檢測,結(jié)合深度學(xué)習(xí)在目標(biāo)檢測方面的新成果,探討了將基于關(guān)鍵點(diǎn)的目標(biāo)檢測模型應(yīng)用于小學(xué)生英文手寫體區(qū)域檢測的可行性。
1?目標(biāo)檢測技術(shù)研究現(xiàn)狀
手寫體區(qū)域檢測的目的在于從給定的包含手寫體區(qū)域的圖像中定位并提取手寫體區(qū)域,這是一種典型的圖像目標(biāo)檢測問題。從應(yīng)用的角度來看,關(guān)于目標(biāo)檢測的研究主要有2種基本主題:一個(gè)是一般意義的目標(biāo)檢測,其目的是在統(tǒng)一框架下探究可以同時(shí)進(jìn)行不同類型目標(biāo)檢測的方法;另一個(gè)則是結(jié)合具體的應(yīng)用場景進(jìn)行特定類型的目標(biāo)檢測,例如車輛檢測、行人檢測、文本檢測等。
近年來,深度學(xué)習(xí)技術(shù)的快速發(fā)展為目標(biāo)檢測技術(shù)注入了新鮮的血液,2014年基于深度學(xué)習(xí)的R-CNN模型[1]打破了傳統(tǒng)目標(biāo)檢測性能停滯不前的僵局。自此,基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)開始以前所未有的速度不斷發(fā)展,其目標(biāo)檢測性能也不斷創(chuàng)造著新的記錄。有關(guān)目標(biāo)檢測技術(shù)的發(fā)展歷程,可參見ZOU等[2]關(guān)于近年目標(biāo)檢測技術(shù)的系統(tǒng)化綜述。按照目標(biāo)檢測過程中是否使用錨窗口(anchor),可以將目標(biāo)檢測模型分為兩大類型:基于錨窗口(anchor-based)的目標(biāo)檢測法和無錨窗口(anchor-free)的目標(biāo)檢測法。
第1類方法為基于錨窗口的目標(biāo)檢測法。這類檢測模型需要在特征圖的各位置設(shè)置錨窗口,針對每個(gè)錨窗口預(yù)測目標(biāo)對象存在的概率,借助錨窗口尺寸的調(diào)整來匹配可能的目標(biāo)對象。可進(jìn)一步將該類方法劃分為2種典型形式,即:兩階段檢測器(two-stage detector)和單階段檢測器(one-stage detector)。兩階段檢測器首先基于輸入圖像生成高質(zhì)量的目標(biāo)區(qū)域候選框,之后借助分類與回歸網(wǎng)絡(luò)的連接進(jìn)行候選框的類別判斷及位置校正。最早出現(xiàn)的R-CNN及其后續(xù)衍生的Faster R-CNN[3],Mask R-CNN[4]等是兩階段檢測器的典型代表。盡管Faster R-CNN在行人檢測[5]等目標(biāo)檢測任務(wù)中有著優(yōu)秀的表現(xiàn),但是兩階段檢測器以犧牲檢測速度換得較高的檢測精度,時(shí)間成本消耗較高。單階段檢測器直接對預(yù)先設(shè)置的錨窗口進(jìn)行分類和回歸。SSD[6],YOLOv3[7]是這類方法的典型代表。這類方法在預(yù)測區(qū)域候選框的同時(shí),進(jìn)行目標(biāo)區(qū)域類別的預(yù)測和位置的回歸??傊阱^窗口的目標(biāo)檢測法需要在圖像中生成盡可能涉及更多感興趣目標(biāo)類型的大量錨窗口,錨窗口的引入導(dǎo)致更多額外超參數(shù);相對于圖像中密集分布的大量錨窗口,只有少量窗口被標(biāo)記為目標(biāo),導(dǎo)致大量窗口的冗余;當(dāng)檢測類型的目標(biāo)形狀發(fā)生較大改變時(shí),這種基于錨窗口的目標(biāo)檢測法的場景應(yīng)用靈活性降低,需要結(jié)合具體目標(biāo)類型仔細(xì)設(shè)計(jì)錨窗口的形狀。
第2類方法為無錨窗口的目標(biāo)檢測法。人眼無需從候選窗口中進(jìn)行選擇即可感知監(jiān)控場景中目標(biāo)位置與大小,因此可以摒棄錨窗口的生成機(jī)制,建立一種直接進(jìn)行目標(biāo)檢測的方法。其中,基于關(guān)鍵點(diǎn)的目標(biāo)檢測器是這類方法中出現(xiàn)時(shí)間較近的一種類型,檢測器通過預(yù)測關(guān)鍵點(diǎn)的位置將其分組,以獲得目標(biāo)邊界框。CornerNet[8]模型借助目標(biāo)區(qū)域邊框的左上角及右下角2個(gè)頂點(diǎn)預(yù)測,并以其嵌入到抽象特征空間的方式來確定目標(biāo)區(qū)域的位置,該檢測器在具有挑戰(zhàn)性的交通標(biāo)志檢測[9]任務(wù)中得到了較為成功的應(yīng)用。這種具有里程碑意義的更為簡化的目標(biāo)檢測框架,意味著基于關(guān)鍵點(diǎn)的目標(biāo)檢測方法具有更大的發(fā)展空間。例如:為了能夠在不犧牲檢測精度的情況下提高效率、并提高實(shí)時(shí)檢測的準(zhǔn)確性,在CornerNet模型的基礎(chǔ)上,LAW等[10]將該模型的2種變體組合,提出了CornerNet-Lite模型,其中CornerNet-Squeeze更適合實(shí)時(shí)目標(biāo)檢測;與此同時(shí),DUAN等[11]提出了CenterNet模型,該模型在CornerNet模型所提出的基于2個(gè)關(guān)鍵點(diǎn)的目標(biāo)檢測框架基礎(chǔ)上,引入了目標(biāo)中心點(diǎn)的檢測分支,增加了模型感知目標(biāo)區(qū)域內(nèi)部信息的能力,借助中心點(diǎn)的驗(yàn)證來有效抑制誤檢,其在MS-COCO數(shù)據(jù)集上的檢測性能大幅度領(lǐng)先于同期出現(xiàn)的其他目標(biāo)檢測模型,表現(xiàn)出了令人矚目的優(yōu)勢。
基于關(guān)鍵點(diǎn)的目標(biāo)檢測器無需進(jìn)行錨窗口的生成,意味著其對不同大小、形狀的目標(biāo)檢測更具場景適應(yīng)力。
小學(xué)生作業(yè)圖像中的手寫體區(qū)域檢測面臨如下挑戰(zhàn):1)與中學(xué)生或大學(xué)生等成年人的大小適中、字形比較規(guī)范的書寫字體不同,小學(xué)生書寫風(fēng)格不一,隨意性強(qiáng),缺乏規(guī)范性,字體形態(tài)各異, 特征學(xué)習(xí)難度大;2)市面上的相關(guān)練習(xí)冊種類豐富,各頁面場景內(nèi)容多樣,結(jié)構(gòu)復(fù)雜,手寫區(qū)域噪聲較多,模型學(xué)習(xí)難度大;3)各練習(xí)冊不同頁面需要作答的內(nèi)容長短不一,有些是單獨(dú)字母和單詞,有些是英文短語和句子,如何實(shí)現(xiàn)變長手寫體區(qū)域檢測還面臨諸多未知。因此有必要結(jié)合更具場景適應(yīng)能力的目標(biāo)檢測模型探討其在手寫體區(qū)域檢測中的可應(yīng)用性。
對于手寫體區(qū)域檢測,目前還未見基于關(guān)鍵點(diǎn)有效抑制誤報(bào)邊框的應(yīng)用案例。本研究以CenterNet[11]目標(biāo)檢測模型為例,利用圖像目標(biāo)的內(nèi)部特征能更好地感知目標(biāo)內(nèi)部信息的特點(diǎn),面向小學(xué)生作業(yè)智能批閱的應(yīng)用需求,進(jìn)行基于關(guān)鍵點(diǎn)的目標(biāo)檢測模型在英文手寫體區(qū)域檢測中的應(yīng)用探索。
2?結(jié)合池化結(jié)構(gòu)改造的CenterNet目標(biāo)檢測模型
21?小學(xué)生作業(yè)智能批閱的一般流程
圖1所示為紙質(zhì)作業(yè)智能批閱系統(tǒng)的一般工作流程。
首先,用戶將紙質(zhì)作業(yè)拍照成像,實(shí)現(xiàn)紙質(zhì)作業(yè)的數(shù)字化,并上傳至作業(yè)批閱系統(tǒng);之后對作業(yè)圖像進(jìn)行幾何校正并檢驗(yàn)有效性;檢驗(yàn)有效的作業(yè)圖像輸入至手寫體區(qū)域檢測模塊,該模塊借助端到端的檢測,獲取作業(yè)區(qū)域的手寫體部分;然后將手寫體檢測結(jié)果輸入至后續(xù)的內(nèi)容識別模塊,將識別結(jié)果與目標(biāo)答案進(jìn)行比較,完成作業(yè)評分。圖1中手寫體區(qū)域檢測模塊即為本文的工作重點(diǎn)。
2.2?CenterNet模型的引入
圖2所示為原始CenterNet模型的網(wǎng)絡(luò)結(jié)構(gòu)圖[11]。CenterNet模型的網(wǎng)絡(luò)結(jié)構(gòu)繼承了CornerNet模型中基于沙漏網(wǎng)絡(luò)(Hourglass-52)的骨干網(wǎng)絡(luò),以實(shí)現(xiàn)關(guān)于輸入圖像的多通道特征圖的提取;構(gòu)造了2種類型的關(guān)鍵點(diǎn)池化模塊(見圖3),并以此為基礎(chǔ),采用多分支方式處理圖像特征圖,以實(shí)現(xiàn)目標(biāo)區(qū)域的信息感知與定位。其中:1) 以中心點(diǎn)池化(Center Pooling)模塊(見圖3 a))為基礎(chǔ)的分支網(wǎng)路,提取與目標(biāo)類別或結(jié)構(gòu)語義信息相關(guān)聯(lián)的目標(biāo)區(qū)域中心點(diǎn)熱圖(Center Heatmaps),以生成目標(biāo)備選中心點(diǎn);2) 以級聯(lián)的角點(diǎn)池化(Cascade Corner Pooling)模塊(見圖3 b))為基礎(chǔ)的分支網(wǎng)絡(luò),借助左、上或右、下不同方向的池化組合,提取圖像中與目標(biāo)區(qū)域邊緣語義信息相關(guān)聯(lián)的角點(diǎn)熱圖(Corner Heatmaps),以實(shí)現(xiàn)目標(biāo)區(qū)域備選外邊框左上角點(diǎn)和右下角點(diǎn)位置的估計(jì)。
最終,結(jié)合位置偏移量(Offsets)信息建立目標(biāo)區(qū)域關(guān)鍵點(diǎn)在輸入圖像坐標(biāo)系的映射;借助角點(diǎn)嵌入向量之間的距離信息生成備選的目標(biāo)檢測框;進(jìn)一步結(jié)合中心點(diǎn)信息過濾目標(biāo)邊框信息,得到最終目標(biāo)檢測結(jié)果。
正是由于CenterNet在CornerNet的基礎(chǔ)上關(guān)于目標(biāo)區(qū)域新的關(guān)鍵點(diǎn)的引入、以及池化結(jié)構(gòu)的巧妙構(gòu)造與使用,使得CenterNet模型只需花費(fèi)很小的代價(jià),即可實(shí)現(xiàn)目標(biāo)檢測性能的明顯提升。
2.3?池化模塊結(jié)構(gòu)改造方案的提出
CenterNet模型的參數(shù)尋優(yōu)采用小批量(mini-batch)的梯度下降法。為防止梯度消失、促進(jìn)模型盡快收斂,在CenterNet模型的中心點(diǎn)池化(Center Pooling)以及級聯(lián)角點(diǎn)池化(Cascade Corner Pooling)模塊中均使用了批規(guī)范化(batch normalization,BN)層[12],圖3簡單示意了BN層在2種類型池化結(jié)構(gòu)中的相對位置。
假定每個(gè)小批量樣本集的樣本數(shù)目(即:batch size的取值)為m,并且由池化模塊的卷積層針對每個(gè)樣本圖像生成了通道數(shù)目為C、大小為H行×W列的特征圖。若采用BN方式規(guī)范化每個(gè)小批量樣本集,就要以特征圖的通道為單位,針對每個(gè)通道分別估計(jì)各種特征的均值與標(biāo)準(zhǔn)差,進(jìn)而分別處理每個(gè)通道中m個(gè)特征圖的不同特征。
設(shè)當(dāng)前小批量樣本集的第j個(gè)樣本在第c個(gè)通道的第i個(gè)特征取值為x(j,c)i,基于BN層處理得到批規(guī)范化的結(jié)果為y(j,c)i,具體處理過程如式(1)、式(2)所示。其中:i∈{0,1,…,W×H-1},j∈{0,1,…,m-1},c∈{0,1,…,C-1}。
(j,c)i=1σ(c)i
(x(j,c)i-μ(c)i), ?(1)
y(j,c)i=a·(j,c)i+b, (2)
式(1)中第c個(gè)通道的特征圖的第i個(gè)特征均值μ(c)i及標(biāo)準(zhǔn)差σ(c)i分別估計(jì)為
μ(c)i=1m∑mj=1x(j,c)i, (3)
σ(c)i=1m∑mj=1[x(j,c)i-μ(c)i]2+ε。(4)
式(2)中,a,b為預(yù)設(shè)值;為避免σ(c)i取值為0,在式(4)中引入小正數(shù)ε。由BN規(guī)范化方式可知,統(tǒng)計(jì)量μ(c)i以及σ(c)i的估計(jì)需要小批量樣本數(shù)目m足夠大。加大m值面臨硬件資源的挑戰(zhàn);而降低m值將導(dǎo)致估計(jì)不準(zhǔn)確。
當(dāng)顯存容量比較低時(shí),只能通過下調(diào)m值緩解模型學(xué)習(xí)面臨內(nèi)存資源短缺的窘境,甚至只能將m設(shè)置為個(gè)位數(shù)(例如,取值為1或者2)。這種過小的m值,使上述統(tǒng)計(jì)量的估計(jì)失去意義,進(jìn)而難以發(fā)揮BN層的作用,同時(shí)也為模型的學(xué)習(xí)增加了不必要的計(jì)算負(fù)荷。
在批規(guī)范化之后,針對模型學(xué)習(xí)的不同問題陸續(xù)出現(xiàn)了基于其他規(guī)范化的解決方案,如:層規(guī)范化[13]、實(shí)例規(guī)范化[14]、權(quán)重規(guī)范化[15]以及組規(guī)范化 (group normalization, GN)[16]等。為解決小批量樣本數(shù)目過小情況下模型學(xué)習(xí)的問題,同時(shí)為了使CenterNet模型的學(xué)習(xí)可以更為靈活地適應(yīng)于不同硬件配置環(huán)境(特別是顯存容量低的學(xué)習(xí)環(huán)境),受文獻(xiàn)\的組規(guī)范化思想的啟發(fā),提出了一種以GN層替換BN層的池化結(jié)構(gòu)改造方案,以實(shí)現(xiàn)關(guān)于圖3所示2種類型池化模塊結(jié)構(gòu)的改造,并基于這種新的改造版的池化結(jié)構(gòu)構(gòu)造CenterNet目標(biāo)檢測模型。
圖4為本文提出的基于GN層的池化模塊結(jié)構(gòu)改造方案。不同于BN逐個(gè)通道的處理方式,基于GN方式的規(guī)范化是將各通道分組,以組為單位進(jìn)行處理。
首先進(jìn)行通道分組。若將C個(gè)通道分成G組,則落入第k個(gè)通道組的各通道序號構(gòu)成通道序號集合,記為
Sk={c|c/G=k,c=0,1,…,C},其中k∈{0,1,…,G-1}。
分別處理每組通道。設(shè)當(dāng)前小批量樣本集第j個(gè)樣本在第c個(gè)通道的第i個(gè)特征取值為x(j,c)i,基于GN層處理得到組規(guī)范化的結(jié)果為y(j,c)i。若通道序號c∈Sk,則具體處理過程如式(5)、式(6)所示。其中:i∈{0,1,…,W×H-1},j∈{0,1,…,m-1},c∈{0,1,…,C-1}。
(j,c)i=1σ(k)i(x(j,c)i-μ(k)i),
(5)
y(j,c)i=a·(j,c)i+b,(6)
式(5)中,位于第k組通道各特征圖的第i個(gè)特征均值μ(k)i及標(biāo)準(zhǔn)差σ(k)i分別估計(jì)為
μ(k)i=1m·|Sk|
∑mj=1 ∑c∈Skx(j,c)i,(7)
σ(k)i=
1m·|Sk|
∑mj=1
∑c∈Sk
[x(j,c)i-μ(k)i]2+ε。 (8)
由上述BN與GN的規(guī)范化方式計(jì)算可知,基于GN的規(guī)范化使用了特征圖的通道分組,使得各特征的均值與標(biāo)準(zhǔn)差的估計(jì)更為穩(wěn)定,有效地弱化了小批量樣本集的樣本數(shù)m對特征規(guī)范化的影響。
因此,本文提出的這種基于GN的改造版池化結(jié)構(gòu)CenterNet模型的構(gòu)建方案,緩解了基于小批量樣本集梯度下降法進(jìn)行CenterNet模型學(xué)習(xí)時(shí)對小批量樣本數(shù)目的依賴,為低顯存容量下基于梯度下降法的模型學(xué)習(xí)提供了一種有效的解決途徑。本文將使用這種基于改造版池化結(jié)構(gòu)構(gòu)造的CenterNet模型進(jìn)行英文手寫體區(qū)域的檢測。
2.4?損失函數(shù)
如式(9)所示,基于改造版池化結(jié)構(gòu)構(gòu)建的CenterNet模型的學(xué)習(xí)使用了與文獻(xiàn)\形式一致的損失函數(shù),該損失函數(shù)由角點(diǎn)位置預(yù)測損失Lcodet、中心點(diǎn)位置預(yù)測損失Lcedet、用于最小化相同目標(biāo)對象的角點(diǎn)嵌入向量之間距離的“內(nèi)拉(pull)”損失Lcopull、用于最大化不同目標(biāo)對象的角點(diǎn)嵌入向量之間距離的“外推(push)”損失Lcopush、以及角點(diǎn)位置偏移量預(yù)測損失Lcooff和中心點(diǎn)位置偏移量預(yù)測損失Lceoff組成。其中控制參數(shù)α,β,γ用于平衡各部分之間的相對重要性。
L=Lcodet+Lcedet+α·Lcopull+
β·Lcopush+γ·(Lcooff+Lceoff)。(9)
3?實(shí)驗(yàn)與分析
3.1?數(shù)據(jù)集
用于模型學(xué)習(xí)及測試的數(shù)據(jù)集源自調(diào)查收集的小學(xué)生英文練習(xí)冊的作業(yè)圖像;與作業(yè)圖像對應(yīng)的真值數(shù)據(jù),則采用圖像標(biāo)注工具LabelMe標(biāo)注得到。圖5展示了數(shù)據(jù)集的部分圖像樣例。
由圖5可知,關(guān)于英文作業(yè)手寫體區(qū)域檢測的應(yīng)用場景大致分為6類:1)包含作業(yè)配圖的作業(yè)冊頁面(如圖5 a));2)大段印刷體區(qū)域與問答式填空區(qū)域相結(jié)合的作業(yè)冊頁面(如圖5 b));3)光照條件不均勻現(xiàn)象明顯、并伴有一定噪聲干擾的作業(yè)冊頁面(如圖5 c));4)作業(yè)區(qū)域緊湊并以句子作答的作業(yè)冊頁面(如圖5 d)); 5)作答內(nèi)容為單個(gè)英文字母的作業(yè)冊頁面(如圖5 e));6)非常規(guī)的、背景趣味性較強(qiáng)的作業(yè)冊頁面(如圖5 f))。
需要指出的是:因作業(yè)冊頁面的作業(yè)區(qū)域布局不同,學(xué)生在作業(yè)區(qū)域手寫內(nèi)容的緊湊程度、手寫體區(qū)域的大小以及分布各不相同;即使在相同作業(yè)區(qū)域,因不同人的手寫習(xí)慣不同,相應(yīng)內(nèi)容的字體、大小、手寫區(qū)域的分布也不會(huì)統(tǒng)一。
具體實(shí)驗(yàn)時(shí),首先將收集到的關(guān)于英文作業(yè)冊的頁面圖像統(tǒng)一放縮為800像素×600像素,在此基礎(chǔ)上,采用LabelMe標(biāo)注生成真值數(shù)據(jù)。將上述數(shù)據(jù)集隨機(jī)打亂,分成兩部分,其中:5 084幅作業(yè)圖像構(gòu)成訓(xùn)練集,1 271幅作業(yè)圖像構(gòu)成測試集。
3.2?測試環(huán)境與學(xué)習(xí)策略
本實(shí)驗(yàn)采用CPU為Intel(R) i7-7700@2.80 GHz的筆記本,GPU為單張NEVIDA GTX 1060 8 GB顯卡,基于Ubuntu18.04系統(tǒng),在PyTorch GPU環(huán)境下進(jìn)行模型學(xué)習(xí)。
在模型學(xué)習(xí)之前,首先進(jìn)行了訓(xùn)練樣本集的增強(qiáng),具體的數(shù)據(jù)增強(qiáng)手段分別是:1) 針對每個(gè)樣本圖像進(jìn)行隨機(jī)放縮,其中水平、垂直方向放縮時(shí)的比例系數(shù)∈[0.6,1.4];2) 針對每個(gè)樣本圖像的顏色值進(jìn)行隨機(jī)抖動(dòng)。
基于上述增強(qiáng)的訓(xùn)練集,采用基于小批量樣本集的梯度下降法,結(jié)合Adam的優(yōu)化方式進(jìn)行了模型學(xué)習(xí),其中式(9)所示模型損失函數(shù)中3個(gè)控制參數(shù)α,β,γ的取值分別為0.1,0.01以及1。設(shè)定最大迭代次數(shù)為10 000,每個(gè)小批量樣本集的樣本數(shù)目m=2,初始學(xué)習(xí)率為0.000 25;模型每迭代4 500次便使學(xué)習(xí)率減小至原來的1/10。訓(xùn)練開始時(shí),損失函數(shù)的值為14;之后經(jīng)過1 000輪迭代之后損失函數(shù)值下降到2~3左右,最終損失函數(shù)值穩(wěn)定至1附近。因檢測對象為英文手寫體區(qū)域,所以設(shè)定這種檢測對象的類別名稱為“vocabulary”。模型學(xué)習(xí)時(shí),統(tǒng)一將作業(yè)圖像放縮至511像素×511像素,輸入到網(wǎng)絡(luò)。
3.3?模型評價(jià)
3.3.1?基準(zhǔn)模型的選擇
CenterNet模型在MS-COCO數(shù)據(jù)集的目標(biāo)檢測實(shí)驗(yàn)[11]中,各類目標(biāo)總體平均檢測精度
(average precision,AP)值達(dá)到47%,而當(dāng)交并比(intersection over union,IoU)大于05時(shí),各類目標(biāo)平均檢測精度AP05也達(dá)到了64.5%,其在MS-COCO數(shù)據(jù)集的目標(biāo)檢測性能已超過CornerNet及其之前其他典型的目標(biāo)檢測模型,這已證明CenterNet模型的目標(biāo)檢測性能已經(jīng)超出CornerNet。
考慮到CenterNet與CornerNet-Lite[10]二者在基于關(guān)鍵點(diǎn)的CornerNet模型上接近同期發(fā)展而來,作為近年來具有較高檢測性能的目標(biāo)檢測模型的典型代表,其在手寫體區(qū)域檢測的性能值得期待。因此,為了探討這種類型的目標(biāo)檢測模型在手寫體區(qū)域檢測的有效性,選擇CornerNet-Lite作為本文實(shí)驗(yàn)評價(jià)的基準(zhǔn)模型,其模型結(jié)構(gòu)采用了CornerNet的Squeeze版。
選擇了基準(zhǔn)模型之后,結(jié)合3.1節(jié)所述的訓(xùn)練集,在同樣學(xué)習(xí)條件下實(shí)現(xiàn)了3個(gè)模型的學(xué)習(xí),分別為CornerNet-Lite英文手寫體區(qū)域檢測模型、基于原始池化結(jié)構(gòu)版本的CenterNet英文手寫體區(qū)域檢測模型、以及基于本文改造版池化結(jié)構(gòu)的CenterNet英文手寫體區(qū)域檢測模型;并結(jié)合1 271幅測試圖像進(jìn)行了CenterNet英文手寫體區(qū)域檢測模型的性能評價(jià)。
3.3.2?模型的定量評價(jià)
因小學(xué)生英文作業(yè)的手寫體區(qū)域目標(biāo)以單個(gè)字母、單詞、短語及單行短句為主,為此參考了文獻(xiàn)\中關(guān)于目標(biāo)檢測的評價(jià)方式,選擇了
AP05,ARSmall,ARMedium以及ARAll為英文手寫體區(qū)域檢測性能的評價(jià)指標(biāo)。其中:AP05表示當(dāng)IoU>0.5時(shí)英文手寫體區(qū)域的平均檢測精度;
ARSmall與ARMedium分別表示當(dāng)k=0,1,…,9時(shí)對應(yīng)IoU閾值的10種不同取值下小尺度目標(biāo)(單個(gè)字母及單詞)、中尺度目標(biāo)(短語與單行句子)的英文手寫體區(qū)域平均召回率(average recall,AR);
ARAll表示各種尺度英文手寫體區(qū)域目標(biāo)的平均召回率。
表1所示為基于上述指標(biāo)將CornerNet-Lite基準(zhǔn)模型以及基于原始池化結(jié)構(gòu)版本的CenterNet模型與本文基于改造版池化結(jié)構(gòu)的CenterNet模型進(jìn)行手寫體英文區(qū)域檢測的性能比較結(jié)果。表1的最后1列還給出了不同模型關(guān)于單幅測試圖像(511像素×511像素)的平均檢測時(shí)間。
由表1的評價(jià)數(shù)據(jù)可知:1)與CornerNet-Lite模型相比,基于原始池化結(jié)構(gòu)版本的CenterNet模型以及基于改造版池化結(jié)構(gòu)的CenterNet模型的平均檢測精度(AP05)和平均召回率(ARSmall,ARMedium及ARAll)均有不同程度提高,這證明了基于這2種版本的CenterNet手寫體檢測模型在檢測精度、平均召回率方面性能更優(yōu);2)與基于原始池化結(jié)構(gòu)版本的CenterNet模型相比,基于改造版池化結(jié)構(gòu)的CenterNet模型進(jìn)行英文手寫體檢測時(shí),其AP05值可以提高1.3%,其中ARSmall,ARMedium及ARAll值分別提高0.4%,0.7%及0.8%,其平均單幅圖像的檢測時(shí)間也略短,進(jìn)一步從檢測精度、召回率以及檢測速度方面,證明了基于改造版池化結(jié)構(gòu)的CenterNet模型相對于原始池化結(jié)構(gòu)版本的CenterNet模型在英文手寫體檢測方面更有效;3)盡管上述3種模型經(jīng)過初步學(xué)習(xí)之后,其英文手寫體區(qū)域檢測的AP05值均超過了65%,但基于改造版池化結(jié)構(gòu)的CenterNet模型則在檢測精度、平均召回率達(dá)到最高,其AP05值甚至可達(dá)到73.1%,比CornerNet-Lite模型高出近6%。由表1的最后1列單幅測試圖像(511像素×511像素)的平均檢測時(shí)間可知,與2種版本的CenterNet模型相比,CornerNet-Lite模型的檢測速度明顯更快。
此外,在3.2所述相同硬件學(xué)習(xí)環(huán)境下對池化結(jié)構(gòu)改造前后2種版本的CenterNet模型進(jìn)行了學(xué)習(xí)過程的比較,其中:改造版池化結(jié)構(gòu)的CenterNet模型的初始損失值為14,基于原始池化結(jié)構(gòu)版本的CenterNet模型初始損失值在100以上。隨著學(xué)習(xí)過程的不斷進(jìn)行,基于改造版的模型損失下降過程更加平穩(wěn),波動(dòng)更少,可更快的收斂;而原始池化結(jié)構(gòu)版本的模型損失值較大,與前者相比,其損失下降過程波動(dòng)更多。這進(jìn)一步證明改造版池化結(jié)構(gòu)的CenterNet模型不僅在檢測性能上優(yōu)于原始模型,而且其學(xué)習(xí)過程更為穩(wěn)定、收斂過程更快。
3.3.3?模型的定性評價(jià)
為了在主觀上感受本文方法的有效性,圖6展示了幾個(gè)代表性的檢測樣例。由圖6可知:對于不同的作業(yè)場景,即使作業(yè)區(qū)域布局各不相同、作業(yè)內(nèi)容類型多樣 (如:圖6 a)的單個(gè)字母、圖6 b)的單詞、圖6 c)—圖6 e)的句子),模型均可較好地檢測到手寫體部分。特別強(qiáng)調(diào)的是本文模型還有效區(qū)分了如圖6 a)左下角處的涂劃作廢的無效區(qū)域;對于圖6 d)光線條件弱、以及圖6 e)受紅筆批閱干擾的樣本圖像也表現(xiàn)了不錯(cuò)的檢測效果。
為實(shí)現(xiàn)模型檢測性能的視覺比較,圖7展示了本文改造版池化結(jié)構(gòu)的CenterNet模型與Squeeze版CornerNet-Lite基準(zhǔn)模型關(guān)于4個(gè)不同的樣本圖像在英文手寫體區(qū)域檢測結(jié)果的樣例。其中第1行是改造版池化結(jié)構(gòu)CenterNet模型的檢測結(jié)果,第2行是CornerNet-Lite模型的檢測結(jié)果。
將圖7中第2行基于CornerNet-Lite模型的檢測結(jié)果與第1行基于本文方法的檢測結(jié)果進(jìn)行視覺比較,可以發(fā)現(xiàn):關(guān)于手寫體單詞的檢測,CornerNet-Lite模型在樣本圖像a)中生成了一個(gè)明顯的誤檢框;關(guān)于手寫體句子的檢測,該模型在樣本圖像b)與d)中出現(xiàn)了明顯的漏檢; 在樣本圖像c)中靠近頁面的上部區(qū)域的手寫字母處,CornerNet-Lite模型漏檢了2個(gè)字母區(qū)域。相比之下,基于本文池化結(jié)構(gòu)改造版的CenterNet模型針對上述4個(gè)樣本圖像的手寫體目標(biāo)區(qū)域的檢測精度更高,沒有發(fā)生誤檢;與前3個(gè)樣本圖像相比,樣本圖像d)中存在明顯手寫體傾斜,本文方法在該圖像中漏檢了1個(gè)句子區(qū)域。
圖7所示的視覺效果比較表明:基于關(guān)鍵點(diǎn)的引入,可使CenterNet模型有效利用目標(biāo)區(qū)域的內(nèi)部信息;在CenterNet模型池化結(jié)構(gòu)中以GN層替換BN層,為低容量顯存配置下基于mini-batch的模型尋優(yōu)提供了更為有效的解決方案,即使模型學(xué)習(xí)中設(shè)置mini-batch樣本數(shù)目為2,模型針對不同場景的作業(yè)圖像仍取得了較好的檢測結(jié)果。因此,與基于Squeeze版CornerNet-Lite基準(zhǔn)模型的檢測結(jié)果相比,本文模型的漏檢情況更少,并在一定程度上有效抑制了誤檢。
3.4?問題與不足
不可否認(rèn)的是,當(dāng)前訓(xùn)練條件下得到的CenterNet模型也存在手寫體區(qū)域檢測失效的情況。這主要表現(xiàn)為作業(yè)圖像局部模糊、以及手寫體部分局部幾何形變明顯時(shí),會(huì)導(dǎo)致漏檢(如圖7的樣本圖像d));作業(yè)圖像內(nèi)容過于豐富、存在明顯圖文結(jié)合,或作業(yè)區(qū)域比較緊湊時(shí),會(huì)導(dǎo)致誤報(bào)(如圖8所示,模型將多個(gè)單字符區(qū)域以大框標(biāo)記為一體,誤報(bào)為一個(gè)較大的目標(biāo)區(qū)域)。
盡管基于改造版池化結(jié)構(gòu)的CenterNet模型進(jìn)行英文手寫體區(qū)域檢測時(shí),其檢測性能要明顯優(yōu)于CornerNet-Lite模型,但是模型的檢測速度還有待提升。
4?結(jié)?語
以小學(xué)生英文作業(yè)的智能評閱為應(yīng)用場景,結(jié)合深度學(xué)習(xí)關(guān)于目標(biāo)檢測的研究成果,探討了基于關(guān)鍵點(diǎn)的目標(biāo)檢測在手寫體區(qū)域檢測應(yīng)用的有效性。
1)針對低顯存容量情況下小批量樣本集的樣本數(shù)目(即:batch size的大?。enterNet模型學(xué)習(xí)的不良影響,提出一種以組規(guī)范化(GN)替換批量規(guī)范化(BN)的池化結(jié)構(gòu)改造方案,有效弱化了小批量樣本集樣本數(shù)目對模型學(xué)習(xí)的影響,為低顯存情況下CenterNet模型的構(gòu)造及學(xué)習(xí)提供了一種有效的解決方案。
2)進(jìn)一步面向小學(xué)生英文作業(yè)智能批閱的應(yīng)用需求,將基于改造版池化結(jié)構(gòu)構(gòu)造的CenterNet模型用于小學(xué)生英文手寫體區(qū)域的檢測,進(jìn)行了基于深度學(xué)習(xí)的目標(biāo)檢測模型在小學(xué)生英文手寫體區(qū)域檢測應(yīng)用中的新嘗試,并實(shí)現(xiàn)了基于該模型的小學(xué)生英文手寫體區(qū)域檢測?;跇?gòu)造數(shù)據(jù)集的初步實(shí)驗(yàn)表明:即使設(shè)定小批量樣本數(shù)目m=2,基于改造版池化結(jié)構(gòu)的CenterNet模型的AP05值可以達(dá)到73.1%,與CornerNet-Lite基準(zhǔn)模型的檢測結(jié)果相比,漏檢情況更少、誤報(bào)更低、檢測更加有效。
實(shí)驗(yàn)完成了基于CenterNet模型在小學(xué)生英文手寫體區(qū)域檢測的初步嘗試,證明了這種應(yīng)用的有效性,為小學(xué)生作業(yè)智能批閱方案的設(shè)計(jì)提供了一定的解決思路。后續(xù)將采用更為多樣化的樣本收集、基于多樣化噪聲干擾及不同幾何形變的樣本增強(qiáng)等方式,進(jìn)一步改善模型的檢測性能。
參考文獻(xiàn)/References:
[1]?GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. NJ: IEEE, 2014: 580-587.
[2]?ZOU Zhengxia, SHI Zhenwei, GUO Yuhong, et al. Object detection in 20 years: A survey[J]. Computer Vision and Pattern Recognition, 2019. arXiv:1905.05055.
[3]?GIRSHICK R. Fast R-CNN[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. NJ: IEEE, 2015: 1440-1448.
[4]?HE Kaiming, GEORGIA G, PIOTR D, et al. Mask R-CNN[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. NJ: IEEE, 2017: 2980-2988.
[5]?余珮嘉, 張靖, 謝曉堯. 基于自適應(yīng)池化的行人檢測方法[J]. 河北科技大學(xué)學(xué)報(bào), 2019, 40(6): 533-539.
YU Peijia, ZHANG Jing, XIE Xiaoyao. Pedestrian detection based on adaptive pooling method[J]. Journal of Hebei University of Science and Technology, 2019, 40(6): 533-539.
[6]?LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector[C]//Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 21-37.
[7]?REDMON J, FARHADI A. YOLOv3: An incremental improvement[J]. Computer Vision and Pattern Recognition, 2018. arXiv: 1804.02767.
[8]?LAW H, DENG Jia. CornerNet: Detecting objects as paired keypoints[C]//Proceedings of the 15th European Conference on Computer Vision. Berlin: Springer, 2018: 765-781.
[9]?范紅超, 李萬志, 章超權(quán). 基于Anchor-free 的交通標(biāo)志檢測[J]. 地球信息科學(xué)學(xué)報(bào), 2020, 22(1): 88-99.
FAN Hongchao, LI Wanzhi, ZHANG Chaoquan. Anchor-free traffic sign detection[J]. Journal of Geo-information Science, 2020, 22(1): 88-99.
[10]LAW H, TENG Yun, RUSSAKOVSKY O, et al. CornerNet-Lite: Efficient keypoint based object detection[J]. Computer Vision and Pattern Recognition, 2019. arXiv:1904.08900.
[11]DUAN Kaiwen, BAI Song, XIE Lingxi, et al. CenterNet: Keypoint triplets for object detection[C]//Proceedings of the 2019 IEEE International Conference on Computer Vision. NJ: IEEE, 2019: 6569-6578.
[12]IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille: ACM, 2015. arXiv: 1502.03167.
[13]BA J L, KIROS J R, HINTON G E. Layer normalization[J].Machine Learning, 2016. arXiv:1607.06450.
[14]ULYANOV D, VEDALDI A, LEMPITSKY V. Instance normalization: The missing ingredient for fast stylization[J]. Computer Vision and Pattern Recognition, 2016. arXiv: 1607.08022.
[15]SALIMANS T, KINGMA D P. Weight normalization: A simple reparameterization to accelerate training of deep neural networks[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona: MIT Press, 2016: 901-909.
[16]WU Yuxin, HE Kaiming. Group normalization[J]. International Journal of Computer Vision, 2020, 128(3): 742-755.