袁 靖, 潘 明, 朱 寧
(上海置信電氣有限公司 研發(fā)中心, 上海 200335)
隨著我國(guó)數(shù)字化、智能化的日益加深,電網(wǎng)智能升級(jí)成為了發(fā)展熱點(diǎn)[1-2]。變電站和電纜線路的智慧巡檢系統(tǒng)是智能電網(wǎng)建設(shè)的基礎(chǔ),也是實(shí)現(xiàn)設(shè)備互聯(lián)和數(shù)據(jù)分析的關(guān)鍵環(huán)節(jié)[3]。因此,使巡檢系統(tǒng)具備云邊端數(shù)據(jù)協(xié)同處理能力意義重大[4]。
標(biāo)志牌是變電設(shè)備和輸電線路上必須裝設(shè)的電力設(shè)施。其包含了設(shè)備和桿塔的電力線電壓、標(biāo)號(hào)和位置信息,通過標(biāo)志牌信息能夠快速定位設(shè)備或線路的故障位置[5]。無人機(jī)巡檢識(shí)別標(biāo)志牌信息可以提高工作人員的工作效率和安全系數(shù),但同時(shí)需要機(jī)載系統(tǒng)能夠高準(zhǔn)確率地識(shí)別標(biāo)志牌信息,從而快速定位故障。標(biāo)志牌長(zhǎng)期處在戶外和強(qiáng)電場(chǎng)的環(huán)境中,普遍存在掉漆和銹蝕等情況。這就對(duì)標(biāo)志牌識(shí)別系統(tǒng)提出了高要求。
目前,電力標(biāo)志牌的主流識(shí)別系統(tǒng)基于深度學(xué)習(xí)技術(shù)模型搭建。文獻(xiàn)[6]采用級(jí)聯(lián)CascadeR-CNN模型解決了交通標(biāo)志因被遮擋、目標(biāo)小難以被高精度識(shí)別和定位的問題,但TDOA算法的局限性,在非視距環(huán)境下誤差會(huì)變大。文獻(xiàn)[7]采用基于輕量化 YOLOv3 和 Tesseract OCR(Optical Character Recognition,光學(xué)字符識(shí)別)的電力設(shè)備標(biāo)志牌識(shí)別方法,實(shí)現(xiàn)了標(biāo)志牌檢測(cè)和文字的一體化識(shí)別,但 YOLOv3 模型本身的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,計(jì)算消耗較大。文獻(xiàn)[8]探討了一種改進(jìn)的 MobileNetv3-YOLOv3 算法,并引入了SSPNet去重復(fù)特征,在交通標(biāo)志牌檢測(cè)速度上取得了提升,但是準(zhǔn)確度的提升有限。文獻(xiàn)[9]在YOLOF模型的網(wǎng)絡(luò)檢測(cè)分支中融入了注意力機(jī)制以增強(qiáng)網(wǎng)絡(luò)對(duì)交通標(biāo)志牌目標(biāo)的表示,試圖找到檢測(cè)精度和速度的平衡點(diǎn),但僅限于簡(jiǎn)單標(biāo)識(shí),尚未擴(kuò)展到復(fù)雜文字標(biāo)志牌檢測(cè)任務(wù)。文獻(xiàn)[10]采用兩階段算法,檢測(cè)階段檢測(cè)出圖像中的交通標(biāo)志牌,分類階段對(duì)交通標(biāo)志牌先后進(jìn)行大類和子類劃分,算法精度上優(yōu)于基準(zhǔn)單階段識(shí)別算法,但是檢測(cè)速度為15幀/s,無法滿足實(shí)時(shí)檢測(cè)的要求。文獻(xiàn)[11]提出了構(gòu)建雙尺度注意力模塊,嵌入 YOLOv3 的特征提取網(wǎng)絡(luò),對(duì)特征通道進(jìn)行重校準(zhǔn),同時(shí)進(jìn)行多尺度特征的融合,增強(qiáng)了算法的特征信息提取能力,相較YOLOv3算法,檢測(cè)精度得到了較大提升,但是對(duì)極端天氣下的數(shù)據(jù)多樣性考慮較少。文獻(xiàn)[12] 提出了一種融合卷積神經(jīng)網(wǎng)絡(luò)YOLOv5t與傳統(tǒng)機(jī)器學(xué)習(xí)方法M-split的輕量化中文交通指路標(biāo)志文本提取與識(shí)別算法,在自制數(shù)據(jù)集 TS-Detect 上檢測(cè)精度為90.1%,但其精度尚未滿足工業(yè)應(yīng)用要求。
深度神經(jīng)網(wǎng)絡(luò)模型通常存在準(zhǔn)確率和實(shí)時(shí)性難以兼顧,且推理模型結(jié)構(gòu)冗余的問題。因此,本文提出了一種基于改進(jìn)型PPYOLOE檢測(cè)模型,獲得了較理想的精度和速度平衡,并通過量化蒸餾技術(shù)大幅壓縮了模型體積,保證檢測(cè)精度下降維持在可接受的范圍內(nèi)。實(shí)驗(yàn)結(jié)果表明,本文所提方法對(duì)電力標(biāo)志牌的檢測(cè)精度(mAP0.5)達(dá)到了98.4%。另外,采用OCR引擎Paddle OCR,結(jié)合自制樣本庫(kù)使文字檢測(cè)查準(zhǔn)率和識(shí)別準(zhǔn)確率分別達(dá)到了92.6%和90.9%,為電力標(biāo)志牌檢測(cè)識(shí)別任務(wù)提供了應(yīng)用參考。
一階段目標(biāo)檢測(cè)模型相較二階段模型在速度上優(yōu)勢(shì)明顯,其中YOLO系列作為一階段模型代表在工業(yè)界被廣泛應(yīng)用。
以YOLOv1模型為例,輸入圖像被重置分辨率為448×448,同時(shí)由S×S網(wǎng)格分割,每個(gè)網(wǎng)格負(fù)責(zé)預(yù)測(cè)中心點(diǎn)落在該網(wǎng)格內(nèi)的目標(biāo)。其中,每個(gè)網(wǎng)格會(huì)預(yù)測(cè)B個(gè)邊界框,每個(gè)邊界框包括5個(gè)值:預(yù)測(cè)框左上角橫縱坐標(biāo)、邊界框?qū)捀咭约笆欠癜繕?biāo)為前提的預(yù)測(cè)框與真實(shí)框交并比值。同時(shí),每個(gè)網(wǎng)格也預(yù)測(cè)C個(gè)條件類別概率,從而得到推理時(shí)預(yù)測(cè)結(jié)果的置信度。這既體現(xiàn)了目標(biāo)類別出現(xiàn)在預(yù)測(cè)框中的概率,也體現(xiàn)預(yù)測(cè)框與真實(shí)框的匹配程度。
在PASCAL Visual Object Classes (VOC)數(shù)據(jù)格式中,設(shè)置S=7,B=2,C=20,那么最終預(yù)測(cè)結(jié)果是一個(gè)7×7×30的張量,YOLOv1模型結(jié)構(gòu)和張量解析如圖1所示。此時(shí)每個(gè)網(wǎng)格對(duì)應(yīng)(B×5+C)=30的張量。
圖1 YOLOv1模型結(jié)構(gòu)和張量解析
隨著學(xué)術(shù)界對(duì)YOLO系列模型的持續(xù)研究,其網(wǎng)絡(luò)結(jié)構(gòu)和標(biāo)簽分配等方面都在不斷改進(jìn),其中PPYOLOE模型在公開數(shù)據(jù)集COCO(Microsoft Common Objects in Context)上性能表現(xiàn)突出。PPYOLOE采用兼具殘差連接和密集連接特性的RepResBlock,提高了預(yù)測(cè)實(shí)時(shí)性;使用ESE(Effective Squeeze and Extraction)改進(jìn)ET-head(Efficient Task-aligned Head),進(jìn)一步提升了檢測(cè)速度和精度;設(shè)計(jì)了任務(wù)對(duì)齊學(xué)習(xí)(Task Alignment Learning,TAL)克服任務(wù)不對(duì)齊問題。
PPYOLOE模型結(jié)構(gòu)和訓(xùn)練預(yù)測(cè)過程如圖2所示。在訓(xùn)練過程中,輸入圖像首先經(jīng)過數(shù)據(jù)增強(qiáng),例如翻轉(zhuǎn)、Mixup操作,產(chǎn)生更為豐富的輸入數(shù)據(jù)送到主干網(wǎng)絡(luò),由主干網(wǎng)絡(luò)提取出不同尺度的特征信息,然后由頸部網(wǎng)絡(luò)將不同尺度特征進(jìn)行融合,再進(jìn)入頭部網(wǎng)絡(luò)進(jìn)行分類和回歸,最后傳入標(biāo)簽分配器計(jì)算損失值。在預(yù)測(cè)推理過程中,輸入圖像同樣經(jīng)過主干、頸部、頭部網(wǎng)絡(luò),不同的是最后會(huì)傳入后處理流程,進(jìn)行非極大值抑制,得到預(yù)測(cè)結(jié)果。
圖2 PPYOLOE模型結(jié)構(gòu)和訓(xùn)練預(yù)測(cè)過程
1.2.1 RepResBlock模塊結(jié)構(gòu)改進(jìn)
PPYOLOE模型的RepResBlock改進(jìn)過程如圖3所示。
圖3 RepResBlock改進(jìn)過程
受ResNet中引入的瓶頸結(jié)構(gòu)的啟發(fā),建立TreeNet模型[13]如圖3(a)所示。首先提出了一種輕量級(jí)的樹塊,將每個(gè)3×3卷積層替換為3×3層和1×1卷積的堆棧。其中1×1層負(fù)責(zé)增加維度,3×3層由后續(xù)卷積層進(jìn)一步處理。然后將所有1×1層和最后3×3層的輸出連接。因此,當(dāng)聚合相同數(shù)量的后續(xù)特征時(shí)樹塊具有更深的網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)減少了模型復(fù)雜性。受以上思想影響,RepVGG模型[14]的主體僅使用3×3 卷積和線性整流函數(shù)(Rectified Linear Unit,ReLU),并采用結(jié)構(gòu)重參數(shù)化來解耦訓(xùn)練時(shí)的多分支結(jié)構(gòu)和推理時(shí)的平面結(jié)構(gòu),具體如圖3(b)和圖3(c)所示。PPYOLOE模型[15]使用的 RepResBlock 在訓(xùn)練階段如圖 3(d)所示,在推理階段將 RepResBlock 重參數(shù)化為 RepVGG樣式的基本殘差塊,如圖 3(e) 所示。
1×1卷積常被用于減少網(wǎng)絡(luò)權(quán)重?cái)?shù)量和計(jì)算量,同時(shí)引入激活函數(shù)增加網(wǎng)絡(luò)的非線性,但在RepResBlock中要其負(fù)責(zé)參數(shù)學(xué)習(xí)和增加維度,其感受野過小,每個(gè)權(quán)重只學(xué)習(xí)一個(gè)位置的單獨(dú)特征,存在表征不足的問題。RepResBlock中設(shè)計(jì)1×1卷積的主要用途就是提升模型訓(xùn)練時(shí)的網(wǎng)絡(luò)表征能力,且RepResBlock又廣泛用于主干和頸部網(wǎng)絡(luò),其性能好壞會(huì)影響整個(gè)網(wǎng)絡(luò)的特征學(xué)習(xí)。因此,將1×1卷積運(yùn)算公式F(x)=∑wixi+b改進(jìn)為F(x)=(∑wixi+b)×θ,其中:xi為特征輸入,wi為1×1卷積權(quán)重,b為偏置項(xiàng),θ為可學(xué)習(xí)權(quán)重,i為特征通道數(shù)。1×1卷積結(jié)合可學(xué)習(xí)權(quán)重θ后,1×1卷積在模型訓(xùn)練時(shí)負(fù)責(zé)降低特征維度,θ可配合其一起挖掘樣本的特征,相當(dāng)于彌補(bǔ)了1×1卷積自身的不足,從而增強(qiáng)RepResBlock的表征能力,并提升整個(gè)網(wǎng)絡(luò)的特征表達(dá)力和泛化能力。RepResBlock中1×1卷積增加可學(xué)習(xí)權(quán)重θ的結(jié)構(gòu)如圖3(f)所示。
本文通過采用改進(jìn)的RepResBlock,解決了1×1卷積表征能力不足的問題,顯著提升了模型的目標(biāo)檢測(cè)性能,同時(shí)增加的模型參數(shù)量和計(jì)算量可忽略不計(jì)。
1.2.2 損失函數(shù)改進(jìn)
檢測(cè)模型頭部網(wǎng)絡(luò)中的損失函數(shù)計(jì)算包括分類和回歸兩個(gè)分支。PPYOLOE模型的回歸分支采用的是廣義交并比(Generalized Intersection over Union,GIoU)損失函數(shù)[16]。GIoU損失函數(shù)將預(yù)測(cè)框和真實(shí)框非重疊區(qū)域作為影響因子,解決了IoU無法優(yōu)化兩框非相交情況而導(dǎo)致梯度消失的問題。其計(jì)算公式為
(1)
式中:IoU——A和B的交并比;
C——同時(shí)包含A和B的最小框;
A——預(yù)測(cè)框;
B——真實(shí)框。
但是,GIoU損失函數(shù)仍存在兩個(gè)問題:一是在訓(xùn)練初期,預(yù)測(cè)框與真實(shí)框相交之后才開始回歸,導(dǎo)致了收斂延遲;二是當(dāng)預(yù)測(cè)框在真實(shí)框內(nèi)部時(shí),GIoU退化為IoU,無法反映兩者的位置關(guān)系。因此,本文改進(jìn)損失函數(shù)引入完全交并比(CompleteIntersection over Union,CIoU)損失函數(shù)[17]。其計(jì)算公式為
(2)
(3)
(4)
式中:ρ(·)——?dú)W幾里得距離;
b——預(yù)測(cè)框的中心點(diǎn)位置;
bgt——真實(shí)框中心點(diǎn)位置;
c——覆蓋預(yù)測(cè)框和真實(shí)框的最小包圍框?qū)蔷€長(zhǎng)度;
α——正權(quán)重參數(shù);
v——測(cè)量縱橫比的一致性;
wgt、hgt——真實(shí)框的寬和高;
w、h——預(yù)測(cè)框的寬和高。
CIoU損失函數(shù)同時(shí)考慮了預(yù)測(cè)框和真實(shí)框之間的3個(gè)幾何因素:重疊面積、中心點(diǎn)距離和寬高比。在迭代中,可以保證預(yù)測(cè)框和真實(shí)框的寬高比更為接近,從而加快預(yù)測(cè)框的回歸收斂。
本文通過采用CIoU損失函數(shù),解決了預(yù)測(cè)框與真實(shí)框不相交收斂慢的問題,同時(shí)預(yù)測(cè)框在回歸過程中獲取了真實(shí)框的寬高比,提高了模型訓(xùn)練的收斂速度和回歸精度。
1.2.3 數(shù)據(jù)增強(qiáng)Mosaic方法改進(jìn)
本文采用了Mosaic方法[18]進(jìn)行數(shù)據(jù)增強(qiáng),相較于CutMix方法只混合2個(gè)圖像,Mosaic方法混合4個(gè)訓(xùn)練圖像。這可以使模型學(xué)習(xí)到常規(guī)數(shù)據(jù)以外的信息,也可以顯著減小對(duì)大批處理數(shù)量的需求。Mosaic方法數(shù)據(jù)增強(qiáng)過程如圖4所示。
圖4 Mosaic方法數(shù)據(jù)增強(qiáng)過程
然而,Mosaic方法存在調(diào)整標(biāo)注框后負(fù)樣本誤檢率變高的問題。通過Mosaic方法裁剪拼接后,會(huì)出現(xiàn)大量標(biāo)注框被裁剪的標(biāo)志牌樣本,如圖4(c)和4(d)右上角圖像所示,模型會(huì)根據(jù)裁剪結(jié)果自動(dòng)調(diào)整標(biāo)注框大小。但訓(xùn)練過程中正負(fù)樣本的判定依據(jù)是預(yù)測(cè)框與真實(shí)框的交并比,而此類不完整的真實(shí)框會(huì)導(dǎo)致很多負(fù)樣本被視作正樣〗本,嚴(yán)重影響預(yù)測(cè)結(jié)果的合理性。本文提出一種Mosaic的改進(jìn)方法,設(shè)置標(biāo)注框可用性閾值,當(dāng)調(diào)整后的標(biāo)注框面積不足原本的30%時(shí),該標(biāo)注框會(huì)被棄用,從而保證訓(xùn)練樣本的一致性。
另外,在Mosaic方法數(shù)據(jù)增強(qiáng)過程中,訓(xùn)練樣本的真實(shí)框會(huì)被大量縮小,存在改變真實(shí)框分布的問題。這里引入YOLOX[19]的Mosaic使用技巧,即在總共80個(gè)epoch的訓(xùn)練周期最后10個(gè)epoch時(shí)關(guān)閉Mosaic,相當(dāng)于變相加大了真實(shí)框分布,從而增益模型精度。
本文針對(duì)數(shù)據(jù)增強(qiáng)過程中標(biāo)注框被調(diào)整縮小,導(dǎo)致負(fù)樣本被誤檢為正樣本,以及真實(shí)框分布不足的問題,通過設(shè)置標(biāo)注框調(diào)整后的棄用閾值和最后10個(gè)epoch關(guān)閉Mosaic的方法,更好地提升模型識(shí)別電力標(biāo)志牌的特征,提升檢測(cè)模型的泛化能力,從而解決了Mosaic方法調(diào)整標(biāo)注框大小機(jī)制不完善的問題。通過采用改進(jìn)后的Mosaic方法,檢測(cè)模型3個(gè)精度指標(biāo)都得到了明顯提升。
本文基于PaddleOCR對(duì)電力標(biāo)志牌的文字信息進(jìn)行檢測(cè)識(shí)別。OCR識(shí)別過程如圖5所示。
由于原OCR檢測(cè)識(shí)別模型的訓(xùn)練樣本庫(kù)與電力場(chǎng)景有較大差異,所以其對(duì)電力標(biāo)志牌的文字識(shí)別率并不能滿足工業(yè)應(yīng)用的要求。為了讓模型網(wǎng)絡(luò)學(xué)習(xí)到更有針對(duì)性的樣本信息,采集制作了241個(gè)文字檢測(cè)樣本和509個(gè)文字識(shí)別樣本,訓(xùn)練集和驗(yàn)證集劃分比例均為8∶2,用作電力標(biāo)志牌OCR模型進(jìn)一步訓(xùn)練的場(chǎng)景專用樣本,示例如圖6所示。
實(shí)驗(yàn)使用的訓(xùn)練平臺(tái)CPU為Intel Xeon Silver 4208 CPU @ 2.10GHz八核,GPU是NVIDIARTXA6000 48 GB,系統(tǒng)是Ubuntu20.04。軟件環(huán)境是Python3.7.4和PaddlePaddle2.3。
實(shí)驗(yàn)使用了758張的電力標(biāo)志牌圖像,其中變電設(shè)備和輸電線路樣本數(shù)量分別為406張和352張,圖像格式為3通道。在模型訓(xùn)練之前,將已標(biāo)注的標(biāo)志牌圖像樣本按8∶2的比例隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集?;A(chǔ)超參數(shù)設(shè)置如表1所示,檢測(cè)結(jié)果示例如圖7所示。
表1 基礎(chǔ)超參數(shù)設(shè)置
本文采用COCO模型評(píng)價(jià)標(biāo)準(zhǔn),查準(zhǔn)率(Precision)代表模型預(yù)測(cè)出的所有目標(biāo)中,預(yù)測(cè)正確的目標(biāo)數(shù)占比;查全率(Recall)代表所有待測(cè)真實(shí)目標(biāo)中,被模型正確預(yù)測(cè)出的目標(biāo)數(shù)占比;AP(Average Precision)代表推理模型在每個(gè)類別上的好壞,用Precision-Recall曲線面積表示;mAP(mean AP over classes)代表推理模型在所有類別上AP平均值;mAP0.5代表預(yù)測(cè)框與真實(shí)框交集大于>0.5的目標(biāo)被認(rèn)定為正樣本;mAP0.5:0.95代表預(yù)測(cè)框與真實(shí)框從0.5到0.95,每遞增0.05的mAP取平均值,即mAP0.5:0.95=(mAP0.5+mAP0.55+…+mAP0.95)/10;FPS(Frames Per Second)表示每秒幀數(shù)。
實(shí)驗(yàn)中采用基于Objects365數(shù)據(jù)集的預(yù)訓(xùn)練模型,該數(shù)據(jù)集是由曠視和北京智源人工智能研究院聯(lián)合推出的目標(biāo)檢測(cè)任務(wù)新基準(zhǔn),其在63萬余張圖像上標(biāo)注了365個(gè)對(duì)象類,訓(xùn)練集中有超過1 000萬個(gè)邊界框,數(shù)據(jù)規(guī)模上超越了Pascal VOC、ImageNet和COCO數(shù)據(jù)集。另外,本文使用了HSV(色度Hue,飽和度Saturation,明度Value)方法,其具有直觀特性的顏色空間,作為色度、飽和度、明度3個(gè)通道的擾動(dòng),實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)的效果。
本文對(duì)PPYOLOE模型的訓(xùn)練過程逐步做了改進(jìn),包括引入基于Objects365大規(guī)模數(shù)據(jù)集的預(yù)訓(xùn)練模型,改進(jìn)數(shù)據(jù)增強(qiáng)Mosaic方法,設(shè)置色調(diào)擾動(dòng)系數(shù)(色度、飽和度、明度擾動(dòng)系數(shù)分別為0.015、0.7、0.4),改進(jìn)RepResBlock模塊結(jié)構(gòu),以及采用CIoU損失函數(shù),并通過消融實(shí)驗(yàn)進(jìn)行了驗(yàn)證,最終得到3個(gè)mAP指標(biāo)最佳的改進(jìn)方案。表2為逐步改進(jìn)后PPYOLOE模型消融實(shí)驗(yàn)結(jié)果比較。
表2 逐步改進(jìn)后PPYOLOE模型消融實(shí)驗(yàn)結(jié)果比較
由表2可知:采用改進(jìn)后的Mosaic方法,mAP0.5指標(biāo)較上一步提升了0.5%;采用改進(jìn)的RepRes Block(+θ),mAP0.5:0.95指標(biāo)較上一步提升了1.1%;采用CIoU損失函數(shù),mAP0.5:0.95指標(biāo)較上一步提升了0.7%。
此外,對(duì)本文提出的改進(jìn)型PPYOLOE模型與主流的幾種目標(biāo)檢測(cè)算法進(jìn)行對(duì)比測(cè)試,結(jié)果如表3所示。
表3 改進(jìn)型PPYOLOE模型與其他主流模型性能對(duì)比
由表3可知:相比模型大小相當(dāng)?shù)腨OLOv5-s模型,改進(jìn)型PPYOLOE模型的mAP0.5:0.95指標(biāo)提升了6.6%;相比檢測(cè)速度相當(dāng)?shù)腨OLOv6-nano模型,改進(jìn)型PPYOLOE模型的mAP0.5:0.95指標(biāo)提升了2.2%。
本文采用量化和蒸餾兩種模型壓縮方法。量化采用低比特定點(diǎn)計(jì)算替代浮點(diǎn)運(yùn)算,模型的大小和計(jì)算量顯著降低;蒸餾使用大模型監(jiān)督小模型訓(xùn)練,達(dá)到比直接訓(xùn)練小模型更高的精度。另外,TensorRT作為NVIDIAGPU高性能推理C++庫(kù),已集成于PaddlePaddle中,并與深度學(xué)習(xí)框架以互補(bǔ)的方式工作。在模型推理時(shí),TensorRT自動(dòng)對(duì)網(wǎng)絡(luò)進(jìn)行壓縮、優(yōu)化,從而提升推理速度。
模型壓縮前,為了進(jìn)一步檢驗(yàn)改進(jìn)型PPYOLOE模型的性能,將標(biāo)注樣本增加到了1 500個(gè),其中訓(xùn)練樣本1 201個(gè),驗(yàn)證樣本299個(gè),目標(biāo)類別增加到8個(gè)。訓(xùn)練完成后,對(duì)模型進(jìn)行量化和蒸餾,壓縮后的模型大小僅為原來的26.1%。在NVIDIATeslav100 16 G推理顯卡上進(jìn)行了3種預(yù)測(cè)精度(FP32、FP16、INT8)下的驗(yàn)證,結(jié)果如表4所示。
表4 壓縮前后模型性能對(duì)比
由表4可知,模型在Tensor RT開啟下精度指標(biāo)僅下降0.5%以內(nèi)。因此,本文的模型壓縮方案在模型壓縮率和查準(zhǔn)率保持方面效果顯著,為模型在邊緣側(cè)和端側(cè)部署提供了參考價(jià)值。
將經(jīng)改進(jìn)型PPYOLOE模型檢測(cè)得到的標(biāo)志牌圖像傳入PaddleOCR模型進(jìn)行文字處理,其中OCR檢測(cè)查準(zhǔn)率使用上述COCO標(biāo)準(zhǔn),OCR識(shí)別準(zhǔn)確率(Accuracy)=正確識(shí)別出的文字?jǐn)?shù)/總文字?jǐn)?shù)×100%。本文使用了95個(gè)標(biāo)志牌目標(biāo)檢測(cè)結(jié)果作為文字檢測(cè)識(shí)別的輸入樣本,分別通過PaddleOCR原模型和自制樣本庫(kù)訓(xùn)練得到的模型進(jìn)行驗(yàn)證和預(yù)測(cè),實(shí)驗(yàn)結(jié)果如表5和圖8所示。
表5 OCR文字檢測(cè)識(shí)別結(jié)果對(duì)比
由表5可知,自制樣本庫(kù)模型比PaddleOCR原模型檢測(cè)查準(zhǔn)率和識(shí)別準(zhǔn)確率分別提升了7.1%和9.1%。由圖8可知,傾斜標(biāo)志牌和110 kV殘損內(nèi)容被有效識(shí)別出。由此可見,通過自制樣本庫(kù)訓(xùn)練得到的OCR模型在電力巡檢場(chǎng)景下可以取得更加優(yōu)越的標(biāo)志牌文字檢測(cè)和識(shí)別效果。
(1) 在電力標(biāo)志牌目標(biāo)檢測(cè)任務(wù)中,通過改進(jìn)PPYOLOE模型的RepResBlock模塊結(jié)構(gòu)、引入CIoU損失函數(shù)、優(yōu)化數(shù)據(jù)增強(qiáng)等方法,實(shí)現(xiàn)了mAP0.5=98.4%的高檢測(cè)精度。其性能比其他主流檢測(cè)模型更加優(yōu)越。
(2) 針對(duì)邊緣側(cè)設(shè)備的存儲(chǔ)限制,采用了量化和蒸餾方案,模型壓縮為原來的26.1%,精度指標(biāo)只下降了0.5%。
(3) 通過自制電力標(biāo)志牌OCR樣本庫(kù),文字檢測(cè)查準(zhǔn)率達(dá)到了92.6%,文字識(shí)別準(zhǔn)確率達(dá)到了90.9%,滿足電力巡檢對(duì)標(biāo)志牌信息識(shí)別的高精度要求。