林湧濤 崔寧 趙志俊 李淵 黃婉馨
摘? 要:為了解決常規(guī)圖像目標(biāo)定位識別方法存在的識別準(zhǔn)確率較低問題,實現(xiàn)圖像目標(biāo)精準(zhǔn)定位識別,該文設(shè)計一種新的基于深度學(xué)習(xí)的圖像目標(biāo)精準(zhǔn)定位識別方法,提取圖像CNN特征以降低定位識別難度,構(gòu)建圖像定位深度學(xué)習(xí)識別模型以提高識別圖像的特征表達(dá)能力,設(shè)計Faster圖像定位識別算法以優(yōu)化識別網(wǎng)絡(luò)結(jié)構(gòu),從而實現(xiàn)圖像目標(biāo)定位識別。實驗結(jié)果表明,設(shè)計的圖像目標(biāo)深度學(xué)習(xí)精準(zhǔn)定位識別方法的識別準(zhǔn)確率較高,識別效果較好,符合圖像目標(biāo)定位識別的需求,有一定的應(yīng)用價值。
關(guān)鍵詞:深度學(xué)習(xí);圖像;目標(biāo);定位;識別;研究
中圖分類號:TP391? ? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)02-0083-04
Research on Image Target Location and Recognition Based on Deep Learning
LIN Yongtao, CUI Ning, ZHAO Zhijun, LI Yuan, HUANG Wanxin
(School of Information Engineering and Business Management, Guangdong Nanhua Vocational College of Industry and Commerce, Guangzhou? 510507, China)
Abstract: In order to solve the problem of low recognition accuracy of conventional image target location and recognition methods, and achieve image target accurate location and recognition, this paper designs a new image target accurate location and recognition method based on deep learning, extracts image CNN features to reduce the difficulty of location and recognition, and constructs an image location deep learning recognition model to improve the feature expression ability of the recognized image, Fast image location and recognition algorithm is designed to optimize the recognition network structure, so as to achieve image target location and recognition. The experimental results show that the designed image target deep learning precise location recognition method has high recognition accuracy and good recognition effect, which meets the needs of image target location and recognition and has certain application value.
Keywords: deep learning; image; target; location; recognition; research
0? 引? 言
智能化技術(shù)的發(fā)展改變了信息載體,各種各樣的計算機視覺技術(shù)應(yīng)運而生[1],在圖像識別與定位中發(fā)揮著不可替代的作用。圖像信息的來源較廣泛,包括監(jiān)控提取、照片等,因此圖像信息具有復(fù)雜性[2]。常規(guī)的圖像目標(biāo)定位識別方法無法保證圖像目標(biāo)定位識別的準(zhǔn)確率,因此需要設(shè)計一種新的圖像目標(biāo)定位識別方法。針對目前的圖像識別問題[3],有研究人員設(shè)計了相關(guān)的圖像識別系統(tǒng)。盡管這種新型系統(tǒng)能進(jìn)行圖像分割,提取圖像目標(biāo)信息[4],但由于圖像信息數(shù)量較多,種類豐富,這種新型系統(tǒng)也出現(xiàn)了難以解決的漏洞。
事實上,圖像目標(biāo)識別也可以看作一個數(shù)據(jù)處理過程,往往可以根據(jù)獲得的圖像數(shù)據(jù)[5],識別特定的圖像目標(biāo),完成圖像識別判斷。因此,要想提高圖像目標(biāo)識別的精確度,就必須要模擬人類識別圖像的過程,完成圖像識別理解。深度學(xué)習(xí)可以根據(jù)圖像樣本的特征及所含規(guī)律,判斷圖像樣本的表達(dá)狀態(tài)[6],從而進(jìn)一步針對圖像進(jìn)行智能分析。其主要以內(nèi)部的CNN網(wǎng)絡(luò)以及Auto encoder編碼為基礎(chǔ),完成識別學(xué)習(xí)任務(wù),因此具有較高的精確性。本文根據(jù)識別圖像的特征,基于深度學(xué)習(xí)設(shè)計了一種新的圖像定位識別方法,為計算機視覺的發(fā)展作出了一定的貢獻(xiàn)。
1? 圖像目標(biāo)深度學(xué)習(xí)精準(zhǔn)定位識別方法設(shè)計
1.1? 提取圖像CNN特征
常規(guī)的圖像目標(biāo)定位識別方法在面臨較多的圖像時不具備普適性,無法有效地進(jìn)行特征識別,因此,本文使用CNN提取了圖像特征[7]。首先結(jié)合CNN學(xué)習(xí)原則對圖像進(jìn)行特征表達(dá),其次再使用Caffe學(xué)習(xí)工具構(gòu)建訓(xùn)練架構(gòu)。該訓(xùn)練架構(gòu)具有AlexNet結(jié)構(gòu),能滿足各種類型圖像的特征提取需求,但在提取特征前必須進(jìn)行局部歸一化處理,即使用Rectified Liner Units進(jìn)行修正識別[8],設(shè)計符合圖像特征提取需求的提取激活函數(shù),該函數(shù)定義式Relus(x)如式(1)所示:
(1)
式(1)中,x表示激活因子,if x>0表示特征極值,otherwise表示圖像增益點,此時可知,圖像特征提取遵循圖像特性增益原則,存在一個合理的線性正向變量空間,因此也含有較多的特征激活點。在進(jìn)行圖像特征提取時需要使用相應(yīng)的特征提取接口進(jìn)行處理,使用load_image加載圖像,進(jìn)行特征聯(lián)系。此時各個卷積層的特征可以用特征圖像網(wǎng)格表示,如圖1所示。
由圖1可知,從各個圖像中提取的特征可以依次排列在該特征網(wǎng)格中,便于進(jìn)行后續(xù)的特征識別分析。
目標(biāo)特征與目標(biāo)對象始終存在一定的對應(yīng)關(guān)系,因此在特征提取的過程中要利用CNN對圖像進(jìn)行平移、縮放測試,判斷特征與特征之間的歐氏距離,確定特征提取縮放參數(shù)[9]。由于圖像目標(biāo)定位的精確性要求較高,因此使用選擇搜索法對目標(biāo)圖像進(jìn)行分割,即選取合理的目標(biāo)網(wǎng)絡(luò),進(jìn)行CNN卷積,得到高維特征圖像,從而構(gòu)建合理的CNN特征提取網(wǎng)絡(luò),完成特征提取。
使用上述構(gòu)建的CNN特征提取網(wǎng)絡(luò)進(jìn)一步進(jìn)行IRPN特征訓(xùn)練,選擇合理的候選目標(biāo)進(jìn)行調(diào)節(jié),此時的特征提取損失函數(shù)L(P,PI)如式(2)所示:
L(P,PI)=-log[PPI +(1-P)(1-P)]? ? ? ? ? ? ?(2)
式(2)中,P、PI均表示特征提取對象損失系數(shù),可以結(jié)合該公式,判斷特征提取損失,有效地進(jìn)行回歸分類處理,從而提升圖像特征的提取效果,提高精確性。
1.2? 構(gòu)建圖像目標(biāo)深度學(xué)習(xí)定位識別模型
構(gòu)建深度學(xué)習(xí)定位識別模型可以有效地激活定位識別因子,避免部分激活函數(shù)消失造成的定位識別誤差。本文設(shè)計的圖像目標(biāo)定位識別方法設(shè)計了有效地激活函數(shù),受神經(jīng)元的修正關(guān)系影響,激活函數(shù)內(nèi)部的參數(shù)始終處于變化狀態(tài)。為了降低激活函數(shù)內(nèi)部偏差,提高識別因子學(xué)習(xí)速度,進(jìn)行權(quán)值更新,使用exponential linear unit指數(shù)線性單元來完成二次激活[10]。所設(shè)計的指數(shù)線性單元定義式f (x)如式(3)所示:
(3)
式(3)中,x表示線性單元,α代表變換指數(shù),ex代表控制參數(shù),此時該函數(shù)存在一個平均導(dǎo)數(shù),計算式如式(4)所示:
(4)
此時可以假設(shè)識別參數(shù)均為正,不存在復(fù)雜的信息變化關(guān)系,則此時的激活函數(shù)存在一個常量因子,該常量因子可以控制激活函數(shù)的激活幅值,降低梯度消失對圖像目標(biāo)定位識別造成的影響,提高識別的準(zhǔn)確率。
激活函數(shù)選取完畢后必須要對現(xiàn)有的神經(jīng)網(wǎng)絡(luò)進(jìn)行卷積操作。在一般情況下,選取的卷積核應(yīng)該與上述指數(shù)線性單元相擬合,但受圖像的種類及特征影響,在選擇卷積層時必須要進(jìn)行池化處理。本文使用均值池化法確定池化窗口存在的重疊區(qū)域,消除了SPP多尺度信息,減小了圖像輸入映射產(chǎn)生缺陷的可能。在池化過程中,需要將種類不同的圖像放置在同一特征維度中進(jìn)行處理,處理示意圖如圖2所示。
由圖2可知,該操作可以最大程度上降低圖像信息損失產(chǎn)生的可能性,進(jìn)一步提高圖像的特征表達(dá)能力,減小操作難度?;诖耍瑯?gòu)建的圖像目標(biāo)深度學(xué)習(xí)定位識別模型如式(5)所示:
(5)
式(5)中,w表示目標(biāo)識別間隔,s表示識別區(qū)域面積,t表示圖像目標(biāo)識別時間,y表示最大化識別最優(yōu)解,d、b均表示支持向量。使用該模型進(jìn)行圖像目標(biāo)定位識別處理時,可以將其看成一個非等式條件下的最優(yōu)值求解問題,從而提高圖像目標(biāo)定位識別精度,減小其出現(xiàn)識別誤差的頻率。
1.3? 設(shè)計Faster圖像定位識別算法
僅使用上述設(shè)計的圖像目標(biāo)深度學(xué)習(xí)定位識別模型進(jìn)行圖像目標(biāo)定位識別很容易出現(xiàn)識別響應(yīng)問題,為了解決該問題,本文又設(shè)計了有效的定位識別算法。神經(jīng)網(wǎng)絡(luò)受特殊性影響,具有不同的層次,每一層都需要對目標(biāo)圖像進(jìn)行分類識別處理,避免圖像更新產(chǎn)生的較高識別損失。此時可以設(shè)計輸出特征計算式F,如式(6)所示:
(6)
式(6)中,f表示輸入激活函數(shù),W、I均表示卷積核,B表示偏執(zhí)量。使用該公式對圖像進(jìn)行降維處理,結(jié)合圖像連接層狀態(tài)進(jìn)行分類變換,獲取分類參數(shù)。此時設(shè)計連接層分類表達(dá)式F0,如式(7)所示:
F0= f (WT+B)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(7)
式(7)中,T表示識別連接層的特征值,在識別的過程中,預(yù)測值與實際識別值之間存在著一定的誤差,此時使用代價函數(shù)對識別圖像進(jìn)行重新定義,定義式J如式(8)所示:
(8)
式(8)中,h(x)表示代價函數(shù),y表示識別樣本,μ表示正則化處理參數(shù),m表示正則化處理項受圖像正則化影響,在進(jìn)行自變量修正時會產(chǎn)生ReLU函數(shù),該函數(shù)主要符合神經(jīng)網(wǎng)絡(luò)的反向傳播特性。本文設(shè)計的方法進(jìn)行了誤差反饋,及時更新了識別網(wǎng)絡(luò)中的權(quán)值,使其在下次迭代時必須使用更新參數(shù),減少目標(biāo)定位識別損失。此時設(shè)計的Faster圖像定位識別算法h如式(9)所示:
h= f (wt x+k)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (9)
式(9)中,wt表示識別學(xué)習(xí)率,k表示圖像識別偏置權(quán)值,此時結(jié)合Faster圖像定位識別算法有效地對選取的圖像進(jìn)行目標(biāo)定位識別,保證識別的準(zhǔn)確率。
2? 對比實驗
為了驗證本文設(shè)計方法的識別效果,選取合理的圖像目標(biāo)定位測試集,將其與常規(guī)的圖像目標(biāo)定位識別方法進(jìn)行對比實驗。
2.1? 實驗準(zhǔn)備
本文選取Window 10作為測試平臺,搭建了合理的深度學(xué)習(xí)TensorFlow實驗框架。為了滿足實驗需求,本文將Python 3.0x作為開發(fā)軟件,并配置了CPU為3.30 GHz的I9-8520處理器。除此之外,由于實驗圖片占用空間較大,為避免測試效率過低,本文還為其配置了64 GB的子處理器,安裝了內(nèi)存為256 GB的外接Intel硬盤。此時可以向測試平臺中輸入部分測試數(shù)據(jù),驗證選取的數(shù)據(jù)集狀態(tài)。驗證結(jié)果表明,選取的MNIST圖像數(shù)據(jù)集符合實驗需求,部分MNIST圖像數(shù)據(jù)集中的圖片如圖3所示。
由圖3可知,圖像數(shù)據(jù)集中的圖像均具有一定的特征,符合目標(biāo)識別定位需求。該數(shù)據(jù)集內(nèi)共有約56 465幅識別圖像,在實驗過程中可以隨機選取任意數(shù)量的圖像進(jìn)行識別。
結(jié)合上述的圖像數(shù)據(jù)集以及數(shù)據(jù)集內(nèi)圖片的幀率,創(chuàng)建一個實驗專屬序列幀,獲取不同幀內(nèi)的圖像,并對其進(jìn)行預(yù)測分類。各個類型的圖像編碼及其分類權(quán)重如表1所示。
由表1可知,本文選取的數(shù)據(jù)集內(nèi)的數(shù)據(jù)類型較多,與常規(guī)的CIFAR-10數(shù)據(jù)存在一定的差異。因此,為了提高實驗的有效性,在實驗開始前對現(xiàn)有的圖像數(shù)據(jù)進(jìn)行增強處理,使用圖像數(shù)據(jù)增廣法對圖片進(jìn)行裁剪,將其縮放到合適的尺寸并調(diào)節(jié)圖像的敏感度。為了避免圖像過度擬合,在圖像處理后重新進(jìn)行圖像驗證。在Ubuntu 16.04中進(jìn)行試驗訓(xùn)練,設(shè)計有效的圖像訓(xùn)練矩陣,并使用Nvidia GTX 1080 CUDA 9.0進(jìn)行訓(xùn)練計算,試驗流程圖如圖4所示。
由圖4可知,該試驗網(wǎng)絡(luò)屬于一種優(yōu)化后的殘差網(wǎng)絡(luò),存在輸入層、加權(quán)層、輸出層與激活層。計算每一層的誤差,更新相關(guān)參數(shù),完成訓(xùn)練梯度及訓(xùn)練權(quán)重的更新。全部試驗完成后,將試驗結(jié)果保存到特定文件中,便于后續(xù)實驗參數(shù)的提取。結(jié)合上述準(zhǔn)備過程可以設(shè)計圖像目標(biāo)定位識別準(zhǔn)確率計算式a0,如式(10)所示:
(10)
式(10)中,area(Bp∩Bgt)表示成功完成目標(biāo)識別的圖像數(shù)量,area(Bp∪Bgt)表示圖像總數(shù)量,使用該公式可以有效地判斷圖像目標(biāo)定位識別狀態(tài),分析不同識別方法的識別精度差異。
受實驗過程中生成的Feature Map影響,可能隨機出現(xiàn)不同類型的Faster RCNN/Fast RCNN共享特征集合。為了避免上述作用對實驗造成的影響,還需要額外對網(wǎng)絡(luò)結(jié)構(gòu)及網(wǎng)絡(luò)參數(shù)層進(jìn)行設(shè)定,如表2所示。
由表2可知,上述本文設(shè)定的網(wǎng)絡(luò)結(jié)構(gòu)及網(wǎng)絡(luò)參數(shù)層具有共享特征,滿足實驗Backbone網(wǎng)絡(luò)的連接需求,實驗過程中,無須修改全連接層數(shù)即可完成參數(shù)設(shè)置,降低了實驗的難度,提高了實驗的有效性。
2.2? 實驗結(jié)果
結(jié)合上述的實驗準(zhǔn)備,進(jìn)行圖像目標(biāo)定位識別實驗。在上述搭建的實驗平臺中,分別使用本文設(shè)計的圖像目標(biāo)深度學(xué)習(xí)精準(zhǔn)定位識別方法和常規(guī)的圖像目標(biāo)識別定位方法對圖像數(shù)據(jù)集中的若干圖像進(jìn)行識別,并使用式(10)計算兩種識別方法的識別準(zhǔn)確率。實驗結(jié)果如表3所示。
由表3可知,本文設(shè)計的圖像目標(biāo)深度學(xué)習(xí)精準(zhǔn)定位識別方法在連續(xù)10次識別中的識別準(zhǔn)確率均較高,而常規(guī)的圖像目標(biāo)定位識別方法的識別準(zhǔn)確率較低。證明本文設(shè)計的圖像目標(biāo)定位識別方法的識別效果較好,識別精度較高,具有一定的應(yīng)用價值。
3? 結(jié)? 論
綜上所述,在圖像目標(biāo)定位識別過程中,受圖像數(shù)量及來源復(fù)雜度的影響,其目標(biāo)識別準(zhǔn)確率往往較低,不滿足目前的圖像目標(biāo)定位識別需求。因此本文設(shè)計了一種新的圖像深度學(xué)習(xí)目標(biāo)定位識別方法并進(jìn)行實驗。結(jié)果表明,設(shè)計的圖像目標(biāo)定位識別方法的識別準(zhǔn)確率較高,證明其識別效果較好,具有較高的識別精度,符合目前的圖像目標(biāo)定位識別需求,可以作為后續(xù)計算機視覺研究的參考。
參考文獻(xiàn):
[1] 類成敏,牟少敏,孫文杰,等.基于多尺度注意力殘差網(wǎng)絡(luò)的桃樹害蟲圖像識別 [J].山東農(nóng)業(yè)大學(xué)學(xué)報:自然科學(xué)版,2022,53(2):253-258.
[2] 張冉,李明周,鐘立樺,等.基于圖像識別的銅轉(zhuǎn)爐吹煉造渣期渣含F(xiàn)e預(yù)測模型研究[J].有色金屬:冶煉部分,2022(4):21-30.
[3] 唐標(biāo),沈映泉,黃緒勇,等.基于改進(jìn)型蟻群算法和圖像識別的變電站機器人路徑規(guī)劃和設(shè)備缺陷識別研究 [J].制造業(yè)自動化,2022,44(2):46-52.
[4] 馮裕清,楊信廷,徐大明,等.基于遷移學(xué)習(xí)和金字塔卷積網(wǎng)絡(luò)的河蟹個體圖像識別方法研究 [J].漁業(yè)現(xiàn)代化,2022,49(1):52-60+71.
[5] 姚青,姚波,呂軍等.基于雙線性注意力網(wǎng)絡(luò)的農(nóng)業(yè)燈誘害蟲細(xì)粒度圖像識別研究[J].中國農(nóng)業(yè)科學(xué),2021,54(21):4562-4572.
[6] 肖懿,羅丹,蔣沁知,等.基于溫度概率密度的變電站高壓設(shè)備故障熱紅外圖像識別方法 [J].高電壓技術(shù),2022,48(1):307-318.
[7] 曹文艷,王然風(fēng),樊民強,等.MRMR和SSGMM聯(lián)合分類模型的煤泥浮選系統(tǒng)藥況圖像識別 [J].控制理論與應(yīng)用,2021,38(12):2045-2058.
[8] 張紅斌,熊其鵬,蔣子良,等.聯(lián)合SENet異構(gòu)層特征融合與集成學(xué)習(xí)的材質(zhì)圖像識別 [J].控制與決策,2022,37(6):1632-1642.
[9] 孫文杰,牟少敏,董萌萍,等.基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的桃樹葉部病害圖像識別 [J].山東農(nóng)業(yè)大學(xué)學(xué)報:自然科學(xué)版,2020,51(6):998-1003.
[10] 趙若晴,王慧琴,王可,等.基于方向梯度直方圖和灰度共生矩陣混合特征的金文圖像識別 [J].激光與光電子學(xué)進(jìn)展,2020,57(12):98-104.
作者簡介:林湧濤(2004.12—),男,漢族,廣東揭陽人,初級工程師,本科在讀,研究方向:數(shù)據(jù)分析;崔寧(1987.05—),男,漢族,安徽宿州人,講師,碩士研究生,研究方向:智慧教育與學(xué)習(xí);趙志俊(1978.03—),男,漢族,廣東廣州人,副教授,初級工程師,本科,研究方向:圖形圖像處理;李淵(2000.08—),男,漢族,廣東梅州人,初級工程師,本科在讀,研究方向:軟件技術(shù);黃婉馨(2003.07—),女,漢族,廣東江門人,初級工程師,本科在讀,研究方向:軟件技術(shù)。
收稿日期:2022-09-26
基金項目:2023年廣東省科技創(chuàng)新戰(zhàn)略專項資金(“攀登計劃”專項資金)(pdjh2023b0929);廣東省高職教育教學(xué)改革研究與實踐項目(GDJG2021175);2021年校級質(zhì)量工程移動互聯(lián)網(wǎng)應(yīng)用技術(shù)協(xié)同創(chuàng)新中心階段性成果(2021ZL01)