摘要:智能化圖像識(shí)別作為計(jì)算機(jī)視覺領(lǐng)域的重要分支,近年來取得了顯著進(jìn)展。本文首先回顧了圖像識(shí)別的基本概念,包括早期的簡(jiǎn)單特征提取和圖像處理路徑。其次,重點(diǎn)分析了卷積神經(jīng)網(wǎng)絡(luò)(CNN) 、目標(biāo)檢測(cè)算法、圖像分割算法、生成對(duì)抗網(wǎng)絡(luò)(GAN) 等關(guān)鍵技術(shù)的演變過程及其在智能化技術(shù)中的作用。最后,綜合分析了計(jì)算機(jī)智能化圖像識(shí)別技術(shù)在醫(yī)療影像診斷分析、智能安防、自動(dòng)駕駛和農(nóng)業(yè)等多個(gè)領(lǐng)域內(nèi)的應(yīng)用。盡管計(jì)算機(jī)智能化圖像識(shí)別技術(shù)取得了顯著進(jìn)展,但仍面臨算法復(fù)雜性和可解釋性等挑戰(zhàn),本文還提出了技術(shù)創(chuàng)新方向與未來的發(fā)展可能性。
關(guān)鍵詞:智能化圖像識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);目標(biāo)檢測(cè);圖像分割;生成對(duì)抗網(wǎng)絡(luò)
中圖分類號(hào):TP391" " " 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)19-0017-03
開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID)
0 引言
智能化圖像識(shí)別技術(shù)已在醫(yī)療、農(nóng)業(yè)、交通及安防等領(lǐng)域深入應(yīng)用,極大提升了信息檢索與決策效率。深度學(xué)習(xí)興起之前,圖像識(shí)別主要依賴傳統(tǒng)圖像處理方法與機(jī)器學(xué)習(xí)算法,如貝葉斯分類法、模板匹配法、核方法等。例如,Zhang[1]等學(xué)者提出的二維圖像局部特征提取方法、局部特征點(diǎn)匹配和粒子濾波等技術(shù),是早期典型代表。這類方法依賴手工設(shè)計(jì)特征與規(guī)則,能夠識(shí)別的對(duì)象較為有限,準(zhǔn)確率偏低,難以適應(yīng)復(fù)雜、多變的現(xiàn)實(shí)場(chǎng)景。
隨著神經(jīng)網(wǎng)絡(luò)的崛起,圖像識(shí)別技術(shù)迎來了革命性變革。卷積神經(jīng)網(wǎng)絡(luò)(CNN) [2]作為核心算法,通過空間權(quán)值共享和局部感受野機(jī)制,有效降低了模型參數(shù)數(shù)量,顯著提升了計(jì)算效率和識(shí)別準(zhǔn)確率。深度學(xué)習(xí)的引入使得特征提取過程高度自動(dòng)化,計(jì)算機(jī)可自主學(xué)習(xí)多層次圖像特征,擺脫了對(duì)人工設(shè)計(jì)經(jīng)驗(yàn)的依賴,大幅提升了識(shí)別性能與應(yīng)用廣度。雖然早期神經(jīng)網(wǎng)絡(luò)存在訓(xùn)練速度慢、易陷入局部最優(yōu)等局限,但其理論與方法為后續(xù)突破奠定了基礎(chǔ)。研究者們通過不斷提出新型網(wǎng)絡(luò)結(jié)構(gòu)與訓(xùn)練算法,持續(xù)提升了模型的表達(dá)能力與泛化能力。大規(guī)模開放圖像數(shù)據(jù)集的建立同樣為模型訓(xùn)練提供了充分的數(shù)據(jù)基礎(chǔ),進(jìn)一步推動(dòng)了圖像識(shí)別技術(shù)的進(jìn)步與應(yīng)用普及。
近年來,圖像識(shí)別算法持續(xù)演進(jìn)。Transformer架構(gòu)借助自注意力機(jī)制捕捉圖像中的長(zhǎng)距離依賴,更好地處理復(fù)雜語義信息。目標(biāo)檢測(cè)領(lǐng)域,YOLO、Faster R-CNN等算法不斷創(chuàng)新,在多目標(biāo)、復(fù)雜環(huán)境下表現(xiàn)突出。語義分割與實(shí)例分割技術(shù)使得計(jì)算機(jī)對(duì)圖像內(nèi)容理解更加精細(xì),廣泛應(yīng)用于自動(dòng)駕駛和醫(yī)學(xué)分析。生成對(duì)抗網(wǎng)絡(luò)(GAN) 通過生成器和判別器對(duì)抗優(yōu)化,能夠生成高逼真圖像,在圖像內(nèi)容生成、修復(fù)以及超分辨率等任務(wù)上展現(xiàn)出巨大潛力。此外,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN) 及其變體LSTM、GRU在圖像描述、視頻目標(biāo)跟蹤等序列任務(wù)中也體現(xiàn)出了重要價(jià)值。圖像識(shí)別技術(shù)的每一次突破,背后都凝聚著學(xué)者們的持續(xù)探索與創(chuàng)新,為技術(shù)進(jìn)一步發(fā)展和多元化應(yīng)用奠定了基礎(chǔ)。
本文將重點(diǎn)闡述主流圖像識(shí)別算法的發(fā)展脈絡(luò),系統(tǒng)分析各類關(guān)鍵技術(shù)在現(xiàn)代圖像識(shí)別中的應(yīng)用現(xiàn)狀與未來前景。
1 關(guān)鍵技術(shù)
1.1 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
2012年,AlexNet模型在圖像識(shí)別領(lǐng)域取得了重大突破,極大推動(dòng)了深度學(xué)習(xí)在計(jì)算機(jī)視覺中的廣泛應(yīng)用。此后,卷積神經(jīng)網(wǎng)絡(luò)(CNN) 的創(chuàng)新主要集中在兩個(gè)方向:其一是網(wǎng)絡(luò)結(jié)構(gòu)的持續(xù)優(yōu)化,研究者們通過對(duì)架構(gòu)的改進(jìn),提升了模型對(duì)圖像特征的提取與表達(dá)能力;其二是網(wǎng)絡(luò)深度的不斷增加,通過構(gòu)建更深的網(wǎng)絡(luò)層級(jí),使模型能夠?qū)W習(xí)到更加復(fù)雜和抽象的特征,從而顯著提高了識(shí)別精度。
基于以上理念,一系列經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)相繼涌現(xiàn)。VGGNet通過加深網(wǎng)絡(luò)層數(shù)并采用較小的卷積核,形成了結(jié)構(gòu)簡(jiǎn)潔、性能優(yōu)異的深層網(wǎng)絡(luò),在圖像分類任務(wù)中表現(xiàn)突出。GoogLeNet則創(chuàng)新性地引入了Inception模塊,通過并行組合不同尺度的卷積核和池化層,有效提升了網(wǎng)絡(luò)的寬度及多尺度特征的提取能力。ResNet首次提出殘差連接機(jī)制,成功解決了深層網(wǎng)絡(luò)中的梯度消失與梯度爆炸問題,使網(wǎng)絡(luò)深度大幅提升并進(jìn)一步刷新了識(shí)別精度。DenseNet在此基礎(chǔ)上實(shí)現(xiàn)了特征的高效重用,各層之間保持密集連接,有效緩解了梯度消失、特征冗余等問題[3]。
CNN通過模擬生物神經(jīng)系統(tǒng)的信息處理機(jī)制,具備非線性表達(dá)、學(xué)習(xí)和記憶能力,并通過參數(shù)共享等方式減少訓(xùn)練參數(shù),縮短訓(xùn)練時(shí)間,提高模型的可擴(kuò)展性與準(zhǔn)確率。Hu[4]基于CNN提出圖像識(shí)別框架:通過卷積核在輸入圖像特征上的滑動(dòng),實(shí)現(xiàn)自動(dòng)提取關(guān)鍵局部特征,同時(shí)減少模型參數(shù);池化層對(duì)特征進(jìn)行采樣壓縮,降低維度的同時(shí)保留關(guān)鍵信息;經(jīng)過全連接層最終實(shí)現(xiàn)分類,輸出識(shí)別結(jié)果。其整體識(shí)別流程如圖1所示。
1.2 目標(biāo)檢測(cè)算法
目標(biāo)檢測(cè)經(jīng)歷了從手工特征到深度學(xué)習(xí)的轉(zhuǎn)變,顯著提升了精度與效率。如Zhang[5]等人指出,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法包括R-CNN[6]、Mask R-CNN[7]、SPPNet[8]、Fast R-CNN[9]、Faster R-CNN[10]、YOLO系列[11]、SSD[12]、DSSD[13]和FSSD[14]等。R-CNN使用選擇性搜索算法生成候選區(qū)域,再通過卷積神經(jīng)網(wǎng)絡(luò)提取特征,并利用SVM分類器進(jìn)行分類。然而,R-CNN存在計(jì)算量大、檢測(cè)速度慢等問題,促使改進(jìn)版本出現(xiàn)。Fast R-CNN通過共享卷積特征避免重復(fù)計(jì)算,顯著提高了檢測(cè)速度。YOLO系列算法的出現(xiàn)打破了傳統(tǒng)兩階段檢測(cè)算法的局限。YOLO將目標(biāo)檢測(cè)視為回歸問題,通過單次前向傳播預(yù)測(cè)邊界框和類別概率。YOLOv1首創(chuàng)單階段框架,實(shí)時(shí)性高但小目標(biāo)檢測(cè)欠佳。YOLOv2引入錨框和批量歸一化,提升精度;YOLOv3采用多尺度預(yù)測(cè),改善小目標(biāo)檢測(cè)。后續(xù)版本如YOLOv4至YOLOv8持續(xù)優(yōu)化架構(gòu)和訓(xùn)練方法,進(jìn)一步提升性能。SSD網(wǎng)絡(luò)結(jié)合了R-CNN系列和YOLO系列的優(yōu)點(diǎn),采用多尺度特征圖進(jìn)行檢測(cè),既保證了檢測(cè)速度,又提高了檢測(cè)精度。通過在不同尺度的特征圖上預(yù)測(cè)目標(biāo),彌補(bǔ)了YOLO系列在小目標(biāo)檢測(cè)上的不足。
1.3 圖像分割算法
傳統(tǒng)圖像分割是將圖像分成若干區(qū)域,使每個(gè)區(qū)域內(nèi)的像素在灰度、顏色、紋理等特征上相似,而不同區(qū)域之間在這些特征上差異明顯。傳統(tǒng)圖像分割算法主要包括基于閾值、區(qū)域和邊緣的分割方法等。與傳統(tǒng)圖像分割算法相比,基于深度學(xué)習(xí)的方法在分割精度上有大幅度提升。Zhang[15]等人設(shè)計(jì)了一種全卷積網(wǎng)絡(luò)框架,利用預(yù)訓(xùn)練的圖像識(shí)別網(wǎng)絡(luò),將其全卷積化后遷移到場(chǎng)景分割數(shù)據(jù)集上重新訓(xùn)練,使SIFTFlow數(shù)據(jù)集的像素級(jí)正確率提升了6.6%[16]。深度學(xué)習(xí)方法通過卷積神經(jīng)網(wǎng)絡(luò)(CNN) 自動(dòng)學(xué)習(xí)圖像特征,提高了圖像分割的精度和魯棒性。一些經(jīng)典的深度學(xué)習(xí)模型如:FCN全卷積網(wǎng)絡(luò)通過將CNN中的全連接層替換為卷積層,實(shí)現(xiàn)了像素級(jí)別的分類,適用于語義分割任務(wù);U-Net采用編碼器-解碼器架構(gòu),能夠處理醫(yī)學(xué)圖像中的復(fù)雜結(jié)構(gòu),廣泛應(yīng)用于醫(yī)學(xué)圖像分割;Mask R-CNN在Faster R-CNN的基礎(chǔ)上增加了分割分支,能夠同時(shí)進(jìn)行目標(biāo)檢測(cè)和實(shí)例分割;DeepLab通過結(jié)合空洞卷積和多尺度特征提取,顯著提高了分割精度,適用于復(fù)雜的自然場(chǎng)景;SAM是Meta AI開發(fā)的零樣本分割模型,能夠在無需額外訓(xùn)練的情況下分割各種對(duì)象。
1.4 生成對(duì)抗網(wǎng)絡(luò)
2014年,GAN算法[17]通過生成器和判別器的對(duì)抗學(xué)習(xí)生成高質(zhì)量數(shù)據(jù),無需大量標(biāo)注數(shù)據(jù)。生成器生成逼真數(shù)據(jù),判別器判斷生成數(shù)據(jù)的真實(shí)性,從而促進(jìn)生成器質(zhì)量的提升。Zhu[18]等人指出,這種對(duì)抗機(jī)制使GAN在圖像生成等領(lǐng)域表現(xiàn)出色,其結(jié)構(gòu)如圖2所示。
利用少量“圖像-標(biāo)簽”對(duì),結(jié)合線性模型,將判別器的卷積層輸出用作特征提取器。在DC-GAN[19]模型中,使用L2正則化的SVM分類器評(píng)估判別器提取的特征向量,在全監(jiān)督和半監(jiān)督數(shù)據(jù)集上均表現(xiàn)出色。Wang[20]等人指出,GAN通過生成器和判別器的對(duì)抗訓(xùn)練生成數(shù)據(jù)。生成器生成逼真的數(shù)據(jù)“欺騙”判別器,判別器則判斷數(shù)據(jù)真假。這種機(jī)制不斷優(yōu)化生成器,使其生成更高質(zhì)量的圖像,提升圖像識(shí)別的智能化水平。Yu[21]等人提出一種生成式圖像修復(fù)系統(tǒng),該系統(tǒng)通過學(xué)習(xí)百萬張圖像,解決了將所有輸入像素視為有效像素的問題,顯著推動(dòng)了圖像生成和圖像分割等領(lǐng)域的發(fā)展。Cheng[22]等提出條件生成式對(duì)抗網(wǎng)絡(luò)模型(CGAN) 、拉普拉斯生成對(duì)抗網(wǎng)絡(luò)(LAPGAN) 、深度卷積生成對(duì)抗網(wǎng)絡(luò)(DCGAN) 、f-GAN模型、能量生成對(duì)抗網(wǎng)絡(luò)模型(EBGAN) 等各類模型。
2 應(yīng)用領(lǐng)域
在醫(yī)療影像診斷領(lǐng)域,如Wang[23]等提出了二維U-Net模型用于肺部區(qū)域分割,采用無監(jiān)督學(xué)習(xí)方法,將分割的三維肺部區(qū)域輸入三維深度神經(jīng)網(wǎng)絡(luò)以預(yù)測(cè)COVID-19感染的概率。Zhang[24]等提出了改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的方法用于乳腺癌淋巴細(xì)胞的識(shí)別,展示了深度學(xué)習(xí)在病理圖像精準(zhǔn)定量分析中的可行性。這些研究為計(jì)算病理學(xué)發(fā)展提供了有力工具和理論基礎(chǔ),推動(dòng)了智能化圖像識(shí)別技術(shù)在醫(yī)療領(lǐng)域的廣泛應(yīng)用,顯著提升了醫(yī)學(xué)診斷的正確率和效率。
在智能安防領(lǐng)域,如Jiang[25]等人提出了改進(jìn)RT-DETR算法用于無人機(jī)目標(biāo)檢測(cè),采用輕量級(jí)SimAM注意力和倒置殘差模塊改進(jìn)ResNet-r18主干網(wǎng)絡(luò),有效提高特征提取能力。Hou等[26]提出了一種改進(jìn)YOLOV8算法用于小目標(biāo)檢測(cè),融合注意力機(jī)制的小目標(biāo)加測(cè)模塊、改進(jìn)多尺度特征融合網(wǎng)絡(luò)結(jié)構(gòu)以及優(yōu)化真度評(píng)估函數(shù),能夠捕獲更豐富的細(xì)節(jié)特征信息,提高小目標(biāo)檢測(cè)能力。
在自動(dòng)駕駛方面,如Han Wei[27]等通過圖像識(shí)別技術(shù)實(shí)現(xiàn)對(duì)交通標(biāo)識(shí)、行人、車輛以及障礙物的快速判斷與反應(yīng)。為應(yīng)對(duì)復(fù)雜環(huán)境,Duan Hong[28]等提出利用智能化圖像識(shí)別技術(shù)增強(qiáng)圖像特征,提高曝光度與辨識(shí)度,并通過多模態(tài)圖像目標(biāo)檢測(cè)強(qiáng)化同一時(shí)間、相同視角及重疊區(qū)域的目標(biāo)識(shí)別。這些研究推動(dòng)了自動(dòng)駕駛技術(shù)的發(fā)展,顯著提升了系統(tǒng)的感知能力和安全性。
在農(nóng)業(yè)領(lǐng)域方面,如Kang[29]等利用智能化圖像識(shí)別技術(shù)對(duì)農(nóng)業(yè)進(jìn)行處理,是農(nóng)業(yè)未來智能化發(fā)展的必然趨勢(shì)。自動(dòng)化處理、分析農(nóng)業(yè)數(shù)據(jù)以及遠(yuǎn)程控制等實(shí)現(xiàn)了農(nóng)業(yè)智能化。Hong Yang[30]等借助圖像識(shí)別對(duì)農(nóng)作物圖像進(jìn)行學(xué)習(xí),對(duì)圖像中的異常圖像特征進(jìn)行提取,從而完成對(duì)病害蟲的快速、準(zhǔn)確、實(shí)時(shí)監(jiān)控判斷并及時(shí)處理。
3 總結(jié)
盡管智能化圖像識(shí)別技術(shù)應(yīng)用廣泛,但仍面臨許多挑戰(zhàn)。一是可解釋性不足,深度學(xué)習(xí)模型通常被視為“黑箱”,其決策過程難以理解。模型的輸出結(jié)果雖然準(zhǔn)確,但無法直觀地解釋其決策依據(jù)。模型性能高度依賴數(shù)據(jù)質(zhì)量與數(shù)量,部分領(lǐng)域數(shù)據(jù)稀缺,導(dǎo)致模型解釋性差。二是計(jì)算資源和存儲(chǔ)問題,圖像識(shí)別任務(wù)需要處理大量像素信息,這導(dǎo)致計(jì)算資源消耗巨大,處理高分辨率圖像或大規(guī)模數(shù)據(jù)集時(shí),存儲(chǔ)需求也會(huì)顯著增加,可能影響跨域適用性。三是泛化能力不足,訓(xùn)練數(shù)據(jù)難以覆蓋真實(shí)環(huán)境的多樣性,導(dǎo)致模型在新場(chǎng)景中表現(xiàn)不穩(wěn)定。訓(xùn)練數(shù)據(jù)的分布與真實(shí)環(huán)境的分布存在差異,這使得模型在新場(chǎng)景中容易出現(xiàn)性能波動(dòng)或錯(cuò)誤。未來,通過結(jié)合多模態(tài)數(shù)據(jù)(如圖像、文本、語音等) 提升可解釋性和泛化能力,成為發(fā)展趨勢(shì)。
參考文獻(xiàn):
[1] 張慶銘.二維圖像局部特征的檢測(cè)匹配與跟蹤算法研究[D].廣州:華南理工大學(xué),2020.
[2] 圣文順,孫艷文.卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別中的應(yīng)用[J].軟件工程,2019,22(2):13-16.
[3] 包俊,董亞超,劉宏哲.卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展綜述[C]//中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)網(wǎng)絡(luò)應(yīng)用分會(huì)2020年第二十四屆網(wǎng)絡(luò)新技術(shù)與應(yīng)用年會(huì)論文集.北京,2020:16-21.
[4] 胡翔.基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別方法[J].信息與電腦(理論版),2023,35(1):190-192.
[5] 張陽婷,黃德啟,王東偉,等.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法研究與應(yīng)用綜述[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(18):1-13.
[6] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28,2014.Columbus,OH,USA.IEEE,2014:580-587.
[7] HE K M, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision (ICCV). October 22-29, 2017, Venice, Italy. IEEE, 2017: 2980-2988.
[8] HE K M,ZHANG X Y,REN S Q,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[C]//Computer Vision – ECCV 2014.Cham:Springer,2014:346-361.
[9] GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV). December 7-13, 2015. Santiago, Chile. IEEE, 2015: 1440-1448.
[10] REN S Q,HE K M,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence.June 6,2016,IEEE,2017:1137-1149.
[11] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:779-788.
[12] LIU W,ANGUELOV D,ERHAN D,et al.SSD:single shot MultiBox detector[C]//Computer Vision-ECCV 2016.Cham:Springer,2016:21-37.
[13] FU C Y,LIU W,RANGA A,et al.DSSD:deconvolutional single shot detector[EB/OL].2017:1701.06659. https://arxiv.org/abs/1701.06659v1.
[14] LI Z X,YANG L,ZHOU F Q.FSSD:feature fusion single shot multibox detector[EB/OL].2017:1712.00960. https://arxiv.org/abs/1712.00960v4.
[15] 張蕊,李錦濤.基于深度學(xué)習(xí)的場(chǎng)景分割算法研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2020,57(4):859-875.
[16] TIGHE J,LAZEBNIK S.Finding things:image parsing with regions and per-exemplar detectors[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28,2013,Portland,OR,USA.IEEE,2013:3001-3008.
[17] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems. 2014: 2672-2680.
[18] 朱秀昌,唐貴進(jìn).生成對(duì)抗網(wǎng)絡(luò)圖像處理綜述[J].南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,39(3):1-12.
[19] RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[C]//International Conference on Learning Representations. 2016.
[20] 汪美琴,袁偉偉,張繼業(yè).生成對(duì)抗網(wǎng)絡(luò)GAN的研究綜述[J].計(jì)算機(jī)工程與設(shè)計(jì),2021,42(12):3389-3395.
[21] YU J H,LIN Z,YANG J M,et al.Free-form image inpainting with gated convolution[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27-November 2,2019.Seoul,Korea.IEEE,2019:4470-4479.
[22] 程顯毅,謝璐,朱建新,等.生成對(duì)抗網(wǎng)絡(luò)GAN綜述[J].計(jì)算機(jī)科學(xué),2019,46(3):74-81.
[23] WANG X G,DENG X B,F(xiàn)U Q,et al.A weakly-supervised framework for COVID-19 classification and lesion localization from chest CT[J].IEEE Transactions on Medical Imaging,2020,39(8):2615-2625.
[24] 張曉璇.乳腺癌病理圖像細(xì)胞識(shí)別與組織分類算法研究[D].廣州:南方醫(yī)科大學(xué),2023.
[25] JIANG M X,SI Z J,WANG X Z.Improved target detection algorithm for UAV images with RT-DETR[J].Computer Engineering and Applications,2025,61(1):98-108.
[26] 侯穎,吳琰,寇旭瑞,等.改進(jìn)YOLOv8的無人機(jī)航拍圖像小目標(biāo)檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2025,61(11):83-92.
[27] 韓偉,李卓陽.計(jì)算機(jī)圖像識(shí)別技術(shù)的應(yīng)用分析[J].信息記錄材料,2024,25(6):143-145.
[28] 段紅.基于圖像識(shí)別技術(shù)的智能交通監(jiān)控系統(tǒng)研究[D].淮南:安徽理工大學(xué),2007.
[29] 康飛龍,李佳,劉濤,等.多類農(nóng)作物病蟲害的圖像識(shí)別應(yīng)用技術(shù)研究綜述[J].江蘇農(nóng)業(yè)科學(xué),2020,48(22):22-27.
[30] 洪楊,樊瑋婷,何夢(mèng)俠,等.圖像識(shí)別技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用綜述[J].電腦知識(shí)與技術(shù),2024,20(7):24-27.
【通聯(lián)編輯:唐一東】