摘" 要: 針對目前智能農(nóng)機(jī)在鄉(xiāng)村復(fù)雜環(huán)境下行駛時對周圍特征識別精度不足的問題,以鄉(xiāng)村道路場景為研究對象,提出一種改進(jìn)PP?LiteSeg模型。首先使用STDC對圖像特征進(jìn)行提取,在保證輕量化的同時確保特征信息完整;然后將條形池化引入簡單金字塔模塊,加強(qiáng)特征的提取能力,并將坐標(biāo)注意力加入統(tǒng)一注意力融合模塊,進(jìn)一步加強(qiáng)多尺度特征的融合,捕獲更為豐富的信息,從而提高模型對鄉(xiāng)村復(fù)雜場景識別的準(zhǔn)確率。實(shí)驗結(jié)果表明,在不同場景下,所提模型可以達(dá)到較好的分割效果,建筑物、柏油路、障礙等單個類別的準(zhǔn)確率均達(dá)到80%以上,能夠有效地分割鄉(xiāng)村道路場景。改進(jìn)模型可為智能農(nóng)機(jī)在鄉(xiāng)村道路場景下的安全行駛提供技術(shù)參考。
關(guān)鍵詞: 語義分割; 鄉(xiāng)村道路; 特征識別; 條形池化; 坐標(biāo)注意力; 場景分類; 圖像處理
中圖分類號: TN911.73?34; TP391.41" " " " " " " "文獻(xiàn)標(biāo)識碼: A" " " " " " " " " "文章編號: 1004?373X(2025)02?0179?08
Rural road recognition based on semantic segmentation
CAO Xinyu1, ZHANG Taihong1, 2, 3, ZHAO Yunjie1, 2, 3, YAO Zhixin1, 2, 3
(1. College of Computer and Information Engineering, Xinjiang Agricultural University, Urumqi 830052, China;
2. Engineering Research Center of Intelligent Agriculture Ministry of Education, Urumqi 830052, China;
3. Xinjiang Agricultural Informatization Engineering Technology Research Center, Urumqi 830052, China)
Abstract: In allusion to the problem of insufficient recognition accuracy of surrounding features when intelligent agricultural machinery drives in complex rural environments, an improved PP?LiteSeg model is proposed based on rural road scenes as the research object. The STDC is used to extract features from the image, which can ensure the completeness of the feature information while ensuring the lightweight. The strip pooling is introduced into a simple pyramid module to enhance feature extraction capabilities. The coordinate attention is integrated into the unified attention fusion module to further enhance the fusion of multi?scale features and capture richer information, thereby improving the accuracy of the model in recognizing complex rural scenes. The experiments show that the model can realize better segmentation results in different scenes, and the accuracy rate of individual categories such as buildings, asphalt roads, and obstacles can reach more than 80%, which has can effectively segment the rural road scene. The improved model can provide technical references for the intelligent agricultural machine to drive safely in the rural road scene.
Keywords: semantic segmentation; rural road; feature recognition; strip pooling; coordinate attention; scene classification; image process
0" 引" 言
農(nóng)村地區(qū)的交通基礎(chǔ)設(shè)施是實(shí)現(xiàn)城鄉(xiāng)一體化、促進(jìn)農(nóng)業(yè)發(fā)展和改善農(nóng)民生活的重要組成部分。其中,鄉(xiāng)村道路作為聯(lián)系農(nóng)村社區(qū)與城市的紐帶,承載著農(nóng)產(chǎn)品運(yùn)輸、農(nóng)民出行等關(guān)鍵功能。提高農(nóng)業(yè)生產(chǎn)過程的機(jī)械化、自動化、智能化水平,降低農(nóng)業(yè)生產(chǎn)對農(nóng)業(yè)勞動力的強(qiáng)依賴性,對于促進(jìn)農(nóng)業(yè)現(xiàn)代化建設(shè)、加速農(nóng)業(yè)生產(chǎn)方式供給側(cè)結(jié)構(gòu)改革具有重要作用[1]。智能農(nóng)機(jī)的特點(diǎn)是安全和自主,農(nóng)業(yè)作業(yè)可以自主完成,精度較高,同時效率也非常高。該智能農(nóng)機(jī)系統(tǒng)已在播種、施肥、除草、收獲等領(lǐng)域廣泛應(yīng)用[2?5]。
道路的語義分割技術(shù)[6?7]是現(xiàn)實(shí)農(nóng)機(jī)自動駕駛的關(guān)鍵。其中一個重要部分就是計算機(jī)視覺,其特點(diǎn)是檢測范圍廣、特征獲取豐富,是智能農(nóng)機(jī)獲取鄉(xiāng)村道路信息的重要方式之一。目前,自動駕駛行駛的道路場景可分為兩大類別:一類是城市主干道、高速公路等邊界清晰、形狀規(guī)則的結(jié)構(gòu)化道路,對于這類道路,相關(guān)的分割技術(shù)已經(jīng)相對成熟[8?9];另一類就是鄉(xiāng)村道路、城市非主干道等,這些道路的邊界模糊、形狀不規(guī)則,甚至存在部分損壞,屬于非結(jié)構(gòu)化道路。這類非結(jié)構(gòu)化道路場景的分割難度較大,其他問題也較多。因此,對鄉(xiāng)村道路的有效分割意義重大。
在當(dāng)前道路場景識別解析的研究中,文獻(xiàn)[10]提出了一種基于顏色特征的機(jī)場道路語義分割方法,該方法采用超像素塊對圖像進(jìn)行分割,并利用訓(xùn)練好的基于顏色的貝葉斯分類器對每個分割聚類進(jìn)行語義類別標(biāo)注,從而實(shí)現(xiàn)對飛機(jī)跑道上引導(dǎo)線的識別。另外,文獻(xiàn)[11]通過組合顏色、紋理、深度等低層級特征,利用隨機(jī)決策森林法實(shí)現(xiàn)了街區(qū)場景的像素級語義分割。文獻(xiàn)[12]采用了將道路影像轉(zhuǎn)換到HIS顏色空間的方法分割出道路灰度一致性區(qū)域,并結(jié)合空間梯度信息對分割結(jié)果進(jìn)行細(xì)化。盡管這些方法在處理結(jié)構(gòu)化道路場景時表現(xiàn)出色,但它們還存在一些局限性。具體而言,上述方法主要依賴于人工設(shè)計的表層特征,如顏色、紋理和形狀等,缺乏對圖像深層特征和高級語義信息的充分利用,導(dǎo)致在復(fù)雜鄉(xiāng)村道路場景的識別中面臨一系列挑戰(zhàn),包括道路的狀態(tài)、路面上物體的干擾,所以這類方法對于復(fù)雜的鄉(xiāng)村道路場景很難直接應(yīng)用。
近年來,深度卷積神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺領(lǐng)域取得了顯著的進(jìn)展,尤其在圖像分類、目標(biāo)檢測和語義分割等任務(wù)上展現(xiàn)出卓越性能[13?14]。深度學(xué)習(xí)的引入為解決復(fù)雜圖像場景識別和解析問題提供了有效的手段[15]。文獻(xiàn)[16]設(shè)計了輕量化非結(jié)構(gòu)化道路語義分割神經(jīng)網(wǎng)絡(luò),取得了較好的分割結(jié)果;不過其使用了分組卷積進(jìn)行替換,數(shù)據(jù)信息只在組內(nèi),通道之間沒有信息交互,導(dǎo)致分割不夠精細(xì)。文獻(xiàn)[17]設(shè)計了一種融合注意力機(jī)制與輕量化的非結(jié)構(gòu)化道路識別方法,將骨干網(wǎng)絡(luò)的特征送入并行的空洞卷積模塊,再將特征輸入至注意力結(jié)構(gòu),在一定程度上提高了對非結(jié)構(gòu)化道路預(yù)測的準(zhǔn)確性,但并行的空洞卷積模塊會提高計算量,而且空洞卷積會產(chǎn)生間隙,使得部分特征信息丟失。文獻(xiàn)[18]基于DABnet提出的融合多尺度信息的道路場景實(shí)時語義分割網(wǎng)絡(luò),實(shí)現(xiàn)了較高的分割精度。以上這些研究都是采用卷積神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行語義分割,然而還是存在一些不足,如參數(shù)多、計算負(fù)載大以及推理速度不理想等。與此同時,在處理圖像時對于上下文信息的利用也并不充分,對于全局信息的利用也不夠全面,從而影響對復(fù)雜場景的分割精度。
本文以鄉(xiāng)村道路作為研究對象,提出一種改進(jìn)PP?LiteSeg語義分割模型,采用STDC提取圖像特征,將條形池化(Strip Pooling, SP)加入簡單金字塔來加強(qiáng)特征的提取能力,并且將坐標(biāo)注意力(Coordinate Attention, CA)加入統(tǒng)一注意力融合模塊,進(jìn)一步加強(qiáng)多尺度特征的融合,獲得較為完整準(zhǔn)確的特征,從而能夠完成對鄉(xiāng)村道路這類復(fù)雜場景的精細(xì)分割。
1" 網(wǎng)絡(luò)結(jié)構(gòu)
1.1" 改進(jìn)鄉(xiāng)村道路場景語義分割模型
目前,很多模型都采用編碼器和解碼器的結(jié)構(gòu)。編碼器一般包括卷積、池化和激活函數(shù)等一系列操作,能夠提取特征;解碼器使用上采樣或反卷積操作將編碼器的低分辨率特征恢復(fù)到高分辨,輸出最后的預(yù)測結(jié)果。原始的PP?LiteSeg模型是一個典型的編碼器?解碼器結(jié)構(gòu)。編碼階段使用STDC對特征進(jìn)行提取,然后將特征輸入至一個簡單金字塔池化模塊進(jìn)行特征細(xì)化;解碼階段使用統(tǒng)一注意力融合模塊將深層特征和編碼階段特征進(jìn)行融合,最后通過上采樣得到預(yù)測圖像。本文改進(jìn)模型在編碼階段將提取特征輸入至一個條形池化簡單金字塔模塊,以獲取更為有效的全局上下文信息,增強(qiáng)模型的性能;解碼階段將條形池化金字塔模塊輸出的特征,與通過帶有坐標(biāo)注意力的統(tǒng)一注意力融合模塊和編碼階段的中間特征進(jìn)行融合,獲取更為豐富的特征,最后通過上采樣得到預(yù)測結(jié)果。圖1為改進(jìn)PP?LiteSeg模型結(jié)構(gòu)示意圖。
1.2" 條形池化簡單金字塔模塊
標(biāo)準(zhǔn)的池化操作在處理不規(guī)則形狀的物體時,很多相關(guān)區(qū)域都會出現(xiàn)合并的現(xiàn)象。為了能夠解決這個問題,引入條形池化這個概念,條形池化操作是針對輸入的二維張量執(zhí)行的一種池化操作,它可以沿水平或豎直方向移動,如圖2所示。輸入的二維張量為[x∈RH×W],則在進(jìn)行條形池化操作時,池化窗口的大小為[H,1]或[1,W]。與二維平均池化不同的是,條形池化是對每一行或每一列中的所有特征進(jìn)行平均。因此,經(jīng)過條形池化后的輸出張量[yh∈RH],其表達(dá)式為:
[yhi=1W0≤jlt;Wxi,jywj=1H0≤ilt;Hxi,j]" " " " " " " (1)
該條形池化模塊使用水平和豎直的條形池化操作,捕獲來自不同空間維度的上下文信息,從而能夠很好地進(jìn)行信息交互。假設(shè)輸入張量為[x∈RC×H×W],其中[C]表示通道數(shù)量。首先,[x]同時輸入至2條平行路徑,每個路徑包含一個豎直或水平的條形池化操作,然后跟隨一個內(nèi)核大小為3的一維卷積操作,其目的是調(diào)整當(dāng)前位置及相鄰位置的特征。給定[yh∈RC×H]和[yw∈RC×W],為了獲得更為有效的全局特征,先將[yh]和[yw]進(jìn)行組合,得到[y∈RC×H×W],其表達(dá)式為:
[yc,i,j=yhc,i+ywc,j]" " " " " " " " (2)
最后輸出[z]表達(dá)式為:
[z=Scale(x,σ(f(y)))] (3)
式中:[Scale(?,?)]表示逐元素相乘;[σ]表示Sigmoid函數(shù);[f]表示[1×1]卷積。
本文所提出的條形池化簡單金字塔模塊如圖3所示。首先對主干網(wǎng)絡(luò)輸出的特征進(jìn)行3個全局平均池化操作和1個單獨(dú)條形池化操作,3個全局平均池化窗口分別為[1×1]、[2×2]和[4×4];然后將特征進(jìn)行卷積,并進(jìn)行條形池化操作和上采樣,將得到的3個特征進(jìn)行相加和[3×3]卷積操作;最后輸出特征。
1.3" 帶有坐標(biāo)注意力的統(tǒng)一注意力融合模塊
坐標(biāo)注意力通過坐標(biāo)信息嵌入和坐標(biāo)注意力生成兩個步驟對通道關(guān)系和遠(yuǎn)程依賴進(jìn)行精確的位置信息編碼。坐標(biāo)注意力模塊如圖4所示。
1) 坐標(biāo)信息嵌入。全局池化的作用是對全局空間信息進(jìn)行編碼,由于它是將全局空間信息壓縮到通道的維度,所以對于位置信息的保留較為困難,但是對于視覺任務(wù)中空間結(jié)構(gòu)的捕獲而言,保留位置信息至關(guān)重要。為了確保注意力模塊在空間上用精確的位置信息捕獲遠(yuǎn)程交互的信息,本文使用式(4)對全局池化進(jìn)行分解,將一維特征轉(zhuǎn)換成編碼操作。
[zc=1H·Wi=1Hj=1Wxc(i,j)] (4)
具體來說,給定輸入[x],使用窗口為[(H,1)]或[(1,W)]的池化分別沿著橫坐標(biāo)和豎坐標(biāo)對每個通道進(jìn)行編碼,其輸出可表示為:
[zhc(h)=1W0≤ilt;Wxc(h,i)zwc(w)=1H0≤jlt;Hxc(j,w)] (5)
2) 坐標(biāo)注意力生成。通過上述變換能夠獲得較好的全局感受野,并且能夠編碼準(zhǔn)確的位置信息。具體而言,首先使用卷積操作對編碼后的特征圖降維,減少計算成本;再通過一個卷積操作降維后得到一個特征圖的注意力圖。這個過程實(shí)際上就是對特征圖的每個位置進(jìn)行處理,其中的權(quán)重就是根據(jù)位置坐標(biāo)進(jìn)行計算得來的。其最后的輸出可表示為:
[yc(i,j)=xc(i,j)·ghc(i)·gwc(j)]" " (6)
本文所提出的帶有坐標(biāo)注意力的統(tǒng)一注意力融合模塊如圖5所示,圖中輸入特征為[Fhigh]和[Flow],[Fhigh]是深層模塊的特征,[Flow]是編碼器輸出的特征。首先利用雙線性插值操作將[Fhigh]上采樣到同樣大小,記為[Fup];然后,將[Fup]和[Flow]輸入至注意力模塊,產(chǎn)生權(quán)重[α];再將[Fup]和[Flow]分別輸入至坐標(biāo)注意力機(jī)制模塊,隨后將二者的輸出進(jìn)行逐元素相乘;最后,對兩個特征進(jìn)行逐元素相加,并輸出融合后的特征。[Fup]、[α]、[Fout]具體的表達(dá)式如下:
[Fup=Upsample(Fhigh)α=Attention(Fup,F(xiàn)low)Fout=CA(Fup)?α+CA(Flow)?(1-α)] (7)
2" 實(shí)驗數(shù)據(jù)集
2.1" 鄉(xiāng)村道路場景特點(diǎn)與對象分類
鄉(xiāng)村道路的語義分割是對鄉(xiāng)村道路圖像中的對象分類出對應(yīng)的標(biāo)簽,然后給出信息,進(jìn)而實(shí)現(xiàn)場景理解。目前在自動駕駛中,一般可以分為兩類道路:結(jié)構(gòu)化道路和非結(jié)構(gòu)化道路。結(jié)構(gòu)化道路路面標(biāo)記清晰,道路的邊界也更為清晰,一般包括城市道路和高速公路。非結(jié)構(gòu)化道路具有道路標(biāo)志線模糊或者沒有、邊界很難界定、背景較為復(fù)雜等特點(diǎn),一般是指非主干道和鄉(xiāng)村道路。鄉(xiāng)村道路呈現(xiàn)出以下非結(jié)構(gòu)化特點(diǎn):
1) 道路邊界界定困難、路面環(huán)境變化大、道路形狀多變;
2) 路面不夠平整,會有遮擋物以及很多障礙物;
3) 當(dāng)環(huán)境發(fā)生變化時,圖像中的道路可能會出現(xiàn)不同的特征。
這些不確定的條件給鄉(xiāng)村道路場景下的語義分割帶來很多挑戰(zhàn),如模型需要有一定的泛化能力,也要更加魯棒。
本文數(shù)據(jù)集根據(jù)具體的鄉(xiāng)村道路環(huán)境進(jìn)行劃分,如建筑物、柏油路、非硬化路、天空、障礙、汽車、塔、電線桿、植物(樹木、雜草、作物)、柵欄、水泥路、摩托車、農(nóng)機(jī)、廣告牌、人、卡車、交通標(biāo)識。除了上述這些類別之外,還設(shè)置了背景類別。因此,鄉(xiāng)村道路圖像中的類別共有19類。
2.2" 圖像采集與處理
圖像采集于新疆沙灣、阜康、南山、烏魯木齊縣地區(qū),選用設(shè)備為單目運(yùn)動視頻相機(jī)(GoPro HERO9),其像素為3 840×2 160,幀速為30 f/s。該相機(jī)具有支持4K視頻和2 000萬像素照片、超強(qiáng)防抖3.0視頻穩(wěn)定功能和攝像機(jī)內(nèi)置地平線修正功能及超長續(xù)航時間等優(yōu)點(diǎn),保證可采集到連續(xù)清晰的圖像。輔助采集設(shè)備為具有4K和30 f/s高清攝像頭的智能手機(jī)。采集大量不同天氣及道路環(huán)境下的鄉(xiāng)村道路圖像,保證個體種類具有多樣性,以確保能更好地反映鄉(xiāng)村道路場景的特點(diǎn)。為取得更寬的道路景象,本研究將圖像采集設(shè)備固定到汽車車內(nèi)后視鏡上,以30 km/h速度勻速駕駛,共采集90 min時長視頻,使用抽幀技術(shù)選取圖像,共計1 490張。將原始圖像尺寸縮放為1 280×720,以確保網(wǎng)絡(luò)的訓(xùn)練和減小特征提取時對硬件的壓力。圖6為獲取的鄉(xiāng)村道路圖像示例。
由于圖像的獲取場景有限,并且圖像數(shù)據(jù)種類也存在不平衡的現(xiàn)象,因此在后續(xù)的訓(xùn)練過程中使用隨機(jī)縮放、隨機(jī)裁剪、隨機(jī)水平翻轉(zhuǎn)以及顏色變換等數(shù)據(jù)增強(qiáng)方法,對圖像數(shù)據(jù)按照8∶1∶1比例進(jìn)行劃分。表1為各類別數(shù)量。
本文的鄉(xiāng)村道路場景語義分割模型屬于全監(jiān)督學(xué)習(xí),對圖像需要進(jìn)行大量人工標(biāo)注,標(biāo)注完成后獲取訓(xùn)練所要的圖像數(shù)據(jù)。由于采集完成后的圖像是沒有任何標(biāo)簽的,所以通過搭建CVAT平臺對采集后的圖像進(jìn)行標(biāo)注,標(biāo)注完成后導(dǎo)出為.json格式的文件。最后使用程序?qū)⑦@些文件進(jìn)行批量轉(zhuǎn)換,輸出.png格式的標(biāo)簽圖像。
3" 實(shí)驗結(jié)果與分析
3.1" 環(huán)境配置
本文所用實(shí)驗設(shè)備:計算機(jī)CPU為Intel Core i7?10870H,16 GB顯存,1 TB固態(tài)硬盤,NVIDA RTX3070Laptop顯卡,8 GB顯存;基于Windows 11操作系統(tǒng),采用Python語言在Paddle深度學(xué)習(xí)框架下進(jìn)行編程;統(tǒng)一計算設(shè)備架構(gòu)選擇CUDA11.6,深度神經(jīng)網(wǎng)絡(luò)加速庫版本為CUDNNv8.4。
3.2" 模型訓(xùn)練及參數(shù)設(shè)置
本文模型訓(xùn)練采用ImageNet的預(yù)訓(xùn)練權(quán)重,ImageNet數(shù)據(jù)集是一個包含135萬張圖像、1 000個類別的圖像分類數(shù)據(jù)集。在對模型進(jìn)行訓(xùn)練時,初始學(xué)習(xí)率為0.000 5,BatchSize設(shè)置為4,最大迭代次數(shù)為40 000,優(yōu)化器為隨機(jī)梯度下降(SGD),動量(Momentum)為0.9,權(quán)重衰減(Weight Decay)為0.000 05,學(xué)習(xí)率衰減策略為多項式衰減(Polynomial Decay)。損失函數(shù)采用OhemCrossEntropyLoss,其表達(dá)式如下:
[Loss=-1Ni=1Nlog pi," " " " " " " yi=1log(1-pi)," "yi=00," " " " " " " " " " "其他] (8)
3.3" 客觀評價指標(biāo)
為了準(zhǔn)確地評價模型對于鄉(xiāng)村道路的分割效果,采用準(zhǔn)確率和參數(shù)數(shù)量進(jìn)行性能評價。準(zhǔn)確率是模型的預(yù)測圖像與標(biāo)注圖像之間的誤差,假設(shè)類別總數(shù)為a,[bii]表示屬于第[i]類并且預(yù)測也為第[i]類,[bij]表示屬于第[i]類但是被預(yù)測為第[j]類。相關(guān)衡量標(biāo)準(zhǔn)定義如下。
1) 單類別像素準(zhǔn)確率[Pi]是第[i]類且被預(yù)測為第[i]類的像素數(shù)與第[i]類的像素總數(shù)之間的比值。
[Pi=biij=0abij×100%] " " (9)
2) 平均交并比(MIoU)是指每個類別的預(yù)測結(jié)果與真實(shí)標(biāo)簽類別之間的交集與并集的比值,然后將所有類別的比值求和,并取平均值。
[MIoU=1a+1i=0abiij=0abij+j=0abij-bii] (10)
3) Dice系數(shù)表示預(yù)測區(qū)域與真實(shí)標(biāo)簽區(qū)域的重疊程度。
[Dice=2?X?YX+Y]" " " " " (11)
式中:[X]和[Y]分別代表預(yù)測區(qū)域和真實(shí)標(biāo)簽區(qū)域。
4) Kappa系數(shù)表示模型預(yù)測的結(jié)果與實(shí)際標(biāo)簽值是否一致。
[Kappa=po-pe1-pe] (12)
式中:[po]表示每一類正確分類的樣本數(shù)量的和除以樣本總數(shù),就是總體分類精度;[pe]表示預(yù)測值與實(shí)際值的乘積再除以總體樣本的平方。
3.4" 實(shí)驗結(jié)果分析
選擇Unet、Enet、BiSeNet等模型與本文模型進(jìn)行對比,通過MIoU、Kappa、Dice、參數(shù)量這些指標(biāo)對模型性能做出評價。上述模型均采用鄉(xiāng)村道路數(shù)據(jù)集進(jìn)行訓(xùn)練,在測試集上計算相關(guān)指標(biāo)。表2是不同網(wǎng)絡(luò)模型分割性能參數(shù)比較。
由表2可以看出,在模型的準(zhǔn)確率方面,本文模型的MIoU和Dice分別為54.23%和67.56%,比Unet分別高14.91%和5.25%,比Enet分別高20.41%和19.7%,比BiSeNetv1分別高3.72%和1.87%,比BiSeNetv2分別高13.55%和16.31%,比原始模型分別高2.85%和3.01%。主要原因是本文模型分別引入了條形池化簡單金字塔模塊和帶有坐標(biāo)注意力的統(tǒng)一注意力融合模塊,能夠加強(qiáng)模型對各階段特征的提取,聚合不同尺度的池化特征;同時加強(qiáng)條形區(qū)域特征的提取以及上下文信息之間的交互,提高了模型的分割精度。在參數(shù)量方面,本文模型的參數(shù)量是8.30×106,相較于原始模型有3.1%的增加。通過對各個模型性能指標(biāo)的分析可以得出,本文模型在分割任務(wù)中表現(xiàn)出較高的精度,并具備良好的分割性能。圖7是不同網(wǎng)絡(luò)模型語義分割結(jié)果對比。從圖7可觀察到,本文提出的模型能夠有效地對鄉(xiāng)村道路場景中的語義分割目標(biāo)進(jìn)行準(zhǔn)確分割。相比之下,由于Unet模型多次下采樣導(dǎo)致許多細(xì)節(jié)信息丟失,因此其在小物體分割方面表現(xiàn)不佳,也出現(xiàn)了誤分割的現(xiàn)象,如圖7第1行的非硬化路面就出現(xiàn)了錯誤分割和第4行的人沒有被分割識別;此外,第2行圖像中的廣告牌也出現(xiàn)了分割混亂的現(xiàn)象。
Enet模型存在分割結(jié)果模糊、邊界連續(xù)性差和錯誤分割的問題,如圖7第3行圖像中柏油路和非硬化路面的交界處不僅不連續(xù)而且分割模糊,并且廣告牌區(qū)域也識別錯誤。出現(xiàn)上述情況的原因是Enet模型并未考慮到圖像的整體信息,對圖像信息的捕獲能力較差。BiSeNetv1、BiSeNetv2模型由于感受野受限,對于圖像的上下文信息考慮不夠充分,導(dǎo)致對于小物體分割較為困難并且整體的分割效果也較為粗糙,如圖7的第2行遠(yuǎn)處的卡車被錯誤分割為背景。
原始模型同樣存在對小物體和邊界的細(xì)節(jié)分割困難的問題,如圖7第3行圖像中的廣告牌分割有明顯錯誤,并且電線桿也不是連續(xù)的;第4行圖像中的摩托車分割混亂;第5行圖像中的電線桿、交通標(biāo)志和騎摩托車的人分割都很困難。
3.5" 消融實(shí)驗
為了評估本文提出的語義分割模型的有效性,進(jìn)行了消融實(shí)驗以分析各個模塊對模型性能的影響。在原始模型的基礎(chǔ)上,逐步引入了帶有坐標(biāo)注意力的統(tǒng)一注意力融合模塊和條形池化簡單金字塔模塊。通過評估單類別像素準(zhǔn)確率、MIoU、Kappa、Dice等指標(biāo),并考慮模型的參數(shù)量,對模型進(jìn)行性能分析。表3和表4是模型在測試集上的運(yùn)行結(jié)果。
由表3可知:建筑物、柏油路、塔、植物、農(nóng)機(jī)等對象具有較為清晰的形狀、顏色、輪廓特征,識別的準(zhǔn)確率較高;車輛、柵欄、水泥路等,這類物體都會受到距離的遠(yuǎn)近、分布情況的影響,因此相比于前幾類準(zhǔn)確率偏低;由于摩托車和電線桿在圖像中的覆蓋面積較小,加上圖像分辨率較低,且在進(jìn)行多次下采樣操作后,特征圖的分辨率進(jìn)一步降低,從而導(dǎo)致許多細(xì)節(jié)信息丟失。再者,上采樣恢復(fù)過程相對困難,因此在分割時可能出現(xiàn)不完整或誤分割的情況,特別是對于這些類別,其準(zhǔn)確率往往較低。由表4可知,在只添加CA注意力模塊后,能使模型的MIoU、Kappa、Dice提升到51.84%、88.39%、64.59%,表明CA注意力模塊能夠在一定程度上捕獲更多的空間位置信息,并提高模型的預(yù)測性能;在簡單金字塔池化模塊加入SP模塊后,模型的MIoU、Kappa、Dice提升到53.10%、88.60%、66.39%,表明當(dāng)不同區(qū)域的信息集合在一起,再進(jìn)行條形區(qū)域特征的提取是有效的,對于模型效果的提升是顯著的;當(dāng)兩個模塊同時加入模型中時,模型的MIoU、Kappa、Dice提升到54.23%、88.89%、67.56%,表明這兩個模塊能夠使模型獲取到更為豐富的特征,對最后的預(yù)測也能更加的精細(xì)。隨著各個功能模塊的加入,模型的參數(shù)量也在逐漸提高。其中,基礎(chǔ)模型的參數(shù)量最低,而最終加入兩種模塊的參數(shù)量僅增加了3.1%。不同功能單元語義分割對比圖如圖8所示。從圖8可以看出本文改進(jìn)模型有更好的分割效果。其中:基礎(chǔ)模型在小物體分割上效果并不好,如圖8第2行中的交通標(biāo)志和第4行遠(yuǎn)處的人都沒有被分割出來,通過添加SP模塊,這類情況能得到一定程度的緩解;此外,圖8第1行中的卡車和第4行中柏油路都存在錯誤分割的情況,通過添加CA模塊能正確分割圖中的場景;通過添加兩種不同的模塊,圖8第3行中的建筑物和第4行中的行人都得到了正確的分割,整體的邊界也更加連續(xù),充分考慮到了圖像的整體信息。
4" 結(jié)" 論
1) 本文改進(jìn)PP?LiteSeg語義分割模型,其由條形池化簡單金字塔模塊和帶有坐標(biāo)注意力的統(tǒng)一注意力融合模塊構(gòu)成,加強(qiáng)了對圖像特征的提取,能夠?qū)崿F(xiàn)較好的分割結(jié)果。
2) 構(gòu)建了一個鄉(xiāng)村道路數(shù)據(jù)集,根據(jù)環(huán)境中的對象將其劃分為19種類別。通過構(gòu)建鄉(xiāng)村道路數(shù)據(jù)集并對不同環(huán)境下的圖像進(jìn)行測試,實(shí)驗結(jié)果顯示,模型的MIoU達(dá)到了54.23%,Kappa達(dá)到了88.89%,Dice達(dá)到了67.56%。此外,在建筑物、柏油路、障礙、植物等類別中,單類別準(zhǔn)確率均達(dá)到了80%以上,表現(xiàn)出較高的準(zhǔn)確性和良好的泛化能力。
3) 采用MIoU、Kappa、Dice和參數(shù)量作為性能指標(biāo),選擇Unet、Enet、BiSeNetv1、BiSeNetv2和原始模型與本文模型進(jìn)行對比測試。結(jié)果表明,本文模型的MIoU為54.23%,分別比Unet、Enet、BiSeNetv1、BiSeNetv2和原始模型高出14.91%、20.41%、3.72%、13.55%、2.85%;本文模型參數(shù)量為8.30×106,相較于原始模型僅增加了3.1%。
實(shí)驗結(jié)果證明,本文模型有較好的分割性能,可以實(shí)現(xiàn)較好的分割效果。
注:本文通訊作者為張?zhí)t。
參考文獻(xiàn)
[1] 劉成良,林洪振,李彥明,等.農(nóng)業(yè)裝備智能控制技術(shù)研究現(xiàn)狀與發(fā)展趨勢分析[J].農(nóng)業(yè)機(jī)械學(xué)報,2020,51(1):1?18.
[2] CHATTHA H S, ZAMAN Q U, CHANG Y K, et al. Variable rate spreader for real?time spot?application of granular fertilizer in wild blueberry [J]. Computers and electronics in agriculture, 2014, 100: 70?78.
[3] 楊武,胡敏,常鑫,等.改進(jìn)的DeepLabV3+指針式儀表圖像分割算法[J].國外電子測量技術(shù),2024,43(1):10?19.
[4] 徐曉龍,俞曉春,何曉佳,等.基于改進(jìn)U?Net的街景圖像語義分割方法[J].電子測量技術(shù),2023,46(9):117?123.
[5] 孟慶寬,張漫,楊曉霞,等.基于輕量卷積結(jié)合特征信息融合的玉米幼苗與雜草識別[J].農(nóng)業(yè)機(jī)械學(xué)報,2020,51(12):238?245.
[6] 徐國晟,張偉偉,吳訓(xùn)成,等.基于卷積神經(jīng)網(wǎng)絡(luò)的車道線語義分割算法[J].電子測量與儀器學(xué)報,2018,32(7):89?94.
[7] 曹文卓,王太固,徐兵,等.基于語義分割的船閘水位檢測方法研究[J].儀器儀表學(xué)報,2023,44(2):238?247.
[8] DONG G, YAN Y, SHEN C, et al. Real?time high?performance semantic image segmentation of urban street scenes [J]. IEEE transactions on intelligent transportation systems, 2024(99): 1?17.
[9] PAZ D, ZHANG H, LI Q, et al. Probabilistic semantic mapping for urban autonomous driving applications [C]// 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Las Vegas, NV, USA: IEEE, 2020: 2059?2064.
[10] COOMBES M, EATON W, CHEN W H. Colour based semantic image segmentation and classification for unmanned ground operations [C]// International Conference on Unmanned Aircraft Systems (ICUAS). Arlington, VA USA: IEEE, 2016: 858?867.
[11] SCHARWACHTER T, FRANKE U. Low?level fusion of color, texture and depth for robust road scene understanding [C]// 2015 IEEE Intelligent Vehicles Symposium (IV). Seoul, South Korea: IEEE, 2015: 599?604.
[12] DUONG L T, NGUYEN P T, SIPIO C D, et al. Automated fruit recognition using EfficientNet and MixNet [J].Computers and electronics in agriculture, 2020, 171: 105326.
[13] CONNOR J T, MARTIN R D, ATLAS L E. Recurrent neural networks and robust time series prediction [J]. Neural networks, 1994, 5(2): 240?254.
[14] JIANG H, ZHANG C, QIAO Y, et al. CNN feature based graph convolutional network for weed and crop recognition in smart farming [J]. Computers and electronics in agriculture, 2020, 174: 105450.
[15] ADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder?decoder architecture for image segmentation [J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(12): 2481?2495.
[16] 金汝寧,趙波,李洪平.一種輕量化非結(jié)構(gòu)化道路語義分割神經(jīng)網(wǎng)絡(luò)[J].四川大學(xué)學(xué)報(自然科學(xué)版),2023,60(1):66?73.
[17] 龔志力,谷玉海,朱騰騰,等.融合注意力機(jī)制與輕量化DeepLabv3+的非結(jié)構(gòu)化道路識別[J].微電子學(xué)與計算機(jī),2022,39(2):26?33.
[18] 王俊,蔣自強(qiáng),別雄波.融合多尺度信息的道路場景實(shí)時語義分割[J].激光雜志,2023,44(6):137?142.