• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      自監(jiān)督學(xué)習(xí)HOG預(yù)測輔助任務(wù)下的車位檢測方法

      2024-01-09 02:47:32劉磊伍鵬謝凱程貝芝盛冠群
      計算機(jī)應(yīng)用 2023年12期
      關(guān)鍵詞:車位停車場注意力

      劉磊,伍鵬*,謝凱,程貝芝,盛冠群

      自監(jiān)督學(xué)習(xí)HOG預(yù)測輔助任務(wù)下的車位檢測方法

      劉磊1,伍鵬1*,謝凱1,2,程貝芝1,盛冠群3

      (1.長江大學(xué) 電子信息學(xué)院,湖北 荊州 434023; 2.長江大學(xué) 西部研究院,新疆 克拉瑪依 834000; 3.三峽大學(xué) 計算機(jī)與信息學(xué)院,湖北 宜昌 443002)(?通信作者電子郵箱wupeng78@126.com)

      針對智能車位管理系統(tǒng)中,光照變化、車位遮擋等因素導(dǎo)致車位預(yù)測的精度下降、有效性變差的問題,提出一種自監(jiān)督學(xué)習(xí)方向梯度直方圖(HOG)預(yù)測輔助任務(wù)下的車位檢測方法。首先,設(shè)計預(yù)測圖像遮擋部分HOG特征的自監(jiān)督學(xué)習(xí)輔助任務(wù),利用MobileViTBlock(light-weight, general-purpose, and Mobile-friendly Vision Transformer Block)綜合圖像全局信息,使模型更充分地學(xué)習(xí)圖像的視覺表征,并提高模型的特征提取能力;其次,改進(jìn)SE(Squeeze-and-Excitation)注意力機(jī)制,使模型在更低的計算開銷上達(dá)到甚至高于原始SE注意力機(jī)制的效果;最后,將輔助任務(wù)訓(xùn)練的特征提取部分應(yīng)用于下游的分類任務(wù)進(jìn)行車位狀態(tài)預(yù)測,在PKLot和CNRPark的混合數(shù)據(jù)集上進(jìn)行實驗。實驗結(jié)果表明,所提模型在測試集上的準(zhǔn)確率達(dá)到了97.49%,相較于RepVGG,遮擋預(yù)測準(zhǔn)確率提高了5.46個百分點,與其他的車位檢測算法相比進(jìn)步較大。

      智能停車系統(tǒng);自監(jiān)督學(xué)習(xí);方向梯度直方圖;輔助任務(wù);車位狀態(tài)預(yù)測

      0 引言

      現(xiàn)有停車場管理方法相對落后,且對車位資源的實時監(jiān)控能力不足,迫切需要構(gòu)建智能化的停車管理系統(tǒng),實現(xiàn)停車快速有序,緩解交通擁堵。系統(tǒng)構(gòu)建的關(guān)鍵是準(zhǔn)確實時的車位檢測,不僅能提高停車場資源的利用率,還能舒緩交通壓力,解決停車難等問題,具有重要的現(xiàn)實意義。

      現(xiàn)有的智能化停車場多數(shù)采用外部傳感器檢測停車位狀態(tài)。外部傳感器雖然可以高效、準(zhǔn)確地獲取停車位狀態(tài),但是一個地磁傳感器只能檢測一個車位,且設(shè)備安裝維護(hù)難,成本高;基于計算機(jī)視覺的停車位狀態(tài)檢測方法較好地克服了以上缺點,該方法主要檢測停車位中有無車輛,檢測精度高且成本較低,更重要地,僅需較少的攝像頭就可以覆蓋整個停車場。De Almeida等[1]提出使用多個車位的紋理特征訓(xùn)練支持向量機(jī)(Support Vector Machine, SVM)分類器,使用SVM分類器檢測車位的狀態(tài),但異常天氣情況通常對檢測結(jié)果影響較大;黃偉杰等[2]通過圖像處理的手段自動劃分車位,并用SVM分類,但對較低空或遮擋車位的檢測存在較大困難;Jermsurawong等[3]提出從車位提取視覺信息后,經(jīng)過特定的神經(jīng)網(wǎng)絡(luò)檢測車位狀態(tài)。以上這些方法都只針對特定場景或加入人工設(shè)計特征的情況。安旭驍?shù)龋?]設(shè)計了一個僅有5層的迷你卷積神經(jīng)網(wǎng)絡(luò)(Mini Convolutional Neural Network, MCNN),極大減少了參數(shù)量和計算量,但由于網(wǎng)絡(luò)層數(shù)過少,對車位特征提取不夠充分,無法應(yīng)對更多的極端情況;Amato等[5]基于AlexNet[6]設(shè)計mAlexNet(mini Alex Network)并提出了新的車位檢測的數(shù)據(jù)集CNRPark,mAlexNet雖然基本實現(xiàn)了實時高精度的檢測,但對弱光照、遮擋等情況(如圖1)存在檢測精度低、魯棒性弱的問題。申鉉京等[7]利用Ding等[8]提出的結(jié)構(gòu)重參數(shù)化方法解耦了車位檢測模型訓(xùn)練和推理的過程,設(shè)計了相較于mAlexNet更優(yōu)良的車位檢測模型,但它對遮擋等復(fù)雜情況下車位的檢測仍不足。結(jié)構(gòu)重參數(shù)化方法對于類似VGG(Visual Geometry Group)[9]的平鋪式網(wǎng)絡(luò)模型的精度有較大提升,它的代表網(wǎng)絡(luò)為RepVGG。

      圖1 兩種條件下的車位示意圖

      雖然現(xiàn)有的基于視覺的車位檢測方法基本可以實現(xiàn)較高精度的檢測,但是在弱光照、遮擋等條件下的檢測依舊存在困難。針對此問題,本文模型通過使用Transformer[10]對特征圖重新進(jìn)行線性組合綜合全局信息,使用改進(jìn)的注意力機(jī)制過濾無關(guān)或者干擾信息,并設(shè)計自監(jiān)督學(xué)習(xí)的輔助任務(wù)增強(qiáng)模型在遮擋、弱光等情況下的魯棒性,通過輕量化的設(shè)計使模型更好地平衡速度和精度。

      將本文模型與MCNN、RepVGG、mAlexNet和其他傳統(tǒng)網(wǎng)絡(luò)模型在車位檢測性能方面進(jìn)行了詳細(xì)對比。實驗結(jié)果表明:本文模型在PKLot和CNRPark的1∶1混合測試集上的檢測精度達(dá)到了97.49%,較現(xiàn)有的車位檢測模型有較大提升;且在真實場景下的測試結(jié)果表明,本文模型仍具有較高的精度和泛化性能。本文模型在精度、泛化性能和魯棒性等方面均取得了進(jìn)步。

      本文的主要工作為:

      1)提出一個自監(jiān)督學(xué)習(xí)方向梯度直方圖(Histogram of Oriented Gradient, HOG)[11]預(yù)測輔助任務(wù)下的車位檢測方法。使用自監(jiān)督學(xué)習(xí)的方法設(shè)計輔助任務(wù)使網(wǎng)絡(luò)充分地學(xué)習(xí)車位的視覺信息,提升模型的泛化性能。

      2)設(shè)計了CSE(Convolutional Squeeze-and-Excitation)注意力機(jī)制模塊。使用多次的一維卷積代替SE(Squeeze-and-Excitation)注意力機(jī)制[12]中的全連接層,并采用了計算量更少的激活函數(shù),在保證原有性能的情況下極大地減少了計算量,使模型更輕、更快。

      3)自制用于檢驗?zāi)P凸庹蒸敯粜缘腖ight-Change數(shù)據(jù)集,為進(jìn)行不同光照強(qiáng)度以及陰影干擾等復(fù)雜情況下的車位檢測模型魯棒性測試提供了測試基礎(chǔ)。

      1 相關(guān)工作

      1.1 HOG特征

      HOG特征是一種常用的圖像特征描述方法,由Dalal等[11]提出,并廣泛應(yīng)用于目標(biāo)檢測、行人識別和車輛檢測等領(lǐng)域。HOG特征通過計算圖像中不同方向梯度的直方圖描述圖像的局部紋理特征。具體地,HOG特征首先將圖像劃分為多個小單元;其次在每個單元內(nèi)計算梯度的幅值和方向,并將這些信息組成一個方向直方圖;最后通過對相鄰單元的直方圖進(jìn)行歸一化和連接,得到整個圖像的HOG特征描述。HOG特征善于捕捉圖像局部的形狀和外觀,同時它不僅對幾何變化不敏感,還對光照的變化具有不變性,計算引入的開銷也可以忽略不計。針對車位檢測精度受光照變化影響較大的問題,本文使用HOG特征設(shè)計輔助任務(wù),降低光照變化對車位檢測效果的負(fù)面影響,增強(qiáng)模型對光照變化的魯棒性。

      1.2 注意力機(jī)制

      注意力機(jī)制類比了人類對于外界事物的觀察和感知。人類在感知外界事物時,通常更關(guān)注被觀察事物的重要的局部特征信息,再結(jié)合事物不同部分的特征信息,實現(xiàn)對事物整體的認(rèn)知。注意力機(jī)制是提升模型性能的重要手段之一。通過引入注意力機(jī)制,模型能夠在大量的特征信息中更關(guān)注對當(dāng)前任務(wù)更重要的信息,并降低對次要信息的關(guān)注度,過濾無關(guān)信息,以提高模型效率和精度。目前,注意力機(jī)制已經(jīng)廣泛應(yīng)用于深度學(xué)習(xí)的各個領(lǐng)域,如自然語言處理、圖像處理和語音識別等任務(wù)。它可以幫助模型更好地處理復(fù)雜的輸入數(shù)據(jù),提高模型的性能,增強(qiáng)模型的魯棒性。Hu等[12]提出了用于增強(qiáng)神經(jīng)網(wǎng)絡(luò)對輸入數(shù)據(jù)中重要特征通道關(guān)注度的SE注意力機(jī)制。SE注意力機(jī)制分為Squeeze和Excitation兩個階段:在Squeeze階段,SE注意力機(jī)制通過全局平均池化操作壓縮每個特征圖的通道維度,得到一個全局描述符;在Excitation階段,SE注意力機(jī)制利用一個多層感知機(jī)(Multi-Layer Perceptron, MLP)學(xué)習(xí)每個通道的權(quán)重,生成一個通道注意力向量。將通道注意力向量與原始特征圖相乘得到加權(quán)后的特征圖,以增強(qiáng)模型對重要特征通道的關(guān)注度。SE注意力機(jī)制可被用于各種深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(如VGG、ResNet[13]等),以提高模型的性能。本文改進(jìn)了SE注意力機(jī)制并將改進(jìn)后的SE注意力機(jī)制應(yīng)用于車位檢測模型,以提升本文模型的車位檢測效果。

      1.3 自監(jiān)督學(xué)習(xí)

      大多數(shù)深度學(xué)習(xí)任務(wù)通常需要首先使用主干網(wǎng)絡(luò)(如VGG、ResNet、MobileNet[14-16]和InceptionNet[17]等)提取輸入圖像特征,其次將提取的特征信息用于下游的分類、檢測或者分割等任務(wù)。帶標(biāo)簽的大數(shù)據(jù)集(如ImageNet(https://image-net.org))對主干網(wǎng)絡(luò)的特征提取能力至關(guān)重要,但這在很多領(lǐng)域較難實現(xiàn):一方面,標(biāo)簽難獲??;另一方面,提取的特征依賴于標(biāo)簽(即特定任務(wù)),而不是數(shù)據(jù)本身的特征。因此,通過監(jiān)督學(xué)習(xí)訓(xùn)練的模型通常泛化能力較弱。

      自監(jiān)督學(xué)習(xí)是一種無需人工標(biāo)注數(shù)據(jù)就能夠自我學(xué)習(xí)的機(jī)器學(xué)習(xí)方法。自監(jiān)督學(xué)習(xí)方法避免了有監(jiān)督學(xué)習(xí)中對數(shù)據(jù)標(biāo)注和數(shù)據(jù)量需求大的問題。相較于有監(jiān)督學(xué)習(xí),自監(jiān)督學(xué)習(xí)可以利用原始數(shù)據(jù)進(jìn)行訓(xùn)練,無需手動標(biāo)注每個樣本,降低了人工成本,擴(kuò)展了數(shù)據(jù)集規(guī)模,提高了模型泛化能力;因此,自監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)領(lǐng)域備受關(guān)注。在相關(guān)領(lǐng)域的研究中,已經(jīng)提出了各種各樣的自監(jiān)督學(xué)習(xí)方法,并取得了不錯的效果。例如:基于圖像的自監(jiān)督學(xué)習(xí)方法可以通過旋轉(zhuǎn)、裁剪和顏色變換等方式生成大量的訓(xùn)練數(shù)據(jù),提高模型的泛化能力;基于對比損失的自監(jiān)督學(xué)習(xí)方法,如MoCo(Momentum Contrast for unsupervised visual representation learning)算法[18]和SimCLR(Simple framework for Contrastive Learning of visual Representations)算法[19],通過最大化同一個樣本的不同視角之間的相似性訓(xùn)練模型;BERT(Bidirectional Encoder Representations from Transformers)模型[20]是一種基于文本的自監(jiān)督學(xué)習(xí)方法,通過遮擋部分文本并讓模型預(yù)測被遮擋的內(nèi)容訓(xùn)練模型。

      MAE(Masked AutoEncoders)算法[21]隨機(jī)遮擋圖片中的部分圖像塊,讓模型重建這些丟失的區(qū)域,以此提升模型對圖像視覺特征的理解能力。Wei等[22]提出了MaskFeat(Masked Feature prediction)算法,通過設(shè)計預(yù)測圖像遮擋部分HOG特征的自監(jiān)督學(xué)習(xí)輔助任務(wù),極大地緩解了MAE算法在高頻部分特征丟失的問題,同時減少了運算開銷。針對監(jiān)督學(xué)習(xí)的缺陷,受MAE算法和MaskFeat算法的啟發(fā),本文通過設(shè)計圖像遮擋部分HOG特征預(yù)測的自監(jiān)督學(xué)習(xí)方法提升模型的泛化性能。

      2 本文模型

      為了提高對不同環(huán)境下停車場車位檢測的精度和算法的泛化性能,本章設(shè)計一種自監(jiān)督學(xué)習(xí)HOG特征預(yù)測輔助任務(wù)下的車位檢測方法。

      2.1 輔助任務(wù)設(shè)計

      本節(jié)設(shè)計預(yù)測圖像遮擋部分HOG特征的輔助任務(wù)。首先將圖像劃分成一系列不重合的圖像塊;其次隨機(jī)地遮擋圖片中若干個相鄰的圖像塊(如圖2所示);再次在給定剩余圖像塊的情況下預(yù)測被遮擋部分的HOG特征,以幫助模型更好地理解圖像中的物體和空間紋理信息,從而提升模型的車位檢測效果。例如,為了正確預(yù)測圖2中被遮擋部分的車位的HOG特征,必須首先根據(jù)未遮擋的部分識別對象,并知道該類對象通常的出現(xiàn)形式,以修復(fù)被遮擋部分。

      圖2 車位樣本示意圖

      在對圖像可見部分進(jìn)行特征提取時,本文考慮兩個問題:1)雖然卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)已有的輕量化模型計算成本低且易于訓(xùn)練,但卷積操作在空間上只能提取局部特征;2)ViT(Vision Transformer)系列模型[23]通過學(xué)習(xí)像素的線性組合將空間信息轉(zhuǎn)化為潛在信息后,使用Transformer對全局信息進(jìn)行編碼學(xué)習(xí),從而學(xué)習(xí)圖像的全局信息,但是它忽略了CNN模型的空間歸納偏置,導(dǎo)致需要更多的參數(shù)學(xué)習(xí)視覺表征,且這類模型的可優(yōu)化性較差?;谏鲜鰞蓚€問題,本文采用MobileViTBlock(light-weight, general-purpose, and Mobile-friendly Vision Transformer Block)結(jié)構(gòu)[24]將卷積學(xué)習(xí)局部特征的方法用Transformer的全局特征表示方法代替,使模型學(xué)習(xí)的信息既包括局部信息又包括全局信息。本文網(wǎng)絡(luò)的特征提取部分主要由如圖3所示的3個Block組成。

      圖3 特征提取部分的Block結(jié)構(gòu)示意圖

      為使模型更關(guān)注圖像的可見部分,本文在特征提取的過程中加入CSE注意力機(jī)制(如圖4所示),將SE的Sequeeze階段的全連接層使用次一維卷積代替;Excitation階段的全連接層使用上采樣(Upsampling)代替。同時,對于ReLU(Rectified Linear Unit)和Sigmoid激活函數(shù),本文使用文獻(xiàn)[16]中改進(jìn)的hard-swish和hard-Sigmoid激活函數(shù)代替。這不僅能減少注意力層所需的參數(shù)量,降低過擬合的風(fēng)險,還能在減少運算開銷的情況下提升模型的性能。

      圖4 CSE注意力機(jī)制的結(jié)構(gòu)

      注意力機(jī)制熱圖是在應(yīng)用注意力機(jī)制時生成的一種可視化熱圖,用于展示模型在輸入圖像上的注意力分布情況。利用注意力熱圖可以直觀地呈現(xiàn)模型對輸入的關(guān)注程度,從而更好地對比CSE與SE的效果。圖5為CSE與SE的效果對比,可見,CSE與SE的整體效果差距不大,甚至略勝于SE,且在參數(shù)量上遠(yuǎn)小于SE。因此,在圖3的3種不同的Block中,本文都加入了CSE注意力機(jī)制。

      圖5 CSE與SE的效果對比

      首先,使用了一個3×3的普通卷積對整個輸入圖像進(jìn)行通道擴(kuò)張和下采樣(Downsampling)。其次,通過連續(xù)的4個卷積塊進(jìn)行特征提取。由于在淺層網(wǎng)絡(luò)中使用深度卷積會降低速度[25],因此本文前3個卷積塊使用了以標(biāo)準(zhǔn)卷積為基礎(chǔ)帶有殘差連接的Block Ⅰ。在深層網(wǎng)絡(luò)中,通道間的特征通常更重要,深度可分離卷積通過分步的卷積操作能夠更好地提取通道之間的關(guān)系從而提高模型的表現(xiàn)能力,同時也可以減少參數(shù)量、降低計算復(fù)雜度,并有效地避免了過擬合問題[14]。因此,本文第4個卷積塊使用以深度可分離卷積為基礎(chǔ)的Block Ⅱ,以更好地搭配CSE通道注意力機(jī)制。再次,本文引入了MobileViTBlock結(jié)構(gòu)[24]綜合圖像的局部信息和全局信息,使模型能夠更好地預(yù)測圖像遮擋部分的HOG特征。繼次,使用3×3的普通卷積將MobileViTBlock輸出的特征圖下采樣為與原圖像提取的HOG特征圖同尺寸的特征圖。最后,通過Linear層映射得到預(yù)測的HOG特征圖。

      輔助任務(wù)訓(xùn)練過程中的損失僅對被遮擋的圖像塊進(jìn)行計算。本文采用圖像遮擋部分的余弦相似度作為評判輔助任務(wù)的HOG特征預(yù)測效果的指標(biāo):

      輔助任務(wù)的整體流程如圖6所示,其中MVIT Block為MobileViTBlock的縮寫。

      2.2 車位狀態(tài)分類

      經(jīng)過輔助任務(wù)訓(xùn)練的模型可以充分學(xué)習(xí)圖像的視覺信息,在完成圖像分類任務(wù)時,通常比傳統(tǒng)的CNN具有更強(qiáng)的泛化性能。停車位的狀態(tài)通常分為空閑和占用兩種,因此可以將1.2節(jié)的車位狀態(tài)分類看作一個簡單的二分類問題。

      推理過程的網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示,本文在自監(jiān)督學(xué)習(xí)的下游任務(wù)時,首先舍棄了輔助任務(wù)中最后用于通道調(diào)整的1×1卷積;其次對MobileViTBlock的輸出特征繼續(xù)使用2個BlockⅢ歸納提取特征并將特征圖下采樣為原來的1/4,得到7×7的特征圖。其中,第2個BlockⅢ使用5×5的卷積核,這是因為大卷積核對全局信息的提取能力通常優(yōu)于堆疊小卷積核達(dá)到相同感受野的組合塊,且僅在網(wǎng)絡(luò)尾部使用5×5的卷積核替換3×3的卷積核就可以達(dá)到替換網(wǎng)絡(luò)所有層的效果[26],所以本文僅在網(wǎng)絡(luò)的尾部做了這一替換操作。再次,使用1×1卷積、GAP(Global Average Pooling)和1×1卷積進(jìn)行通道壓縮、全局平均池化和通道再壓縮。最后,通過Linear層輸出分類結(jié)果,實現(xiàn)對車位狀態(tài)的分類。

      在實驗過程中,本文使用了ImageNet100數(shù)據(jù)集(https://www.kaggle.com/datasets/ambityga/imagenet100)預(yù)訓(xùn)練輔助任務(wù),并將預(yù)訓(xùn)練得到的參數(shù)應(yīng)用于新的分類網(wǎng)絡(luò)。隨后,在現(xiàn)有的車位檢測數(shù)據(jù)集上進(jìn)行了微調(diào)。

      圖6 輔助任務(wù)的整體流程

      圖7 推理過程的網(wǎng)絡(luò)結(jié)構(gòu)

      使用本文網(wǎng)絡(luò)的最后的輸出特征圖(即BlockⅢ的輸出特征圖)對遮擋車位進(jìn)行注意力可視化(如圖8)??梢?,本文模型在處理遮擋問題時,能夠更準(zhǔn)確地關(guān)注和提取關(guān)鍵特征。未被遮擋的部分在注意力熱圖中明顯被高亮,這證明了模型在處理遮擋車位時,不會被遮擋物所干擾,而是能夠聚焦于有效的信息區(qū)域,這進(jìn)一步證明了本文模型對于遮擋情況具有極強(qiáng)的魯棒性。

      圖8 注意力可視化結(jié)果

      3 實驗與結(jié)果分析

      為驗證本文方法的有效性,本章將從數(shù)據(jù)集使用和對比分析兩個方面對實驗結(jié)果進(jìn)行分析驗證。本文實驗所使用的計算機(jī)軟硬件配置如表1所示。

      表1 計算機(jī)軟硬件配置

      實驗中,將所有車位圖像的大小統(tǒng)一轉(zhuǎn)化為224×224。訓(xùn)練時,BatchSize設(shè)置為16,迭代10輪,使用隨機(jī)梯度下降算法,初始學(xué)習(xí)率設(shè)置為0.01,學(xué)習(xí)率衰減采用余弦退火策略,權(quán)重衰減設(shè)置為5×10-5,動量設(shè)置為0.9。通過隨機(jī)水平翻轉(zhuǎn)、隨機(jī)改變圖像的亮度、對比度、飽和度和色調(diào)等手段進(jìn)行圖像增強(qiáng)。

      3.1 數(shù)據(jù)集擴(kuò)充

      現(xiàn)有的車位檢測數(shù)據(jù)集PKLot[1]和CNRPark[5]將不同天氣場景主要分為SUNNY、RAINY和CLOUDY(OVERCAST)這3種情況。其中:PKLot是主要針對無遮擋條件下的停車場的車位檢測數(shù)據(jù)集;CNRPark是針對遮擋條件下的車位檢測數(shù)據(jù)集。針對目前已有的車位檢測數(shù)據(jù)集中復(fù)雜光照情況的數(shù)據(jù)樣本較少、現(xiàn)有模型在復(fù)雜光照條件下的車位檢測精度較低的問題,本文以復(fù)雜光照條件為原則,自制了一個用于本文實驗的包含復(fù)雜光照情況的車位檢測數(shù)據(jù)集——Light-Change數(shù)據(jù)集(以下簡稱為LC數(shù)據(jù)集)。該數(shù)據(jù)集綜合了不同時間段中的各種光照強(qiáng)度的車位樣本,用于檢驗?zāi)P驮诠庹沼绊憚×业那闆r下的魯棒性。圖9為LC數(shù)據(jù)集中的部分樣圖。

      圖9 Light-Change數(shù)據(jù)集示例

      3.2 消融實驗

      針對本文設(shè)計的自監(jiān)督學(xué)習(xí)的輔助任務(wù)的有效性進(jìn)行了消融實驗。

      在進(jìn)行消融實驗時,本文選取的模型性能參數(shù)包括準(zhǔn)確率、精確度、召回率、F1分?jǐn)?shù)、浮點計算量、推理時間和參數(shù)量。F1分?jǐn)?shù)能夠找到精確度和召回率之間的平衡,是一個用于分析模型性能的綜合的評價指標(biāo),可以更充分地檢驗?zāi)P偷膬?yōu)劣性。

      由于PKLot數(shù)據(jù)集中存在兩個不同停車場的車位信息,本文采用交叉驗證的方法檢驗?zāi)P偷姆夯阅?。在PUCPR和UFPR兩個停車場中各自隨機(jī)選取了50 000張車位圖片,并分別按照8∶2劃分訓(xùn)練集和驗證集進(jìn)行訓(xùn)練。測試時,本文使用了兩種測試方法(C1和C2):C1使用PUCPR停車場的數(shù)據(jù)進(jìn)行訓(xùn)練,UFPR停車場的數(shù)據(jù)進(jìn)行測試;C2使用UFPR停車場的數(shù)據(jù)進(jìn)行訓(xùn)練,PUCPR停車場的數(shù)據(jù)進(jìn)行測試。

      本文對比了模型1(未使用自監(jiān)督學(xué)習(xí)輔助任務(wù)的預(yù)訓(xùn)練權(quán)重)和模型2(使用自監(jiān)督學(xué)習(xí)輔助任務(wù)的預(yù)訓(xùn)練權(quán)重)在C1和C2兩種條件下的準(zhǔn)確率和F1分?jǐn)?shù),以驗證本文設(shè)計的自監(jiān)督學(xué)習(xí)輔助任務(wù)的有效性。實驗結(jié)果如表2所示。

      表2 兩種模型在C1和C2條件下的檢測性能對比 單位:%

      由表2的實驗數(shù)據(jù)可知,模型2在C1和C2兩種條件下的性能都優(yōu)于模型1,由此可以驗證本文設(shè)計的自監(jiān)督學(xué)習(xí)輔助任務(wù)的有效性。

      此外,本文還對比了原始SE注意力機(jī)制與CSE注意力機(jī)制在本文模型上的應(yīng)用效果,主要體現(xiàn)在準(zhǔn)確率、F1分?jǐn)?shù)、參數(shù)量以及浮點計算量這4個方面。具體實驗結(jié)果如表3所示。

      表3C1和C2條件下兩種注意力機(jī)制應(yīng)用在本文模型上的效果對比

      Tab.3 Comparison of effects of two attention mechanisms applying on proposed model under C1 and C2 conditions

      從表3可知,CSE注意力機(jī)制在C1和C2兩種條件下應(yīng)用于本文模型相較于原始的SE注意力機(jī)制,在準(zhǔn)確率上分別提高了0.77和0.37個百分點,在F1分?jǐn)?shù)上分別提高了1.64和0.32個百分點;同時在參數(shù)量和計算量上也均減少,可以看出本文對SE注意力機(jī)制改進(jìn)的有效性。

      3.3 對比分析

      將本文模型與傳統(tǒng)的CNN(如AlexNet、VGG和ResNet等)以及mAlexNet、MCNN、RepVGG進(jìn)行對比。為充分檢驗?zāi)P偷男阅埽疚脑O(shè)計了3個實驗分別檢驗?zāi)P偷姆夯阅?、對遮擋的魯棒性和光照的魯棒性。為保證實驗的嚴(yán)謹(jǐn)性,本文實驗數(shù)據(jù)采用了3次實驗取平均值的方法進(jìn)行處理。

      表4中為本文模型與其他網(wǎng)絡(luò)模型在C1和C2條件下的性能對比。從表4的對比結(jié)果可知,本文模型在C1條件下各項指標(biāo)均最優(yōu)。在C2條件下,本文模型的準(zhǔn)確率和F1分?jǐn)?shù)表現(xiàn)最優(yōu);然而,精確度和召回率未達(dá)到最優(yōu)狀態(tài),這是因為PUCPR停車場的車位圖像的原始尺寸相對UFPR停車場的圖像較小。在將這些圖像調(diào)整為網(wǎng)絡(luò)輸入大小時,圖像的梯度特征受到了更大程度的削弱,從而影響了精確度和召回率的表現(xiàn)。

      表4不同模型在C1和C2條件下的檢測性能對比 單位:%

      Tab.4 Comparison of detection performance of different models under C1 and C2 conditions unit:%

      為檢驗?zāi)P蛯φ趽踯囄坏聂敯粜?,本文將PKLot數(shù)據(jù)集與CNRPark數(shù)據(jù)集的部分?jǐn)?shù)據(jù)按照1∶1混合訓(xùn)練,將訓(xùn)練得到的權(quán)重用于模型的魯棒性檢測。為保證訓(xùn)練集、驗證集和測試集這三者之間的數(shù)據(jù)沒有交叉,在劃分訓(xùn)練集、驗證集和測試集時,對于PKLot,本文按照PUCPR、UFPR04和UFPR05分別對應(yīng)隨機(jī)選取部分?jǐn)?shù)據(jù);對于CNRPark,本文按照它的攝像機(jī)標(biāo)號劃分?jǐn)?shù)據(jù)集,在1、4、5、6和8號相機(jī)拍攝的數(shù)據(jù)中隨機(jī)選取部分?jǐn)?shù)據(jù)放入訓(xùn)練集,在3、7號相機(jī)拍攝的數(shù)據(jù)中隨機(jī)選取部分?jǐn)?shù)據(jù)放入驗證集,在2、9號相機(jī)拍攝的數(shù)據(jù)中隨機(jī)選取部分?jǐn)?shù)據(jù)放入測試集。表5中的3種遮擋情況的車位數(shù)據(jù)均來自上述劃分好的測試集。

      將2、9號相機(jī)拍攝的數(shù)據(jù)中有遮擋的車位的圖像按照遮擋程度的不同劃分為輕度遮擋(遮擋1/3以下)、中度遮擋(遮擋1/3到2/3)、重度遮擋(遮擋2/3以上)這3種車位樣本。

      從表5中可以看出,本文模型對不同遮擋情況下的準(zhǔn)確率相較于mAlexNet、MCNN和RepVGG都有明顯優(yōu)勢,相較于RepVGG提高了5.46個百分點,說明了本文模型對遮擋有著更強(qiáng)的魯棒性。

      為檢驗?zāi)P蛯庹兆兓聂敯粜?,本文使用了LC數(shù)據(jù)集,并對本文模型、mAlexNet、MCNN和RepVGG進(jìn)行比較,結(jié)果如表6所示。

      從表6可以看出,以上4種模型對于強(qiáng)光、陰影、幽暗等條件下的檢測準(zhǔn)確率都有所降低,但本文模型使用了輔助任務(wù)預(yù)訓(xùn)練權(quán)重,相較于其他3種模型都有所提升。

      最后,對比本文模型與其他對比模型在浮點計算量、參數(shù)量和單個車位的推理時間,對比結(jié)果如表7所示。

      從以上實驗結(jié)果可以看出,本文模型對于車位狀態(tài)的檢測相較于其他對比模型在精度和速度上有著更好的平衡。

      表5測試集上不同模型在不同遮擋條件下的準(zhǔn)確率對比 單位:%

      Tab.5 Accuracy comparison of different models under different occlusion conditions on test set unit:%

      表6不同模型在LC數(shù)據(jù)集上的檢測性能對比 單位:%

      Tab.6 Comparison of detection performance of different models on LC dataset unit:%

      表7不同模型的計算量、參數(shù)量和推理時間對比

      Tab.7 Comparisons of computational cost, parameter number and reasoning time of different models

      4 停車場實地效果

      為了驗證模型在真實停車場環(huán)境下的性能,實現(xiàn)真正落地,對比本文模型與現(xiàn)有模型在真實停車場環(huán)境下的檢測效果,對一處戶外停車場的車位狀態(tài)進(jìn)行了檢測。首先,通過labelimg應(yīng)用程序?qū)ν\噲龅谋O(jiān)控視頻中的車位進(jìn)行了人工標(biāo)注,并將它們存入.xml文件。其次,在車位狀態(tài)檢測過程中,使用提前標(biāo)注好的車位信息,切分該攝像頭有效覆蓋的停車位的圖片,并將分割的停車位圖片通過插值的方式放大,并以圖像中心為標(biāo)準(zhǔn)點裁剪成相同大小的圖像。最后,將它們輸入測試模型進(jìn)行車位狀態(tài)檢測。圖10為停車場中某一監(jiān)控攝像頭的檢測結(jié)果,其中實線框為占用,虛線框為空閑。

      從圖10中兩幅真實停車場環(huán)境下的預(yù)測結(jié)果可以看出,雖然本文模型與其他對比模型在面對復(fù)雜的地面紋理時均出現(xiàn)了錯誤,但是在面對遮擋狀況時,本文模型相較于其他模型表現(xiàn)了更好的預(yù)測效果??梢姡谡鎸嵉耐\噲霏h(huán)境下本文模型相較于其他模型依然有著較高的準(zhǔn)確率和魯棒性。

      圖10 不同模型對停車場中某一監(jiān)控攝像頭的檢測結(jié)果

      5 結(jié)語

      針對現(xiàn)有的智能停車場車位檢測在受到外界環(huán)境變化影響時適應(yīng)能力變差、模型推理速度低等問題,本文提出了一個自監(jiān)督學(xué)習(xí)HOG預(yù)測輔助任務(wù)下的車位檢測方法,以求模型在弱光、遮擋等環(huán)境下尋找到速度和精度之間的良好平衡。通過設(shè)計輔助任務(wù)使模型能夠更充分地學(xué)習(xí)圖像的視覺信息以提升模型特征提取能力,提高了模型的泛化性能,使模型更能適應(yīng)不同的外界環(huán)境。同時,提出分類網(wǎng)絡(luò)和CSE注意力機(jī)制,使模型能夠更好地利用所學(xué)的視覺信息進(jìn)行精準(zhǔn)分類。實驗結(jié)果表明,本文模型具有較高的分類準(zhǔn)確性和很強(qiáng)的泛化性能,能夠顯著提高停車場車位的使用效率,緩解停車場停車難、交通擁堵等問題。但目前本文模型還不能完全解決所有的問題,例如在極昏暗或冬季雪天積雪覆蓋停車位等情況下的車位狀態(tài)預(yù)測精度難以保證。

      為了進(jìn)一步提高模型在極端環(huán)境下的車位狀態(tài)預(yù)測精度,未來的工作包括兩個方向:1)改進(jìn)模型。通過引入更強(qiáng)大的特征提取技術(shù),優(yōu)化模型的訓(xùn)練策略,以提高模型對復(fù)雜環(huán)境的適應(yīng)能力;2)改善數(shù)據(jù)集中的樣本不均勻問題。通過增加在極端環(huán)境下的樣本數(shù)量,提高模型對這些環(huán)境的理解和預(yù)測能力。

      [1] DE ALMEIDA P R L, OLIVEIRA L S, BRITTO A C, Jr, et al. PKLot — a robust dataset for parking lot classification[J]. Expert Systems with Applications, 2015, 42(11):4937-4949.

      [2] 黃偉杰,張希,趙柏暄,等. 基于視覺的停車場車位檢測與分類算法[J]. 計算機(jī)系統(tǒng)應(yīng)用, 2022, 31(3):234-240.(HUANG W J, ZHANG X, ZHAO B X, et al. Vision-based parking space detection and classification algorithm[J]. Computer Systems and Applications, 2022, 31(3):234-240.)

      [3] JERMSURAWONG J, AHSAN U, HAIDAR A, et al. One-day long statistical analysis of parking demand by using single-camera vacancy detection[J]. Journal of Transportation Systems Engineering and Information Technology, 2013, 14(2): 33-44.

      [4] 安旭驍,鄧洪敏,史興宇. 基于迷你卷積神經(jīng)網(wǎng)絡(luò)的停車場空車位檢測方法[J]. 計算機(jī)應(yīng)用, 2018, 38(4): 935-938.(AN X X, DENG H M, SHI X Y. Parking lot space detection method based on mini convolutional neural network[J]. Journal of Computer Applications, 2018, 38(4): 935-938.)

      [5] AMATO G, CARRARA F, FALCHI F, et al. Deep learning for decentralized parking lot occupancy detection [J]. Expert Systems with Applications, 2017, 72: 327-334.

      [6] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25th International Conference on Neural Information Processing Systems — Volume 1. Red Hook, NY: Curran Associates Inc., 2012: 1097-1105.

      [7] 申鉉京,劉同壯,王玉,等. 基于卷積網(wǎng)絡(luò)結(jié)構(gòu)重參數(shù)化的車位狀態(tài)檢測算法[J]. 吉林大學(xué)學(xué)報(工學(xué)版), 2022, 52(12): 2898-2905.(SHEN X J, LIU T Z, WANG Y, et al. Detection algorithm for parking space status based on of convolution network structural re-parameterization[J]. Journal of Jilin University (Engineering and Technology Edition), 2022, 52(12): 2898-2905.)

      [8] DING X, ZHANG X, MA N, et al. RepVGG: making VGG-style ConvNets great again[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 13728-13737.

      [9] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015-04-10)[2021-04-20].https://arxiv.org/pdf/1409.1556.pdf.

      [10] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.

      [11] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition — Volume 1. Piscataway: IEEE, 2005: 886-893.

      [12] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7132-7141.

      [13] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.

      [14] HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications [EB/OL]. (2017-04-17)[2021-06-05].https://arxiv.org/pdf/1704.04861.pdf.

      [15] SANDLER M, HOEARD A, ZHU M, et al. Inverted residuals and linear bottlenecks: mobile networks for classification, detection and segmentation[EB/OL]. (2018-01-13)[2021-06-20]. https://arxiv.org/pdf/1801.04381v1.pdf.

      [16] HOWARD A, SANDLER M, CHEN B, et al. Searching for MobileNetV3[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 1314-1324.

      [17] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016:2818-2826.

      [18] HE K, FAN H, WU Y, et al. Momentum contrast for unsupervised visual representation learning [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 9726-9735.

      [19] CHEN T, KORNBLITH S, NOROUZI M, et al. A simple framework for contrastive learning of visual representations [C]// Proceedings of the 37th International Conference on Machine Learning. New York: JMLR.org, 2020: 1597-1607.

      [20] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long and Short Papers). Stroudsburg, PA, ACL, 2019: 4171-4186.

      [21] HE K, CHEN X, XIE S, et al. Masked autoencoders are scalable vision learners[C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 15979-15988.

      [22] WEI C, FAN H, XIE S, et al. Masked feature prediction for self-supervised visual pre-training [C]// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2022: 14648-14658.

      [23] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[EB/OL]. (2021-06-03)[2022-03-21].https://arxiv.org/pdf/2010.11929.pdf.

      [24] MEHTA S, RASTEGARI M. MobileViT: light-weight, general-purpose, and mobile-friendly vision transformer [EB/OL]. (2022-03-04)[2022-05-16].https://arxiv.org/pdf/2110.02178.pdf.

      [25] TAN M, LE Q. EfficientNetV2: smaller models and faster training[C]// Proceedings of the 38th International Conference on Machine Learning. New York: JMLR.org, 2021: 10096-10106.

      [26] CUI C, GAO T, WEI S, et al. PP-LCNet: a lightweight CPU convolutional neural network[EB/OL]. (2021-09-17)[2022-05-12].https://arxiv.org/pdf/2109.15099.pdf.

      Parking space detection method based on self-supervised learning HOG prediction auxiliary task

      LIU Lei1, WU Peng1*, XIE Kai1,2, CHENG Beizhi1, SHENG Guanqun3

      (1,,434023,;2,,834000,;3,,443002,)

      In the intelligent parking space management system, a decrease in accuracy and effectiveness of parking space prediction can be caused by factors such as illumination changes and parking space occlusion. To overcome this problem, a parking space detection method based on self-supervised learning HOG (Histogram of Oriented Gradient) prediction auxiliary task was proposed. Firstly, a self-supervised learning auxiliary task to predict the HOG feature in occluded part of image was designed, the visual representation of the image was learned more fully and the feature extraction ability of the model was improved by using the MobileViTBlock (light-weight, general-purpose, and Mobile-friendly Vision Transformer Block) to synthesize the global information of the image. Then, an improvement was made to the SE (Squeeze-and-Excitation) attention mechanism, thereby enabling the model to achieve or even exceed the effect of the original SE attention mechanism at a lower computational cost. Finally, the feature extraction part trained by the auxiliary task was applied to the downstream classification task for parking space status prediction. Experiments were carried out on the mixed dataset of PKLot and CNRPark. The experimental results show that the proposed model has the accuracy reached 97.49% on the test set; compared to RepVGG, the accuracy of occlusion prediction improves by 5.46 percentage points, which represents a great improvement compared with other parking space detection algorithms.

      intelligent parking system; self-supervised learning; Histogram of Oriented Gradient (HOG); auxiliary task; parking space status prediction

      This work is partially supported by National Natural Science Foundation of China (42204111).

      LIU Lei, born in 2002. His research interests include image processing,artificial intelligence.

      WU Peng, born in 1978, M. S., associate professor. His research interests include image processing, artificial intelligence.

      XIE Kai, born in 1974, Ph. D., professor. His research interests include signal and information processing, image processing, artificial intelligence.

      CHENG Beizhi, born in 2002. Her research interests include image processing, artificial intelligence.

      SHENG Guanqun, born in 1987, Ph. D., associate professor. His research interests include artificial intelligence, signal and information processing.

      TP389.1

      A

      1001-9081(2023)12-3933-08

      10.11772/j.issn.1001-9081.2022111687

      2022?11?10;

      2023?05?23;

      2023?05?29。

      國家自然科學(xué)基金資助項目(42204111)。

      劉磊(2002—),男,山東青島人,主要研究方向:圖像處理、人工智能;伍鵬(1978—),男,湖北黃岡人,副教授,碩士,主要研究方向:圖像處理、人工智能;謝凱(1974—),男,湖北荊州人,教授,博士,主要研究方向:信號與信息處理、圖像處理、人工智能;程貝芝(2002—),女,湖北黃岡人,主要研究方向:圖像處理、人工智能;盛冠群(1987—),男,山東東營人,副教授,博士,主要研究方向:人工智能、信號與信息處理。

      猜你喜歡
      車位停車場注意力
      讓注意力“飛”回來
      為了車位我選擇了環(huán)保出行
      汽車畫刊(2020年5期)2020-10-20 05:37:35
      我自己找到一個
      停車場尋車管理系統(tǒng)
      電子制作(2018年9期)2018-08-04 03:31:18
      一個車位,只停一輛?
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      PLC在地下停車場排水系統(tǒng)的應(yīng)用
      電子制作(2016年15期)2017-01-15 13:39:21
      迷宮
      A Beautiful Way Of Looking At Things
      “8·12”后,何以為家
      萍乡市| 巴林左旗| 怀化市| 闸北区| 巩留县| 元氏县| 广安市| 叙永县| 东宁县| 贵阳市| 博野县| 武平县| 大邑县| 琼中| 搜索| 临安市| 万盛区| 谢通门县| 库伦旗| 延吉市| 灵丘县| 东丰县| 马鞍山市| 唐河县| 万山特区| 麟游县| 宁南县| 冷水江市| 济宁市| 南木林县| 化德县| 呼和浩特市| 赣州市| 六安市| 朝阳县| 屏东县| 洛南县| 犍为县| 罗源县| 化德县| 浑源县|