摘 要:本文旨在研究多模態(tài)顯著性檢測方法,以提高在計算機視覺領域中物體檢測與跟蹤任務的性能。研究問題聚焦于如何融合多種傳感器數(shù)據(jù),以提高物體檢測和跟蹤的準確性和質(zhì)量。采用基于深度學習的目標檢測與跟蹤方法,能夠更準確地識別和定位感興趣的物體,并連續(xù)追蹤其運動軌跡。研究方法涉及條件生成對抗網(wǎng)絡(Conditional Generative Adversarial Networks,CGAN)和動態(tài)權重自適應融合技術,以優(yōu)化目標的檢測性能。本文在多個多模態(tài)數(shù)據(jù)集上進行性能測試,包括RGB-Thermal、RGB-Depth和RGB-Total。結果表明,與完整模型相比,移除對抗損失函數(shù)和模態(tài)權重的模型召回率更高,尤其是在高閾值條件下。本研究驗證了多模態(tài)顯著性檢測方法在不同數(shù)據(jù)集上的有效性,并指出在特定數(shù)據(jù)集上可能需要調(diào)整模型參數(shù)或損失函數(shù)的設計,以獲得最佳效果。本研究不僅能夠應用于自動駕駛、智能監(jiān)控和人機交互等實際場景中,還為多模態(tài)數(shù)據(jù)融合在目標檢測與跟蹤領域提供參考。
關鍵詞:深度學習;目標檢測;目標跟蹤
中圖分類號:TP 391" " " " " " " " " " 文獻標志碼:A
物體檢測與跟蹤技術在計算機視覺領域中占據(jù)舉足輕重的地位。吳皓等[1]研究了基于視覺同步定位與地圖構建(Simultaneous Localization and Mapping,SLAM)的物體實例識別與語義地圖構建方法。程蔚等[2]利用復合動態(tài)模型和證據(jù)融合架構,提出了基于多傳感器的移動物體檢測與跟蹤方法。唐聰?shù)萚3]研究了基于深度學習的視覺跟蹤方法,結合了深度檢測模型(SSD)和多尺度目標搜索結果。張琪等[4]提出了簡單有效的魚群軌跡追蹤算法,通過多模塊設計準確提取復雜運動模式的魚群軌跡。韓宇等[5]基于嵌入式樹莓派(Raspberry Pi,RPi)和OpenCV(跨平臺計算機視覺庫),實現(xiàn)了運動檢測與跟蹤系統(tǒng)小型化、高效化且對光照條件變化具有一定的自適應調(diào)節(jié)能力。孫同同等[6]研究了機器人中基于視覺檢測與跟蹤技術的應用。趙曉軍等[7]
設計了基于現(xiàn)場可編程門陣列(Field Programmable Gate Array,F(xiàn)PGA)的圖像識別與跟蹤系統(tǒng),采用模型匹配和邊緣特征相結合的跟蹤算法。鄭丹等[8]針對視頻監(jiān)控中運動物體的檢測與跟蹤問題,提出了一種基于背景重建和改進的Meanshift算法。李晶等[9]針對實時視頻監(jiān)控中遮擋和高速運動等問題,提出了一種基于卡爾曼濾波的運動物體跟蹤算法,上述研究為本文提供啟示。
1 基于深度學習的目標檢測與跟蹤
深度學習是一種模擬人腦神經(jīng)網(wǎng)絡結構和功能的技術。在計算機視覺領域中,基于深度學習的目標檢測與跟蹤已成為一個熱門的研究方向。目標檢測的任務是從圖像或視頻中準確識別出感興趣的物體,并確定其位置。而目標跟蹤是在視頻序列中連續(xù)地追蹤物體的運動軌跡。利用卷積神經(jīng)網(wǎng)絡(CNN)等深度學習模型并結合大量標注數(shù)據(jù)進行訓練,并運用特定算法進行準確的目標檢測和跟蹤。
2 模型構建
2.1 產(chǎn)生式對抗網(wǎng)絡(CGAN)
本文引入了條件生成對抗網(wǎng)絡(CGAN)的概念,并將其作為模型的關鍵組成部分。CGAN由2個子網(wǎng)絡組成:生成器G和判別器D,它們在訓練過程中相互競爭,生成更逼真的圖像。
模型CGAN的損失函數(shù)如公式(1)所示。
Lcgan(G,D)=Ey-Pdata(y)[logD(x,y)]+Ey-Pdata(y),z-Pz(z)[log(1-D(x,G(x,z)))] " " " "(1)
式中:L為拉普拉斯變換;cgan為對抗損失函數(shù)。它來自條件生成對抗網(wǎng)絡(GGANs)的概念,用于衡量生成器G生成的結果與真實樣本之間的差異。G為生成器;D為判別器;Ey-Padta(y)為給定y的期望值;y為真實數(shù)據(jù);x為來自隨機噪聲向量z的樣本;Pz(z)為隨機噪聲向量z 的概率分布。
生成器G的目標是生成足夠逼真的圖像,以欺騙判別器D,使其難以區(qū)分圖像的真假,從而最大化損失函數(shù)。而判別器D的目標則是盡力區(qū)分真實數(shù)據(jù)和生成數(shù)據(jù),以最小化其自身的損失函數(shù)。為了平衡生成器G和判別器D的訓練過程,本文引入一個新的超參數(shù)α,可以根據(jù)任務的性質(zhì)調(diào)整該參數(shù),以更好地平衡生成圖像的質(zhì)量和訓練的穩(wěn)定性。此外,本文還添加了一個新的損失項,用于強調(diào)生成圖像與條件信息y之間的一致性。這可以通過引入一個額外的損失項來實現(xiàn),例如像素級別的重建損失項或對抗性損失項。這些損失項有助于引導生成器更好地遵循條件信息y,從而生成更符合要求的圖像。
改進版本的損失函數(shù)如公式(2)所示。
Lcgan(G,D)=αEy-Pdata(y)[logD(x,y)]+(1-α)Ey-Pdata(y),z-Pz(z)[log(1-D(x,G(x,z)))]+βadditionalloss " " " " " " " " " " " " "(2)
式中:α為超參數(shù),用于平衡生成器和判別器的訓練過程。α的值可以在0~1進行調(diào)整,用以控制損失函數(shù)中GAN生成對抗網(wǎng)絡損失(第一項)與條件一致性損失(第二項)之間的相對重要性。當α的值較大時,更注重GAN損失;當α的值較小時,則更注重條件一致性損失。
第一項是log(D(x, y)),表示判別器D對真實數(shù)據(jù)x和條件信息y輸出的對數(shù)概率。目標是鼓勵判別器正確地將真實數(shù)據(jù)標記為真實,即最大化D(x, y)。
第二項是log(1-D(x, G(x, z))),表示判別器D對生成數(shù)據(jù)G(x, z)輸出的對數(shù)概率的負值。目標是鼓勵判別器難以區(qū)分生成圖像和真實圖像,即最大化1-D(x, G(x, z))。
第三項是βadditionalloss,用于強調(diào)生成圖像與條件信息y之間的一致性。其中,β是一個權重參數(shù),用于控制額外損失在總損失中的重要性,additionalloss可以是像素級別的重建損失、對抗性損失或其他適合特定任務的損失項。模型采用深度學習方法整合多模態(tài)數(shù)據(jù),使用自適應融合的機制,將不同模態(tài)的信息有效地結合,生成1張粗糙顯著性圖。顯著性圖突顯了輸入數(shù)據(jù)中與目標相關的區(qū)域,在目標檢測任務中更容易定位和識別目標。
2.2 自適應融合的多模態(tài)目標檢測
模型將多模態(tài)數(shù)據(jù)作為輸入,并直接輸出對應的粗糙顯著性圖。該模型不僅依賴于單一模態(tài)(例如圖像),還能夠處理來自多個傳感器或數(shù)據(jù)源的不同類型的數(shù)據(jù),例如圖像、文本以及音頻等。模型利用深度學習方法整合多模態(tài)數(shù)據(jù),運用自適應融合機制,將不同模態(tài)的信息有效地結合,生成粗糙顯著性圖,突顯了輸入數(shù)據(jù)中與目標相關的區(qū)域,使其在目標檢測任務中更容易定位和識別目標。為了實現(xiàn)這一目標,在模型中引入了編碼器—解碼器結構。該結構基于VGG網(wǎng)絡進行適當修改,以適應模型的任務。
編碼器采用經(jīng)過微調(diào)的VGG網(wǎng)絡(VGG-M),其輸入為多模態(tài)數(shù)據(jù)。多模態(tài)數(shù)據(jù)可以看作1組輸入圖像,其中每個圖像均由其對應模態(tài)的像素值構成。模型將多模態(tài)數(shù)據(jù)設為X={X1,X2,...,Xn},其中n為模態(tài)的數(shù)量。編碼器的任務是提取特征,這些特征被模型表示為Fe(X)。
與前述模型相似,引入一個注意力權重參數(shù)向量α,用于控制每個模態(tài)在特征融合中的貢獻。
新的編碼器特征如公式(3)所示。
Fe(X)=α1Fe(X1)+α2Fe(X2)+...+αnFe(Xn) (3)
式中:Fe(X)為編碼器提取的特征;αi(i=1,2,…, n)為模態(tài)i的注意力權重;Fe(Xi(i=1,2,…, n))為模態(tài)i的編碼器輸出。
解碼器采用上采樣卷積網(wǎng)絡,將編碼器提取的特征進行上采樣,并輸出顯著性檢測結果。模型將解碼器的輸出表示為顯著性檢測結果,如公式(4)所示。
Y=Fd(Fe(X)) (4)
式中:Fd為解碼器的函數(shù),它將編碼器提取的特征映射上采樣為顯著性檢測結果。這個過程可以通過卷積操作和上采樣操作實現(xiàn)。
在訓練階段,模型會優(yōu)化解碼器的參數(shù),使輸出的顯著性檢測結果盡可能接近真實的顯著性圖。利用損失函數(shù)來衡量接近程度,模型將其定義為Ldet,其可以表示為顯著性檢測結果Y與真實顯著性圖Ygt之間的誤差,通常使用均方誤差(Mean Squared Error,MSE)來衡量,如公式(5)所示。
(5)
式中:Ldet為損失函數(shù);N為樣本數(shù)量;Yi為模型預測的第i個樣本的顯著性檢測結果;Ygti為第i個樣本的真實顯著性圖。這一階段的目標是獲得粗糙的顯著性檢測結果。
2.3 動態(tài)權重自適應融合
模型設計了一個基于強化學習的智能體來預測每個模態(tài)的權重。這個智能體通過與環(huán)境的交互來判斷輸入數(shù)據(jù)的質(zhì)量。此外,模型還設計了一種特殊的獎勵函數(shù)來處理權重調(diào)整的停止動作。如果權重調(diào)整過早停止,就可能無法獲得理想的結果。因此,模型引入了一個閾值參數(shù):當均方誤差低于該閾值時,模型認為停止權重調(diào)整是合適的,并給予智能體正獎勵;否則,給予負獎勵。通過這種獎勵機制,智能體可以學習如何動態(tài)地調(diào)整權重,以優(yōu)化顯著性檢測結果。
在第一階段,模型的目標是獲得更優(yōu)質(zhì)的顯著性檢測結果。為此,模型采用聯(lián)合損失函數(shù)來訓練所提出的編碼-解碼網(wǎng)絡,該函數(shù)結合了均方誤差和對抗損失。均方誤差是一種像素級的損失函數(shù),通過計算預測的顯著性圖與真實圖之間每個像素點的差異來得到。假設模型有1張圖,其分辨率如公式(6)所示。
N=W·H (6)
式中:N為圖像的總像素數(shù);W、H分別為圖像的寬度和高度。
其真值顯著性圖為S,預測的顯著性圖記為S′。那么,該損失函數(shù)如公式(7)所示。
(7)
式中:CMSE為均方誤差,用于衡量預測顯著性圖Si'與真實顯著性圖Si之間的差異,通過計算所有像素的預測值與真實值之間的平方差并取平均值得到。
對抗損失函數(shù)是從條件生成式對抗網(wǎng)絡中得到的。該網(wǎng)絡不斷更新生成器G和判別器D來完成整個網(wǎng)絡的訓練。在這個過程中,判別器D的目標是提高其“愚弄”生成器G的概率,如公式(8)所示。
cgan=-log D(I,S) (8)
式中:D為判別器,它的目標是提高其“愚弄”生成器G 的概率;I為圖像;S為真實顯著性圖。
因此,最終的損失函數(shù)如公式(9)所示。
C-total=CMSE+cgan (9)
式中:C-total為總損失函數(shù),由均方誤差和對抗損失的線性組合構成。作為優(yōu)化目標,通過調(diào)整其參數(shù)來最小化這一損失,進而提高模型的性能。
在第二階段,模型訓練自適應融合模型。在這個階段,模型使用Q網(wǎng)絡,它的參數(shù)是隨機初始化的。模型采用ε-貪婪策略來訓練,根據(jù)ε的值實現(xiàn)由探索(Exploration)到利用(Exploitation)的轉換。在探索階段,智能體隨機選擇動作以觀察不同的轉移(Transitions),收集一系列訓練數(shù)據(jù)作為經(jīng)驗(Experience)。目標網(wǎng)絡(Target Network)和經(jīng)驗回放(Experience Replay)被認為是深度Q學習算法成功的關鍵因素。參數(shù)為r的目標網(wǎng)絡每間隔r步就從在線網(wǎng)絡中進行一次拷貝,并且在其他步驟后保持不變。因此,模型目標網(wǎng)絡如公式(10)所示。
yrDON=R+γmaxα'Q(s';a';θ-) (10)
式中:yrDON為Q網(wǎng)絡的目標值,用于更新網(wǎng)絡參數(shù);R為當前時刻的獎勵;γ為引入的折扣因子,用于權衡當前獎勵和未來預期獎勵的重要性;α′為在下一狀態(tài)s′下選擇的動作;Q(s';a';θ-)為目標網(wǎng)絡對下一狀態(tài)s′選擇動作a′的預測值,其中θ-為目標網(wǎng)絡的參數(shù)。
在標準DQN中,使用一個目標網(wǎng)絡來估計下一個狀態(tài)的最佳動作值。為了減少估計偏差,引入2個目標網(wǎng)絡Qtarget1和Qtarget2,分別用于選擇最佳動作和評估最佳動作的價值。更新目標網(wǎng)絡如公式(11)所示。
Qtarget1(s,a)=R+γQtarget2(s',argmax(Qonline1(s',a')))
Qtarget2(s,a)=R+γQtarget1(s',argmax(Qonline2(s',a'))) (11)
式中:Qonline1 和 Qonline2 為在線網(wǎng)絡的動作值函數(shù);Qtarget1 和 Qtarget2 為目標網(wǎng)絡的動作值函數(shù);s為狀態(tài)參數(shù);a為更新參數(shù),表示目標網(wǎng)絡在每次更新時從在線網(wǎng)絡獲取信息的權重,它通常是一個小的正數(shù)。
模型利用回放單元存儲過去的經(jīng)驗,這樣就可以將一次轉移用于多次模型的更新中,打破了短時間內(nèi)訓練樣本的強相關性。
當進行經(jīng)驗回放時,可以引入優(yōu)先級采樣機制,以便更頻繁地選擇重要的經(jīng)驗樣本進行訓練,提高模型對重要狀態(tài)和動作的學習速度,同時減少不重要樣本的訓練次數(shù)。
更新經(jīng)驗回放的采樣概率如公式(12)所示。
P(i)=|TDerror(i)|+ε (12)
式中:P(i)為采樣概率,表示經(jīng)驗回放緩沖區(qū)中第 i 條樣本被抽取的概率;TDerror(i)為第i條樣本的時序差分誤差,用于衡量當前Q值與目標Q值之間的差異;ε為隨機項。
每執(zhí)行一次Q學習的更新,就從回放記憶中隨機抽取一批數(shù)據(jù)作為訓練樣本。網(wǎng)絡權重的更新如公式(13)所示。
di=δi+α(r+γmaxα'Q(s';a';θ-)-Q(s;a;θ))?Q(s;a;θ)" " " " " "(13)
式中:di為更新后的Q網(wǎng)絡的估計目標值;δi為TD(時序差分)誤差;α為學習率,其可以控制更新的步長;γ為折扣因子,表示對未來獎勵的重視程度。?Q(s;a;θ)為預測值關于網(wǎng)絡參數(shù)θ的梯度。
3 性能測試
3.1 數(shù)據(jù)來源
筆者使用RGB-Thermal和RGB-Depth多模態(tài)數(shù)據(jù)集測試多模態(tài)顯著性,該數(shù)據(jù)集包括可見光、紅外熱成像及其混合基準,為性能測試提供了良好的環(huán)境。通過模型驗證,證實了該方法的有效性,并進行了詳盡的數(shù)據(jù)分析。
3.2 性能分析
3.2.1 RGB-Depth數(shù)據(jù)集
RGB-Depth 數(shù)據(jù)集關注可見光和深度信息的融合,適用于需要三維信息的任務,例如用于機器人導航、AR/VR 應用或人機交互。其測試結果如圖 1所示。
在RGB-Depth數(shù)據(jù)集上,當模型移除對抗損失函數(shù)和模態(tài)權重后,召回率出現(xiàn)下降,這一現(xiàn)象在高閾值條件下尤為顯著,說明對抗損失函數(shù)和模態(tài)權重對模型性能有一定影響。移除對抗損失函數(shù)會略微降低模型的召回率,而移除模態(tài)權重則略微提升了召回率。
3.2.2 RGB-Thermal數(shù)據(jù)集
RGB-Thermal數(shù)據(jù)集關注可見光和熱紅外信息的融合,適用于在低光或零光條件下工作的場景。其測試結果如圖2所示。
在RGB-Thermal數(shù)據(jù)集上,完整模型同樣展現(xiàn)出更高的召回率,尤其在高閾值條件下表現(xiàn)更突出。當移除對抗損失函數(shù)時,模型性能受到了一定負面影響;而移除模態(tài)權重則略微提高了模型性能。這表明對抗損失函數(shù)在該數(shù)據(jù)集上對模型的性能起到了積極的促進作用。
3.2.3 RGB-Total數(shù)據(jù)集
混合樣本數(shù)據(jù)集后的測試結果如圖3所示。
在RGB-Total數(shù)據(jù)集上,完整模型同樣展現(xiàn)出了較高的召回率。移除對抗損失函數(shù)和模態(tài)權重對模型性能的影響與其他數(shù)據(jù)集類似:移除對抗損失函數(shù)對性能產(chǎn)生了負面影響,而移除模態(tài)權重則對性能產(chǎn)生了略微正面的影響。
3.3 模型有效性和數(shù)據(jù)集表現(xiàn)差異
通過觀察不同數(shù)據(jù)集上的性能表現(xiàn),可以得出以下結論:模型對多模態(tài)數(shù)據(jù)的整合展現(xiàn)出了良好的效果。在大多數(shù)情況下,完整模型的召回率較高,充分證明了多模態(tài)顯著性檢測方法在不同數(shù)據(jù)集中的有效性。
不同數(shù)據(jù)集上模型表現(xiàn)的差異受到多種因素的影響,包括數(shù)據(jù)集的特性、數(shù)據(jù)的質(zhì)量以及多模態(tài)特征等。RGB-Depth、RGB-Thermal和RGB-Total數(shù)據(jù)集來自不同的傳感器,這可能導致模型在處理這些數(shù)據(jù)時面臨不同的特性和噪聲挑戰(zhàn)。模態(tài)間的信息融合方式也是影響模型在不同數(shù)據(jù)集中表現(xiàn)的重要因素之一。在某些特定數(shù)據(jù)集中,對抗損失函數(shù)可能對模型性能產(chǎn)生積極的影響,而在其他數(shù)據(jù)集上則可能表現(xiàn)不盡如人意。
4 結論
綜上所述,多模態(tài)顯著性檢測方法在不同數(shù)據(jù)集中都展現(xiàn)出較好的性能,但是在特定數(shù)據(jù)集中可能需要根據(jù)實際情況調(diào)整模型參數(shù)或損失函數(shù)的設計以獲得最佳效果。這表明模型的性能受多種因素的共同影響,因此在特定場景下進行針對性的調(diào)優(yōu)是至關重要的。
參考文獻
[1]吳皓,遲金鑫,田國會.基于視覺SLAM的物體實例識別與語義地圖構建[J].華中科技大學學報(自然科學版),2019,47(9):48-54.
[2]程蔚,吳海彬,鄭洪慶.基于復合動態(tài)模型和證據(jù)融合架構的移動物體檢測與跟蹤方法[J].計算機應用研究,2019,36(10):3187-3191.
[3]唐聰,凌永順,楊華,等.基于深度學習物體檢測的視覺跟蹤方法[J].紅外與激光工程,2018,47(5):148-158.
[4]張琪,韓戰(zhàn)鋼.一種簡單有效的魚群軌跡追蹤算法[J].北京師范大學學報(自然科學版),2017,53(4):406-411.
[5]韓宇,張磊,吳澤民,等.基于嵌入式樹莓派和OpenCV的運動檢測與跟蹤系統(tǒng)[J].電視技術,2017,41(2):6-10.
[6]孫同同,孫首群.基于視覺檢測與跟蹤技術在機器人中的應用[J].組合機床與自動化加工技術,2016(2):79-81.
[7]趙曉軍,耿志輝,陳雷,等.基于FPGA的圖像識別與跟蹤系統(tǒng)[J].青島科技大學學報(自然科學版),2013,34(2):199-202,206.
[8]鄭丹,徐佩霞,何佳.視頻監(jiān)控中運動物體的檢測與跟蹤[J].計算機工程與應用,2010,46(31):192-195.
[9]李晶,范九倫.一種基于卡爾曼濾波的運動物體跟蹤算法[J].計算機應用研究,2010,27(8):3162-3164.