李彥冬,夏正洪
(中國民用航空飛行學院,四川廣漢,618300)
機場場面監(jiān)視是民航安全運行中的重要一環(huán),一直以來都是民航關注的一個重要問題。傳統(tǒng)的機場場面監(jiān)視主要利用場監(jiān)雷達和多點定位等基于電磁波的技術手段對場面目標的位置和身份進行識別。這種方式對于目標的位置信息能夠較好地進行判斷,然而對于目標的類型,尤其是一些非合作目標的身份,缺少魯棒的判斷能力。
從2012年開始,深度學習技術逐漸成為人工智能領域的一個研究熱點[1]。近年來,針對深度學習技術的研究在圖像理解、語音識別、自然語言處理、圍棋對弈、自動駕駛等領域都取得了超越傳統(tǒng)方法的突破性成果[2]。深度學習技術是一種以數(shù)據(jù)驅動的機器學習方法,可以通過大量的數(shù)據(jù)對機器學習模型進行訓練,從而讓模型獲得對于數(shù)據(jù)模式的識別能力。然而,在很多實際的應用場景中,數(shù)據(jù)的獲取比較困難,小樣本環(huán)境是深度學習技術在實際應用中通常會遇到的問題,遷移學習技術是解決小樣本問題的方式之一[3]。
本文以深度學習技術為研究對象,在模型訓練數(shù)據(jù)不足的情況下,采用遷移學習的策略研究對于機場場面目標的視頻識別與跟蹤方法。實驗結果表明,基于遷移學習的策略,本文中的深度學習模型對于場面中的目標具有較好的檢測與識別能力。
目標檢測是計算機視覺領域的一個基礎而重要的問題,其研究目標是從圖像或視頻場景中準確定位潛在物體的位置,并且對目標物體的類別進行準確的識別。傳統(tǒng)的目標檢測算法主要通過從圖像中提取大量的潛在目標框,然后對各個框圖內的目標進行特征提取與識別。這種識別方式的缺陷有兩點:(1)通常圖像目標框的數(shù)量會比較龐大,逐個處理會影響目標檢測的速度;(2)傳統(tǒng)方法采用人工設計特征(如:LBP, SIFT等)對目標框的特征進行提取,這些特征通常具有較弱的判別和泛化性能。
深度學習是近年來興起的一種機器學習方法,其主要特點是對于目標特征的提取不再基于人工設計特征,而是基于層層相連的深度數(shù)學模型。通過大量數(shù)據(jù)的的訓練,原本參數(shù)隨機初始化的深度網絡能夠學習到數(shù)據(jù)中潛在的特征,從而完成特征的提取。眾多研究表明,這種通過學習方式獲得的目標特征相比于傳統(tǒng)的人工設計特征具有更好的表達能力。深度學習模型作為一種數(shù)據(jù)驅動的數(shù)學模型,對數(shù)據(jù)量的要求比較高,因此,對于一些數(shù)據(jù)量相對有限的特定應用場景,通常采用遷移學習的策略。遷移學習的思路是先通過在大型數(shù)據(jù)集上對深度學習模型進行訓練,讓模型的訓練誤差達到收斂,確定模型中的參數(shù)值,然后通過針對特定小樣本數(shù)據(jù)集的訓練,對模型參數(shù)進行微調更新,從而讓模型對于小樣本數(shù)據(jù)集具有特征提取與判別的能力。通過遷移學習策略,解決了小樣本數(shù)據(jù)集對于深度模型的訓練支持不足的問題,有效地擴展了深度學習技術在特定場景的應用。
針對機場場面視頻數(shù)據(jù)集相對環(huán)境比較單一,訓練樣本較少的特點,本文利用基于遷移學習的場面目標檢測模型訓練方案進行面向場面目標的檢測模型訓練(如圖1所示)。該方案主要分為:構建深度學習模型、構建訓練數(shù)據(jù)集和模型訓練三個主要部分。
圖1 基于遷移學習的場面目標檢測模型訓練方案
目標檢測的深度學習模型主要分為精度較高的兩階段模型和速度較快的一階段模型兩個大類。針對場面目標檢測的實時性需求,本文選擇了一階段代表性的YOLO模型作為目標檢測模型進行研究。YOLO是一種端到端的目標檢測模型,針對原始圖像通過骨干卷積網絡提取特征,然后通過設計的Neck結構對于特征在多尺度上進行融合,最終在輸出層通過非最大抑制(Non-Maximum Suppresion, NMS)的策略進行檢測框的生成。YOLO模型具有輕量級,運行速度快的特點,在通用數(shù)據(jù)集的測試上也具有一定的目標識別準確度。
在訓練數(shù)據(jù)集方面,本文采用了通用的目標檢測數(shù)據(jù)集MSCOCO和實地采集的廣漢機場視頻圖像數(shù)據(jù)集。
MSCOCO數(shù)據(jù)集在目標檢測領域是一個應用廣泛的數(shù)據(jù)集,其包含了91個目標類別,超過10萬張用于訓練和測試的圖片,對于大型深度網絡來說是一個常用的數(shù)據(jù)集。但是,由于機場場面的運行具有其具體特點,因此針對機場實地采集數(shù)據(jù),也進行了相應的目標標注用于訓練。圖2是人工標注的一個樣本圖像。其中,行人以標簽0作為標記,飛機以標簽4作為標記。
圖2 廣漢機場視頻圖像人工標注(4:飛機,0:行人)
在實際的模型訓練中,針對輸入圖像X,首先通過目標檢測模型完成網絡的前向傳導:
公式(1)中,f(x)是基于網絡模型參數(shù)(W, b)的目標檢測模型。模型初始化參數(shù)隨機,通過前向傳導之后,獲得潛在的目標檢測結果H = [H1, H2, ..., Hn]。目標檢測結果與數(shù)據(jù)集標簽之間的差異,作為訓練的損失E(W, b):
對于損失E(W,b),通過梯度下降方法(Stochastic Gradient Descent,SGD)對網絡參數(shù)(W,B)進行更新:
經過訓練后的網絡f(W, b)通過更新網絡的參數(shù),能夠擬合訓練數(shù)據(jù)集的特點,從而具備目標檢測的能力。
本文中采用的MSCOCO數(shù)據(jù)集尺度比較大,具有良好的模型參數(shù)訓練功能,但是不具備針對特定場景的目標檢測標記。因此,在實際訓練過程中,先使用MSCOCO數(shù)據(jù)集對參數(shù)訓練到收斂,然后使用人工標注的廣漢機場數(shù)據(jù)集進行遷移訓練,從而使模型具有良好的對于機場場面目標的檢測與跟蹤能力。
本文使用的深度學習硬件平臺主要包括Xeon(R)W-2133處理器(3.6GHz),64GB內存和RTX2080Ti顯卡。實驗軟件環(huán)境采用64位Ubuntu18.04操作系統(tǒng)。實驗結果表明(表1),經過遷移學習的深度目標檢測模型能夠在廣漢機場對飛機、車輛和人物目標的識別準確率達到82%,跟蹤準確率達到78%。在圖像處理速度方面,由于深度網絡的運算開銷較大,采用CPU的處理速度較慢,約為3幀/秒。但是,在采用GPU處理之后,圖像處理的速度能夠達到約45幀/秒,可以滿足實時的場面目標檢測與跟蹤需求。
表1 廣漢機場場面目標檢測模型實驗結果
圖3是三幀視頻在遷移學習前后的目標檢測效果對比。從圖中可以發(fā)現(xiàn),僅僅通過在大型數(shù)據(jù)集MSCOCO上訓練得到的目標檢測模型并不能夠很好地應用于機場場面環(huán)境的目標檢測工作中,出現(xiàn)了較多的飛機漏檢、將VOR導航臺錯判為飛機等目標檢測錯誤。在遷移學習后,模型對于機場場面的飛機、行人和汽車都能夠進行較為準確的識別。因此,遷移學習在深度目標檢測模型應用于具體場景中的時候具有非常關鍵的作用。
圖3 同一幀視頻在遷移學習前(左)與遷移學習后(右)的目標檢測效果對比
本文針對基于遷移學習的機場場面目標檢測與跟蹤技術進行了研究。采用遷移學習的策略,使基于大型通用目標檢測數(shù)據(jù)集訓練的目標檢測模型具有了針對特定機場場面目標的檢測與跟蹤能力?;趶V漢機場實地采集的視頻圖像分析,該方法具有較好的場面目標檢測與跟蹤性能,并且在GPU計算的條件下,能夠具備實時圖像處理的能力。