張立民 姜 杰 方 偉 劉 凱
(海軍航空大學(xué) 煙臺(tái) 264001)
座艙模擬飛行訓(xùn)練,是指通過配備油門、拉桿、腳蹬等真實(shí)的操縱原件,結(jié)合視景系統(tǒng)和動(dòng)感平臺(tái)還原真實(shí)的飛行體驗(yàn),可以對(duì)飛行員進(jìn)行起飛、降落、空中加油、編隊(duì)飛行、戰(zhàn)術(shù)對(duì)抗以及面對(duì)復(fù)雜情況下的應(yīng)急處置訓(xùn)練。其低成本、低風(fēng)險(xiǎn)和高效果、高回報(bào)的訓(xùn)練方式,對(duì)未來真實(shí)訓(xùn)練作戰(zhàn)具有重要的戰(zhàn)略意義。通過對(duì)座艙模擬飛行訓(xùn)練中的飛行員頭部姿態(tài)進(jìn)行解算和跟蹤,可以實(shí)現(xiàn)頭位跟蹤瞄準(zhǔn)、注意力分配、疲勞度檢測等功能,這對(duì)于提升飛行員訓(xùn)練水平具有十分重要的意義。
目前對(duì)于飛行員頭位跟蹤的方法還停留在傳統(tǒng)的光電法和電磁法,運(yùn)用機(jī)械、傳感器等手段對(duì)飛行員頭部進(jìn)行跟蹤定位,在座艙模擬飛行訓(xùn)練環(huán)境中,通過計(jì)算機(jī)視覺結(jié)合機(jī)器學(xué)習(xí)算法,可以實(shí)現(xiàn)對(duì)飛行員頭位的實(shí)時(shí)跟蹤解算,有效提升訓(xùn)練效果。相較于傳統(tǒng)方法,簡單便捷,對(duì)飛行員頭部無負(fù)擔(dān),結(jié)算定位快速準(zhǔn)確,受干擾小,采用HOG對(duì)特征提取相比于Haar,可以很好地描述了形狀、外觀信息,提取特征點(diǎn)多,并且對(duì)光線變化和小量的空間平移不敏感,計(jì)算復(fù)雜度小。
飛行員頭位跟蹤方法,首先通過HOG提取視頻中單幀圖像的特征,經(jīng)SVM對(duì)特征進(jìn)行分類,完成人臉檢測,然后通過Heatmaps對(duì)圖像中人臉關(guān)鍵點(diǎn)進(jìn)行標(biāo)記,最后運(yùn)用Posit算法完成對(duì)飛行員頭位的跟蹤定位。
HOG即方向梯度直方圖(Histogram of Orient?ed Gradient),是被廣泛應(yīng)用于計(jì)算機(jī)視覺和圖像處理的一種特征提取算法,可以對(duì)圖像特征加以描述的算子,通過計(jì)算圖像中各個(gè)區(qū)域的方向梯度直方圖,從而完成對(duì)特征的提取和統(tǒng)計(jì)[1]。其核心思想就是對(duì)圖像進(jìn)行梯度信息的統(tǒng)計(jì),梯度主要存在于圖像的邊緣區(qū)域,局部目標(biāo)可以被梯度和邊緣密度分布加以描述,HOG具有對(duì)圖像的幾何變換、光學(xué)變化具有高魯棒性的優(yōu)點(diǎn)[2]。
對(duì)于圖像中每個(gè)像素的梯度計(jì)算公式如下:
式中,Gx(x,y),Gy(x,y)分別為圖像中位置為(x,y)的像素點(diǎn)的水平與豎直方向的梯度值,I(x,y)為像素點(diǎn)的灰度值。
像素點(diǎn)(x,y)的梯度幅值和大小由以下公式表示:
通過對(duì)于圖像的每一個(gè)像素點(diǎn)計(jì)算其梯度,然后將每一個(gè)像素點(diǎn)的梯度方向進(jìn)行匯總,以直方圖的方式表示,把梯度幅度值的大小作為直方圖的權(quán)重。
由于局部的光線變化和前后景對(duì)比度的變化會(huì)使梯度發(fā)生較大的變化,因此需要對(duì)梯度強(qiáng)度進(jìn)行歸一化處理,完成對(duì)光線、陰影和圖像邊緣的壓縮,從而使得到的特征計(jì)算結(jié)果更具魯棒性[3]。
歸一化的過程為將上述所有圖像塊進(jìn)行匯總,使其組合成大的、在空間上連通的區(qū)域,然后將所有小圖像塊的特征進(jìn)行串聯(lián),用以反映圖片的整體特征,在得到圖像的特征向量后,通過訓(xùn)練支持向量機(jī)(SVM)對(duì)特征進(jìn)行分類,完成人臉檢測。通過訓(xùn)練后的二分類器判斷該區(qū)域是否存在人臉,再運(yùn)用非極大抑制算法(NMS)來合并重復(fù)檢測區(qū)域,最終得到檢測結(jié)果。其步驟如圖1所示。
圖1 HOG-SVM算法對(duì)人臉檢測步驟圖
由于HOG是基于邊緣特征,只關(guān)注了物體的邊緣和形狀信息,對(duì)目標(biāo)的表現(xiàn)信息并沒有有效利用,因此對(duì)于遮擋問題不能很好地處理,并且因?yàn)樘荻缺旧淼男再|(zhì),導(dǎo)致對(duì)噪聲較為敏感,因此提出了結(jié)合人臉關(guān)鍵熱圖處理遮擋問題的方法。
關(guān)鍵點(diǎn)熱圖(Landmark Heatmaps)是在關(guān)鍵點(diǎn)位置周圍具有高強(qiáng)度的圖像,它隨關(guān)鍵點(diǎn)位置的距離而變化,利用關(guān)鍵點(diǎn)熱圖,可以推斷出人臉的關(guān)鍵點(diǎn)位置,從而對(duì)它們進(jìn)行細(xì)化[4~5]。熱圖的計(jì)算公式如下:
其中,H表示熱圖圖像,Tt(St-1)是根據(jù)前一階段生成的關(guān)鍵點(diǎn)估計(jì)轉(zhuǎn)換產(chǎn)生的標(biāo)準(zhǔn)位姿,Si是第i個(gè)關(guān)鍵點(diǎn)的標(biāo)準(zhǔn)位姿。
對(duì)于人臉關(guān)鍵點(diǎn)熱圖生成的過程可概括為以下步驟[6~7]。
1)設(shè)定內(nèi)核形狀的半徑作為輸出網(wǎng)格的大小。
2)獲取x,y的最小值和最大值來生成序列號(hào),將序列號(hào)用以構(gòu)建網(wǎng)格。
3)通過添加x,y的網(wǎng)格坐標(biāo)計(jì)算每個(gè)網(wǎng)格的中心點(diǎn)。
4)計(jì)算每個(gè)網(wǎng)格點(diǎn)的密度值,將密度值按強(qiáng)度大小進(jìn)行排列,得到強(qiáng)度列表。
5)通過顏色網(wǎng)格得到可視化結(jié)果。
熱力圖對(duì)面部特征進(jìn)行提取,可以有效克服遮擋問題,提升檢測定位精度。
POSIT(Pose from Orthography and Scaling with Iterations)算法[8~9],是一種迭代算法,通過正交投影從單幅圖像中估計(jì)物體的姿態(tài)。需要已知可檢測和匹配圖像中四個(gè)或更多不共面的特征點(diǎn)及其對(duì)應(yīng)的坐標(biāo)位置。算法的核心思想是首先建立人臉模型得到初始頭部姿態(tài),然后通過求解線性方程得到頭部的旋轉(zhuǎn)矩陣和平移向量,最后不斷迭代近似姿態(tài)計(jì)算正交投影,經(jīng)過尺寸變換得到頭部姿態(tài)。
首先建立人臉的模型,模型公式如下[12]:
其中,(α,β,γ)表示頭部姿態(tài)的三個(gè)旋轉(zhuǎn)角度,N表示面部標(biāo)定的特征點(diǎn)個(gè)數(shù),qi表示待測的面部特征點(diǎn),pi表示對(duì)應(yīng)的三維通用標(biāo)量,s為伸縮因子。旋轉(zhuǎn)矩針R由三個(gè)矩陣相乘,表示如下:
在得到飛行員頭部由世界坐標(biāo)系到攝像機(jī)坐標(biāo)系的旋轉(zhuǎn)矩陣和平移向量后,通過旋轉(zhuǎn)矩陣計(jì)算的得到歐拉角即為頭部姿態(tài)。
POSIT算法的優(yōu)勢在于只需用到極少數(shù)點(diǎn)的信息,同時(shí)又避免了求解復(fù)雜非線性方程的過程。但是POSIT存在累計(jì)誤差的問題,為此設(shè)定了圖像誤差的閾值,如果超過閾值,就重新進(jìn)行初始化。
實(shí)驗(yàn)采用FDDB(Face Detection Data Set and Benchmark)數(shù)據(jù)集進(jìn)行人臉檢測實(shí)驗(yàn),該數(shù)據(jù)集選取野外拍攝的2845圖片中共計(jì)5171張人臉,是被廣泛用于人臉檢測的權(quán)威數(shù)據(jù)集,本文選取2000張正面人臉圖像作為正樣本,選取3000背景圖片作為負(fù)樣本,分別抽取用于600個(gè)正樣本和1000個(gè)負(fù)樣本用于訓(xùn)練分類器,訓(xùn)練后的分類器其結(jié)果見表1。
表1 訓(xùn)練后分類器結(jié)果
以誤報(bào)樣率為x軸,以召回率為y軸,繪制ROC曲線,見圖2。
圖2 SVM分類器ROC曲線圖
將HOG-SVM法與Viola&Jones算法作對(duì)比,其結(jié)果如表2所示。
表2 兩種方法實(shí)驗(yàn)結(jié)果對(duì)比
實(shí)驗(yàn)結(jié)果表明,該方法相比于Viola&Jones算法檢出率高,魯棒性好。
對(duì)于面部關(guān)鍵點(diǎn)測試,采用AFLW(Annotated Facial Landmarks in the Wild)數(shù)據(jù)集,該數(shù)據(jù)集包含多姿態(tài)、多視角的人臉數(shù)據(jù),主要用于評(píng)估面部關(guān)鍵點(diǎn)檢測效果,其中共有21997張圖,25993張面孔,每張人臉標(biāo)注21個(gè)關(guān)鍵點(diǎn),共380k個(gè)關(guān)鍵點(diǎn)。
實(shí)驗(yàn)測試結(jié)果如圖3所示。
圖3 人臉關(guān)鍵點(diǎn)熱力圖
對(duì)人臉特征點(diǎn)檢測,熱力圖法相比于基于模型的方法,可以有效克服遮擋問題,從而獲得更為準(zhǔn)確的定位。
最后,在真實(shí)場景中進(jìn)行測試,效果見圖4。
圖4 真實(shí)場景下測試效果圖
連續(xù)視頻中每秒檢測并輸出頭部姿態(tài)速率可達(dá)36幀,滿足實(shí)時(shí)性要求。
將計(jì)算機(jī)視覺的方法應(yīng)用于飛行員的模擬飛行訓(xùn)練中,具有開創(chuàng)性的意義,相較于傳統(tǒng)的光電法、電磁法測量飛行員頭位數(shù)據(jù),具有設(shè)備簡單測量范圍大、抗干擾強(qiáng)的優(yōu)勢,但相比于最新的深度學(xué)習(xí)的方法,仍需要手動(dòng)標(biāo)記人臉特征,人臉檢測耗時(shí)長,準(zhǔn)確度和實(shí)時(shí)性仍有待于提升,在后續(xù)的研究中,將進(jìn)行有針對(duì)性的改進(jìn)。