王俊杰,汪洋堃,張 峰,張士文,戴 毅,郁曉冬
(上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海 200240)
近年來(lái),疲勞駕駛導(dǎo)致的交通事故比例高居不下[1],疲勞駕駛行為給道路行駛造成安全隱患,嚴(yán)重危害到人們的生命和財(cái)產(chǎn)安全.及時(shí)準(zhǔn)確的檢測(cè)疲勞駕駛行為并提出告警,對(duì)維護(hù)道路安全有著重要意義.
現(xiàn)有的疲勞駕駛檢測(cè)方法,從數(shù)據(jù)信息的獲取方式上來(lái)看主要分為3 大類:
第一,基于駕駛員生理信息分析的檢測(cè)方法,常用的生理信息有EOG 眼電圖[2,3]和EEG 腦電圖[4–7].基于準(zhǔn)確的生理信號(hào)信息使得這類方法判斷精確,但因需要被測(cè)人員佩戴特殊設(shè)備限制了其推廣和應(yīng)用.
第二,基于機(jī)械傳感器信號(hào)分析的檢測(cè)方法,如在汽車方向盤、踏板等位置安裝相應(yīng)的傳感器,通過(guò)所得方向盤加速度[8,9]、踏板壓力[10]、車輛速度[11]等信息分析駕駛員的疲勞狀態(tài).該類方法相比第一類方法,信息獲取更便捷,但其判斷效果易受駕駛員個(gè)人習(xí)慣、道路狀態(tài)等因素影響,且給出的判斷是疲勞駕駛的綜合結(jié)果,如反應(yīng)遲緩、操作不當(dāng)?shù)?不能判斷出具體的疲勞行為.
第三,基于機(jī)器視覺(jué)圖像信息分析的檢測(cè)方法,利用攝像頭獲取駕駛員圖像,進(jìn)而分析判斷其疲勞與否.文獻(xiàn)[12]提出了一種先驗(yàn)的增強(qiáng)模型皮膚圖像直方圖作為特征描述符,并使用K 最近鄰算法對(duì)其分類,檢測(cè)睡覺(jué)行為.文獻(xiàn)[13]使用方向梯度直方圖和回歸樹集合獲取人臉關(guān)鍵點(diǎn)后,融合眼部特征和嘴部特征實(shí)現(xiàn)疲勞檢測(cè).文獻(xiàn)[14]使用AdaBoost 算法定位眼部,使用圖像形態(tài)學(xué)等圖像處理方法獲取人眼高度,判斷眼睛是否閉合.相比前兩類方法,該類方法的圖像數(shù)據(jù)信息獲取便捷,且駕駛員面部信息比反映車輛狀態(tài)的機(jī)械傳感器信息更能直接反應(yīng)駕駛員的疲勞情況.
閉眼是疲勞駕駛的一個(gè)重要表征,在閉眼檢測(cè)時(shí),虹膜、瞳孔、眼白、上下眼皮間距等是眼部檢測(cè)的關(guān)鍵區(qū)域.有研究者提出基于像素值分析的閉眼檢測(cè)方法,如依據(jù)眼部圖像中虹膜與其余部分像素值的差別,對(duì)眼部圖像中的像素點(diǎn)進(jìn)行分類,并計(jì)算圖中分類為虹膜的像素點(diǎn)個(gè)數(shù),若超過(guò)設(shè)定的閾值,則認(rèn)為檢測(cè)到了虹膜,圖像為睜眼.但該種基于像素值分析的檢測(cè)方法對(duì)光照條件敏感,在光線不足,鏡片反光,人眼較小的情況,由于較難準(zhǔn)確分離出眼部對(duì)應(yīng)區(qū)域,進(jìn)而產(chǎn)生誤判.如圖1所示,給出了4 人在不同環(huán)境下的眼部圖像,其中,第1 行是一般大小的眼睛在光線良好情況下的圖片(下簡(jiǎn)稱這類情況為參考情況),此類圖片較易于狀態(tài)辨識(shí);第2 行是光照不足時(shí)的人眼圖像,此時(shí)虹膜與其余部分像素值相差不大,基于像素值分析易將背景像素點(diǎn)分為虹膜,則閉眼圖像會(huì)被誤判為睜眼;第3 行是鏡片反光時(shí)的眼部圖像,此類圖像中,鏡片反射的光線會(huì)影響圖片中虹膜的顏色,可能導(dǎo)致虹膜部分檢測(cè)不出,此外,反射光線產(chǎn)生的光斑與其余部分有明顯差別,故可能被分類為虹膜,即鏡片反光情況時(shí),閉眼和睜眼都可能發(fā)生誤判;第4 行是人眼較小時(shí)的情況,此類情況下,可能因虹膜占據(jù)的像素點(diǎn)數(shù)不足設(shè)定的閾值而將睜眼圖像誤判為閉眼.
圖1 閉眼檢測(cè)難點(diǎn)展示
對(duì)于利用上下眼皮間的距離或眼睛的縱橫比與既定閾值比較來(lái)判斷是否存在閉眼的做法,主要的不足在于不同人上下眼皮距離和縱橫比可能差別較大,無(wú)法設(shè)定一個(gè)準(zhǔn)確的閾值適用于所有人.而記錄連續(xù)多幀圖片中上下眼皮距離或眼部縱橫比,分析其變化來(lái)判斷是否閉眼的做法不適用于僅有單張圖片的應(yīng)用情況和可能的持續(xù)閉眼情況.
本文對(duì)駕駛員圖像信息展開研究分析,針對(duì)現(xiàn)有此類方法易受外界環(huán)境差異(如光照強(qiáng)度和背景等)和受測(cè)者外貌特征差異(眼睛大小等)影響,泛化能力不足,存在方法計(jì)算量大、處理過(guò)程耗時(shí)、缺乏實(shí)時(shí)應(yīng)用驗(yàn)證等問(wèn)題,本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和支持向量機(jī)(Support Vector Machine,SVM)的疲勞駕駛閉眼特征檢測(cè)方法,使用CNN 獲取人臉相關(guān)特征點(diǎn)的位置并定位眼部感興趣區(qū)域(Region Of Interest,ROI),以灰度化和直方圖均衡化操作減弱光照差異影響,提取ROI 的方向梯度直方圖 (Histogram of Oriented Gradient,HOG)[15],并用SVM對(duì)HOG 進(jìn)行分類,相應(yīng)的判斷出原始圖像是否存在閉眼.此外,本文給出了所提方法在ARM 平臺(tái)的實(shí)現(xiàn),在不同光照和背景條件下對(duì)多位測(cè)試人員進(jìn)行檢驗(yàn),驗(yàn)證方法的有效性、實(shí)時(shí)性和泛化能力.
對(duì)疲勞駕駛中伴隨的閉眼行為,本文提出的基于卷積神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(CNN-SVM)的疲勞駕駛閉眼特征檢測(cè)方法主要包含預(yù)處理層、HOG 提取層和決策層.分別實(shí)現(xiàn)了眼部ROI 分割,HOG 特征提取,眼部狀態(tài)判斷.著重解決在光線不足、鏡片反光、眼睛大小差異等多重復(fù)雜情況下的眼部開合的辨識(shí),以期在多種環(huán)境下,對(duì)不同受測(cè)者均能準(zhǔn)確判斷眼部開合狀態(tài).
預(yù)處理層的目標(biāo)是利用人臉檢測(cè)和特征點(diǎn)提取算法,定位圖像中人眼ROI 并進(jìn)行分割.
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是深度學(xué)習(xí)的代表性算法,能有效的提取多層次的圖像特征,廣泛應(yīng)用于物體檢測(cè).考慮到檢測(cè)速度和精度的平衡,本文選擇了級(jí)聯(lián)CNN 算法[16]用于人臉檢測(cè)步驟.
級(jí)聯(lián)CNN 算法使用6 個(gè)級(jí)聯(lián)的CNN 進(jìn)行人臉檢測(cè)工作.其中3 個(gè)為二分類網(wǎng)絡(luò),判斷是否是人臉,3 個(gè)為校正網(wǎng)絡(luò),用于校正人臉框邊界的位置.其流程如下:
(1) 使用小型網(wǎng)絡(luò)12-net 對(duì)全圖進(jìn)行人臉檢測(cè),快速選擇可能存在人臉的區(qū)域,對(duì)大小為W×H的單張圖片采用步長(zhǎng)為4,大小為12×12 的窗口進(jìn)行檢測(cè),所需檢測(cè)窗口數(shù)為:
其中,F為最小檢測(cè)人臉大小參數(shù),當(dāng)W=1280,H=720,由式(1)可得默認(rèn)參數(shù)F=20時(shí)檢測(cè)窗口數(shù)為20 140.使用12-calibration-net 進(jìn)行人臉區(qū)域校正.使用非極大值抑制(Non-Maximum Suppression,NMS)去除重疊區(qū)域過(guò)高的人臉框.
(2) 將(1)中人臉區(qū)域轉(zhuǎn)為大小24×24 的圖片,使用24-net 分類,判斷是否是人臉,然后利用24-calibrationnet 進(jìn)行人臉區(qū)域校正.使用NMS 去除重疊的人臉框.
(3) 將(2)中的人臉區(qū)域轉(zhuǎn)為大小48×48 的圖片,使用48-net 分類,得到人臉區(qū)域后使用NMS 去除重復(fù)的部分.最后使用48-calibration-net 對(duì)人臉區(qū)域進(jìn)行校正,并以此作為輸出.人臉檢測(cè)的結(jié)果如圖2中的框所示,定位出人臉區(qū)域.
圖2 人臉檢測(cè)與特征點(diǎn)提取結(jié)果
實(shí)驗(yàn)中發(fā)現(xiàn),級(jí)聯(lián)CNN 的參數(shù)F對(duì)處理精度和速度的影響顯著,默認(rèn)參數(shù)下,在側(cè)臉場(chǎng)景易出現(xiàn)誤判,將耳朵區(qū)域識(shí)別為人臉,如圖3所示.通過(guò)大量的實(shí)驗(yàn)測(cè)試和分析,發(fā)現(xiàn)可以通過(guò)提高F值來(lái)避免將較小區(qū)域誤判為人臉,同時(shí)也減少了所需檢測(cè)窗口數(shù),從而降低處理單張圖片耗時(shí).本文設(shè)置F=150,相應(yīng)的處理單張圖片的時(shí)間降低到默認(rèn)設(shè)置下處理時(shí)間的16.31%.
圖3 人臉檢測(cè)誤檢示意圖
人臉特征點(diǎn)的提取可以理解為從圖像I 到人臉形狀參數(shù)S 的一個(gè)非線性映射.本文利用深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大非線性模型擬合能力,選用完全端到端級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)(Fully End-to-end Cascaded CNN,FECCNN)方法[17]用于特征點(diǎn)提取.
相對(duì)于人工提取特征再使用分類器分類,端到端的方法直接以圖像做輸入,特征點(diǎn)做輸出,將特征提取和分類的流程融合在了網(wǎng)絡(luò)之中.方法中包括若干個(gè)子CNN,表示為,網(wǎng)絡(luò)級(jí)聯(lián)之后構(gòu)成了總的網(wǎng)絡(luò),記為H,其目標(biāo)是擬合出圖像到特征點(diǎn)的非線性映射關(guān)系,如式(2)–式(4)所示:
其中,ΔSt表示第t個(gè)網(wǎng)絡(luò)對(duì)S的修正值,Ft表示第t個(gè)CNN,Θ (I,St?1)表示圖像塊提取函數(shù),用以提取圖中的特征區(qū)域.St表示經(jīng)過(guò)第t個(gè)CNN 修正后的特征點(diǎn).特征點(diǎn)的提取結(jié)果如圖2中的點(diǎn)所示.
本文人臉檢測(cè)和特征點(diǎn)提取的實(shí)現(xiàn)均借助了開源庫(kù)Seetaface2.
使用圖2中所示的特征點(diǎn)進(jìn)行眼部ROI 定位,其中左眼ROI 計(jì)算如式(5)所示,右眼ROI 計(jì)算方法如式(6)所示.獲取的ROI 圖片歸一化到30×15 像素,并將右眼ROI 進(jìn)行水平翻轉(zhuǎn),便于后續(xù)統(tǒng)一操作.
定位出的眼部區(qū)域如圖4所示.
圖4 眼部ROI 示例
考慮到不同環(huán)境因素對(duì)眼部ROI 圖像的影響,在HOG 提取前先進(jìn)行圖像增強(qiáng)操作.
上文所示圖像為常見(jiàn)的RGB 格式,即圖像中的每一個(gè)像素點(diǎn)包含3 個(gè)通道的色彩:紅(R)、綠(G)、藍(lán)(B),每個(gè)通道的色彩取值為0–255 之間的整數(shù).該格式下的圖片包含豐富的色彩信息,可以反應(yīng)光照、膚色等信息.而本文檢測(cè)閉眼行為關(guān)注圖像的梯度信息,因此將RGB 圖轉(zhuǎn)為灰度圖處理.常用做法將RGB 圖像亮度信息提取作為灰度值,亮度信息提取采用國(guó)標(biāo)公式進(jìn)行計(jì)算,如式(7)所示[18].
轉(zhuǎn)換后的灰度圖仍存在分析上的難點(diǎn),部分圖像的像素值聚集在極小的范圍內(nèi),導(dǎo)致圖像對(duì)比度不足,梯度較小,不易提取相關(guān)特征.故對(duì)灰度圖進(jìn)行直方圖均衡化.
設(shè)圖像的灰度級(jí)范圍為[0,L?1],則圖像的直方圖定義為離散函數(shù)h(rk)=nk,其中rk表示第k級(jí)的灰度,nk代表灰度級(jí)為rk的像素點(diǎn)個(gè)數(shù).將其中的每一個(gè)值除以圖片的像素點(diǎn)總數(shù)n,得到歸一化的直方圖P(rk)=nk/n.P(rk)也表示灰度級(jí)為rk的概率估值.直方圖均衡化的目標(biāo)是找到一個(gè)函數(shù),對(duì)圖片中像素點(diǎn)分布進(jìn)行調(diào)整,使其分布均勻,記函數(shù)為T:
以圖片偏暗和偏亮兩種情況下為例,圖5展示了直方圖均衡化的效果,圖5(a)、圖5(c)為光線偏暗和偏亮的原圖以及相應(yīng)的灰度直方圖,圖5(b)、圖5(d)為直方圖均衡化處理后的圖片和相應(yīng)灰度直方圖分布.由圖5可以看到,圖片偏暗時(shí),像素點(diǎn)集中分布于0 附近,圖片偏亮?xí)r,像素點(diǎn)集中于較大值.圖片偏暗和偏亮均存在圖片對(duì)比度不足、特征不明顯的問(wèn)題.直方圖均衡化之后,圖片像素點(diǎn)的分布更加均衡,圖片對(duì)比度提升,有利于后續(xù)的特征提取與分類.
圖5 直方圖均衡化示例
提取HOG 特征時(shí)需計(jì)算每個(gè)像素點(diǎn)的水平梯度和垂直梯度,如式(9)、式(10)所示.
式中,g表示梯度,H表示對(duì)應(yīng)點(diǎn)的像素值.x和y分別表示水平和垂直方向.
由此可得該點(diǎn)梯度的幅值和角度:
將圖片分為大量元胞,統(tǒng)計(jì)每個(gè)元胞中的梯度信息,構(gòu)成直方圖.將若干元胞構(gòu)成塊,對(duì)每個(gè)塊進(jìn)行歸一化處理,進(jìn)一步降低光照差異的影響,得到所需的HOG特征.因HOG 特征是局部梯度特征,對(duì)光線不敏感,有利于削弱光線差異造成的干擾.
決策層使用SVM 對(duì)HOG 分類.SVM是一種常見(jiàn)的二分類模型.其目標(biāo)是找到特征空間上最大間隔的分離超平面.如圖6所示.其中,z1和z2是特征空間的參數(shù),圓形和方形分別表示不同種樣本,l代表分類器找到的分離超平面.
圖6 二分類問(wèn)題SVM 分類結(jié)果示例
對(duì)特征平面的樣本點(diǎn)x,定義其函數(shù)間隔和幾何間隔如式(13)、式(14)所示.
式中,yi為樣本的標(biāo)識(shí),一般用+1 表示正樣本,?1 表示負(fù)樣本.
SVM 的目標(biāo)是學(xué)習(xí)找到一個(gè)正確分類樣本且?guī)缀伍g隔最大的超平面,該問(wèn)題可以總結(jié)為約束優(yōu)化問(wèn)題,如式(15)、式(16)所示.
結(jié)合函數(shù)間隔與幾何間隔的關(guān)系,上述約束關(guān)系可以改寫為式(17)和式(18).
利用凸二次規(guī)劃問(wèn)題算法求解出式(19)、式(20)的解w?和b?,則得到最優(yōu)的超平面:
對(duì)應(yīng)的分類決策函數(shù)為:
實(shí)際分類時(shí)將樣本x代入上述函數(shù),結(jié)果為+1 認(rèn)定為正樣本,否則為負(fù)樣本.
利用SVM 分類結(jié)果判斷原圖中對(duì)應(yīng)眼部是否閉眼.本文規(guī)定,雙眼同時(shí)被判為閉眼狀態(tài),則認(rèn)為此張圖片中為閉眼,否則為睜眼.
SVM 復(fù)雜度為O (M·S)[19],其中,M表示核函數(shù)的計(jì)算數(shù),S表示支持向量的個(gè)數(shù).本文選擇了線性核函數(shù),復(fù)雜度為O(D·S),其中,D表示輸入向量即HOG特征的維度.相比其他核函數(shù),如多項(xiàng)式核函數(shù)的M為對(duì)應(yīng)的次方,線性核函數(shù)大大減小了復(fù)雜度.實(shí)驗(yàn)測(cè)試時(shí),在PC 平臺(tái)i7-4710MQ 處理器上,SVM 分類單張眼睛HOG 特征耗時(shí)2 μs.
因此,所提方法的疲勞駕駛閉眼特征檢測(cè)的流程如圖7所示,首先是預(yù)處理層,使用級(jí)聯(lián)CNN 算法獲取待測(cè)視頻圖片中的人臉區(qū)域,由FEC-CNN 算法定位人臉上的68 個(gè)特征點(diǎn),以此定位出眼部ROI,并將右眼ROI 水平翻轉(zhuǎn);然后是HOG 提取層,將眼部ROI 轉(zhuǎn)為灰度圖,進(jìn)行直方圖均衡化操作,提取HOG 特征;最后是決策層,使用SVM 對(duì)上述HOG 特征進(jìn)行分類,判斷圖片中是否存在閉眼行為,若兩只眼睛均為閉眼狀態(tài),則認(rèn)為駕駛員處于閉眼狀態(tài).
圖7 CNN-SVM 疲勞駕駛閉眼特征檢測(cè)方法流程
模擬駕駛實(shí)驗(yàn)的圖像數(shù)據(jù)來(lái)自于多名受測(cè)人員按照指定圖像分辨率1280×720,在室內(nèi)隨機(jī)光線和背景下拍攝的模擬駕駛行為視頻.實(shí)驗(yàn)圖像選擇從駕駛員的正面拍攝,例如圖8第1 列圖像所示視角的正常駕駛狀態(tài),實(shí)驗(yàn)圖像與實(shí)際動(dòng)作成鏡像.圖8第2 列為閉眼時(shí)圖片.參與拍攝的人員共8 人,包含了多種不同的背景.在樣本收集時(shí),每人錄制睜眼狀態(tài)和閉眼狀態(tài)各持續(xù)10 s,視頻幀率為30 fps.
圖8 數(shù)據(jù)集部分圖片
為驗(yàn)證本文方法在不同人員和環(huán)境的泛化能力,測(cè)試使用k折交叉驗(yàn)證,即將數(shù)據(jù)集分為k份,測(cè)試k次,每次選取其中的k–1 份作為訓(xùn)練集,1 份作為測(cè)試集,將每次測(cè)試效果的評(píng)估參數(shù)取平均作為該方法的效果評(píng)估參數(shù).本文k選為8,即每個(gè)實(shí)驗(yàn)人員的數(shù)據(jù)單獨(dú)作為一份.測(cè)試結(jié)果如表1所示,其中,P和N分別指閉眼,T和F分別表示實(shí)際判斷與真實(shí)標(biāo)簽相同和不同.由真正(True Positive,TP),真負(fù)(True Negative,TN),假正(False Positive,FP),假負(fù)(False Negative,FN)按照式(23)–式(25)計(jì)算準(zhǔn)確率,召回率和精準(zhǔn)率.
其中,準(zhǔn)確率表示被正確分類的圖片占總圖片的比例,該值越大意味著分類越準(zhǔn)確;召回率表示被正確分類為閉眼的圖片數(shù)與實(shí)際閉眼圖片數(shù)的比值,該值越高意味著閉眼行為被檢測(cè)出的比例越大;精準(zhǔn)率為正確分類的閉眼圖片占所有被分類為閉眼圖片的比例,其值越大表示正常駕駛被誤檢為閉眼的比例越低.
表1對(duì)比了本文方法與基于眼部寬高比(Eye Aspect Ratio,EAR)的方法分別使用兩個(gè)開源人臉特征點(diǎn)檢測(cè)庫(kù)(Dlib和Seetaface2)時(shí)的各參數(shù)表現(xiàn).
由表1看到,CNN-SVM 檢測(cè)方法的準(zhǔn)確率、召回率、精確率均高于基于EAR 計(jì)算的方法,接近100%,驗(yàn)證了所提方法在判斷睜眼和閉眼的有效性,其中CNN-SVM 方法的召回率為97.5%,表明漏檢閉眼行為的概率低.
表1 閉眼檢測(cè)結(jié)果
圖9是上述8 折交叉驗(yàn)證實(shí)驗(yàn)數(shù)據(jù)的箱形圖,其每一個(gè)箱子的上下邊緣代表該方法準(zhǔn)確率的最大值和最小值,矩形的上下邊緣分別代表上四分位數(shù)和下四分位數(shù),中間的線代表中位數(shù).可以看出,3 種方法的上限均較高,說(shuō)明多次實(shí)驗(yàn)中有達(dá)到較高準(zhǔn)確率的情況,但基于EAR 的方法中位數(shù)和下限低,說(shuō)明多次實(shí)驗(yàn)的結(jié)果分布分散,存在準(zhǔn)確率低的情況.本文方法對(duì)應(yīng)的箱子邊緣和矩形上下邊緣均集中在較大值,說(shuō)明本文方法在多折實(shí)驗(yàn)的不同測(cè)試集上均有較高準(zhǔn)確率,驗(yàn)證了其較強(qiáng)的泛化能力.
圖9 模擬駕駛數(shù)據(jù)測(cè)試結(jié)果箱形圖
綜上,與基于眼部寬高比的方法相比,本文方法能更準(zhǔn)確地判斷數(shù)據(jù)集中不同光照下不同大小眼睛的開閉狀態(tài),且具有較好的泛化能力.
為驗(yàn)證所提疲勞駕駛閉眼特征檢測(cè)方法在實(shí)際車內(nèi)駕駛場(chǎng)景中的應(yīng)用效果,本文進(jìn)一步使用實(shí)際駕駛艙中拍攝的模擬駕駛動(dòng)作視頻進(jìn)行測(cè)試并完善方法.實(shí)驗(yàn)中隨機(jī)選擇7 位實(shí)驗(yàn)人員,從正面拍攝其在普通轎車駕駛艙中包含正常駕駛和閉眼的視頻,分辨率為1280×720,幀率為30 fps,其他拍攝條件,如光線、車型背景、攝像頭等條件是多樣的,以此來(lái)考察和驗(yàn)證方法的泛化能力.考慮到室內(nèi)場(chǎng)景與實(shí)際場(chǎng)景存在一定的差距,本文隨機(jī)選取了3 人的數(shù)據(jù)與前文2.1 節(jié)所述數(shù)據(jù)一起構(gòu)成了訓(xùn)練集,剩余4 人數(shù)據(jù)構(gòu)成測(cè)試集.訓(xùn)練集與測(cè)試集之間沒(méi)有重疊.實(shí)驗(yàn)中實(shí)際駕駛艙場(chǎng)景的部分?jǐn)?shù)據(jù)集如圖10所示.其中左列為駕駛艙內(nèi)睜眼圖片,右列為駕駛艙內(nèi)閉眼圖片.
圖10 駕駛艙測(cè)試數(shù)據(jù)示意圖
在PC 平臺(tái)i7-4710MQ 處理器進(jìn)行測(cè)試,實(shí)際駕駛艙數(shù)據(jù)測(cè)試結(jié)果如表2第1 列所示,可以看到本文方法在實(shí)際場(chǎng)景數(shù)據(jù)下仍達(dá)到94.25%的判斷準(zhǔn)確率,每秒可處理40 幀圖片.
表2 駕駛艙數(shù)據(jù)實(shí)驗(yàn)結(jié)果
考慮到方法的可集成性以及實(shí)車應(yīng)用成本等因素,本文進(jìn)一步測(cè)試了所提方法在ARM 嵌入式平臺(tái)的實(shí)驗(yàn)效果,選擇了基于ARM Cortex A72|A53 的i.MX 8QuadMax 處理器平臺(tái)(車規(guī)級(jí)芯片)進(jìn)行實(shí)驗(yàn).其中Cortex-A72 主頻最高1.6 GHz,Cortex-A53 主頻最高1.2 GHz.
表2第2 列和第3 列給出了本文方法在ARM Cortex A72和ARM Cortex A53 處理器上測(cè)試結(jié)果.可以看見(jiàn),在判斷效果上,該方法在ARM Cortex A72和ARM Cortex A53 平臺(tái)運(yùn)行辨識(shí)結(jié)果準(zhǔn)確,相比在i7-4710MQ 上的結(jié)果整體上略有差別,這可能與i.MX 8QuadMax 處理器平臺(tái)讀取圖片的解碼方式和底層計(jì)算方式與在PC 上的存在不同這一因素有關(guān).
從處理速度上看,在PC 平臺(tái)i7-4710MQ 處理器,i.MX 8QuadMax 處理器的ARM Cortex A72和ARM Cortex A53 核心運(yùn)行所提算法,處理每張圖片耗時(shí)分別為0.0244 s,0.049 s,0.1324 s,即每秒分別可處理40 幀,20 幀,7 幀圖片.因此,本文算法可以在1 s 之內(nèi),依據(jù)多張圖片的分類結(jié)果,及時(shí)檢測(cè)出駕駛員的閉眼行為特征.
可見(jiàn),本文算法在所測(cè)實(shí)驗(yàn)平臺(tái)滿足實(shí)時(shí)性應(yīng)用要求.
本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的駕駛員閉眼實(shí)時(shí)檢測(cè)方法CNN-SVM,預(yù)處理層使用CNN 分割出眼部ROI,HOG 提取層對(duì)ROI 進(jìn)行圖像增強(qiáng)后提取HOG 特征,決策層使用SVM 對(duì)ROI 分類,以此檢測(cè)疲勞駕駛閉眼特征.使用所建立的室內(nèi)模擬駕駛和實(shí)際駕駛艙內(nèi)拍攝的不同光照和背景下的圖像數(shù)據(jù)集,分別在PC i7-4710MQ 平臺(tái)和ARM 平臺(tái)的A72、A53 核心測(cè)試所提方法,辨識(shí)準(zhǔn)確率分別為94.25%、95.58%、95.58%,辨識(shí)速度分別為40.97 fps、20.39 fps、7.55 fps,表明所提CNN-SVM 方法對(duì)不同光照和背景下的閉眼特征檢測(cè)均滿足辨識(shí)精度和速度要求,具備有效性和實(shí)用性.