劉強 謝謙 方璽 李波 蔣瓊 解孝民
【摘要】為實現(xiàn)更快速、準(zhǔn)確的疲勞預(yù)警,提出了一種基于并行短時面部特征的駕駛?cè)似跈z測方法?;诩尤肓?? MicroNet模塊、CA注意力機制、Wise-IoU損失函數(shù)的YOLOv7-MCW目標(biāo)檢測網(wǎng)絡(luò)提取駕駛?cè)嗣娌康亩虝r面部特征,再使用并行Informer時序預(yù)測網(wǎng)絡(luò)整合YOLOv7-MCW目標(biāo)檢測網(wǎng)絡(luò)得到的面部時空信息,對駕駛?cè)似跔顟B(tài)進行檢測與預(yù)警。結(jié)果表明:在領(lǐng)域內(nèi)公開數(shù)據(jù)集UTA-RLDD和NTHU-DDD上,YOLOv7-MCW-Informer模型的準(zhǔn)確率分別為97.50%和94.48%,單幀檢測時間降低至28 ms,證明該模型具有良好的實時疲勞檢測性能。
主題詞:智能交通 疲勞檢測 目標(biāo)檢測 注意力機制 時序預(yù)測
中圖分類號:U492.8+4 ? 文獻標(biāo)志碼:A ? DOI: 10.19620/j.cnki.1000-3703.20230617
Research on Driver Fatigue Detection Method Based on Parallel Short-Term Facial Features
Liu Qiang1, Xie Qian1, Fang Xi2, Li Bo3, Xie Xiaomin4
(1. School of Intelligent Systems Engineering, Sun Yat-sen University, Shenzhen 518107; 2. Development & Research Center of State Post Bureau, Beijing 100868; 3. Automobile Engineering Research Institute of Guangzhou Automobile Group Co., Ltd., Guangzhou 511434; 4. Guangdong Marshell Electric Technology Co., Ltd., Zhaoqing 523268)
【Abstract】A driver fatigue detection method based on parallel short-term facial features is proposed to achieve faster and more accurate fatigue warning. The method utilizes the YOLOv7-MCW object detection network, which incorporates the MicroNet module, CA attention mechanism, and Wise-IoU loss function, to extract short-term facial features of the drivers face. The parallel Informer temporal prediction network is then used to integrate the spatiotemporal information obtained from the YOLOv7-MCW object detection network, enabling the detection and warning of driver fatigue. The results demonstrate that the YOLOv7-MCW-Informer model achieves accuracy rates of 97.50% and 94.48% on the publicly available datasets UTA-RLDD and NTHU-DDD, respectively, with a single-frame detection time reduced to 28 ms, proving the excellent real-time fatigue detection performance of the model.
Key words: Intelligent transportation, Fatigue detection, Object detection, Attention mechanism, Time series prediction
【引用格式】 劉強, 謝謙, 方璽, 等. 基于并行短時面部特征的駕駛?cè)似跈z測方法研究[J]. 汽車技術(shù), 2024(5): 15-21.
LIU Q, XIE Q, FANG X, et al. Research on Driver Fatigue Detection Method Based on Parallel Short-Term Facial Features[J]. Automobile Technology, 2024(5): 15-21.
1 前言
基于駕駛?cè)嗣娌刻卣鞯钠跈z測方法因具有快速、準(zhǔn)確的優(yōu)點被廣泛用于交通安全研究。駕駛?cè)说拿娌刻卣髦饕▎挝粫r間內(nèi)閉眼百分比(Percentage of Eyelid Closure Over Time,PERCLOS)[1]、眨眼頻率、視線方向、單位時間內(nèi)張口百分比(Percentage of Mouth Open Over the Pupil over Time,POM)[2]、哈欠頻率、點頭次數(shù)和頭部偏轉(zhuǎn)角等。在較短的單位時間(一般為1 min)內(nèi)具有較為明顯的變化規(guī)律的面部特征,本文稱為短時面部特征,如PERCLOS、POM等。
國內(nèi)外圍繞基于短時面部特征的駕駛?cè)似跈z測展開了相關(guān)研究。Bai等[3]提出使用雙流時空圖卷積網(wǎng)絡(luò)檢測駕駛?cè)似?,采用面部?biāo)志檢測法從實時視頻中提取駕駛?cè)嗣娌繕?biāo)志,然后通過雙流時空圖卷積網(wǎng)絡(luò)得到駕駛?cè)似跈z測結(jié)果,試驗表明,該方法顯著提高了疲勞檢測性能,準(zhǔn)確率高達92.70%,但該模型結(jié)構(gòu)較為復(fù)雜,檢測時間較長,實時性不足。婁平等[4]通過改進的多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)模型定位人臉區(qū)域并截取眼部、嘴部圖像,再通過AlexNet圖像分類網(wǎng)絡(luò)對眼、嘴狀態(tài)進行分類,并基于PERCLOS和POM判定疲勞狀態(tài)。該模型的準(zhǔn)確率達93.50%,但該方法僅捕獲駕駛員面部空間特征,在處理駕駛員在不同駕駛階段、駕駛環(huán)境下的短時面部特征規(guī)律差異上存在不足。Tamanani等[5]使用基于Haar特征的Cascade分類器,從輸入的視頻流中截取人臉并捕獲眼睛、嘴等面部特征,并使用LeNet-5模型進行二分類來確定駕駛?cè)说钠跔顟B(tài),該模型的準(zhǔn)確率達91.80%,但該模型較少考慮并行檢測中眼部特征與嘴部特征存在的規(guī)律差異且檢測速度較慢,模型的魯棒性與實時性存在提升空間。
綜上所述,當(dāng)前基于短時面部特征的駕駛?cè)似隈{駛檢測方法的模型實時性能有待改進,融合時空特征的疲勞檢測研究較少,關(guān)于面部多特征的并行檢測有待深入研究。因此,本文將基于YOLO(You Only Look Once)v7-MCW(Micro-Net Coordinate Attention Wise-IoU)- ?Informer模型,深入探究基于并行短時面部特征的駕駛?cè)似跈z測問題。
2 短時面部特征提取
2.1 YOLOv7模型
YOLOv7[6]在速度和準(zhǔn)確性方面具有極佳表現(xiàn),并提供了對邊緣計算設(shè)備的良好支持。YOLOv7網(wǎng)絡(luò)主要包含主干網(wǎng)絡(luò)(Backbone)、頸部(Neck)、頭部(Head)3個部分。
2.2 改進后的YOLOv7檢測器
本文針對YOLOv7進行適應(yīng)性改進以在保證良好準(zhǔn)確性的基礎(chǔ)上提升單幀檢測速度。主要改進內(nèi)容包括輕量級主干網(wǎng)絡(luò)、注意力機制以及損失函數(shù)。
2.2.1 輕量級主干網(wǎng)絡(luò)
為實現(xiàn)面部特征快速捕獲,需使用輕量化網(wǎng)絡(luò)結(jié)構(gòu)重構(gòu)Backbone部分。在處理極低計算成本問題時,主流輕量級網(wǎng)絡(luò)結(jié)構(gòu)MobileNet和ShuffleNet等存在較為嚴(yán)重的性能下降,因此引入微網(wǎng)絡(luò)(MicroNet)[7]提升極低計算成本下的網(wǎng)絡(luò)性能。MicroNet建立在微分解卷積(Micro-Factorized Convolution,MFC)模塊和動態(tài)最大化(Dynamic Shift-Max,DSM)激活函數(shù)的基礎(chǔ)上。MFC模塊通過在點卷積和深度可分離卷積上的低秩近似值來實現(xiàn)通道數(shù)和輸入輸出連接之間的平衡,DSM激活函數(shù)則動態(tài)地融合了連續(xù)的通道組,增強了節(jié)點的連接性和非線性,以彌補主干網(wǎng)絡(luò)深度的減少。
2.2.2 注意力機制
目前,輕量級網(wǎng)絡(luò)的注意力機制大多采用通道注意力,僅考慮了通道間的信息,忽略了位置信息。盡管后來的瓶頸注意模塊和卷積塊注意模塊嘗試在降低通道數(shù)后通過卷積提取位置注意力信息,但卷積只能提取局部關(guān)系,缺乏長距離關(guān)系提取的能力。因此,引入高效坐標(biāo)注意力機制(Coordinate Attention,CA)[8]模塊,其結(jié)構(gòu)如圖1所示,其中C、W和H分別為通道的數(shù)量、寬度和高度。
2.2.3 損失函數(shù)
邊界框回歸(Bounding Boxes Regression,BBR)損失函數(shù)對于目標(biāo)檢測至關(guān)重要。
引入明智交并比(Wise Intersection over Union,Wise-IoU)v3損失函數(shù)[9],該BBR損失函數(shù)具有動態(tài)非單調(diào)靜態(tài)聚焦機制(Focusing Mechanism,F(xiàn)M):
[LWv3 =rRWIoU LIoU ,r=βδαβ-δ] ? ? ? ? ? ? ? ? (1)
[RIoU=expx-xgt2+y-ygt2W2g+H2g*] ? ? ? ? ? ? ? ?(2)
式中:[LWv3]為Wise-IoU v3損失函數(shù),[LIoU]為交并比損失函數(shù),[RWIoU]為正則懲罰項,[β]為錨框的離群度,[r]為梯度增益,[α]、[δ]為超參數(shù),[RIoU]為交并比正則懲罰項,x、y為邊界框的坐標(biāo)值,xgt、ygt為目標(biāo)框的坐標(biāo),Wg、Hg為最封閉幾何框的寬高。
當(dāng)[β]=[δ]時,[δ]使[r]=1。當(dāng)[β]=C(C為常數(shù))時,錨框?qū)@得最高的梯度增益。
2.2.4 整體結(jié)構(gòu)
圖像經(jīng)過數(shù)據(jù)增強等預(yù)處理后,進入基于MicroNet(包含MicroBlock-A與MicroBlock-B)、擴展高效層聚合網(wǎng)絡(luò)(Extended Efficient Layer Aggregation Networks,E-ELAN)模塊以及空間金字塔池化和全連接空間金字塔卷積(Spatial Pyramid Pooling and Fully Connected Spatial Pyramid Convolution,SPPCSPC)模塊組合而成的主干網(wǎng)絡(luò)。E-ELAN模塊基于原始ELAN結(jié)構(gòu),改變原始計算模塊的同時保持過渡層結(jié)構(gòu),并利用擴張、混洗、合并基數(shù)的思想來增強網(wǎng)絡(luò)學(xué)習(xí)的能力,而不破壞原有的梯度路徑。SPPCSPC模塊在一串卷積中加入并行的多次最大池化操作,可避免由于圖像處理操作所造成的圖像失真等問題,同時也解決了卷積神經(jīng)網(wǎng)絡(luò)提取到重復(fù)特征的難題;主干提取到的特征經(jīng)過CA模塊再次提取,再經(jīng)過Neck模塊特征融合處理得到大、中、小3種尺寸的特征;最終,融合后的特征被送入頭部網(wǎng)絡(luò),經(jīng)過檢測之后輸出結(jié)果。YOLOv7-MCW模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
2.3 特征選取
模擬駕駛系統(tǒng)被認(rèn)為是研究駕駛行為的重要工具[10]。本文通過模擬駕駛試驗得到了具有明顯規(guī)律的駕駛員短時面部特征。為更好地模擬真實駕駛工況,本試驗搭建了具備環(huán)繞屏幕、轉(zhuǎn)向盤、油門踏板、制動踏板、離合器踏板、換擋操縱桿、可調(diào)節(jié)座椅、透明封閉艙、采集攝像頭的模擬駕駛室,并按照真實車型設(shè)定了模擬駕駛系統(tǒng)的加速度、可視范圍、反饋力度等相關(guān)參數(shù),以保證接近真實的駕駛體驗。試驗招募的被試人員均為駕齡超過3年、具備豐富駕駛經(jīng)驗的人員,并有過疲勞駕駛的經(jīng)歷。另外,試驗選用了更易產(chǎn)生疲勞的平直高速公路,駕駛員在身體健康、睡眠充足、精神狀態(tài)良好的情況下開始駕駛,中途開始產(chǎn)生駕駛疲勞,直至主觀感到過于疲勞不能駕駛時試驗停止。如圖3所示,試驗共20組,20位駕駛員的年齡構(gòu)成包括:8位20~30歲的學(xué)生和12位30~50歲的公司職員、社會人士;性別構(gòu)成包括10位男性和10位女性。試驗選用簡單場景,駕駛環(huán)境參考了北京某試驗場的環(huán)形道路,其中直道長度為100 km,模擬駕駛車速限制為最高100 km/h,樣本可以保持長達1 h的直線行駛。所選短時面部特征為閉眼百分比、張口百分比、最長單次閉眼時長、打哈欠頻率,在試驗過程中部分樣本的參數(shù)記錄如表1所示。
2.4 眼部判斷
卡內(nèi)基-梅隆研究中心Wierwille提出了“閉眼百分比”(PERCLOS)的概念,用于衡量人類疲勞狀態(tài)(嗜睡),被定義為單位時間內(nèi)眼睛閉上的時間。美國聯(lián)邦公路管理局和國家公路交通安全管理局在實驗室中開展模擬駕駛,驗證了PERCLOS在描述駕駛?cè)似诜矫娴挠行?,PERCLOS是基于面部特征的檢測方法中最準(zhǔn)確的指標(biāo)之一[11],共有P70、P80、EM3種測量標(biāo)準(zhǔn)。本文采用P80標(biāo)準(zhǔn),該標(biāo)準(zhǔn)是指在一定時間內(nèi),當(dāng)80%以上的瞳孔被眼瞼覆蓋時,眼睛閉合的時間比例,時間尺度為分鐘級。PERCLOS計算公式為:
[PPER =iNfiN×100%] ? ? ? ? ? ? ? ? ? ? (3)
式中:i為視頻幀順序,fi為第i幀眼睛閉合的幀數(shù),[iNfi]為單位時間內(nèi)眼睛閉合的總幀數(shù),N為單位時間內(nèi)視頻總幀數(shù)。
最長單次閉眼時長EM也是衡量眼部狀態(tài)的重要參數(shù),時間尺度為秒級。通過對眼睛連續(xù)閉合的視頻幀數(shù)進行計數(shù),根據(jù)視頻幀率,可以得到最長單次閉眼時長:
[EM=gi×Fv] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (4)
式中:gi為眼睛閉合的幀數(shù),F(xiàn)v為視頻幀率。
2.5 嘴部判斷
單位時間內(nèi)張口百分比(Percentage of Mouth Open Over the Pupil over Time,POM)計算公式為:
[PPOM=iNhiN×100%] ? ? ? ? ? ? ? ? ? ? ? (5)
式中:hi為第i幀嘴張開的幀數(shù),[iNhi]為單位時間內(nèi)張口的總幀數(shù)。
打哈欠頻率NY是衡量嘴部狀態(tài)的重要參數(shù)。POM統(tǒng)計一定時間內(nèi),駕駛員張口時間所占比例,但除打哈欠外,駕駛員還可能存在說話等其他張口行為;NY統(tǒng)計一定時間內(nèi),駕駛員打哈欠的次數(shù),強調(diào)打哈欠這一具體行為。區(qū)分這兩個指標(biāo),有助于細(xì)化嘴部行為,提升準(zhǔn)確性。通過對嘴巴連續(xù)張開的視頻幀數(shù)進行計數(shù),可以得到打哈欠的頻率:
[NY=FYT] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (6)
式中:FY為單位時間內(nèi)打哈欠的總次數(shù),T為單位時間。
2.6 模型訓(xùn)練
為增加數(shù)據(jù)準(zhǔn)確性,進行了15組單次時長為1~2 h的駕駛模擬試驗,并通過攝像頭采集駕駛?cè)嗣娌繄D像。從這些圖像中,截取了15 340個不同狀態(tài),并進行標(biāo)注,制作為短時疲勞檢測面部圖片數(shù)據(jù)集(Short-time Fatigue Driving Detection Image Dataset,SFDDID),用來訓(xùn)練YOLOv7-MCW模型,如圖4所示。
2.7 初始化
本文通過駕駛模擬試驗來檢驗?zāi)P蜋z測效果并得到相應(yīng)參數(shù)的初始范圍,為模型提供較好先驗。結(jié)果顯示,駕駛員在疲勞時,閉眼百分比、張口百分比、最長閉眼時間和打哈欠頻率存在明顯變化,驗證了本文選取規(guī)律的科學(xué)性,并作為模型訓(xùn)練初始值,如表2所示。
3 疲勞檢測
本文疲勞檢測主要基于Informer[12]框架實現(xiàn),通過對目標(biāo)檢測網(wǎng)絡(luò)得到的面部數(shù)據(jù)進行分析,對駕駛員的疲勞狀態(tài)進行判別。時序預(yù)測算法運用到疲勞駕駛檢測上,可使分類預(yù)測結(jié)果結(jié)合時間特性,更符合疲勞發(fā)生的過程[13]。
Informer模型整體上由編碼器(Encoder)和解碼器(Decoder)兩個部分組成,如圖5所示。其中,編碼器用于捕獲長序列輸入的內(nèi)部依賴關(guān)系,解碼器進一步實現(xiàn)序列檢測。本文先利用檢測器檢測到駕駛?cè)说拿娌靠臻g信息,再輸送進Informer中分析時序數(shù)據(jù),模型學(xué)習(xí)到面部時空特征之間的依賴關(guān)系,并基于這些關(guān)系來檢測駕駛?cè)耸欠裉幱谄跔顟B(tài)。
眼部特征與嘴部特征的時空變化存在差異,使用兩組Informer模型進行組合,分別為Informer-A和Infomer-B,二者具有不同的權(quán)重,分別處理眼部特征與嘴部特征,形成并行結(jié)構(gòu)。
將眼部特征指標(biāo)、嘴部特征指標(biāo)分別輸入,并行計算。PPER、EM、PPOM以及NY 4個指標(biāo)分別作為并行Informer網(wǎng)絡(luò)的4個時間序列輸入,每個時間序列輸入包括多個時間步的指標(biāo)值。將Informer組合網(wǎng)絡(luò)的輸出作為疲勞狀態(tài)的預(yù)測概率值。
3.1 數(shù)據(jù)標(biāo)準(zhǔn)化
通過目標(biāo)檢測網(wǎng)絡(luò)定位駕駛員的面部特征后,計算PPER、EM、PPOM以及NY并對這4個參數(shù)進行歸一化,本文采用最大最小歸一化:
[s'=si-sminsmax-smin] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (7)
式中:[s']為指標(biāo)的最終得分,[si]為實時檢測到的指標(biāo)的得分,[smin、smax]分別為檢測過程中疲勞指標(biāo)的最小值和最大值。
3.2 分類器
在原有編碼器至解碼器的線路外增加去時序空間特征輔助分類器,由1個輸入層、40個殘差卷積層、1個平滑層、2個全連接層構(gòu)成,用于跳過時序輔助進行空間狀態(tài)分類,以增加準(zhǔn)確性,其結(jié)構(gòu)如圖6所示。
輔助分類器中每個隱含層的激活函數(shù)都使用線性修正單元(Rectified Linear Unit,ReLU),輸出層的激活函數(shù)使用Sigmoid函數(shù),將輸出值映射到0~1的范圍內(nèi)。使用隨機梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化器,迭代50次,批尺寸設(shè)置為32,初始學(xué)習(xí)率設(shè)置為0.001。模型整體檢測流程如圖7所示。
4 試驗驗證
4.1 數(shù)據(jù)集
本文選用2個公開數(shù)據(jù)集,德州大學(xué)阿靈頓分校真實生活瞌睡數(shù)據(jù)集(University of Texas at Arlington Real-Life Drowsiness Dataset,UTA-RLDD)[14]和臺灣清華大學(xué)計算機視覺實驗室的駕駛員疲勞檢測數(shù)據(jù)集(National Tsing Hua University Drowsy Driver Dataset, NTHU-DDD)[15]。
為了測試模型性能,進行了30組單次時長為1~2 h的模擬駕駛試驗,并通過攝像頭采集駕駛?cè)嗣娌繄D像,制作為短時疲勞檢測面部視頻數(shù)據(jù)集(Short-time Fatigue Driving Detection Video Dataset,SFDDVD),采集了30位年齡在20~30歲之間,駕齡在1年以上的受試者在高速道路上持續(xù)駕駛的正面面部視頻。通過人工切分與標(biāo)定,得到了600個時長為1 min的標(biāo)簽為“清醒”狀態(tài)與“疲勞”狀態(tài)的視頻片段。
4.2 試驗平臺
本試驗的平臺為一臺配備Intel? CoreTM i7-10700K CPU 3.80 GHz處理器,內(nèi)存為32G,配置NVIDIA GeForce RTX3060 12 GB顯卡,Ubuntu 22.04.1操作系統(tǒng)的計算機。
4.3 在UTA-RLDD數(shù)據(jù)集上的表現(xiàn)
本文將UTA-RLDD進行了重新劃分,將數(shù)據(jù)標(biāo)注為“清醒”和“疲勞”2類,分別獲得了60個“疲勞”類視頻片段和60個“清醒”類視頻片段。準(zhǔn)確率[PAcc]、精確率[PPre]和召回率[PRec]分別為:
[PAcc =TP+TNTP+FN+FP+TN] ? ? ? ? ? ? ? ? ? ? ? ?(8)
[PPre =TPTP+FP] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(9)
[PRec =TPTP+FN] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(10)
式中:[TP]為被正確分類為“疲勞”的樣本,[FP]為被錯誤分類為“疲勞”的樣本[,TN]代表被正確分類為“清醒”的樣本,[FN]為被錯誤分類為“清醒”的樣本。
準(zhǔn)確率、精確率和召回率計算結(jié)果如表3所示。
4.4 在NTHU-DDD數(shù)據(jù)集上的表現(xiàn)
對于NTHU-DDD數(shù)據(jù)集,根據(jù)給定的每一幀標(biāo)簽,從中裁剪出多個標(biāo)記為“清醒”或“疲勞”的視頻片段,如表4所示,試驗結(jié)果如表5所示。
4.5 消融試驗
YOLOv7-MCW-Informer模型對主干網(wǎng)絡(luò)、注意力機制、損失函數(shù)進行了改進。為評估不同結(jié)構(gòu)改進與組合對算法性能的提升,設(shè)計了消融試驗,共計8組。所有模型均在相同數(shù)據(jù)集上進行訓(xùn)練,得到最佳權(quán)重后在同一數(shù)據(jù)集SFDDVD上進行測試。結(jié)果如表6所示,M0~M7分別代表YOLOv7-Informer、YOLOv7-M-Informer、YOLOv7-C-Informer、YOLOv7-W-Informer、YOLOv7-MC-Informer、YOLOv7-MW-Informer、 ? ? ? ?YOLOv7-CW-Informer、YOLOv7-MCW-Informer8種模型??梢钥闯?,本文提出的3個改進方法相比于原始的YOLOv7算法,性能方面均具有小幅提升。相比于最終算法YOLOv7-MCW-Informer(M7)算法,去除任何一個改進方法都會使得模型性能下降。消融試驗結(jié)果證明了本文所提出的改進方法的有效性。
4.6 與現(xiàn)有模型的對比
表7給出了本文提出的模型與其他算法模型在性能上的比較。在UTA-RLDD上準(zhǔn)確率可達97.50%,單幀檢測時間為33 ms;在NTHU-DDD上準(zhǔn)確率可達94.48%,單幀檢測時間為28 ms。相較于文獻[3]、文獻[5]、文獻[16]、文獻[17]中給出的方法,本文方法在檢測準(zhǔn)確率上有一定提升;與文獻[18]、文獻[19]對比,在同一數(shù)據(jù)集上,單幀檢測速度接近的前提下,本文提出的模型具有較高的準(zhǔn)確率,分別高出21.88%和7.74%;本模型在保持檢測準(zhǔn)確性有所提升的前提下,大幅縮減了檢測時間;與文獻[5]對比,在同一數(shù)據(jù)集上,準(zhǔn)確率提升的前提下,單幀檢測時間大幅下降,本文提出的模型檢測速度接近其4倍。由此可以看出,YOLOv7-MCW-Informer模型通過并行網(wǎng)絡(luò)分析短時面部特征,融合多維面部信息,提升了檢測準(zhǔn)確性與實時性。
5 結(jié)束語
本文提出了一種基于并行短時面部特征的駕駛?cè)似隈{駛檢測方法。YOLOv7-MCW-Informer模型相較于現(xiàn)有方法能夠提升疲勞檢測的準(zhǔn)確性,YOLOv7-MCW-Informer模型在領(lǐng)域內(nèi)公開數(shù)據(jù)集UTA-RLDD、NTHU-DDD上分別達到97.50%和94.48%的準(zhǔn)確率;相較于現(xiàn)有工作,保持準(zhǔn)確性的基礎(chǔ)上具備更好的實時性,單幀檢測時間最低達到28 ms,時序預(yù)測模型能夠更好地提取駕駛?cè)似跔顟B(tài)的變化趨勢,有利于及早預(yù)警和干預(yù)。
參 考 文 獻
[1] DU G, ZHANG L, SU K, et al. A Multimodal Fusion Fatigue Driving Detection Method Based on Heart Rate and ? ? ? ?PERCLOS[J]. IEEE Transactions on Intelligent ? ? ? ? ? ? ? Transportation Systems, 2022, 23(11): 21810-21820.
[2] YE M, ZHANG W, CAO P, et al. Driver Fatigue Detection Based on Residual Channel Attention Network and Head Pose Estimation[J]. Applied Sciences, 2021, 11(19).
[3] BAI J, YU W, XIAO Z, et al. Two-Stream Spatial-Temporal Graph Convolutional Networks for Driver Drowsiness ? ? ? ?Detection[J]. IEEE Transactions on Cybernetics, 2021, 52(12): 13821-13833.
[4] 婁平, 楊欣, 胡輯偉, 等. 基于邊緣計算的疲勞駕駛檢測方法[J]. 計算機工程, 2021, 47(7): 13-20+29.
LOU P, YANG X, HU J W, et al. Fatigue Driving Detection Method Based on Edge Computing[J]. Computer ? ? ? ? ? ? ? ?Engineering, 2021, 47(7): 13-20+29.
[5] TAMANANI R, MURESAN R, AL-DWEIK A. Estimation of Driver Vigilance Status Using Real-Time Facial Expression and Deep Learning[J]. IEEE Sensors Letters, 2021, 5(5): 1-4.
[6] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for ? ?Real-Time Object Detectors[C]// Oxford: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern ? Recognition. 2023: 7464-7475.
[7] LI Y, CHEN Y, DAI X, et al. Micronet: Improving Image ? ?Recognition with Extremely Low Flops[C]// Proceedings of the IEEE/CVF International Conference on Computer ? ? ? ?Vision. Montreal: IEEE, 2021: 468-477.
[8] HOU Q, ZHOU D, FENG J. Coordinate Attention for Efficient Mobile Network Design[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern ? ? ? ? ? ?Recognition. Nashville: IEEE, 2021: 13713-13722.
[9] WANG W, LIU W. Small Object Detection with YOLOv8 ? Algorithm Enhanced by MobileViTv3 and Wise-IoU[C]// Proceedings of the 2023 12th International Conference on Computing and Pattern Recognition. Qingdao: ACM, 2023: 174-180.
[10] SOARES S, FERREIRA S, COUTO A. Driving Simulator Experiments to Study Drowsiness: A Systematic Review[J]. Traffic Injury Prevention, 2020, 21(1): 29-37.
[11] KHUNPISUTH O, CHOTCHINASRI T, KOSCHAKOSAI V, et al. Driver Drowsiness Detection Using Eye-Closeness Detection[C]// 2016 12th International Conference on Signal-Image Technology & Internet-Based Systems (SITIS). Naples: IEEE, 2016: 661-668.
[12] ZHOU H, ZHANG S, PENG J, et al. Informer: Beyond ? ? ?Efficient Transformer for Long Sequence Time-Series ?Forecasting[C]// Proceedings of the AAAI Conference on Artificial Intelligence. Vancouver: AAAI 2021, 35(12): 11106-11115.
[13] 廖冬杰. 基于Dlib和變種Transformer的哈欠檢測方法[J]. 汽車技術(shù), 2023(3): 42-48.
LIAO D J. Yawn Detection Method Based on Dlib and ? Variant Transformer[J]. Automobile Technology, 2023(3): 42-48.
[14] GHODDOOSIAN R, GALIB M, ATHITSOS V. A Realistic Dataset and Baseline Temporal Model for Early Drowsiness Detection[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Long Beach: IEEE, 2019.
[15] WENG C H, LAI Y H, LAI S H. Driver Drowsiness ? ? ? ? ? Detection via A Hierarchical Temporal Deep Belief ? ? ? ? Network[C]// ACCV Workshops. Taipei, China: Springer ? International Publishing, 2017.
[16] 任俊, 魏霞, 黃德啟, 等. 基于眼睛狀態(tài)多特征融合的疲勞駕駛檢測[J]. 計算機工程與設(shè)計, 2022, 43(11): 3187-3194.
REN J, WEI X, HUANG D Q, et al. Fatigue Driving ? ? ? ? ? Detection Based on Multi-Feature Fusion of Eye Status[J]. Computer Engineering and Design, 2022, 43(11): 3187-3194.
[17] 王鵬, 神和龍, 尹勇, 等. 基于深度學(xué)習(xí)的船舶駕駛員疲勞檢測算法[J]. 交通信息與安全, 2022, 40(1): 63-71.
WANG P, SHEN H L, YIN Y, et al. Ship Driver Fatigue ? ?Detection Algorithm Based on Deep Learning[J]. Traffic ? ? ?Information and Safety, 2022, 40(1): 63-71.
[18] YU J, PARK S, LEE S, et al. Representation Learning, Scene Understanding, and Feature Fusion for Drowsiness Detection[C]// ACCV 2016 Workshops. Taipei, China: Springer International Publishing, 2017.
[19] BEKHOUCHE S E, RUICHEK Y, DORNAIKA F. Driver Drowsiness Detection in Video Sequences Using Hybrid ? Selection of Deep Features[J]. Knowledge-Based Systems, 2022, 252.
(責(zé)任編輯 王 一)
修改稿收到日期為2023年8月7日。