摘 要:為了保障交通安全,避免負(fù)面情緒影響駕駛員狀態(tài)導(dǎo)致交通慘劇的發(fā)生,提出了一種結(jié)合注意力算法的改進(jìn)殘差網(wǎng)絡(luò)來監(jiān)測車輛駕駛場景中駕駛員的異常情緒。首先,使用自適應(yīng)直方圖等一系列手段對圖像進(jìn)行預(yù)處理,突出表情特征;然后,采用ECA塊自優(yōu)化通道的權(quán)重值,實現(xiàn)局部跨信道交互,提高精度,增強(qiáng)信道特性;最后,將注意力機(jī)制與特征提取算法融合實現(xiàn)表情識別。結(jié)果表明,與改進(jìn)前的網(wǎng)絡(luò)相比,該表情識別方法參數(shù)更少,速度更快,分類效果更好,在CK+、FER2013和RAF DB數(shù)據(jù)集上的準(zhǔn)確率分別為96.38%、72.25%和87.97%。該算法能夠更有效地識別駕駛員的異常情緒,對預(yù)防交通事故與保障行車安全具有積極意義。
關(guān)鍵詞:深度學(xué)習(xí);計算機(jī)視覺;表情識別;行為檢測
中圖分類號:TP242文獻(xiàn)標(biāo)識碼:A
Driver Abnormal Emotion Recognition Based on Improved RepVGG
PAN Dongjie1, QIN Xiao1, CUI Yuxia1, WANG Xianlun1,2
(1.College of Electromechanical Engineering, Qingdao University of Science
and Technology, Qingdao, Shandong 266061, China;
2.Qingdao Anjie Medical Technology Co., Ltd., Qingdao, Shandong 266100, China)
Abstract:To ensure traffic safety and avoid negative emotions affecting the driver’s state leading to traffic accidents, this paper proposes an improved residual network combined with attention algorithms to monitor the abnormal emotions of drivers in vehicle driving scenarios. Firstly, a series of techniques such as adaptive histograms are used to preprocess the image and highlight facial features; then, using ECA blocks to self optimize the weight values of channels, achieving local cross channel interaction, improving accuracy, and enhancing channel characteristics; finally, the attention mechanism is integrated with the feature extraction algorithm to achieve expression recognition. The results show that compared with the pre improved network, this expression recognition method has fewer parameters, faster speed, and better classification performance. The accuracy on the CK+, FER2013, and RAF DB datasets is 96.38%, 72.25%, and 87.97%, respectively. This algorithm can more effectively identify abnormal emotions of drivers, which has a positive significance for preventing traffic accidents and ensuring driving safety.
Key words:deep learning;computer version;facial emotion recognition;behavior monitoring
作為人類感知系統(tǒng)的重要組成部分,情緒對交通安全的影響越來越受到人們的關(guān)注,研究表明憤怒和沮喪等負(fù)面情緒會影響交通安全并增加事故風(fēng)險[1-2]。Winter和Dodou的一項研究發(fā)現(xiàn),憤怒情緒下的司機(jī)更有可能做出攻擊性的駕駛行為,如尾隨和超速,這會增加交通事故的風(fēng)險[3]。Dula和Geller的一項研究發(fā)現(xiàn),駕駛員的壓力和攻擊性駕駛行為之間存在相關(guān)性,這會增加交通事故的可能性[4]。Lajunen和Summala的一項研究表明,司機(jī)在憤怒和沮喪狀態(tài)下的車禍率要高得多[5]。
使用車載攝像頭和智能系統(tǒng)來檢測和解決駕駛員疲勞和其他危險行為是提高駕駛安全的一種有效方法。Kanade等開發(fā)了一種智能駕駛員監(jiān)控系統(tǒng),該系統(tǒng)使用人臉識別和眼動追蹤技術(shù)來檢測駕駛員的注意力是否集中[6]。
在駕駛員情緒識別領(lǐng)域,面部表情識別算法普遍采用深度學(xué)習(xí)方法,例如,Xie等開發(fā)了一種從面部表情中識別情緒的深度學(xué)習(xí)方法。該研究取得了顯著的成功,證明了識別和分類情緒的準(zhǔn)確性[7]。此外,Li等的一項研究提出了一種用于面部表情識別的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,在基準(zhǔn)數(shù)據(jù)集上獲得了良好的結(jié)果[8]。
為了進(jìn)一步解決殘差網(wǎng)絡(luò)訓(xùn)練過程中出現(xiàn)的特征丟失問題,更好地捕捉人臉微表情等特征,優(yōu)化表情的分類,本研究將RepVGG與ECAnet融合,在實現(xiàn)跨通道交互的同時,向網(wǎng)絡(luò)添加多條梯度流通通道。與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)相比,本研究提出的融合網(wǎng)絡(luò)REN RepVGG,推理更快,參數(shù)更少,魯棒性更強(qiáng),能夠更好地識別出有害的情緒。
1 基礎(chǔ)算法
本文所提出的算法以RepVGG表情識別網(wǎng)絡(luò)為基礎(chǔ)。RepVGG以VGG網(wǎng)絡(luò)為基礎(chǔ),添加了殘差神經(jīng)網(wǎng)絡(luò)中的Identity和殘差結(jié)構(gòu),并提出了結(jié)構(gòu)重參數(shù)化技術(shù)。RepVGG網(wǎng)絡(luò)由大小為3×3的卷積核組成,內(nèi)嵌有ReLU激活函數(shù)。
RepVGG通過結(jié)構(gòu)重參數(shù)化,將多分支上的卷積層融合相加合并為一個卷積層,實現(xiàn)從多分支模型到單路模型的轉(zhuǎn)換。因此,RepVGG網(wǎng)絡(luò)的內(nèi)存占用率更小,可以獲得更快的推理速度。RepVGG的多分支結(jié)構(gòu)如圖1所示。
殘差網(wǎng)絡(luò)存在多個分支,訓(xùn)練一個網(wǎng)絡(luò)相當(dāng)于訓(xùn)練了多個網(wǎng)絡(luò)。模型的加深不僅可以使模型的深層獲得較好的魯棒性,還可以更好地處理深層網(wǎng)絡(luò)的梯度消失問題。
2 注意力引入與損失函數(shù)的優(yōu)化
2.1 通道注意力的引入
與傳統(tǒng)的簡單特征融合方法相比,通道注意力機(jī)制可以更精細(xì)地控制每個通道的權(quán)重,更好地捕捉特征并抑制噪聲。ECANet由SENet的激勵部分改進(jìn)而來。ECA模塊在不降維的情況下使用GAP方法對特征圖進(jìn)行聚類,通過自適應(yīng)函數(shù)確定卷積核的大小k,執(zhí)行一維卷積運(yùn)算,最后使用Sigmoid函數(shù)對其進(jìn)行歸一化,并將其與原始特征圖的相應(yīng)通道相乘,以此獲得加權(quán)特征圖。ECANet結(jié)構(gòu)原理如圖2所示[10]。
ECA網(wǎng)絡(luò)模塊使用大小為k的一維卷積在原始信道數(shù)據(jù)之間進(jìn)行卷積運(yùn)算,實現(xiàn)本地信道信息的融合,實現(xiàn)局部跨信道交互,從而有效提高模型精度,增強(qiáng)信道特性,避免特征丟失。變量“k”表示跨通道交互的覆蓋范圍。其中,“通道”是輸入特征的通道數(shù)量,即:
k=log2Cγ+bγ(1)
其中,γ=2,b=1。
增加ECA模塊可以避免在信道保持學(xué)習(xí)過程中丟失信道重構(gòu)的有用信息,減少模型中的參數(shù)數(shù)量,實現(xiàn)局部跨信道交互,有效提高模型精度,增強(qiáng)信道特性,從而提高模型性能。
2.2 損失函數(shù)的優(yōu)化
中心損失函數(shù)可以使類內(nèi)的特征接近中心點(diǎn),并使類內(nèi)變化最小化;然而,它本身并不能完全實現(xiàn)類間分類。其次,Softmax學(xué)習(xí)到的類特征不具有足夠的區(qū)分性,為了增強(qiáng)其區(qū)分能力,本研究將兩個損失函數(shù)組合使用。
假設(shè)特征圖尺寸是(x×y×M),將輸入特征圖扁平化為[N×1]個向量(N=x×y×M),之后將扁平化的向量送進(jìn)全連接層,全連接層參數(shù)權(quán)重為W(T×N),T表示分類的類別數(shù),全連接層處理后會得到[T×1]個的向量。之后將其輸入到Softmax層并歸一到[0,1]之間,得到每個類別的概率,最后再通過交叉熵計算損失。
Softmax損失函數(shù)如式(2)所示:
Lsoftmax=-1T∑Tj=1lgeaj∑Tk=1eak(2)
其中,aj表示這[T×1]個向量中的第j個值,分母表示所有值的求和。
設(shè)輸入的人臉圖像為xi,其人臉對應(yīng)的類別為yi,給每個類別規(guī)定中心點(diǎn)的位置cyi,使每個人臉圖像對應(yīng)的特征xi盡量地靠近每個對應(yīng)類別的中心點(diǎn)cyi。在理想狀態(tài)下cyi應(yīng)該隨著特征的改變而調(diào)整,這就是說將整個訓(xùn)練樣本進(jìn)行計算,然后根據(jù)每個類別對應(yīng)所有圖片特征的平均值計算結(jié)果來確定類別中心點(diǎn)的位置cyi。
Lcenter=12∑mi=1‖xi-cyi‖22(3)
通過參數(shù)λ調(diào)整兩個函數(shù)的比值:
L=Lsoftmax+λLconter=-1T∑Tj=1lgeaj∑Tk=1eak+λ2∑mi=1‖xi-cyi‖22(4)
當(dāng)λ=0時,式(4)可以看成是只有Softmax損失函數(shù)的特例。
2.3 表情識別算法的網(wǎng)絡(luò)
在車輛行駛過程中,駕駛員的頭部和面部通常固定在同一位置。使用車載攝像頭捕捉駕駛員的面部圖像后,圖像將被裁剪成合適的大小。
駕駛員異常情緒的識別過程中,使用攝像頭捕捉到圖像,進(jìn)行人臉檢測,并對采集到的圖像信息進(jìn)行預(yù)處理;之后,送入識別網(wǎng)絡(luò)進(jìn)行特征提取與特征識別,實現(xiàn)對人臉表情的識別與分類。
圖像預(yù)處理的主要內(nèi)容包括調(diào)整樣本圖像的對比度,以便于模型學(xué)習(xí)面部表情特征,從而使后續(xù)識別更加準(zhǔn)確。
表情識別的主要內(nèi)容包括特征提取與特征分類。預(yù)處理后的圖片被送入到四個串聯(lián)的RepVGG和ECA融合而成的REN塊結(jié)構(gòu)。該結(jié)構(gòu)如圖3所示。
提取特征后,圖片經(jīng)全連接層送入分類網(wǎng)絡(luò)。使用Softmax與中心損失(Center loss)函數(shù)實現(xiàn)分類過程,并判斷人員當(dāng)前的情緒狀態(tài)是否異常。表情識別網(wǎng)絡(luò)REN RepVGG的總體結(jié)構(gòu)如圖4所示。
3 實驗設(shè)置與數(shù)據(jù)分析
實驗環(huán)境包括Windows 10操作系統(tǒng)、AMD 5600X處理器、NVIDIA GeForce RTX 3060Ti顯卡、CUDA 12.0加速庫、Python 3.6編程語言和Pytorch 1.9深度學(xué)習(xí)框架。
3.1 實驗數(shù)據(jù)集
為了全面評估本文提出的REN RepVGG面部表情識別模型的性能,選擇了三個常用的公共數(shù)據(jù)集,即CK+、FER2013和RAF DB作為實驗數(shù)據(jù)集。
CK+(擴(kuò)展Cohn Kanade數(shù)據(jù)集)是CK數(shù)據(jù)集的擴(kuò)展版本,是123名志愿者在受控實驗室環(huán)境中拍攝的面部表情圖像的集合。FER2013數(shù)據(jù)集在2013年的國際機(jī)器學(xué)習(xí)會議上推出,數(shù)據(jù)集由35886張尺寸為48×48像素的灰度面部表情圖像組成。RAF DB是一個大規(guī)模的面部表情識別數(shù)據(jù)集,包含從互聯(lián)網(wǎng)下載的30000多張面部表情圖像。
3.2 圖像預(yù)處理與參數(shù)設(shè)置
本文中使用的對比度受限自適應(yīng)直方圖均衡(CLAHE)[11]可以在直方圖中均勻分布樣本亮度,從而在不影響整體對比度效果的情況下增強(qiáng)局部對比度。原始圖像、直方圖均衡和自適應(yīng)直方圖均衡效果的比較如圖5所示。從圖中可以看出,自適應(yīng)直方圖均衡后,圖像的整體對比度增加,面部信息不丟失,面部特征更加突出。
網(wǎng)絡(luò)模型的參數(shù)設(shè)置對模型的訓(xùn)練和模型性能有很大影響,選擇合適的參數(shù)可以得到優(yōu)秀的模型性能。本次實驗對于三個數(shù)據(jù)集設(shè)置的迭代次數(shù)為120,batch size設(shè)置為64,初始學(xué)習(xí)率為0.001。本文選用Softmax和中心損失函數(shù)相結(jié)合的損失函數(shù)求解誤差,使用Nesterov動量的SGD和Adam優(yōu)化器進(jìn)行聯(lián)合優(yōu)化進(jìn)行權(quán)重修整,SGD的初始動量參數(shù)設(shè)置為0.5,權(quán)重衰減為0.00035;使用回調(diào)函RLRP(ReduceLROnPlateau) 作為學(xué)習(xí)率調(diào)度器對學(xué)習(xí)率進(jìn)行調(diào)節(jié),提升模型性能。
3.2 實驗結(jié)果分析
在實驗開始時,REN RepVGG網(wǎng)絡(luò)被用作骨干網(wǎng)絡(luò)。設(shè)置和改進(jìn)所有模型參數(shù)后,在預(yù)處理的數(shù)據(jù)集上訓(xùn)練原始模型。CK+、FER2013和RAF DB數(shù)據(jù)集上,原始網(wǎng)絡(luò)的準(zhǔn)確率分別為90.91%、68.35%和83.93%。
對數(shù)據(jù)集進(jìn)行預(yù)處理后,對REN RepVGG模型進(jìn)行訓(xùn)練,以獲得最終的識別精度。在CK+數(shù)據(jù)集上的準(zhǔn)確率達(dá)到96.38%,比原始模型高5.47%。同時,在FER2013上的準(zhǔn)確率達(dá)到72.25%,比原始模型提高了3.9%,在RAF DB上的準(zhǔn)確度達(dá)到87.97%,提高了3.04%。
改進(jìn)前后每個數(shù)據(jù)集上改進(jìn)模型的準(zhǔn)確性比較如圖6~圖8所示。迭代結(jié)束時精度達(dá)到最大值并保持不變。結(jié)果表明,該模型已經(jīng)實現(xiàn)了收斂,并且進(jìn)一步的迭代不會顯著提高精度。
表1、表2和表3將REN RepVGG面部識別網(wǎng)絡(luò)在CK+、FER2013和RAF DB數(shù)據(jù)集上的實驗結(jié)果與一些現(xiàn)有的改進(jìn)面部識別算法進(jìn)行了比較。REN RepVGG網(wǎng)絡(luò)在CK+數(shù)據(jù)集上的性能略弱于其他算法,但在FER2013和RAF DB數(shù)據(jù)集上性能較高,進(jìn)一步證明了該算法在人臉識別分類網(wǎng)絡(luò)中的優(yōu)越性能。
在CK+數(shù)據(jù)集上,憤怒和輕蔑的識別準(zhǔn)確度從75%和83%提升到了95%和100%。在FER2013數(shù)據(jù)集上則分別從61%和55%提升到了72%和63%。在RAF DB數(shù)據(jù)集上則分別從84%和47%提升到了86%和66%。證明REN RepVGG相較于原始網(wǎng)絡(luò),對車輛駕駛過程中駕駛員的負(fù)面情緒識別準(zhǔn)確度有了明顯提高。
4 結(jié) 論
本文在RepVGG的基礎(chǔ)上,對現(xiàn)有表情識別算法進(jìn)行了改進(jìn),引入了ECA等注意力機(jī)制。REN RepVGG網(wǎng)絡(luò)參數(shù)更少,占用內(nèi)存少而且能實現(xiàn)多通道的并行訓(xùn)練。實驗結(jié)果表明,REN RepVGG在數(shù)據(jù)集上的準(zhǔn)確率相較于原始模型至少提升了3%。本文將該算法與現(xiàn)有最先進(jìn)的情感識別算法進(jìn)行了比較驗證,進(jìn)一步驗證了算法的優(yōu)越性。最后,混淆矩陣的結(jié)果驗證了REN RepVGG針對憤怒等負(fù)面情緒的識別準(zhǔn)確率相比于傳統(tǒng)RepVGG提升了12%左右。
REN RepVGG較好地解決了傳統(tǒng)RepVGG網(wǎng)絡(luò)針對憤怒、輕蔑等駕駛員異常情緒識別精度低下、誤分類較多的問題。該算法能更精準(zhǔn)地實現(xiàn)對駕駛員異常情緒的識別,對預(yù)防交通事故與保障行車安全具有積極意義。
參考文獻(xiàn)
[1] 苗馨寧.基于面部表情和語音信息的駕駛?cè)饲榫w識別研究[D].長春:吉林大學(xué),2023.
[2] 肖華飛.駕駛員情緒識別、風(fēng)險映射與預(yù)警方法研究[D].重慶:重慶大學(xué),2022.
[3] WINTER D J ,DODOU D .Response to second commentary on “the driver behaviour questionnaire as a predictor of accidents: a meta analysis”[J].Journal of Safety Research,2012,43(1):94-98.
[4] DULA S C ,GELLER E .Risky, aggressive, or emotional driving: addressing the need for consistent communication in research[J].Journal of Safety Research,2003,34(5):559-566.
[5] LAJUNEN T ,SUMMALA H .Can we trust self reports of driving? Effects of impression management on driver behaviour questionnaire responses[J].Transportation Research Part F: Psychology and Behaviour,2003,6(2):97-107.
[6] KANADE P, DAVID F, KANADE S. Convolutional neural networks (CNN) based eye gaze tracking system using machine learning algorithm[J]. European Journal of Electrical Engineering and Computer Science, 2021, 5(2): 36-40.
[7] XIE S F,SHAN S G,CHEN X L, et al.Fusing local patterns of Gabor magnitude and phase for face recognition.[J].IEEE Transactions on Image Processing : a Publication of the IEEE Signal Processing Society,2010,19(5):1349-1361.
[8] LI J ,WANG Y D ,SEE J , et al.Micro expression recognition based on 3D flow convolutional neural network[J].Pattern Analysis and Applications,2019,22(4):1331-1339.
[9] ZHANG Z X, WU Y X, ZHANG J, et al. Efficient channel attention for deep convolutional neural networks[C]. Proceedings of the AAAI Conference on Artificial Intelligence. 2021.
[10]LIU W Y, WEN Y D,YU Z D, et al.Large margin softmax loss for convolutional neural networks[J].CoRR,2016,abs/1612.02295.
[11]REZA A M. Realization of the contrast limited adaptive histogram equalization (CLAHE) for real time image enhancement[J]. Journal of VLSI Signal Processing Systems for Signal, Image and Video Technology, 2004, 38: 35-44.
[12]NAVEEN N H K ,SURESH A K ,GURU S M P , et al.Automatic facial expression recognition combining texture and shape features from prominent facial regions[J].IET Image Processing,2022,17(4):1111-1125.
[13]PU L P, ZHU L Y. Differential residual learning for facial expression recognition[C]//2021 The 5th International Conference on Machine Learning and Soft Computing. 2021:103-108.
[14]SHAHZAD T, IQBAL K, KHAN M A, et al. Role of zoning in facial expression using deep learning [J]. IEEE, 2023, 11: 16493-16508.
[15]FARD A P, MAHOOR M H. Ad corre: adaptive correlation based loss for facial expression recognition in the wild[J]. IEEE, 2022, 10: 26756-26768.
[16]SHEN X Y, XU X M, ZHUANG Y. Facial Emotion Recognition Based On Sobel Resnet[C]//2021 IEEE 5th Information Technology, Networking, Electronic and Automation Control Conference (ITNEC). IEEE, 2021, 5: 484-488.
[17]VULPE GRIGORAI A, GRIGORE O. Convolutional neural network hyperparameters optimization for facial emotion recognition[C]//International Symposium on Advanced Topics in Electrical Engineering (ATEE). IEEE, 2021: 1-5.
[18]ZHU XL, HE Z L, ZHAO L, et al. A cascade attention based facial expression recognition network by fusing multi scale spatio temporal features[J]. Sensors, 2022, 22(4): 1350.
[19]FARZANEH A H, QI X J. Facial expression recognition in the wild via deep attentive center loss[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2021: 2402-2411.