摘" 要: 駕駛人視覺注意力的深入研究對于預測不安全駕駛行為和理解駕駛行為具有重要意義。為此,提出一種基于視頻圖像驅動的駕駛人注意力估計方法,以估計駕駛人在行車時注意到視域內(nèi)的行人或車輛等各種對象。該方法利用深度神經(jīng)網(wǎng)絡學習交通場景視頻與駕駛員注意力特征之間的映射關系,并融入引導學習模塊來提取與駕駛員注意力最相關的特征??紤]到駕駛的動態(tài)性,使用動態(tài)交通場景視頻作為模型輸入,設計時空特征提取模塊。在稀疏、密集、低照度等常見的交通場景中,將估計的駕駛員注意力模型與收集的駕駛員注意力數(shù)據(jù)點進行對比。實驗結果表明,所提方法能夠準確估計駕駛員在駕駛過程中的注意力,對于預測不安全駕駛行為以及促進人們更好地理解駕駛行為具有重要的理論和實用價值。
關鍵詞: 駕駛人注意力估計; 深度學習; 視頻圖像驅動; 引導學習; 動態(tài)交通場景; 時空特征提取
中圖分類號: TN911.73?34; U491" " " " " " " " " "文獻標識碼: A" " " " " " " " " " 文章編號: 1004?373X(2024)22?0179?08
Method of driver attention estimation based on video image?driven
Abstract: An in?depth study of drivers′visual attention is important for predicting unsafe driving behavior and understanding driving behavior. A method of driver attention estimation based on video image?driven is proposed to estimate that drivers will notice various objects such as pedestrians or vehicles in the field of view while driving. In the method, the deep neural network is used to learn the mapping relationship between the video of traffic scene and the features of drivers′attention, and the bootstrap learning module is integrated to extract the features that are most relevant to the driver's attention. Considering the dynamicity of driving, a spatio?temporal feature extraction module is designed by using dynamic traffic scene videos as model inputs. The estimated driver attention model is compared with the collected driver attention data points in a variety of common traffic scenes, including sparse, dense, and low?light scenes. The experimental results show that the proposed method can accurately estimate the drivers′attention during driving, and has important theoretical and practical value for predicting unsafe driving behavior and promoting better understanding of driving behavior.
Keywords: driver attention estimation; deep learning; video image?driven; guidance learning; dynamic traffic scenarios; spatio?temporal feature extraction
0" 引" 言
交通安全是國家交通領域的重點關注問題,而不安全的駕駛行為是導致交通事故的主要原因。駕駛行為的安全性取決于駕駛人根據(jù)道路環(huán)境和車輛狀態(tài)做出的決策和操作的準確性,而準確的決策和操作依賴于駕駛人充分感知外部信息,其中視覺提供了高達90%的信息[1]。因此,深入研究駕駛人的視覺注意力與駕駛行為安全性之間的關系非常重要,這不僅可以預測不安全的駕駛行為,而且可以促進人們對駕駛行為的理解,為解決交通安全問題提供有力支持。
當前,眾多學者從多學科領域對駕駛人注意力展開了廣泛而深入的研究。這些研究可分為兩大類:第一類側重于檢測駕駛人的注意力狀態(tài),包括疲勞檢測[2?4]、頭部姿態(tài)估計[5]以及行為檢測[6]。通過識別駕駛人的特定狀態(tài)或姿勢,研究者可判斷特定駕駛任務或注意力的風險水平,如判斷駕駛人是否分心或從事與駕駛無關的活動。第二類研究更為細致和深入,旨在確定駕駛人在實際行車過程中的注意力分布情況,即駕駛人的注意力集中在哪些區(qū)域,以更好地理解其行為模式和決策機制。這類研究通常采用眼動儀、頭戴式顯示器和虛擬現(xiàn)實技術等先進設備,通過精確記錄駕駛人的視線移動軌跡和眼動特征,分析其視覺注意力的空間分布規(guī)律。借助這些研究,可深入洞察駕駛人在不同交通場景下的注意力分配策略,例如在高速公路環(huán)境中對前方車流的關注程度或在城市道路情境下對行人和障礙物的注意力響應特點。在駕駛人注意力預測研究中,一些學者嘗試將駕駛人的視覺區(qū)域劃分為若干子區(qū)域,將注意區(qū)域問題轉化為分類問題,并取得了一定成效。文獻[7]中將可能注意的區(qū)域分為6個子區(qū)域,基于隨機森林分類器提出了一個利用駕駛人面部特征估計注意區(qū)域的模型。文獻[8]中則將可能注意的區(qū)域劃分為9個子區(qū)域,利用卷積神經(jīng)網(wǎng)絡對給定人臉檢測圖像中的注視區(qū)域進行分類。然而,這些方法需要人為劃分區(qū)域,劃分的合理性對結果準確性影響較大。為克服上述問題,文獻[9]提出了一種基于貝葉斯過濾的方法,使用基于攝像頭的駕駛員監(jiān)控系統(tǒng)信息,估計駕駛人在不同區(qū)域查看的概率,從而預測注意區(qū)域。該方法無需人為劃分區(qū)域,可通過監(jiān)控系統(tǒng)獲取駕駛人視覺信息,具有更好的實用性。需要注意的是,上述方法都基于分類思想,將注意區(qū)域問題轉化為分類問題,雖然取得了不錯的效果,但如何將語義信息納入駕駛人注意力預測中仍是一個值得研究的問題。
文獻[10]基于DR(eye)VE數(shù)據(jù)集,提出了一種多路徑深層計算機視覺模型,用于預測駕駛員的注意力焦點。文獻[11]受選擇性調諧機制啟發(fā),通過自頂向下與自底向上的信息計算最終激活的神經(jīng)元,并通過中間層激勵的反向傳播生成可解釋的注意力圖。該方法提出的注意力機制可以針對普通CNN生成特定任務的注意力圖,無需完整的反向傳播。文獻[12]利用神經(jīng)網(wǎng)絡建立車速、方向盤轉角與交通場景之間的映射關系,基于CAM[13]算法確定交通場景圖像中與駕駛人操作最相關的區(qū)域,將其認定為駕駛人的關注區(qū)域。
現(xiàn)有方法雖然可以確定駕駛人的視覺關注區(qū)域,但缺乏對區(qū)域內(nèi)對象的語義理解。這些模型主要通過像素級預測確定關注區(qū)域,忽略了對象的語義意義。然而,駕駛人的視覺關注通常集中于特定對象,如車輛或行人。因此,一些研究者開始探索結合語義信息預測駕駛人的視覺關注。
為了從對象層面有效估計駕駛人的注意力,本文提出了一種基于視頻圖像驅動的注意力估計方法。該方法通過深度神經(jīng)網(wǎng)絡學習交通場景視頻和駕駛人注意力之間的映射關系,估計駕駛人在特定場景下關注的對象。盡管神經(jīng)網(wǎng)絡在先前研究中展現(xiàn)出強大的學習能力和容錯性,但可解釋性研究[14]指出,其預測效果取決于所提取特征的質量,與人類行為相似。為了提取與駕駛人注意力最相關的特征,本文基于已標注的注意力特征設計了引導學習方法,引導模型學習最相關特征。
1" 算法原理
1.1" 整體框架
本文的主要目的是基于視頻數(shù)據(jù)驅動建立一個駕駛人注意力估計模型,用來預測駕駛人在交通場景中所注視的對象。所提方法的總體框架如圖1所示。首先,利用時空特征提取模塊(SFEM)從交通場景的視頻流中提取時空特征,獲取上下文信息。然后,將時空特征與需要預測的最后一幀圖像進行特征拼接,采用注意特征編碼模塊(AFEM)從拼接后的特征中對駕駛人注意力特征進行提取并編碼。為了提高AFEM提取的準確度,本文設計了基于注意區(qū)域的引導學習(GLBOAR)模塊。該模塊利用標注的駕駛人注意區(qū)域數(shù)據(jù)作為約束,引導AFEM提取與駕駛人注意力最相關的特征。最后利用注意力特征解碼器(AFDM)對注意力特征進行解碼,估計駕駛人注意力集中在交通場景中哪些對象上。
1.2" 時空特征提取模塊
駕駛人行車是一個動態(tài)的過程,在該過程中駕駛人視覺系統(tǒng)會受到連續(xù)變化的外界場景信息的刺激,然后由大腦對這些信息進行粗處理,選擇出最重要的區(qū)域進行注意及細處理。因此,駕駛人注意力模型采用10個交通場景連續(xù)幀的序列(≈0.41 s)作為輸入,這與人類駕駛員對意外刺激的反應時間0.4 s幾乎相同。另外,視頻分析領域的研究結果表明:通過向深度網(wǎng)絡提供額外的輸入時間維度,可以超越處理單幀輸入的基線[15?16]。時間維度特征的提取通常由3D CNN[16]建模,專門用于捕獲小范圍相關性,或通過循環(huán)架構,如LSTM[17]、GRU[18]建立長期依賴關系。本文的SFEM基于可以捕獲小范圍相關性的3D CNN,從交通場景中獲取駕駛人注意力的時空特征。
如圖1a)中的結構所示,SFEM由3D CNN、3D MaxPool、UpSampling和2D CNN組成。其中:3D CNN對時空特征進行編碼;UpSampling利用雙線性插值算法將獲取到的特征圖進行4倍擴充,使其恢復至原圖大?。?16×416);2D CNN的核心作用是對獲取到的特征通道進行降維。在特征提取過程中,由于3D池會使時間軸丟失,為了保持邊界,所有卷積層前面都由零填充,3D卷積核的尺寸為3×3×3。所有激活函數(shù)均為ReLU,該模型輸出的駕駛人注意力特征圖形狀為[S∈R416×416×1]。
1.3" 注意力特征編解碼模塊
為了從拼接后的交通場景特征中估計最后一幀交通場景圖像上駕駛人關注的目標,本文基于現(xiàn)有的目標檢測理論,設計了注意力特征編碼模塊(AFEM)和注意力特征解碼模塊(AFDM)。其中,AFEM被用來提取駕駛人的注意力特征區(qū)域,它采用的是CSPDarknet53網(wǎng)絡結構[19]。該網(wǎng)絡模塊具有優(yōu)越的特征提取能力,特別是對于復雜的視覺場景和細節(jié)特征的提取能力優(yōu)異[20]。AFDM被用來對駕駛人所注意對象的信息進行預測,包含類別信息和邊界框信息。AFDM的主體為FPN和PAN[21]結構,如圖1d)所示。其中的解耦頭,本研究采用具有較好解耦能力的Double?Head結構來實現(xiàn)解耦操作[22]。該結構可以更好地解耦不同的特征子空間,提高模型的特征表達能力。在去除檢測冗余框時,采用更加優(yōu)秀的soft NMS[23]來替代傳統(tǒng)的NMS,以減少模型對預測框的誤刪。模型分別從三個尺度進行駕駛人注意力估計,以降低對圖像坐標系中對象尺寸的敏感度。AFDM的損失函數(shù)由邊界框損失、類別損失、置信度損失三部分疊加組成,各部分損失公式如下。
邊界框損失:
[Lreg=-logGIoUBgt,Bpred]" " " " " (1)
類別損失:
置信度損失:
1.4" 基于注意力特征模塊的引導學習
一些可解釋性研究[14]表明,DNN預測結果取決于提取的特征,這與人類行為一致。因此,基于DNN設計的駕駛人注意力估計模型的準確性依賴于AFEM提取的注意力特征。為了進一步提高AFEM對注意力特征提取的準確性,利用標注的駕駛人注意區(qū)域數(shù)據(jù)作為約束,引導AFEM提取與駕駛人注意力最相關的特征,稱之為GLBOAR。GLBOAR結構如圖1c)中所示,由4個基本模塊組成:上采樣、卷積、ReLU激活函數(shù)和Sigmoid激活函數(shù)。其中:上采樣被用來擴大特征圖的大?。痪矸e被用來捕捉與駕駛人注意力最相關的特征;ReLU激活函數(shù)被用來增強神經(jīng)網(wǎng)絡的非線性擬合能力;Sigmoid激活函數(shù)將注意力特征圖的輸出值限制為[0,1]。該方法的輸出是注意力特征圖,形狀為[S∈R416×416×1]。駕駛人注意力特征的預測與圖像語義分割問題類似,都是像素級的分類問題(判斷哪些像素區(qū)域是駕駛人注意的特征)。通過對駕駛人數(shù)據(jù)集統(tǒng)計分析,發(fā)現(xiàn)注意特征區(qū)域約占整幅交通場景圖像的8.6%。因此,背景類別和注意的前景類別存在嚴重的類別不平衡問題。而在圖像語義分割領域最常用的損失函數(shù)為Dice Loss[24],它對正負樣本不平衡的場景有著不錯的性能。Dice Loss計算公式如下:
式中:[yi]和[yi]分別是注釋和預測的注意力特征;[smooth]是注意力圖中的像素數(shù),在本文中取值為1,用于防止除以零和減少過擬合。雖然Dice Loss可以有效改善正負樣本不平衡狀況,但是它會對反向傳播造成不利的影響,容易使訓練變得不穩(wěn)定;而交叉熵損失(Cross Entropy Loss)具有良好的穩(wěn)定性。交叉熵損失函數(shù)定義為:
[Lgl=LDice+Lce]" " " " " " "(6)
2" 實驗及結果
2.1" 實驗采集平臺
駕駛人注意力估計模型是基于TensorFlow GPU 1.15.0和Python 3.7搭建的,模型的訓練和測試以及燒灼實驗都是在具有i9?10700 CPU和Nvidia RTX3090 GPU的Windows 10平臺上進行的。模型訓練和測試所使用的駕駛人注意目標數(shù)據(jù)集是基于駕駛平臺完成的標注。真實數(shù)據(jù)采集平臺及駕駛仿真平臺示意圖見圖2。
本文基于大眾奧萊品牌的高級轎車平臺搭建的實車駕駛數(shù)據(jù)采集平臺,搭載具有眼動追蹤功能的車載眼動儀及行車記錄儀,旨在獲取駕駛員行車過程中注視方向和相應的真實前視圖像。在實驗中,行車記錄儀安裝在車輛前擋風玻璃內(nèi)側,拍攝方向是車輛前方,即駕駛人行車過程中主要關注的區(qū)域。采集的交通場景數(shù)據(jù)類型豐富多樣,基本涵蓋常見的各種交通場景,道路類型包括城市道路、高速公路、鄉(xiāng)村道路、山路等,交通要素包括行人、自行車、摩托車、三輪車、小型轎車、卡車、交通信號燈、交通標志牌等,路口類型包含丁字路口、十字交叉路口、直行道等,車輛行為包括直行、轉彎、變道等。在光照方面也涵蓋了正常光照(白天)和弱光(晚上、隧道)環(huán)境。利用駕駛仿真平臺對不同駕駛人使用真實場景數(shù)據(jù)進行統(tǒng)計,得到駕駛人注視對象數(shù)據(jù)集。
2.2" 數(shù)據(jù)集制作
本研究所用到的數(shù)據(jù)包含用于引導學習的駕駛人注意區(qū)域掩碼數(shù)據(jù)(圖3d))和駕駛人注意目標數(shù)據(jù)(圖3e))。其中,駕駛人注意目標數(shù)據(jù)是由駕駛人注視點數(shù)據(jù)(圖3c))和交通場景上目標標注的位置信息(圖3b))對比后獲得。
數(shù)據(jù)部分樣本如下。
1) 實驗所用的交通場景視頻數(shù)據(jù)是在2022年6月14日—20日,利用行駛記錄儀在西安市采集的,共采集了12 h的駕駛數(shù)據(jù),包含稀疏、密集、弱光等多種交通場景。視頻的分辨率為1 270×560。最終將其裁剪為2 000段,每段為8~26 s(平均每個視頻的時間為24.3 s,標準差為3.3 s,大部分視頻是26 s)的短視頻序列。部分數(shù)據(jù)樣本如圖3a)所示。
2) 圖3b)是本文對交通場景中行人目標和車輛目標進行標注后的圖像,這兩種目標是駕駛人行車時最常關注的目標。需要注意的是,此時對場景中所有行人和車輛進行標注,并未考慮駕駛人注意力,這不同于具有注意力的圖3d)。
3) 圖3c)是駕駛人注視點圖,注視點是在虛擬實驗平臺上進行情景實驗所記錄的,參與情景實驗的駕駛人共30名,其中男女比例為1∶2。為了保證實驗的準確性,所有被試者擁有2年以上的駕駛經(jīng)驗。為了保證數(shù)據(jù)的可靠性,剔除了每個測試視頻的前20幀和后20幀的圖像信息和注視點信息。
4) 圖3d)是駕駛人注意區(qū)域圖,該數(shù)據(jù)是通過對注視點數(shù)據(jù)進行10次高斯模糊迭代獲得的。所使用的高斯濾波器尺寸為40像素。通過高斯模糊操作獲得注視點周圍的不規(guī)則區(qū)域,將其作為駕駛人注意區(qū)域。
5) 本文通過對凝視圖像和目標位置進行對比,獲得駕駛人凝視的目標圖像,如圖3e)所示。通過判斷注視點落入框內(nèi)的數(shù)量是否大于所設閾值來判斷。由于人眼注視目標要得到視覺印象,最短的注視時間為0.07~0.3 s,因此注視點閾值(threshold)選取為5,對應駕駛人凝視目標時間大約為0.083 s。
本文對數(shù)據(jù)集中的對象類別信息進行了統(tǒng)計,結果如表1所示。平均在每幀圖像中有5.28輛汽車和0.59個行人(表示為“總計”),但僅有2.48輛汽車和0.38個行人吸引了駕駛人的注意(表示為“聚焦”)。這是因為駕駛人在行車過程中注意力主要聚焦在與駕駛安全密切相關的車輛和行人上。平均在每幀圖像中共有5.87個汽車和行人,大約48.72%(2.86個行人和車輛)在駕駛人的注意焦點范圍內(nèi)。
2.3" 評價指標
在測試數(shù)據(jù)集和消融實驗中使用準確率、精確率、召回率、F1值、平均精度均值(mAP)和FPS作為評估指標。它們分別被定義如下:
式中:TP(真陽性)是正確預測陽性類別的樣本數(shù);FN(假陰性)是預測陽性類別為陰性的樣本數(shù);FP(假陽性)是預測陰性類別為陽性的樣本數(shù);TN(真陰性)是正確預測陰性類別的樣本數(shù)。
精確率是模型預測的真陽性樣本占總樣本的比例預測陽性樣本,召回率是模型正確預測的真陽性樣本占總真陽性樣本的比例,F(xiàn)PS用于評估模型的實時性能,即每秒幀數(shù)。在以下實驗中,F(xiàn)PS是通過將測試數(shù)據(jù)的總幀除以模型在測試數(shù)據(jù)上運行的時間來計算的。
另外,本文通過均方誤差、均方根誤差以及平均絕對誤差三項指標來衡量模型估計的結果與人類駕駛人感知(通過仿真平臺獲?。┑牟町愋?。
均方誤差:
均方根誤差:
平均絕對誤差:
2.4" 實驗結果與分析
在駕駛人注意目標數(shù)據(jù)集上對模型進行訓練,建立起交通場景數(shù)據(jù)與駕駛人注意目標之間的映射關系。在測試集上模型精度可達82.7%,表明模型很好地從數(shù)據(jù)集中學習了交通場景數(shù)據(jù)與駕駛人注意力之間的關系。為了衡量本文提出的駕駛人注意力估計方法模擬人類駕駛時注意力的能力,通過不同駕駛人在虛擬測試數(shù)據(jù)采集平臺實驗測試的方式獲得駕駛人在行車過程中主要關注的對象。測試場景中包含了多個類型豐富的交通場景圖像,其中稀疏(Sparse)、稠密(Dense)和弱光(Lowlight)交通環(huán)境各為10個,道路類型包含丁字路口、十字交叉路口、直行道等。道路上的對象包括小型轎車、中型卡車、行人等。通過仿真實驗測取志愿者模擬駕駛視頻中注意對象,并通過式(16)統(tǒng)計每個目標被駕駛人在該場景下行車時關注的概率[p]。
[pi,j=Ni,jM]" " " " " " " " "(16)
式中:[Ni,j]為第[i]張圖像的第[j]個目標被標記的次數(shù);[M]是參與模擬駕駛人注意區(qū)域數(shù)據(jù)獲取的有效人數(shù)。
模型測試結果及模擬駕駛人測試結果如圖4所示。分別使用均方誤差、均方根誤差和平均絕對誤差三種不同的指標,來衡量本文模型估計結果與駕駛人感知的差異,結果如表2所示。
從表2結果來看,駕駛人注意力估計模型對稀疏、稠密、弱光交通環(huán)境下的駕駛人注意力都展示出了準確的估計效果。其中稀疏場景誤差值最小,效果最好,原因是交通場景中干擾駕駛人注意力的對象數(shù)量較少。
2.5" 消融實驗
駕駛人注意模型的優(yōu)異性能可歸因于時空特征的融入和駕駛人注意區(qū)域引導學習的結合。為了分析駕駛人注意模型中不同模塊對駕駛人注意力估計任務的貢獻程度,進行了消融實驗。通過禁用SFEM和GLBOAR模塊得到?jīng)]有時空特征提取的基線模型(Our?w/o?SFEM)和沒有引導學習的基線模型(Our?w/o?GLBOAR)。然后使用實驗數(shù)據(jù)訓練這兩種基線并在測試數(shù)據(jù)集上進行性能測試,結果如表3所示。SFEM、GLBOAR對模型的貢獻分別為1.59%、1.03%。該結果表明這些改進促進了參數(shù)優(yōu)化,并產(chǎn)生了更準確的訓練模型。具體來說,SFEM通過將提取到的時空特征信息增加到模型輸入中,來提高模型在最后一幀上對駕駛人注意力估計的準確性;GLBOAR通過引導主干網(wǎng)絡提取與駕駛人注意力最相關的特征來提高模型預測的準確性。
實驗結果同時也表明本文設計的SFEM和GLBOAR提高了模型對駕駛人注意力估計的準確性。
3" 結" 論
本文基于視頻圖像驅動,提出了一種駕駛人注意力估計方法。該方法利用深度神經(jīng)網(wǎng)絡強大的非線性擬合能力,從駕駛人注意目標數(shù)據(jù)集中學習駕駛人行車時的注意行為并進行模擬?;?D CNN理論設計了提取交通場景的時空特征信息的SFEM。另外,提出一種基于注意力特征的引導學習方法,用來提取描述駕駛人最可能注意的特征。包含2 000個樣本的駕駛人注意目標數(shù)據(jù)集是基于虛擬駕駛實驗平臺進行標記的。在該數(shù)據(jù)集上對模型進行訓練,并在稀疏、密集、弱光這三種常見交通場景下與視頻數(shù)據(jù)結合仿真平臺中獲取的真實駕駛人感知結果進行了對比,評估了模型的泛化性以及模型模擬駕駛人注意力的能力。最后,還對模型進行了消融實驗研究。實驗結果表明,所設計模型可以有效地模擬駕駛人的注意區(qū)域。
參考文獻
[1] MA Y L, QI S M, ZHANG Y P, et al. Drivers’ visual attention characteristics under different cognitive workloads: An on?road driving behavior study [J]. International journal of environmental research and public health, 2020, 17(15): 5366.
[2] 張瑞,朱天軍,鄒志亮,等.駕駛員疲勞駕駛檢測方法研究綜述[J].計算機工程與應用,2022,58(21):53?66.
[3] GAO Z K, WANG X M, YANG Y X, et al. EEG?based spatio?temporal convolutional neural network for driver fatigue evaluation [J]. IEEE transactions on neural networks and learning systems, 2019, 30(9): 2755?2763.
[4] SIKANDER G, ANWAR S. Driver fatigue detection systems: a review [J]. IEEE transactions on intelligent transportation systems, 2018, 20(6): 2339?2352.
[5] SUN J, LU S. An improved single shot multibox for video?rate head pose prediction [J]. IEEE sensors journal, 2020(20): 12326?12333.
[6] KASHEVNIK A, LASHKOV I, GURTOV A. Methodology and mobile application for driver behavior analysis and accident prevention [J]. IEEE transactions on intelligent transportation systems, 2019, 21(6): 2427?2436.
[7] FRIDMAN L, LANGHANS P, LEE J, et al. Driver gaze region estimation without using eye movement [EB/OL]. [2023?11?09]. https://arxiv.org/abs/1507.04760v1.
[8] CHOI I H, HONG S K, KIM Y G. Real?time categorization of driver's gaze zone using the deep learning techniques [C]// 2016 International Conference on Big Data and Smart Computing (BigComp). [S.l.]: IEEE, 2016: 143?148.
[9] LUNDGREN M, HAMMARSTRAND L, MCKELVEY T. Driver?gaze zone estimation using Bayesian filtering and Gaussian processes [J]. IEEE transactions on intelligent transportation systems, 2016, 17(10): 2739?2750.
[10] PALAZZI A, ABATI D, SOLERA F, et al. Predicting the driver's focus of attention: the DR (eye) VE project [J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 41(7): 1720?1733.
[11] ZHANG J, BARGAL S A, LIN Z, et al. Top?down neural attention by excitation backprop [J]. International journal of computer vision, 2018, 126(10): 1084?1102.
[12] HAN G, ZHAO S, WANG P, et al. Driver attention area extraction method based on deep network feature visualization [J]. Applied sciences, 2020, 10(16): 5474.
[13] ZHOU B, KHOSLA A, LAPEDRIZA A, et al. Learning deep features for discriminative localization [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 2921?2929.
[14] ZHANG Y, TI?O P, LEONARDIS A, et al. A survey on neural network interpretability [J]. IEEE transactions on emerging topics in computational intelligence, 2021, 5(5): 726?742.
[15] KARPATHY A, TODERICI G, SHETTY S, et al. Large?scale video classification with convolutional neural networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE, 2014: 1725?1732.
[16] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks [C]// Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 4489?4497.
[17] HOCHREITER S, SCHMIDHUBER J. Long short?term memory [J]. Neural computation, 1997, 9(8): 1735?1780.
[18] CHUNG J, GULCEHRE C, CHO K H, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling [EB/OL]. [2022?12?20]. https://www.xueshufan.com/publication/1924770834.
[19] WANG C Y, LIAO H Y M, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Seattle, WA, USA: IEEE, 2020: 390?391.
[20] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOV4: optimal speed and accuracy of object detection [EB/OL]. [2023?08?16]. https://www.xueshufan.com/publication/3018757597.
[21] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA: IEEE, 2017: 2117?2125.
[22] GE Z, LIU S T, WANG F, et al. YOLOX: exceeding YOLO series in 2021 [EB/OL]. [2023?09?16]. https://arxiv.org/abs/2107.08430.
[23] BODLA N, SINGH B, CHELLAPPA R, et al. Soft?NMS?improving object detection with one line of code [C]// Proceedings of the IEEE International Conference on Computer Vision. Sydney, Australia: ACM, 2017: 5561?5569.
[24] MILLETARI F, NAVAB N, AHMADI S A. V?NET: fully convolutional neural networks for volumetric medical image segmentation [C]// 2016 Fourth International Conference on 3D Vision (3DV). Stanford, CA, USA: IEEE, 2016: 565?571.