• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    司機分心駕駛檢測研究進展

    2021-09-09 08:09:06秦斌斌彭良康盧向明錢江波
    計算機應(yīng)用 2021年8期
    關(guān)鍵詞:司機卷積深度

    秦斌斌,彭良康,盧向明,錢江波

    (寧波大學(xué)信息科學(xué)與工程學(xué)院,浙江寧波 315211)

    0 引言

    美國國家公路交通安全管理局(National Highway Traffic Safety Administration,NHTSA)公布數(shù)據(jù)約65%的臨界碰撞和80%的車輛碰撞事故是司機分心駕駛導(dǎo)致的(https://www.nhtsa.gov/risky-driving/distracted-driving/)。美國汽車聯(lián)合會交通安全基金會定義駕駛分心狀態(tài)為由于車內(nèi)或車外的一些物體、人、動作的影響而導(dǎo)致司機注意力沒有集中在駕駛?cè)蝿?wù)中,導(dǎo)致司機的對外界的反應(yīng)力下降,使得司機應(yīng)對危險情況無法采取有效的行為[1]。Lee等[2]定義司機分心駕駛為:司機注意力轉(zhuǎn)向與駕駛?cè)蝿?wù)無關(guān)的活動,造成司機視覺、意識、決策以及操作能力下降的一種危險行為,兩種司機分心駕駛定義的關(guān)注點都是司機的注意力分散,而司機注意力分散主要集中在操作電子產(chǎn)品上。如Redelmeier等[3]通過對699個曾經(jīng)歷過交通事故的駕駛?cè)苏{(diào)查得知,在交通事故前10 min使用手機的司機發(fā)生交通事故的概率是正常駕駛司機的4.3倍。

    為了避免司機分心駕駛導(dǎo)致的交通事故,國內(nèi)外汽車行業(yè)開始研究智能輔助駕駛系統(tǒng)、安全駕駛檢測。Rigas等[4]提出了一種用于檢測司機的壓力和疲勞的方法,從生理信號、視頻數(shù)據(jù)和駕駛環(huán)境參數(shù)表明分類的準(zhǔn)確性很高。胡云峰等[5]介紹了智能汽車人機協(xié)同控制中駕駛員建模及人機駕駛權(quán)動態(tài)優(yōu)化控制的國內(nèi)外智能化駕駛研究現(xiàn)狀,如一些自動數(shù)據(jù)采集系統(tǒng)(Automatic Data Acquisition System,ADAS)等輔助駕駛運用在汽車上,對司機起到一定保護作用,但僅僅依賴智能駕駛不能從根本上解決問題。2020年7月15日,據(jù)外國媒體報道,一名司機開啟了Autopilot自動輔助駕駛系統(tǒng),因注意力不集中最終撞上了一輛停在路邊的警車,導(dǎo)致被指控過失駕駛。這說明即使具備高級駕駛輔助系統(tǒng),駕駛員仍需要注意開車環(huán)境,隨時做好控制方向盤的準(zhǔn)備?!叭恕币琅f是主體駕駛的決定因素?;谏硇盘柕膫鹘y(tǒng)算法的司機分心駕駛檢測[6-8],數(shù)據(jù)的獲取需要測量司機生理信號信息等,司機需要佩戴相關(guān)的設(shè)備、儀器,會對司機的駕駛產(chǎn)生不適,雖然這種方法能取得不錯的結(jié)果,而且生理信號受外界因素影響較小,但需要佩戴設(shè)備,可擴展性差?;陬^部、眼睛的司機分心駕駛檢測容易被司機駕駛過程中是否佩戴眼鏡、不同時段光線強弱的變化導(dǎo)致眼睛特征信息所影響[9-11]。除此之外,司機的身高、坐姿等習(xí)慣對于頭部姿勢的準(zhǔn)確獲取同樣需要考慮,這種方式的準(zhǔn)確度一般。

    隨著深度學(xué)習(xí)的興起和發(fā)展,基于圖像分類和檢測技術(shù)越來越成熟。由此,研究人員利用攝像頭對司機的駕駛過程進行拍攝,對拍攝的圖像輸入到訓(xùn)練好的分心檢測模型檢測識別,可以避免司機穿戴采集生理信號設(shè)備的繁瑣,固定好攝像頭的拍攝駕駛座位區(qū)域,這樣就不會因為司機的駕駛坐姿和身高等因素影響檢測結(jié)果,基于深度學(xué)習(xí)的司機分心檢測已經(jīng)越來越受到學(xué)者的關(guān)注,本文將主要介紹傳統(tǒng)計算機視覺(Computer Vision,CV)算法和深度學(xué)習(xí)算法在司機分心駕駛檢測的研究現(xiàn)狀。

    1 基于傳統(tǒng)算法的司機駕駛分心檢測

    在深度學(xué)習(xí)快速發(fā)展之前,圖像的分類、檢測等任務(wù)都會使用到特征提取,有很多計算機視覺(CV)算法可用于圖像特征提取,如方向梯度直方圖(Histogram of Oriented Gradient,HOG)、尺度不變特征轉(zhuǎn)換(Scale-Invariant Feature Transform,SIFT)等,之后利用CV算法提取到的特征向量建立支持向量機(Support Vector Machine,SVM)分類模型進行分類識別。

    HOG算法是在2005年的CVPR(Conference on Computer Vision and Pattern Recognition)大會上首次被提出來的,目前被廣泛使用在行人檢測中。在早期的圖像研究中,基于HOG和SVM的圖像識別方法被廣泛使用。林錦彬等[12]首先對輸入圖像采用歸一化等方法進行預(yù)處理,去除干擾噪聲,接著利用HOG特征算子提取輸入圖像的特征,最后利用提取的圖像特征建立SVM分類器模型。隨著研究人員的不斷探索,HOG和SVM的圖像識別被使用的場景越來越廣泛。徐淵等[13]設(shè)計了一個內(nèi)嵌SVM分類器的HOG特征提取歸一化模塊,他采用16×16像素塊對圖像進行掃描,生成HOG特征數(shù)據(jù),然后將15路并行SVM內(nèi)嵌到HOG歸一化模塊中,通過提前啟動SVM降低15路SVM乘累加器的位寬.在硬件層面消除了檢測重復(fù)性算法,進一步提高了行人檢測的準(zhǔn)確性。處理利用HOG提取特征外,SIFT等也常被用于圖像特征提取。劉濤[14]提出了一種基于SIFT和SVM的醫(yī)學(xué)圖像識別系統(tǒng),利用K-mean聚類的方法對圖像的SIFT特征算子進行分類,之后,借助圖像特征袋的思想,將醫(yī)學(xué)圖像用自身SIFT算子類別的統(tǒng)計數(shù)據(jù)表示,一幅醫(yī)學(xué)圖像就可以用一個k維的向量表示,最后將該向量送入SVM分類器進行識別。

    由于HOG被廣泛使用在行人檢測的場景中,而司機駕駛本身也屬于對人的檢測,所以針對司機分心駕駛檢測的HOG和SVM方法也被提出,卜慶志等[15]首先獲取輸入圖像中的感興趣區(qū)域,對圖像進行灰度化、濾波,從而削弱光線的影響,然后計算圖像某塊區(qū)域的梯度,將圖像的每一塊疊加起來,從而可以得到輸入圖像的梯度直方圖,最終獲得HOG特征,HOG提取流程如圖1,使用交叉驗證法尋找最優(yōu)的SVM分類器參數(shù)。最后,使用SVM模型為駕駛員的不同行為進行分類識別,最終系統(tǒng)框架如圖2。

    圖1 HOG提取特征的過程Fig.1 HOG featureextraction process

    圖2 基于HOG與SVM的駕駛員行為識別系統(tǒng)框架Fig.2 Framework of driver behavior recognition system based on HOG and SVM

    但是,這類方法在行人檢測方面存在運算量大、實時性差的問題。基于傳統(tǒng)的CV算法必須從每張圖像中選擇特征,然而,隨著圖像種類和數(shù)量的劇增,特征提取將會變得越來越繁瑣。要確定哪些特征最能描述不同的目標(biāo)類別,取決于研究人員的判斷和試錯,而且傳統(tǒng)CV算法具有對環(huán)境要求高、運用范圍較窄、參數(shù)多、計算量大的缺點。除此之外,每個特征定義還需要處理大量參數(shù),所有參數(shù)必須由研究人員進行調(diào)整,而深度學(xué)習(xí)則采用的是端到端學(xué)習(xí)的解決方案,即輸入的數(shù)據(jù)標(biāo)簽已經(jīng)標(biāo)注好。利用這些標(biāo)注的數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,自動獲取和調(diào)整對目標(biāo)類別最具表現(xiàn)力的特征,基于此,深度學(xué)習(xí)普遍開始在學(xué)術(shù)界應(yīng)用起來。

    2 基于深度學(xué)習(xí)的司機駕駛分心檢測

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)被證明是實現(xiàn)高精度的最有效的技術(shù)[16]。隨著深度學(xué)習(xí)的興起與快速發(fā)展,CNN已經(jīng)應(yīng)用于許多計算機視覺問題,如圖像識別和目標(biāo)檢測等,在計算機視覺領(lǐng)域取得了很好的效果,基于深度學(xué)習(xí)的研究方法受到越來越多研究人員的關(guān)注,利用車內(nèi)儀表盤攝像頭對司機駕駛過程拍攝,使用預(yù)先訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型對拍攝的圖像檢測識別,深度學(xué)習(xí)算法能獲得很高的識別率。

    基于深度學(xué)習(xí)的司機分心駕駛研究主要分為三種類型:傳統(tǒng)算法結(jié)合CNN、改進的2DCNN結(jié)構(gòu)和基于3DCNN的檢測方法。

    2.1 傳統(tǒng)算法結(jié)合CNN

    CNN大量的可學(xué)習(xí)參數(shù)給實時系統(tǒng)帶來了很大的難題。為了解決這一問題,Arefin等[17]提出的方法由改進的AlexNet結(jié)構(gòu)和HOG特征的聚合組成,如圖3。

    圖3 改進的AlexNet結(jié)構(gòu)和HOG特征聚合組成的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure integrated by improved AlexNet structureand HOG features

    修改后的網(wǎng)絡(luò)可以顯著地減少網(wǎng)絡(luò)參數(shù),而融合HOG特征則豐富了CNN的輸出,具體修改如下:在AlexNet的卷積層之后,特征映射變?yōu)?×6×256,然后連接到大小為4 096的全連接層,AlexNet結(jié)構(gòu)中全連接層參數(shù)量占的比重最多,為了減少這些參數(shù),Arefin等[17]將全連接層修改為輸出特征映射為3×3×512,然后進行2×2最大池化層,這樣可以有效減少全連接層帶來的大量網(wǎng)絡(luò)參數(shù)。網(wǎng)絡(luò)的另一條分支使用大小為16×16的cell對輸入圖像提取了1 568的HOG特征,并將其與1 024大小的全連接層相連。最后,將改進的AlexNet網(wǎng)絡(luò)輸出特征與1 024大小的HOG特征融合得到最終的分類結(jié)果。Arefin等[17]主要目標(biāo)是準(zhǔn)確地檢測駕駛員在實時環(huán)境中的行為,將HOG特征與修改后的AlexNet的輸出融合起來,這樣豐富了網(wǎng)絡(luò)用于判斷司機駕駛行為的信息。實驗結(jié)果表明,與原始AlexNet網(wǎng)絡(luò)結(jié)構(gòu)相比,模型中的參數(shù)從62.3×106減少到9.7×106,識別準(zhǔn)確度只比原來降低了0.46%。

    Majdi等[18]提出了一種Drive-Net的自動監(jiān)督學(xué)習(xí)方法,用于司機分心駕駛檢測。Drive-Net是一個級聯(lián)分類器,由兩個階段組成:CNN作為第一階段,用于特征提取,采用U-Net體系結(jié)構(gòu)[19]作為第一階段的基礎(chǔ)結(jié)構(gòu)提取特征。U-Net是一種計算機分割網(wǎng)絡(luò),能夠更好地捕獲上下文信息,所以選擇U-Net提取第一階段的特征。第二階段使用隨機森林分類,隨機森林分類器通過組合一組決策樹分類器來預(yù)測結(jié)果,其中每棵樹都以某種隨機的方式生長。隨機森林分類器中每棵樹的預(yù)測節(jié)點通過圖像類[20]上的后驗分布進行標(biāo)記。Majdi等[18]采用第一階段的輸出作為隨機決策林的輸入來預(yù)測最終的結(jié)果。網(wǎng)絡(luò)結(jié)構(gòu)如圖4。

    圖4 Drive-Net的網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of Drive-Net

    2.2 改進的2DCNN結(jié)構(gòu)

    由于最初提出的VGG(Visual Geometry Group)結(jié)構(gòu)存在參數(shù)量大和泛化能力有限的問題,研究人員提出了很多算法改進CNN的特征提取方式。Baheti等[21]使用原始VGG-16網(wǎng)絡(luò)進行分心駕駛檢測實驗得知,原始VGG-16模型對訓(xùn)練數(shù)據(jù)的擬合度過高,在訓(xùn)練集上表現(xiàn)良好,準(zhǔn)確率接近100%,但并沒有在測試數(shù)據(jù)表現(xiàn)出很好的泛化能力。結(jié)合其他研究人員提出的網(wǎng)絡(luò)改進方法,如正則化技術(shù)來提高原始VGG-16網(wǎng)絡(luò)的泛化能力,以下是對原VGG-16網(wǎng)絡(luò)的主要修改:

    1)由于ReLU函數(shù)將所有小于零的輸入的輸出值設(shè)置為零,某些神經(jīng)元的權(quán)重可能永遠不會更新,可能會導(dǎo)致神經(jīng)元死亡。LeakyReLU通過在負(fù)坐標(biāo)區(qū)域引入一個小斜率來解決這個問題,以保持更新權(quán)重的能力。

    2)網(wǎng)絡(luò)中添加Dropout層,有助于減少神經(jīng)元之間相互依賴的學(xué)習(xí)。在卷積層和全連通層中增加線性增長的Dropout層。

    3)添加L2 Weight Regularization,具有較小權(quán)重的模型在某種程度上比具有大權(quán)值的網(wǎng)絡(luò)簡單[22]。它是通過懲罰直接在成本函數(shù)中的所有參數(shù)的平方大小來實現(xiàn)的。

    4)Batch Regularization有助于提高神經(jīng)網(wǎng)絡(luò)的性能和穩(wěn)定性,使網(wǎng)絡(luò)層的輸出遵循單位高斯分布,它減少了對權(quán)重初始化的強烈依賴,改善了網(wǎng)絡(luò)中的梯度流,并允許更高的學(xué)習(xí)率。

    除上述修改外,Baheti等[21]考慮到原始VGG-16的全連接層的參數(shù)過于龐大,用兩層卷積層代替全連接層能大幅減少網(wǎng)絡(luò)參數(shù)量[23]。因此,Baheti等[21]用1×1卷積層代替全連接層,建立了一個完全卷積的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。參數(shù)量僅為原始VGG-16參數(shù)的11%,最終改進的網(wǎng)絡(luò)結(jié)構(gòu)如圖5。

    圖5 基于改進VGG-16的網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Network structurebased on improved VGG-16

    Eraqi等[24]設(shè)計了American University in Cairo Distracted Driver(AUCD2)數(shù)據(jù)集,由7個不同國家的44名參與者:埃及(37名)、德國(2名)、美國(1名)、加拿大(1名)、烏干達(1名)、巴勒斯坦(1名)和摩洛哥(1名)參與拍攝數(shù)據(jù)集。數(shù)據(jù)集是在5種不同的轎車中拍攝,提取了17 308幀圖像,分為如下類別:安全駕駛、右手打電話、左手打電話、右手發(fā)短信、左手發(fā)短信、調(diào)整收音機、喝飲料、整理頭發(fā)或化妝、轉(zhuǎn)向后座、與乘客交談。

    Eraqi等[24]提出的解決方案包括一個遺傳加權(quán)集合的卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)對原始圖像、皮膚分割圖像、人臉圖像、手圖像和“臉手”圖像進行訓(xùn)練。在這五個圖像源上,預(yù)先用ImageNet數(shù)據(jù)集分別在AlexNet網(wǎng)絡(luò)[25]、InceptionV3網(wǎng)絡(luò)[26]、ResNet50網(wǎng)絡(luò)[27]和VGG-16網(wǎng)絡(luò)[28]預(yù)訓(xùn)練,然后對訓(xùn)練好的模型進行微調(diào),利用遺傳算法求出所有網(wǎng)絡(luò)輸出的加權(quán)和,最終取得了95.98%的測試準(zhǔn)確度。如圖6所示。

    圖6 集成卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Integrated convolutional neural network structure

    由于Eraqi等[24]提出網(wǎng)絡(luò)參數(shù)量過大,無法滿足實時檢測的要求,Baheti等[29]提出了一種基于深度可分離卷積的MobileVGG的網(wǎng)絡(luò)結(jié)構(gòu),深度卷積將卷積應(yīng)用于單個輸入信道,如圖7(a)所示。它將獨立地捕獲每個通道內(nèi)的關(guān)系,然后疊加結(jié)果,它的濾波器數(shù)目等于輸入通道的數(shù)目,每個濾波器的深度為1;點卷積深度卷積只過濾輸入通道,而不結(jié)合它們來創(chuàng)建新的特征。點卷積基本上執(zhí)行深度層輸出的線性組合,如圖7(b)所示。

    圖7 深度可分離卷積Fig.7 Depthwise separable convolution

    這兩種卷積的組合形成深度可分卷積。Baheti等[29]這個想法看起來很簡單,但可以極大地減少模型訓(xùn)練計算量。如果濾波器大小為3,深度可分離卷積計算量比標(biāo)準(zhǔn)卷積計算量減少了80%~90%,而且沒有太大的精度損失。MobileVGG網(wǎng)絡(luò)除了使用深度可分離卷積外,Baheti等[29]將1×1大小的卷積操作代替全連接層,網(wǎng)絡(luò)輸出大小減小為512個神經(jīng)元。這樣可以節(jié)省大量參數(shù),最終的網(wǎng)絡(luò)模型如圖8。

    圖8 MobileVGG網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 MobileVGG network structure

    Koesdwiady等[30]自己制作了數(shù)據(jù)集用于實驗?zāi)P陀?xùn)練和測試,提出了一種用于司機分心識別的端到端深學(xué)習(xí)解決方案。在該框架中,利用預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)VGG-19提取的特征,添加兩層全連接層對VGG-19的結(jié)果微調(diào),最后采用Softmax分類得到預(yù)測結(jié)果類別。Koesdwiady等[30]創(chuàng)建的數(shù)據(jù)集中考慮了不同光照條件、相機位置、司機種族的因素。結(jié)果表明,與最先進的XGBoost的比較表明,Koesdwiady等[30]所提出的方法在精度上優(yōu)于XGBoost,如圖9。相比于原始網(wǎng)絡(luò)結(jié)構(gòu),改進的CNN結(jié)構(gòu)具有準(zhǔn)確率更高、泛化能力更強、參數(shù)量更少的特點,通過結(jié)合新的技術(shù)到CNN中,改進后的CNN在司機分心駕駛檢測方面取得了更好的效果。

    圖9 端到端深度學(xué)習(xí)解決方案Fig.9 End-to-end deep learning solution

    da Silva Oliveira等[31]介紹了三種轉(zhuǎn)移學(xué)習(xí)方法的比較研究結(jié)果,如圖10~12。該方法對司機的駕駛狀態(tài)進行檢測。對深度卷積神經(jīng)網(wǎng)絡(luò)的四種結(jié)構(gòu)進行了評價:VGG-19、InceptionV3、ResNet152和DenseNet161。結(jié)果表明,對于所研究的數(shù)據(jù)庫,端到端遷移學(xué)習(xí)僅優(yōu)于完全連接層的微調(diào),也優(yōu)于由相同的深卷積網(wǎng)絡(luò)提取的特征訓(xùn)練的淺層分類別。Varaich等[32]使用InceptionV3和Xception來識別State Farm Distracted Driver Detection(SFD3)數(shù)據(jù)集中司機分心駕駛動作。他們詳細(xì)討論了這兩種體系結(jié)構(gòu)在兩種不同的權(quán)重初始化方案下的性能(損失、精度),即使用隨機初始化和遷移學(xué)習(xí)權(quán)重,他們指出通過用這些預(yù)先訓(xùn)練的權(quán)重初始化網(wǎng)絡(luò),確保了常見的原始特征(如邊緣和基本形狀等)已經(jīng)被網(wǎng)絡(luò)學(xué)習(xí)了,所以它不必從頭開始學(xué)習(xí)。實驗結(jié)果表明使用ImageNet初始化權(quán)重的遷移學(xué)習(xí)來訓(xùn)練Xception體系結(jié)構(gòu)對隨機分割訓(xùn)練數(shù)據(jù)進行實驗,測試精度進一步提高到99.3%。

    圖10 端對端微調(diào)方法的遷移學(xué)習(xí)Fig.10 Transfer learningof end-to-end fine-tuning method

    圖11 遷移學(xué)習(xí)的完全連接層微調(diào)Fig.11 Fully connected layer fine-tuningof transfer learning

    圖12 特征提取方法的遷移學(xué)習(xí)Fig.12 Transfer learningof featureextraction method

    2.3 基于3DCNN的檢測方法

    Moslemi等[33]提出利用三維卷積神經(jīng)網(wǎng)絡(luò)和光流法來改善駕駛員的分心檢測任務(wù),從時間信息中獲取有用信息??紤]到訓(xùn)練數(shù)據(jù)集相對較小,為了解決過度擬合問題,采用遷移學(xué)習(xí)的方法初始化卷積層的權(quán)重,然后對模型進行微調(diào),加快相關(guān)任務(wù)的訓(xùn)練過程。Moslemi等[33]使用了預(yù)先訓(xùn)練過的模型作為起點,將從一般的動作識別任務(wù)中學(xué)到的知識轉(zhuǎn)移到分心的駕駛員分類中。三維網(wǎng)絡(luò)的第一層卷積核可以從輸入數(shù)據(jù)的一小部分空間中觀察到一個短的時間序列,這個序列可能對應(yīng)于一個微妙的手指運動或眨眼睛。為了研究司機分心駕駛數(shù)據(jù)集的時間信息,Moslemi等[33]使用AUCD2和SFD3數(shù)據(jù)集創(chuàng)建了視頻幀數(shù)據(jù),而不是使用單幀圖片。首先,將每個數(shù)據(jù)集排列成不同的類別-時間排序的動作段,制作了一系列10幀視頻,每個視頻使用一個滑動窗口獲取,其步長為一步,從而完成了視頻幀數(shù)據(jù)的創(chuàng)建。Moslemi等[33]使用的模型稱為“Two-Stream Inflated 3DConvNet”(I3D),它基于2維卷積體系結(jié)構(gòu)設(shè)計,但它們的卷積核和最大池化核被擴展為3維,從而產(chǎn)生了自然的時空分類器。一個I3D網(wǎng)絡(luò)在RGB輸入上訓(xùn)練,另一個在光流輸入上訓(xùn)練。兩個網(wǎng)絡(luò)分別訓(xùn)練,最后將訓(xùn)練結(jié)果融合得出司機分心駕駛的類別,如圖13所示。

    圖13 Two-Stream 3DCNNFig.13 Two-Stream 3DCNN

    隨著城市軌道交通的快速發(fā)展,交通安全已成為人們關(guān)注的焦點,Carreira等[34]將標(biāo)準(zhǔn)的交通運營行為與司機疲勞分心行相結(jié)合,構(gòu)建了適合城市軌道交通行業(yè)的疲勞分心檢測系統(tǒng),如圖14。該系統(tǒng)包括軌道交通司機大規(guī)模運營動態(tài)跟蹤模型和基于三元的雙輸入動作判別模型,將滑動幀和連續(xù)幀作為模型的輸入,并從兩個輸入中提取五個通道的信息。雙輸入多通道信息使模型不僅能夠了解整個動作的時空信息,而且能夠了解動作的細(xì)微變化。Carreira等[34]使用公開的KTH數(shù)據(jù)集對此雙輸入模型進行了訓(xùn)練和驗證,然后,利用遷移學(xué)習(xí)方法將KTH數(shù)據(jù)集訓(xùn)練的模型遷移到他們采集的列車司機駕駛數(shù)據(jù)集中,節(jié)省了訓(xùn)練時間。

    圖14 城市軌道交通司機疲勞分心檢測框架Fig.14 Fatigueand distraction detection framework of urban rail transit drivers

    3DCNN的應(yīng)用使得司機分心檢測不再局限于單幀圖像,很大程度上避免了由于單幀圖像無法獲取時間序列信息而導(dǎo)致的誤判,然而3D CNN的網(wǎng)絡(luò)參數(shù)量比較大,這是接下來3DCNN模型發(fā)展需要解決的問題。

    3 方法對比

    目前研究人員主要采用兩個公開的數(shù)據(jù)集SFD3和AUCD2進行實驗,本章將列舉部分研究人員在兩個公開數(shù)據(jù)集上取得的準(zhǔn)確度,本章將列舉部分研究人員在兩個公開數(shù)據(jù)集上取得的準(zhǔn)確度。

    3.1 數(shù)據(jù)集介紹

    用于司機分心駕駛檢測的公開數(shù)據(jù)集有兩個,SFD3數(shù)據(jù)集是由Kaggle競賽平臺的SFD3競賽提供,SFD3中圖片大小為640×480,包含22 424張帶標(biāo)簽的訓(xùn)練集圖片和79 727張沒有標(biāo)簽的測試集圖片,由于無法獲取測試圖片的標(biāo)簽,研究人員只在訓(xùn)練集圖片上進行實驗。這些圖片中顯示了司機安全駕駛和9種分心駕駛行為如圖15,展示了數(shù)據(jù)集的一些樣本圖像。

    圖15 SFD3數(shù)據(jù)集的10類駕駛行為樣本圖像Fig.15 Sample images of 10 types of driving behavior from SFD3 dataset

    第二個數(shù)據(jù)集是由Eraqi等[24]創(chuàng)建的AUCD2數(shù)據(jù)集,該數(shù)據(jù)集和SFD3一樣,具有9個司機分心駕駛類別,與SFD3不同的是,AUCD2考慮了光照等因素。如圖16展示了部分?jǐn)?shù)據(jù)集。該數(shù)據(jù)集共由17 308張圖片組成,訓(xùn)練集和測試集由Eraqi等[24]劃分為12 977張訓(xùn)練圖片和4 331張測試圖片。

    圖16 AUCD2數(shù)據(jù)集的10類駕駛行為樣本圖像Fig.16 Sample images of 10 types of drivingbehavior from AUCD2 dataset

    3.2 SFD3實驗結(jié)果與分析

    對SFD3數(shù)據(jù)集的22 424張圖片,研究人員采用了三種數(shù)據(jù)劃分方式,分別從SFD3隨機抽取數(shù)據(jù)按照訓(xùn)練集:測試集9∶1、8∶2、7.5∶2.5劃分,取得的實驗結(jié)果如表1~3。TripletLoss通常是在個體級別的細(xì)粒度識別上應(yīng)用,是深度學(xué)習(xí)中的一種損失函數(shù),用于訓(xùn)練差異性較小的樣本。Okon等[35]考慮到核心問題是識別司機的手、臉等細(xì)微動作,從而判斷司機是否分心駕駛,所以采用Softmax和TripletLoss分別做實驗對比,由于只是對損失函數(shù)的修改,所以模型的參數(shù)并沒有改變,實驗結(jié)果如表1,表明了TripletLoss比Softmax更適合于分心檢測任務(wù)。

    Majdi等[18]結(jié)合傳統(tǒng)算法與深度學(xué)習(xí)算法,首先,由于CNN提取圖像特征的能力強于傳統(tǒng)算法,所以Majdi等[18]利用CNN提取圖像特征,然后使用隨機森林算法對司機分心駕駛動作進行預(yù)測,由于對具體的模型結(jié)構(gòu)并沒有作出詳細(xì)的描述,Majdi等[18]也沒有提供模型的參數(shù)大小,本文無法列出其相關(guān)參數(shù)信息。由表2可知,取得95%的準(zhǔn)確度,Majdi等[18]同時在多層感知器(Multi-Layer Perceptron,MLP)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)進行了實驗,分別取得了82.00%和91.70%的準(zhǔn)確度。這表明深度學(xué)習(xí)算法能夠獲得更加豐富的特征信息,相比于傳統(tǒng)學(xué)習(xí)算法提取的特征更有效?;谏疃葘W(xué)習(xí)的算法獲得的準(zhǔn)確度遠高于傳統(tǒng)算法。由于重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)需要花費很長的時間,而且當(dāng)訓(xùn)練數(shù)據(jù)較少時,訓(xùn)練的網(wǎng)絡(luò)提取特征能力一般,而采用ImageNet等大型數(shù)據(jù)集上預(yù)訓(xùn)練網(wǎng)絡(luò)提取特征可以挖掘到比較深層次的特征,表3表明深度學(xué)習(xí)優(yōu)于傳統(tǒng)學(xué)習(xí)的又一大優(yōu)勢是可以利用遷移學(xué)習(xí)減少網(wǎng)絡(luò)訓(xùn)練時間和網(wǎng)絡(luò)需要訓(xùn)練的參數(shù)。通過使用其他人預(yù)訓(xùn)練的權(quán)重,即使只有一個小的數(shù)據(jù)集,也能得到很好的性能,遷移ImageNet數(shù)據(jù)集上訓(xùn)練好的部分網(wǎng)絡(luò)模型參數(shù)提取圖像特征,然后微調(diào)模型,不僅可以極大地降低模型的過擬合程度,而且可以獲取很高的準(zhǔn)確度。從表1~2中可看出利用深度學(xué)習(xí)算法或者結(jié)合傳統(tǒng)算法進一步改進深度學(xué)習(xí)可以取得更好的結(jié)果。

    表1 SFD3數(shù)據(jù)集按照9∶1隨機劃分的實驗結(jié)果Tab.1 Experimental resultsof SFD3 dataset random ly divided into9∶1

    表2 SFD3數(shù)據(jù)集按照8∶2隨機劃分的實驗結(jié)果Tab.2 Experimental resultsof SFD3 dataset random ly divided into 8∶2

    表3 SFD3數(shù)據(jù)集按照7.5∶2.5隨機劃分的實驗結(jié)果Tab.3 Experimental results of SFD3 random ly divided into7.5∶2.5

    3.3 AUCD2實驗結(jié)果與分析

    研究人員在AUCD2上的實驗結(jié)果如表4。由于AUCD2數(shù)據(jù)集比SFD3考慮得更多,如光線的變化等,所以AUCD2數(shù)據(jù)集的識別難度更大。

    Zhang[36]在VGG和將VGG全連接層改為全局均值池化層(Golbal Average Pooling,GPA)進行了實驗,分別取得了90.20%和91.30%的準(zhǔn)確度,如表2。Arefin等[17]采用預(yù)訓(xùn)練的AlexNet卷積層輸出和HOG特征進行融合,使得網(wǎng)絡(luò)參數(shù)大大減少,但準(zhǔn)確度幾乎沒有變化。Arefin等[17]將AlexNet的全連接層改為卷積層,這樣可以使輸入更靈活,可以接受任意分辨率的圖像,而且減少計算量、網(wǎng)絡(luò)參數(shù)量。實驗結(jié)果表明預(yù)訓(xùn)練和與傳統(tǒng)計算機視覺算法相結(jié)合的方式是有效的,傳統(tǒng)CV提取的圖像特征與CNN融合,可以豐富網(wǎng)絡(luò)獲取的圖片信息而且能減少網(wǎng)絡(luò)的參數(shù)量,為實時性檢測提供了有效的研究思路。Baheti等[21]為了利用到VGG提取的圖像特征,為了減少原生VGG的大量參數(shù),Baheti等[21]也是采用預(yù)訓(xùn)練的去掉全連接的VGG,同時采用正則化、Dropout等降低網(wǎng)絡(luò)過擬合,實驗結(jié)果如表4。通過Masood等[37]的實驗可以發(fā)現(xiàn)參數(shù)量降低為原來的11%,而識別準(zhǔn)確度并沒有降低很多,進一步說明與傳統(tǒng)的方法相比,基于深度學(xué)習(xí)提取的特征更加有效,從而取得的結(jié)果準(zhǔn)確度更高。利用遷移學(xué)習(xí),不但可以提高網(wǎng)絡(luò)訓(xùn)練速度,而且可以提高實驗準(zhǔn)確度,因此很多研究人員采用遷移學(xué)習(xí)方式優(yōu)化實驗。

    表4 AUCD2數(shù)據(jù)集上的實驗結(jié)果Tab.4 Experimental resultson AUCD2 dataset

    4 未來發(fā)展方向

    為了預(yù)防駕駛分心引起的交通事故,針對目前研究現(xiàn)狀,未來的研究發(fā)展方向?qū)⑿枰亟鉀Q以下3點問題:

    1)基于深度學(xué)習(xí)的方法只對司機的9個分心駕駛動作檢測,然而實際生活中司機分心駕駛動作是復(fù)雜多變的,未來的研究工作需要將圖片動作識別轉(zhuǎn)化為目標(biāo)檢測研究,因此,關(guān)于司機在駕駛過程中分心狀態(tài)以及分心程度劃分規(guī)范還需作進一步研究。

    2)司機分心來自多方面因素的影響。在進行相關(guān)研究時應(yīng)綜合考慮人-車-路三者,如果只關(guān)注司機眼睛、頭、手或者拍攝司機駕駛動作得到的信息是不全面的,尤其是當(dāng)處于交通環(huán)境復(fù)雜的情形時,只獲取到“人”的信息是不全面的。

    3)深度學(xué)習(xí)的方法雖然可以提取到更深層次的特征,取得的效果也更好,但是神經(jīng)網(wǎng)絡(luò)的參數(shù)量往往很龐大,恐難以滿足實時性要求,如何更有效地減少神經(jīng)網(wǎng)絡(luò)參數(shù)也是研究人員需要解決的一大難題。

    5 結(jié)語

    本文總結(jié)了多種司機分心駕駛檢測算法,分為傳統(tǒng)CV算法和深度學(xué)習(xí)算法兩類。由于傳統(tǒng)CV算法具有對環(huán)境的要求高、參數(shù)多、計算量大的缺點,而深度學(xué)習(xí)在提取數(shù)據(jù)特征方面表現(xiàn)出速度快、精度高等優(yōu)異的性能,深度學(xué)習(xí)的算法可以實現(xiàn)端到端的訓(xùn)練和檢測,只需在車內(nèi)儀表盤安裝攝像頭對司機拍攝即可,無需佩戴任何檢測設(shè)備,檢測準(zhǔn)確度很高。但深度學(xué)習(xí)也有一定的缺陷,網(wǎng)絡(luò)參數(shù)量過大容易導(dǎo)致實時檢測出現(xiàn)問題。目前神經(jīng)網(wǎng)絡(luò)的過擬合問題也很嚴(yán)重,過擬合會導(dǎo)致神經(jīng)網(wǎng)絡(luò)的泛化能力大大減弱,識別準(zhǔn)確度降低。接下來的研究中,在確保神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確度不降低的情況下,如何減少參數(shù)量、降低網(wǎng)絡(luò)過擬合、滿足實時檢測要求將是駕駛員分心駕駛檢測研究的熱點。

    猜你喜歡
    司機卷積深度
    基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
    畫與理
    深度理解一元一次方程
    老司機
    雜文月刊(2019年19期)2019-12-04 07:48:34
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    深度觀察
    老司機
    深度觀察
    深度觀察
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    利川市| 平阳县| 新干县| 崇礼县| 靖远县| 高陵县| 阳曲县| 双城市| 洪江市| 屏山县| 镇江市| 克拉玛依市| 乳山市| 阜城县| 杭锦后旗| 郸城县| 福鼎市| 明星| 惠来县| 中西区| 哈尔滨市| 汕尾市| 文登市| 息烽县| 封丘县| 呼和浩特市| 竹溪县| 讷河市| 通江县| 年辖:市辖区| 临夏县| 天水市| 四子王旗| 信丰县| 汪清县| 木里| 嵩明县| 绥宁县| 丹东市| 屯留县| 青铜峡市|