熊明福, 李家輝, 熊捷繁, 向闈, 陳佳
(1.武漢紡織大學計算機與人工智能學院, 武漢 430000; 2.武漢大學國家網絡安全學院, 武漢 430000; 3.湖北技術交易所, 武漢 430000)
近年來,隨著中國人口老齡化現(xiàn)象的加劇,老年人的生活起居已成為社會關注熱點問題之一。例如,老齡人群在馬路上行走因身體原因而突然倒地后如不能及時采取補救措施,就可能會有生命危險。因此,檢測此類人群的跌倒行為并預警,采取及時補救措施,對于國家健康養(yǎng)老事業(yè)的發(fā)展具有重要意義[1]。
行人跌倒檢測屬于計算機視覺領域中行為識別的子類,其目的主要是判斷行人在行走過程中是否倒地異常而發(fā)生意外。其在智慧安防、智能家居和智能監(jiān)護等領域具有重要的應用。當前基于行人跌倒檢測的算法主要有兩種:第一種依靠傳感器裝置完成行人跌倒檢測[2];第二種則是依靠于視覺算法實現(xiàn)檢測[3]。前者一般需要借助Kinect或者陀螺儀這類儀器搭配科學計算得到結果。后者在實現(xiàn)上可分為兩類:第一類是基于區(qū)域的目標檢測算法,該類算法主要包括兩個階段,先生成候選區(qū)域,再在生成的區(qū)域上進行分類與回歸;第二類算法是基于回歸的目標檢測算法,這類算法為單階段檢測算法,直接跳過候選區(qū)域來預測物體的類別概率和位置坐標。YOLO(you only look once)[4-5]和SSD(single shot multibox detector)[6]這兩類算法是其中的代表,單階段算法也是實時檢測的主要陣地。
雖然現(xiàn)有的單階段檢測方法在行人跌倒檢測性能方面取得了不錯的成績,但其主要針對理想場景,即沒有障礙物和其他因素干擾(如電動車流和行人影子)的情況下。但在實際的監(jiān)控場景中,由于受到障礙物等其他客觀因素的影響,導致現(xiàn)有的行人跌倒檢測算法還有進一步提升的空間?;诖?,作者致力于提出一種基于改進優(yōu)化的YOLOv5行人跌倒檢測算法,主要解決面臨障礙物和其他因素干擾情況下的行人跌倒檢測。
當前國內外已有大量研究關于行人跌倒檢測的應用。其中比較有代表性的工作包括針對傳感器的檢測,如陳鵬等[7]設計了可穿戴式跌倒檢測智能系統(tǒng),這類方法最大的特點就是精確且不受場地和范圍限制,它需要受測的人佩戴傳感器(陀螺儀等)或者處于一個傳感器環(huán)境(紅外、超聲波)里,這一特性使得該方法在日常生活中難以普遍推廣。因此基于視覺特征檢測的方法稱為當前研究的主流方向,此類方法主要是基于視頻圖像數(shù)據。
現(xiàn)有基于視頻圖像的跌倒檢測算法主要可分為靜態(tài)幀檢測算法和基于LSTM(long short-term memory)[8]、Transformer[9]等網絡的行為時序檢測。王平等[10]提出了一種基于視頻中人體姿態(tài)的跌倒檢測方法;馬露等[11]提出了一種改進的FSSD(feature fusion single shot multibox detector)跌倒檢測方法;伏娜娜等[12]提出了基于輕量級OpenPose模型的跌倒檢測算法;Qi等[13]提出了基于LSTM的時序特征提取的復雜室內場景的實時檢測方法。雖然此類算法在行人跌倒檢測方面取得了一定的效果,但其檢測速度不夠實時,且其主要應用于室內或者環(huán)境較為理想的地方(目標單一無障礙物),這些地方環(huán)境干擾因素很小,實現(xiàn)環(huán)境簡單。然而實際的戶外環(huán)境復雜多變,存在較多的雜物遮擋、雜物等因素的干擾,導致傳統(tǒng)的算法難以推廣適用,不足以廣泛應用于實際的戶外生活場景。準確合理地解決這類場景下跌倒檢測問題是智慧城市、和諧社會發(fā)展的必然需求。因此,現(xiàn)提出基于視頻光流重構和行人姿態(tài)解析協(xié)同的行人跌倒檢測算法。旨在檢測復雜場景 (存在障礙物和背景干擾) 下的行人跌行為并提供及時預警,為中國的監(jiān)控養(yǎng)老及智慧城市的發(fā)展提供技術支撐。
對比國內外很多光流法,只有在室內光源穩(wěn)定的情況下才可以高效識別,為了最大程度降低光流法對光源的敏感性問題,創(chuàng)造性地使用圖像重構和光流法協(xié)同判定,通過圖像重構去削減圖像的干擾信息。針對光影以及電動車、摩托車這些不易區(qū)分的干擾因素,現(xiàn)提出人車一體化判別用數(shù)學計算排除干擾項,不需要進行額外的檢測算力消耗。最后針對精確率和速度兩者的綜合考慮采用優(yōu)化后的YOLO網絡進行多層融合來強化高層特征信息去強化跌倒姿態(tài)檢測。
具體說來,本文的創(chuàng)新主要體現(xiàn)在以下幾個方面:①采用圖像重構和光流法協(xié)同判定,以削減圖像冗余信息,并為強化光流檢測而進行間隔幀提取,以此得到更短且特征更顯著的待檢測幀序列;②將YOLOv5網絡中間層視覺特征與高層語義信息協(xié)同融合,實現(xiàn)中大型目標(人、車等)姿態(tài)特征解析,以在保持高速檢測的同時增強網絡對行人跌倒狀態(tài)的特征識別的敏感性,提升行人跌倒檢測的效率;③最后在網絡優(yōu)化過程中,分別采用Silu和Leaky激活函數(shù),實現(xiàn)卷積層和FPN的協(xié)同優(yōu)化,從而消除額外的干擾的特征檢測以避免算力的消耗,提升檢測效率。
本文提出的跌倒檢測方法是基于YOLOv5改進的網絡,為了適用于路邊的檢測,間隔取幀以5幀組成一個幀序列作為元數(shù)據傳入,先通過人物識別[14]和同一物體歸并進行干擾背景去除,此時再通過光流法針對僅有的人物圖像進行光流驗證以及進行倒地的anchor框先驗,再經過針對跌倒檢測優(yōu)化的YOLOv5網絡進行倒地狀態(tài)檢測,并多幀加權判定最終得到跌倒檢測的結果。本文提出的方法除了跌倒檢測時會進行訓練分類之外,其余步驟都不需要進行復雜的運算,所以在整體速度上基本可以達到實時。
本文所提出的方法流程如圖1所示,主體上分為5個部分:幀間隔提取幀序列、圖像重構初始化、光流檢測、姿態(tài)特征檢測、網絡優(yōu)化。
圖1 方法流程圖Fig.1 Method flow chart
正常監(jiān)控獲取的視頻都是30幀/s,雖然用30幀作檢測理論上會更加精確,但是對于計算能力的需求太過苛刻。30幀/s中相鄰幀的信息重復度過高,變化程度相對有限,對于光流的檢測30幀/s的檢測不利于獲取運動信息,間隔5幀取一幀放入待檢測序列則可以獲取明顯的運動信息。以L作為1 s內全部幀序列數(shù)組,l作為待添加幀數(shù)組,以對n(取幀間隔)取余作為判定條件(推薦n的值為5)對數(shù)組進行append操作,即1 s內取5幀作為一個待處理圖像列表輸出作為后面圖像重構和光流判定的數(shù)據輸入。
本方法設計了一個背景移除模塊,模塊的原理是通過anchor框的信息進行圖像重構獲得更容易進行特征識別的圖像信息。圖像重構模塊在YOLOv5卷積之后并不直接輸出而是把得到的anchor信息(x、y、w、h分別代表中心點的橫縱坐標以及寬高)傳入圖像重構模塊,通過得到的信息(x、y、w、h)按照1∶1的比例形成新的圖像信息,表達式為
(1)
式(1)中:n為當前圖像信息中的人物個數(shù);Ii和Ji分別為重構前和重構后的人物ID。
在實現(xiàn)上首先使用numpy的zeros函數(shù)(本文使用dtype=“uint8”)重構一個和原圖一致的全0數(shù)組,然后接收anchor框信息用asarray、expand_dims得到當前anchor框的新坐標點(攜帶RGB信息,本文使用dtype=np.int32),再用cv2的polylines函數(shù)畫出框內所有點并通過fillPoly函數(shù)進行連線形成封閉區(qū)域,為了保證重構前后的人物位置比例信息不變,此時還需要用cv2的bitwise_and函數(shù)將連接起來的區(qū)域對應的數(shù)組和原圖對應位置按位相與,最后使用Image.fromarray將數(shù)組信息轉化成圖像信息,這里可能需要注意到圖像的RGB和BGR轉化。
YOLOv5是基于CSPNet[15]的網絡結構,本方法針對復雜場景的需求將GIoU[16]替換成了DIoU[17](IoU指重疊度,即預測區(qū)域和實際區(qū)域的重合度),其表達式為
(2)
(3)
式中:A為包裹預測框和實際框的最小矩陣;U為預測框和實際框的交集,b、bgt分別為預測框和真實框的中心點;ρ為兩個計算中心點間的歐式距離;c為能夠同時包含預測框和真實框的最小閉包區(qū)域的對角線距離。
式(2)、式(3)分別為GIoU和DIoU復雜環(huán)境中DIoU要比GIou更適合用于目標框回歸,DIoU將目標與anchor之間的距離、重疊率以及尺度都考慮進去,使得目標框回歸變得更加穩(wěn)定,不會有IoU和GIoU一樣出現(xiàn)訓練過程中出現(xiàn)部分重疊處anchor框丟失的問題。
對于摩托車和自行車等的干擾信息,這些單位的移動強光源會影響光流法,但是車輛的直接移除會導致車上被檢測出的人速度過快,觸發(fā)后面的光流幀差模塊報警。本方法通過人和摩托車的anchor框進行重疊判定進行分析排除,得到背景移除后傳入的人和摩托車的anchor信息后對人與摩托車重疊的部分進行判定,判定如果人和摩托車為同一運動目標就會從前景列表中移除,預測框過濾,只取閾值最高的預測框,設置為0.5,判定公式為
(4)
(5)
(6)
式(4)~式(6)共同判定,dm代表摩托車為檢索目標;dp代表人為檢索目標;[2][*]第一位代表當前類別的位置和大小信息的列表(list),第二位的[0][1][2][3]分別代表的是中心點x、y、w、h。式(4)~式(6)表示在摩托車和行人的兩者的質心之間找一個相交區(qū)域作為人在騎車的判定標準,移除前后效果如圖2所示。
圖2 移除噪聲數(shù)據前后效果Fig.2 Effect of before and after removing the noise data
圖3 人物信息提取Fig.3 Person information extraction
圖4 移除不相關人物信息Fig.4 Remove irrelevant person information
圖像重構的目的是移除絕大部分例如摩托車和影子這一類干擾噪聲,最終效果如圖3和圖4。
在復雜場景之下首先要確定的是檢測目標只能僅限于人而非車流[18],對于人之外的信息都是無效信息,首先進行無效信息剔除[19]移除背景之前得到人物信息,人物檢測方面由于YOLOv5已經在coco數(shù)據集上有了良好的人物識別精度,人物檢測提取直接使用的是YOLOv5的預訓練模型。現(xiàn)在公開的關于跌倒的數(shù)據集有Fall event datasets、Le2i Fall等,這些數(shù)據集的錄制環(huán)境都是簡單的場景,不能完美展現(xiàn)復雜場景下的信息。本文選取了部分實地復雜場景之下的數(shù)據。
光流法[20]是利用圖像序列中像素在時間域上的變化以及相鄰幀之間的相關性來找到上一幀跟當前幀之間存在的對應關系,從而計算出相鄰幀之間物體的運動信息的一種方法。
通常把二維圖像平面指定坐標點上的灰度瞬時變化率(u,v)(u為X軸的位移,v為Y軸位移)分別在X軸和Y軸上定義為瞬時速率也可以成為光流矢量,在圖像中表示為兩幀之間的光流位移。
光流位移本身是由于場景中前景目標本身的移動、相機的運動,或者兩者的共同運動所產生的,這里相機是固定機位,所以光流的位移只會來自于目標的運動,用幀差光流坐標的位移來表現(xiàn)。表達式為
Ixu+Iyv+It=0
(7)
式(7)中:I表示當前光流點;Ix、Iy和It分別表示像素點的灰度沿X、Y和T方向上的偏導數(shù)。
光流表達了圖像的變化,它包含了目標運動的信息,搭配幀差光流長度計算可以得到運動(跌倒)信息。
以兩幀差分得到圖像中變量信息的光流運動情況,跌倒作為一個較短時間內的劇烈變換,在移除過背景信息后可以很容易得到對應錨點的位移長度,因為幀之間的時間差是固定的,光流幀差的判定可以用長度做閾值來判定速度的快慢,圖5所示為一組跌倒幀,圖6所示跌倒行為光流場變換。
跌倒時瞬時速度大且連貫,光流變化較為明顯,當光流運動判定超過閾值之后就會將當前組別的幀作為待定檢測幀序列輸入傳入跌倒姿態(tài)檢測模塊。
圖5 連續(xù)跌倒幀F(xiàn)ig.5 Continuous fall frame
圖6 跌倒幀觸發(fā)光流Fig.6 Falling frame touch light flow
選取跌倒的幾幀光流圖像所取的效果如圖,光流檢測會分析不同幀之間的光流信號進行是否快速運動的判別,并提供光流場的運動軌跡。引用光流檢測有兩個目的:第一去除靜態(tài)誤識別的干擾,第二將跌倒光流變換作為先驗特征去判別。
在室外場景中用光流法檢測人物運動通常比較困難,除開人的跌倒會導致光流變化,車流的行駛和光照對于光流來說干擾也很嚴重,前面添加的背景移除模塊解決了這一問題,背景移除模塊可以移除掉復雜場景這些會對識別造成干擾的背景信息。
姿態(tài)特征檢測的目的即是檢測出靜態(tài)幀中的跌倒姿態(tài),基于YOLOv5s網絡的基礎進行網絡的跌倒特征融合優(yōu)化。本方法改進網絡的側重點是針對人物跌倒,需要的是高層特征上擁有足夠精確的語義信息,底層特征則是以提高檢測速度為準,通過這一特性對高層特征的語義信息進行豐富,本方法從網絡多階段取卷積輸出進行融合強化高層特征,對于靜態(tài)幀的姿態(tài)信息獲取更加敏感,圖7為完整檢測效果圖。
圖7 完整的檢測效果Fig.7 Complete detection effect
1.5.1 網絡描述
網絡架構主要使用了兩種激活函數(shù)Silu和Leaky,分別在backbon和neck兩個階段使用,網絡中各組件結構如圖8所示。
圖8 組件細節(jié)Fig.8 Component details
網絡結構如圖9所示,首先輸入的是預處理過后的RGB圖像數(shù)據,focus后變成64維,后續(xù)經過三輪C3和Conv普通卷積(k=3,s=2,k為卷積核大小,s為卷積步長),每一輪維度翻倍圖像分辨率規(guī)格長寬都降低1倍,去除圖像噪聲的同時可以為后面的FPN+PAN提供融合信息。此時輸出的數(shù)據維度為1 024維經過SPP后獲得固定的640×640的圖像信息傳入neck。
neck階段數(shù)據傳入特征金字塔[21]處理,通過Conv卷積(k=1,s=1)和上采樣縮小維度擴充圖像,上采樣采用的是nearest鄰接上采樣。每一輪Conv維度縮小1倍,每一輪上采樣過后圖像分辨率長寬都翻倍,且之后用concat進行信息融合(第一輪取第6層,第二輪取第四層),兩輪過后此時輸出為256維。
圖9 跌倒特征融合識別網絡Fig.9 Fall feature fusion recognition network
再經過兩輪Conv卷積(k=3,s=2)下采樣將圖像規(guī)??s小1倍,且每一輪后續(xù)進行兩次融合(第一輪分別取第15層進行concat融合并將輸出和第6層融合,第二輪分別取11層并將輸出和第10層融合),并對其中18、22、26層的256維、512維、1 024維輸出進行detect檢測,得到的結果信息返回給原圖處理。
1.5.2 特征檢測
為了在檢測中獲得更好的效果,我們在跌倒檢測這一部分對網絡進行了一定程度上的調整,在網絡開始的輸入端除開YOLOv5自有的mosaic數(shù)據增強外,本方法還在原本的mosaic中集成了mixup[22]數(shù)據增強,有小幅度精度提升,效果較為顯著。
針對跌倒這一行為本方法對網絡進行了一些修改,在FPN上采樣階段采用了基于Leaky Relu的C3L和比C3多增加了一個卷積的C4,目的是去修正前面多輪add可能帶來的負面信息。C3L在neck中作為組件進行使用,這里選用add是為了增加后面在pred階段的時候特征向量在每一維度有更多的信息,由于處理后圖像并不復雜,此時用add相比于concat更有效。
本方法在這里使用add是之前預處理后傳輸過來的數(shù)據,使用concat會避免add可能帶來的信息負面影響,但在此處圖像特征噪音較少需要更高的語義信息,在高層特征圖上使用add不會造成精度上的損失。前面在head層前面引用了前面backbone層里第六層和第十層的輸出,在整體的速度上來說在融合部分使用了add融合導致檢測速度有一定程度的提升。
C4組件應用于高層特征圖的檢測,并且在C4獲得concat的輸出之前將第4層的C3的輸出進行了一個維度不變的卷積,對C3進一步進行特征融合優(yōu)化,并輸出指定維度的特征向量。且僅僅在高層特征圖檢測前使用C4組件其余兩個檢測則用的還是C3L。
網絡的改進主體上還是FPN+PAN的結構,其中上采樣階段本方法使用的是nearest,因為這里接受的待檢測數(shù)據已經是經過初步處理的數(shù)據,選用處理速度最快的nearest不會造成性能和精度上的損失,再在高層特征的兩次檢測前獲取了在backbone階段(6,10兩層C3輸出)卷積的信息進行融合豐富語義信息。
最后head階段將18、22、26三層檢測輸出的信息使用add進行融合,跌倒的特征有同類特征含義,需要更多的特征信息,add可以保證每一層的信息融合。
本方法最后的分類階段使用的是二分類,只有跌倒和未跌倒兩種情況。對最后一層輸出進行sigmoid,損失函數(shù)則是搭配使用交叉熵損失函數(shù),針對這一特性使用兩者整合的BCEWithLogitsLoss,公式為
ln=-{ynlg[δ(zn)]}+
{1-ynlg[1-δ(zn)]}
(8)
式(8)中:n為特征樣本數(shù);zn為模型預測樣本時跌倒的概率;yn為第n個樣本的跌倒正負性;δ為sigmoid函數(shù)。
從跌倒檢測的公開數(shù)數(shù)據集multiple cameras fall[23]和Le2i[24],訓練集是抽取75%(4 129張復雜場景圖片)圖片幀加上multiple cameras fall數(shù)據集的50%,用剩余的數(shù)據和Le2i Fall數(shù)據集一起作為測試集如表1。訓練的參數(shù)上跌倒的主體是人,訓練的預訓練使用的是YOLOv5自帶的基于coco數(shù)據集的預訓練模型。在參數(shù)設置上nc(分類類別)類別使用的是兩類:fall和nofall,在結構上使用的YOLOv5s的改進網絡結構,網絡寬度和深度分別是1/3和1/2(默認的卷積核使用個數(shù)是3這里既是取1)。
表1 數(shù)據分布Table 1 Data distribution
實驗操作系統(tǒng)為Ubuntu16.04,深度學習框架為 Pytorch。實驗硬件環(huán)境為 Intel I7 9700處理器, GPU為 Nvidia RTX2080Ti。
初始學習率為0.01,學習率周期為0.2,主要訓練的超參數(shù)設置如下: cfg為模型配置和網絡結構的yaml文件,這里使用的是本方法改良過的模型;data為數(shù)據集配置的yaml文件即包含數(shù)據集路徑的yaml;epochs為訓練總輪次推薦是250或者300;batch-size為每個輪次圖片訓練的批次大小,這里批次大小視顯存大小而定;img-size為輸入圖像的分辨率大小,這里注意是訓練和mAP測試的圖像尺寸,并不是限制圖像的分辨率; cache-images為提前緩存圖片進內存項;weights為加載與訓練的權重文件,本方法用的coco數(shù)據集(微軟數(shù)據集)預訓練模型;device為訓練設備設置,支持單卡多卡或CPU運算,這里視自己機器環(huán)境而定,需要額外提到;evolve為是否超參進化默認為false;hyp指的就是超參數(shù)配置的yaml文件路徑,本文暫時沒有用到超參數(shù)進化。
本方法幀序列評判標準為
SF = FF/AF
(9)
式(9)中:FF指的是檢測出fall的幀數(shù)(即閾值高于0.55);AF指的是當前檢測列表的全部幀數(shù),即SF≥0.2就判斷為跌倒。
(10)
(11)
式中:P、R分別為精確率和召回率,其中TP(true positive)表示預測跌倒,且預測正確;FP(false positive)表示預測跌倒,且預測錯誤;FN(false negative)表示遺漏的跌倒區(qū)域。
跌倒檢測識別主要目的是降低誤報率提高識別率,所以主要的實驗結果參考參數(shù)為精確率和召回率。
2.4.1 實驗結果
表2為在公開數(shù)據集Multiple和Le2i上的實驗結果,統(tǒng)計了不同方法在不同檢測目標上的精確率、召回率、F1值(對精確率和召回率的綜合評判)和效率(速度值)。由表2的實驗可知,本文所提出的方法具有較強的競爭性,其目的是能夠在高準確率的情況下達到最快的檢測速度,使用YOLO進行快速檢測并保持傳統(tǒng)多階段網絡的高識別率。從表2中得知,雖然精確度和召回率和最新的結果相似,但是速度明顯高于最新方法。尤其相對于文獻[10]的方法,本文方法速度提高了4倍以上,足可以說明本文方法除了保留當前最優(yōu)競爭力的性能外。另外在檢測速度上達到52 幀/s,遠高于其余方法的檢測速度。對比最新的Res2Net-YOLACT和基于墜落運動矢量模型的監(jiān)控視頻中人體墜落檢測本文保持高精確率的同時更加迅速,魯棒性和實時性更高,說明本文方法具有實時性和高效性,能夠更好地適用于實際的應用。
表3以車流等復雜路邊場景為主進行相關實驗。由結果顯示,相對于文獻[10]和文獻[12]所采用傳統(tǒng)的OpenPose等方法,其對于不同攝像角度和姿態(tài)之間的關系進行檢測,雖然他們的方法也取得了一定效果,但相比較而言現(xiàn)有方法的速度相對不高,且檢測效果還有待進一步的提升。本文所提出的方法相對于上述兩種方法在精度上提升了近5%,有明顯的提升,并且其在效率時間上從12 幀/s提升到53 幀/s,實現(xiàn)了實質性的改變。在F1上從75%提升到84%,極大地提升了檢測的實時性和效率,從而體現(xiàn)本文所提出方法的優(yōu)越性。另外,相對于Base-YOLO,本文基于改進優(yōu)化的方法在精度和效率上也有較大的提升。
表2 不同算法Multiple和Le2i結果Table 2 Multiple and Le2i results of different algorithms
表3 包含車流場景結果Table 3 Include traffic flow scene picture results
2.4.2 消融分析
在復雜場景下,如表4所示為單純的靜態(tài)幀檢測對比,檢測網絡的性能,不管是參照物網絡還是本方法的優(yōu)化網絡都會出現(xiàn)較大誤識別現(xiàn)象,總體上本方法的檢測結果與對比實驗還是有提升,證明了本方法針對優(yōu)化對網絡的跌倒檢測是正向作用,且由于靜態(tài)幀recall值不夠高,幀序列能夠減少靜態(tài)幀的單幀錯判和單幀漏識別現(xiàn)象,可以很大程度提高單幀recall過低的情況。
在背景去除的消融實驗上如表5未去除背景幾乎在所有電動車的圖像中和有人物影子的圖像中都出現(xiàn)誤識別跌倒,在復雜場景下騎電動車的人和影子是常見的噪聲干擾,能夠進行遴選排除可以非常有效提高識別率,本文方法在把電動車和人進行數(shù)學化計算成整體而去除后準確率直接提升0.14。
在同幀差速的情況下如表6以兩幀檢測會丟失掉部分關鍵幀影響光流判定,導致結果不如單幀檢測。召回率0.69相比于5幀和10幀差距明顯,10幀檢測和5幀檢測的結果幾乎相同,同時10幀檢測的待檢測幀序列是5幀的2倍,有算力浪費和處理速度的損失。
表4 改進對比Table 4 Improvement comparison
表5 背景去除對比Table 5 Background removal contrast
表6 不同幀序列Table 6 Different frame sequences
針對現(xiàn)有行人跌倒檢測算法在面臨電動車流和行人影子的干擾而導致識別準確率不高的問題,提出了一種基于優(yōu)化YOLOv5的路邊行人跌倒檢測方法。本文提出的基于視頻抽幀方法和光流anchor框的算法可適用于多種復雜的路邊場景,能夠較好地解決行車下蹲等噪聲干擾的,尤其是在針對近距離光流運動感應情況下的行人跌倒檢測具有較好的效果。未來將進一步擴大數(shù)據量,并考慮通過加入transformer來代替YOLOv5的CSPnet,以及引入Decoupled Head解耦頭來代替YOLO head,實現(xiàn)更高效的行人跌倒檢測。