沈陽理工大學(xué) 魯普東 王 茜 楊詩琪 李思涵 劉健強(qiáng) 祁 燕
為了提高對視頻中特殊人群跌倒檢測的準(zhǔn)確率,提出了一種新型的室內(nèi)跌倒檢測模型。采用卷積神經(jīng)網(wǎng)絡(luò)中的VGG-16網(wǎng)絡(luò)模型,在數(shù)據(jù)集中加入大量公用的跌倒行為數(shù)據(jù)集進(jìn)行學(xué)習(xí)訓(xùn)練,在此基礎(chǔ)上使其具有判斷能力。使用光流法處理圖像,大大除去背景環(huán)境的干擾,系統(tǒng)可以在任意環(huán)境下使用。實(shí)驗(yàn)結(jié)果表明,所設(shè)計(jì)的新型室內(nèi)跌倒檢測模型相較于傳統(tǒng)跌倒檢測算法具有更高的識別準(zhǔn)確率和較低的誤報(bào)率,較好的實(shí)現(xiàn)跌倒檢測。
跌倒表示突然的倒下,倒在同一水平面或者更低的平面上。我國老齡化越來越嚴(yán)重,社會人口結(jié)構(gòu)呈現(xiàn)老年?duì)顟B(tài),與此同時(shí),老年人的跌倒問題也是日益嚴(yán)重,已經(jīng)成為引起老年人受到嚴(yán)重傷害甚至死亡的一個重要原因。研究表明,在65周歲以上的老年人中,有33%的老年人每年至少會發(fā)生一次跌倒,其中4%~15%的跌倒行為導(dǎo)致老年人受到了嚴(yán)重傷害,人口老齡化導(dǎo)致越來越多的獨(dú)居老人出現(xiàn)。所以提出一個室內(nèi)跌倒行為實(shí)時(shí)檢測系統(tǒng)就顯得十分重要。本課題擬開發(fā)一個基于CNN的跌倒行為檢測系統(tǒng)。該系統(tǒng)可以提取攝像頭視頻中的人體運(yùn)動信息,對這些信息進(jìn)行行為檢測,當(dāng)檢測到有跌倒行為發(fā)生時(shí)系統(tǒng)可以及時(shí)發(fā)出警報(bào)。
目前檢測跌倒的主要方法分為兩類,一是基于傳感器的智能設(shè)備,二是基于計(jì)算機(jī)視覺的檢測算法。
基于傳感器的智能穿戴式設(shè)備實(shí)現(xiàn)實(shí)時(shí)跌倒檢測通常采用加速度傳感器陀螺儀或輔助報(bào)警按鈕。2006年,浙江大學(xué)的趙祥欣采用了三維加速度傳感器MMA7260、處理器MSP430F149及通訊模塊的結(jié)構(gòu)組合方案,搭建一個三維加速度監(jiān)測系統(tǒng)。隨著科技的進(jìn)步,Cotechini Valentina等人構(gòu)建了一個用于開發(fā)和優(yōu)化基于可穿戴傳感器的跌倒檢測算法的數(shù)據(jù)集。Amir Mehmood等人提出了一種基于微光傳感器的老年人跌倒檢測算法取得了比較好的實(shí)驗(yàn)效果。
基于計(jì)算機(jī)視覺的檢測方法最大優(yōu)點(diǎn)是用戶不用穿戴任何傳感器設(shè)備,而是通過挖掘視頻數(shù)據(jù)中的有用信息進(jìn)行分析。從安裝在室內(nèi)的監(jiān)控提取出視頻數(shù)據(jù),包括人在室內(nèi)的一些活動信息,然后通過各種算法識別人體的行為,從而檢測出跌倒行為。在提取人的運(yùn)動特征部分所用的方法分別是:第一種:選擇提取人體的3D特征?;贙inect相機(jī)的人體跌倒檢測算法研究把人體骨骼節(jié)點(diǎn)的加速度特征、距離地面高度特征與計(jì)算骨骼節(jié)點(diǎn)點(diǎn)心距的K-means距離特征進(jìn)行組合,得到最終分類器的特征向量。第二種:使用計(jì)算機(jī)視覺領(lǐng)域的技術(shù)從視頻的連續(xù)幀中提取特征。提取特征的方法大多選擇深度神經(jīng)網(wǎng)絡(luò)加分類器的組合。S. Wang等人提出了使用PCANet來提取特征,然后使用支持向量機(jī)算法(SVM)來檢測跌倒。
雖然基于計(jì)算機(jī)視覺的方法目前還沒有出現(xiàn)家喻戶曉的產(chǎn)品,但是隨著深度學(xué)習(xí)的快速發(fā)展和攝像設(shè)備的普及,基于計(jì)算機(jī)視覺的跌倒檢測方法有著很好的前景。
本課題利用VGG-16構(gòu)建一個跌倒檢測系統(tǒng),系統(tǒng)的輸入數(shù)據(jù)來自家庭攝像頭拍攝的視頻,通過對卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練使其具有識別動作的能力后,再加入公共的跌倒數(shù)據(jù)集,讓其能夠判斷當(dāng)前行為是否是跌倒動作,如果判斷當(dāng)前動作為跌倒則發(fā)出警報(bào)。
(1)VGG模型與VGG-16模型
VGG模型與VGG-16模型是2014年,牛津大學(xué)提出來的網(wǎng)絡(luò)模型。VGG-16有13層卷積層+3層全連接層,共16層。VGG-16使用了3×3的小型卷積核和2×2的較大池化核。其結(jié)構(gòu)如圖1所示。
圖1 VGG-16結(jié)構(gòu)圖
(2)預(yù)訓(xùn)練模型
預(yù)訓(xùn)練就是將圖片每一個像素減去了均值。在某些大型數(shù)據(jù)集上提前訓(xùn)練的VGG16網(wǎng)絡(luò)來使其具有一定的識別能力。
簡單來說,預(yù)訓(xùn)練模型是為了解決類似問題通過前人的積累所創(chuàng)造出來的模型。當(dāng)我們遇到問題時(shí),不用從頭開始從0到1地訓(xùn)練一個新模型,反而可以從在類似問題中尋找曾經(jīng)訓(xùn)練的模型,這樣會節(jié)約大量的時(shí)間成本。
VGG-16的預(yù)訓(xùn)練過程如圖2所示。
圖2 VGG-16預(yù)訓(xùn)練過程
(1)遷移學(xué)習(xí)模型
遷移學(xué)習(xí)是一種深度學(xué)習(xí)的訓(xùn)練策略,指的是一個預(yù)訓(xùn)練的模型被重新用在另一個任務(wù)中。在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中需要大量的樣本數(shù)據(jù)集,大量的樣本示例更有利于整個網(wǎng)絡(luò)學(xué)習(xí)特征。但是跌倒數(shù)據(jù)集(URFD、Muticam、FDD)相較于其他數(shù)據(jù)集(UCF-101、ImageNet)數(shù)量過小,其中ImageNet數(shù)據(jù)集含有超過1400萬張圖片,UCF-101數(shù)據(jù)集包括13350個視頻其中涵蓋了101個人體日常的動作而跌倒數(shù)據(jù)集。URFD包含30個跌倒視頻和40個日常行為視頻在數(shù)量上和UCF-101和ImageNet相距甚遠(yuǎn),所以本實(shí)驗(yàn)擬采用遷移學(xué)習(xí)的方法來解決數(shù)據(jù)集數(shù)量差異的問題。
使用遷移學(xué)習(xí)把預(yù)訓(xùn)練后的參數(shù)放到跌倒檢測模型中。數(shù)據(jù)集加入跌倒數(shù)據(jù)集URFD讓整個模型具有識別跌倒數(shù)據(jù)集的能力,構(gòu)建一個二分類器,分類器輸出的結(jié)果是跌倒行為或非跌倒行為。
訓(xùn)練模型:在數(shù)據(jù)集中加入跌倒行為的數(shù)據(jù)集,再次對預(yù)訓(xùn)練后的模型進(jìn)行訓(xùn)練使其可以檢測出人體動作行為中的跌倒行為并不斷調(diào)整模型使其達(dá)到較高的準(zhǔn)確率。
(2)實(shí)驗(yàn)數(shù)據(jù)集的采集
本實(shí)驗(yàn)通過在家中的攝像頭下進(jìn)行姿勢的切換,通過截取視頻片段輸入到預(yù)訓(xùn)練模型中,采集的樣本數(shù)據(jù)是由三位年齡不同、性別不同的人構(gòu)成,主要采集的行為有跌倒、下蹲、站起、蹲起、突然下蹲、坐下等六種行為。待數(shù)據(jù)采集完成并去除無效數(shù)據(jù)后,共得到300份樣本,不同的行為對應(yīng)的樣本數(shù)據(jù)如表1所示。
表1 不同行為的樣本數(shù)據(jù)
(3)跌倒檢測實(shí)驗(yàn)結(jié)果與分析
本項(xiàng)目將所采集到的數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),并按照8:2比例進(jìn)行分配。則可以得出訓(xùn)練數(shù)據(jù)一共240條,測試數(shù)據(jù)一共60條。分析240條訓(xùn)練數(shù)據(jù),獲得不同行為所對應(yīng)的異常數(shù)據(jù)。對異常數(shù)據(jù)進(jìn)行特征提取,提取出來的特征組合成特征向量,將其送入分類器中進(jìn)行訓(xùn)練,建立跌倒檢測模型,利用剩余60條測試數(shù)據(jù)來測試訓(xùn)練模型,通過對跌倒行為判斷的準(zhǔn)確率和報(bào)錯率來衡量模型的適用性。
要想實(shí)現(xiàn)系統(tǒng)在不同的環(huán)境中使用,需要提取出連續(xù)圖像幀之間的運(yùn)動信息從而消除圖像背景的影響。為了解決該問題本實(shí)驗(yàn)擬采用光流法對圖像進(jìn)行預(yù)處理之后再輸入到卷積網(wǎng)絡(luò)中訓(xùn)練。光流是空間運(yùn)動的物體在觀察成像平面上的像素運(yùn)動的瞬時(shí)速度,其中光流法是利用圖像序列中像素在時(shí)間域上的改變以及相鄰幀之間的相關(guān)性,然后計(jì)算出相鄰幀之間物體運(yùn)動信息的方法,其主要原理如下:
(1)基本假設(shè)條件
①保持亮度的恒定不變。即同一物體在不同幀間運(yùn)動時(shí),亮度不變。這是基本光流法的假設(shè),從而得出光流法基本方程;
②時(shí)間是連續(xù)的或運(yùn)動是“小運(yùn)動”。即時(shí)間的變化不會引起目標(biāo)位置的劇烈變化,相鄰幀之間位移要小一點(diǎn)。同樣也是光流法不能缺少的假定。
(2)基本約束方程
考慮一個像素I(x,y,t)在第一幀的光強(qiáng)度(其中t表示其所在的時(shí)間維度)。它移動了(dx,dy)這樣的距離到下一幀,用了dt時(shí)間。由于是同一個像素點(diǎn),所以依據(jù)之前提到的基本假設(shè)條件我們認(rèn)為該像素在運(yùn)動前后的其光強(qiáng)是不變的,即:
上式經(jīng)過一系列變化最終可寫為:
其中設(shè)U,V是光流沿X軸與Y軸的速度矢量,Ix,Iy,It代表圖像中像素點(diǎn)的灰度沿X,Y,T方向的偏導(dǎo)數(shù)。(U,V)即為所求光流矢量。
利用光流法處理后的圖像稱為光流圖像。光流圖像可以消除圖片中背景環(huán)境的影響,進(jìn)而讓系統(tǒng)在不同的環(huán)境中使用。實(shí)例結(jié)果如圖3所示。
圖3 光流圖實(shí)例效果
將所得光流圖放入VGG-16網(wǎng)絡(luò)模型中進(jìn)行特征提取,與提前訓(xùn)練學(xué)習(xí)好的內(nèi)容進(jìn)行對比,判斷是否跌倒。
整體系統(tǒng)構(gòu)建如圖4所示。
圖4 構(gòu)建的室內(nèi)跌倒檢測系統(tǒng)
將普通攝像頭拍攝的視頻作為樣本,抽取視頻中的每一幀作為輸入(即圖中的RGB images)。放入生成器中生成與之對應(yīng)的光流圖像,然后將其放入經(jīng)過微調(diào)的卷積神經(jīng)網(wǎng)絡(luò)VGG-16中提取特征,在卷積神經(jīng)網(wǎng)絡(luò)最后的全連接層進(jìn)行分類,判斷是否為跌倒行為。
結(jié)論:得益于遷移學(xué)習(xí)技術(shù)我們解決了UCF-101和ImageNet數(shù)據(jù)量相距甚遠(yuǎn)的問題。在解決圖像背景對圖像識別的影響時(shí),本項(xiàng)目采用光流法來尋找連續(xù)幀的動作信息,通過預(yù)訓(xùn)練、實(shí)驗(yàn)數(shù)據(jù)采集、調(diào)整VGG-16的輸入層并使其能接收光流圖像、遷移學(xué)習(xí)等一系列的步驟經(jīng)過實(shí)戰(zhàn)測試得出可以應(yīng)用于跌倒檢測的計(jì)算機(jī)視覺項(xiàng)目。