鄧志鋒,閔衛(wèi)東,鄒 松
?
一種基于CNN和人體橢圓輪廓運(yùn)動(dòng)特征的摔倒檢測(cè)方法
鄧志鋒,閔衛(wèi)東,鄒 松
(南昌大學(xué)信息工程學(xué)院,江西 南昌 330031)
為了解決傳統(tǒng)的使用幾何特征檢測(cè)摔倒的方法的不穩(wěn)定、難于區(qū)別一些相似的活動(dòng)等問(wèn)題,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和人體橢圓輪廓的運(yùn)動(dòng)特征的摔倒檢測(cè)方法。首先,使用高斯混合模型檢測(cè)出人體目標(biāo)并求出其最小外接橢圓輪廓。然后在每一幀的橢圓輪廓中提取出長(zhǎng)短軸之比、方向角和人體質(zhì)心的豎直方向速度,融合成一個(gè)基于時(shí)間序列的運(yùn)動(dòng)特征。最后,經(jīng)過(guò)一個(gè)淺層的CNN對(duì)這些運(yùn)動(dòng)特征進(jìn)行訓(xùn)練,用于摔倒判斷,并區(qū)分相似的活動(dòng)。實(shí)驗(yàn)結(jié)果表明,本文方法和現(xiàn)有的方法相比,克服了幾何特征的不穩(wěn)定性,提高了檢測(cè)率。
摔倒檢測(cè);卷積神經(jīng)網(wǎng)絡(luò);人體橢圓輪廓;時(shí)間序列;運(yùn)動(dòng)特征
隨著中國(guó)人口老齡化不斷加重,老年人健康問(wèn)題越來(lái)越受到關(guān)注。因此,防止老年人摔倒也變得越來(lái)越重要了。
如今越來(lái)越多的研究者們基于計(jì)算機(jī)視覺(jué)研究了各種摔倒檢測(cè)方法應(yīng)用于室內(nèi)監(jiān)控,因?yàn)榛谝曈X(jué)的方法能夠避免穿戴式傳感器方法的不方便[1]和基于聲音或震動(dòng)傳感器方法容易被噪聲影響的缺點(diǎn)[2]。如今已經(jīng)有許多基于視覺(jué)的摔倒檢測(cè)方法,其中YAO等[3]使用Kinect攝像機(jī)提取出人體骨骼,通過(guò)主軀干的角度對(duì)摔倒進(jìn)行了判斷;AKAGüNDüZ等[4]使用了一個(gè)單目深度攝像機(jī)拍攝出深度視頻,再使用輪廓方向體積描述符去代表活動(dòng)并進(jìn)行摔倒分類(lèi)。但是Kinect受距離的限制,深度攝像機(jī)容易被噪聲干擾。一個(gè)單目攝像機(jī)非常適合在室內(nèi)進(jìn)行視頻監(jiān)督。基于單目攝像機(jī)檢測(cè)摔倒的一個(gè)最經(jīng)典的方法是通過(guò)提取幾何特征來(lái)判斷。MIN等[5-6]通過(guò)使用一個(gè)最小外接矩形邊框來(lái)表示行人的形狀,根據(jù)邊框?qū)捀弑鹊淖儞Q來(lái)代表行人的形態(tài)比變換來(lái)判斷摔倒,并能判斷不同方向的摔倒。LIU和ZUO[7]融合了形態(tài)比,有效面積比和中心變化率判定摔倒。FENG等[8]使用橢圓擬合來(lái)代表行人的形狀,分別提取出了長(zhǎng)短軸之比、方向角、速度和一個(gè)積分歸一化運(yùn)動(dòng)能量圖,融合了幾何特征和運(yùn)動(dòng)特征,再通過(guò)一個(gè)多層SVM進(jìn)行分類(lèi)并判斷摔倒。CHUA等[9]在人體輪廓中選取3個(gè)代表性的點(diǎn)來(lái)代表行人的形狀去判斷摔倒。然而,這些方法都有不足。因?yàn)閹缀翁卣鞑环€(wěn)定,使用傳統(tǒng)的方法難以區(qū)別一些相似的活動(dòng),容易產(chǎn)生誤判,加入了運(yùn)動(dòng)特征又容易受到角度的影響,對(duì)檢測(cè)率有一定的影響。
為了解決上述問(wèn)題,本文提出了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)和人體橢圓輪廓的運(yùn)動(dòng)特征的摔倒檢測(cè)方法。使用了橢圓擬合并提取3個(gè)橢圓輪廓特征融合成一個(gè)基于時(shí)間序列的運(yùn)動(dòng)特征,再使用深度學(xué)習(xí)的方法去訓(xùn)練和分類(lèi),用于區(qū)別一些相似的活動(dòng)。
在前景檢測(cè)部分采用了高斯混合模型(Gaussian mixture model,GMM)的方法,把每個(gè)像素所呈現(xiàn)的顏色用多個(gè)高斯分布來(lái)表示。將每個(gè)時(shí)刻的每個(gè)像素看作成一個(gè)變量,在進(jìn)行前景檢測(cè)前,先對(duì)背景進(jìn)行訓(xùn)練,對(duì)每一幀圖像中每個(gè)背景采用一個(gè)混合高斯模型進(jìn)行模擬。背景一旦提取出來(lái),前景的檢測(cè)就簡(jiǎn)單了,檢查像素是否與背景的高斯模型匹配,匹配是背景,不匹配就是前景。前景抽取出來(lái)后,再采用陰影抑制法去抑制陰影。抑制完陰影后,圖像可能會(huì)有一些空洞和噪聲,再采用膨脹和腐蝕等形態(tài)操作去解決這個(gè)問(wèn)題。
根據(jù)中心矩,可通過(guò)式(2)計(jì)算出橢圓的方向角為
且可以依次計(jì)算出橢圓的長(zhǎng)、短軸,其計(jì)算公式為
其中,max和min分別為式(5)定義的矩陣的最大特征值和最小特征值
圖1對(duì)比了橢圓擬合和邊框擬合。由圖1可知,橢圓擬合比邊框擬合更能有效地描述人的運(yùn)動(dòng)姿勢(shì),因?yàn)檫吙驍M合會(huì)由于人手臂的運(yùn)動(dòng)或手中拿有細(xì)長(zhǎng)物而容易發(fā)生很大的變化。因此本文使用了橢圓擬合來(lái)表示人的運(yùn)動(dòng)。
圖1 邊框擬合和橢圓擬合的對(duì)比圖
隨著使用橢圓將前景目標(biāo)進(jìn)行擬合后,本文基于橢圓輪廓提取出了2個(gè)特征:
(1) 輪廓特征。提取出了橢圓的方向角和橢圓的長(zhǎng)軸和短軸的比=/用來(lái)代表人的輪廓形狀。如果一個(gè)人沿著主光軸的方向摔倒,將會(huì)發(fā)生劇變而方向角基本保持不變。反之,方向角會(huì)發(fā)生很大的變化而基本保持不變。
(2) 速度特征。如果摔倒發(fā)生了,人在豎直方向的速度通常會(huì)發(fā)生很大的變化;因此,提取了人的豎直方向的速度。本文先求得每間隔兩幀中的人的質(zhì)心的歐氏距離與時(shí)間的比值,然后再與橢圓的方向角的正弦值的乘積作為人的豎直方向的速度公式,即
圖2中列舉了一個(gè)摔倒時(shí)的特征示意圖,以水平方向?yàn)檩S,豎直方向?yàn)檩S,其中為長(zhǎng)軸,為短軸,為橢圓的方向角,V為質(zhì)心豎直方向的速度。本文將提取出來(lái)的2個(gè)特征組成了一個(gè)如圖3所示基于時(shí)間序列的運(yùn)動(dòng)特征。
圖2 摔倒時(shí)的特征示意圖
圖3 運(yùn)動(dòng)特征的時(shí)間序列
如圖3所示,將50幀中的2個(gè)特征折線圖組成一個(gè)基于時(shí)間序列的運(yùn)動(dòng)特征,將其經(jīng)過(guò)一個(gè)淺層CNN進(jìn)行學(xué)習(xí),并用于區(qū)別一些相似的運(yùn)動(dòng)。
CNN是一種前饋神經(jīng)網(wǎng)絡(luò),其人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周?chē)鷨卧?,?duì)于大型圖像處理有出色表現(xiàn)。經(jīng)典的CNN包括卷積層 (convolutional layer)、池化層 (pooling layer)和全連接層(fully connected)。CNN的結(jié)構(gòu)描述如下:
(1) 卷積層。將輸入的原始圖像通過(guò)與多個(gè)可訓(xùn)練的濾波器(或稱作卷積核)和可加偏置向量進(jìn)行卷積運(yùn)算得到多個(gè)映射特征圖。
(2) 池化層。通常在卷積層后面,用來(lái)進(jìn)行向下采樣,降低特征的維數(shù)。最傳統(tǒng)的兩個(gè)池化方法是最大池化(max-pooling)和均值池化(average pooling)。
(3) 全連接層。當(dāng)原始圖像經(jīng)過(guò)多個(gè)卷積層和池化層的處理之后,再將輸出的特征圖像壓平成一個(gè)一維的向量并用于分類(lèi)??梢詫⑵渌奶卣骷尤氲竭@個(gè)一維向量中并用于分類(lèi)。CNN中可以由一個(gè)或多個(gè)全連接層用來(lái)最終的分類(lèi)。
本文提出將一個(gè)淺層的CNN結(jié)構(gòu)(圖4)引入到摔倒檢測(cè)中。用CNN對(duì)這組基于時(shí)間序列的運(yùn)動(dòng)特征進(jìn)行學(xué)習(xí)。具體結(jié)構(gòu)如下:首先在卷積層使用196個(gè)大小為1×12的過(guò)濾器對(duì)分割好的基于時(shí)間序列的3個(gè)特征圖進(jìn)行學(xué)習(xí)得到一個(gè)關(guān)于數(shù)據(jù)的豐富的特征代表,其中,卷積層只有一層。然后再用ReLU激活函數(shù)對(duì)這196個(gè)特征圖進(jìn)行處理后,通過(guò)一個(gè)大小為1×4的最大池化層將其縮小4倍進(jìn)行降維處理。池化層輸出的特征圖進(jìn)行壓平,再加上一些統(tǒng)計(jì)特征(例如均值、方差等特征)放在一起通過(guò)全連接層得到1 024個(gè)特征。最后將全連接層得到的特征通過(guò)soft-max函數(shù)進(jìn)行最后的分類(lèi)計(jì)算。該模型被訓(xùn)練為最小化交叉熵?fù)p失函數(shù),與CNN權(quán)值的2范數(shù)正規(guī)化相結(jié)合。利用反向傳播算法對(duì)梯度進(jìn)行計(jì)算,利用隨機(jī)梯度下降的修正方法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)。
圖4 基于多特征融合的摔倒檢測(cè)的淺層CNN架構(gòu)
本文實(shí)驗(yàn)平臺(tái)是一臺(tái)Inter(R) Core(TM) i5-4300U CPU @ 1.9 GHz,4 GB內(nèi)存的PC,編程軟件有VS 2010、OpenCV 3.0、Matlab 2014a和Eclipse。為了訓(xùn)練本文提出的CNN框架,拍攝了16個(gè)視頻,并收集了15 356幀圖像的數(shù)據(jù)進(jìn)行訓(xùn)練,其中有3 838幀正樣本和11 518幀負(fù)樣本,視頻截圖如圖5所示,包括摔倒、走、跑、臥、蹲和坐等。為了驗(yàn)證本文提出的方法比現(xiàn)有的基于幾何形狀特征的摔倒檢測(cè)方法性能更好,在網(wǎng)上下載了公共數(shù)據(jù)集,視頻網(wǎng)址http://foe.mmu.edu.my/digitalhome/ FallVideo.zip,并在該公共數(shù)據(jù)集中采集了3 202幀正樣本和4 151幀負(fù)樣本進(jìn)行測(cè)試。詳細(xì)的實(shí)驗(yàn)數(shù)據(jù)說(shuō)明見(jiàn)表1。
圖6分別顯示了5個(gè)日常的動(dòng)作的3個(gè)特征在50幀中不同的變化情況,包括摔倒、蹲、趴、坐和跑等活動(dòng)。
圖5 日?;顒?dòng)圖
表1 實(shí)驗(yàn)數(shù)據(jù)說(shuō)明表
將不同的活動(dòng)的3個(gè)特征融合成如圖3中的基于時(shí)間序列的運(yùn)動(dòng)特征,再放入圖4中提出的CNN架構(gòu)中進(jìn)行訓(xùn)練和測(cè)試。得出的結(jié)果分別與文獻(xiàn)[8-9,11-12]中的現(xiàn)有的方法做了比較,對(duì)比的實(shí)驗(yàn)結(jié)果見(jiàn)表2。
由表2可知,本文方法在公共數(shù)據(jù)集上實(shí)現(xiàn)了100%的準(zhǔn)確率和2.3%的誤判率,能夠有效地區(qū)別一些相似的活動(dòng),比現(xiàn)有的基于幾何形狀特征的摔倒檢測(cè)方法的準(zhǔn)確率高許多;在誤判率上也實(shí)現(xiàn)了較好的結(jié)果。
圖6 5個(gè)日常動(dòng)作的特征圖
表2 對(duì)比實(shí)驗(yàn)結(jié)果
圖7、8中分別對(duì)兩對(duì)相似度很大的運(yùn)動(dòng)進(jìn)行了實(shí)驗(yàn)結(jié)果的分析,即側(cè)摔和側(cè)趴、前摔和前蹲的實(shí)驗(yàn)場(chǎng)景圖和特征變化情況圖。
圖7 側(cè)摔和側(cè)趴的運(yùn)動(dòng)特征圖對(duì)比
如圖7所示,側(cè)摔和側(cè)趴的豎直方向的速度和方向角的變化情況有很大的不一樣,而長(zhǎng)短軸之比的變化情況十分相似。本文用了深度學(xué)習(xí)很好地區(qū)分這兩種運(yùn)動(dòng)。
從圖8中可發(fā)現(xiàn),前摔和前蹲的長(zhǎng)短軸和方向角的變化情況較相似,而豎直方向速度的變化情況卻十分不同,本文通過(guò)深度學(xué)習(xí)也能夠有效地區(qū)分這兩種相似度較高的活動(dòng)。
圖8 前摔和前蹲的運(yùn)動(dòng)特征圖對(duì)比
本文提出了一個(gè)基于CNN和人體橢圓輪廓的運(yùn)動(dòng)特征的摔倒檢測(cè)方法。該方法使用高斯混合模型檢測(cè)目標(biāo)并求出其最小外接橢圓輪廓,提取其3個(gè)特征組成一個(gè)基于時(shí)間序列的運(yùn)動(dòng)特征。再通過(guò)一個(gè)淺層的CNN進(jìn)行訓(xùn)練,去判斷摔倒,并區(qū)分一些相似的活動(dòng)。通過(guò)實(shí)驗(yàn)證明了該方法相比現(xiàn)有的基于幾何特征的摔倒檢測(cè)算法更穩(wěn)定,檢測(cè)率更高。
[1] XI X G, TANG M Y, MIRAN S M, et al. Evaluation of feature extraction and recognition for activity monitoring and fall detection based on wearable sEMG sensors [J]. Sensors, 2017, 17(6): 1-20.
[2] MAZUREK P, WAGNER J, MORAWSKI R Z, et al. Use of kinematic and mel-cepstrum-related features for fall detection based on data from infrared depth sensors [J]. Biomedical Signal Processing & Control, 2018, 40:102-110.
[3] YAO L Y, MIN W D, LU K Q, et al. A new approach to fall detection based on the human torso motion model [J]. Applied Sciences, 2017, 7(10): 993.
[4] AKAGüNDüZ E, ASLAN M, SENGUR A, et al. Silhouette orientation volumes for efficient fall detection in depth videos [J]. IEEE Journal of Biomedical & Health Informatics, 2016, 21(3):756-763.
[5] MIN W D, WEI L S, HAN Q. Human fall detection based on motion tracking and shape aspect ratio [J]. International Journal of Multimedia and Ubiquitous Engineering, 2016, 11(10): 1-14.
[6] MIN W D, CUI H, RAO H. Detection of human falls on furniture using scene analysis based on deep learning and activity characteristics [J]. IEEE Access, 2018, 6:9324-9335.
[7] LIU H,ZUO C L. An improved algorithm of automatic fall detection [J]. AASRJ Procedia, 2012, 1: 353-358.
[8] FENG W G, LIU R, ZHU M. Fall detection for elderly person care in a vision-based home surveillance environment using a monocular camera [J]. Signal, Image and Video Processing, 2014, 8(6): 1129-1138.
[9] CHUA J L, CHANG Y C, LIM W K. A simple vision-based fall detection technique for indoor video surveillance [J]. Signal Image and Video Processing, 2015, 9(3): 623-633.
[10] PRATT W K, ADAMS J E. Digital image processing [J].4th Edition. Journal of Electronic Imaging, 2007, 16(2): 131-145.
[11] WILLIAMS A, GANESAN D, HANSON A. Aging in place: fall detection and localization in a distributed smart camera network [C]//MM’07 Proceedings of the 15thACM International Conference on Multimedia. New York: ACM Press, 2007:892-901.
[12] ROUGIER C, MEUNIER J, ST-ARNAUD A. Fall detection from human shape and motion history using video surveillance [C]//AINAW′07 Proceedings of the 21st International Conference on Advanced Information Networking and Applications Workshops. New York: IEEE Press, 2007, 2: 875-880.
A Fall Detection Method Based on CNN and Motion Features of Human Elliptical Contour
DENG Zhifeng, MIN Weidong, ZOU Song
(School of Information Engineering, Nanchang University, Nanchang Jiangxi 330031, China)
In order to solve the problems of the instability of the traditional method of using geometric features to detect falls, and the difficulty to distinguish some similar activities, a fall detection method based on convolution neural network (CNN) and the motion features of the elliptical contour of human body is proposed. First, this method uses the Gauss mixture model to detect the human target and find out the minimum external elliptical contour. Then, the three features of the long and short axis ratio, the orientation angle and the vertical velocity of the human body’s centroid extracted in each frame’s elliptical contour, are fused into a motion feature based on time series. Last, a shallow CNN is then trained to detect falls and distinguish some similar activities. Experiment results show that our method overcomes the instability of geometric features and therefore enhances the detection rate compared with the existing methods.
fall detection; convolution neural network; human elliptical contour; time series; motion features
TP 391
10.11996/JG.j.2095-302X.2018061042
A
2095-302X(2018)06-1042-06
2018-04-16;
2018-07-24
國(guó)家自然科學(xué)基金項(xiàng)目(61762061);江西省自然科學(xué)基金重大項(xiàng)目(20161ACB20004)
鄧志鋒(1995-),男,江西臨川人,碩士研究生。主要研究方向?yàn)閳D像處理與模式識(shí)別。E-mail:2690589616@qq.com
閔衛(wèi)東(1966-),男,江西贛州人,教授,博士。主要研究方向?yàn)閳D形圖像處理、圖形學(xué)、人工智能、大數(shù)據(jù)、智慧城市信息技術(shù)等。E-mail:minweidong@ncu.edu.cn