摘" 要: 隨著人口老齡化的加劇,老年人異常行為的識(shí)別技術(shù)已成為醫(yī)療保健領(lǐng)域亟需解決的關(guān)鍵問(wèn)題。目前的異常行為識(shí)別算法面臨一個(gè)挑戰(zhàn),即無(wú)法確保在識(shí)別多種異常行為的同時(shí)提高模型的識(shí)別準(zhǔn)確率與計(jì)算效率。為解決此問(wèn)題,提出一種FDS?ABPG?GoogLeNet模型。該模型采用了三種不同層級(jí)的改進(jìn)Inception模塊,并將這些模塊在網(wǎng)絡(luò)深層和淺層結(jié)構(gòu)中并行連接,在中層結(jié)構(gòu)中引入殘差結(jié)構(gòu),通過(guò)特征融合的方式顯著提高了網(wǎng)絡(luò)的計(jì)算效率和識(shí)別準(zhǔn)確率。同時(shí),針對(duì)異常行為數(shù)據(jù)集中動(dòng)作單一的問(wèn)題,自建了包含多種異常動(dòng)作的數(shù)據(jù)集,并通過(guò)將一維動(dòng)作時(shí)序數(shù)據(jù)二維圖形化處理后使得行為動(dòng)作特征更易于提取。實(shí)驗(yàn)結(jié)果表明,所提FDS?ABPG?GoogLeNet模型的準(zhǔn)確率、靈敏度和特異性分別達(dá)到99.40%、99.49%和99.93%。
關(guān)鍵詞: 異常行為識(shí)別; Inception模塊; 殘差結(jié)構(gòu); 特征融合; 特征提取; 卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào): TN925?34; TP391.9" " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " " " 文章編號(hào): 1004?373X(2025)06?0136?11
Research on FDS?ABPG?GoogLeNet model for human abnormal behavior recognition
LI Yifan, LI Congcong, LI Yanan, WANG Bin
(College of Information Science and Technology, Hebei Agricultural University, Baoding 071001, China)
Abstract: With the exacerbation of population aging, the identification technology of abnormal behaviors in the elderly has become a critical issue urgently needing to be addressed in the healthcare field. The current abnormal behavior recognition algorithm is faced with a challenge, that is, it cannot ensure the recognition accuracy and computational efficiency of the model while recognizing various abnormal behaviors. To address this issue, the FDS?ABPG?GoogLeNet model is proposed. In this model, three improved Inception modules at different levels are incorporated, and they are connected in parallel in both deep and shallow network structures. The residual structure is introduced in the middle structure, which significantly improves the computational efficiency and recognition accuracy of the network by means of the feature fusion. In order to solve the problem of single action in abnormal behavior data set, a dataset containing multiple abnormal actions is self built. By graphically processing one?dimensional action time series data in two dimensions, it makes it easier to extract behavioral action features. The experimental results demonstrate that the proposed FDS?ABPG?GoogLeNet model can realize an accuracy, senstivity, and specificity of 99.40%, 99.49%, and 99.93%, respectively.
Keywords: abnormal behavior recognition; Inception module; residual structure; feature fusion; feature extraction; convolutional neural network
0" 引" 言
當(dāng)前全球正面臨著人口老齡化帶來(lái)的嚴(yán)峻挑戰(zhàn),隨著老齡化問(wèn)題的加劇,醫(yī)療和社會(huì)服務(wù)行業(yè)將承受巨大的壓力。根據(jù)聯(lián)合國(guó)發(fā)布的《2023年世界社會(huì)報(bào)告》,2023年全球65歲以上的人口約為7.83億,占全球總?cè)丝诘?0%。預(yù)計(jì)到2050年,這一數(shù)字將增加至16億,而80歲以上人口的增長(zhǎng)速度更為迅猛。隨著人口老齡化的不斷加劇和空巢老人比例的上升,社會(huì)對(duì)老年人健康安全問(wèn)題的關(guān)注也在增加。其中,獨(dú)居老人的突發(fā)性異常行為是最令人擔(dān)憂的健康安全問(wèn)題之一。
據(jù)世界衛(wèi)生組織(WHO)的相關(guān)報(bào)告統(tǒng)計(jì),跌倒、癲癇抽搐、高血壓等導(dǎo)致的眩暈、嘔吐已成為危害程度最大且發(fā)生概率最高的突發(fā)性異常行為。全世界每年發(fā)生68.4萬(wàn)例致命跌傷,其中一半以上是超過(guò)60歲的老年人;癲癇抽搐問(wèn)題影響到全世界約5 000萬(wàn)人,估計(jì)全球每年有500萬(wàn)人被診斷為癲癇;老年人的眩暈、嘔吐問(wèn)題大都由心腦血管疾病導(dǎo)致,在非傳染性疾病導(dǎo)致的1 700萬(wàn)例死亡中,70歲以下人群中37%的病例歸因于心血管疾病。這些數(shù)據(jù)凸顯了這一人群面臨多樣而高危的健康風(fēng)險(xiǎn)。針對(duì)這幾類典型異常行為,國(guó)內(nèi)外學(xué)者分別開展了異常行為識(shí)別算法的研究[1?3]。
1" 相關(guān)研究
目前進(jìn)行異常行為識(shí)別檢測(cè)的方法大致分為基于環(huán)境傳感器[4]、基于計(jì)算機(jī)視覺(jué)[5?6]、基于可穿戴設(shè)備[7?8]這三種。由于可穿戴設(shè)備不受環(huán)境影響,且能夠保護(hù)使用者隱私,因此本文選擇佩戴慣性傳感器IMU(Inertial Measurement Unit)進(jìn)行人體異常行為識(shí)別。
在基于可穿戴設(shè)備進(jìn)行異常行為識(shí)別檢測(cè)中,最常用的深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)、CNN和LSTM相結(jié)合、Transformer以及圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)等,本文將根據(jù)以上幾種模型分類方式開展相關(guān)的研究工作。在基于卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法中,文獻(xiàn)[1]提出了一種基于IR?UWB慣性傳感器的CNN跌倒檢測(cè)算法,準(zhǔn)確率達(dá)到了96.65%。文獻(xiàn)[9]利用GoogLeNet?Inception?v3遷移學(xué)習(xí)方法來(lái)提高異常行為檢測(cè)的準(zhǔn)確性和效率,改進(jìn)后的模型準(zhǔn)確率達(dá)到88.10%。為了提高行為識(shí)別的準(zhǔn)確率和使用率,文獻(xiàn)[10]提出了一種基于向量注意力機(jī)制的GoogLeNet?GMP模型,通過(guò)添加向量注意力機(jī)制對(duì)目標(biāo)信息的多尺度區(qū)域進(jìn)行整合重構(gòu),獲得多個(gè)等級(jí)的可區(qū)分特性特征,識(shí)別準(zhǔn)確率達(dá)到了97.90%。在基于長(zhǎng)短期記憶網(wǎng)絡(luò)的檢測(cè)方法中,文獻(xiàn)[11]設(shè)計(jì)了一個(gè)基于LSTM的模型架構(gòu),可以有效地檢測(cè)異常行為并通過(guò)可穿戴設(shè)備運(yùn)行。文獻(xiàn)[12]創(chuàng)建了一個(gè)跌倒檢測(cè)系統(tǒng)(FDS),從傳感器中收集數(shù)據(jù),使用具有底層雙向長(zhǎng)短期記憶(BiLSTM)堆棧的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)將跌倒與其他行為區(qū)分開來(lái),準(zhǔn)確率達(dá)到了97.21%。在基于卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短期記憶網(wǎng)絡(luò)融合的檢測(cè)方法中,文獻(xiàn)[13]提出了CBAM?CNN?LSTM模型,實(shí)驗(yàn)證明了LSTM、CNN和CBAM之間的協(xié)作可以提高建模能力和預(yù)測(cè)精度。文獻(xiàn)[2]將卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)相結(jié)合來(lái)檢測(cè)老年癡呆患者的異常行為動(dòng)作,準(zhǔn)確率達(dá)到了94.2%。文獻(xiàn)[14]提出了一種基于改進(jìn)注意力機(jī)制的CBAM?IAM?CNN?BiLSTM模型,將穿戴式傳感器采集到的加速度和角速度分別輸入到模型的卷積層和LSTM層中,通過(guò)特征融合后進(jìn)行識(shí)別分類,準(zhǔn)確率達(dá)到了97.37%。在基于Transformer網(wǎng)絡(luò)結(jié)構(gòu)的研究中,文獻(xiàn)[15]提出了兩種基于Transformer的癲癇檢測(cè)算法,實(shí)現(xiàn)了對(duì)癲癇行為的自動(dòng)分析檢測(cè),準(zhǔn)確率達(dá)到了97.52%。文獻(xiàn)[3]提出了一種基于Transformer的異常行為識(shí)別模型ST?TR,通過(guò)空間自注意力模塊(SSA)和時(shí)間自注意力模塊(TSA)分別對(duì)幀內(nèi)不同關(guān)節(jié)及連續(xù)幀間同一關(guān)節(jié)特征進(jìn)行建模,分類準(zhǔn)確率達(dá)到了87.1%。在基于人體拓?fù)浣Y(jié)構(gòu)的圖卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法中,文獻(xiàn)[16]通過(guò)定制的ST?GCN模型來(lái)進(jìn)行人體行為識(shí)別,該模型重點(diǎn)關(guān)注空間和時(shí)間特征,以便更好地進(jìn)行姿態(tài)估計(jì),準(zhǔn)確率達(dá)到了98.10%。
本文經(jīng)基礎(chǔ)模型對(duì)比實(shí)驗(yàn)結(jié)果得知,GoogLeNet網(wǎng)絡(luò)在ABPG(Abnormal Behavior Pixel Grid)數(shù)據(jù)集上表現(xiàn)最優(yōu),所以選用GoogLeNet網(wǎng)絡(luò)作為基礎(chǔ)模型并改進(jìn)后進(jìn)行異常行為識(shí)別檢測(cè)。
1) 針對(duì)GoogLeNet網(wǎng)絡(luò)引入Inception模塊后帶來(lái)的多參數(shù)以及高計(jì)算量的問(wèn)題,改進(jìn)的FDS?ABPG?GoogLeNet網(wǎng)絡(luò)采用了三種不同層級(jí)的改進(jìn)Inception模塊,通過(guò)對(duì)不同Inception結(jié)構(gòu)的改進(jìn),減少了參數(shù)數(shù)量與冗余計(jì)算。
2) 針對(duì)GoogLeNet網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性、并行計(jì)算能力較差的問(wèn)題,本文選擇將改進(jìn)的不同Inception模塊在深層和淺層結(jié)構(gòu)中并行連接,從而釋放模型的并行計(jì)算能力,降低模型的復(fù)雜程度。
3) 針對(duì)異常行為數(shù)據(jù)集中僅關(guān)注某一種異常行為的問(wèn)題,構(gòu)建了ABPG異常動(dòng)作數(shù)據(jù)集。該數(shù)據(jù)集包含發(fā)生率最高的跌倒動(dòng)作,還有抽搐、眩暈、嘔吐等異常行為和四種日?;顒?dòng)數(shù)據(jù)。通過(guò)對(duì)IMU采集到的各種動(dòng)作三軸加速度和角速度數(shù)據(jù)進(jìn)行處理,將其轉(zhuǎn)換為RGB像素點(diǎn)陣圖。
最終通過(guò)自建ABPG數(shù)據(jù)集對(duì)FDS?ABPG?GoogLeNet網(wǎng)絡(luò)進(jìn)行訓(xùn)練與測(cè)試,并設(shè)計(jì)了消融實(shí)驗(yàn)與對(duì)比實(shí)驗(yàn),證明了本文提出模型在識(shí)別準(zhǔn)確率和計(jì)算效率上都有較大的提升。
2" 數(shù)據(jù)集構(gòu)建
2.1" 實(shí)驗(yàn)方案
構(gòu)建人體運(yùn)動(dòng)模型,用X、Y、Z軸來(lái)描述人體三維坐標(biāo),如圖1所示。其中,X、Y、Z軸分別代表人體的前后、左右和上下方向。將IMU傳感器分別佩戴在受試者的頸部和腰部。
因?yàn)楫惓P袨闄z測(cè)的特殊性,無(wú)法采集老年人真實(shí)的異常行為數(shù)據(jù),所以目前大多數(shù)的異常行為檢測(cè)研究都是用年輕的受試者在實(shí)驗(yàn)室的環(huán)境中模仿老年人的異常行為動(dòng)作所獲取的數(shù)據(jù)。
由于老年人身體機(jī)能和運(yùn)動(dòng)能力的下降,各種行為動(dòng)作的幅度都要遠(yuǎn)小于年輕人,為了更接近真實(shí)數(shù)據(jù),實(shí)驗(yàn)過(guò)程中要求受試者穿戴老年人生活模擬體驗(yàn)服進(jìn)行異常行為數(shù)據(jù)采集。實(shí)驗(yàn)在活動(dòng)區(qū)域周圍墊上了海綿墊,防止受試者受傷。該實(shí)驗(yàn)使用LPMS?B2姿態(tài)傳感器,設(shè)備的各種配置參數(shù)如表1所示。
圖2為跌倒、抽搐、眩暈、嘔吐等動(dòng)作模擬圖。本實(shí)驗(yàn)的受試者共為20人,其中男性16名,女性4名,年齡在20~25周歲。
如表2所示,實(shí)驗(yàn)采集了跌倒、抽搐、眩暈、嘔吐等四種異常行為動(dòng)作以及慢走、慢跑、坐、下蹲四種日常行為。
2.2" 數(shù)據(jù)預(yù)處理
實(shí)驗(yàn)共采集了8種動(dòng)作的原始數(shù)據(jù),但原始數(shù)據(jù)存在噪聲干擾,會(huì)影響模型分類結(jié)果的準(zhǔn)確率,因此選擇對(duì)原始數(shù)據(jù)進(jìn)行卡爾曼濾波、歸一化、時(shí)序化處理。
2.2.1" 卡爾曼濾波處理
鑒于采集到的傳感器數(shù)據(jù)會(huì)受到傳感器工作狀態(tài)、電磁感應(yīng)、溫度等因素的干擾,從而影響到最終異常行為識(shí)別的準(zhǔn)確率[17],本文使用Kalman[18]濾波對(duì)采集到的數(shù)據(jù)進(jìn)行降噪處理,如圖3所示。
2.2.2" 歸一化處理
經(jīng)過(guò)Kalman濾波處理的傳感器數(shù)據(jù)可能包含冗余或異常數(shù)據(jù),因此,需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理。
采集的三軸加速度和角速度傳感器數(shù)據(jù)量程不同,分別為-ra~ra和-rg~rg,不能直接結(jié)合使用兩者數(shù)據(jù)。為此使用公式(1)對(duì)三軸加速度和角速度數(shù)據(jù)進(jìn)行歸一化處理,將兩個(gè)傳感器數(shù)據(jù)規(guī)范在0~255范圍內(nèi)。
式中:R代表歸一化數(shù)據(jù)結(jié)果;d為慣性傳感器采集的三軸數(shù)據(jù);r為數(shù)據(jù)量程最大值。
2.2.3" 時(shí)序化處理
直接使用歸一化處理后的三軸數(shù)據(jù)作為輸入需要解決時(shí)序信息丟失和數(shù)據(jù)維度不匹配的問(wèn)題,本文將歸一化處理后的數(shù)據(jù)轉(zhuǎn)化為像素點(diǎn)陣圖,在增加數(shù)據(jù)維度的同時(shí)解決了以上問(wèn)題,保證了數(shù)據(jù)在時(shí)間和空間特征上更全面的表達(dá)。由于人體完成大部分行為動(dòng)作所需要的時(shí)間通常在2 s以內(nèi),因此每種行為動(dòng)作選取2 s作為一個(gè)數(shù)據(jù)集合,采用50%重疊的滑動(dòng)窗口截取數(shù)據(jù)。數(shù)據(jù)采集頻率為100 Hz,因此每個(gè)滑動(dòng)窗口中分別包括200個(gè)三軸加速度和三軸角速度數(shù)據(jù),將X、Y、Z三軸數(shù)據(jù)與RGB圖像中的R、G、B通道相對(duì)應(yīng),將三軸加速度或三軸角速度數(shù)據(jù)轉(zhuǎn)換為一個(gè)RGB像素點(diǎn)。為了轉(zhuǎn)換后圖像數(shù)據(jù)的實(shí)用性,將每個(gè)數(shù)據(jù)個(gè)體統(tǒng)一設(shè)置成分布平均的10×10像素點(diǎn)圖像,每個(gè)圖像的前5列為三軸加速度,后5列為三軸角速度。這樣每個(gè)圖像中就包含了50份三軸加速度數(shù)據(jù)和50份三軸角速度數(shù)據(jù)。圖4描述異常行為與日?;顒?dòng)行為數(shù)據(jù)對(duì)應(yīng)的像素點(diǎn)陣圖,可發(fā)現(xiàn)異常行為與日?;顒?dòng)的像素點(diǎn)陣圖由于各種動(dòng)作的差異性,在點(diǎn)陣圖上表現(xiàn)出不同的顏色分布。
2.3" 數(shù)據(jù)增強(qiáng)
為了模擬真實(shí)世界的各種環(huán)境變化,增加訓(xùn)練數(shù)據(jù)的多樣性以及提高模型的泛化能力,本文通過(guò)調(diào)整傳感器數(shù)據(jù)對(duì)像素點(diǎn)陣圖進(jìn)行數(shù)據(jù)增強(qiáng)。
通過(guò)將歸一化公式中的分母變?yōu)樵降腫12],在不改變轉(zhuǎn)換后像素點(diǎn)矩陣的分布情況下,R值擴(kuò)大1倍,轉(zhuǎn)換后的圖像色彩更加鮮明,圖像特征更加明顯。圖5描述了增強(qiáng)后的圖像與原圖像的對(duì)比。
數(shù)據(jù)集增強(qiáng)后的各動(dòng)作對(duì)應(yīng)數(shù)量如表3所示。
3" 模型的構(gòu)建與優(yōu)化
圖6為本文所描述的異常行為識(shí)別算法FDS?ABPG?GoogLeNet整體結(jié)構(gòu)圖。
3.1" 卷積替換
為了減少GoogLeNet模型初始輸入層的計(jì)算量和計(jì)算資源的使用,將初始輸入層7×7大卷積替換為兩個(gè)3×3小卷積。小卷積的替換可以使每個(gè)卷積核更專注于輸入數(shù)據(jù)的局部信息,從而有助于更好地捕捉輸入數(shù)據(jù)的細(xì)微特征和提取更高層次的抽象特征。替換前后對(duì)比如圖7所示。
3.2" Inception結(jié)構(gòu)設(shè)計(jì)
如圖8所示,本文根據(jù)數(shù)據(jù)在模型中遞進(jìn)的順序,設(shè)計(jì)了三種不同層級(jí)遞進(jìn)的Inception結(jié)構(gòu)。在特征提取的初始階段,模型需要使用較為復(fù)雜的淺層Inception提取更深層的特征。而隨著網(wǎng)絡(luò)的深入,后續(xù)的特征無(wú)需復(fù)雜的結(jié)構(gòu)進(jìn)行提取,所以對(duì)后續(xù)的Inception結(jié)構(gòu)采取裁剪和替換卷積操作,從而達(dá)到輕量化的效果。
3.2.1" Inception A、B、C設(shè)計(jì)
為了降低模型計(jì)算復(fù)雜度,文獻(xiàn)[19]在InceptionV3中對(duì)卷積進(jìn)行分解和替換等操作。因此,本文選擇將2個(gè)淺層Inception中5×5的大卷積分解為兩個(gè)3×3的小卷積,在保持感受野不變的同時(shí),不僅減輕協(xié)同變量的數(shù)量還提高了模型的非線性能力。淺層結(jié)構(gòu)命名為Inception A。
在中層的5個(gè)Inception結(jié)構(gòu)中,為了降低模型的參數(shù)量,提高模型的收斂速度,本文選擇對(duì)一層3×3卷積分支進(jìn)行裁剪,并將5×5大卷積分解為兩個(gè)3×3的小卷積層。如圖9所示,在殘差結(jié)構(gòu)[20]中,通過(guò)1×1卷積處理淺層Inception A的輸出特征,并與中層Inception的輸出特征進(jìn)行特征融合,最終添加BN層等操作解決網(wǎng)絡(luò)退化、梯度爆炸和梯度消失等問(wèn)題。中層結(jié)構(gòu)被命名為Inception B。
在Inception B的基礎(chǔ)上,為了提高模型的運(yùn)算速度,本文將兩個(gè)深層Inception結(jié)構(gòu)中的一層3×3卷積分支和殘差結(jié)構(gòu)進(jìn)行裁剪,并將其命名為Inception C。
Inception結(jié)構(gòu)的多層遞進(jìn)使用可能導(dǎo)致數(shù)據(jù)發(fā)生內(nèi)部協(xié)方差偏移,增加訓(xùn)練難度。所以本文在每個(gè)Inception模塊的各分支末尾引入BN層,解決內(nèi)部協(xié)方差偏移和過(guò)擬合問(wèn)題。最終在普通卷積核后使用ReLU,在Inception層中使用Leaky ReLU激活函數(shù),以此解決部分“神經(jīng)元死亡”問(wèn)題。
3.2.2" Inception并行結(jié)構(gòu)
如圖10所示,Inception結(jié)構(gòu)的多層次串行連接限制了模型的并行計(jì)算能力,并導(dǎo)致模型的復(fù)雜度增加,所以本文選擇將兩個(gè)淺層Inception A模塊與兩個(gè)深層Inception C模塊改為并行連接,并進(jìn)行特征融合。
4" 實(shí)驗(yàn)結(jié)果與分析
本實(shí)驗(yàn)基于Linux操作系統(tǒng),Intel[?] CoreTM i9?7900X3.30 GHz CPU,GPU為GeForce RTX3090,Python 3.8.4版本,深度學(xué)習(xí)框架為PyTorch。并行計(jì)算框架和版本為CUDA 11.4,開發(fā)環(huán)境為PyCharm。
自建數(shù)據(jù)集按比例隨機(jī)劃分訓(xùn)練集與測(cè)試集,其中80%的數(shù)據(jù)用于模型訓(xùn)練,20%用于模型測(cè)試。模型優(yōu)化器選擇Adam,損失函數(shù)采用交叉熵,學(xué)習(xí)率設(shè)置為0.000 1,批量大小設(shè)置為16,Epoch設(shè)置為400。為了防止過(guò)擬合,將dropout設(shè)置為0.4。
4.1" 模型的評(píng)價(jià)指標(biāo)
為了進(jìn)一步驗(yàn)證模型的有效性,本文以準(zhǔn)確率(Accuracy)、靈敏度(Sensitivity)、特異性(Specificity)、收斂速度(即Epoch收斂層數(shù))為評(píng)價(jià)標(biāo)準(zhǔn),指標(biāo)公式如下:
式中:TP、TN、FP和FN分別代表真陽(yáng)性、真陰性、假陽(yáng)性和假陰性;N是樣本的總數(shù);i是第i類;n是動(dòng)作類別的數(shù)量。模型的收斂速度快慢由模型收斂所需的迭代次數(shù)來(lái)評(píng)判。
4.2" 基礎(chǔ)模型對(duì)比實(shí)驗(yàn)
本文用5種主流的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了基礎(chǔ)模型對(duì)比實(shí)驗(yàn),5種傳統(tǒng)的基本模型為CNN、LSTM、CNN?LSTM、GCN以及GoogLeNet,圖11顯示了各基礎(chǔ)模型的對(duì)比結(jié)果。
由圖可以很直觀地看到,GoogLeNet的準(zhǔn)確率最高,同時(shí)收斂速度也最快。因此,本文選擇GoogLeNet作為基本模型進(jìn)行改進(jìn)。
4.3" 傳感器不同放置位置對(duì)比
設(shè)置實(shí)驗(yàn)方案時(shí),本文選擇將可穿戴傳感器分別放置在頸部和腰部。最終將頸部、腰部和兩位置融合的數(shù)據(jù)進(jìn)行橫向?qū)Ρ?,選出最優(yōu)位置。傳感器放置位置結(jié)果對(duì)比圖如圖12所示。
隨著Epoch的增加,訓(xùn)練精度曲線呈現(xiàn)了三種不同傳感器放置位置數(shù)據(jù)預(yù)測(cè)準(zhǔn)確率的變化趨勢(shì)。經(jīng)對(duì)比實(shí)驗(yàn)得知,腰部數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確率最高,為95.62%,同時(shí)考慮到傳感器佩戴需考慮佩戴者的隱私性以及舒適性,所以選擇腰部為傳感器最優(yōu)放置位置。因此,本文所有的數(shù)據(jù)分析都是針對(duì)腰部傳感器數(shù)據(jù)進(jìn)行的。
4.4" 消融實(shí)驗(yàn)
本文設(shè)計(jì)了消融實(shí)驗(yàn)[21]來(lái)驗(yàn)證FDS?ABPG?GoogLeNet中所做的改進(jìn)對(duì)模型性能的提升效果。本次消融實(shí)驗(yàn)重點(diǎn)關(guān)注三種改進(jìn)Inception結(jié)構(gòu)(串行連接)的設(shè)計(jì)、ReLU與Leaky ReLU的結(jié)合,以及各類注意力機(jī)制的使用。表4顯示了7組實(shí)驗(yàn)(編號(hào)為1~7)的設(shè)計(jì)。Inception A、B、C在表中用I?A、I?B、I?C表示。
表5顯示了從每組實(shí)驗(yàn)中得到的結(jié)果。
實(shí)驗(yàn)1~實(shí)驗(yàn)3為三種不同Inception模塊的使用,引入Inception A結(jié)構(gòu)時(shí),兩個(gè)3×3的小卷積為模型引入了更多的非線性關(guān)系,提高了計(jì)算效率;引入Inception B模塊時(shí),相較于原模型準(zhǔn)確率(95.62%)提升了2.24%,且大幅提升了收斂速度,表明Inception B模塊通過(guò)疊加殘差結(jié)構(gòu)拓寬了網(wǎng)絡(luò),適應(yīng)了數(shù)據(jù)集,為模型收斂提供了更短的路徑;Inception C模塊的精簡(jiǎn)化使其引入模型時(shí)準(zhǔn)確率相較原模型提升了2.43%,模型收斂速度大幅提升。
實(shí)驗(yàn)4~實(shí)驗(yàn)6分別引入SE、CA、CBAM注意力模塊,與實(shí)驗(yàn)3相比模型準(zhǔn)確率不增反降,原因可能為引入注意力模塊增加了模型復(fù)雜度,導(dǎo)致過(guò)擬合。
實(shí)驗(yàn)7在三種改進(jìn)的Inception中引入BN模塊和Leaky ReLU激活函數(shù)時(shí),準(zhǔn)確率相較原模型提升了2.61%,說(shuō)明其解決了模型內(nèi)部協(xié)方差偏移、過(guò)擬合以及“神經(jīng)元死亡”等問(wèn)題,是一種有效的改進(jìn)策略。
4.5" Inception并行結(jié)構(gòu)對(duì)比實(shí)驗(yàn)
如表6所示,為了驗(yàn)證并行Inception結(jié)構(gòu)帶來(lái)的性能提升,本文在消融實(shí)驗(yàn)基礎(chǔ)上設(shè)計(jì)了4組對(duì)比實(shí)驗(yàn)。
表7顯示了當(dāng)Inception A與Inception C結(jié)構(gòu)都處于并行連接時(shí),模型的識(shí)別準(zhǔn)確率、靈敏度、特異性以及收斂輪次均達(dá)到了峰值,分別為99.40%、99.49%、99.93%、90。相比于串行連接時(shí)準(zhǔn)確率高出了1.17%,收斂速度也提升了近1倍,說(shuō)明并行結(jié)構(gòu)的存在釋放了模型的并行計(jì)算能力,提高了計(jì)算效率。
4.6" 模型對(duì)比實(shí)驗(yàn)
如表8所示,本文提出的FDS?ABPG?GoogLeNet模型與其他異常行為識(shí)別模型在本文自建ABPG數(shù)據(jù)集上進(jìn)行了比較,包括CNN、LSTM、CNN?LSTM、GCN以及GoogLeNet。在對(duì)比實(shí)驗(yàn)中所有的模型都是從頭開始訓(xùn)練的,但FDS?ABPG?GoogLeNet總能夠以更快的速度達(dá)到99.40%的最高準(zhǔn)確率。
FDS?ABPG?GoogLeNet與其他模型相比的優(yōu)勢(shì)如下。
1) 與傳統(tǒng)CNN模型相比,F(xiàn)DS?ABPG?GoogLeNet引入了多種不同的Inception模塊,通過(guò)并行連接,使用不同尺度的卷積核與池化層解決了CNN模型使用串聯(lián)的卷積層與池化層導(dǎo)致的在不同尺度上的信息缺失問(wèn)題。
2) 與Adapted RNN、NT?FDS和CBAM?IAM?CNN?BiLSTM相比,所提模型通過(guò)引入不同層級(jí)Inception模塊串并行混合連接,降低了模型計(jì)算復(fù)雜度,解決了這兩類模型參數(shù)量快速增加、計(jì)算復(fù)雜度變大的問(wèn)題。
3) ST?GCN與FDS?ABPG?GoogLeNet都可以很好地捕獲數(shù)據(jù)的多尺度信息,但是ST?GCN在ABPG這種靜態(tài)數(shù)據(jù)集上的表現(xiàn)效果較差,其更適用于處理視頻數(shù)據(jù)轉(zhuǎn)換為圖結(jié)構(gòu)的時(shí)間關(guān)系。
4) 與GoogLeNet原模型和GoogLeNet?GMP相比,F(xiàn)DS?ABPG?GoogLeNet成功地解決了深度神經(jīng)網(wǎng)絡(luò)模型在并行計(jì)算能力方面不足的問(wèn)題,并在此基礎(chǔ)上大幅提高了識(shí)別準(zhǔn)確率。
4.7" 混淆矩陣
本文將FDS?ABPG?GoogLeNet模型應(yīng)用于自建ABPG數(shù)據(jù)集,得到的混淆矩陣如圖13所示。
在混淆矩陣中,主對(duì)角線上的數(shù)值表示被正確預(yù)測(cè)的樣本數(shù)量,而其他位置的數(shù)值表示被錯(cuò)誤預(yù)測(cè)的樣本數(shù)量?;煜仃噲D顯示有兩個(gè)跌倒行為被錯(cuò)誤地預(yù)測(cè)為下蹲。這是因?yàn)榈购拖露自赮軸數(shù)據(jù)上的波動(dòng)幅度都比較大,而且跌倒的訓(xùn)練樣本相對(duì)較少,這可能導(dǎo)致模型在學(xué)習(xí)特征時(shí)效果相對(duì)較低,容易產(chǎn)生誤判。另外,抽搐和嘔吐兩個(gè)行為都包含了俯身的動(dòng)作。因此,一組抽搐被錯(cuò)誤地預(yù)測(cè)為嘔吐,一組嘔吐被錯(cuò)誤地預(yù)測(cè)為抽搐。
通常,模型在訓(xùn)練過(guò)的數(shù)據(jù)中表現(xiàn)較好,在真實(shí)數(shù)據(jù)中表現(xiàn)欠佳。因此,本文使用了未經(jīng)過(guò)訓(xùn)練的測(cè)試集圖像對(duì)FDS?ABPG?GoogLeNet模型進(jìn)行了性能測(cè)試。表9給出了FDS?ABPG?GoogLeNet模型在準(zhǔn)確率、靈敏度以及特異性方面的測(cè)試結(jié)果。表中顯示,該模型可以很好地識(shí)別測(cè)試集中的各類動(dòng)作。對(duì)8種行為的識(shí)別準(zhǔn)確率均高于98.29%,靈敏度高于97.67%,特異性高于99.74%,說(shuō)明本模型對(duì)單個(gè)行為達(dá)到了顯著的識(shí)別效果,并能較好地區(qū)分8種動(dòng)作。對(duì)慢走、慢跑、跌倒、眩暈4種動(dòng)作的識(shí)別準(zhǔn)確率、靈敏度以及特異性都達(dá)到了100%,說(shuō)明本模型在這4種動(dòng)作的識(shí)別任務(wù)中達(dá)到了準(zhǔn)確無(wú)誤的識(shí)別。
5" 結(jié)" 論
本文提出一種新的異常行為識(shí)別方法FDS?ABPG?GoogLeNet,旨在識(shí)別多種異常行為的同時(shí)提高模型的識(shí)別準(zhǔn)確率與計(jì)算效率?;谧越ˋBPG異常行為數(shù)據(jù)集,將人體行為序列信息通過(guò)RGB像素點(diǎn)進(jìn)行轉(zhuǎn)換,并壓縮在二維圖像中,利用三層改進(jìn)的Inception模塊并行遞進(jìn)連接將復(fù)雜問(wèn)題分解為多個(gè)簡(jiǎn)單的子問(wèn)題,令特征提取過(guò)程更加簡(jiǎn)單有效。
實(shí)驗(yàn)結(jié)果表明,本文提出的人體異常行為識(shí)別模型的準(zhǔn)確率達(dá)到了99.40%。與其他網(wǎng)絡(luò)模型相對(duì)比,該模型具有更高的準(zhǔn)確率和更快的收斂速度。該模型的提出極大地提高了異常動(dòng)作識(shí)別的速度及準(zhǔn)確率,從而可以使更多行動(dòng)不便的使用者在發(fā)生危險(xiǎn)異常行為動(dòng)作時(shí)得到更加及時(shí)的救助。
但是本研究仍存在局限性,即真實(shí)的異常行為數(shù)據(jù)集構(gòu)建是困難的。即使本研究在數(shù)據(jù)采集時(shí)令實(shí)驗(yàn)人員穿戴老年生活體驗(yàn)服去模仿各種不同情況下的各種異常行為,但與真實(shí)數(shù)據(jù)之間仍存在一定的差異性。在未來(lái)的研究中會(huì)更新數(shù)據(jù)集,增加更多不同的動(dòng)作來(lái)驗(yàn)證該模型的性能,持續(xù)改進(jìn)模型,縮短模型收斂時(shí)間,減少誤判數(shù)量,為使用者提供更加便捷且高效的異常行為識(shí)別技術(shù)。
參考文獻(xiàn)
[1] HAN T, KANG W, CHOI G. IR?UWB sensor based fall detection method using CNN algorithm [J]. Sensors, 2020, 20: 5948.
[2] ARIFOGLU D, BOUCHACHIA A. Detection of abnormal behavior for dementia sufferers using convolutional neural networks [J]. Artificial intelligence in medicine, 2019, 94: 88?95.
[3] PLIZZARI C, CANNICI M, MATTEUCCI M. Spatial temporal transformer network for skeleton?based action recognition [J]. Pattern recognition ICPR international workshops and challenges, 2021(2): 694?701.
[4] 劉峰,徐壯,干宗良,等.一種基于時(shí)序運(yùn)動(dòng)特征的RGB?D視頻跌倒行為檢測(cè)算法[J].南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,40(5):117?124.
[5] TARAMASCO C, RODENAS T, MARTINEZ F, et al. A novel monitoring system for fall detection in older people [J]. IEEE access 2018, 6: 43563?43574.
[6] GARCíA E, VILLAR M, Fá?EZ M, et al. Towards effective detection of elderly falls with CNN?LSTM neural networks [J]. Neurocomputing, 2022, 500: 231?240.
[7] 薛源,高向陽(yáng).基于多傳感器信息融合的跌倒監(jiān)測(cè)系統(tǒng)設(shè)計(jì)[J].武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版),2011,33(5):712?716.
[8] MUBASHIR M, SHAO L, SEED L. A survey on fall detection: principles and approaches [J]. Neurocomputing, 2013, 100: 144?152.
[9] JEBUR S A, HUSSEIN K A, HOOMOD H K. Abnormal behavior detection in video surveillance using inception?v3 transfer learning approaches [J]. IRAQI journal of computers, communications, control and systems engineering, 2023, 23(2): 210?221.
[10] 孟月波,穆思蓉,劉光輝,等.基于向量注意力機(jī)制GoogLeNet?GMP的行人重識(shí)別方法[J].計(jì)算機(jī)科學(xué),2022,49(7):142?147.
[11] MUSCI M, MARTINI D D, BLAGO N, et al. Online fall detection using recurrent neural networks on smart wearable devices [J]. Emerging topics in computing IEEE transactions on, 2020, 9: 1276?1289.
[12] WAHEED M, AFZAL H, MEHMOOD K. NT?FDS?a noise tolerant fall detection system using deep learning on wearable devices [J]. Sensors, 2021, 21: 2006.
[13] LIANG Y, LIN Y, LU Q. Forecasting gold price using a novel hybrid model with ICEEMDAN and LSTM?CNN?CBAM [J]. Expert systems with applications, 2022, 206: 117847.
[14] LI C C, LIU M H, YAN X S, et al. Research on CNN?BiLSTM fall detection algorithm based on improved attention mechanism [J]. Applied sciences, 2022, 12(19): 9671.
[15] 褚登雨.基于Transformer的癲癇發(fā)作自動(dòng)檢測(cè)研究[D].濟(jì)南:山東師范大學(xué),2023.
[16] LOVANSHI M, TIWARI V. Human skeleton pose and spatio?temporal feature?based activity recognition using ST?GCN [J]. Multimedia tools and applications, 2024, 83(5): 12705.
[17] 何堅(jiān),周明我,王曉懿.基于卡爾曼濾波與k?NN算法的可穿戴跌倒檢測(cè)技術(shù)研究[J].電子與信息學(xué)報(bào),2017,39(11):2627?2634.
[18] KALMAN R. A new approach to linear filtering and prediction problems [J]. Journal of basics engineering, 1960, 82: 35?45.
[19] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). [S.l.]: IEEE, 2016: 2818?2826.
[20] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016: 770?778.
[21] PENG S, JIANG W, PI H, et al. Deep snake for real?time instance segmentation [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA: IEEE, 2020: 8530?8539.
[22] 王瑜琳,錢欣麗,徐曉靈,等.基于圖卷積神經(jīng)網(wǎng)絡(luò)的人體行為識(shí)別方法研究[J].河南科技,2023,42(11):18?23.
[23]" 孟彩霞,薛洪秋,石磊,等.融合注意力機(jī)制的Open Pose人體跌倒檢測(cè)算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2024,36(12):2040?2050.
[24] 王鑫,鄭曉巖,高煥兵,等.基于卷積神經(jīng)網(wǎng)絡(luò)和多判別特征的跌倒檢測(cè)算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2023,35(3):452?462.
作者簡(jiǎn)介:李一帆(2001—),男,河北保定人,碩士研究生,研究方向?yàn)橹悄苄畔z測(cè)與處理、計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)。
李聰聰(1983—),女,河北保定人,博士研究生,副教授,研究方向?yàn)橹悄苄畔z測(cè)與處理、計(jì)算機(jī)視覺(jué)、步態(tài)識(shí)別、深度學(xué)習(xí)等。
李亞南(1984—),女,河北保定人,博士研究生,講師,研究方向?yàn)橹悄苄畔z測(cè)與處理、計(jì)算機(jī)視覺(jué)、物聯(lián)網(wǎng)通信和控制技術(shù)等。
王" 斌(1999—),男,河北唐山人,碩士研究生,研究方向?yàn)橹悄苄畔z測(cè)與處理、計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)。
收稿日期:2024?06?08" " " " " "修回日期:2024?07?18
基金項(xiàng)目:河北省教育廳科學(xué)研究重點(diǎn)項(xiàng)目(ZD2021056);河北省高等學(xué)??茖W(xué)研究項(xiàng)目(203777119D);2023河北省引進(jìn)海外留學(xué)人員計(jì)劃(C20230333)