王金珠
(河北北方學(xué)院附屬第一醫(yī)院,河北張家口 075000)
新型冠狀病毒疫情的爆發(fā)給世界各國(guó)的醫(yī)療衛(wèi)生行業(yè)帶來了巨大風(fēng)險(xiǎn)和壓力,為了減少醫(yī)院的疾病傳播風(fēng)險(xiǎn),眾多醫(yī)療機(jī)構(gòu)采用計(jì)算機(jī)技術(shù)對(duì)醫(yī)護(hù)人員進(jìn)行身份識(shí)別。由于醫(yī)護(hù)人員通常身著防護(hù)服和各種護(hù)具,傳統(tǒng)的人臉、指紋、虹膜等生物特征識(shí)別方法[1]無法使用。為此,步態(tài)身份識(shí)別成為一個(gè)研究的熱門話題。該種識(shí)別方法可以遠(yuǎn)距離識(shí)別且無需醫(yī)護(hù)人員進(jìn)行防護(hù)暴露,具有非侵犯性、無需刻意配合和分辨率高等優(yōu)點(diǎn)[2]。
通常情況下,步態(tài)識(shí)別的研究方法主要有兩類:基于模型的方法和非模型的方法。目前,大部分研究均是基于模型的,該方法首先將人體模型與系統(tǒng)的輸入圖像進(jìn)行匹配,然后通過建模提前預(yù)測(cè)運(yùn)動(dòng)者的步態(tài)特征,從而實(shí)現(xiàn)識(shí)別功能[3]。王修暉等人提出了基于連續(xù)密度隱馬爾可夫模型,利用自然步態(tài)周期進(jìn)行特征提取,然后構(gòu)造觀測(cè)向量集,最終用Cox 回歸分析實(shí)現(xiàn)步態(tài)識(shí)別[4]。More S A 等人構(gòu)造了雙通道小波濾波器組來分析雜亂無序的步態(tài),從而進(jìn)行識(shí)別并獲得了較高的準(zhǔn)確率[5]。傳統(tǒng)的機(jī)器學(xué)習(xí)算法雖然在步態(tài)識(shí)別領(lǐng)域有一定的發(fā)展,但識(shí)別準(zhǔn)確率較低,尤其是在視角變化和著裝干擾的情況下,幾乎無法滿足實(shí)際應(yīng)用[6-9]。
目前,基于深度學(xué)習(xí)算法的步態(tài)識(shí)別方法雖然取得了較為理想的效果,但由于使用卷積網(wǎng)絡(luò)獲取特征,導(dǎo)致圖像特征丟失,只能反映出局部信息,而且當(dāng)存在外部干擾因素時(shí),如拍攝角度多變、行人穿著多樣,識(shí)別效果將顯著降低。為了解決這些問題,文中提出了新的順序殘差卷積神經(jīng)網(wǎng)絡(luò)(SRCN),其中卷積神經(jīng)網(wǎng)絡(luò)被優(yōu)化,以理解時(shí)間序列的運(yùn)動(dòng)特征。具體而言,時(shí)空信息學(xué)習(xí)通過行為信息提取器(BIE)和多幀聚合器(MFA)兩個(gè)子塊進(jìn)行,采用權(quán)重共享殘差神經(jīng)網(wǎng)絡(luò)(ResNet)提取每幅圖像的空間特征。然后,BIE 通過學(xué)習(xí)表示運(yùn)動(dòng)的行為模板來分析時(shí)間序列中幀之間的關(guān)系。最終,MFA 將整合并提取所有特征從而實(shí)現(xiàn)步態(tài)識(shí)別。
文中提出了一種新的順序殘差卷積神經(jīng)網(wǎng)絡(luò)(SRCN)模型來進(jìn)行步態(tài)識(shí)別,整體框架如圖1 所示。首先輸入一組圖像序列,然后將每一幀按順序輸入3組類似結(jié)構(gòu)。每個(gè)結(jié)構(gòu)包含一個(gè)過渡塊和一個(gè)步態(tài)塊,以此提取出每個(gè)幀的時(shí)空特征。最后,構(gòu)造了一個(gè)多幀聚合器(MFA),用一個(gè)序列來整合所有特征。
圖1 整體框架圖
由于卷積神經(jīng)網(wǎng)絡(luò)在處理連續(xù)視頻信息方面存在困難,其更適合于處理分析單個(gè)圖像。因此,卷積神經(jīng)網(wǎng)絡(luò)更多地關(guān)注于每個(gè)圖像中人的外觀來進(jìn)行識(shí)別。實(shí)際上,步態(tài)識(shí)別希望利用人們的行走習(xí)慣和行為進(jìn)行識(shí)別,因此文中提出了一種新的卷積方法——信息提取器。首先通過一組序列特征計(jì)算出運(yùn)動(dòng)模板,然后將模板表示的運(yùn)動(dòng)信息引入到原始特征中,從而使卷積可以提取時(shí)間信息。
運(yùn)動(dòng)模板的目的是從一系列特征中提取運(yùn)動(dòng)特征。由于卷積網(wǎng)絡(luò)無法理解幀之間的順序與關(guān)系,因此需要使用模板來探索和分析圖像特征的相關(guān)性。該文構(gòu)建了3 種類型的模板來表達(dá)這種相關(guān)性,分別基于差異、多差異和去除靜態(tài)信息。
基于相鄰幀間特征差異的模板,從每一幀圖像中提取的特征圖代表每個(gè)步態(tài)輪廓的抽象信息。由于特征是通過權(quán)重共享網(wǎng)絡(luò)學(xué)習(xí)的,因此相鄰特征之間的差異可以反映出運(yùn)動(dòng)信息。第k個(gè)模板td,k可以表示為:
其中,F(xiàn)input,k為第k幀的特征模板,Td為差異模板。
基于相鄰幀間特征多差分的模板,由于將兩幀作為一個(gè)運(yùn)動(dòng)單元的可能很小,因此使用相鄰幀間特征多差分的模板來覆蓋更多的運(yùn)動(dòng)信息,具體第k個(gè)模板tmd,k用公式表示如下:
由于個(gè)體的靜態(tài)特征在序列的每一幀中均是相同且具有通用性的,因此公共共享特征可看作是靜態(tài)信息的近似。該文使用均值濾波來提取靜態(tài)特征,如式(5)所示。值得注意的是,其也可以使用式(6)所示的中值濾波方法,兩者并無明顯差異。每個(gè)幀的原始特征與靜態(tài)特征之間的差異可以表達(dá)動(dòng)態(tài)信息tse,k,其表達(dá)式為:
該文采用的網(wǎng)絡(luò)結(jié)構(gòu)是殘差神經(jīng)網(wǎng)絡(luò)(ResNet)[10],其解決了梯度爆炸的問題,并能夠加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程。ResNet 的適用性良好,可以用于目前的多種現(xiàn)成網(wǎng)絡(luò)框架。通過在網(wǎng)絡(luò)結(jié)構(gòu)模塊中添加一條直連通道,這樣就保留了前一層網(wǎng)絡(luò)的輸出特性,可以將最開始的信息傳遞到后續(xù)的網(wǎng)絡(luò)層,盡可能地保留圖像的特征。而下一層在學(xué)習(xí)特征時(shí),則只需學(xué)習(xí)輸入和輸出差別部分的信息即可,這樣就大幅提高了識(shí)別效率和準(zhǔn)確率,如圖2 所示。
圖2 ResNet殘差學(xué)習(xí)模塊
根據(jù)殘差學(xué)習(xí)模塊的概念,可以將其定義為:
其中,x、y代表所考慮層的輸入和輸出向量,F(xiàn)(x,{Wi})代表要學(xué)習(xí)的殘差映射,通過快捷連接和逐元素添加來執(zhí)行。
步態(tài)識(shí)別的本質(zhì)是一項(xiàng)視頻理解任務(wù),雖然上述步驟只能學(xué)習(xí)每一幀圖像的特征,但也考慮了相關(guān)的幀間信息。多幀聚合器MFA 的目的是整合所有幀級(jí)信息F來學(xué)習(xí)序列級(jí)特征輸出的區(qū)別性特征featureoutput:
其中,F(xiàn)={Fi|i=1,2,3,…,n}。由于行人與相機(jī)之間的距離變化,步態(tài)輪廓大小不同,所以視頻通常需要通過預(yù)處理將數(shù)據(jù)調(diào)整為相同的大小。此外,由于步態(tài)視頻的長(zhǎng)度n在現(xiàn)實(shí)生活中是不確定的,難以部署一個(gè)固定的地點(diǎn)作為MFA,所以一些經(jīng)典的方法直接采用統(tǒng)計(jì)函數(shù)來解決上述問題[11-12],例如max(·)和mean(·)。但這些方法過于簡(jiǎn)單,無法融合幀級(jí)信息,該文設(shè)計(jì)了一個(gè)移動(dòng)聚合器來解決這一問題。
從第一個(gè)特征開始,將F切成長(zhǎng)度為L(zhǎng)的分段,然后將分段送入殘差網(wǎng)絡(luò)卷積層,得到相應(yīng)的集成特征Foutput,1。接著卷積網(wǎng)絡(luò)以最小單元為步幅進(jìn)行滑動(dòng),將分段有序地發(fā)送給卷積網(wǎng)絡(luò)。即卷積網(wǎng)絡(luò)在F上滑動(dòng),滑動(dòng)窗口的長(zhǎng)度為L(zhǎng),因此Foutput,j是基于每個(gè)分段FS,j進(jìn)行學(xué)習(xí)的。
該文使用CASIA-B 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,該數(shù)據(jù)集是目前最常用的步態(tài)數(shù)據(jù)集之一。其包含了124 名實(shí)驗(yàn)者的視頻圖像,每個(gè)實(shí)驗(yàn)者包含11 個(gè)(0°,18°,36°,…,180°)行走視圖和3 個(gè)行走條件(正常情況、攜帶包、不同衣服)。每個(gè)視圖下的每位實(shí)驗(yàn)者有6 種正常情況下的序列(NM)、兩種攜帶包的序列(BG)、兩種衣服的序列(CL)。所以一個(gè)受試者在一個(gè)特定視圖上有10 個(gè)序列,共110 個(gè)序列[13]。在該方案中,前74 名受試者被部署到列車組,其余50 名受試者保留測(cè)試。在測(cè)試過程中,NM (NM1-4)的前4個(gè)序列構(gòu)成圖庫(kù)集,其余6 個(gè)序列包含在探針集中,探針集分為3 個(gè)子集:NM5-6 的NM 子集、BG1-2 的BG 子集、CL1-2 的CL 子集。
該文采用的編程語(yǔ)言為Python3.6,實(shí)驗(yàn)服務(wù)器配置處理器為Intel Core i7-8550,內(nèi)存64 GB,顯卡GTX2080×2,操作系統(tǒng)為L(zhǎng)inux。由于PyTorch 機(jī)器學(xué)習(xí)框架具有使用簡(jiǎn)單、性能優(yōu)越的特點(diǎn),故實(shí)驗(yàn)采用該學(xué)習(xí)框架。
順序殘差卷積神經(jīng)網(wǎng)絡(luò)SRCN 中的過渡和卷積塊結(jié)構(gòu)是基于殘差學(xué)習(xí)的,由卷積層、Max Pooling層和Leaky ReLU 激活函數(shù)組成,3 個(gè)塊的輸出通道依次為32、64 和128。此外,卷積層的核為3×1×1,步長(zhǎng)為1,輸出形狀與輸入形狀相等,卷積塊如圖3所示。
圖3 卷積塊
首先得到輸入輪廓的步態(tài)邊界框,然后對(duì)輪廓幀進(jìn)行對(duì)齊并調(diào)整大小為64×44,訓(xùn)練片段的長(zhǎng)度設(shè)為30。具體而言,即丟棄長(zhǎng)度小于15 幀的原始序列,對(duì)長(zhǎng)度大于15 幀但小于30 幀的原始序列進(jìn)行重復(fù)采樣。
為了驗(yàn)證所提模型框架的有效性,表1 給出了該文方法與同類文獻(xiàn)在NM 子集上的實(shí)驗(yàn)結(jié)果數(shù)據(jù)對(duì)比,表中的結(jié)果是11 個(gè)圖庫(kù)視圖實(shí)驗(yàn)的平均值,可以看出文中提出的方法在多視圖中表現(xiàn)出了更優(yōu)的結(jié)果。對(duì)于CNN-LB 和步態(tài)關(guān)節(jié),它的輸入是可以代替視頻的步態(tài)圖像GEI 的,這種預(yù)處理方法可以降低計(jì)算復(fù)雜度和計(jì)算量,但可能會(huì)忽略運(yùn)動(dòng)特征,導(dǎo)致精度不理想。Partial RNN 將步態(tài)序列視為一組混疊圖像,并將部分方法應(yīng)用于Partial RNN 中以增強(qiáng)魯棒性。雖然優(yōu)化設(shè)計(jì)的網(wǎng)絡(luò)可以提取輪廓特征,尤其是部分Partial RNN 的結(jié)果與SRCN 同樣較為理想,但其忽略了表明行為模式幀之間的關(guān)系,在應(yīng)用中,難以實(shí)現(xiàn)行為模式的準(zhǔn)確識(shí)別,而且擴(kuò)展性差。值得注意的是,雖然Partial RNN 和SRCN 從不同的角度解決了步態(tài)識(shí)別中的障礙,但是SRCN并不注重外形輪廓,相反其可以通過分析時(shí)間序列中的順序來學(xué)習(xí)行為信息。PoseGait 采用骨骼來表示物體的運(yùn)動(dòng),簡(jiǎn)單高效,但忽略了物體的外觀,降低了識(shí)別精度。GaitNet 可以通過三維卷積和LSTM學(xué)習(xí)運(yùn)動(dòng)特征,這是一種比較復(fù)雜的方法,會(huì)大幅增加計(jì)算量,而該文方法只是基于卷積層,故而較易于實(shí)現(xiàn)。
表1 實(shí)驗(yàn)結(jié)果數(shù)據(jù)
該文提出了無需用戶配合的基于深度神經(jīng)網(wǎng)絡(luò)的步態(tài)識(shí)別模型方法,該方法包含行為信息提取器和多幀聚合器,行為信息提取器通過分析幀間關(guān)系的運(yùn)動(dòng)模板來理解時(shí)間序列中的中間特征圖,從而提取出行走模式信息;多幀聚合器可通過移動(dòng)卷積層集成可變長(zhǎng)度序列的特征。實(shí)驗(yàn)測(cè)試結(jié)果表明,該文所提出的方法更具優(yōu)勢(shì),識(shí)別率更高。但由于目前各醫(yī)療機(jī)構(gòu)所采用的視頻收集設(shè)備不統(tǒng)一,且存在人員地域步態(tài)差別較大等問題,因此在應(yīng)用時(shí)仍需要進(jìn)一步優(yōu)化模型,并優(yōu)化選取硬件設(shè)備。