李德康,湯 進(jìn),王福田,涂子健
(1.安徽醫(yī)科大學(xué)生物醫(yī)學(xué)工程學(xué)院,安徽 合肥 230032;2.合肥綜合性國家科學(xué)中心人工智能研究院,安徽 合肥 230088;3.安徽大學(xué),安徽 合肥 230039)
世界衛(wèi)生組織將10 月15 日定為“世界洗手日”,呼吁全世界人民掌握良好的洗手習(xí)慣和正確的洗手方法,并且強(qiáng)調(diào)勤洗手對防控疾病感染的重要性。據(jù)統(tǒng)計(jì),我國每年因醫(yī)院感染而死亡的人數(shù)達(dá)到數(shù)十萬人,且需額外支出100~150 億元醫(yī)療費(fèi)用[1]?,F(xiàn)有的感染防控手段可以預(yù)防55%~70%的醫(yī)院感染風(fēng)險,其中手衛(wèi)生是預(yù)防醫(yī)院感染最直接、最經(jīng)濟(jì)、最有效的方法[2]。
手衛(wèi)生為洗手、衛(wèi)生手消毒和外科手消毒的總稱。其中,六步洗手法是完成手衛(wèi)生不可或缺的一個行為,它包含了6 個步驟,如圖1 所示。研究表明,六步洗手法對于預(yù)防細(xì)菌和病毒感染至關(guān)重要,完整且規(guī)范地完成六步洗手法能夠有效地將細(xì)菌感染率從58%下降到10%[3]。因此,通過對手衛(wèi)生行為進(jìn)行干預(yù)能夠減少病毒感染的風(fēng)險。
圖1 六步洗手法步驟圖
在干預(yù)手衛(wèi)生行為的研究中,手衛(wèi)生動作質(zhì)量評估任務(wù)尤為關(guān)鍵。這項(xiàng)研究主要是針對手衛(wèi)生行為進(jìn)行評估并提供反饋,以幫助人們掌握正確的洗手方法和技巧,并養(yǎng)成良好的手衛(wèi)生習(xí)慣。傳統(tǒng)的手衛(wèi)生動作質(zhì)量評估方法主要依賴于人工觀察和評估,這種方法需要投入大量的人力和資源。因此,基于智能技術(shù)的手衛(wèi)生動作質(zhì)量評估方法的研究變得尤為重要,通過利用智能算法和計(jì)算機(jī)視覺技術(shù),能夠更高效地評估手衛(wèi)生動作的質(zhì)量,從而節(jié)約資源的同時提供準(zhǔn)確的評估結(jié)果,能夠及時提供有效的反饋。
在基于智能方法的手衛(wèi)生動作質(zhì)量的研究中,基于深度學(xué)習(xí)的方法已經(jīng)得到了廣泛應(yīng)用。Llorca 等人[4]利用皮膚顏色和手部運(yùn)動相結(jié)合來分析洗手過程中的手部動作,通過測量用戶在每個姿態(tài)中花費(fèi)的時間來衡量洗手質(zhì)量。Zhong等人[5]應(yīng)用迭代工程過程設(shè)計(jì)了手衛(wèi)生行為檢測系統(tǒng),其使用了動作識別的方式來完成手衛(wèi)生評估任務(wù)。然而上述方法未能直觀地通過分?jǐn)?shù)來反饋出手衛(wèi)生動作質(zhì)量。為了解決上述問題,Li等人[6]在真實(shí)場景下采集了一批高質(zhì)量的手衛(wèi)生視頻,通過細(xì)粒度標(biāo)注,創(chuàng)建了名為HHA300(https://github. com/mmic-lcl/Datasets-andbenchmark-code)的手衛(wèi)生數(shù)據(jù)集。同時他們提出了一個能夠直接輸出預(yù)測得分的算法模型,該模型結(jié)合了動作分割算法,用于提取手衛(wèi)生視頻中的每個步驟的I3D[7]特征片段。此外,他們?yōu)槊總€步驟設(shè)計(jì)了一個專門的打分器,用于評估步驟的質(zhì)量和規(guī)范程度。其研究中還引入了2 個評價指標(biāo),用以衡量手衛(wèi)生動作質(zhì)量評估得分的準(zhǔn)確性。這一綜合方法在實(shí)現(xiàn)動作質(zhì)量評估準(zhǔn)確性的同時,也為手衛(wèi)生行為質(zhì)量提供了客觀可量化的評估方法,為深入的手衛(wèi)生干預(yù)提供了有力支持。盡管他們設(shè)計(jì)的方法可評估分析手衛(wèi)生視頻的動作信息,然而從視頻中提取的融合了RGB 和光流信息的I3D 特征并不敏感于捕獲視頻中的手部運(yùn)動信息。手衛(wèi)生評估涉及細(xì)微動作信息,如手部姿勢、手指移動等,這些動作可能不僅僅通過運(yùn)動模式來表達(dá)。為了更準(zhǔn)確地評估手衛(wèi)生動作的質(zhì)量,本文提出一種基于多源動作信息的手衛(wèi)生動作質(zhì)量評估算法,該算法綜合利用視頻數(shù)據(jù)和差分圖像數(shù)據(jù),著重關(guān)注手衛(wèi)生動作的微妙細(xì)節(jié),從而實(shí)現(xiàn)更為精確的評估。
該算法在分割模塊中,將獲取特征中的每個步驟片段,從而為后續(xù)的評估模塊提供有效的特征信息。在評估模塊中,將差分圖像特征步驟所在片段與視頻的I3D 特征步驟所在片段使用包含交叉注意力機(jī)制的手衛(wèi)生信息解碼器結(jié)合起來,這種綜合的特征表示能夠更好地捕捉到細(xì)微的手部運(yùn)動信息,可以提供更豐富和全面的信息,使評估模型能夠更準(zhǔn)確地理解和評價手衛(wèi)生動作的質(zhì)量。
綜上所述,本文對手衛(wèi)生動作質(zhì)量評估任務(wù)做出的工作有以下3點(diǎn):
1)設(shè)計(jì)一個動作分割模塊,通過精確地對手衛(wèi)生視頻進(jìn)行分割,為后續(xù)的評估模塊提供準(zhǔn)確的定位信息。
2)設(shè)計(jì)一個多源動作信息作為輸入的手衛(wèi)生評估模塊。通過引入差分圖像數(shù)據(jù)作為補(bǔ)充,更好地對手衛(wèi)生動作的細(xì)微運(yùn)動進(jìn)行建模,提高手衛(wèi)生評估的準(zhǔn)確性。
3)以端到端的方式對手衛(wèi)生動作質(zhì)量進(jìn)行評估,有效地提高評估的準(zhǔn)確性和效率。同時在公開數(shù)據(jù)集HHA300上取得了最好的結(jié)果。
近年來,視頻動作分割任務(wù)取得了顯著的進(jìn)展。其中,時域卷積網(wǎng)絡(luò)[8](Temporal Convolutional Network,TCN)在該領(lǐng)域發(fā)揮了重要作用。TCN 結(jié)構(gòu)由擴(kuò)張卷積[9]和因果卷積[10]組成,能夠有效建模復(fù)雜的時間結(jié)構(gòu),實(shí)現(xiàn)時間序列的預(yù)測。Lea 等人[11]首次提出了基于視頻動作分割的TCN,采用編碼器-解碼器架構(gòu),利用TCN 捕捉長期依賴關(guān)系。然而,這種方法可能缺乏動作識別所需的細(xì)粒度信息。Lei 等人[12]在Lea 等人的基礎(chǔ)上將可變形卷積代替普通卷積,同時添加了殘差流,使得性能得到了提升。為了克服細(xì)粒度缺失問題,F(xiàn)arha 等人[13]通過多層堆疊TCN,在全時域分辨率下運(yùn)行模型。Ishikawa 等人[14]使用TCN 網(wǎng)絡(luò)為主干網(wǎng)絡(luò),通過將動作分割網(wǎng)絡(luò)進(jìn)行解耦為動作分類和動作邊界回歸3 大模塊更好地完成動作分割任務(wù)。Wang 等人[15]也采用了TCN 作為主干結(jié)構(gòu),通過級聯(lián)網(wǎng)絡(luò)方式提高動作識別的準(zhǔn)確性,并關(guān)注邊界信息以緩解過度分割問題。
除了TCN,Transformer[16]是另一種在順序性數(shù)據(jù)中具有出色關(guān)系建模能力的模型。Yi等人[17]首次提出了一種有效的分層注意力機(jī)制,用于捕獲幾分鐘長的視頻序列中的依賴關(guān)系,并設(shè)計(jì)了解碼器來優(yōu)化輸出結(jié)果。
近年來大多數(shù)研究都是將動作質(zhì)量評估任務(wù)轉(zhuǎn)換為回歸問題。Pirsiavash 等人[18]將質(zhì)量評估視為監(jiān)督回歸問題,使用離散余弦變換對關(guān)節(jié)軌跡編碼作為輸入特征,通過線性支持向量回歸映射出最終分?jǐn)?shù)?;谝曈X的方法,對視頻中動作評估時,人類的注意力會集中到重要的視頻區(qū)域,Li 等人[19]提出一種基于遞歸神經(jīng)網(wǎng)絡(luò)的空間注意力模型。Parmar 等人[20]收集體育領(lǐng)域的數(shù)據(jù)集,且提出了直接利用C3D[21]提取的視頻特征信息,能夠提升動作質(zhì)量評估算法的性能。Zeng 等人[22]通過利用上下文感知注意力模塊來結(jié)合動態(tài)信息和靜態(tài)信息實(shí)現(xiàn)動作質(zhì)量評估任務(wù)。Yu 等人[23]提出了一個對比回歸框架,通過視頻之間的差異,引導(dǎo)模型進(jìn)行學(xué)習(xí)評估。Xu 等人[24]提出了一個大規(guī)模的花樣滑冰運(yùn)動視頻數(shù)據(jù)集,并設(shè)計(jì)了基于注意力機(jī)制的花樣滑冰動作質(zhì)量評估方法。Xu 等人[25]通過Likert量表[26]設(shè)計(jì)了一種新的評分范式,提出不同等級對評估分?jǐn)?shù)的影響。
本文提出的算法模型是以端到端的方式完成手衛(wèi)生動作質(zhì)量評估,算法流程如圖2 所示,該算法主要分為動作分割模塊、差分圖像特征提取以及評估模塊3個部分。算法的執(zhí)行起始點(diǎn)為動作分割模塊。
圖2 手衛(wèi)生動作質(zhì)量評估算法流程圖
在手衛(wèi)生視頻中,在步驟切換、視頻開始和視頻結(jié)束等時間片段中存在著無關(guān)的動作,如圖3 所示。這些動作對手衛(wèi)生動作質(zhì)量評估結(jié)果有著一定的負(fù)面影響。
圖3 六步洗手法非步驟動作圖
為了準(zhǔn)確地評估手衛(wèi)生動作,本文設(shè)計(jì)一個動作分割模塊提取手衛(wèi)生動作中每個步驟的位置索引,通過這些位置索引可以定位并截取出步驟所在片段。通過這種方法,能夠單獨(dú)針對步驟中的動作進(jìn)行手衛(wèi)生評估,有效避免了無關(guān)動作對評估結(jié)果的噪聲影響。
在本文中,動作分割模塊是基于BCN[15]模型為基本框架進(jìn)行設(shè)計(jì)的。BCN 模型的貢獻(xiàn)主要包括引入級聯(lián)結(jié)構(gòu)思想以及語義邊界信息來提高動作分割的準(zhǔn)確性和穩(wěn)定性。通過引入級聯(lián)結(jié)構(gòu),以時間動態(tài)建模的方式對動作進(jìn)行精細(xì)的建模,從而獲得更可信的結(jié)果,并提高幀級別的識別精度。同時通過將引入的邊界信息與幀預(yù)測進(jìn)行結(jié)合,使得模型能夠識別和關(guān)注動作的邊界位置,從而緩解過度分割的問題。
本文在級聯(lián)結(jié)構(gòu)之前引入ASFormer[17]模型的編碼器部分作為前置模塊,來處理視頻特征?;谧宰⒁饬C(jī)制的編碼器能夠自適應(yīng)地捕捉特征序列中的關(guān)鍵特征和上下文依賴關(guān)系,為后續(xù)的級聯(lián)結(jié)構(gòu)提供更具有豐富性和準(zhǔn)確性的特征表示。
在級聯(lián)結(jié)構(gòu)和融合階段的結(jié)構(gòu)中,本文將其中的TCN 替換為ASFormer 中的解碼器部分。相較于TCN,ASFormer的解碼器包含了交叉注意力層,能夠在時間維度上進(jìn)行更精確的建模,捕捉到不同時間步之間的依賴關(guān)系,并將語義信息進(jìn)行更有效的傳遞和整合,這使得它能夠輸出更準(zhǔn)確和具有語義信息的特征表示。
級聯(lián)結(jié)構(gòu)和融合階段的目的是為了處理較難識別的模糊幀。在每個級聯(lián)階段的輸出中,獲取到每一幀的預(yù)測概率,將其記作為置信度分?jǐn)?shù),同時級聯(lián)階段會通過判斷置信度分?jǐn)?shù)的值來為每一幀分配權(quán)重。公式如下:
在式(1)中,θ是參數(shù),是第i級聯(lián)階段第t幀的置信度分?jǐn)?shù)。通過置信度分?jǐn)?shù)與參數(shù)相比較,來判斷如何通過因子exp()調(diào)整下一階段的權(quán)重。通過這種方式能夠增加模糊幀的置信度分?jǐn)?shù),從而使得模糊幀能夠有精準(zhǔn)的預(yù)測。在所有階段中,只要存在一個階段的置信度分?jǐn)?shù)大于參數(shù),則停止使用因子進(jìn)行調(diào)整權(quán)重。
融合階段的目的是為了降低對單個階段的過度依賴,從而減少可能由于某個階段的誤差或不準(zhǔn)確而引起的幀識別錯誤。在融合階段,將自適應(yīng)組合每個級聯(lián)階段中所有幀的置信度分?jǐn)?shù),以這種方式利用到所有階段的預(yù)測結(jié)果。公式如下:
式(2)中,n為級聯(lián)結(jié)構(gòu)中的階段次數(shù),是融合階段中置信度分?jǐn)?shù),為所有級聯(lián)階段的權(quán)重聚合的結(jié)果。
另外,在BCN 模型中,屏障生成模塊通過利用視頻特征信息以及細(xì)粒度注釋,幫助模型更好地捕捉到動作的邊界信息,用于指導(dǎo)局部屏障池的權(quán)重計(jì)算。局部屏障池利用這些信息來調(diào)整幀的權(quán)重,以改善分割結(jié)果的平滑性,緩解過度分割的問題。在本文模型中保留了這些組件,以緩解分割手衛(wèi)生視頻時過度分割的問題。
幀間差分法是一種常用的計(jì)算機(jī)視覺技術(shù),通過對連續(xù)幀之間的像素值進(jìn)行差分運(yùn)算生成差分圖像,從差分圖像中能夠捕捉到細(xì)微的手部運(yùn)動信息。例如第t幀的圖像Rt的像素值減去第t-1 幀的圖像Rt-1的像素值得到第t幀的差分圖像Tt,公式如下:
在完成手衛(wèi)生的過程中,手部運(yùn)動信息能夠提供手部姿態(tài)的精確度和準(zhǔn)確性,從而在評估過程中能夠判斷手部動作是否符合規(guī)范。本文算法采用了幀間差分法來獲取手衛(wèi)生視頻的差分圖像數(shù)據(jù),捕捉手衛(wèi)生中更為精細(xì)的手部運(yùn)動信息。隨后,使用預(yù)訓(xùn)練的ResNet50[27]特征提取器對差分圖像數(shù)據(jù)進(jìn)行特征提取,從而獲取更具表征性的差分圖像特征ftd。
在處理第一幀圖像時,由于無法與前一幀圖像進(jìn)行差分處理,無法獲取手部的運(yùn)動變化信息。為了解決這個問題,在提取的差分圖像特征中的時間維度的第1 列上添加1 個2048 維的張量,其中所有元素均設(shè)置為0,在保持?jǐn)?shù)據(jù)的一致性的同時,也表示缺失的手部運(yùn)動信息。
手衛(wèi)生動作質(zhì)量評估任務(wù)旨在獲得一個與真實(shí)分?jǐn)?shù)接近的預(yù)測分?jǐn)?shù)。本文采用回歸方法來完成動作質(zhì)量評估,利用差分圖像特征和視頻特征之間的相互依賴性來得出最終的預(yù)測結(jié)果。
本文模型在進(jìn)行評估之前需要對分割結(jié)果進(jìn)行預(yù)篩選。設(shè)定每個步驟的最短時長為10 幀,如果某一步驟的幀數(shù)低于10 幀,則可以判斷發(fā)生了錯誤的分割,該步驟將不進(jìn)行下一步的評估任務(wù),從而減少錯誤的分割結(jié)果對后續(xù)分析和評估的影響。
經(jīng)過預(yù)篩選得到每個步驟的特征片段索引,通過這些索引可以查詢和截取差分圖像特征步驟所在片段和視頻特征步驟所在片段fi。為避免過擬合現(xiàn)象的出現(xiàn),對和fi進(jìn)行最大池化處理得到較少參數(shù)量的差分圖像特征步驟所在片段和視頻特征步驟所在片段f?i。
然后,將f?tdi輸入到雙向長短期記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM),通過正向和反向的傳遞來捕捉上下文關(guān)系,從而提取出步驟i更豐富的動作特征,為手部運(yùn)動信息提供更全面的特征表示。
將差分圖像特征以及視頻特征進(jìn)行一系列處理后,需要對和f?i這2 個特征片段的信息進(jìn)行相關(guān)性建模。通過引入基于交叉注意力機(jī)制的手衛(wèi)生信息解碼器,將和f?i作為輸入,輸出結(jié)果是匯聚了2 個特征片段信息的綜合特征。之后將輸入全連接層完成降維處理。為更靈活地將最終的結(jié)果映射到0~1 之間,引入可學(xué)習(xí)的Sigmoid 激活函數(shù)進(jìn)行處理。最后將輸出結(jié)果取平均值,可以得到步驟評估分?jǐn)?shù)。最終將所有分割出來的步驟評估分?jǐn)?shù)進(jìn)行求和,得到最終的手衛(wèi)生動作質(zhì)量評估結(jié)果。公式如下:
式(4)~式(8)中,MAX 代表最大池化處理,BL 代表BiLSTM,HID 代表手衛(wèi)生信息解碼器,F(xiàn)C 代表全連接層,LS代表可學(xué)習(xí)的Sigmoid激活函數(shù),MEAN代表求平均值,S代表該算法對手衛(wèi)生視頻的評估分?jǐn)?shù)。
手衛(wèi)生信息解碼器是基于交叉注意力機(jī)制設(shè)計(jì)的,可以在不同特征之間建立相關(guān)性并將它們進(jìn)行融合。在本文中,將f?tdi和f?i作為輸入,該解碼器通過交叉注意力機(jī)制對2 個特征片段的信息進(jìn)行關(guān)聯(lián)建模和融合,生成一個包含更豐富和具有表征能力的綜合特征,這種綜合特征不僅包含了2 個特征片段的信息,還考慮了它們之間的相關(guān)性,從而更好地捕捉到手衛(wèi)生動作的更細(xì)微的動態(tài)變化和重要特征。
在手衛(wèi)生信息解碼器中,查詢Q為經(jīng)過全連接層處理之后的,鍵K和值V為經(jīng)過全連接層處理之后的f?i。在計(jì)算查詢與鍵之間的注意力權(quán)重時引入增強(qiáng)內(nèi)積的可學(xué)習(xí)參數(shù),更好地捕捉它們之間的相關(guān)性。之后將注意力權(quán)重應(yīng)用于值,根據(jù)注意力權(quán)重對值進(jìn)行加權(quán)平均,以獲取綜合特征。公式如下:
式(9)~式(10)中,dk代表張量維度,τ為增強(qiáng)內(nèi)積的可學(xué)習(xí)參數(shù),softmax為激活函數(shù),A代表注意力圖。
普通的Sigmoid 激活函數(shù)可以將輸入值映射到0和1 之間,但它的形狀是固定的,無法根據(jù)數(shù)據(jù)的特點(diǎn)和任務(wù)的需求進(jìn)行調(diào)整。因此本文引入更具靈活性的可學(xué)習(xí)的Sigmoid激活函數(shù),公式如下:
其中,ε是可學(xué)習(xí)參數(shù),x為輸入值。
在訓(xùn)練過程中,可學(xué)習(xí)的Sigmoid 激活函數(shù)通過反向傳播算法能夠修改激活函數(shù)的形狀和位置,自適應(yīng)地學(xué)習(xí)到最優(yōu)的參數(shù)值,從而能夠適應(yīng)數(shù)據(jù)的特征和任務(wù)的需求,將輸入值映射到適合的評估分?jǐn)?shù)范圍。這種自適應(yīng)性能夠讓模型更好地適應(yīng)實(shí)際情況。
手衛(wèi)生動作質(zhì)量評估任務(wù)可以被視為多任務(wù)學(xué)習(xí)問題,其中包括動作分割和動作質(zhì)量評估這2 個任務(wù)。通過端到端的方式同時進(jìn)行這2 個任務(wù)的學(xué)習(xí),可以更好地利用它們之間的相關(guān)性和互補(bǔ)性。本文模型的損失函數(shù)也為2 個部分,包括動作分割損失函數(shù)和評估損失函數(shù)。
2.6.1 動作分割損失函數(shù)
對于動作分割損失函數(shù),需要考慮動作的準(zhǔn)確性和平滑性,這樣能夠有效地指導(dǎo)模型在手衛(wèi)生視頻中準(zhǔn)確地劃分動作步驟,并生成具有連貫性的分割結(jié)果。該損失函數(shù)通常由分類損失和平滑損失2 個部分組成。
1)分類損失。
該損失用于確保每個視頻幀被正確分類到對應(yīng)的動作步驟。在動作分割任務(wù)中,視頻序列中每一幀都需要被準(zhǔn)確地分類到相應(yīng)的動作步驟,以實(shí)現(xiàn)準(zhǔn)確的動作分割。幀級分類損失通過比較預(yù)測的動作步驟類別和真實(shí)標(biāo)簽之間的差異來度量分類的準(zhǔn)確性。其計(jì)算公式如下:
式(12)中,T代表視頻長度,yt,c代表類別c在t時刻的概率值。
2)平滑損失。
該損失是為了提高動作分割結(jié)果的平滑性和連續(xù)性而引入的。平滑損失通常基于相鄰幀之間的分割結(jié)果的差異進(jìn)行計(jì)算,以鼓勵模型生成連續(xù)且平滑的分割邊界。通過最小化平滑損失,模型被引導(dǎo)去學(xué)習(xí)生成連貫的分割結(jié)果,使得分割邊界更加平滑且符合實(shí)際動作的連續(xù)性。其計(jì)算公式如下:
式(13)~式(15)中,C代表類別數(shù)量,τ為截?cái)鄵p失函數(shù)的閾值。
對于平滑損失,融合階段和級聯(lián)結(jié)構(gòu)的平滑損失函數(shù)與式(13)相同。對于分類損失,融合階段的分類損失函數(shù)LCLS與式(12)相同,級聯(lián)結(jié)構(gòu)中的分類損失函數(shù)LSC則是根據(jù)每一階段的權(quán)重進(jìn)行調(diào)整,公式如下:
2.6.2 評估損失
對于評估損失,它使用了均方誤差損失,該損失用于衡量預(yù)測值與真實(shí)值之間的差異程度。通過計(jì)算預(yù)測值與真實(shí)值之間的均方誤差,可以量化它們之間的差異,通過最小化均方誤差損失,模型可以學(xué)習(xí)到使預(yù)測值盡可能接近真實(shí)值的參數(shù),從而提高手衛(wèi)生動作質(zhì)量評估的準(zhǔn)確性。其計(jì)算公式如下:
最終的損失函數(shù)為以上提到的動作分割損失和評估損失的組合:
式(18)中λ與μ為不同損失貢獻(xiàn)的參數(shù)。
為了驗(yàn)證算法模型的有效性,本文采用公開數(shù)據(jù)集HHA300 進(jìn)行訓(xùn)練和測試。HHA300 是一個包含真人洗手視頻以及細(xì)粒度標(biāo)注的手衛(wèi)生數(shù)據(jù)集,總共包含301 條視頻,其中226 條用于訓(xùn)練,75 條用于測試。該數(shù)據(jù)集的視頻特征是融合了RGB 和光流信息的I3D 特征,標(biāo)簽則是結(jié)合了逐幀標(biāo)注的動作類別以及專業(yè)人員提供的評估分?jǐn)?shù)。
對于動作分割任務(wù),使用常見的逐幀精度(acc)、編輯距離(edit)和重疊閾值為10%、25%和50%的分段F1 分?jǐn)?shù)(F1@{10,25,50})來反映每一幀動作識別的準(zhǔn)確性以及步驟分割的效果。acc、edit、F1@{10,25,50}的值越大越好。
對于評估任務(wù),本文使用斯皮爾曼等級相關(guān)系數(shù)(ρ)和相對L2 距離[23](R-?2)作為評價指標(biāo),通過這2個評價指標(biāo)來反映手衛(wèi)生動作質(zhì)量評估中的評估性能。ρ的值越大越好,R-?2的值越小越好。公式如下:
式(19)中,pi、qi分別為第i條數(shù)據(jù)的預(yù)測排名分?jǐn)?shù)與真實(shí)排名分?jǐn)?shù),pˉ、qˉ分別為預(yù)測排名分?jǐn)?shù)與真實(shí)排名分?jǐn)?shù)2 組數(shù)據(jù)的平均值。式(20)中,N為數(shù)據(jù)集中視頻樣本數(shù)量,sn、s?n分別表示第n個視頻樣本的真實(shí)分?jǐn)?shù)和預(yù)測分?jǐn)?shù),smax、smin分別代表視頻樣本的最高分和最低分。
在對比實(shí)驗(yàn)中,采用組合模型來驗(yàn)證不同模塊的性能優(yōu)勢。這些模型主要分成2個部分。
一部分為結(jié)合先進(jìn)的動作分割算法和本文設(shè)計(jì)的評估模塊,形成一個組合模型,如BCN+評估模塊。通過對比實(shí)驗(yàn)結(jié)果,表1 顯示本文模型在動作分割任務(wù)的評價指標(biāo)上表現(xiàn)優(yōu)于其他先進(jìn)的動作分割算法。
表1 手衛(wèi)生動作質(zhì)量評估算法對比實(shí)驗(yàn)
另一部分類似于Xu 等人[24]給出的對比實(shí)驗(yàn)方法,采用本文方法中的動作分割模塊與其他評估方法的組合,包括多層感知機(jī)(Multilayer Perceptron,MLP)和長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)。在本文的對比實(shí)驗(yàn)中,使用了2 層的多層感知機(jī)MLP,用于直接映射數(shù)據(jù)特征以生成預(yù)測分?jǐn)?shù)。另外,本文還利用了長短期記憶網(wǎng)絡(luò)LSTM,它可以捕捉特征之間的長期依賴關(guān)系,并將其用于更好地描述特征。在對比實(shí)驗(yàn)中,本文將LSTM 與一個用于回歸任務(wù)的全連接層相連接,以生成預(yù)測分?jǐn)?shù)。通過表1 的結(jié)果分析可知,本文提出的模型在與其他評估方法的對比中,在動作分割任務(wù)方面的編輯距離edit評價指標(biāo)雖然稍低,但acc 和F1@{10,25,50}仍然是最優(yōu)的,這表明模型在捕捉幀級預(yù)測和分割性能方面依然表現(xiàn)出色。此外,在動作質(zhì)量評估任務(wù)中,模型的評價指標(biāo)表現(xiàn)出最優(yōu)的結(jié)果。
3.4.1 動作分割對評估結(jié)果的影響
在手衛(wèi)生動作質(zhì)量評估算法中,通過對步驟進(jìn)行評估可以更精確地衡量每個步驟的質(zhì)量,排除無關(guān)動作的噪聲影響。相比之下,直接評估完整視頻特征可能受到無關(guān)動作的干擾,導(dǎo)致評估結(jié)果的準(zhǔn)確性下降。與直接評估完整視頻特征進(jìn)行對比實(shí)驗(yàn)后,實(shí)驗(yàn)結(jié)果如表2 所示,表明本文的方法在動作質(zhì)量評估的評價指標(biāo)上表現(xiàn)最佳。
表2 手衛(wèi)生動作質(zhì)量評估中評估任務(wù)消融實(shí)驗(yàn)
3.4.2 BiLSTM 對評估結(jié)果的影響
在本文算法中,使用預(yù)訓(xùn)練的ResNet50 特征提取器提取的差分圖像特征經(jīng)過BiLSTM 網(wǎng)絡(luò)處理,是為了充分捕捉時間和空間信息的關(guān)聯(lián)性,并更好地反映手部運(yùn)動的特征信息。這種處理方式可以更全面地考慮手部運(yùn)動的動態(tài)變化和時序關(guān)系。為驗(yàn)證思路,與直接使用差分圖像特征進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2 所示,本文的方法在動作質(zhì)量評估的評價指標(biāo)上取得了更好的性能。
3.4.3 差分圖像對評估結(jié)果的影響
除了使用視頻特征信息外,評估模塊引入了差分圖像特征作為輸入來表達(dá)手部運(yùn)動信息,目的是為了更準(zhǔn)確地捕捉和表達(dá)手部運(yùn)動的動態(tài)信息,從而提高手衛(wèi)生動作質(zhì)量的評估性能。為驗(yàn)證這一思路,與僅使用視頻特征信息進(jìn)行對比實(shí)驗(yàn)后,實(shí)驗(yàn)結(jié)果如表2所示,表明本文的方法在動作質(zhì)量評估的評價指標(biāo)上表現(xiàn)最佳。
3.4.4 可學(xué)習(xí)的Sigmoid函數(shù)對評估結(jié)果的影響
引入可學(xué)習(xí)的Sigmoid函數(shù)是為了增加模型對輸出結(jié)果的靈活性和適應(yīng)性。這種可學(xué)習(xí)的Sigmoid函數(shù)具有可調(diào)節(jié)的參數(shù),通過訓(xùn)練過程進(jìn)行優(yōu)化,可以靈活地調(diào)整函數(shù)的非線性程度和敏感性,從而更好地適應(yīng)手衛(wèi)生動作質(zhì)量評估任務(wù)的復(fù)雜性。為驗(yàn)證引入可學(xué)習(xí)的Sigmoid 函數(shù)的有效性,與使用普通的Sigmoid 函數(shù)進(jìn)行對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2 所示,表明本文方法在動作質(zhì)量評估的評價指標(biāo)上表現(xiàn)最佳。
本文提出了一種基于多源動作信息的手衛(wèi)生動作質(zhì)量評估算法。該算法引入了差分圖像數(shù)據(jù),以更精確地關(guān)注手部微妙的運(yùn)動信息。它通過分析差分圖像特征和視頻特征片段之間的相關(guān)依賴性,來評估手衛(wèi)生動作的質(zhì)量。這一方法可以更全面地捕捉動作的細(xì)節(jié),提高了質(zhì)量評估的準(zhǔn)確性。在實(shí)驗(yàn)中,本文使用了公開數(shù)據(jù)集HHA300 進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文提出的算法在各項(xiàng)評價指標(biāo)上都取得了優(yōu)越的性能。這些結(jié)果驗(yàn)證了該方法的有效性,并表明本文的工作對于手衛(wèi)生評估具有顯著的使用價值。