摘 要:現(xiàn)有基于視覺的坐姿識別方法普遍存在過度采集個體生物信息的問題,在追求高識別精度的同時,未充分考慮個人隱私的保護(hù),從而增加了個人信息泄露的風(fēng)險。針對上述問題,提出了一種在無鏡頭成像環(huán)境下基于層疊特征融合區(qū)域注意力增強(qiáng)的坐姿識別方法。該方法旨在利用無鏡頭成像技術(shù)下的模糊圖像,通過設(shè)計特征融合與銳化模塊,結(jié)合改進(jìn)的級聯(lián)分組注意力機(jī)制,增強(qiáng)了模型對關(guān)鍵特征和細(xì)節(jié)的捕捉能力。同時,采用組合損失函數(shù)優(yōu)化了模型性能。實驗結(jié)果表明,所提方法在自建無鏡頭坐姿數(shù)據(jù)集上,在準(zhǔn)確率、精確度、召回率和F1-score上分別達(dá)到了0.964 77、0.931 96、0.935 27和0.932 46,均高于其他對比方法,有效提升了坐姿識別的隱私保護(hù)性和識別精度。
關(guān)鍵詞:坐姿識別;隱私保護(hù);ResNet;特征融合
中圖分類號:TP391.41"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號:1001-3695(2025)04-040-1262-06
doi: 10.19734/j.issn.1001-3695.2024.06.0252
Privacy protection oriented lensless imaging sitting posture recognition technology
Zhu Binjie, Li Yuqi
(School of Information Science amp; Engineering, Ningbo University, Ningbo Zhejiang 315000, China)
Abstract:Existing vision-based sitting posture recognition methods generally suffer from excessive collection of individual biometric information. While pursuing high recognition accuracy, they fail to fully consider the protection of personal privacy, thereby increasing the risk of personal information leakage. In response to these issues, this paper proposed a sitting posture recognition method based on cascaded feature fusion and regional attention enhancement in a lensless imaging environment. This method aimed to utilize blurred images obtained through lensless imaging technology. By designing a feature fusion and sharpening module combined with an improved cascaded grouped attention mechanism, it enhanced the model’s ability to capture key features and details. Additionally, it employed a composite loss function to optimize model performance. Experimental results demonstrate that the proposed method, when evaluated on a self-constructed lensless sitting posture dataset, achieves an accuracy, precision, recall, and F1-score of 0.964 77, 0.931 96, 0.935 27, and 0.932 46, respectively, surpassing other comparative methods. This effectively enhances both privacy protection and recognition accuracy in sitting posture recognition.
Key words:sitting posture recognition; privacy protection; ResNet; feature fusion
0 引言
隨著智能設(shè)備的普及,人們在日常生活中使用電子產(chǎn)品進(jìn)行工作、學(xué)習(xí)和娛樂的時間更長,讓越來越多的人處于久坐的狀態(tài),久坐中出現(xiàn)異常坐姿的現(xiàn)象也愈發(fā)普遍。長時間坐姿不良可導(dǎo)致近視、腰椎間盤突出或腰椎肌張力、腰椎側(cè)彎、骨盆傾斜和腰椎生理彎曲拉直等疾?。?~3]。因此,識別和糾正不良的坐姿顯得尤為重要。
近年來,傳感器技術(shù)和深度學(xué)習(xí)方法在人體坐姿識別領(lǐng)域取得了重大進(jìn)展?;趥鞲衅鞯姆椒ǎ篐u等人[4]用柔性傳感器、ADC板和FPGA在辦公椅上實現(xiàn)坐姿識別;Yuan等人[5]則設(shè)計壓力傳感器陣列的智能坐墊來識別坐姿。但這些方法使用的傳感器價格昂貴且可能不舒適。為了降低成本,F(xiàn)eng等人[6]用輕量、低成本的RFID標(biāo)簽,通過相位變化識別坐姿,但是需要不斷更新訓(xùn)練集以提高準(zhǔn)確性。相比之下,基于深度學(xué)習(xí)的方法在坐姿識別中表現(xiàn)出更高的識別準(zhǔn)確率和更強(qiáng)的魯棒性,得到的廣泛應(yīng)用。Mu等人[7]用Sobel運算器實時提取坐姿輪廓特征進(jìn)行識別;李麗等人[8]將人體異常坐姿特征和場景特征進(jìn)行關(guān)聯(lián),實現(xiàn)在復(fù)雜環(huán)境中的坐姿檢測,但是很容易受到光照和膚色影響;葉啟朗等人[9]針對坐姿圖像提取人體骨架信息進(jìn)行姿態(tài)估計,在可變換的環(huán)境下對坐姿類別進(jìn)行分類識別。
當(dāng)前基于視覺的坐姿識別方法面臨的主要問題是隱私泄露風(fēng)險。這些方法需要直接捕獲用戶的圖像或視頻,導(dǎo)致用戶的面部、身體輪廓等敏感信息可能被不當(dāng)收集和使用。隨著公眾對隱私保護(hù)的關(guān)注度日益提高,這一問題變得尤為突出。因此,在設(shè)計模型時不僅要考慮其功能,還要考慮保護(hù)視覺隱私的能力。Pan等人[10]研究生成了一個光學(xué)編碼模式的局部二值模式圖,并將其用于圖像分類;他們還采用了帶有掩模的無鏡頭相機(jī)所生成的光學(xué)編碼模式進(jìn)行訓(xùn)練,并基于Transformer的架構(gòu)來進(jìn)行圖像分類任務(wù)[11];Wang等人[12]提出了一種使用編碼光圈視頻的隱私保護(hù)動作識別系統(tǒng)。這些方法計算復(fù)雜且對硬件依賴性強(qiáng),同時隱私保護(hù)效果有待提升。
為了克服上述局限,本文提出了一個面向隱私保護(hù)的無鏡頭坐姿識別RLCNet。該框架利用了無鏡頭成像技術(shù),從根本上避免了直接生成和傳輸用戶可識別圖像的需求,從而在源頭上有效保護(hù)了用戶的隱私信息。為了從無鏡頭圖像中提取出更為關(guān)鍵和魯棒的特征信息,本文設(shè)計了多層級特征融合模塊。該模塊能夠從多個處理層級中提取并整合特征信息,確保了在無鏡頭條件下也能實現(xiàn)準(zhǔn)確的坐姿識別。同時,本文關(guān)注到高頻特征在識別過程中的重要性,特別是它們所包含的關(guān)于物體邊緣、輪廓等關(guān)鍵信息,因此引入了多尺度高頻特征銳化模塊,以增強(qiáng)模型對這些關(guān)鍵信息的捕捉能力。此外,為了提升識別效率和精度,還集成了級聯(lián)分組注意力機(jī)制,使模型能夠自動聚焦于對坐姿識別最為關(guān)鍵的特征區(qū)域。RLCNet通過無鏡頭成像、多層級特征融合、多尺度高頻特征銳化以及級聯(lián)分組注意力機(jī)制等創(chuàng)新技術(shù)的融合應(yīng)用,實現(xiàn)了在不重建圖像的前提下,對坐姿進(jìn)行高效且隱私保護(hù)的識別,為坐姿識別領(lǐng)域提供了一種全新的解決方案。
本文的貢獻(xiàn)如下:a)設(shè)計實現(xiàn)了面向隱私保護(hù)的無鏡頭坐姿識別網(wǎng)絡(luò)RLCNet,并在本文的數(shù)據(jù)集上驗證了其有效性;b)利用多層級特征融合模塊,捕獲不同層級下的特征信息,通過融合這些特征獲得更準(zhǔn)確和可靠的空間信息;c)提出多尺度高頻特征銳化模塊,通過融合不同大小的窗口提取的高頻特征信息銳化圖像中的高頻特征,從而有效地減少噪聲;d)提出CGA-CB注意力機(jī)制,利用級聯(lián)分組注意力機(jī)制使模型關(guān)注更為關(guān)鍵的特征;e)建立了一個包含5 050個圖像、涵蓋8個不良坐姿類別、8個真實背景及多樣拍攝角度的無鏡頭成像不良坐姿數(shù)據(jù)集。
1 構(gòu)建無鏡頭成像的不良坐姿數(shù)據(jù)集
傳統(tǒng)的基于鏡頭的攝影相機(jī)由聚焦鏡頭和放置在鏡頭焦距處的圖像傳感器組成,鏡頭將場景中的光線聚焦到傳感器上,以便場景中的點映射到傳感器上的單個像素。相反,在無鏡頭成像裝置中,用散射元件代替透鏡放置在場景和圖像傳感器之間,每個傳感器像素測量來自場景中廣泛分散點的復(fù)用光,使得傳感器數(shù)據(jù)上的圖像模糊化,從源頭上保護(hù)個人隱私,如圖1所示。
本文先構(gòu)建一個包含日常生活中各種不良坐姿狀態(tài)的數(shù)據(jù)集。為實現(xiàn)這一目標(biāo),本文精心挑選了90名受試者參與坐姿數(shù)據(jù)的采集工作。采集過程中,在8種不同的真實背景(簡單、復(fù)雜)環(huán)境中采集了5 050個圖像,如圖2所示,以模擬人們在不同場景下的坐姿狀態(tài)。同時,為了確保數(shù)據(jù)的多樣性和豐富性,本文收集了圖3中低頭、歪頭、側(cè)坐、趴桌、抱頭、左傾、后仰、右傾這8種不良坐姿類別,涵蓋了人們?nèi)粘I钪锌赡艹霈F(xiàn)的各種不良坐姿變化。
在數(shù)據(jù)收集過程中,特別關(guān)注拍攝角度對結(jié)果可能產(chǎn)生的影響,并據(jù)此采用了多樣化的拍攝角度來進(jìn)行拍攝,以捕捉不同視角下的坐姿特征。經(jīng)過統(tǒng)一的采集流程,成功獲得了包含5 050個圖像的坐姿數(shù)據(jù)集。這一數(shù)據(jù)集不僅涵蓋了不同人群、不同背景、不同角度下的坐姿圖像,而且確保了數(shù)據(jù)的質(zhì)量。
最后利用無鏡頭相機(jī)對該數(shù)據(jù)集進(jìn)行拍攝。使用的無鏡頭相機(jī)由樹莓派5(8G)、雙面膠作為散射元件、傳感器(OV5647,500萬像素)和一個保持?jǐn)z像頭位置的支架組成。本文使用一個1080P的顯示器來顯示坐姿圖像,并將其放置在距離相機(jī)35 cm處以匹配無鏡頭相機(jī)的視野;最后通過輪播圖像完成數(shù)據(jù)集的拍攝,如圖4所示。
2 RLCNet模型
由于無鏡頭成像的圖像無法提供足夠的圖像特征信息,同時還受到噪聲、畸變等干擾,為了充分提取關(guān)鍵特征信息,并有效地融合淺層和深層語義信息,本文提出RLCNet模型。其結(jié)構(gòu)如圖5所示,包含MLFF模塊、FS模塊、CGA-CB注意力機(jī)制。該模型采用ResNet-50[13]模型作為基礎(chǔ)網(wǎng)絡(luò),其中的卷積塊分別稱為stage0、stage1、stage2、stage3和stage4。MLFF模塊提取了stage2、stage3和stage4三層特征分別對其進(jìn)行卷積操作,采用層疊的方式將這些經(jīng)過卷積處理的特征進(jìn)行融合,F(xiàn)S模塊對提取到的特征進(jìn)行銳化處理,同時引入注意力機(jī)制實現(xiàn)更加精準(zhǔn)的特征聚焦和全局信息挖掘。
2.1 多層級特征融合模塊
無鏡頭成像的圖像由于缺少了直接的光學(xué)成像過程,圖像的質(zhì)量和信息量受到了限制。為了從非直觀的無鏡頭數(shù)據(jù)中提取有效特征,本文設(shè)計了多層級特征融合模塊(multi-level feature fusion module,MLFF)。該模塊通過卷積神經(jīng)網(wǎng)絡(luò)(CNN),在不同深度層級上提取特征圖。然后,利用特征融合層,將這些不同層級的特征圖進(jìn)行上采樣、下采樣等操作后進(jìn)行疊加,以實現(xiàn)特征的整合和增強(qiáng)。這樣,模型就能夠從多個尺度上捕捉到豐富的特征信息,提高坐姿識別的準(zhǔn)確性。多層級特征融合模塊的設(shè)計思路是將不同層級、不同尺度的特征進(jìn)行組合,以更全面地捕捉圖像的信息,增強(qiáng)模型對圖像特征的理解和提取能力。
具體來說,MLFF模塊將ResNet50中stage2、stage3和stage4三個不同層級的特征進(jìn)行融合。這種融合操作考慮了從淺層到深層的多種特征,使得模型在特征提取時能夠綜合考慮不同層級的上下文信息,以實現(xiàn)對不同層級特征的融合和整合。這些操作不僅保留了關(guān)鍵特征信息,還減少了特征維度,提高了計算效率。通過MLFF模塊的融合操作,模型能夠更全面地利用各層特征信息,提升其在圖像特征提取方面的能力。此外,該模塊使得淺層網(wǎng)絡(luò)更加接近損失函數(shù),在反向傳播過程中讓淺層網(wǎng)絡(luò)能夠?qū)W習(xí)到更多的梯度信息,這有助于解決ResNet中淺層網(wǎng)絡(luò)學(xué)習(xí)能力差的問題,使得模型在訓(xùn)練過程中能夠充分利用各層網(wǎng)絡(luò)的特征信息,如圖6所示。
淺層網(wǎng)絡(luò)提取的特征圖更側(cè)重于細(xì)節(jié)和紋理,而深層網(wǎng)絡(luò)則更關(guān)注于抽象和全局信息,為了將這些不同尺度的特征圖融合在一起,需要對它們進(jìn)行尺度的調(diào)整,使它們保持在同一個尺度進(jìn)行拼接得到特征圖,計算過程表示為
2.2 多尺度高頻特征銳化模塊
在無鏡頭成像技術(shù)中,由于不依賴傳統(tǒng)的光學(xué)鏡頭來聚焦和導(dǎo)引光線,而是通過散射元件來直接獲取圖像信息,這一過程可能受到多種因素的影響,如光的散射、衍射、環(huán)境干擾等,從而導(dǎo)致圖像噪聲的產(chǎn)生。因此,本文提出一個多尺度高頻特征銳化模塊(feature sharpening module,F(xiàn)S),它通過多尺度分析允許在多個尺度下對圖像進(jìn)行觀察和處理,這種分析方法能夠捕捉到圖像中不同大小的結(jié)構(gòu)和細(xì)節(jié),包括從細(xì)小的邊緣到較大的紋理和形狀;在多尺度分析中,高頻成分通常包含圖像的邊緣、紋理等細(xì)節(jié)信息,但同時也可能包含噪聲。通過在不同尺度下對圖像進(jìn)行分解和重構(gòu),可以更有效地區(qū)分信號(有用信息)和噪聲(無用信息);然后將銳化后的高頻特征與原始特征進(jìn)行融合,以提高模型對坐姿細(xì)節(jié)的捕捉能力。
通過采用特征銳化的方法來減少噪聲對無鏡頭成像圖像的影響。小的卷積核更關(guān)注圖像的局部細(xì)節(jié),但對噪聲也更敏感,大的卷積核能夠考慮更多的上下文信息,對噪聲有一定的平滑作用,但會損失一些細(xì)節(jié),為了獲得不同尺度的特征,本文分別構(gòu)造了四個尺度為5×5、7×7、9×9和11×11的卷積核,以捕獲從細(xì)節(jié)到整體的不同層次特征;在特征提取階段,將這四個不同尺度的卷積核分別應(yīng)用于輸入的特征圖,通過卷積操作使每個卷積核都能從輸入特征圖中提取出對應(yīng)尺度的局部特征,這些特征圖包含了從精細(xì)到粗糙的不同層次信息,為后續(xù)的銳化操作提供了基礎(chǔ);在特征銳化階段,將每個尺度下的卷積結(jié)果與原始特征圖進(jìn)行逐元素相加。這種相加操作不僅保留了原始特征圖中的信息,還通過引入不同尺度的特征來增強(qiáng)對多尺度特征的學(xué)習(xí),如圖8所示。
a)特征銳化。分別構(gòu)造4個尺度為5×5、7×7、9×9和11×11的卷積核,將不同尺度的卷積結(jié)果和原始特征圖進(jìn)行逐元素相加得到,這樣可以在保留原始特征的同時,增強(qiáng)對多尺度特征的學(xué)習(xí)。特征提取計算過程表示為
Xm=Xc+conv2D5×5(Xc)+conv2D7×7(Xc)+conv2D9×9(Xc)+conv2D11×11(Xc)
其中:conv2D表示二維卷積操作;5×5、7×7、9×9和11×11分別表示卷積核大小。
b)特征深度融合。經(jīng)過特征融合和逐元素相加,這種融合后的特征圖既包含了淺層的細(xì)節(jié)信息,也包含了深層的抽象信息,其計算過程為
Xout=conv1×1(Xm)+Xc
2.3 CGA-CB注意力機(jī)制
在無鏡頭成像的坐姿識別任務(wù)中,由于圖像模糊、低分辨率和復(fù)雜背景等因素的影響,模型需要更加精確地關(guān)注人體的關(guān)鍵部位特征,如脊柱彎曲程度、肩膀傾斜角度等,以提高識別的準(zhǔn)確率。為了實現(xiàn)這一目標(biāo),本文引入級聯(lián)分組注意力(cascaded group attention,CGA)機(jī)制[15]并利用CB[16]將其上一層的Q、K、V均值數(shù)據(jù)與下一層結(jié)合進(jìn)行改進(jìn),得到CAG-CB注意力機(jī)制,該機(jī)制結(jié)合了CGA的細(xì)粒度特征提取能力和CB的上下文信息廣播能力。
在CGA的基礎(chǔ)上,引入CB機(jī)制以增強(qiáng)對關(guān)鍵特征和上下文信息的關(guān)注度。先在CGA的各個層級計算該層級Q、K、V的均值數(shù)據(jù),這些數(shù)據(jù)代表了該層級的上下文信息;然后將這些均值數(shù)據(jù)廣播到下一層,與下一層的注意力權(quán)重相結(jié)合。通過這種方式,CB機(jī)制使得模型在關(guān)注細(xì)粒度特征的同時,也能考慮到全局的上下文信息,從而更加準(zhǔn)確地識別坐姿。
隨著數(shù)據(jù)在多層網(wǎng)絡(luò)中的傳遞,輸入分布可能會發(fā)生變化,這可能會導(dǎo)致訓(xùn)練過程中的不穩(wěn)定。通過在上一層計算均值并傳遞給下一層,可以對下一層的輸入進(jìn)行規(guī)范化,從而幫助模型更好地學(xué)習(xí)和收斂。均值信息代表了上一層輸出的一種局部統(tǒng)計特性,通過將其傳遞給下一層,可以為下一層提供額外的上下文信息,幫助下一層的注意力機(jī)制更準(zhǔn)確地定位到關(guān)鍵的信息區(qū)域,從而提高模型的性能。CGA-CB模塊如圖9所示。
2.4 損失函數(shù)
本文采用加權(quán)FocalLoss[17]損失函數(shù)和PolyLoss[18]損失函數(shù)進(jìn)行模型訓(xùn)練。針對特征銳化FS層輸出的S1,利用PolyLoss最大化類間特征距離和最小化類內(nèi)特征距離,這使得模型提取到的特征更具判別性。在坐姿識別中,這意味著模型可以更加精確地捕捉到不同坐姿之間的細(xì)微差別,同時減少同一坐姿內(nèi)部的特征差異,從而達(dá)到銳化特征和去除冗余特征的效果。
3 實驗及結(jié)果分析
坐姿數(shù)據(jù)集資源稀缺,且受到隱私保護(hù),目前在坐姿識別方面缺乏公共開放的數(shù)據(jù)集。本文收集了5 050張圖像,分別包括低頭、歪頭、側(cè)坐等8種坐姿,數(shù)據(jù)不僅包含視角變化,還以真實環(huán)境為背景。為了達(dá)到有效的分類精度,將圖3(a)~(h)8種坐姿類別分別標(biāo)記為0、1、2、…、7。為了提高樣本數(shù)量和樣本多樣性,采用隨機(jī)裁剪的方式進(jìn)行數(shù)據(jù)增強(qiáng)。實驗中選取80%的數(shù)據(jù)集為訓(xùn)練集,20%為測試集,圖片的大小全部調(diào)整為224×224像素。本文實驗的計算機(jī)硬件環(huán)境配置處理器英特爾酷睿i512400F,顯卡NVIDIA RTX3060;所有實驗?zāi)P投荚赑yTorch 1.12.1中實現(xiàn),采用AdamW優(yōu)化算法,參數(shù)設(shè)置學(xué)習(xí)率為 0.001,batch_size設(shè)置為64,num_workers設(shè)置為4。
3.1 評價指標(biāo)
本文選擇accuracy、precision、recall、F1-score和混淆矩陣作為評價指標(biāo)。accuracy表示在多分類任務(wù)中正確預(yù)測一個類別的概率,一個類別被選擇為正類別,其余的類別為負(fù)類別;precision表示預(yù)測為正類的樣本比例;recall表示實際上是正類的樣本被正確預(yù)測的概率;F1-score是一個同時考慮precision和recall的綜合指標(biāo)。
其中:TP是被模型預(yù)測為正類的正樣本數(shù)量;TN是被模型預(yù)測為負(fù)類的負(fù)樣本數(shù)量;FP是被模型預(yù)測為正類的負(fù)樣本數(shù)量;FN是被模型預(yù)測為負(fù)類的正樣本數(shù)量。
3.2 對比實驗
表1展示了本文方法在自建數(shù)據(jù)集上與其他現(xiàn)有先進(jìn)方法的對比實驗結(jié)果。Swin-Transformer通過層級化的設(shè)計和翻轉(zhuǎn)窗口并引入自注意力機(jī)制提高模型的識別能力,Vgg19具有較深的網(wǎng)絡(luò)結(jié)構(gòu),能夠?qū)W習(xí)復(fù)雜的圖像特征,但是兩者由于缺少殘差結(jié)構(gòu),在處理本任務(wù)時面臨梯度消失或梯度爆炸的問題,導(dǎo)致模型難以收斂到最優(yōu)解。InceptionNeXt和RepVGG采用了多分支結(jié)構(gòu)來豐富特征信息,但是缺乏相應(yīng)的注意力機(jī)制。EfficientNet_v2通過優(yōu)化網(wǎng)絡(luò)深度和寬度等參數(shù),實現(xiàn)了高效的特征提??;而EfficientViT則結(jié)合了Transformer的自注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的局部感受野優(yōu)勢,進(jìn)一步提升了模型性能;但是它們沒有同時考慮上下文信息和全局信息。本文提出的層疊特征融合區(qū)域注意力增強(qiáng)方法(RLCNet),使用多層級特征融合捕捉豐富的特征信息,使用多尺度高頻特征銳化提高模型的細(xì)節(jié)捕捉能力,最后融合CGA-CB注意力機(jī)制的模型在關(guān)注細(xì)粒度特征的同時,也能考慮到全局的上下文信息。
相比之下,本文RLCNet模型在各項指標(biāo)上都具有良好的性能,提取的特征信息包含全面的特征信息,識別準(zhǔn)確率達(dá)到96.477%,分別比其他模型高出2.981、69.377、2.71、4.01、7.317和69.377百分點,與其他六種算法模型相比,模型在提取和識別特征時更加精確,具有更高的分類準(zhǔn)確性。
3.3 消融實驗
為了驗證RLCNet各模塊的有效性,對模型進(jìn)行了消融實驗,評估不同模塊對性能的影響。為了公平比較,所有消融模型均以相同的設(shè)置進(jìn)行訓(xùn)練,結(jié)果列于表2。
從表2可以看出:a)ResNet50模型在原始圖像上達(dá)到了99.458%的識別準(zhǔn)確率,而在無鏡頭圖像上降到了91.328%,表明無鏡頭成像技術(shù)通過使用散射元件代替?zhèn)鹘y(tǒng)透鏡,有效地提供了隱私保護(hù)的能力,但這種方式形成的模糊圖像也不可避免地導(dǎo)致了圖像質(zhì)量的顯著下降,對于坐姿識別產(chǎn)生了很大的影響;b)在對ResNet50添加MLFF模塊后識別正確率從91.328%提升到了92.954%,說明MLFF有效地提高了不同層次的特征信息提取能力,其原因在于該操作充分考慮了從淺層到深層的語義信息;同時該支路設(shè)計使得淺層網(wǎng)絡(luò)更加接近loss,在反向傳播過程中,淺層網(wǎng)絡(luò)能夠?qū)W習(xí)到更多的梯度信息;c)添加FS模塊后提升到了94.58%,主要歸因于FS模塊能夠有效地增強(qiáng)關(guān)鍵特征,同時在一定程度上抑制噪聲;d)繼續(xù)添加CGA-CB模塊識別正確率提升到了95.664%,表明CGA-CB對于關(guān)鍵特征提取起到了作用;e)在使用組合loss后的RLCNet,無鏡頭圖像的96.477%準(zhǔn)確率進(jìn)一步提升,同時對于原始圖像也達(dá)到了100%的準(zhǔn)確率,證明了模型對于坐姿任務(wù)有著很好的性能。
為了進(jìn)一步展示CGA-CB注意力機(jī)制的有效性,使用t-SNE在二維空間上進(jìn)行可視化。如圖10所示,不同顏色代表不同的坐姿類型(見電子版)。在基線上有一定的聚類效果,但是在加入特征融合模塊和特征銳化模塊后分類邊界變得模糊,其原因在于特征融合模塊通過求和、連接方式將不同層級的特征進(jìn)行整合這個過程不是最優(yōu)的,它導(dǎo)致關(guān)鍵信息的丟失或冗余信息的增加,從而影響分類邊界的清晰度,同時銳化操作也會導(dǎo)致部分噪聲被增強(qiáng),因此引入CGA-CB注意力機(jī)制是很有必要的。在引入CGA-CB注意力機(jī)制后,模型能夠聚焦于更具辨別力的特征,這些特征在數(shù)據(jù)表示上起到了關(guān)鍵作用,有助于區(qū)分不同的坐姿類型。因此,在通過t-SNE(t-distributed stochastic neighbor embedding)算法將高維特征投影到二維空間進(jìn)行可視化時,本文可以看到各類別之間的間隔得到了顯著的擴(kuò)大。這種間隔的擴(kuò)大直接反映了在特征空間內(nèi)不同坐姿類型之間的區(qū)分度增強(qiáng),從而提高了模型的分類性能。這種改善不僅體現(xiàn)在視覺上的類間隔增大,更體現(xiàn)在模型對坐姿類型分類準(zhǔn)確率的提升上,充分驗證了CGA-CB注意力機(jī)制的有效性。
3.4 現(xiàn)實場景
為了系統(tǒng)評估RLCNet在現(xiàn)實應(yīng)用中的表現(xiàn),本文采用無鏡頭相機(jī)在多個實際場景中進(jìn)行了實景拍攝,構(gòu)建了一個包含8種不同坐姿、共計240張圖片的數(shù)據(jù)集,如圖11所示。通過在這一真實世界數(shù)據(jù)集上進(jìn)行的測試,本文旨在驗證基于屏幕上拍攝數(shù)據(jù)訓(xùn)練的RLCNet模型的魯棒性和泛化能力,而不進(jìn)行任何形式的微調(diào)。值得注意的是,由于兩個數(shù)據(jù)集之間存在的光照條件差異,所有模型的識別精度均受到了一定程度的挑戰(zhàn)。然而,即便如此,RLCNet在該數(shù)據(jù)集上依然取得了92.141%的識別準(zhǔn)確率,如表3所示,這一結(jié)果不僅令人滿意,而且顯著優(yōu)于其他對比模型。因此,本研究充分證明了利用屏幕數(shù)據(jù)集訓(xùn)練的RLCNet模型能夠有效擴(kuò)展到真實環(huán)境中,顯著簡化了模型的訓(xùn)練過程,為相關(guān)領(lǐng)域的實際應(yīng)用提供了有力的技術(shù)支撐。
混淆矩陣(圖12)展現(xiàn)了一個多維度的評估視角,不僅揭示了模型在各類坐姿分類上的精度分布,還隱含了不同坐姿類別間的辨識難度與潛在混淆因素。具體而言,矩陣中沿對角線的高亮區(qū)域,即側(cè)坐、趴桌、后仰等坐姿類別的高預(yù)測準(zhǔn)確率,強(qiáng)有力地證明了RLCNet模型在處理這些具有顯著特征差異的坐姿時,展現(xiàn)出了高度的識別信心與優(yōu)異的分類能力。這一表現(xiàn)不僅體現(xiàn)了模型特征提取與模式識別的有效性,也驗證了所設(shè)計網(wǎng)絡(luò)架構(gòu)及訓(xùn)練策略在復(fù)雜坐姿識別任務(wù)中的適用性。
然而,值得注意的是,混淆矩陣中右傾、歪頭與左傾等坐姿之間準(zhǔn)確率相對較低;從圖11可以看到,這些類別的坐姿在特征空間中具有很高的相似性,導(dǎo)致模型在決策邊界處出現(xiàn)了混淆,進(jìn)而產(chǎn)生了分類誤差。
4 結(jié)束語
無鏡頭成像技術(shù)有效避免了直接捕捉個體形象,顯著降低了個人信息泄露的風(fēng)險,但是由于減少了直接的光學(xué)成像環(huán)節(jié),圖像往往變得模糊使,得精確識別個體特征變得異常困難。本文提出了一種基于層疊特征融合區(qū)域注意力增強(qiáng)的坐姿識別方法。該方法通過MLFF、FS和CGA-CB模塊,實現(xiàn)對坐姿區(qū)域的精準(zhǔn)聚焦和全局特征的深度挖掘,從而顯著提高無鏡頭圖像的坐姿識別準(zhǔn)確率,進(jìn)而達(dá)到隱私保護(hù)的目的。下一步工作要進(jìn)一步研究提高模型算法效率,期望能夠在提高模型識別速度的同時提高識別準(zhǔn)確率,將其應(yīng)用到人們的生活中,進(jìn)一步探索更具普適性的無鏡頭成像識別網(wǎng)絡(luò)模型。
參考文獻(xiàn):
[1]Wang Huaijun, Zhao Jing, Li Junhuai, et al. The sitting posture monitoring method based on notch sensor [C]//Proc of IEEE International Conference on Industrial Internet. Piscataway,NJ:IEEE Press, 2019: 301-302.
[2]O’Sullivan K, Verschueren S, Van Hoof W, et al. Lumbar repositio-ning error in sitting: healthy controls versus people with sitting-related non-specific chronic low back pain (flexion pattern)[J]. Manual Therapy, 2013, 18(6): 526-532.
[3]Ma Sangyong, Cho W H, Quan Cheng Hao, et al. A sitting posture recognition system based on 3 axis accelerometer [C]//Proc of IEEE Conference on Computational Intelligence in Bioinformatics and Computational Biology. Piscataway,NJ:IEEE Press, 2016: 1-3.
[4]Hu Qisong, Tang Xiaochen, Tang Wei. A smart chair sitting posture recognition system using flex sensors and FPGA implemented artificial neural network[J]. IEEE Sensors Journal, 2020, 20(14): 8007-8016.
[5]Yuan Liangqi, Li Jia. Smart cushion based on pressure sensor array for human sitting posture recognition [C]//Proc of IEEE Sensors. Piscataway,NJ:IEEE Press, 2021: 1-4.
[6]Feng Lin, Li Ziyi, Liu Chen, et al. SitR: sitting posture recognition using RF signals[J]. IEEE Internet of Things Journal, 2020, 7(12): 11492-11504.
[7]Mu Lan, Li Ke, Wu Chunhong. A sitting posture surveillance system based on image processing technology [C]//Proc of the 2nd International Conference on Computer Engineering and Technology. Pisca-taway,NJ:IEEE Press, 2010: V1-692-V1-695.
[8]李麗, 張榮芬, 劉宇紅, 等. 基于多尺度注意力機(jī)制的高分辨率網(wǎng)絡(luò)人體姿態(tài)估計 [J]. 計算機(jī)應(yīng)用研究, 2022, 39(11): 3487-3491,3497. (Li Li, Zhang Rongfen, Liu Yuhong, et al. High resolution network human pose estimation based on multi-scale attention mechanism [J]. Application Research of Computers, 2022, 39 (11): 3487-3491,3497.)
[9]葉啟朗, 李戴薪, 南海. 一種基于人體骨架的任意角度坐姿識別方法 [J]. 計算機(jī)應(yīng)用研究, 2023, 40(11): 3509-3514. (Ye Qilang, Li Daixin, Nan Hai. Arbitrary angle sitting posture recognition based on human skeleton [J]. Application Research of Computers, 2023, 40 (11): 3509-3514.)
[10]Pan Xiuxi, Nakamura T, Chen Xiao, et al. Lensless inference camera: incoherent object recognition through a thin mask with LBP map generation[J]. Optics Express, 2021, 29(7): 9758-9771.
[11]Pan Xiuxi, Chen Xiao, Nakamura T, et al. Incoherent reconstruction-free object recognition with mask-based lensless optics and the transformer[J]. Optics Express, 2021, 29(23): 37962-37978.
[12]Wang Z W, Vineet V, Pittaluga F, et al. Privacy-preserving action recognition using coded aperture videos [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2019:1-10.
[13]He Kaming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2016: 770-778.
[14]Wang C Y, Yeh I H, Liao H Y M. YOLOv9: learning what you want to learn using programmable gradient information[EB/OL]. (2024). https://arxiv.org/abs/2402.13616.
[15]Liu Xinyu, Peng Houwen, Zheng Ningxin, et al. EfficientViT: me-mory efficient vision transformer with cascaded group attention [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recog-nition. 2023: 14420-14430.
[16]Hyeon-Woo N, Yu-Ji K, Heo B, et al. Scratching visual Transformer’s back with uniform attention [C]// Proc of IEEE/CVF International Conference on Computer Vision. 2023: 5807-5818.
[17]Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection [C]// Proc of IEEE International Conference on Computer Vision. 2017: 2980-2988.
[18]Leng Zhaoqi, Tan Mingxing, Liu Chenxi, et al. PolyLoss: a polynomial expansion perspective of classification loss functions[EB/OL]. (2022).https://arxiv.org/abs/2204.12511.
[19]Tan Mingxing, Le Q. EfficientNet: rethinking model scaling for con-volutional neural networks [C]//Proc of International Conference on Machine Learning. 2019: 6105-6114.
[20]Liu Ze, Lin Yutong, Cao Yue, et al. Swin Transformer: hierarchical vision transformer using shifted windows [C]// Proc of IEEE/CVF International Conference on Computer Vision. 2021: 10012-10022.
[21]Yu Weihao, Zhou Pan, Yan Shuicheng, et al. InceptionNexT: when inception meets convnext [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 5672-5683.
[22]Ding Xiaohan, Zhang Xiangyu, Ma Ningning, et al. RepVgg: making vgg-style convnets great again [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 13733-13742.
[23]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2014).https://arxiv.org/abs/1409.1556.