基于改進(jìn)單點(diǎn)多盒檢測(cè)器的麻醉復(fù)蘇目標(biāo)檢測(cè)方法

2024-01-09 02:48:10羅榮昊程志友汪傳建劉思乾汪真天

計(jì)算機(jī)應(yīng)用 2023年12期

羅榮昊，程志友，汪傳建，劉思乾，汪真天

羅榮昊，程志友，汪傳建*，劉思乾，汪真天

（安徽大學(xué) 互聯(lián)網(wǎng)學(xué)院，合肥 230039）（?通信作者電子郵箱wcj_si@ahu.edu.cn）

麻醉復(fù)蘇目標(biāo)檢測(cè)模型常被用于幫助醫(yī)護(hù)人員檢測(cè)麻醉病人的復(fù)蘇。病人復(fù)蘇時(shí)面部動(dòng)作的目標(biāo)較小且幅度不明顯，而現(xiàn)有的單點(diǎn)多盒檢測(cè)器（SSD）難以準(zhǔn)確實(shí)時(shí)地檢測(cè)病人的面部微動(dòng)作特征。針對(duì)原有模型檢測(cè)速度低、容易出現(xiàn)漏檢的問(wèn)題，提出一種基于改進(jìn)SSD的麻醉復(fù)蘇目標(biāo)檢測(cè)方法。首先，將原始SSD的主干網(wǎng)絡(luò)VGG（Visual Geometry Group）16更換為輕量級(jí)的主干網(wǎng)絡(luò)MobileNetV2，并把標(biāo)準(zhǔn)卷積替換成深度可分離卷積；同時(shí)，通過(guò)對(duì)病人照片的特征提取采用先升維再降維的計(jì)算方式減少計(jì)算量，從而提高模型的檢測(cè)速度；其次，將SSD提取的不同尺度特征層中融入坐標(biāo)注意力（CA）機(jī)制，并通過(guò)對(duì)通道和位置信息加權(quán)的方式提升特征圖提取關(guān)鍵信息的能力，優(yōu)化網(wǎng)絡(luò)的定位分類表現(xiàn)；最后，閉眼數(shù)據(jù)集CEW（Closed Eyes in the Wild）、自然標(biāo)記人臉數(shù)據(jù)集LFW（Labeled Faces in the Wild）和醫(yī)院麻醉病患面部數(shù)據(jù)集HAPF（Hospital Anesthesia Patient Facial）這3個(gè)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，所提模型的平均精度均值（mAP）達(dá)到了95.23%，檢測(cè)照片的速度為每秒24幀，相較于原始SSD模型的mAP提升了1.39個(gè)百分點(diǎn)，檢測(cè)速度提升了140%。因此，所提模型在麻醉復(fù)蘇檢測(cè)中具有實(shí)時(shí)準(zhǔn)確檢測(cè)的效果，能夠輔助醫(yī)護(hù)人員進(jìn)行蘇醒判定。

麻醉復(fù)蘇；面部特征識(shí)別；單點(diǎn)多盒檢測(cè)器；MobileNetV2；注意力機(jī)制

0 引言

麻醉復(fù)蘇室（PostAnesthesia Care Unit， PACU）是為全麻手術(shù)患者從麻醉狀態(tài)到完全意識(shí)清醒提供相關(guān)護(hù)理監(jiān)測(cè)操作的場(chǎng)所。目前多數(shù)醫(yī)院的全麻患者術(shù)后多轉(zhuǎn)入PACU，在此進(jìn)行拔管、復(fù)蘇等護(hù)理操作的同時(shí)被嚴(yán)密監(jiān)測(cè)生命體征，需要投入大量的人力物力。由于麻醉藥物的作用，全麻手術(shù)后處于蘇醒監(jiān)測(cè)期的病人會(huì)感到不適，加上身體機(jī)能未能恢復(fù)完全，很容易造成循環(huán)和呼吸系統(tǒng)的并發(fā)癥問(wèn)題，對(duì)術(shù)后恢復(fù)產(chǎn)生不良影響。麻醉或手術(shù)都會(huì)對(duì)患者產(chǎn)生生理功能上的障礙，特別是較高的手術(shù)侵入性會(huì)導(dǎo)致較高程度的應(yīng)激反應(yīng)，這與術(shù)后麻醉并發(fā)癥相關(guān)［1-4］。手術(shù)后并發(fā)癥會(huì)使病人的復(fù)蘇質(zhì)量惡化，同時(shí)給醫(yī)院增加負(fù)擔(dān)［5-7］。郭清厚等［8］指出，對(duì)PACU的病人采取有效的管理辦法能夠提前發(fā)現(xiàn)手術(shù)和麻醉相關(guān)并發(fā)癥，促進(jìn)麻醉復(fù)蘇。

現(xiàn)階段麻醉復(fù)蘇監(jiān)測(cè)主要依靠有經(jīng)驗(yàn)的專業(yè)護(hù)士定期監(jiān)視病人的身體狀態(tài)。隨著醫(yī)學(xué)技術(shù)的發(fā)展和外科手術(shù)適應(yīng)癥范圍的擴(kuò)大，人們對(duì)手術(shù)治療的需求日益增長(zhǎng)；但由于醫(yī)療資源緊張、人力監(jiān)控主觀性較強(qiáng)、專業(yè)性要求高等原因，傳統(tǒng)監(jiān)測(cè)方法容易產(chǎn)生疏忽誤判等情況，耗時(shí)且效率低，在當(dāng)前復(fù)雜繁多的復(fù)蘇室環(huán)境已無(wú)法滿足醫(yī)院的需求。

麻醉病人蘇醒的前兆特征有睜眼、張口和吞咽等微動(dòng)作，可以由攝像機(jī)采集病人的面部圖像，通過(guò)檢測(cè)病人的眨眼、嘴巴開(kāi)合判斷病人是否屬于蘇醒狀態(tài)。Soukupová等［9］提出眼睛縱橫比（Eye Aspect Ratio， EAR）的概念，通過(guò)定位眼睛的12個(gè)關(guān)鍵點(diǎn)計(jì)算縱橫比，設(shè)定一個(gè)閾值判定眼睛的狀態(tài)。Nousias等［10］采用DeepLabv3+分割采集圖像中的雙眼虹膜和眼瞼，計(jì)算每只眼睛的眼瞼之間的距離和相應(yīng)的虹膜直徑，然后經(jīng)過(guò)自適應(yīng)閾值處理，識(shí)別眨眼并確定它的類型。De La Cruz等［11］提出一種基于長(zhǎng)期遞歸卷積網(wǎng)絡(luò)的眨眼檢測(cè)方法Eye LRCN（Eye Long-term Recurrent Convolutional Network），采用卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）對(duì)眼睛圖像提取特征，結(jié)合雙向遞歸神經(jīng)網(wǎng)絡(luò)執(zhí)行序列學(xué)習(xí)和眨眼檢測(cè)。Chen等［12］通過(guò)多任務(wù)級(jí)聯(lián)CNN（Multi-Task CNN，MTCNN）實(shí)現(xiàn)人臉關(guān)鍵點(diǎn)的定位，再用VGG（Visual Geometry Group）16進(jìn)行眼睛狀態(tài)的分類識(shí)別。 Wang等［13］通過(guò)深度CNN（Deep CNN， DCNN）提取眼睛的虹膜和瞳孔像素，再用結(jié)合了Unet和Squeezenet特點(diǎn)的像素級(jí)高效CNN進(jìn)行分類。Prinsen等［14］使用基于區(qū)域的更快CNN（Faster Region-based CNN，F(xiàn)aster R-CNN）算法對(duì)預(yù)先訓(xùn)練的殘差網(wǎng)絡(luò)（Residual Network，ResNet）進(jìn)行微調(diào)，再用CNN定位評(píng)估兒童的眼睛圖像。以上方法盡管有不錯(cuò)的效果，但大多數(shù)方法網(wǎng)絡(luò)模型較大、檢測(cè)速度較慢，不符合麻醉病人復(fù)蘇這一應(yīng)用場(chǎng)景。

針對(duì)麻醉病人復(fù)蘇檢測(cè)的具體問(wèn)題，方法的時(shí)效性和準(zhǔn)確度是關(guān)鍵。本文提出一種基于改進(jìn)單點(diǎn)多盒檢測(cè)器（Single Shot multibox Detector， SSD）［15］的麻醉復(fù)蘇目標(biāo)檢測(cè)方法。本文采用基礎(chǔ)模型SSD檢測(cè)麻醉病人面部微動(dòng)作變化，即通過(guò)檢測(cè)病人的眼睛睜閉、嘴巴開(kāi)合判定病人是否有自我蘇醒意識(shí)；由于實(shí)際檢測(cè)的圖像中可能存在特征圖像尺度較小、背景復(fù)雜等因素，本文改進(jìn)SSD，更換了輕量級(jí)的主干網(wǎng)絡(luò)，融合了注意力模塊，在降低計(jì)算量、維持高效、準(zhǔn)確的前提下，提高檢測(cè)精度。

1 SSD結(jié)構(gòu)

SSD是經(jīng)典的多尺度單目標(biāo)檢測(cè)算法模型，用VGG［16］作為主干特征提取網(wǎng)絡(luò)，SSD的結(jié)構(gòu)如圖1所示。SSD通過(guò)主干網(wǎng)絡(luò)抽取6張從大到小的特征圖，預(yù)先在每個(gè)尺度的特征圖上設(shè)置不同長(zhǎng)寬比的錨框，根據(jù)不同尺度的物體大小（小目標(biāo)對(duì)應(yīng)淺層特征圖、大目標(biāo)對(duì)應(yīng)深度特征圖）進(jìn)行檢測(cè)，并使用自定義的非極大抑制（Non-Maximum Suppression，NMS）去除重復(fù)的預(yù)測(cè)框，保留最好的結(jié)果。SSD是最早采用淺層網(wǎng)絡(luò)探測(cè)小目標(biāo)、深度網(wǎng)絡(luò)探測(cè)大目標(biāo)的多尺度預(yù)測(cè)方法。淺層網(wǎng)絡(luò)雖然幾何信息豐富，定位也較準(zhǔn)確，但感受野小，表達(dá)語(yǔ)義信息的能力不強(qiáng)；深度網(wǎng)絡(luò)的感受野更大，語(yǔ)義信息豐富，但分辨率較低，顯示幾何信息的能力更弱，所以SSD在實(shí)際檢測(cè)時(shí)會(huì)出現(xiàn)較嚴(yán)重的遺漏、錯(cuò)誤現(xiàn)象。另外，SSD作為一種單階段的深度學(xué)習(xí)目標(biāo)檢測(cè)算法，在高精確度的情況下檢測(cè)速度也較高，但是模型參數(shù)量大，對(duì)硬件算力要求高，在麻醉復(fù)蘇檢測(cè)的應(yīng)用中不滿足實(shí)時(shí)性的要求。

2 改進(jìn)SSD

為了改善SSD存在復(fù)雜目標(biāo)檢測(cè)困難、定位不準(zhǔn)確的問(wèn)題，進(jìn)一步提高SSD的檢測(cè)速度以滿足麻醉復(fù)蘇檢測(cè)的需求，首先將主干網(wǎng)絡(luò)VGG替換成輕量級(jí)網(wǎng)絡(luò)MobileNetV2［17］，在不降低精確度的前提下，極大地減少參數(shù)量和運(yùn)算量，提升檢測(cè)速度；其次在原始的模型中融入了注意力機(jī)制模塊，將SSD提取的6個(gè)尺度不同的特征層輸入注意力機(jī)制模型，增強(qiáng)特征圖提取關(guān)鍵信息的能力，優(yōu)化網(wǎng)絡(luò)定位分類的表現(xiàn)。改進(jìn)后的SSD的結(jié)構(gòu)如圖2所示。

2.1　主干網(wǎng)絡(luò)替換

使用MobileNetV2替換SSD主干網(wǎng)絡(luò)VGG，通過(guò)對(duì)比目標(biāo)大小與檢測(cè)單元大小，調(diào)整主干網(wǎng)絡(luò)特征抽取層的大小，由原本的38×38改為19×19，通道數(shù)減少至96，在不降低精確度的情況下減少了計(jì)算量。MobileNetV2采用線性激活函數(shù)（Linear）避免特征丟失，同時(shí)堆疊基于深度可分離的卷積塊即將通道、空間相關(guān)性完全分離，用深度可分離卷積代替?zhèn)鹘y(tǒng)卷積，對(duì)輸入的特征圖先進(jìn)行升維，使用卷積得到更多的特征信息，再降維輸出。圖3為MobileNetV2的卷積結(jié)構(gòu)。

圖2　改進(jìn)的SSD結(jié)構(gòu)

圖3　MobileNetV2卷積結(jié)構(gòu)

由于MobileNetv2結(jié)構(gòu)采用了大量的深度可分離卷積結(jié)構(gòu)提取特征，對(duì)模型的精確度影響較小且參數(shù)量較少，使計(jì)算量下降明顯，因此，更換模型的主干網(wǎng)絡(luò)不僅保證了精確度，也提升了計(jì)算速度，符合麻醉復(fù)蘇實(shí)時(shí)檢測(cè)的條件。

2.2　深度可分離卷積

深度可分離卷積主要將傳統(tǒng)卷積提取特征的運(yùn)算過(guò)程替換為逐通道卷積（DepthWise convolution，DW）和逐點(diǎn)卷積（PointWise convolution，PW），聯(lián)合這兩個(gè)部分進(jìn)行語(yǔ)義特征提取。結(jié)構(gòu)如圖4所示。

圖4　深度可分離卷積

傳統(tǒng)卷積的參數(shù)量為：

深度可分離卷積的參數(shù)量為：

其中：為卷積核的長(zhǎng)和寬，為輸入的通道數(shù)，為卷積核的具體個(gè)數(shù)。

以RGB 3通道的一個(gè)圖像為例，經(jīng)過(guò)一個(gè)卷積層輸出4個(gè)特征圖，它們的大小與輸入圖像一樣；再計(jì)算傳統(tǒng)卷積的卷積層參數(shù)為108，替換為深度可分離卷積參數(shù)量為39，約為原來(lái)的1/3。減少深度可分離卷積的參數(shù)量，極大地降低了計(jì)算量，從而提高了模型特征檢測(cè)的速度。

2.3　注意力機(jī)制引入

人類視覺(jué)的本能特性就是看到物體的時(shí)候，不自覺(jué)地會(huì)將注意力放置在關(guān)鍵信息上，同時(shí)忽略其他信息。這種注意力的機(jī)制會(huì)提高提取特征的效率，而計(jì)算機(jī)視覺(jué)想要模擬人類視覺(jué)的這種能力就需要引入注意力機(jī)制。注意力機(jī)制的核心是讓網(wǎng)絡(luò)聚焦到更需要關(guān)注的地方。面對(duì)圖像處理任務(wù)，使CNN自適應(yīng)地注意重要的物體是關(guān)鍵。

根據(jù)加權(quán)的方式不同，注意力機(jī)制通?？煞譃榭臻g域注意力、通道域注意力和混合域注意力等。擠壓-激勵(lì)網(wǎng)絡(luò)（Squeezeand-Excitation Network， SE-Net）［18］是一種通過(guò)對(duì)各通道分別進(jìn)行全局平均池化計(jì)算各通道重要性，并賦予不同權(quán)重的常用通道域注意力機(jī)制。高效通道注意力的DCNN（Efficient Channel Attention for deep convolutional neural Network， ECA-Net）［19］是SE-Net的改進(jìn)版，通過(guò)使用一維卷積替代原SE-Net模塊中的全連接層，減少計(jì)算量和運(yùn)算量，提高跨通道互動(dòng)的覆蓋率。通道注意力對(duì)提升模型的效果顯著，但通常忽略了產(chǎn)生空間選擇性注意力圖像的位置信息。

坐標(biāo)注意力（Coordinate Attention， CA）機(jī)制［20］是一種將位置信息嵌入通道注意力的移動(dòng)網(wǎng)絡(luò)注意力機(jī)制。它使移動(dòng)網(wǎng)絡(luò)在增加感受野的前提下，避免了一大筆計(jì)算開(kāi)銷。CA模塊的結(jié)構(gòu)如圖5所示。

圖5　CA模塊的結(jié)構(gòu)

CA將通道注意力分解為沿寬度和高度兩個(gè)方向分別進(jìn)行全局池化，獲得在寬度和高度兩個(gè)方向的特征圖，優(yōu)點(diǎn)是可以沿著一個(gè)空間方向捕獲長(zhǎng)程依賴，沿著另一個(gè)空間方向保留精確的位置信息。將生成的特征圖分別編碼，形成一對(duì)方向感知和位置敏感的特征圖，它們可以互補(bǔ)地應(yīng)用于輸入特征圖，增強(qiáng)感興趣的目標(biāo)表示，提高模型的定位準(zhǔn)確性。

3 實(shí)驗(yàn)與結(jié)果分析

3.1　實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

本次實(shí)驗(yàn)的硬件環(huán)境為：顯卡為NVIDIA GeForce RTX 3090， CUDA（Compute Unified Device Architecture）版本為 CUDA11.3， Python 3.8.13，深度學(xué)習(xí)框架為PyTorch 1.11.0。

實(shí)驗(yàn)的數(shù)據(jù)集選用CEW（Closed Eyes in the Wild）公開(kāi)數(shù)據(jù)集［21］全部1 192張閉眼照片、LFW（Labeled Faces in the Wild）數(shù)據(jù)集［22］1 100張睜眼照片和安徽省立醫(yī)院拍攝采集的1 000張患者面部照片，共計(jì)3 292張照片。如圖6所示，用labelimg軟件對(duì)選取的數(shù)據(jù)集進(jìn)行VOC（Visual Object Classes）格式的四分類標(biāo)注，分別為：睜眼、閉眼、張嘴和閉嘴。再將數(shù)據(jù)集按照8∶1∶1分成訓(xùn)練集、測(cè)試集和驗(yàn)證集。

圖6　數(shù)據(jù)集圖像標(biāo)注

3.2　遷移學(xué)習(xí)策略

本文使用遷移學(xué)習(xí)方法［23］訓(xùn)練網(wǎng)絡(luò)，主干網(wǎng)絡(luò)MobileNetV2的18層為特征提取層，先凍結(jié)主干網(wǎng)絡(luò)，使用在公開(kāi)數(shù)據(jù)集上預(yù)訓(xùn)練好的權(quán)重對(duì)后續(xù)網(wǎng)絡(luò)粗略訓(xùn)練，僅對(duì)模型微調(diào)，提取適應(yīng)檢測(cè)特征；再解凍特征提取層，進(jìn)行完全訓(xùn)練，模型所有的參數(shù)都發(fā)生改變。通過(guò)上述方法，在縮短模型訓(xùn)練時(shí)間的同時(shí)，也能在數(shù)據(jù)集較少的情況下提高模型泛化能力。

3.3　訓(xùn)練過(guò)程

模型一共訓(xùn)練300個(gè)epoch，其中前50個(gè)epoch為主干網(wǎng)絡(luò)的凍結(jié)訓(xùn)練，后250個(gè)epoch為解凍之后全部一起訓(xùn)練，訓(xùn)練的結(jié)果如圖7所示。損失函數(shù)在第250個(gè)epoch后的訓(xùn)練集和驗(yàn)證集中逐漸收斂并穩(wěn)定下來(lái)。

圖7　網(wǎng)絡(luò)訓(xùn)練結(jié)果

3.4　檢測(cè)結(jié)果

使用本文模型檢測(cè)測(cè)試數(shù)據(jù)集，模型檢測(cè)睜眼、閉眼、張嘴和閉嘴的精確度分別是97.15%、97.35%、98.25%和95.45%。檢測(cè)結(jié)果表明改進(jìn)后的模型可以準(zhǔn)確識(shí)別人面部微動(dòng)作的變化。

模型實(shí)際用攝像頭預(yù)測(cè)的結(jié)果如圖8所示。由圖8可見(jiàn)，模型預(yù)測(cè)結(jié)果中定位框和置信度都較準(zhǔn)確。圖8（b）在眼睛微睜的狀態(tài)下仍然判定為睜眼的行為，考慮到麻醉病人復(fù)蘇這一特定應(yīng)用場(chǎng)景，病人的眼睛由完全閉合到微睜這一狀態(tài)的改變本身就是蘇醒的前兆行為，所以在數(shù)據(jù)集制作時(shí)，把微睜的狀態(tài)標(biāo)注為睜眼狀態(tài)。從檢測(cè)結(jié)果可知，模型能準(zhǔn)確地識(shí)別眼睛的狀態(tài)。

圖8　實(shí)際預(yù)測(cè)結(jié)果

4 模型評(píng)估

4.1　評(píng)價(jià)指標(biāo)

本文采用目標(biāo)檢測(cè)常見(jiàn)的評(píng)價(jià)指標(biāo)平均精確度均值（mean Average Precision， mAP）進(jìn)行對(duì)比。平均精確度（Average Precision ，AP）由精確度（Precision）/召回率（Recall）曲線與坐標(biāo)軸圍成的面積計(jì)算，反映模型在該類別下的精確度；mAP是所有類別的AP求均值，反映模型在所有類別下的精確度。具體計(jì)算公式如下：

其中：（True Positive）表示預(yù)測(cè)正確的正樣本數(shù)；（False Positive）表示預(yù)測(cè)錯(cuò)誤的正樣本數(shù)；（False Negative）表示將正樣本預(yù)測(cè)錯(cuò)誤為負(fù)樣本的數(shù)量。

模型除了需要滿足一定的精度要求外，也要滿足實(shí)時(shí)性的要求，具有工程應(yīng)用的能力，所以模型參數(shù)量和圖片每秒傳輸幀數(shù)（Frame Per Second， FPS）也是模型需要對(duì)比的指標(biāo)。

4.2　對(duì)比實(shí)驗(yàn)

分別對(duì)SSD［15］、CA-SSD（Coordinate Attention -Single Shot multibox Detector）、MobileNetV2-SSD（MobileNetV2-Single Shot multibox Detector）和本文模型在自制的數(shù)據(jù)集上訓(xùn)練相同的epoch，針對(duì)人臉狀態(tài)的四分類識(shí)別效果進(jìn)行對(duì)比實(shí)驗(yàn)，得出每一類的AP和mAP。其中：SSD表示主干網(wǎng)絡(luò)為VGG的原模型，CA-SSD表示在原模型的基礎(chǔ)上在6個(gè)回歸預(yù)測(cè)層上引入CA的模型，MobileNetV2-SSD是將主干特征提取網(wǎng)絡(luò)更換為MobileNetV2的模型。實(shí)驗(yàn)結(jié)果如表1所示。

表1不同模型的檢測(cè)精確度對(duì)比單位：%

Tab.1　Comparison of detection precision of different models unit：%

相較于SSD，本文模型的mAP提高了1.39個(gè)百分點(diǎn)，同時(shí)每一類的識(shí)別精確度都有提升。相較于CA-SSD，本文模型的mAP提高了0.2個(gè)百分點(diǎn)，對(duì)嘴巴狀態(tài)的識(shí)別精確度有所提高，而對(duì)于眼睛狀態(tài)識(shí)別精確度有所降低，這是因?yàn)樵谛〕叨鹊臋z測(cè)下，網(wǎng)絡(luò)提取特征層越深則效果越好。相較于MobileNetV2-SSD，本文模型的mAP提高了0.24個(gè)百分點(diǎn)。另外，對(duì)比CA-SSD與SSD、本文模型和MobileNetV2-SSD可以看出，加入CA模塊對(duì)于模型整體精確度的提高有正向作用。SSD與CA-SSD對(duì)比、本文模型與MobileNetV2-SSD對(duì)比，這兩組對(duì)比結(jié)果可以看出，更換了更輕量級(jí)的主干網(wǎng)絡(luò)可以提高模型的精確度。總體地，本文模型在人臉各部位的狀態(tài)識(shí)別中有最好的檢測(cè)性能，可以滿足麻醉病人復(fù)蘇這一應(yīng)用場(chǎng)景下的檢測(cè)要求。

為了驗(yàn)證本文模型在精確度提升的同時(shí)檢測(cè)速度也滿足實(shí)時(shí)性的要求，進(jìn)行對(duì)比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表2所示。SSD雖然有較高的性能，但是模型較大，不符合現(xiàn)代化工程應(yīng)用輕便的需求。將主干網(wǎng)絡(luò)更換為MobileNetV2后，模型大小約為原來(lái)的1/6，準(zhǔn)確率也相應(yīng)提高，本文模型在加入CA模塊后達(dá)到了最高性能。從表2中看出，更換為輕量級(jí)網(wǎng)絡(luò)的MobileNetV2-SSD和本文模型顯卡上的檢測(cè)速度分別為81 frame/s、74 frame/s，相較于SSD和CA-SSD的檢測(cè)速度153 frame/s、125 frame/s，降低至原來(lái)的1/2。在處理器上，MobileNetV2-SSD和本文模型檢測(cè)速度分別達(dá)到了25 frame/s和24 frame/s，約為SSD和CA-SSD的2.5倍。說(shuō)明了基于深度可分離卷積的MobileNetV2在顯卡上并不能完全適配，得到絕對(duì)的計(jì)算加速。這驗(yàn)證了網(wǎng)絡(luò)計(jì)算的速度不僅取決于計(jì)算量，還取決于諸如存儲(chǔ)器訪問(wèn)成本和平臺(tái)特性的其他因素［24］。由于一般視頻流為25 frame/s，所以本文模型在對(duì)目標(biāo)檢測(cè)精確度提升的同時(shí)，也達(dá)到了實(shí)時(shí)性的要求。

表2不同模型的大小和檢測(cè)速度對(duì)比

Tab.2　Comparison of size and detection speed of different models

綜合上述分析可知，本文模型比SSD的睜眼檢測(cè)精確度提升了1.27個(gè)百分點(diǎn)；閉眼檢測(cè)精確度提升了0.94個(gè)百分點(diǎn)；張嘴檢測(cè)精確度提升最高，為1.87個(gè)百分點(diǎn)；閉嘴檢測(cè)精確度提升了1.48個(gè)百分點(diǎn)，AP提升1.39個(gè)百分點(diǎn)；可以更精確地識(shí)別病人的面部特征。本文模型參數(shù)減少至原始SSD參數(shù)量的1/6，檢測(cè)速度是原始SSD的2.4倍，即檢測(cè)速度提升了140%，對(duì)病人的面部特征的檢測(cè)更實(shí)時(shí)。

4.3　數(shù)據(jù)分析

在臨床醫(yī)學(xué)中靈敏度（sensitivity）和平均對(duì)數(shù)漏檢率（Log-Average Miss Rate， LAMR）更具有實(shí)際參考價(jià)值。靈敏度指在所有的正樣本中模型預(yù)測(cè)對(duì)的比重，與模型的評(píng)價(jià)指標(biāo)召回率Recall等同，靈敏度越大，模型的檢測(cè)越準(zhǔn)；平均對(duì)數(shù)漏檢率指計(jì)算每張圖片誤檢數(shù)（False Positives Per Image，F(xiàn)PPI）和漏檢率（Miss Rate，MR）同時(shí)衡量模型性能。MR的計(jì)算如式（5）所示：

通過(guò)繪制MR-FPPI（Miss Rate- False Positives Per Image）曲線，取9個(gè)FPPI值下的平均漏檢率，記為MR-2，其中9個(gè)點(diǎn)是在對(duì)數(shù)區(qū)間［10-2，102］上的均勻采樣。MR-2表示在指定誤檢率的情況下檢測(cè)器的漏檢率。MR-2越低，表示模型漏檢率越低，檢測(cè)性能越好。對(duì)模型的實(shí)驗(yàn)結(jié)果數(shù)據(jù)進(jìn)行計(jì)算比較，結(jié)果如圖9、表3所示。

由圖9可見(jiàn)，模型的優(yōu)劣順序?yàn)楸疚哪Ｐ?、CA-SSD、SSD和MobileNetV2-SSD。本文模型檢測(cè)閉眼的靈敏度比原始SSD略低，是由于更換了主干網(wǎng)絡(luò)的輕量化網(wǎng)絡(luò)模型對(duì)小尺度特征圖檢測(cè)不全面；在對(duì)睜眼、張嘴和閉嘴的檢測(cè)中，本文模型的靈敏度均為最高值、覆蓋最全面，綜合評(píng)估本文模型具有更好的靈敏度。

圖9　不同模型的靈敏度對(duì)比

表3不同模型的平均對(duì)數(shù)漏檢率對(duì)比

Tab.3　Comparison of log-average miss rate of different models

由表3可見(jiàn)，本文模型在每個(gè)分類檢測(cè)的平均對(duì)數(shù)漏檢率都為最低值，檢測(cè)性能最好。

綜上分析可知，本文模型具有更優(yōu)的靈敏度和極低的平均對(duì)數(shù)漏檢率，可以準(zhǔn)確地檢測(cè)麻醉病人復(fù)蘇期的面部特征，對(duì)麻醉病人檢測(cè)識(shí)別的遺漏少，這對(duì)麻醉復(fù)蘇檢測(cè)識(shí)別具有較大的實(shí)際意義。

4.4　麻醉復(fù)蘇判定方法

根據(jù)本文模型檢測(cè)的結(jié)果，先檢測(cè)每幀圖像中病人的面部特征，再引入是否復(fù)蘇的邏輯算法進(jìn)行麻醉復(fù)蘇檢測(cè)。設(shè)定一個(gè)蘇醒狀態(tài)評(píng)價(jià)值由式（6）計(jì)算：

測(cè)試集選用的病人照片為235張，分為兩類（清醒和昏迷），其中清醒的照片為100張，昏迷的照片為135張。對(duì)檢測(cè)結(jié)果繪制受試者特征曲線（Receiver Operating Characteristic curve， ROC），如圖10所示。

圖10　受試者特征曲線

ROC的曲線下面積（Area Under Curve， AUC）值為0.88，驗(yàn)證了本文模型的有效性及面部特征對(duì)麻醉復(fù)蘇判定具有較高的預(yù)測(cè)價(jià)值。

5 結(jié)語(yǔ)

本文提出一種基于改進(jìn)SSD的麻醉復(fù)蘇目標(biāo)檢測(cè)方法。將SSD的主干網(wǎng)絡(luò)VGG16更換為MobileNetV2，減少了特征提取網(wǎng)絡(luò)模塊的參數(shù)量，在保證模型精確度的情況下提高檢測(cè)速度；引入注意力模塊，通過(guò)注意力機(jī)制模塊，使模型將更多的關(guān)注點(diǎn)放在關(guān)鍵信息，增強(qiáng)模型對(duì)目標(biāo)的識(shí)別能力。在醫(yī)院麻醉病患面部數(shù)據(jù)集HAPF上驗(yàn)證了本文方法的可行性。實(shí)驗(yàn)結(jié)果表明，本文模型（CA+MobileNetV2-SSD）具有較高的精確度和實(shí)時(shí)性，同時(shí)也滿足移動(dòng)計(jì)算設(shè)備的應(yīng)用需求，具有實(shí)際工程應(yīng)用的潛能。下一步，將圍繞實(shí)際應(yīng)用場(chǎng)景進(jìn)行針對(duì)性的研究?jī)?yōu)化。

[1] DESBOROUGH J P. The stress response to trauma and surgery［J］. British Journal of Anaesthesia，2000，85（1）：109-117.

[2] DOBSON G P. Addressing the global burden of trauma in major surgery［EB/OL］.［2022-12-20］. doi：10.3389/fsurg.2015.00043.

[3] CUSACK B ， BUGGY D J . Anaesthesia， analgesia， and the surgical stress response［J］. BJA Education， 2020，20（9）： 321-328.

[4] HIROSE M， OKUTANI H， HASHIMOTO K， et al. Intraoperative assessment of surgical stress response using nociception monitor under general anesthesia and postoperative complications： a narrative review［J］. Journal of Clinical Medicine， 2022，11（20）： No. 6080.

[5] PENSON D F. Re： relationship between occurrence of surgical complications and hospital finances［J］. The Journal of Urology， 2013， 190（6）： 2211-2213.

[6] DOBSON G P . Trauma of major surgery： a global problem that is not going away ［J］. International Journal of Surgery， 2020， 81：47-54.

[7] LUDBROOK G L. The hidden pandemic： the cost of postoperative complications ［J］. Current Anesthesiology Reports， 2021， 12（1）：1-9.

[8] 郭清厚，鐘嬈霞，莫玉林.靶向預(yù)控護(hù)理在全麻手術(shù)患者復(fù)蘇期躁動(dòng)管理中的應(yīng)用［J］.齊魯護(hù)理雜志，2019，25（6）：92-94.（GUO Q H， ZHONG R X， MO Y L. Application of targeted pre-control nursing in restlessness management of patients undergoing general anesthesia surgery during recovery ［J］. Journal of Qilu Nursing， 2019， 25（6）： 92-94.）

[9] SOUKUPOVá T， CECH J. Real-time eye blink detection using facial landmarks ［EB/OL］.［2022-12-20］. https：//vision.fe.uni-lj.si/cvww2016/proceedings/papers/05.pdf.

[10] NOUSIAS G， PANAGIOTOPOULOU E-K， DELIBASIS K， et al. Video-based eye blink identification and classification［J］. IEEE Journal of Biomedical and Health Informatics， 2022， 26（7）： 3284-3293.

[11] DE LA CRUZ G， LIRA M， LUACES O， et al. Eye-LRCN： a long-term recurrent convolutional network for eye blink completeness detection［J/OL］. IEEE Transactions on Neural Networks and Learning Systems， 2022［2022-11-29］. https：//ieeexplore.ieee.org/abstract/document/9885029.

[12] CHEN Y， ZHAO D， HE G. Deep learning-based fatigue detection for online learners［C］// Proceedings of the 2022 5th International Conference on Pattern Recognition and Artificial Intelligence. Piscataway： IEEE， 2022 ： 924-927.

[13] WANG Z， CHAI J， XIA S. Realtime and accurate 3D eye gaze capture with DCNN-based iris and pupil segmentation ［J］. IEEE Transactions on Visualization and Computer Graphics， 2021，27（1）：190-203.

[14] PRINSEN V， JOUVET P， OMAR S A， et al. Automatic eye localization for hospitalized infants and children using convolutional neural networks ［J］. International Journal of Medical Informatics， 2021， 146： 104344.

[15] LIU W，ANGUELOV D，ERHAN D，et al. SSD：single shot multibox detector ［C］// Proceedings of the 2016 European Conference on Computer Vision，LNCS 9905. Cham： Springer，2016： 21-37.

[16] SIMONYAN K ， ZISSERMAN A . Very deep convolutional networks for large-scale image recognition［EB/OL］.［2022-12-20］. https：//arxiv.org/pdf/1409.1556.pdf.

[17] SANDLER M ， HOWARD A ， ZHU M ， et al. MobileNetV2： inverted residuals and linear bottlenecks ［C］// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2018：4510-4520.

[18] HU J ， SHEN L ， ALBANIE S ， et al. Squeeze-and-excitation networks.［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2020， 42（8）：2011-2023.

[19] WANG Q ， WU B ， ZHU P ， et al. ECA-Net： efficient channel attention for deep convolutional neural networks［C］// Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE， 2020 ：11531-11539.

[20] HOU Q ， ZHOU D ， FENG J . Coordinate attention for efficient mobile network design［C］// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway： IEEE，2021 ：13708-13717.

[21] ZHAO L， WANG Z， ZHANG G，et al.Eye state recognition based on deep integrated neural network and transfer learning［J］.Multimedia Tools and Applications， 2018， 77（15）：19415-19438.

[22] HUANG G B， MATTAR M， BERG T，et al.Labeled faces in the wild： a database for studying face recognition in unconstrained environments ［EB/OL］.［2022-12-22］.https：//inria.hal.science/inria-00321923/document.

[23] TAN C， SUN F， KONG T， et al. A survey on deep transfer learning ［C］// Proceedings of the 2018 International Conference on Artificial Neural Networks and Machine Learning. Cham： Springer， 2018：270-279.

[24] MA N， ZHANG X.， ZHENG H T，et al. ShuffleNet v2： practical guidelines for efficient cnn architecture design ［C］// Proceedings of the 2018 European Conference on Computer Vision. Cham：Springer， 2018 ：122-138.

Anesthesia resuscitation object detection method based on improved single shot multibox detector

LUO Ronghao， CHENG Zhiyou， WANG Chuanjian*， LIU Siqian， WANG Zhentian

（，，230039，）

The target detection model of anesthesia resuscitation is often used to help medical staff to perform resuscitation detection on anesthetized patients. The targets of facial actions during patient resuscitation are small and are not obvious， and the existing Single Shot multibox Detector （SSD） is difficult to accurately detect the facial micro-action features of patients in real time. Aiming at the problem that the original model has low detection speed and is easy to have missed detection， an anesthesia resuscitation object detection method based on improved SSD was proposed. Firstly， the backbone network VGG （Visual Geometry Group）16 of the original SSD was replaced by the lightweight backbone network MobileNetV2， and the standard convolutions were replaced by the depthwise separable convolutions. At the same time， the calculation method of first increasing and then reducing the dimension of the extracted features from patient photos was used to reduce computational cost， thereby improving detection speed of the model. Secondly， the Coordinate Attention （CA） mechanism was integrated into the feature layers with different scales extracted by the SSD， and the ability of the feature map to extract key information was improved by weighting the channel and location information， so that the network positioning and classification performance was optimized. Finally， comparative experiments were carried out on three datasets：CEW（Closed Eyes in the Wild）， LFW（Labeled Faces in the Wild）， and HAPF（Hospital Anesthesia Patient Facial）. Experimental results show that the mean Average Precision （AP） of the proposed model reaches 95.23%， and the detection rate of photos is 24 frames per second， which are 1.39 percentage points higher and 140% higher than those of the original SSD model respectively. Therefore， the improved model has the effect of real-time accurate detection in anesthesia resuscitation detection， and can assist medical staff in resuscitation detection.

anesthesia resuscitation; facial feature recognition; Single Shot multibox Detector (SSD); MobileNetV2; attention mechanism

This work is partially supported by National Natural Science Foundation of China （82272225）.

LUO Ronghao， born in 1997， M. S. candidate. His research interests include object detection， micro-action recognition.

CHENG Zhiyou， born in 1972， Ph. D.， professor. His research interests include analysis and control of power quality.

WANG Chuanjian， born in 1977， Ph. D.， professor. His research interests include computer vision， medical artificial intelligence.

LIU Siqian， born in 1997， M. S. candidate. His research interests include object detection.

WANG Zhentian， born in 1999， M. S. candidate. His research interests include object detection， optical character recognition.

TP391.41

1001-9081（2023）12-3941-06

10.11772/j.issn.1001-9081.2022121917

2023?01?04；

2023?04?05；

2023?04?06。

國(guó)家自然科學(xué)基金資助項(xiàng)目（82272225）。

羅榮昊（1997—），男，安徽滁州人，碩士研究生，主要研究方向：目標(biāo)檢測(cè)、微動(dòng)作識(shí)別；程志友（1972—），男，安徽安慶人，教授，博士，主要研究方向：電能質(zhì)量分析與控制；汪傳建（1977—），男，安徽安慶人，教授，博士，CCF會(huì)員，主要研究方向：計(jì)算機(jī)視覺(jué)、醫(yī)學(xué)人工智能；劉思乾（1997—），男，安徽巢湖人，碩士研究生，主要研究方向：目標(biāo)檢測(cè)；汪真天（1999—），男，安徽銅陵人，碩士研究生，主要研究方向：目標(biāo)檢測(cè)、光學(xué)文字識(shí)別。

基于改進(jìn)單點(diǎn)多盒檢測(cè)器的麻醉復(fù)蘇目標(biāo)檢測(cè)方法

0 引言

1 SSD結(jié)構(gòu)

2 改進(jìn)SSD

2.1 主干網(wǎng)絡(luò)替換

2.2 深度可分離卷積

2.3 注意力機(jī)制引入

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

3.2 遷移學(xué)習(xí)策略

3.3 訓(xùn)練過(guò)程

3.4 檢測(cè)結(jié)果

4 模型評(píng)估

4.1 評(píng)價(jià)指標(biāo)

4.2 對(duì)比實(shí)驗(yàn)

4.3 數(shù)據(jù)分析

4.4 麻醉復(fù)蘇判定方法

5 結(jié)語(yǔ)

2.1　主干網(wǎng)絡(luò)替換

2.2　深度可分離卷積

2.3　注意力機(jī)制引入

3.1　實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

3.2　遷移學(xué)習(xí)策略

3.3　訓(xùn)練過(guò)程

3.4　檢測(cè)結(jié)果

4.1　評(píng)價(jià)指標(biāo)

4.2　對(duì)比實(shí)驗(yàn)

4.3　數(shù)據(jù)分析

4.4　麻醉復(fù)蘇判定方法