Development of surgical instrument recognition system based on improved YOLOv5
ZHU Junling, QU Fang, QIAN Bei, ZHANG Shoupeng*
Union Hospital, Tongji Medical College, Huazhong University of Science and Technology, Hubei 430022 China
*Corresponding Author ZHANG Shoupeng, E?mail: 2013xh0903@hust.edu.cn
Keywords surgical instruments;artificial intelligence;identification;category;positioning;object detection
摘要目的:基于改進(jìn)型You Only Look Once V5(YOLOv5)人工智能開(kāi)發(fā)手術(shù)器械識(shí)別系統(tǒng)。方法:收集常用外科手術(shù)器械10類(lèi),包括治療碗、藥杯、彎盤(pán)、針持器、血管鉗、刀柄、組織拉鉤、手術(shù)刀片、縫針、棉球。將收集的器械置于同一視野下,隨機(jī)改變不同器械放置位置和狀態(tài),在不同拍照方位、布料背景、光線角度和強(qiáng)弱環(huán)境下拍攝照片806張。將拍攝的照片按照7∶3隨機(jī)劃分為人工智能訓(xùn)練組和驗(yàn)證組。采用精確度、召回率、平均精度、平均精度均值和F1得分值等參數(shù)比較原始YOLOv5模型和改進(jìn)模型S?YOLOv5的算法識(shí)別性能。結(jié)果:與原始YOLOv5模型相比,改進(jìn)模型S?YOLOv5表現(xiàn)出更高的識(shí)別性能,其精確率、召回率、平均精度和F1 得分值分別為0.978,0.973,0.926,0.975。改進(jìn)模型S?YOLOv5對(duì)各手術(shù)器械的識(shí)別準(zhǔn)確率均高于原始YOLOv5模型。結(jié)論:基于S?YOLOv5的人工智能輔助手術(shù)器械識(shí)別系統(tǒng)具有較好的分類(lèi)能力和定位能力,為人工智能輔助手術(shù)器械清點(diǎn)提供了初步探索和思路。
關(guān)鍵詞手術(shù)器械;人工智能;識(shí)別;分類(lèi);定位;目標(biāo)檢測(cè)
doi:10.12102/j.issn.1009-6493.2024.21.027
手術(shù)器械清點(diǎn)是外科手術(shù)和操作必不可少的環(huán)節(jié),此項(xiàng)工作通常由器械護(hù)士和巡回護(hù)士配合完成。重復(fù)多次、精準(zhǔn)無(wú)誤的器械清點(diǎn)與核對(duì)是保證手術(shù)和外科操作順利、安全完成的最基本前提。它在對(duì)巡回護(hù)士和器械護(hù)士提出高要求的同時(shí),也顯著增加了人力資源的投入。且在臨床工作中,1名巡回護(hù)士有時(shí)需要管理多個(gè)手術(shù)間,這在一定程度上制約了手術(shù)效率。近年來(lái),隨著計(jì)算機(jī)與互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和普及,計(jì)算機(jī)輔助手術(shù)器械識(shí)別成為富有前景的潛在可行方案。目前主要存在2種形式的計(jì)算機(jī)輔助識(shí)別方式:1種是基于傳統(tǒng)的機(jī)器學(xué)習(xí)(machine learning,ML)方式,另1種是基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)模型的深度學(xué)習(xí)方法(deep learning,DL)。有學(xué)者提出了基于機(jī)器視覺(jué)(computer vision,CV)的器械清點(diǎn)分類(lèi)方法[1?2],該方法利用形態(tài)學(xué)骨架提取與像素滑動(dòng)檢索方法確定器械的數(shù)量與位置,并將數(shù)量與位置作為先驗(yàn)信息預(yù)先建立待測(cè)物搜索框,再結(jié)合模板匹配方法對(duì)器械進(jìn)行分類(lèi)。缺點(diǎn)主要是泛化性弱,一旦改變了器械種類(lèi)或樣式,就需要重新人工提取特征,依賴(lài)專(zhuān)業(yè)的知識(shí)和復(fù)雜的調(diào)參過(guò)程,而這正好是卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)所在。新的基于深度學(xué)習(xí)的圖像識(shí)別方法也正在研究中[3?4]。本研究基于計(jì)算機(jī)深度學(xué)習(xí),提出了1種將Soft?NMS與You Only Look Once v5(YOLOv5)相結(jié)合的改進(jìn)方案(S?YOLOv5),用于常見(jiàn)手術(shù)器械分類(lèi)和定位。本研究初步探究了基于S?YOLOv5的人工智能輔助手術(shù)器械識(shí)別系統(tǒng)的分類(lèi)和定位能力,為人工智能輔助手術(shù)器械清點(diǎn)提供了思路和技術(shù)支持。
1 YOLOv5算法介紹
YOLO算法的全稱(chēng)是“You only look once”,可以理解為只需要瀏覽1次就能準(zhǔn)確識(shí)別出圖中物體的類(lèi)別和位置。它于2016年由Redmon等[5]提出,是最早的單階段目標(biāo)檢測(cè)算法。它將目標(biāo)檢測(cè)任務(wù)看成回歸問(wèn)題,通過(guò)直接處理整張圖片來(lái)預(yù)測(cè)邊界框坐標(biāo)、邊界框包含物體的類(lèi)別和所屬類(lèi)別的置信度[6]。經(jīng)過(guò)多年的發(fā)展,YOLO算法已經(jīng)更新至Ⅴ11版本。YOLOv5模型是Ultralytics 公司在YOLOv4的基礎(chǔ)上進(jìn)一步改進(jìn),于2020年6月9日公開(kāi)發(fā)布。相比于YOLOv4,YOLOv5的速度與精度都得到了較大提升,已成為目前工業(yè)界使用的最普遍的檢測(cè)算法之一。本研究所用的YOLOv5算法版本為6.1,它由3部分構(gòu)成,整體結(jié)構(gòu)見(jiàn)圖1。第1部分為輸入端,訓(xùn)練圖片輸入尺寸為640 像素×640像素;第2部分為主干網(wǎng)絡(luò),它使用CSPDarkNet53網(wǎng)絡(luò),從輸入圖像中提取豐富的信息特征;第3部分為檢測(cè)層,該部分采用了多尺度進(jìn)行檢測(cè),在特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)(feature pyramid networks,F(xiàn)PN)后加入1種新的自下而上的路徑聚集網(wǎng)絡(luò)結(jié)構(gòu)(path aggregation networks,PAN),實(shí)現(xiàn)了不同尺度特征信息的融合,之后再對(duì)生成的3個(gè)特征圖進(jìn)行預(yù)測(cè)。YOLOv5在開(kāi)源數(shù)據(jù)集COCO(80類(lèi))中有良好預(yù)測(cè)效果,但是在遷移學(xué)習(xí)到外科手術(shù)器械分類(lèi)識(shí)別任務(wù)上檢測(cè)性能仍需要改進(jìn)[7]。針對(duì)輕度重疊排列、輕度遮擋的器械等問(wèn)題,有學(xué)者應(yīng)用加速穩(wěn)健特征算法(speeded up robust features,SURF)提取圖像特征信息,采用KD?Tree搜索相似特征矢量,以實(shí)現(xiàn)堆疊手術(shù)器械的準(zhǔn)確識(shí)別與定位[8]。本研究在YOLOv5的基礎(chǔ)上進(jìn)行初步改進(jìn)優(yōu)化,提出了1種適用于手術(shù)器械目標(biāo)識(shí)別的算法模型S?YOLOv5。
2 S?YOLOv5算法的改進(jìn)
YOLOv5默認(rèn)處理算法為非極大值抑制(non?maximum suppression,NMS)[9],其步驟主要包括:1)將所有矩形框按照不同的類(lèi)別標(biāo)簽分組,組內(nèi)按照置信度高低得分進(jìn)行排序;2)將步驟1)中得分最高的矩形框提取出來(lái),遍歷剩余矩形框,計(jì)算與當(dāng)前得分最高的矩形框的交并比(intersection over union,IOU),將剩余矩形框中大于設(shè)定的交并比閾值的框刪除;3)將步驟2)結(jié)果中剩余的矩形框重復(fù)步驟2)操作,直到處理完所有矩形框。其主要缺點(diǎn)包括:1)NMS算法是它將相鄰檢測(cè)框的分?jǐn)?shù)均強(qiáng)制歸零(即將重疊部分大于重疊閾值的檢測(cè)框移除),在這種情況下,如果1個(gè)真實(shí)物體在重疊區(qū)域出現(xiàn),則將導(dǎo)致對(duì)該物體的檢測(cè)失敗并降低算法的平均檢測(cè)率;2)NMS的閾值不太容易確定,設(shè)置過(guò)小會(huì)出現(xiàn)誤刪,設(shè)置過(guò)高又容易增大誤檢。由于本研究中涉及一定程度的物品重疊問(wèn)題,故采用Soft?NMS算法[10]進(jìn)行改進(jìn)。Soft?NMS在進(jìn)行非極大值抑制的同時(shí),兼顧考慮了得分和邊框之間的重合程度,因此更適合本研究。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)環(huán)境
本研究的處理器為Intel?CoreTM i7?8700 CPU@3.20 GHz,32 GB 運(yùn)行內(nèi)存,顯卡為NVIDIA GEFORCE GTX 1070,操作系統(tǒng)為Windows 10,64位。整個(gè)實(shí)驗(yàn)基于深度學(xué)習(xí)框架Pytorch 1.10,實(shí)驗(yàn)環(huán)境是Python 3.8,GPU加速軟件為CUDA10.0和CUDNN7.5.
3.2 試驗(yàn)數(shù)據(jù)集
由于目前尚沒(méi)有公開(kāi)的手術(shù)器械圖片數(shù)據(jù)集,本研究選擇性收集最常用到的10類(lèi)手術(shù)器械,參照既往文獻(xiàn)報(bào)告,數(shù)據(jù)集被命名為SID10[11]。通過(guò)數(shù)據(jù)增強(qiáng)(幾何變換和光學(xué)變換)增加數(shù)據(jù)集中圖片數(shù)量,另外通過(guò)擴(kuò)增物品數(shù)量相對(duì)較少的類(lèi)達(dá)到類(lèi)間平衡。主要用到的拍照方法為:在同樣焦距條件下,改變拍照方位、光線角度、強(qiáng)弱、布料背景、器械開(kāi)合狀態(tài)、器械正反放置狀態(tài)以及不同物品的隨機(jī)組合,以盡可能確保圖像所包含的特征信息的豐富性和平衡性,本研究共收集806張圖片。
使用開(kāi)源軟件LableImg進(jìn)行人工打標(biāo)簽(YOLO格式)的方式英文標(biāo)注10類(lèi)物品,包括:治療碗(bowl)、藥杯(cup)、血管鉗(forceps)、彎盤(pán)(kidney dish)、持針器(needle holder)、組織拉鉤(retractor)、手術(shù)刀片(scalpel)、刀柄(scalpel handle)、縫針(suture needle)、棉球(tampon)。
3.3 評(píng)測(cè)指標(biāo)
為了驗(yàn)證S?YOLOv5改進(jìn)算法的性能,本研究主要使用指標(biāo)為精確度(precision,P)、召回率(recall,R)、平均精度(average precision,AP)、平均精度(mean average precision,mAP)和F1得分值(F1 score)。具體計(jì)算公式如下所示:
精確度定義為真陽(yáng)性率(TP)與真陽(yáng)性率(TP)及假陽(yáng)性率(FP)和之比,如式(1)。召回率定義為真陽(yáng)性率(TP)與真陽(yáng)性率(TP)及假陰性率(FN)和之比,如式(2)。mAP是對(duì)所有類(lèi)別的平均精度(AP)求取均值后獲得,如式(3)(4)。F1得分值是綜合考慮精確度和召回率的調(diào)和值,如式(5)。mAP@0.5即將交并比IoU設(shè)為0.5時(shí),每個(gè)類(lèi)別下所有圖片的平均AP。mAP@0.5:0.95表示在不同交并比閾值(0.50~0.95,步長(zhǎng)0.05)時(shí)的平均mAP。
3.4 模型訓(xùn)練
本研究按照7∶3的比例將數(shù)據(jù)集隨機(jī)劃分實(shí)驗(yàn)組(579幅圖片)和驗(yàn)證組(227幅圖片)。輸入圖像尺度為1 280×1 280,批訓(xùn)練數(shù)據(jù)量為4,訓(xùn)練動(dòng)量為0.937,初始學(xué)習(xí)率設(shè)為0.01,權(quán)重衰減為0.000 5,訓(xùn)練過(guò)程持續(xù)了300輪,采用隨機(jī)梯度下降(stochastic gradient descent,SGD)作為優(yōu)化函數(shù)對(duì)模型進(jìn)行訓(xùn)練。本研究訓(xùn)練的模型分別是YOLOv5和改進(jìn)模型S?YOLOv5,以對(duì)比兩者的性能差異。
3.5 實(shí)驗(yàn)結(jié)果分析
使用改進(jìn)后S?YOLOv5模型在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)得到的P?R(precision?recall)曲線見(jiàn)圖2,其橫軸是召回率,縱軸是精確率。基于S?YOLOv5的各類(lèi)別手術(shù)器械的F1曲線見(jiàn)圖3,基于S?YOLOv5的各類(lèi)別手術(shù)器械的混淆矩陣圖見(jiàn)圖4。由圖2中的P?R曲線和圖3中的F1曲線可知,曲線越靠近坐標(biāo)(1,1)位置,算法的性能越好。由圖4混淆矩陣圖可知,除了縫針誤檢稍高,其他分類(lèi)識(shí)別準(zhǔn)確率都較好。
實(shí)驗(yàn)得到的算法性能結(jié)果見(jiàn)表1。由表1可知,改進(jìn)S?YOLOv5算法的精準(zhǔn)率、召回率、mAP@0.5:0.95和F1值分別為97.8%、97.3%、92.6%和97.5%。從表2可以看出,改進(jìn)后算法的平均檢測(cè)精度mAP@0.5:0.95有明顯的提升。特別是對(duì)長(zhǎng)條形的刀柄、尺度較小的手術(shù)刀片和縫針的平均檢測(cè)精度提升較大,分別提升了3.9%、2.4%和2.4%。
3.6 檢測(cè)結(jié)果
YOLOv5算法和改進(jìn)S?YOLOv5算法上的檢測(cè)效果差異見(jiàn)圖5。從對(duì)比圖中可以明顯看出,原始YOLOv5 算法將血管鉗檢測(cè)錯(cuò)誤,但改進(jìn)S?YOLOv5算法將此器械檢測(cè)正確且提高了檢測(cè)的置信度。
4 討論與展望
YOLOv5目標(biāo)檢測(cè)算法可以有效輔助臨床護(hù)士完成外科手術(shù)器械的識(shí)別和計(jì)數(shù),是值得深入探索的研究方向[12]。首先,YOLOv5的檢測(cè)精準(zhǔn)性高,在手術(shù)器械全流程跟蹤管理中利用該技術(shù)可以準(zhǔn)確識(shí)別出外科手術(shù)器械,從而提升器械核查的安全性;其次,YOLOv5準(zhǔn)確識(shí)別外科手術(shù)器械可以有效提高手術(shù)或外科操作效率,縮短病人術(shù)前手術(shù)器械的核查時(shí)間,減少對(duì)巡回護(hù)士和洗手護(hù)士的依賴(lài)程度;此外,該技術(shù)還可優(yōu)化手術(shù)室器械管理水平及運(yùn)行機(jī)制,提升醫(yī)療管理質(zhì)量??傊?,YOLOv5在外科手術(shù)器械識(shí)別領(lǐng)域具有獨(dú)特的優(yōu)勢(shì),能夠有效簡(jiǎn)化外科手術(shù)核查流程、提高手術(shù)效率和質(zhì)量。同時(shí),它也將成為人工智能輔助手術(shù)器械清點(diǎn)的潛在研究方向。盡管如此,YOLOv5在外科手術(shù)器械識(shí)別中也還存在許多不足,如識(shí)別高度重疊排列、高度遮擋、任意旋轉(zhuǎn)角度、長(zhǎng)條形狀、目標(biāo)極小的器械等情況尚不準(zhǔn)確,未來(lái)可能需要更大樣本的圖片數(shù)據(jù)進(jìn)行訓(xùn)練,同時(shí),更多高效、低計(jì)算量的優(yōu)秀算法模型有待開(kāi)發(fā)[13]。因此,需要加強(qiáng)這方面的研究,開(kāi)發(fā)出更高效、準(zhǔn)確的改良模型以及更穩(wěn)定、安全的識(shí)別系統(tǒng),才能真正實(shí)現(xiàn)YOLOv5在外科手術(shù)器械識(shí)別中的應(yīng)用和普及。此外,隨著移動(dòng)信息化技術(shù)的發(fā)展,目標(biāo)檢測(cè)技術(shù)結(jié)合個(gè)人掌上電腦(personal digital assistant,PDA)移動(dòng)技術(shù)也將可能是未來(lái)手術(shù)器械質(zhì)量追蹤與數(shù)據(jù)清點(diǎn)實(shí)現(xiàn)信息化與智能化的重要發(fā)展方向[14]。
綜上所述,本研究結(jié)合Soft?NMS算法對(duì)YOLOv5進(jìn)行改進(jìn),并利用創(chuàng)建的常用手術(shù)器械數(shù)據(jù)集初步展示了基于S?YOLOv5的人工智能輔助手術(shù)器械識(shí)別系統(tǒng)的分類(lèi)能力和定位能力,為人工智能輔助手術(shù)器械清點(diǎn)提供了初步探索和潛在思路。
參考文獻(xiàn):
[1] 汪睿,苗玉彬.基于改進(jìn)模板匹配的外科手術(shù)器械清點(diǎn)方法[J].機(jī)電一體化,2022,28(4):51-57.
[2] 張志陽(yáng),宋成利,李良,等.基于模板匹配的醫(yī)用內(nèi)窺鏡影像目標(biāo)識(shí)別算法[J].軟件導(dǎo)刊,2020,19(3):234-237.
[3] 張文凱.基于細(xì)粒度圖像分類(lèi)的外科手術(shù)器械識(shí)別研究[D].大連:大連理工大學(xué),2021.
[4] 路寬.基于深度學(xué)習(xí)的手術(shù)器械圖像檢測(cè)方法研究[D].天津:天津理工大學(xué),2021.
[5] REDMON J,DIVVALA S,GIRSHICK R,.You only look once:unified,real-time object detection; proceedings of the computer vision & pattern recognition[EB/OL].[2023-08-23].https://blog.csdn.net/qq_29598161/article/details/108166577.
[6] 劉振忠,周羿帆,王炎.一種基于圖像的手術(shù)器械位置檢測(cè)方法[EB/OL].[2023-08-14].https://d.wanfangdata.com.cn/patent/ChJQYXRlbnROZXdTMjAyMzA5MDESEENOMjAyMjExNjAxMDYxLjQaCG02NG1jY2tk.
[7] 王巍,白天宇.基于單目視覺(jué)的手術(shù)器械位姿估計(jì)模型研究[J].激光雜志,2023,44(1):32-41.
[8] 陳賢兒,梁丹,傅云龍,等.Harris與SURF特征點(diǎn)檢測(cè)的手術(shù)器械機(jī)器視覺(jué)識(shí)別方法[J].傳感器與微系統(tǒng),2023,42(2):118-ZkGDPv5h4YyN4X2HEEKZOpUZc/fd81z9FlvdtF659Xs=121.
[9] ELSHAHAWY M,ELNEMR A,OPROESCU M,.Early melanoma detection based on a hybrid YOLOv5 and resnet technique[J].Diagnostics(Basel),2023,13(17):10.3390.
[10] BODLA N,SINGH B,CHELLAPPA R,.Soft-NMS-improving object detection with one line of code[EB/OL].[2023-08-23].https://blog.csdn.net/weixin_36670529/article/details/99886964.
[11] HOU Y,ZHANG W,LIU Q,.Adaptive kernel selection network with attention constraint for surgical instrument classification[J].Neural Comput Appl,2022,34(2):1577-1591.
[12] 黃鵬,王志浩,關(guān)思宇,等.一種基于Swin-transformer與YOLOV5模型集成的手術(shù)器械清點(diǎn)方法[EB/OL].[2023-10-08].https://d.wanfangdata.com.cn/patent/ChJQYXRlbnROZXdTMjAy MzA5MDESEENOMjAyMjExMjIwNDE1LjAaCHF4ZGJkNW4y.
[13] 李潤(rùn)浩.基于深度學(xué)習(xí)的骨科手術(shù)器械檢測(cè)與識(shí)別[D].秦皇島:燕山大學(xué),2022.
[14] 余文靜,高興蓮,肖瑤,等.基于PDA移動(dòng)技術(shù)融合手術(shù)器械質(zhì)量追蹤與數(shù)據(jù)清點(diǎn)的實(shí)踐[J].護(hù)理學(xué)報(bào),2020,27(2):27-29.
(本文編輯崔曉芳)
基金項(xiàng)目湖北省自然科學(xué)基金計(jì)劃項(xiàng)目,編號(hào):2023AFB889
作者簡(jiǎn)介朱俊玲,主管護(hù)師,碩士研究生在讀
通訊作者張守鵬,E?mail:2013xh0903@hust.edu.cn
引用信息朱俊玲,瞿芳,錢(qián)貝,等.基于改進(jìn)YOLOv5的外科手術(shù)器械識(shí)別系統(tǒng)的開(kāi)發(fā)[J].護(hù)理研究,2024,38(21):3923?3928.