□ 胡小鵬 □ 趙永杰 □ 黃可心 □ 項(xiàng)彥澍 □ 梁冬泰 □ 馮永飛 □ 梁 丹
1.寧波大學(xué) 機(jī)械工程與力學(xué)學(xué)院 浙江寧波 315211 2.寧波諾丁漢大學(xué) 航空學(xué)院 浙江寧波 315154 3.寧波諾丁漢大學(xué) 機(jī)械、材料與制造工程學(xué)院 浙江寧波 315154
乒乓球是一項(xiàng)兼具競(jìng)技性與觀賞性的體育運(yùn)動(dòng),研究乒乓球的相關(guān)參數(shù),對(duì)分析運(yùn)動(dòng)員發(fā)球習(xí)慣、設(shè)計(jì)乒乓球機(jī)器人等相關(guān)輔助設(shè)備具有重要意義。在乒乓球相關(guān)研究中,軌跡檢測(cè)一直是重點(diǎn)和難點(diǎn)。對(duì)于乒乓球運(yùn)動(dòng)軌跡檢測(cè),通常有初始目標(biāo)定位、后續(xù)目標(biāo)追蹤兩個(gè)子任務(wù)。在初始目標(biāo)定位子任務(wù)中,傳統(tǒng)的研究方法主要為通過攝像機(jī)采集運(yùn)動(dòng)過程視頻,根據(jù)乒乓球的顏色、輪廓進(jìn)行檢測(cè)[1-3]。根據(jù)乒乓球顏色進(jìn)行檢測(cè)指通過乒乓球目標(biāo)與背景之間的像素顏色差實(shí)現(xiàn)定位,根據(jù)乒乓球輪廓進(jìn)行檢測(cè)指通過相鄰幀之間的像素位置差獲取乒乓球的輪廓。以上方法計(jì)算量較小,計(jì)算速度較快,但是對(duì)環(huán)境背景的顏色一致度及背景與目標(biāo)的對(duì)比度要求較高。在實(shí)際應(yīng)用場(chǎng)景中,常常存在身穿各種顏色衣服的觀眾及各種形狀、顏色的條幅等,因此以上方法難以應(yīng)用。為改善上述問題,外設(shè)傳感器[4-5]被逐漸應(yīng)用于乒乓球檢測(cè),但是會(huì)增加設(shè)備負(fù)擔(dān),實(shí)際應(yīng)用有限。在后續(xù)目標(biāo)追蹤子任務(wù)中,同樣有基于顏色、輪廓的檢測(cè),以及應(yīng)用外設(shè)傳感器。另一方面,隨著神經(jīng)網(wǎng)絡(luò)的普及,越來越多的研究者采用神經(jīng)網(wǎng)絡(luò)進(jìn)行乒乓球軌跡追蹤。Zhao Hongtu等[6]提出一種基于比例共軛梯度的神經(jīng)網(wǎng)絡(luò),可以應(yīng)用于乒乓球目標(biāo)軌跡追蹤,同時(shí)通過設(shè)置閾值,保存隱含層權(quán)重矩陣,對(duì)方法進(jìn)行改進(jìn),獲得了較好的試驗(yàn)結(jié)果。Sheng Xinjun等[7]采用YOLOv3算法卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行乒乓球檢測(cè),準(zhǔn)確率達(dá)到97.1%。Lin Hsien’i等[8]提出使用反向傳播神經(jīng)網(wǎng)絡(luò)檢測(cè)乒乓球軌跡的方案,準(zhǔn)確率為88%。以上方法準(zhǔn)確率較高,但嚴(yán)重依賴于數(shù)據(jù)集的采集與制作,難以適應(yīng)復(fù)雜多變的實(shí)際應(yīng)用場(chǎng)景。
為了解決現(xiàn)有檢測(cè)方法無法在復(fù)雜環(huán)境下對(duì)乒乓球進(jìn)行有效檢測(cè)這一問題,筆者提出一種基于深度學(xué)習(xí)與超像素的乒乓球運(yùn)動(dòng)軌跡檢測(cè)方法。這一方法采用基于注意力機(jī)制YOLOv5s算法獲取目標(biāo)的候選區(qū)域,針對(duì)候選區(qū)域采用簡(jiǎn)單線性迭代聚類方法進(jìn)行區(qū)域分割,構(gòu)造候選區(qū)域的超像素特征,得到置信度圖,結(jié)合粒子濾波方法對(duì)乒乓球運(yùn)動(dòng)軌跡進(jìn)行追蹤。這一方法對(duì)乒乓球運(yùn)動(dòng)軌跡的檢測(cè)精度與速度相比原有方法均有明顯提升。
圖像預(yù)處理主要包括制作訓(xùn)練集時(shí)的數(shù)據(jù)擴(kuò)增與乒乓球檢測(cè)前的圖像增強(qiáng)兩部分。
采集到的數(shù)據(jù)集背景較為單一,相似度較高,深度學(xué)習(xí)算法進(jìn)行模型訓(xùn)練時(shí)需要大量乒乓球數(shù)據(jù)。為避免數(shù)據(jù)集不足而造成訓(xùn)練過程中產(chǎn)生的過擬合現(xiàn)象,通過對(duì)高度、對(duì)比度進(jìn)行調(diào)節(jié)、旋轉(zhuǎn)、縮放,以及添加噪聲等方法,實(shí)現(xiàn)對(duì)原有數(shù)據(jù)集的擴(kuò)增,得到4 235張乒乓球圖像數(shù)據(jù)。另一方面,使用LabelImg標(biāo)注軟件進(jìn)行乒乓球區(qū)域的人工標(biāo)注,以制作乒乓球定位階段的最終訓(xùn)練集。
考慮到現(xiàn)場(chǎng)采集時(shí)的光線問題,需要對(duì)圖像數(shù)據(jù)進(jìn)行預(yù)處理。采用限制對(duì)比度的自適應(yīng)直方圖均衡化方法對(duì)亮度進(jìn)行調(diào)整,以達(dá)到圖像增強(qiáng)的目的。傳統(tǒng)的自適應(yīng)直方圖均衡化方法在處理乒乓球圖像時(shí)存在明顯塊效應(yīng),限制對(duì)比度的自適應(yīng)直方圖均衡化方法是對(duì)自適應(yīng)直方圖均衡化方法的改進(jìn),通過使用對(duì)比度限幅克服自適應(yīng)直方圖均衡化方法噪聲過度放大、產(chǎn)生塊狀效應(yīng)等問題[9]。限制對(duì)比度的自適應(yīng)直方圖均衡化方法的關(guān)鍵是在直方圖均衡化的基礎(chǔ)上對(duì)直方圖中大于設(shè)定閾值的區(qū)域進(jìn)行裁剪,并將其均勻分布于整個(gè)灰度空間。限制對(duì)比度的自適應(yīng)直方圖均衡化方法如圖1所示。
▲圖1 限制對(duì)比度的自適應(yīng)直方圖均衡化方法
YOLOv5算法以自身輕便型的特點(diǎn)而得到廣泛應(yīng)用。YOLOv5算法的網(wǎng)絡(luò)結(jié)構(gòu)與YOLOv4算法較為相似,包含輸入端、骨干網(wǎng)絡(luò)、頸部、輸出端四個(gè)部分。根據(jù)不同的網(wǎng)絡(luò)深度和寬度,YOLOv5算法可以分為四種算法基本網(wǎng)絡(luò)結(jié)構(gòu):YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x,四種算法網(wǎng)絡(luò)結(jié)構(gòu)模型的尺寸依次增大,參數(shù)依次增多[10]。考慮到乒乓球檢測(cè)的實(shí)時(shí)應(yīng)用性要求,重點(diǎn)對(duì)YOLOv5s算法網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)設(shè)計(jì)。根據(jù)YOLOv5s算法網(wǎng)絡(luò)結(jié)構(gòu)的特點(diǎn),在骨干網(wǎng)絡(luò)的第一個(gè)卷積層后引入卷積塊注意模塊,形成基于注意力機(jī)制的YOLOv5s算法網(wǎng)絡(luò)結(jié)構(gòu),提高對(duì)乒乓球運(yùn)動(dòng)軌跡的檢測(cè)定位能力。基于注意力機(jī)制的YOLOv5算法網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
檢測(cè)對(duì)象是運(yùn)動(dòng)過程中的乒乓球,涉及大背景中的小目標(biāo),背景對(duì)檢測(cè)結(jié)果的影響較大。根據(jù)這一特點(diǎn),引入卷積塊注意模塊用于強(qiáng)調(diào)乒乓球特征,進(jìn)而抑制背景信息。注意力機(jī)制在本質(zhì)上與人類視覺選擇性關(guān)注目標(biāo)相似,都是從眾多信息中選擇當(dāng)前任務(wù)更需要關(guān)注的信息。注意力機(jī)制包含通道注意力機(jī)制與空間注意力機(jī)制,通道注意力機(jī)制主要關(guān)注輸入特征圖中的目標(biāo)信息,空間注意力機(jī)制主要關(guān)注特征圖之間的空間關(guān)系。卷積塊注意模塊對(duì)通道注意力機(jī)制和空間注意力機(jī)制進(jìn)行級(jí)聯(lián),在融合兩者優(yōu)點(diǎn)的同時(shí)實(shí)現(xiàn)較大的性能改進(jìn),并且空間占比較小[11]。卷積塊注意模塊結(jié)構(gòu)如圖3所示。
如果僅僅使用定位信息進(jìn)行追蹤,那么會(huì)出現(xiàn)定位不精確的情況。對(duì)此,在追蹤過程中使用超像素對(duì)結(jié)果進(jìn)行更正。超像素是由位置相鄰且輪廓、紋理、亮度等特征相似的像素組成的小區(qū)域,自文獻(xiàn)[12]提出以來,已經(jīng)得到廣泛應(yīng)用。筆者使用簡(jiǎn)單線性迭代聚類算法[13]對(duì)乒乓球圖像進(jìn)行分割,以提取相關(guān)紋理,并引入K-均值聚類算法[14]進(jìn)行超像素聚類,以準(zhǔn)確提取目標(biāo)區(qū)域。
簡(jiǎn)單線性迭代聚類算法通常采用K-均值聚類生成大小、形狀類似的超像素塊。與其它超像素聚類相比,簡(jiǎn)單線性迭代聚類算法具有運(yùn)行速度快、存儲(chǔ)效率高等特點(diǎn)[15]。
采用簡(jiǎn)單線性迭代聚類算法,在圖像中隨機(jī)選取k個(gè)點(diǎn)作為超像素中心點(diǎn)Zk:
Zk=[lk,ak,bk,xk,yk]T
(1)
式中:lk為像素點(diǎn)的亮度;ak為像素點(diǎn)從紅色到綠色的程度;bk為像素點(diǎn)從黃色到藍(lán)色的程度;(xk,yk)為像素點(diǎn)在圖像中的坐標(biāo)。
▲圖2 基于注意力機(jī)制的YOLOv5s算法網(wǎng)絡(luò)結(jié)構(gòu)
▲圖3 卷積塊注意模塊結(jié)構(gòu)
由此,相鄰超像素的距離d可以表示為:
(2)
式中:N為圖像中像素的總數(shù)。
可以根據(jù)需求選取超像素?cái)?shù)量,筆者選取超像素?cái)?shù)量為500,使超像素足夠多,以提高精確度。
簡(jiǎn)單線性迭代聚類算法通過不斷迭代計(jì)算顏色與空間的歐氏距離,將每個(gè)像素點(diǎn)分配給最近的超像素中心點(diǎn),進(jìn)而獲得完整的目標(biāo)圖像超像素。
基于深度學(xué)習(xí)與超像素的乒乓球運(yùn)動(dòng)軌跡檢測(cè)方法通過劃定感興趣區(qū)域,獲取由改進(jìn)的YOLOv5s算法檢測(cè)到的目標(biāo)乒乓球候選區(qū)域。
(3)
使用簡(jiǎn)單線性迭代聚類算法將第t幀訓(xùn)練樣本中的乒乓球及其周圍正方形區(qū)域分割為Nt個(gè)超像素,并且將該正方形區(qū)域邊長(zhǎng)設(shè)置為1.5[S(Xt)]1/2,使該正方形區(qū)域的面積足夠大,能夠覆蓋整個(gè)追蹤目標(biāo),同時(shí)可以適應(yīng)目標(biāo)在圖像中因角度變化而引起的大小變化,S(Xt)為候選區(qū)域的面積。提取前3幀中所有超像素的特征,并使用K-均值聚類算法將前3幀的超像素集形成的特征池聚類,聚類總數(shù)為n。給每一個(gè)聚類i分配一個(gè)滿足[-1,1]的目標(biāo)—背景置信度值Cic,用于指示聚類的超像素塊是否屬于目標(biāo)或背景。對(duì)此,需要計(jì)算每個(gè)聚類中所對(duì)應(yīng)的目標(biāo)區(qū)域的面積S+(i)和背景區(qū)域的面積S-(i),關(guān)系式為:
(4)
置信度越接近1或-1,聚類的超像素塊越有可能屬于目標(biāo)或背景。聚類中心fc(i)、聚類半徑rc(i)、聚類成員ftr、聚類置信度Cic構(gòu)成初始外觀模型。
對(duì)于新幀候選區(qū)域,需要通過單個(gè)超像素的置信度計(jì)算該幀的置信度圖。單個(gè)超像素的置信度取決于所屬的聚類和在特征空間中與對(duì)應(yīng)聚類中心的距離,前者反映聚類所包含的超像素屬于目標(biāo)或背景的可能性,后者反映超像素屬于聚類的可能性[16]。由此,需要引入權(quán)重ω來計(jì)算第t幀第r個(gè)超像素的置信度值Ctr,為:
(5)
?r=1,…,Nt;i=1,…,n
(6)
通過以上方法,可以計(jì)算當(dāng)前幀中每個(gè)超像素的置信度。
計(jì)算完成后,可以為超像素中的每個(gè)像素賦予相同的置信度,超像素周圍區(qū)域的像素置為-1,即不屬于該超像素塊。
由于前后幀的時(shí)間較短,因此前后幀外觀模型具有極大相似度。根據(jù)前一幀得到的置信度圖,使用粒子濾波進(jìn)行采樣,用加權(quán)粒子集對(duì)當(dāng)前幀進(jìn)行最大后驗(yàn)估計(jì),以獲取最佳目標(biāo)。在得到置信度圖后,對(duì)新幀所有候選圖像區(qū)域進(jìn)行歸一化處理,并對(duì)每個(gè)采樣粒子所對(duì)應(yīng)的超像素置信度進(jìn)行求和等操作,計(jì)算最有可能代表目標(biāo)區(qū)域的粒子,進(jìn)而得到目標(biāo)區(qū)域,計(jì)算式為:
(7)
基于超像素的追蹤過程如圖4所示。
▲圖4 基于超像素的追蹤過程
乒乓球運(yùn)動(dòng)軌跡檢測(cè)中存在遮擋問題,即乒乓球被背景中的干擾物遮擋。針對(duì)遮擋問題,通過設(shè)置閾值以判斷在t時(shí)刻狀態(tài)Xt的遮擋。若超出設(shè)定閾值,則認(rèn)為發(fā)生遮擋,此時(shí)直接將前一幀的置信度結(jié)果作為當(dāng)前幀的估計(jì)結(jié)果。
為了驗(yàn)證基于深度學(xué)習(xí)與超像素的乒乓球運(yùn)動(dòng)軌跡檢測(cè)方法的有效性,采集20組不同光照下的乒乓球視頻制作數(shù)據(jù)集,采用不同方法進(jìn)行檢測(cè),對(duì)比結(jié)果。數(shù)據(jù)處理平臺(tái)中,中央處理器型號(hào)為英特爾酷睿i3-9100,圖形處理器型號(hào)為英偉達(dá)精視GTX 1080Ti。
結(jié)合各種乒乓球比賽視頻制作乒乓球定位模塊的訓(xùn)練集。為提高乒乓球定位模塊的檢測(cè)精度和訓(xùn)練速度,使用分布訓(xùn)練的方式獲取最佳的訓(xùn)練權(quán)重。
為定量分析乒乓球定位效果,選取1 000張圖像。將基于深度學(xué)習(xí)與超像素的乒乓球運(yùn)動(dòng)軌跡檢測(cè)方法與其它方法進(jìn)行檢測(cè)準(zhǔn)確率和檢測(cè)時(shí)間對(duì)比,結(jié)果見表1。由表1可見,在進(jìn)行乒乓球定位時(shí),基于深度學(xué)習(xí)與超像素的乒乓球運(yùn)動(dòng)軌跡檢測(cè)方法準(zhǔn)確率達(dá)到98.1%,大幅高于傳統(tǒng)方法,特別是與傳統(tǒng)YOLO算法相比,準(zhǔn)確率有明顯提升。基于顏色與輪廓的檢測(cè)方法專注于檢測(cè)目標(biāo)外觀,忽略了背景,使設(shè)定的相關(guān)閾值難以適應(yīng)實(shí)時(shí)變化的環(huán)境。基于深度學(xué)習(xí)與超像素的乒乓球運(yùn)動(dòng)軌跡檢測(cè)方法更專注于目標(biāo)周圍的有效信息,因此檢測(cè)結(jié)果更佳。
表1 乒乓球定位方法對(duì)比
在檢測(cè)時(shí)間方面,傳統(tǒng)方法憑借較小的模型能夠獲得較快的檢測(cè)速度。Faster區(qū)域卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)準(zhǔn)確率與速度相比傳統(tǒng)YOLO算法較低。基于深度學(xué)習(xí)與超像素的乒乓球運(yùn)動(dòng)軌跡檢測(cè)方法檢測(cè)時(shí)間僅長(zhǎng)于YOLOv5s算法,準(zhǔn)確率相比YOLOv5s算法則有顯著提升,表明基于深度學(xué)習(xí)與超像素的乒乓球運(yùn)動(dòng)軌跡檢測(cè)方法能夠滿足乒乓球快速準(zhǔn)確檢測(cè)的需求。
為驗(yàn)證基于深度學(xué)習(xí)與超像素的乒乓球運(yùn)動(dòng)軌跡檢測(cè)方法在不同光照、不同場(chǎng)景追蹤乒乓球,以及處理遮擋問題時(shí)的有效性,選擇YOLOv4算法、YOLOv5s算法、Faster區(qū)域卷積神經(jīng)網(wǎng)絡(luò)作為對(duì)比方法。乒乓球追蹤方法對(duì)比如圖5、表2所示。
▲圖5 乒乓球追蹤方法對(duì)比
表2 乒乓球追蹤方法對(duì)比
從追蹤結(jié)果看,基于深度學(xué)習(xí)與超像素的乒乓球運(yùn)動(dòng)軌跡檢測(cè)方法相較于主流深度學(xué)習(xí)算法能夠正確追蹤兵乓球,誤識(shí)別、不識(shí)別情況較少,并且在處理模糊等問題時(shí)效率較高,未出現(xiàn)對(duì)目標(biāo)區(qū)域外的目標(biāo)誤識(shí)別情況,定位精度、準(zhǔn)確率都較高??赡軙?huì)遇到的問題是制作數(shù)據(jù)集時(shí)容易將一些模糊的目標(biāo)變?yōu)橛?xùn)練集的一部分,導(dǎo)致深度學(xué)習(xí)檢測(cè)器學(xué)習(xí)錯(cuò)誤信息,反映在檢測(cè)結(jié)果上是定位了相似卻錯(cuò)誤的目標(biāo)。
在處理遮擋問題時(shí),追蹤器能夠利用檢測(cè)特性處理大面積的遮擋,在小數(shù)量的遮擋幀內(nèi)進(jìn)行檢測(cè),在遮擋幀后及時(shí)復(fù)位。當(dāng)發(fā)生嚴(yán)重遮擋時(shí),追蹤器能夠更好地找到目標(biāo)位置。
在目標(biāo)中心位置像素誤差方面,基于超像素的追蹤相較于其它方法能夠更有效地檢測(cè)乒乓球的具體位置。雖然檢測(cè)速度不如YOLOv5s算法,但是視頻素材幀率一般為30幀/s,因此完全可以滿足乒乓球運(yùn)動(dòng)軌跡實(shí)時(shí)檢測(cè)的需求。
筆者針對(duì)乒乓球檢測(cè)時(shí)易受環(huán)境影響的問題,提出了基于深度學(xué)習(xí)與超像素的乒乓球運(yùn)動(dòng)軌跡檢測(cè)方法。構(gòu)建乒乓球數(shù)據(jù)集,對(duì)數(shù)據(jù)集圖像進(jìn)行預(yù)處理,通過改進(jìn)的YOLOv5s算法獲取乒乓球候選區(qū)域,對(duì)候選區(qū)域通過K-均值聚類獲取超像素置信度圖,結(jié)合粒子濾波對(duì)乒乓球運(yùn)動(dòng)軌跡進(jìn)行追蹤,由此實(shí)現(xiàn)基于改進(jìn)YOLOv5s算法的乒乓球初始目標(biāo)定位和基于超像素的乒乓球后續(xù)目標(biāo)追蹤。試驗(yàn)結(jié)果表明,基于深度學(xué)習(xí)與超像素的乒乓球運(yùn)動(dòng)軌跡檢測(cè)方法與其它方法相比,精度與速度都有明顯提升,中心位置像素誤差控制在12像素,檢測(cè)速度達(dá)到65幀/s,能夠適應(yīng)不同的應(yīng)用場(chǎng)景,可以有效實(shí)現(xiàn)對(duì)乒乓球運(yùn)動(dòng)軌跡的快速、準(zhǔn)確檢測(cè)。