曾廣華,楊桂忠,郭壽南,陳朝明,羅曉松,夏琪凱,徐貴良
(1.江西廣播電視臺,江西 南昌 330006;2.江西省廣播電視監(jiān)測中心,江西 南昌 330038)
江西廣播電視臺每天播出大量的視頻內(nèi)容,疫情常態(tài)化期間,播出的視頻涉及大量戴口罩的相關(guān)視頻。江西廣播電視臺目前的檢測系統(tǒng)只能對節(jié)目黑場、靜幀、超過3 s的靜音進(jìn)行報警,對于是否畫面中人員是否正確佩戴口罩的檢測工作,只能通過人工審核的方式進(jìn)行。以江西衛(wèi)視為例,針對《江西新聞聯(lián)播》《社會傳真》《新聞夜航》等節(jié)目,如播出的節(jié)目場景在疫情檢測現(xiàn)場、公共場所出現(xiàn)人員未佩戴口罩的畫面,將對受眾釋放錯誤的防疫信號。
相較于傳統(tǒng)的目標(biāo)檢測算法,基于深度學(xué)習(xí)的目標(biāo)檢測算法在精度、速度以及泛用性方面都得到了很多的提升[1]。鑒于此,基于深度學(xué)習(xí)的目標(biāo)檢測算法也被應(yīng)用于小區(qū)門禁、火車站刷臉進(jìn)站以及無人機拍攝等各個場景。疫情發(fā)生以來,大量的研究將目標(biāo)檢測應(yīng)用于口罩佩戴識別領(lǐng)域,如王藝皓等[2]改進(jìn)YOLOv3算法網(wǎng)絡(luò),使其在復(fù)雜場景下能夠精準(zhǔn)地檢測人員是否佩戴口罩。本文提出基于YOLOv4算法的口罩檢測模型,能夠?qū)崿F(xiàn)對口罩的識別并對人員是否佩戴口罩進(jìn)行檢測,同時融入MobileNetv2分類網(wǎng)絡(luò),快速準(zhǔn)確地完成分類。該模型能夠有效地提高節(jié)目審核的效率和準(zhǔn)確性,同時為新聞工作者制作節(jié)目提供良好的參考,為更好地宣傳江西形象提供技術(shù)支持。
該系統(tǒng)能夠?qū)Υ龑徍斯?jié)目進(jìn)行預(yù)審并檢測出人員是否佩戴口罩,并根據(jù)是否正確戴口罩將對象分為兩類,一類是口罩配戴整齊,另一類是口罩未佩戴整齊。系統(tǒng)通過攝像頭模塊提取視頻流圖像,也可以對圖像畫面一幀一幀地提取檢測。通過YOLOv4算法檢測模型[3]對畫面進(jìn)行檢測,判斷畫面中的人員是否佩戴口罩;再對口罩在人物面部的位置進(jìn)行精準(zhǔn)定位,輸入MobileNetv2分類網(wǎng)絡(luò),判斷口罩佩戴是否正確。
該系統(tǒng)主要包括圖像采集、圖像處理、圖像顯示功能模塊。圖像采集模塊包含兩臺上載錄像機,兩臺應(yīng)急上載錄像機。在平時的節(jié)目中,將需要上載的節(jié)目載體(如P2卡、磁帶、藍(lán)光盤)插入上載錄像機中,在上載模塊提取與之對應(yīng)的節(jié)目,對應(yīng)的上載通道顯示出節(jié)目視頻。如出現(xiàn)節(jié)目制作、審核時間緊張等情況,可直接插入圖像采集模塊下方的應(yīng)急錄像機中,在應(yīng)急錄像機打開文件,將節(jié)目視頻內(nèi)容顯示在液晶屏上。上載的節(jié)目一路儲存于主備視頻服務(wù)器中,提供播出視頻;另一路上傳至近線服務(wù)器中,進(jìn)行視頻技術(shù)審核。圖像處理模塊由兩臺計算機組成。一方面,可通過OpenCV使用Python語言編程連接近線視頻服務(wù)器,對節(jié)目內(nèi)容進(jìn)行技術(shù)審核。另一方面,在節(jié)目緊急播出的情況下,可由OpenCV打開計算機的攝像頭采集應(yīng)急錄像機中的視頻,從而實時獲取應(yīng)急錄像機中的圖像信息。圖像處理模塊將采集的口罩樣本輸入檢測網(wǎng)絡(luò)[4]中,運用深度神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行檢測分類。圖像顯示模塊將口罩檢測分類的結(jié)果顯示在系統(tǒng)的可視化界面上,可直觀看到系統(tǒng)檢測分類的結(jié)果。
YOLOv4是一種實時性的單階段目標(biāo)檢測算法,由主干網(wǎng)絡(luò)Backbone、特征融合的頸部和檢測頭組成。YOLOv4網(wǎng)絡(luò)將輸入圖像劃分為N×N網(wǎng)格,當(dāng)被測物體的中心坐標(biāo)落入其中一個網(wǎng)格時,則該網(wǎng)格負(fù)責(zé)目標(biāo)檢測。在識別過程中,每個網(wǎng)格單元預(yù)測B個邊界框,每個邊界框包含5個預(yù)測值:tx,ty,tw,th以及置信度[5],置信度表示預(yù)測目標(biāo)框的置信水平與預(yù)測精度。在本次實驗中,置信度設(shè)置為1.00。按式(1)計算預(yù)測框的中心坐標(biāo)bx,by和高度bh、寬度bw,σ是sigmoid函數(shù),pw、ph分別為先驗框的寬和高,tw、th是要學(xué)習(xí)的參數(shù)。
YOLOv4網(wǎng)絡(luò)檢測待播出節(jié)目中的人員是否佩戴口罩時,首先將需要檢測口罩的報道,如在核酸檢測現(xiàn)場[6]、火車站、醫(yī)院等公共場所采訪的視頻輸入YOLOv4網(wǎng)絡(luò)中。YOLOv4算法神經(jīng)網(wǎng)絡(luò)將圖片劃分為一張張網(wǎng)格,對圖片中可能出現(xiàn)口罩的區(qū)域進(jìn)行劃分,精準(zhǔn)地檢測出口罩,并輸出口罩在系統(tǒng)中的先驗中心坐標(biāo)(x,y),框的寬、高以及置信度等信息。
將上述YOLOv4算法神經(jīng)網(wǎng)絡(luò)中輸出的先驗中心坐標(biāo)(x,y),框的寬、高以及置信度等信息輸入MobileNetv2網(wǎng)絡(luò)模型中,對待分類的圖片進(jìn)行分類。MobileNetv2模型在原有的算法基礎(chǔ)上增加了線性瓶頸及有助于提高精度構(gòu)建更深網(wǎng)絡(luò)的倒殘差。實驗中,通過對口罩在人眼睛、鼻子、耳朵、臉部的位置等比例的準(zhǔn)確比照,能夠準(zhǔn)確地判斷人員是否正確佩戴口罩。其模型如表1所示,n代表瓶頸層重復(fù)的次數(shù),t代表瓶頸層內(nèi)部升維的倍率,c代表特征的維數(shù),k表示寬度縮放因子,s代表瓶頸層中第一個卷積的步幅。
表1 MobileNetv2模型
本文通過線上線下采集數(shù)據(jù)集。線上的數(shù)據(jù)集來自嗶哩嗶哩、央視頻、江西網(wǎng)絡(luò)廣播電視臺中的視頻;線下數(shù)據(jù)集采集來自火車站、地鐵、核酸檢測現(xiàn)場等公共場所。數(shù)據(jù)集包含未佩戴口罩、正確佩戴口罩、口罩佩戴不整齊的圖片。通過LableImg軟件對圖片進(jìn)行標(biāo)注,將佩戴口罩的標(biāo)注為Pass,口罩佩戴整齊的標(biāo)注為Other,如檢測的圖片未佩戴口罩標(biāo)注為Out,設(shè)置的置信度為1.00。
本文通過以下指標(biāo)評價人臉佩戴口罩檢測算法的性能。
式中:Tp表示檢測到的目標(biāo)類別與真實目標(biāo)類別一致的樣本數(shù)量,F(xiàn)P表示檢測到的目標(biāo)類別與真實目標(biāo)類別不一致的樣本數(shù)量,F(xiàn)N表示真實目標(biāo)存在但未被檢測出的樣本數(shù)量。
準(zhǔn)確率和平均準(zhǔn)確率計算如下:
式中:N表示所有目標(biāo)類別的數(shù)量,AP表示準(zhǔn)確率,mAP表示平均準(zhǔn)確率。
使用YOLOv4算法神經(jīng)網(wǎng)絡(luò)對江西廣播電視臺的節(jié)目進(jìn)行口罩檢測,并將得到的數(shù)據(jù)輸入MobileNetv2網(wǎng)絡(luò)中進(jìn)行分類,模型能夠精準(zhǔn)地檢測出視頻中未佩戴口罩的人物并報警。正確佩戴口罩的結(jié)果如圖1所示。Pass代表江西廣播電視臺節(jié)目中人員佩戴口罩的結(jié)果,Other代表正確佩戴結(jié)果。如檢測出人員未佩戴口罩或者未正確佩戴口罩的圖片,輸出的結(jié)果為Out。此時對該節(jié)目報警并停留在該視頻的具體畫面,顯示該幀在節(jié)目中的具體時間。該系統(tǒng)由專門的技術(shù)員進(jìn)行操作,為了確保節(jié)目審核的準(zhǔn)確性,可以人為地對模型輸出的結(jié)果進(jìn)行干預(yù),以確保審片工作順利進(jìn)行。經(jīng)測試,該模型的平均準(zhǔn)確率mAP高達(dá)97.6%。
圖1 正確佩戴口罩檢測結(jié)果
本文運用YOLOv4算法對江西廣播電視臺節(jié)目中人員是否佩戴口罩進(jìn)行檢測,同時引入MobileNetv2網(wǎng)絡(luò)對人員是否正確佩戴口罩進(jìn)行分類。實驗檢測平均準(zhǔn)確率達(dá)到97.6%,動態(tài)檢測速度最高每秒65幀,滿足高清電視畫面每秒25幀的標(biāo)準(zhǔn)。該口罩檢測系統(tǒng)有效地彌補了江西廣播電視臺對節(jié)目審核、制作中人員口罩是否正確佩戴的工作只能通過人工審片方式的不足。由于有戶外目標(biāo)較小、人物遮擋、強風(fēng)強雨環(huán)境等其他外界的干擾,導(dǎo)致實際檢測中仍然存在少量的漏檢、錯誤檢測的情況,以后將針對這些情況進(jìn)行更深入的研究。