曾廣華,楊桂忠,郭壽南,陳朝明,羅曉松,夏琪凱,徐貴良
(1.江西廣播電視臺,江西 南昌 330006;2.江西省廣播電視監(jiān)測中心,江西 南昌 330038)
江西廣播電視臺每天播出大量的視頻內容,疫情常態(tài)化期間,播出的視頻涉及大量戴口罩的相關視頻。江西廣播電視臺目前的檢測系統(tǒng)只能對節(jié)目黑場、靜幀、超過3 s的靜音進行報警,對于是否畫面中人員是否正確佩戴口罩的檢測工作,只能通過人工審核的方式進行。以江西衛(wèi)視為例,針對《江西新聞聯(lián)播》《社會傳真》《新聞夜航》等節(jié)目,如播出的節(jié)目場景在疫情檢測現(xiàn)場、公共場所出現(xiàn)人員未佩戴口罩的畫面,將對受眾釋放錯誤的防疫信號。
相較于傳統(tǒng)的目標檢測算法,基于深度學習的目標檢測算法在精度、速度以及泛用性方面都得到了很多的提升[1]。鑒于此,基于深度學習的目標檢測算法也被應用于小區(qū)門禁、火車站刷臉進站以及無人機拍攝等各個場景。疫情發(fā)生以來,大量的研究將目標檢測應用于口罩佩戴識別領域,如王藝皓等[2]改進YOLOv3算法網(wǎng)絡,使其在復雜場景下能夠精準地檢測人員是否佩戴口罩。本文提出基于YOLOv4算法的口罩檢測模型,能夠實現(xiàn)對口罩的識別并對人員是否佩戴口罩進行檢測,同時融入MobileNetv2分類網(wǎng)絡,快速準確地完成分類。該模型能夠有效地提高節(jié)目審核的效率和準確性,同時為新聞工作者制作節(jié)目提供良好的參考,為更好地宣傳江西形象提供技術支持。
該系統(tǒng)能夠對待審核節(jié)目進行預審并檢測出人員是否佩戴口罩,并根據(jù)是否正確戴口罩將對象分為兩類,一類是口罩配戴整齊,另一類是口罩未佩戴整齊。系統(tǒng)通過攝像頭模塊提取視頻流圖像,也可以對圖像畫面一幀一幀地提取檢測。通過YOLOv4算法檢測模型[3]對畫面進行檢測,判斷畫面中的人員是否佩戴口罩;再對口罩在人物面部的位置進行精準定位,輸入MobileNetv2分類網(wǎng)絡,判斷口罩佩戴是否正確。
該系統(tǒng)主要包括圖像采集、圖像處理、圖像顯示功能模塊。圖像采集模塊包含兩臺上載錄像機,兩臺應急上載錄像機。在平時的節(jié)目中,將需要上載的節(jié)目載體(如P2卡、磁帶、藍光盤)插入上載錄像機中,在上載模塊提取與之對應的節(jié)目,對應的上載通道顯示出節(jié)目視頻。如出現(xiàn)節(jié)目制作、審核時間緊張等情況,可直接插入圖像采集模塊下方的應急錄像機中,在應急錄像機打開文件,將節(jié)目視頻內容顯示在液晶屏上。上載的節(jié)目一路儲存于主備視頻服務器中,提供播出視頻;另一路上傳至近線服務器中,進行視頻技術審核。圖像處理模塊由兩臺計算機組成。一方面,可通過OpenCV使用Python語言編程連接近線視頻服務器,對節(jié)目內容進行技術審核。另一方面,在節(jié)目緊急播出的情況下,可由OpenCV打開計算機的攝像頭采集應急錄像機中的視頻,從而實時獲取應急錄像機中的圖像信息。圖像處理模塊將采集的口罩樣本輸入檢測網(wǎng)絡[4]中,運用深度神經網(wǎng)絡對圖像進行檢測分類。圖像顯示模塊將口罩檢測分類的結果顯示在系統(tǒng)的可視化界面上,可直觀看到系統(tǒng)檢測分類的結果。
YOLOv4是一種實時性的單階段目標檢測算法,由主干網(wǎng)絡Backbone、特征融合的頸部和檢測頭組成。YOLOv4網(wǎng)絡將輸入圖像劃分為N×N網(wǎng)格,當被測物體的中心坐標落入其中一個網(wǎng)格時,則該網(wǎng)格負責目標檢測。在識別過程中,每個網(wǎng)格單元預測B個邊界框,每個邊界框包含5個預測值:tx,ty,tw,th以及置信度[5],置信度表示預測目標框的置信水平與預測精度。在本次實驗中,置信度設置為1.00。按式(1)計算預測框的中心坐標bx,by和高度bh、寬度bw,σ是sigmoid函數(shù),pw、ph分別為先驗框的寬和高,tw、th是要學習的參數(shù)。
YOLOv4網(wǎng)絡檢測待播出節(jié)目中的人員是否佩戴口罩時,首先將需要檢測口罩的報道,如在核酸檢測現(xiàn)場[6]、火車站、醫(yī)院等公共場所采訪的視頻輸入YOLOv4網(wǎng)絡中。YOLOv4算法神經網(wǎng)絡將圖片劃分為一張張網(wǎng)格,對圖片中可能出現(xiàn)口罩的區(qū)域進行劃分,精準地檢測出口罩,并輸出口罩在系統(tǒng)中的先驗中心坐標(x,y),框的寬、高以及置信度等信息。
將上述YOLOv4算法神經網(wǎng)絡中輸出的先驗中心坐標(x,y),框的寬、高以及置信度等信息輸入MobileNetv2網(wǎng)絡模型中,對待分類的圖片進行分類。MobileNetv2模型在原有的算法基礎上增加了線性瓶頸及有助于提高精度構建更深網(wǎng)絡的倒殘差。實驗中,通過對口罩在人眼睛、鼻子、耳朵、臉部的位置等比例的準確比照,能夠準確地判斷人員是否正確佩戴口罩。其模型如表1所示,n代表瓶頸層重復的次數(shù),t代表瓶頸層內部升維的倍率,c代表特征的維數(shù),k表示寬度縮放因子,s代表瓶頸層中第一個卷積的步幅。
表1 MobileNetv2模型
本文通過線上線下采集數(shù)據(jù)集。線上的數(shù)據(jù)集來自嗶哩嗶哩、央視頻、江西網(wǎng)絡廣播電視臺中的視頻;線下數(shù)據(jù)集采集來自火車站、地鐵、核酸檢測現(xiàn)場等公共場所。數(shù)據(jù)集包含未佩戴口罩、正確佩戴口罩、口罩佩戴不整齊的圖片。通過LableImg軟件對圖片進行標注,將佩戴口罩的標注為Pass,口罩佩戴整齊的標注為Other,如檢測的圖片未佩戴口罩標注為Out,設置的置信度為1.00。
本文通過以下指標評價人臉佩戴口罩檢測算法的性能。
式中:Tp表示檢測到的目標類別與真實目標類別一致的樣本數(shù)量,F(xiàn)P表示檢測到的目標類別與真實目標類別不一致的樣本數(shù)量,F(xiàn)N表示真實目標存在但未被檢測出的樣本數(shù)量。
準確率和平均準確率計算如下:
式中:N表示所有目標類別的數(shù)量,AP表示準確率,mAP表示平均準確率。
使用YOLOv4算法神經網(wǎng)絡對江西廣播電視臺的節(jié)目進行口罩檢測,并將得到的數(shù)據(jù)輸入MobileNetv2網(wǎng)絡中進行分類,模型能夠精準地檢測出視頻中未佩戴口罩的人物并報警。正確佩戴口罩的結果如圖1所示。Pass代表江西廣播電視臺節(jié)目中人員佩戴口罩的結果,Other代表正確佩戴結果。如檢測出人員未佩戴口罩或者未正確佩戴口罩的圖片,輸出的結果為Out。此時對該節(jié)目報警并停留在該視頻的具體畫面,顯示該幀在節(jié)目中的具體時間。該系統(tǒng)由專門的技術員進行操作,為了確保節(jié)目審核的準確性,可以人為地對模型輸出的結果進行干預,以確保審片工作順利進行。經測試,該模型的平均準確率mAP高達97.6%。
圖1 正確佩戴口罩檢測結果
本文運用YOLOv4算法對江西廣播電視臺節(jié)目中人員是否佩戴口罩進行檢測,同時引入MobileNetv2網(wǎng)絡對人員是否正確佩戴口罩進行分類。實驗檢測平均準確率達到97.6%,動態(tài)檢測速度最高每秒65幀,滿足高清電視畫面每秒25幀的標準。該口罩檢測系統(tǒng)有效地彌補了江西廣播電視臺對節(jié)目審核、制作中人員口罩是否正確佩戴的工作只能通過人工審片方式的不足。由于有戶外目標較小、人物遮擋、強風強雨環(huán)境等其他外界的干擾,導致實際檢測中仍然存在少量的漏檢、錯誤檢測的情況,以后將針對這些情況進行更深入的研究。