監(jiān)控視頻中槍支自動檢測研究綜述

2020-01-10 14:14:48田師思

科學技術(shù)創(chuàng)新 2020年11期

田師思

（中國人民公安大學偵查與刑事科學技術(shù)學院，北京100038）

1 概述

由于涉槍案件對社會安全和穩(wěn)定影響極大，對此類案件的預防和打擊一直是各國警方工作的重中之重。利用數(shù)量眾多的監(jiān)控攝像頭發(fā)現(xiàn)非法的槍支使用，毫無疑問是嚴格槍支管理、打擊涉槍犯罪的一把利劍但我們?nèi)圆荒艿凸罎撛诘臉屩{。Darker 等人在Multi Environment Deployable Universal Software Application（多環(huán)境可部署通用軟件應用）項目中通過一系列資料調(diào)查和比較試驗，得出了用人工的方式檢測監(jiān)控視頻中出現(xiàn)的槍支效率很低，并且容易遺漏真實信息的結(jié)論[1-3]。如果我們有一套高效準確的槍支自動檢測系統(tǒng)安裝在城市監(jiān)控系統(tǒng)中，就能為警方提供先期預警，特別是發(fā)現(xiàn)一些案發(fā)于隱蔽環(huán)境或者人煙稀少地區(qū)，沒有目擊者報警的涉槍案件，在重大活動和特殊場所的安全保衛(wèi)中也能發(fā)揮巨大作用。所以希望通過對該問題研究成果的整理，為國內(nèi)有志于這方面研究的研究者提供參考。

2 研究成果介紹

槍支自動檢測是目標檢測領(lǐng)域里的一個問題，目前目標檢測的主流方法包括傳統(tǒng)的人工提取特征的檢測方法和基于深度學習的檢測方法，基于深度學習的檢測方法又包括基于Region Proposal 的檢測方法和基于回歸的目標檢測方法[4]。

2.1 基于人工提取特征的槍支自動檢測方法

Darker 等利用尺度不變特征變換匹配算法（Scale Invariant Feature Transform，SIFT）來檢測槍支。首先利用運動分割算法將提取監(jiān)控視頻中運動的人，然后去除陰影，最后用一個最小的矩形來選取最終的感興趣區(qū)域。將SIFT 特征庫與感興趣區(qū)域的SIFT 特征進行配對，來檢測是否存在槍支[5]。Micha Grega 等利用基于MPEG-7 視覺描述符的分類器來檢測槍支。作者發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)輸出的結(jié)果特異性低，假陽性數(shù)量多，于是使用了下一個基于MPEG-7 視覺描述符的分類器，該分類器使用了區(qū)域形狀描述符。描述符計算候選區(qū)域中的形狀描述符與手槍的通用描述符之間的歐幾里得距離，兩者之間的距離低于閾值，則該區(qū)域檢測到槍支[6]。Gyanendra K.Verma 等對槍支自動檢測的問題做了提出了三種解決方案，2015 年發(fā)表的兩篇文獻是基于是傳統(tǒng)的目標檢測方法，分別使用了Harris 角點檢測+Freak 特征提取和加速穩(wěn)健特征（Speeded up robust features，SURF）兩種方法。兩篇文章都使用K-means 聚類進行基于顏色的圖像分割，然后再提取特征[7,8]。第三種是基于深度學習的方法。Halima 等首先從圖像集合中提取SIFT 特征[9]。朱捷晨等對網(wǎng)絡(luò)圖像中涉及的槍支自動檢測提出了Hu 不變矩和模糊聚類相結(jié)合的方法[10]。

2.2 基于Region Proposal 的槍支自動檢測方法

GyanendraK.Verma 在2017 發(fā)表的文章提出使用深度神經(jīng)網(wǎng)絡(luò)VGG-16 來檢測槍支，并且比較了SVM、KNN 和Ensemble ree 三種分類器，最后得出VGG-16+Fine Gaussian 核支撐向量機能得到最佳的表現(xiàn)[11]。Justin Lai 等比較了VGG-16 和三種不同學習率和置信度下的Overfeat 網(wǎng)絡(luò)，發(fā)現(xiàn)在30%置信度和0.0003 的學習率下的Overfeat 能夠到達最好的表現(xiàn)。他們對1.3s/張的處理速度并不滿意，并提出要在今后的工作中提高精度和速度[12]。Roberto Olmos 等比較了基于sliding window 和region proposals 兩種候選區(qū)域提取方法，兩者都使用VGG-16網(wǎng)絡(luò)作為分類器，其中基于region proposals 的實驗采用Faster R-CNN 提取候選區(qū)域[13]。雷青等在安卓平臺上利用Faster R-CNN 網(wǎng)絡(luò)檢測網(wǎng)絡(luò)視頻中的槍支，提出在訓練集中，對含有槍支的圖像依據(jù)遮擋部位和遮擋程度分別標注為gun、gunHead、gunMid、gunEnd，檢測過程中分別對四種類型采用不同的閾值，同時增加每個類別的負樣本，標注為nGun、nGunHead、nGunMid、nGunEnd，以提高檢測精度[14]。

2.3 基于回歸的槍支自動檢測方法

吳晉等在FPGA 開發(fā)析DE5-Net 上運行YOLOv2 網(wǎng)絡(luò)檢測刀槍棍等，并且通過卷積算法加速、池化算法加速、BN 算法加速來盡可能減少運算時間。同時對比在CPU、GPU 上運行YOLOv2網(wǎng)絡(luò)檢測目標，發(fā)現(xiàn)在FPGA 平臺上的計算時間和計算功率都遠小于前兩者，特別是率減小到27.3w，僅僅是在CPU、GPU 上計算功率的1/5 和1/10[15]。

3 總結(jié)與展望

上述檢測方法，通過特征設(shè)計或者網(wǎng)絡(luò)的自我學習或多或少地解決了尺度、旋轉(zhuǎn)、方向、光照的變化、遮擋、槍支種類帶來的問題。

在基于深度學習的檢測方法中，研究人員都不約而同的采用了遷移學習的方法，對網(wǎng)絡(luò)進行預訓練。這樣的做法，能夠減少訓練速度，加快收斂。并且通過預訓練獲得一般化的共性特征，再針對特定問題進行訓練，在共性特征的基礎(chǔ)上，獲得強有力的針對性特征，是提高網(wǎng)絡(luò)精度的好方法。

在我國嚴格的控槍環(huán)境下，一般犯罪使用制式槍支已然不多見，大量仿制槍、自制槍應該是我們關(guān)注的主要對象。而這些非制式槍支，特別是自制槍，形態(tài)各異，有的甚至和一般槍支的形態(tài)相差甚遠，怎么讓神經(jīng)網(wǎng)絡(luò)學會識別這些非制式槍支，是槍支自動檢測在我國應用必須解決的問題。

監(jiān)控視頻中槍支自動檢測問題還是處于探索期，研究人員提出各自的解決方法，但離實際應用還相差甚遠。但是基于公安工作的特點，我們期待這個問題的早日解決。同時可以展望的是，監(jiān)控視頻中的實時目標檢測可以越來越多的應用于行人、車輛、摩托車、等各種對象，為預防、發(fā)現(xiàn)、打擊犯罪提供預警，為偵查提供更多的關(guān)于客體種類、來源方面的線索，為攝像頭加上“大腦”，構(gòu)建起新一代的城市智能監(jiān)控體系，服務(wù)于未來的城市管理。