郭 磊,李進強,黨 磊
(正元地理信息集團股份有限公司,北京 101300)
城市監(jiān)控視頻采集和處理技術(shù)是智慧城市建設(shè)的關(guān)鍵技術(shù).目標檢測算法是深度學習算法中重要的一部分,已經(jīng)在人臉識別、機械設(shè)備故障檢測等領(lǐng)域有了較好地應(yīng)用[1].在智慧城市案件圖像識別領(lǐng)域,目標檢測算法能夠根據(jù)事物的不同特征在一定重復(fù)學習的基礎(chǔ)上,精確判斷圖像內(nèi)容的分類,在一般城市案件識別中能夠發(fā)揮重要作用,如車輛違章停放、違規(guī)張貼廣告等.該算法還可以通過群體行為判斷案件的嚴重性,能夠及時向系統(tǒng)反饋異常情況.有效的城市案件圖像識別技術(shù)對提高城市案件發(fā)現(xiàn)和處理效率,節(jié)省城市人力物力資源有極大的影響[2].目標檢測算法在目前城市管理案件圖像自動識別的實際應(yīng)用上還存在一定問題,識別精度不高、檢測速度較慢等.有鑒于此,本次研究以提高檢測城市案件圖像識別的速度和精度為目標,構(gòu)建了基于改進卷積神經(jīng)網(wǎng)絡(luò)的目標檢測算法和圖像評價網(wǎng)絡(luò)模型.
卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型會涉及到大量且復(fù)雜的計算,其實質(zhì)是通過卷積層將初始特征圖像中提取出有效特征,實現(xiàn)圖像濾波[3].假設(shè)每個卷積層的初始特征圖是xi,則卷積運算表達式為:
式(1)中,Mj是初始特征圖像的集合,f(·)是激活函數(shù),*是卷積運算的數(shù)學符號.將第i和j個初始特征圖像的卷積層卷積核標記為Ki.
對第l層的神經(jīng)元的權(quán)重及更新值進行求解,首先需要計算節(jié)點處的靈敏度δ.
式(2)是位于第l層的j神經(jīng)元的靈敏度的計算公式.其中連接層l至連接層l+1之間結(jié)點的靈敏度的和為,其權(quán)重值為W.為一常數(shù),是第l+1下采樣層的初始特征圖像的權(quán)重.f′(ul)是第l層神經(jīng)元在輸入為u的情況下的激活函數(shù)的倒數(shù).
Bias 基的梯度的計算表達式為[4]:
卷積核梯度運算公式為:
此次研究使用卷積神經(jīng)網(wǎng)絡(luò)對智慧城市案件圖像進行自動識別,檢測網(wǎng)絡(luò)的基礎(chǔ)網(wǎng)絡(luò)為VGGNet,并增加了輔助層,共有cnv5_3、conv4_3 等8 個卷積層,其中cnv5_3、conv4_3 卷積層提供小目標特征.cnv5_3、conv4_3 兩個卷積層可將圖像中的某些具體特征進行提取分析,從而提高識別精度.小目標特征提取之后的圖像將通過儀器處理最終輸出尺寸相等的圖像.
檢測網(wǎng)絡(luò)在進行訓(xùn)練模型時,各網(wǎng)絡(luò)層可能由于相互連接造成輸入數(shù)據(jù)偏移或增大,影響訓(xùn)練效果[5,6].為了加快訓(xùn)練速度,防止偏移情況發(fā)生,本次研究構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)在傳統(tǒng)模型的激活函數(shù)前加入批次規(guī)范化(Batch Normalization,BN)層,將輸入激活函數(shù)的所有數(shù)據(jù)進行均值和標準差歸一化處理.
式(5)是BN 算法的向前步驟,其中B是單批次圖像特征,γ和β是學習重構(gòu)參數(shù),μB是BN的平均值,σB是BN的方差,代表規(guī)范化.在BN 算法運算時,輸入對象是γ和β,經(jīng)過批次規(guī)范化標準差和方差處理之后,輸出為yi.
傳統(tǒng)的神經(jīng)卷積層在處理非線性和存在一定抽象化特征的圖像時,精確率和速度都有所下降.針對智慧城市案件處理的特殊性,本次研究構(gòu)建的網(wǎng)絡(luò)使用多層感知層.針對城市案件圖像特征復(fù)雜導(dǎo)致的網(wǎng)絡(luò)參數(shù)過多的情況,此次研究在原來網(wǎng)絡(luò)的基礎(chǔ)上加入一個函數(shù)逼近器.研究構(gòu)建的帶逼近器的多感知層網(wǎng)絡(luò)與傳統(tǒng)線性卷積層對比情況如圖1所示.
圖1 典型和改進之后的卷積層對比
圖1(a)是典型的線性卷積層,圖1(b)是加入1×1卷積之后的卷積運算網(wǎng)絡(luò).函數(shù)逼近器的加入可以改變感知野中的網(wǎng)絡(luò)結(jié)構(gòu)進行抽象和非線性特征的提取.相比于典型的卷積層,改進之后的卷積層添加了一個1×1的卷積,并加入了一個經(jīng)過修正的線性激活函數(shù),表達式為:
式(6)中,x是輸入數(shù)據(jù).當輸入數(shù)據(jù)為正數(shù)時,經(jīng)過線性激活函數(shù)處理之后得到的數(shù)值為原數(shù)值.若輸入數(shù)據(jù)小于零,則核函數(shù)將輸入數(shù)值縮小十倍之后輸出.使用該線性激活函數(shù)可以降低特征圖的維度,擴大網(wǎng)絡(luò)的應(yīng)用規(guī)模,進而增加卷積神經(jīng)網(wǎng)絡(luò)的深度和寬度.
本次研究構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)算法流程如圖2所示.在圖像信息的前向傳播階段,算法會對初始權(quán)值進行隨機賦值.經(jīng)過多層感知層、函數(shù)逼近器和池化層處理,可以得到待測圖像最為全面的特征.之后全連接層會對多個隱含層的信息進行變換并傳輸至輸出層.輸出層的輸出結(jié)果與預(yù)期結(jié)果比較,若誤差函數(shù)滿足要求;則直接輸出結(jié)果,若不滿足要求,誤差和權(quán)值信息反向傳播,算法對其進行重新賦值.
圖2 改進的卷積神經(jīng)網(wǎng)絡(luò)算法流程圖
BP 神經(jīng)網(wǎng)絡(luò)的分布式存儲和并行協(xié)同處理機制能夠快速對的大量數(shù)據(jù)進行分析[7].典型的BP 神經(jīng)網(wǎng)絡(luò)的拓撲圖包含三層前饋網(wǎng),并且各層神經(jīng)元只與相鄰神經(jīng)元之間全連接,同層神經(jīng)元之間無連接,各層神經(jīng)元之間無反饋連接.
智慧城市案件識別模型的評價網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖3所示,共有輸入層、隱含層和輸出層3 部分構(gòu)成.輸入層的輸入數(shù)據(jù)是案件圖像中關(guān)鍵內(nèi)容的中心偏移量x,y和尺寸w,h.通過輸入數(shù)據(jù)的正向傳播和出現(xiàn)誤差后實施的反向傳播,不斷縮小誤差函數(shù)值,從而實現(xiàn)提高輸出數(shù)據(jù)精確度的目的.
圖3 城市案件圖像的評價網(wǎng)絡(luò)圖
在對評價網(wǎng)絡(luò)進行訓(xùn)練時,需要將案件圖像進行處理,獲取關(guān)鍵內(nèi)容的主要數(shù)據(jù).這些數(shù)據(jù)輸入訓(xùn)練網(wǎng)絡(luò),通過圖像分類和不同圖像關(guān)鍵內(nèi)容的區(qū)別進行BP 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,從而對案件類型做出準確地判斷.如果訓(xùn)練樣本集的內(nèi)容較少,很容易出現(xiàn)訓(xùn)練結(jié)果擬合的現(xiàn)象[8,9].針對這一情況,本次研究使用數(shù)據(jù)集擴充的方式增加樣本數(shù)據(jù),對原始圖片設(shè)置0°、90°、180°和270°的旋轉(zhuǎn)角度,從而擴充數(shù)據(jù),提升網(wǎng)絡(luò)學習圖像不變性特征的能力.本次研究的損失網(wǎng)絡(luò)可以分為兩個部分:回歸誤差和類別誤差.
式(7)是本次研究的網(wǎng)絡(luò)損失函數(shù)表達式,其中c是置信度,l是預(yù)測框,g是真實的框.N表示匹配到的默認框的數(shù)量,α反映定位損失和置信度損失權(quán)重的比例情況.
本次研究中目標物的位置損失表示如下:
目標檢測算法在對彩色圖像進行處理時所消耗的時間和數(shù)據(jù)容量遠超于處理灰色圖像,而智慧城市的管理系統(tǒng)要求目標檢測算法能夠快速對案件圖像進行識別[10].由此,灰度化圖像的過程必不可少.
本次研究采用加權(quán)平均的方法對圖像進行處理,公式具體內(nèi)容如下:
式(2)中,灰度化加權(quán)系數(shù)a,b,c分別取值為0.3、0.59、0.11.
案件圖像的像素灰度值的公式為:
式(10)中,R為案件圖像的紅色分量,G為綠色分量,B為藍色分量.
城市案件圖像灰度化處理結(jié)果如圖4所示.圖4(a)是未經(jīng)處理的城市車輛違章停靠圖像;圖4(b)是經(jīng)過灰度變換之后的圖像.灰度化處理之后圖像的關(guān)鍵信息的清晰度并未有下降,并且明暗、陰影、對比等信息均可以通過對比不同部分的灰度值獲取.
圖4 城市案件圖像灰度化處理結(jié)果
從案件圖像中提取關(guān)鍵目標信息還需要克服背景和噪聲因素影響,本次研究采用灰度閾值化的方法提取圖像的關(guān)鍵內(nèi)容,將復(fù)雜的背景設(shè)置為0,前景目標值設(shè)置為255[11,12].由此經(jīng)過處理之后得到的圖像便只有黑色和白色兩種顏色,更加有利于對案件圖像進行分析,提高案件處理的速效率.此次研究采用二值化方法,通過最大類間差法計算得到:
式(11)中,w0、w1分別是圖像前景、圖像點數(shù)占據(jù)整張圖的比例值,u0、u1分別是前景和背景的平均灰度值,g是類間方差值.
式(12)是對式(11)的進一步推導(dǎo).當類間方差值取最大值時,圖像的前景和背景的差異度達到最大,此時分割前景和圖像背景的閾值為T處于最佳狀態(tài).
圖5(a)是經(jīng)過灰度化處理之后得到的案件圖像,圖5(b)是經(jīng)過灰度閾值化之后的圖像.經(jīng)過處理之后,圖像僅有黑白兩種顏色,并且圖像特征更加鮮明,目標檢測算法對圖像的處理效率和精確度也會因圖像特征的鮮明而顯著提高.
圖5 案件圖像的二值化處理結(jié)果
目前在城市案件圖像檢測領(lǐng)域并沒有明確的標準數(shù)據(jù)集,本次研究以實際城市管理系統(tǒng)常見的案件為分類依據(jù),以網(wǎng)絡(luò)上公開來源的案件圖片為數(shù)據(jù)集來源,以城市管理監(jiān)控視頻中提取的關(guān)鍵幀為補充,構(gòu)建了8 個典型城市案件的圖像數(shù)據(jù)庫,8 種分類包括非機動車違章停放、共享單車違規(guī)停放、雨水算子損壞、井蓋損壞、亂涂亂畫張貼廣告、暴露性垃圾、交通護欄破損和機動車違章停放等8 類.將不清晰、內(nèi)容真實性存疑的圖片進行刪除,最終得到的數(shù)據(jù)集中共有9345 張圖片,每類城市案件約有1168 張圖片.每類圖片的60%為訓(xùn)練集,其余圖片為測試集.
圖6是數(shù)據(jù)集中4 類案件類型的示例圖,每張圖片的案件類型具有鮮明的特征,并無車輛、綠化、建筑等遮蔽物的遮擋.8 類典型城市案件類型的編號分別為event 0551、event 0552、unite 0550、unite 0100、event 0201、event 0102、unite 0211、event 0550.
本次研究對構(gòu)建的基于卷積神經(jīng)網(wǎng)絡(luò)的目標檢測算法的測試在Ubuntu18.04 操作系統(tǒng)上進行,采用TensorFlow 深度學習框架.研究提出的算法與Fast RCNN、Faster R-CNN、YOLO、SDD 算法的測試結(jié)果對比情況如圖7所示.
圖6 智慧城市案件圖像數(shù)據(jù)集示例圖(部分)
圖7 5 種算法的案件圖像識別結(jié)果
圖7是幾種算法的對比實驗結(jié)果情況,本次研究構(gòu)建的目標檢測算法在8 類典型城市案件圖像的識別上具有較好的識別效果,對各種類型的案件識別的準確率均在72%以上,識別“亂涂亂畫張貼廣告”類型圖像的準確率達到了83.4%.Faster R-CNN 算法的識別效果略遜于本文算法,但是相較于YOLO 算法等具有較高的識別準確率.這是由于本次研究構(gòu)建的目標檢測算法在卷積神經(jīng)網(wǎng)絡(luò)中增加了提取小目標特征的層數(shù).此次研究構(gòu)建的自動識別技術(shù)的mAP 值為76.8%,高于其他技術(shù).
圖8是圖像幀數(shù)為10 fps的情況下,不同自動識別技術(shù)對測試集中所有圖像的處理情況.圖像直觀顯示,各類算法檢測速度的情況為:SDD 算法(48 s)>YOLO 算法(47 s)>本文算法(40 s)>Faster R-CNN 算法(32 s)>Fast R-CNN 算法(25 s).本次研究構(gòu)建的算法處理圖像速度處于中等水平,并且與最高水平相差不大.而檢測速度最高的SDD 算法的識別精確度最低,實際應(yīng)用價值不大.本次研究構(gòu)建的算法在圖像識別精度和檢測速度中有一定均衡,在保證識別效率的同時,也確保了識別的準確性.
圖8 5 種算法識別案件圖像類型耗時對比
以VOC2007+2012為數(shù)據(jù)集對100 Hz DPM、30 Hz DPM、YOLO、SDD 以及本文算法進行訓(xùn)練和檢測,檢測結(jié)果如圖9所示.從圖中可以看出,雖然100 Hz DPM的檢測速度最高,但是其檢測精度卻很低,并不能滿足城市案件處理中對識別算法精確度和處理速度的要求.而本次研究構(gòu)建的算法雖然在檢測速度上處于中等水平,但是精測精度最高.由此證明該算法具有較優(yōu)的有效性和魯棒性.
圖9 VOC2007+2012 環(huán)境下的實驗結(jié)果
城市案件的發(fā)現(xiàn)和識別速度是體現(xiàn)智慧城市管理水平的重要標準之一,傳統(tǒng)的人工檢測方式處理速度較慢、識別精度較低.將深度學習與智能檢測技術(shù)相結(jié)合是目前學術(shù)界研究的熱點方向.有鑒于此,本次研究構(gòu)造了基于改進卷積神經(jīng)網(wǎng)絡(luò)的目標檢測算法,運用多層網(wǎng)絡(luò)結(jié)構(gòu)提取小目標特征.研究將改進之后的算法與YOLO 算法等典型目標檢測算法進行對比,結(jié)果表明,改進之后的算法相比于其他算法,魯棒性和精確度有了明顯提升,在檢測準確率上可達83.4%.本次研究提出的識別技術(shù)能夠為建筑智慧城市、提升城市安全提供一定的保障.但是目前缺乏標準、權(quán)威且成熟的城市案件數(shù)據(jù)集,因此后續(xù)還需要進行數(shù)據(jù)擴充,進一步檢驗自動識別技術(shù)的性能,改進其中可能存在的問題.