摘要:為有效提升河湖采砂船智能化管理水平,提出了一種基于改進(jìn)FaceNet的河湖采砂船“船臉”識(shí)別算法。首先在FaceNet算法網(wǎng)絡(luò)的全局平均池化層后引入CA注意力模塊,增強(qiáng)算法對(duì)于感興趣區(qū)域的自適應(yīng)關(guān)注能力;其次訓(xùn)練時(shí)在網(wǎng)絡(luò)的最后引入線性層構(gòu)建采砂船個(gè)體“船臉”識(shí)別器,將分類和識(shí)別的方法相結(jié)合共同應(yīng)用于采砂船“船臉”識(shí)別;最后在訓(xùn)練時(shí)引入交叉熵?fù)p失函數(shù),輔助原FaceNet算法中的三元組損失函數(shù)共同實(shí)現(xiàn)收斂。實(shí)驗(yàn)結(jié)果表明:改進(jìn)的FaceNet算法對(duì)于白天場景下采砂船個(gè)體“船臉”目標(biāo)識(shí)別的正確率比改進(jìn)前提高了4.77%,達(dá)79.22%;夜間場景下目標(biāo)識(shí)別的正確率提高了2.83%。研究成果適用于采砂船“船臉”識(shí)別任務(wù),可為河湖采砂船的智能監(jiān)管提供技術(shù)參考。
關(guān) 鍵 詞:采砂船監(jiān)管;FaceNet;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);目標(biāo)識(shí)別
中圖法分類號(hào):TP391.41
文獻(xiàn)標(biāo)志碼:ADOI:10.16232/j.cnki.1001-4179.2024.08.031
0 引 言
采砂船智能監(jiān)管是河湖采砂智能監(jiān)管的重要組成部分。無證開采和超采等無序采砂現(xiàn)象可使堤防、橋梁、碼頭和水下光纜等基礎(chǔ)設(shè)施遭到破壞,嚴(yán)重威脅河段防洪安全、船舶航行安全和水域生態(tài)安全,因此加強(qiáng)對(duì)河湖采砂船的監(jiān)管具有重要意義。
目前對(duì)于河湖采砂船的監(jiān)管識(shí)別以人工巡檢、紅外識(shí)別、定位或傳統(tǒng)的機(jī)器學(xué)習(xí)算法為主。針對(duì)非法采砂行為管理難、監(jiān)督難和監(jiān)控難的問題,曹榮等[1]融合了水下偵聽器獲取的音頻信號(hào)和紅外監(jiān)控視頻數(shù)據(jù)分析方法,自動(dòng)監(jiān)測非法采砂船。呂奕霖[2]利用GPS定位技術(shù)、電子圍欄技術(shù)、RFID標(biāo)簽和RFID讀寫器技術(shù)、4G和GPRS無線傳輸技術(shù)、DC視頻攝像技術(shù)等對(duì)采砂船和運(yùn)砂車輛進(jìn)行實(shí)時(shí)定位。肖文等[3]通過GPS、智能感知設(shè)備和圖像識(shí)別技術(shù)實(shí)現(xiàn)對(duì)重點(diǎn)水域非法采砂活動(dòng)的自動(dòng)識(shí)別和遠(yuǎn)程取證,并采用視頻級(jí)聯(lián)技術(shù)實(shí)現(xiàn)視頻本地存儲(chǔ)和遠(yuǎn)程調(diào)閱。付永沖[4]介紹了采用Asp.net 3層WEB結(jié)構(gòu)開發(fā)的采砂船舶管理系統(tǒng)的設(shè)計(jì)思路。鮑凱等[5]運(yùn)用北斗導(dǎo)航定位技術(shù)設(shè)計(jì)了采砂船舶位置跟蹤和航行線路的實(shí)時(shí)監(jiān)控系統(tǒng),可根據(jù)采砂船的位置和時(shí)間來判斷采砂船采砂作業(yè)是否合法。江玉才等[6]采用先進(jìn)的全球定位系統(tǒng)、傳感器技術(shù)、無線傳輸技術(shù)、視頻監(jiān)控與智能分析技術(shù)完成可采區(qū)采砂作業(yè)的動(dòng)態(tài)監(jiān)測,對(duì)采砂范圍、開采量、開采時(shí)間等采砂情況進(jìn)行及時(shí)監(jiān)測管理。Cao等[7]利用MODIS影像與實(shí)地巡查數(shù)據(jù)建立了洪澤湖懸浮顆粒物濃度估算算法,并將洪澤湖懸浮顆粒物濃度的顯著變化歸因于密集的采砂活動(dòng)。Duan等[8]在日間影像的基礎(chǔ)上使用了VIIRS晝夜波段夜間燈光數(shù)據(jù),總結(jié)得到了洪澤湖采砂船的時(shí)空分布特征。Li等[9]通過湖面分區(qū)、船舶目標(biāo)增強(qiáng)和懸浮泥沙反演結(jié)果疊加分析來提取鄱陽湖采砂船作業(yè)點(diǎn),并用底質(zhì)類型分類結(jié)果進(jìn)行結(jié)果的驗(yàn)證。Feng等[10]建立了鄱陽湖北湖年平均懸浮泥沙濃度與北湖最南端船舶數(shù)的回歸關(guān)系。De等[11]利用衛(wèi)星圖像估計(jì)了禁砂期離開鄱陽湖的船只數(shù)量,并評(píng)估了鄱陽湖采砂的影響。Lai等[12]發(fā)現(xiàn)鄱陽湖的外流河道會(huì)隨著采砂強(qiáng)度的變大而加寬加深。以上研究中采用的監(jiān)控方法存在成本高、效率低、精度低和不能持續(xù)有效監(jiān)測等問題。依靠人工河道巡檢的方法會(huì)受到夜間環(huán)境等因素的限制,人工成本高且無法做到7×24 h持續(xù)有效監(jiān)測,還容易受到主觀因素的影響出現(xiàn)誤判和漏判。夜間環(huán)境下依靠紅外識(shí)別的方法準(zhǔn)確率低、會(huì)大量漏檢且無法精確識(shí)別船體尺寸?;诙ㄎ坏姆椒ň鹊?、誤差大而且觀察不夠直觀。傳統(tǒng)的機(jī)器學(xué)習(xí)算法基于樣本特征依靠手工設(shè)計(jì)模型進(jìn)行采砂船識(shí)別,魯棒性不高且泛化能力不強(qiáng),無法隨著新樣本的增加而更新算法。隨著硬件性能的高速發(fā)展,各行各業(yè)都在大力推進(jìn)大數(shù)據(jù)和人工智能等技術(shù)的創(chuàng)新和深入應(yīng)用,將基于深度學(xué)習(xí)的目標(biāo)識(shí)別算法應(yīng)用于河湖采砂船的智能監(jiān)管具有廣泛的應(yīng)用前景和重要的現(xiàn)實(shí)意義。
針對(duì)上述河湖采砂船監(jiān)管中存在的難點(diǎn),同時(shí)結(jié)合河湖采砂智能監(jiān)管關(guān)鍵技術(shù)項(xiàng)目的需求,本文提出改進(jìn)的FaceNet[13]“船臉”識(shí)別方法,在主干網(wǎng)絡(luò)中引入CA(coordinate attention)注意力模塊[14],在FaceNet網(wǎng)絡(luò)最后引入線性層,形成改進(jìn)的識(shí)別器,同時(shí)引入交叉熵?fù)p失結(jié)合三元組損失共同作為FaceNet識(shí)別方法的損失函數(shù)。
1 算法流程
基于改進(jìn)FaceNet的河湖采砂船“船臉”識(shí)別流程分為兩個(gè)步驟。第一步,輸入采砂船圖像。首先經(jīng)過改進(jìn)的YOLOX算法[15-20]進(jìn)行采砂船“船臉”目標(biāo)的分類和定位,以提高YOLOX算法對(duì)于復(fù)雜場景下河湖過往船舶的檢測精度,如果檢測到采砂船“船臉”圖像則進(jìn)行截取。第二步,將第一步中檢測并截取到的“船臉”圖像送入改進(jìn)的FaceNet識(shí)別算法進(jìn)行“船臉”個(gè)體識(shí)別。這里的采砂船“船臉”識(shí)別是指首先將兩張采砂船正面圖像經(jīng)過改進(jìn)的FaceNet識(shí)別算法提取特征,生成長度為128的特征向量,然后計(jì)算兩個(gè)特征向量之間的歐氏距離,最后將計(jì)算得到的歐氏距離與在評(píng)估改進(jìn)的FaceNet識(shí)別算法過程中使用交叉驗(yàn)證得到的最佳判斷閾值進(jìn)行比較。如果歐式距離小于最佳判斷閾值,則認(rèn)為兩張采砂船正面圖像屬于同一艘采砂船,反之則認(rèn)為屬于不同的采砂船?;诟倪M(jìn)FaceNet的河湖采砂船“船臉”整體識(shí)別流程如圖1所示。
2 模型結(jié)構(gòu)
針對(duì)具體的河湖采砂船“船臉”識(shí)別任務(wù),對(duì)FaceNet識(shí)別算法進(jìn)行改進(jìn),首先在全局平均池化后引入CA注意力模塊,增強(qiáng)對(duì)于“船臉”對(duì)象的自適應(yīng)關(guān)注,其次針對(duì)數(shù)據(jù)集中采砂船個(gè)體數(shù)量較少的特點(diǎn),訓(xùn)練時(shí)在網(wǎng)絡(luò)批標(biāo)準(zhǔn)化層后引入一個(gè)線性層用于具體采砂船個(gè)體識(shí)別,將輸出由固定長度的特征向量映射為采砂船“船臉”個(gè)體數(shù),最后結(jié)合引入的交叉熵?fù)p失函數(shù)輔助三元組損失函數(shù)收斂。改進(jìn)的FaceNet河湖采砂船“船臉”識(shí)別算法可以很好地應(yīng)用于采砂船“船臉”識(shí)別,為河湖采砂船的智能監(jiān)管提供有效的技術(shù)支撐。改進(jìn)FaceNet的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
2.1 改進(jìn)的識(shí)別器
由于本文所用的采砂船“船臉”數(shù)據(jù)集中采砂船數(shù)量相對(duì)較少(訓(xùn)練集20艘采砂船,測試集10艘采砂船),因此訓(xùn)練時(shí)在網(wǎng)絡(luò)的結(jié)尾引入一個(gè)線性層構(gòu)成采砂船“船臉”識(shí)別器,用于具體的采砂船個(gè)體“船臉”識(shí)別。線性層的輸入為批標(biāo)準(zhǔn)化層長度為128的特征向量輸出,線性層的輸出為采砂船的個(gè)體數(shù)。通過此線性層構(gòu)成的組別器將網(wǎng)絡(luò)的輸出由固定128長度的特征向量映射為采砂船個(gè)體數(shù),最后結(jié)合引入的交叉熵?fù)p失函數(shù)輔助三元組損失收斂。在預(yù)測時(shí)仍然使用不加此線性層的輸出,即預(yù)測輸出為長度128的特征向量,然后計(jì)算不同特征向量之間的歐氏距離。線性層的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
線性層的計(jì)算公式為
z=wTx+b(1)
式中:z為線性層的加權(quán)輸出,x為線性層的輸入,wT為線性層權(quán)重矩陣的轉(zhuǎn)置;b為線性層的偏置。
2.2 改進(jìn)的損失函數(shù)
為訓(xùn)練在網(wǎng)絡(luò)中引入的用于預(yù)測采砂船“船臉”個(gè)體的線性層構(gòu)成的識(shí)別器,同時(shí)輔助三元組損失函數(shù)收斂,在FaceNet采砂船“船臉”識(shí)別算法中引入交叉熵?fù)p失函數(shù)。對(duì)于多分類問題,交叉熵?fù)p失函數(shù)的公式為
式中:CEloss為交叉熵?fù)p失函數(shù),NLL為對(duì)預(yù)測結(jié)果取負(fù)求和的運(yùn)算,lg為對(duì)數(shù)函數(shù),softmax為歸一化指數(shù)函數(shù),input為網(wǎng)絡(luò)的輸入,label為真實(shí)標(biāo)簽值,onehot為獨(dú)熱編碼操作。獨(dú)熱編碼操作是指取出每個(gè)樣本的真實(shí)標(biāo)簽值對(duì)應(yīng)的下標(biāo)位置,該位置的值獨(dú)熱編碼為1,其余位置的值獨(dú)熱編碼為0。
2.3 CA注意力模塊
為提升FaceNet識(shí)別算法對(duì)于“船臉”特征信息的獲取能力,在FaceNet網(wǎng)絡(luò)中引入CA注意力模塊。CA注意力模塊將通道注意力分解為兩個(gè)一維特征編碼過程,分別沿兩個(gè)方向進(jìn)行特征融合。在一個(gè)空間方向上捕獲遠(yuǎn)程的依賴關(guān)系,同時(shí)在另一個(gè)空間方向上保留精確的位置信息。然后將生成的特征圖編碼為一對(duì)方向感知和位置敏感的注意力特征圖,實(shí)現(xiàn)互補(bǔ),最后將輸入特征圖與此注意力特征圖相乘即得到CA注意力模塊的輸出。CA注意力模塊結(jié)構(gòu)如圖4所示,圖中,Input為模塊輸入,Output為模塊輸出,AvgPool為平均池化操作,Concat為通道拼接的特征融合操作,Conv(1×1)為1×1的卷積操作,BatchNorm為批標(biāo)準(zhǔn)化操作[21],ReLU和Sigmoid為激活函數(shù)[22],Re-Weight為加權(quán)操作。
CA注意力模塊的具體實(shí)現(xiàn)流程為:給定輸入,將其在兩個(gè)維度上進(jìn)行分解,使用維度為(H,1)和(1,W)的池化核,使其分別沿著水平和垂直坐標(biāo)方向進(jìn)行全局平均池化操作[23],如式(3)和式(4)所示。
式中:zhc(h)為沿高度方向進(jìn)行全局平均池化的結(jié)果,zwc(w)為沿寬度方向進(jìn)行全局平均池化的結(jié)果,w為輸入特征圖的寬度值,h為輸入特征圖的高度值,xc為輸入特征圖。將不同方向上全局平均池化操作生成的兩個(gè)特征向量進(jìn)行拼接,然后使用卷積核大小為1×1的卷積操作對(duì)其通道維度進(jìn)行壓縮,再經(jīng)過批標(biāo)準(zhǔn)化和ReLU激活函數(shù)處理,此過程如式(5)所示。
式中: f為輸出特征圖,δ為ReLU激活函數(shù),F(xiàn)1為卷積核大小為1×1的卷積操作,[]為沿空間維度的拼接操作。
隨后將上一步的輸出特征圖f分別沿空間和通道兩個(gè)方向分解成2個(gè)單獨(dú)的張量fh∈?C/r×H和fw∈?C/r×W,其中r為通道壓縮的比例,分別對(duì)兩個(gè)張量進(jìn)行1×1卷積和Sigmoid激活處理,得到輸出加權(quán)特征向量,其過程如式(6)和式(7)所示。
gh=σ(Fh(fh))(6)
gw=σ(Fw(fw))(7)
式中:gh為沿高度方向的輸出特征圖,gw為沿寬度方向的輸出特征圖,σ為Sigmoid激活函數(shù),F(xiàn)h為沿高度方向的1×1卷積,F(xiàn)w為沿寬度方向的1×1卷積。將上面得到的兩個(gè)加權(quán)特征向量乘上原輸入即得到CA注意力模塊的輸出,其過程如式(8)所示。
yc(i,j)=xc(i,j)×ghc(i)×gwc(j)(8)
式中:yc(i,j)為CA注意力模塊的輸出特征圖,xc(i,j)為CA注意力模塊的輸入特征圖。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)
為驗(yàn)證本文改進(jìn)FaceNet河湖采砂船“船臉”識(shí)別算法的有效性,使用白天和夜間場景下的自制采砂船“船臉”數(shù)據(jù)集訓(xùn)練改進(jìn)FaceNet“船臉”識(shí)別算法。由于每艘采砂船“船臉”個(gè)體都由所有者自行建造,因此不同“船臉”的差異主要體現(xiàn)在每艘采砂船“船臉”的固定特征,例如采砂船編號(hào)、船體窗戶和門的分布、樓梯位置等,這些固定特征在每艘采砂船上都有所不同,因此可以通過識(shí)別上述特征確定具體是哪一艘采砂船。對(duì)數(shù)據(jù)集進(jìn)行伽馬變換、直方圖均衡、椒鹽噪聲、色彩抖動(dòng)和色域扭曲等數(shù)據(jù)增強(qiáng)操作增加數(shù)據(jù)集的豐富性,提升算法的魯棒性,然后進(jìn)行數(shù)據(jù)集的劃分。所用訓(xùn)練集包括20艘共3 592張采砂船的“船臉”圖像,所用測試集包括10艘共2 005張采砂船的“船臉”圖像,每艘采砂船分別有100~300張不等的“船臉”圖像,自制采砂船“船臉”數(shù)據(jù)集如圖5所示。
3.2 評(píng)價(jià)指標(biāo)
為客觀衡量改進(jìn)FaceNet算法的識(shí)別效果,本文使用接收者操作特征曲線(receiver operating characteristic,ROC)[24]評(píng)估改進(jìn)FaceNet“船臉”識(shí)別算法的輸出品質(zhì),反映相同的感受性。ROC曲線以真正例率(true positive rate,TPR)為縱軸,以假正例率(1 positive rate,F(xiàn)PR)為橫軸,在不同的閾值下獲得坐標(biāo)點(diǎn),并連接成曲線。ROC曲線的優(yōu)點(diǎn)是能夠很好地描述改進(jìn)FaceNet算法對(duì)于不均衡分布樣本的識(shí)別性能。ROC曲線下的面積為AUC(area under the curve),AUC可以直觀地評(píng)價(jià)網(wǎng)絡(luò)識(shí)別的性能,其值越大代表算法的識(shí)別效果越好。TPR和FPR的計(jì)算公式如式(9)和式(10)所示。
式中:TP表示實(shí)際為正樣本預(yù)測也為正樣本的數(shù)量,F(xiàn)N表示實(shí)際為正樣本但預(yù)測為負(fù)樣本的數(shù)量,F(xiàn)P表示實(shí)際為負(fù)樣本但被預(yù)測為正樣本的數(shù)量,TN表示實(shí)際為負(fù)樣本預(yù)測也為負(fù)樣本的數(shù)量。
3.3 實(shí)驗(yàn)設(shè)置
3.3.1 實(shí)驗(yàn)平臺(tái)配置
本文所用的深度學(xué)習(xí)實(shí)驗(yàn)平臺(tái)配置如表1所列。
3.3.2 超參數(shù)設(shè)置
網(wǎng)絡(luò)的訓(xùn)練超參數(shù)設(shè)置具體包括:每批次訓(xùn)練樣本數(shù)為30,最大學(xué)習(xí)率為0.001,最小學(xué)習(xí)率為0.000 01。采用自適應(yīng)矩陣估計(jì)(adaptive moment estimation,Adam)[25]優(yōu)化器優(yōu)化訓(xùn)練,Momentum參數(shù)為0.9,同時(shí)使用余弦退火算法更新學(xué)習(xí)率。遍歷1次全部訓(xùn)練驗(yàn)證集數(shù)據(jù)稱為1個(gè)Epoch,經(jīng)過100個(gè)Epoch訓(xùn)練使代價(jià)函數(shù)最小,得到最優(yōu)網(wǎng)絡(luò)權(quán)重。
FaceNet算法不同改進(jìn)的訓(xùn)練正確率變化曲線如圖6所示。從圖中可以看出,三元組損失+交叉熵?fù)p失+CA注意力模塊的訓(xùn)練正確率曲線上升更加平滑。
FaceNet算法不同改進(jìn)的訓(xùn)練損失值變化曲線如圖7所示。從圖中可以看到三元組損失+交叉熵?fù)p失+CA注意力模塊的訓(xùn)練損失值曲線下降更加平滑。
3.4 消融實(shí)驗(yàn)
從YOLOX算法改進(jìn)前后對(duì)于復(fù)雜場景下河湖過往船舶目標(biāo)檢測的精度對(duì)比可知,YOLOX算法的檢測精度為95.58%,改進(jìn)的YOLOX算法的檢測精度為97.60%,比原算法提高了2.02%。因此,改進(jìn)的YOLOX算法可以實(shí)現(xiàn)對(duì)于復(fù)雜場景下河湖過往船舶的精確檢測。
為探究不同改進(jìn)部分對(duì)于白天和夜間場景下FaceNet采砂船“船臉”識(shí)別算法識(shí)別精度的影響,本文進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所列。根據(jù)表中數(shù)據(jù),第一組實(shí)驗(yàn)表示原FaceNet算法的識(shí)別效果,使用三元組損失函數(shù)進(jìn)行訓(xùn)練,網(wǎng)絡(luò)中沒有引入改進(jìn)部分,在白天場景下識(shí)別AUC值為0.83,識(shí)別正確率為74.45%,算法確定的判斷閾值為1.00;第2組實(shí)驗(yàn)表示訓(xùn)練時(shí)在原FaceNet算法網(wǎng)絡(luò)中引入一個(gè)線性層作為識(shí)別器,并相應(yīng)地引入交叉熵?fù)p失函數(shù)和三元組損失函數(shù)共同進(jìn)行網(wǎng)絡(luò)權(quán)值的收斂,在白天場景下的識(shí)別AUC值比原FaceNet算法提高了0.01,正確率提高了1.83%,算法確定的判斷閾值為1.18;第3組實(shí)驗(yàn)表示本文改進(jìn)的FaceNet識(shí)別算法,在第2組實(shí)驗(yàn)的基礎(chǔ)上在網(wǎng)絡(luò)中引入CA注意力模塊,在白天場景下識(shí)別AUC值比原FaceNet算法提高了0.04,正確率提高了4.77%,算法確定的判斷閾值為1.19,達(dá)到了最高的識(shí)別精度;第4組實(shí)驗(yàn)表示原FaceNet算法在夜間場景下的識(shí)別效果,識(shí)別AUC值為0.72,識(shí)別正確率為68.46%,算法確定的判斷閾值為1.12;第5組實(shí)驗(yàn)表示第2組改進(jìn)算法在夜間場景下的識(shí)別效果,識(shí)別AUC值比原FaceNet算法提高了0.03,正確率提高了2.81%,算法確定的判斷閾值為1.17;第6組實(shí)驗(yàn)表示本文改進(jìn)的FaceNet識(shí)別算法在夜間場景下的識(shí)別效果,識(shí)別AUC值比原FaceNet算法提高了0.03,正確率提高了2.83%,算法確定的判斷閾值為1.22。綜上,本文引入的改進(jìn)對(duì)于白天和夜間場景下采砂船“船臉”的識(shí)別精度均有提高。
FaceNet“船臉”識(shí)別算法和改進(jìn)的FaceNet“船臉”識(shí)別算法的ROC曲線如圖8所示。圖8(a)表示FaceNet“船臉”識(shí)別算法,圖8(b)表示改進(jìn)的FaceNet“船臉”識(shí)別算法,ROC曲線與橫縱坐標(biāo)軸所包圍的圖形面積為AUC。AUC可以直觀地評(píng)價(jià)算法識(shí)別的性能,其值越大代表算法的識(shí)別效果越好。從圖中可以看出,F(xiàn)aceNet“船臉”識(shí)別算法的AUC值為0.83,改進(jìn)的FaceNet“船臉”識(shí)別算法的AUC值為0.87,比改進(jìn)前提高了0.04。因此改進(jìn)的FaceNet“船臉”識(shí)別算法精度更高,可以較好地完成采砂船“船臉”識(shí)別任務(wù)。
改進(jìn)的FaceNet識(shí)別算法對(duì)相同采砂船“船臉”識(shí)別向量的歐幾里得距離如圖9所示。從圖中可以看出,相同采砂船“船臉”識(shí)別向量的歐幾里得距離均小于判斷閾值。
為直觀體現(xiàn)改進(jìn)FaceNet識(shí)別算法的識(shí)別效果,利用測試集中10艘不同采砂船的“船臉”圖像對(duì)改進(jìn)的FaceNet識(shí)別算法進(jìn)行測試,不同采砂船“船臉”之間計(jì)算的歐式距離如表3所列。表中將測試集中的10艘采砂船分為兩組。第一組采砂船編號(hào)分別為JC1568、JC1688、JC1819、JC1888和NGG99,第二組采砂船編號(hào)分別為2011、CC0136、CC0183、CC0188和CC0205,分別計(jì)算兩組不同采砂船“船臉”之間的歐氏距離。從表中可以看出,經(jīng)過改進(jìn)FaceNet算法識(shí)別的不同采砂船“船臉”之間的歐氏距離均大于改進(jìn)算法得到的閾值,表明改進(jìn)的FaceNet識(shí)別算法全部識(shí)別正確。
3.5 識(shí)別效果
基于改進(jìn)FaceNet的河湖采砂船“船臉”在白天和夜間的識(shí)別效果如圖10所示。從圖中可以看出,對(duì)于不同場景和不同尺寸大小的采砂船“船臉”目標(biāo),本文改進(jìn)的采砂船“船臉”識(shí)別方法不僅可以精確定位圖像中采砂船的位置,而且可以精確識(shí)別不同的采砂船個(gè)體,識(shí)別效果優(yōu)越,可以為河湖采砂船的智能管理提供有效的技術(shù)支撐。
4 結(jié) 論
本文提出了一種基于改進(jìn)FaceNet的河湖采砂船“船臉”識(shí)別算法。該算法在FaceNet網(wǎng)絡(luò)的全局平均池化層后引入CA注意力模塊,增強(qiáng)對(duì)于感興趣對(duì)象的自適應(yīng)關(guān)注:訓(xùn)練時(shí)在網(wǎng)絡(luò)最后引入線性層構(gòu)建采砂船個(gè)體識(shí)別器,引入交叉熵?fù)p失函數(shù)輔助三元組損失函數(shù)收斂。實(shí)驗(yàn)結(jié)果表明,在圖形處理器RTX3070條件下,結(jié)合自適應(yīng)矩陣估計(jì)優(yōu)化器優(yōu)化訓(xùn)練,改進(jìn)的FaceNet算法對(duì)于白天場景下河湖采砂船“船臉”識(shí)別的AUC值達(dá)0.87,識(shí)別正確率達(dá)79.22%,比原算法提升了4.77%;對(duì)于夜間場景下采砂船個(gè)體“船臉”目標(biāo)識(shí)別的正確率提高了2.83%。適用于采砂船“船臉”識(shí)別任務(wù)。本文改進(jìn)方法相比于之前方法具有以下優(yōu)勢:首先,本文改進(jìn)方法可以通過遠(yuǎn)程攝像頭拍攝的圖像或視頻進(jìn)行采砂船自動(dòng)識(shí)別,不需要人工實(shí)地巡檢,節(jié)約了人工成本。其次,改進(jìn)方法可以實(shí)現(xiàn)采砂船的實(shí)時(shí)識(shí)別,相較于人工和傳統(tǒng)方法大大提高了識(shí)別效率。然后,改進(jìn)方法通過針對(duì)性地引入改進(jìn)模塊,相較于原FaceNet算法提高了識(shí)別精度,不會(huì)受到夜間環(huán)境等因素的影響,后續(xù)可以通過增加新的訓(xùn)練樣本進(jìn)行模型的訓(xùn)練和更新,對(duì)于新場景的采砂船也可以進(jìn)行精確識(shí)別,實(shí)現(xiàn)模型的動(dòng)態(tài)更新。最后,改進(jìn)方法可以部署在云端服務(wù)器或邊緣計(jì)算端,相較于人工巡檢可以實(shí)現(xiàn)7×24 h持續(xù)有效地監(jiān)測。綜上所述,改進(jìn)的FaceNet“船臉”識(shí)別方法在成本、效率、精度和持續(xù)有效監(jiān)測等方面均有提升,可以為河湖采砂船智能化監(jiān)管提供有效技術(shù)支撐,從而提升采砂行業(yè)的現(xiàn)代化管理水平。
但是受限于訓(xùn)練樣本數(shù)量較少,且拍攝的采砂船“船臉”數(shù)據(jù)集中大部分圖像包含正對(duì)“船臉”的拍攝角度,僅少量包含“船臉”側(cè)面的拍攝角度,同時(shí)包含大量拍攝距離較遠(yuǎn)、目標(biāo)較小的“船臉”圖像;再加上數(shù)據(jù)集圖像拍攝的背景為寬闊的水面,容易受到光照因素、水面波動(dòng)、水面倒影和船舶相互遮擋的影響,所以本文提出的基于改進(jìn)FaceNet的河湖采砂船“船臉”識(shí)別算法的正確率未達(dá)到FaceNet應(yīng)用于人臉的識(shí)別精度,而且對(duì)于夜間場景下的采砂船“船臉”識(shí)別精度還有提升空間,后續(xù)研究可針對(duì)上述原因做進(jìn)一步深入探討。最后本文還提出一種基于改進(jìn)FaceNet的河湖采砂船“船臉”識(shí)別流程步驟,可為河湖采砂船的智能監(jiān)管提供有效的技術(shù)支撐。
參考文獻(xiàn):
[1]曹榮,周佩日,王文強(qiáng),等.基于聲光聯(lián)動(dòng)的非法采砂船自動(dòng)監(jiān)測方法[J].江蘇水利,2022(8):45-48.
[2]呂奕霖.智慧河道采砂監(jiān)管平臺(tái)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].鄭州:華北水利水電大學(xué),2019.
[3]肖文,陳群山,林皓,等.河道執(zhí)法信息系統(tǒng)研發(fā)[J].水利水電快報(bào),2018,39(12):53-57.
[4]付永沖.采砂船舶管理系統(tǒng)[D].武漢:湖北工業(yè)大學(xué),2018.
[5]鮑凱,潘洪軍,亓常松.基于 GPRS 的采砂船舶監(jiān)控系統(tǒng)設(shè)計(jì)[J].人民長江,2017,48(18):20-22.
[6]江玉才,符富果,王炎龍,等.河道采砂智能監(jiān)控系統(tǒng)的設(shè)計(jì)[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2014(16):53-57.
[7]CAO Z,DUAN H,F(xiàn)ENG L,et al.Climate and human induced changes in suspended particulate matter over Lake Hongze on short and long time scales[J].Remote Sensing of Environment,2017,192:98-113.
[8]DUAN H,CAO Z,SHEN M,et al.Detection of illicit sand mining and the associated environmental effects in China′s fourth largest freshwater lake using daytime and nighttime satellite images[J].Science of Total Environment,2019,647:606-618.
[9]LI J,TIAN L,CHEN X,et al.Remote-sensing monitoring for spatio-temporal dynamics of sand dredging activities at Poyang Lake in China[J].International Journal of Remote Sensing,2014,35(16):6004-6022.
[10]FENG L,HU C,CHEN X,et al.Human induced turbidity changes in Poyang Lake between 2000 and 2010:Observations from MODIS[J].Journal of Geophysical Research:Oceans,2012,117(C7):CD7006.
[11]DE L J,SHANKMAN D,WU G,et al.Strategic assessment of the magnitude and impacts of sand mining in Poyang Lake,China[J].Regional Environmental Change,2010,10:95-102.
[12]LAI X,SHANKMAN D,HUBER C,et al.Sand mining and increasing Poyang Lake′s discharge ability:A reassessment of causes for lake decline in China[J].Journal of Hydrology,2014,519:1698-1706.
[13]SCHROFF F,KALENICHENKO D,PHILBIN J.Facenet:A unified embedding for face recognition and clustering[C]∥ Proceedings of the IEEE conference on computer vision and pattern recognition(CVPR),2015:815-823.
[14]HOU Q,ZHOU D,F(xiàn)ENG J.Coordinate attention for efficient mobile network design[C]∥ Proceedings of the IEEE/CVF conference on computer vision and pattern recognition(CVPR),2021:13713-13722.
[15]REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:Unified,real-time object detection[C]∥ Proceedings of the IEEE conference on computer vision and pattern recognition,2016:779-788.
[16]REDMON J,F(xiàn)ARHADI A.YOLO9000:better,faster,stronger[C]∥ Proceedings of the IEEE conference on computer vision and pattern recognition,2017:7263-7271.
[17]REDMON J,F(xiàn)ARHADI A.Yolov3:an incremental improvement[J].arXiv e-prints,2018:1804.02767.
[18]BOCHKOVSKIY A,WANG C Y,LIAO H Y M.Yolov4:optimal speed and accuracy of object detection[J].arXiv e-prints,2020:2004.10934.
[19]GE Z,LIU S,WANG F,et al.Yolox:Exceeding yolo series in 2021[J].arXiv e-prints,2021:2107.08430.
[20]WANG C Y,BOCHKOVSKIY A,LIAO H Y M.YOLOv7:Trainable bag of freebies sets new state of the art for real-time object detectors[J].arXiv e-prints,2022:2207.02696.
[21]IOFFE S,SZEGEDY C.Batch normalization:accelerating deep network training by reducing internal covariate shift[C]∥ International Conference on Machine Learning,PMLR,2015:448-456.
[22]NAIR V,HINTON G E.Rectified linear units improve restricted boltzmann machines[C]∥ Proceedings of the 27th International Conference on Machine Learning(ICML-10),2010:807-814.
[23]LIN M,CHEN Q,YAN S.Network in network[J].arXiv e-prints,2013:1312.4400.
[24]DAVIS J,GOADRICH M.The relationship between Precision-Recall and ROC curves[C]∥ Proceedings of the 23rd International Conference on Machine Learning.2006:233-240.
[25]KINGMA D P,BA J.Adam:A method for stochastic optimization[J].arXiv e-prints,2014:1412.6980.
(編輯:鄭 毅)
“Ship face” recognition algorithm for river and lake sand dredgers
based on improved FaceNet
BAO Xuecai1,2,CHEN Bao1,2,WU Canrui1,2,WANG Zhongxi1,2,ZHAN Libin1,2
(1.School of Information Engineering,Nanchang Institute of Technology,Nanchang 330099,China; 2.Jiangxi Province Key Laboratory of Water Information Cooperative Sensing and Intelligent Processing,Nanchang Institute of Technology,Nanchang 330099,China)
Abstract:In order to effectively improve the intelligent management level of river and lake sand dredgers,an improved FaceNet based “ship face” recognition algorithm for river and lake sand dredgers was proposed.Firstly,a CA attention module was introduced behind the global average pooling layer of the FaceNet algorithm network to enhance the adaptive attention ability for regions of interest.Secondly,a linear layer was introduced at the end of the network during training to construct an individual “ship face” recognizer for sand dredgers.The combination of classification and recognition methods was applied to the “ship face” recognition of sand dredgers.Finally,Cross entropy Loss function was introduced into the training to assist the Triplet loss function in the original FaceNet algorithm to converge together.The experimental results showed that the accuracy of the improved FaceNet algorithm for identifying individual “ship face” objects on sand dredgers in daytime had increased by 4.77 percentage points compared to that before the improvement,reaching 79.22%.The accuracy of identifying individual “ship face” objects of sand dredgers in night had increased by 2.83 percentage points.This algorithm is suitable for the “ship face” recognition task of sand dredgers and can provide effective technical support for the intelligent supervision of river and lake sand dredgers.
Key words:supervision of sand dredgers; FaceNet; deep learning; convolutional neural network; object identification