羅耀俊,向 海,胡曉兵,牛洪超,魏上云
1(四川大學(xué) 機(jī)械工程學(xué)院,成都 610065)
2(四川大學(xué)宜賓園區(qū),宜賓 644000)
現(xiàn)如今,隨著微電子、機(jī)器視覺(jué)、5G 通訊、人工智能技術(shù)的快速發(fā)展,市場(chǎng)對(duì)門(mén)式起重機(jī)的自動(dòng)化、信息化和智能化水平要求越來(lái)越高[1].對(duì)于開(kāi)放式工作的門(mén)式起重機(jī)來(lái)講,安全是其面臨的一個(gè)重大的挑戰(zhàn),尤其是門(mén)機(jī)軌道運(yùn)行區(qū)域,直接影響其能否暢通運(yùn)行.所以,對(duì)于研究一套安全、可靠、智能的防侵入系統(tǒng),是具有十分重要的工業(yè)實(shí)用意義的[2–5].
對(duì)于門(mén)式起重機(jī)的防侵入監(jiān)測(cè)任務(wù)而言,研究的重點(diǎn)在于如何在運(yùn)行過(guò)程中對(duì)監(jiān)測(cè)區(qū)域中的障礙目標(biāo)以及可能進(jìn)入特定區(qū)域的目標(biāo)進(jìn)行檢測(cè)、跟蹤和預(yù)警.障礙物檢測(cè)研究主要集中在機(jī)器視覺(jué),向榮等人[6]使用幀差法進(jìn)行障礙物檢測(cè),但容易受環(huán)境光線的影響;戰(zhàn)強(qiáng)等人[7]采用HIS 顏色空間對(duì)障礙物進(jìn)行檢測(cè)分割,通過(guò)建立空間位置坐標(biāo)關(guān)系,使用柵格搜索算法對(duì)障礙物進(jìn)行定位;王榮本等人[8]對(duì)智能車(chē)輛的障礙物檢測(cè)進(jìn)行了綜合性分析,并提出多傳感器榮融合方法進(jìn)行車(chē)輛前方障礙物檢測(cè);辛煜[9]采用激光雷達(dá)實(shí)時(shí)對(duì)無(wú)人車(chē)周?chē)h(huán)境進(jìn)行三維重建,并提出了時(shí)空障礙物柵格圖的障礙物檢測(cè)方法;劉聰美等人[10]采用Hough 直線檢測(cè)對(duì)煤礦鐵軌進(jìn)行識(shí)別,并采用支持向量機(jī)算法對(duì)行人進(jìn)行監(jiān)測(cè),根據(jù)行人與鐵軌的相對(duì)位置關(guān)系,發(fā)出不同的預(yù)警信號(hào).
本文針對(duì)實(shí)際工作環(huán)境和工業(yè)需要,結(jié)合語(yǔ)義分割在各方向的應(yīng)用[11–17],對(duì)門(mén)式起重機(jī)防侵入問(wèn)題進(jìn)行分析,將其轉(zhuǎn)換為語(yǔ)義分割問(wèn)題.標(biāo)定用于防侵入研究的語(yǔ)義分割數(shù)據(jù)集GCAID,并利用多個(gè)語(yǔ)義分割網(wǎng)絡(luò)進(jìn)行訓(xùn)練對(duì)比,最后決定選用ICNet 網(wǎng)絡(luò)運(yùn)用于門(mén)式起重機(jī)的防侵入監(jiān)測(cè)任務(wù).門(mén)式起重機(jī)防侵入監(jiān)測(cè)模型首先對(duì)圖像進(jìn)行語(yǔ)義分割,得到軌道和入侵目標(biāo)的分割結(jié)果.然后根據(jù)軌道的分割結(jié)果,將監(jiān)測(cè)視場(chǎng)劃分為三個(gè)互不重疊的區(qū)域,分別是禁止區(qū)域、過(guò)渡區(qū)域和安全區(qū)域.接著計(jì)算檢測(cè)的入侵目標(biāo)所處的入侵區(qū)域,并根據(jù)入侵目標(biāo)所處的區(qū)域,向控制系統(tǒng)發(fā)送不同的預(yù)警信號(hào).
如圖1所示,將環(huán)境數(shù)據(jù)劃分為4 部分,分別是禁止區(qū)域、過(guò)渡區(qū)域、安全區(qū)域以及障礙目標(biāo).禁止區(qū)域?qū)儆谲壍绤^(qū)域,禁止出現(xiàn)行人等危險(xiǎn)源,當(dāng)出現(xiàn)行人等危險(xiǎn)源時(shí)應(yīng)及時(shí)對(duì)門(mén)機(jī)進(jìn)行減速和制動(dòng);過(guò)渡區(qū)域是沿軌道區(qū)域外擴(kuò)0.5 m的區(qū)域,分布在禁止區(qū)域兩側(cè),當(dāng)出現(xiàn)行人等危險(xiǎn)源時(shí)應(yīng)發(fā)出警報(bào)信息并減速;安全區(qū)域是指除禁止區(qū)域和過(guò)渡區(qū)域的其他區(qū)域,對(duì)于這些區(qū)域存在的潛在危險(xiǎn)目標(biāo)可以按照正常速度運(yùn)行;障礙目標(biāo)是指可能影響門(mén)機(jī)安全運(yùn)行的目標(biāo),結(jié)合本文的實(shí)際研究情況,暫定只考慮行人目標(biāo).在門(mén)機(jī)的防侵入檢測(cè)問(wèn)題中,只需重點(diǎn)檢測(cè)禁止區(qū)域和過(guò)渡區(qū)域即可,過(guò)渡區(qū)域的劃分是基于禁止區(qū)域的劃分,因此需要首先檢測(cè)出禁止區(qū)域.如圖1左圖所示,禁止區(qū)域包括軌道以及固定螺栓等目標(biāo),整個(gè)禁止區(qū)域與過(guò)渡區(qū)域存在明顯的邊緣、顏色等特征的差異,因此可以將整個(gè)禁止區(qū)域作為其中的一個(gè)檢測(cè)對(duì)象.過(guò)渡區(qū)域的劃分是在禁止區(qū)域的基礎(chǔ)上進(jìn)行的,且過(guò)渡區(qū)域與安全區(qū)域的特征基本是一致的,因此不做單獨(dú)檢測(cè).障礙目標(biāo)以行人檢測(cè)為主,其可以在任何位置出現(xiàn),針對(duì)不同位置對(duì)門(mén)機(jī)的運(yùn)行狀態(tài)進(jìn)行不同的控制,分別是禁止區(qū)域減速停車(chē)、過(guò)渡區(qū)域警報(bào)減速、安全區(qū)域正常行駛.如前所述,如果采用目標(biāo)檢測(cè)算法來(lái)對(duì)問(wèn)題進(jìn)行建模,存在的問(wèn)題是采用邊界框來(lái)劃分區(qū)域容易使得處于安全區(qū)域的行人被劃入禁止區(qū)域,從而使得門(mén)機(jī)總處于預(yù)警和停車(chē)狀態(tài).此外,對(duì)于處于禁止區(qū)域、但距離門(mén)機(jī)較遠(yuǎn)位置的障礙目標(biāo),在提前預(yù)警的情況下,如果在門(mén)機(jī)到達(dá)前障礙目標(biāo)能夠提前移除過(guò)渡區(qū)域,那么仍然可以不用停車(chē).對(duì)此,可以該問(wèn)題轉(zhuǎn)換為語(yǔ)義分割問(wèn)題,前景分別是軌道區(qū)域(即禁止區(qū)域)和障礙目標(biāo)(即行人),背景為過(guò)渡區(qū)域和安全區(qū)域.通過(guò)軌道區(qū)域來(lái)確定禁止區(qū)域、過(guò)渡區(qū)域和安全區(qū)域,根據(jù)行人的位置所屬區(qū)域來(lái)判斷門(mén)機(jī)的執(zhí)行命令.
圖1 門(mén)機(jī)防侵入建模示意圖
基于以上分析,門(mén)機(jī)的防侵入檢測(cè)系統(tǒng)的關(guān)鍵是對(duì)軌道區(qū)域和行人進(jìn)行準(zhǔn)確地檢測(cè)和分割.經(jīng)典的語(yǔ)義分割算法,如灰度分割、條件隨機(jī)場(chǎng)等,均難以滿足復(fù)雜自然環(huán)境下的在線檢測(cè);基于深度學(xué)習(xí)的語(yǔ)義分割算法近年來(lái)取得大量研究成果,在醫(yī)學(xué)圖像分割、缺陷檢測(cè)與分割、街景分割、自動(dòng)駕駛、衛(wèi)星圖像分割等領(lǐng)域已經(jīng)成功應(yīng)用.因此,本文采用基于深度學(xué)習(xí)的語(yǔ)義分割模型,以實(shí)現(xiàn)對(duì)軌道區(qū)域和行人的精確分割.
ICNet (image cascade network)網(wǎng)絡(luò)[18]是由香港中文大學(xué)聯(lián)合騰訊優(yōu)圖、商湯科技于2018年在歐洲計(jì)算機(jī)視覺(jué)國(guó)際會(huì)議(European conference on computer vision,ECCV)上首次公開(kāi),相比于與UNet、SegNet、FCN 等網(wǎng)絡(luò),ICNet 綜合利用了不同分辨率的圖像來(lái)提高網(wǎng)絡(luò)的檢測(cè)精度和速度,其核心思想是采用圖像級(jí)聯(lián)框架來(lái)逐步細(xì)化分段預(yù)測(cè),首先使用低分辨率圖像來(lái)獲取粗略的預(yù)測(cè)掩膜,然后通過(guò)級(jí)聯(lián)融合來(lái)源以引入高分辨率圖像特征,并逐步改進(jìn)已獲得的粗略預(yù)測(cè).ICNet 通過(guò)將圖像語(yǔ)義分割任務(wù)劃分為粗預(yù)測(cè)和精調(diào)整,在單塊英偉達(dá)1080Ti 圖像處理器的情況下,可以以30.3 幀/s的速度處理1024×2048 分辨率的圖像,并且平均IOU 精度可以達(dá)到71%.
降采樣輸入圖像、減少特征圖數(shù)量以及模型壓縮是最常用的檢測(cè)加速策略,但是無(wú)論哪一種策略,都難以平衡網(wǎng)絡(luò)推斷速度和精度.盡管這3 種策略可以顯著地減少運(yùn)行時(shí)間,但同時(shí)也只能得到比較粗糙的預(yù)測(cè)結(jié)果.而如果直接使用高分辨率圖像進(jìn)行檢測(cè),計(jì)算量通常是難以接受的.如圖2所示,ICNet 并不是簡(jiǎn)單地選擇任何一種策略來(lái)加快推斷速度,相反,它是通過(guò)采用不同分辨率大小的輸入,并采用級(jí)聯(lián)特征融合單元來(lái)進(jìn)行快速的語(yǔ)義分割.訓(xùn)練時(shí)采用級(jí)聯(lián)標(biāo)簽進(jìn)行引導(dǎo),而在測(cè)試階段直接輸出最終預(yù)測(cè)結(jié)果.輸入圖像尺寸為全尺寸,如1024×2048 分辨率的Cityscape 數(shù)據(jù)集圖像,并將輸入圖像進(jìn)行下采樣至輸入的1/2和1/4,從而得到低、中、高3 種不同分辨率的圖像,并將它們分別輸入到3 個(gè)不同的網(wǎng)絡(luò)分支中.將1/4 輸入圖像送入PSPNet 進(jìn)行8 倍下采樣至輸入分辨率的1/32,以進(jìn)行粗分割;將1/2 輸入圖像和原圖像分別送入兩個(gè)更淺的卷積網(wǎng)絡(luò)進(jìn)行特征提取和下采樣;將最上分支的1/32 特征圖進(jìn)行上采樣并與第2 分支的1/16 特征圖通過(guò)級(jí)聯(lián)特征融合(cascade feature fusion,CFF)單元進(jìn)行求和,經(jīng)過(guò)激活后再進(jìn)行上采樣,并與第3 分支的1/8 特征圖通過(guò)CFF 模塊進(jìn)行融合,并通過(guò)兩次上采樣以及卷積操作后得到與原圖相同分辨率的預(yù)測(cè)圖.
圖2 ICNet 網(wǎng)絡(luò)架構(gòu)圖
雖然第1 分支的卷積層數(shù)量比較多,采用的是完整的PSPNet 分割網(wǎng)絡(luò),但由于輸入圖像的分辨率非常低,因此其計(jì)算量依然比較有限,推斷時(shí)間僅需18 ms,內(nèi)存占用也只有0.6 GB.由于第2 層的卷積核共享了第1 層的卷積核參數(shù),因此第2 層的級(jí)聯(lián)特征融合也僅僅只耗費(fèi)了6 ms.第3 層雖然輸入圖像的分辨率非常高,但是由于卷積層數(shù)量比較少,網(wǎng)絡(luò)深度比較淺,整個(gè)推斷過(guò)程也僅需9 ms.因此,ICNet 通過(guò)不同分支進(jìn)行不同分辨率輸入的計(jì)算以及特征圖的級(jí)聯(lián)融合,在保證分割精度的前提下,可以有效地提高檢測(cè)速度和減少內(nèi)存占用.
圖3為CFF 單元示意圖,該單元地輸入包括3 個(gè)部分:兩個(gè)特征圖F1、F2以及真實(shí)標(biāo)簽,尺寸分別為C1×H1×W1、C2×H2×W2和1×H2×W2,其中F2的尺寸為F1的兩倍.在特征融合前,先對(duì)F1使用雙線性插值進(jìn)行上采樣2 倍,從而得到與F2具有相同高度和寬度的特征圖F1'.然后再使用卷積核為C3×3×3、空洞率為2的空洞卷積,對(duì)F1'進(jìn)行調(diào)整,得到尺寸為C3×H2×W2的特征圖F1''.空洞卷積可以融合相鄰像素的特征信息,相比于反卷積而言,使用空洞卷積只需要更小的卷積核,就可以獲得與較大卷積核的反卷積一樣大的感受野.在保持感受野不變的條件下,反卷積操作比空洞卷積需要更大的卷積核,如反卷積的卷積核為7×7,而空洞卷積可以使用3×3、空洞率為2的卷積核實(shí)現(xiàn),因此空洞卷積需要的計(jì)算量更少.
為了使得F2的通道數(shù)與F1''的通道數(shù)保持一致,使用尺寸為C3×1×1 卷積核對(duì)F2進(jìn)行卷積操作,得到F2',其尺寸為C3×H2×W2.然后分別對(duì)F1''和F2'進(jìn)行批歸一化操作,使得兩個(gè)特征圖可以保持在同一尺度空間.最后對(duì)歸一化后的F1''和F2'進(jìn)行逐元素求和以及ReLU 激活操作,從而得到融合后的特征圖F2'',其尺寸為C3×H2×W2.為了增強(qiáng)網(wǎng)絡(luò)對(duì)F1的學(xué)習(xí),使用降采樣后的真實(shí)標(biāo)簽來(lái)引導(dǎo)學(xué)習(xí).如圖3所示,在第1 層與第2 層融合后,使用1/16 真實(shí)標(biāo)簽進(jìn)行學(xué)習(xí),從而得到融合后的損失值;同理,使用1/8 真實(shí)標(biāo)簽學(xué)習(xí)第2 層與第3 層的融合特征.對(duì)第3 層融合后的特征進(jìn)行上采樣后,計(jì)算與1/4 真實(shí)標(biāo)簽的損失值.因此在訓(xùn)練期間,損失值包括3 部分,第1 層和第2 層融合后的特征與1/16 真實(shí)標(biāo)簽間的損失L1/16、第2 層和第3 層融合后的特征與1/8 真實(shí)標(biāo)簽間的損失L1/8、第3 層融合后的特征上采樣后與1/4 真實(shí)標(biāo)簽間的損失L1/4.
圖3 級(jí)聯(lián)特征融合圖
訓(xùn)練時(shí),為了增加每個(gè)分支的學(xué)習(xí)率,采用級(jí)聯(lián)標(biāo)簽引導(dǎo)策略,利用1/16、1/8和1/4 真實(shí)標(biāo)簽來(lái)引導(dǎo)學(xué)習(xí)低、中、高3 種不同分辨率的學(xué)習(xí),對(duì)于T個(gè)分支和N個(gè)類(lèi)別,在分支t(t=1,2,…,T),預(yù)測(cè)特征圖Ft的空間尺寸為Yt×Xt,在位置(n,y,x)(n表示特征圖Ft的第n通道)的值為Fn,y,xt,真實(shí)標(biāo)簽在二維坐標(biāo)中(y,x)對(duì)應(yīng)的值為.對(duì)于分支使用權(quán)值為λt的帶權(quán)Softmax 交叉熵?fù)p失函數(shù),其數(shù)學(xué)表達(dá)式為:
測(cè)試時(shí),僅保留高分辨率的引導(dǎo)操作,這樣既可以保持訓(xùn)練過(guò)程中的穩(wěn)定性,同時(shí)又能夠防止網(wǎng)絡(luò)受單個(gè)分支支配.
由于目前尚無(wú)公開(kāi)的門(mén)機(jī)軌道數(shù)據(jù),為了更好地匹配實(shí)際問(wèn)題,通過(guò)攝像頭采集不同光線和天氣條件下的現(xiàn)場(chǎng)視頻.采集視頻的分辨率為1024×720,幀率為30 幀/s,顏色通道為RGB 三通道.對(duì)所采集的視頻間隔15 幀取一張圖片,共計(jì)1680 張圖片,其中晴天為1420 張、陰天為140 張、傍晚為120 張.
考慮到只檢測(cè)軌道和人,因此標(biāo)記類(lèi)別有3 類(lèi),分別是軌道、人和背景.由于行人的數(shù)據(jù)在現(xiàn)場(chǎng)非常有限,本系統(tǒng)在網(wǎng)絡(luò)上下載了12 個(gè)包含人的視頻,并按照45 幀的間隔進(jìn)行數(shù)據(jù)提取,然后篩除不包含人的圖片,共得到540 張分辨率為1024×720的數(shù)據(jù)集.最后選擇將兩個(gè)子數(shù)據(jù)集合并為最終的GCAID 數(shù)據(jù)集.
Labelme是一個(gè)開(kāi)源的可視化圖像標(biāo)注工具,它采用Python+Qt 進(jìn)行開(kāi)發(fā).Labelme是目前常用的標(biāo)注工具之一,它可以標(biāo)注用于語(yǔ)義分割、實(shí)例分割、場(chǎng)景分割等視覺(jué)任務(wù)的數(shù)據(jù).Labelme 可以根據(jù)任務(wù)的需要對(duì)圖像進(jìn)行多邊形、矩形、圓形、多線段、線段、點(diǎn)等形狀的標(biāo)注,也可以對(duì)圖像直接進(jìn)行類(lèi)別標(biāo)注用于圖像分類(lèi).此外,Labelme 還可以對(duì)視頻進(jìn)行標(biāo)注.Labelme 標(biāo)注的數(shù)據(jù)格式包括.xml和.json 格式,分別對(duì)應(yīng)VOC 類(lèi)型和COCO 類(lèi)型的數(shù)據(jù)集.Labelme 兼容所有操作系統(tǒng),其操作界面如圖4所示.
圖4 Labelme 標(biāo)記工具操作界面
ICNet 對(duì)于圖像的識(shí)別精度、數(shù)據(jù)集的標(biāo)注精度及面積計(jì)算精度,都會(huì)影響分割精度.由于數(shù)據(jù)集的標(biāo)注精度會(huì)影響到網(wǎng)絡(luò)對(duì)圖像的識(shí)別精度,網(wǎng)絡(luò)對(duì)圖像的識(shí)別精度通過(guò)直接影響最后的類(lèi)別預(yù)測(cè),從而影響面積計(jì)算精度,最后影響分割.所以,本系統(tǒng)首先采用通過(guò)只標(biāo)定軌道(包括整個(gè)軌道安裝區(qū)域)與人,背景區(qū)域自動(dòng)生成的策略,通過(guò)減少分割數(shù)量來(lái)減少I(mǎi)CNet對(duì)于圖像識(shí)別精度的影響.然后,由于系統(tǒng)是對(duì)于門(mén)式起重機(jī)軌道的防侵入監(jiān)測(cè),只需軌道與人處在分割區(qū)域內(nèi).所以在數(shù)據(jù)集標(biāo)記過(guò)程中,對(duì)于軌道和人,采用了不影響整體識(shí)別的前提下,擴(kuò)大標(biāo)注區(qū)域,來(lái)減小標(biāo)注精度和圖像識(shí)別精度對(duì)面積計(jì)算、類(lèi)別分割的影響.
基于Labelme 工具箱,對(duì)包含2220 張圖片的GCAID數(shù)據(jù)集按json 格式進(jìn)行標(biāo)注.如圖4所示,標(biāo)簽包含2 類(lèi),分別是track和human,代表圖片中的軌道區(qū)域和人.本文所標(biāo)記的track 并非僅僅表示軌道,而是包含整個(gè)軌道安裝區(qū)域,因此其特征更加復(fù)雜,難以通過(guò)經(jīng)典的圖像處理算法進(jìn)行檢測(cè).實(shí)際的語(yǔ)義標(biāo)簽包含3 個(gè)類(lèi),分別是背景、軌道和人,背景類(lèi)在標(biāo)定的時(shí)候自動(dòng)生成.如圖5所示,圖5(a)列表示原始數(shù)據(jù),包含了軌道、人以及各種復(fù)雜的背景,其中74%的數(shù)據(jù)只包含軌道或人中的一種,26%的數(shù)據(jù)同時(shí)包含軌道和人;圖5(b)列表示真實(shí)語(yǔ)義分割圖,這部分?jǐn)?shù)據(jù)是由人工標(biāo)定,作為訓(xùn)練時(shí)的監(jiān)督數(shù)據(jù);圖5(c)列表示掩膜可視化的結(jié)果,通過(guò)圖5可以清晰地看出,數(shù)據(jù)集包含3 個(gè)類(lèi)別,分別為_(kāi)background_、track和human,對(duì)應(yīng)地標(biāo)簽分別為0、1和2.在模型訓(xùn)練過(guò)程時(shí),通常只需要原始圖片和真實(shí)語(yǔ)義分割圖即可,通常記為(x,y),分別表示模型輸入數(shù)據(jù)和訓(xùn)練目標(biāo).
圖5 GCAID 數(shù)據(jù)集部分樣本
采用Keras 來(lái)實(shí)現(xiàn)ICNet 網(wǎng)絡(luò),訓(xùn)練時(shí)采用4 塊技嘉2080Ti 圖形處理顯卡,并使用CUDA10.0和CUDNN v7.5 來(lái)加速訓(xùn)練過(guò)程.將GCAID 數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集共3 個(gè)互不重疊的子集,各子集包含的樣本數(shù)分別為1698、189和333.
在訓(xùn)練超參數(shù)設(shè)置方面,每個(gè)批次的樣本數(shù)為2,訓(xùn)練輪數(shù)為50,每一輪迭代375 次,共迭代37 500 次.初始學(xué)習(xí)率為0.01,在第30 輪、40 輪將學(xué)習(xí)率分別降低10 倍.訓(xùn)練過(guò)程中采用早停技術(shù),以防止出現(xiàn)過(guò)擬合.在訓(xùn)練過(guò)程中,每迭代1 輪就進(jìn)行1 次驗(yàn)證.為了增加樣本的多樣性,采用包括隨機(jī)縮放(比例在0.5~2)、隨機(jī)鏡像等數(shù)據(jù)增強(qiáng)策略.訓(xùn)練時(shí),L1/16與L1/8的權(quán)值λ1、λ2均為0.4,L1/4的權(quán)值λ3設(shè)置為1.網(wǎng)絡(luò)的分割精度評(píng)估采用逐類(lèi)交并比平均值(mean of class-wise intersection over union,mIoU).mIoU是通過(guò)計(jì)算每一類(lèi)的IoU 值后再求平均值,計(jì)算公式為:
其中,k表示類(lèi)別數(shù),pii表示像素預(yù)測(cè)類(lèi)別i與真實(shí)標(biāo)定類(lèi)別i一致的像素點(diǎn)總數(shù),表示實(shí)際標(biāo)定類(lèi)別為i卻預(yù)測(cè)類(lèi)別為j的其他類(lèi)的像素點(diǎn)數(shù)(包含pii),表示實(shí)際標(biāo)定類(lèi)別為j卻預(yù)測(cè)為類(lèi)別i的像素點(diǎn)數(shù)(包含pii).由于分母重復(fù)計(jì)算了pii,因此需要減去一個(gè)pii.
如圖6(a)所示,經(jīng)過(guò)50 輪的訓(xùn)練,訓(xùn)練精度均達(dá)到穩(wěn)定狀態(tài),盡管ICNet的初始精度較低,但是經(jīng)過(guò)快速的上升后,獲得最高訓(xùn)練精度;而SegNet 模型的訓(xùn)練精度則明顯低于其他模型.如圖6(b)所示,所有模型的訓(xùn)練損失值都處于向下收斂,其中,ICNet的損失值下降速度最快.
圖6 常用模型訓(xùn)練精度曲線圖與損失曲線圖
圖7(a)為常用語(yǔ)義分割模型驗(yàn)證精度曲線圖,從圖中可以看出,SegNet 在前20 輪訓(xùn)練中,驗(yàn)證損失的波動(dòng)幅度較大,然后就趨于平緩;FCN-8的驗(yàn)證精度持續(xù)上升,在第10 輪后一致保持最高的驗(yàn)證精度;UNet的驗(yàn)證精度值最低,始終處于80%以下.如圖7(b)所示,除了SegNet的損失值前20 輪波動(dòng)幅度較大以外,其他的模型的下降過(guò)程較為平穩(wěn).
圖7 常用模型訓(xùn)練精度曲線圖與損失曲線圖
如表1所示,ICNet的訓(xùn)練精度和訓(xùn)練損失均優(yōu)于其他模型,而在驗(yàn)證精度與損失方面,FCN-8 則取得了最好的成績(jī),且ENet 也優(yōu)于ICNet.通過(guò)對(duì)333 張測(cè)試集進(jìn)行測(cè)試分析,并選用每個(gè)網(wǎng)絡(luò)保存的最佳模型,得到測(cè)試mIoU 如表2所示,ICNet 取得63.72%的測(cè)試精度,而SegNet的測(cè)試mIoU 最低,僅為30.25%.
表1 實(shí)驗(yàn)中相關(guān)參數(shù)設(shè)置對(duì)照
其次,對(duì)各模型在測(cè)試集上的表現(xiàn)進(jìn)行了分析,評(píng)估指標(biāo)包括mIoU和各類(lèi)的IoU.測(cè)試結(jié)果如表2所示.從表中可以看出,ICNet 對(duì)于GCAID 數(shù)據(jù)集的平均分割精度最高,為63.72%.
表2 實(shí)驗(yàn)中相關(guān)數(shù)據(jù)對(duì)照
其他多數(shù)框架針對(duì)高分辨率輸入都具有相對(duì)密集的計(jì)算過(guò)程,而ICNet 由于采用了獨(dú)特的級(jí)聯(lián)特征融合網(wǎng)絡(luò),通過(guò)在訓(xùn)練時(shí)使用了級(jí)聯(lián)的標(biāo)簽監(jiān)督,有效地利用了低分辨率圖和高分辨率圖信息結(jié)合.其中低分辨率分支被送入了Heavy CNN中,得到了粗糙的語(yǔ)義預(yù)測(cè).中分辨率和高分辨率的分支只被輕量級(jí)的CNN處理,進(jìn)行恢復(fù)和完善模糊邊界和丟失的細(xì)節(jié),可以減少中部分支和下部分支的參數(shù)數(shù)目.雖然低分辨率分支導(dǎo)致了細(xì)節(jié)缺失和邊界模糊,但它已經(jīng)獲得了大部分語(yǔ)義信息,細(xì)節(jié)再由其他分支補(bǔ)全.正是這種獨(dú)特的級(jí)聯(lián)網(wǎng)絡(luò)使得測(cè)試結(jié)果中ICNet 在所選網(wǎng)絡(luò)中都呈現(xiàn)出較好的精度.
最后,本文對(duì)ICNet 網(wǎng)絡(luò)的訓(xùn)練輪數(shù)進(jìn)行了對(duì)比分析,如表3所示,隨著迭代次數(shù)的增加,測(cè)試mIoU先出現(xiàn)上升,然后呈現(xiàn)下降,在70 輪取得最佳mIoU值.可以看出,隨著訓(xùn)練輪數(shù)增加,模型出現(xiàn)了過(guò)擬合情況.此外,本文展示了部分ICNet 分割結(jié)果,如圖8所示,可以看出,ICNet 對(duì)軌道的分割比較準(zhǔn)確,但是對(duì)于人的分割精度并不是很理想,且容易將部分背景錯(cuò)誤分類(lèi)為人.針對(duì)人的分割精度較差的原因主要有兩點(diǎn):第一是人的姿態(tài)更加復(fù)雜,且在整個(gè)圖像中的占比并不是很高,因此在訓(xùn)練過(guò)程中即使錯(cuò)誤分類(lèi),依然可以得到較高的精度;第二是因?yàn)閿?shù)據(jù)集中人的數(shù)量并不是很多,從而導(dǎo)致樣本失衡.
表3 ICNet 在不同迭代輪數(shù)下的測(cè)試結(jié)果
圖8 部分測(cè)試結(jié)果圖
在對(duì)防侵入進(jìn)行測(cè)試中,本文基于軌道的分割結(jié)果將圖片分為禁止區(qū)、過(guò)渡區(qū)和安全區(qū),然后根據(jù)人的分割結(jié)果及其所處的區(qū)域發(fā)出不同的預(yù)警信號(hào).測(cè)試時(shí),將幀率設(shè)置為20 幀/s,測(cè)試結(jié)果如表4所示,正確預(yù)警樣本包含48 張不包含人的樣本和5 張包含人但處于警告區(qū)的樣本,錯(cuò)誤預(yù)警的3 張樣本是將人劃入到禁止區(qū).
表4 防侵入系統(tǒng)測(cè)試結(jié)果
圖9是部分防侵入測(cè)試結(jié)果,從圖中可以看出,模型能夠很好的對(duì)軌道各區(qū)域進(jìn)行正確劃分,效果良好.
圖9 防侵入分割測(cè)試結(jié)果
本文針對(duì)門(mén)式起重機(jī)實(shí)際工作環(huán)境和工業(yè)需要,結(jié)合深度學(xué)習(xí)技術(shù),對(duì)門(mén)式起重機(jī)防侵入問(wèn)題進(jìn)行了分析,并對(duì)門(mén)機(jī)的防侵入監(jiān)測(cè)任務(wù)進(jìn)行了詳細(xì)的建模,確定了門(mén)式起重機(jī)智能防侵入系統(tǒng)的方案.采用了語(yǔ)義分割算法(ICNet 網(wǎng)絡(luò))對(duì)視場(chǎng)中的特定目標(biāo)進(jìn)行了檢測(cè)和分割,并對(duì)選用的ICNet的網(wǎng)絡(luò)結(jié)構(gòu)做了詳細(xì)的介紹.針對(duì)門(mén)機(jī)的防侵入監(jiān)測(cè)需求,使用Labelme 圖片標(biāo)注工具制作了GCAID 數(shù)據(jù)集,用于訓(xùn)練ICNet和其他語(yǔ)義分割模型,也對(duì)訓(xùn)練網(wǎng)絡(luò)參數(shù)設(shè)置進(jìn)行了詳細(xì)說(shuō)明,并基于Keras 測(cè)試了包括ICNet、UNet、SegNet等語(yǔ)義分割模型.對(duì)比其他網(wǎng)絡(luò),ICNet 網(wǎng)絡(luò)具有99.37%的訓(xùn)練精度和1.81%的訓(xùn)練損失,都展現(xiàn)出了最優(yōu)的精度,并且在對(duì)實(shí)際防侵入測(cè)試中,也證明了基于語(yǔ)義分割的防侵入系統(tǒng)的智能性、可行性,為門(mén)式起重機(jī)或類(lèi)似場(chǎng)景,提供了智能防侵入系統(tǒng)方案.