陳 墾,王世法,譚屈山,何富勇,王 俊,雷 達,焦育威,楊 嵐,楊 洋,李 偉,曹 堃,胡思源
(1.東南大學 信息科學與工程學院, 南京 210009;2.四川數(shù)字交通科技股份有限公司, 成都 610041;3.四川成綿蒼巴高速公路有限責任公司, 四川 綿陽 621099)
由于建筑項目的多樣性及其對終端客戶的重要性,建筑行業(yè)被認為是國民經(jīng)濟基礎(chǔ)的重要組成部分[1]。電子設(shè)備可以在協(xié)助監(jiān)測健康風險主體應(yīng)用方面發(fā)揮關(guān)鍵作用。在建筑工地,使用常規(guī)方法很難跟蹤工人的狀態(tài)。為了減少與健康有關(guān)的事故和其他類型的事故,可以對工作人員和高速公路施工現(xiàn)場的建筑結(jié)構(gòu)進行實時監(jiān)測。傳感器節(jié)點的數(shù)量和位置會受到電源和布線的限制,這會提高數(shù)據(jù)收集的成本和復雜性,部署和維護的成本也可能上升。采用物聯(lián)網(wǎng)(internet of things,IoT)[2]并利用智能節(jié)點開發(fā)可適應(yīng)和有效的基礎(chǔ)設(shè)施用于數(shù)據(jù)收集和分析是當前趨勢,包含傳感設(shè)備的物理設(shè)備連接到互聯(lián)網(wǎng),允許數(shù)據(jù)在不同平臺之間交換,將系統(tǒng)實現(xiàn)技術(shù)與采集過程的特定階段分離以增加模塊化。
本文的主要貢獻包括:① 提出了一種高速公路施工現(xiàn)場智能監(jiān)控系統(tǒng),包括工人安全系統(tǒng)和結(jié)構(gòu)完整性系統(tǒng)。通過與物聯(lián)網(wǎng)平臺進行信息交互,最終展示給用戶。② 提出一種基于輕量級網(wǎng)絡(luò)的低分辨率人臉檢測算法(light-weight object detection,LOD),用于檢測施工人員是否佩戴安全帽。LOD算法應(yīng)用深度可分離卷積取代標準卷積,引入感受野模塊,使用LOD-NMS算法和Mish激活函數(shù),針對亞洲人的頭部特征比例設(shè)置合適的先驗框,實現(xiàn)了精度和速度的平衡。③ 將所提算法在真實與公開數(shù)據(jù)集上結(jié)合起來訓練,進行對比,驗證了數(shù)據(jù)集擴充后模型的平均預測精度有所提升。
Fernández-Steeger等[3]介紹了無線傳感器網(wǎng)絡(luò)在地面改善區(qū)的部署方案。Yang等[4]提出一種使用攝像機跟蹤建筑工地多名工人的方案。Zhao等[5]提出一種在施工現(xiàn)場定位預制構(gòu)件(prefabricated components,PC)并在安裝過程中監(jiān)測其結(jié)構(gòu)狀態(tài)的系統(tǒng)。Nawaz等[6]基于無線傳感器網(wǎng)絡(luò)監(jiān)測地下箱中三塊連續(xù)墻板在開挖和施工過程中的變形情況。Xia等[7]提出一種多用途的施工區(qū)域監(jiān)測系統(tǒng)。Laurini等[8]提出一種在施工現(xiàn)場使用RFID(radio frequency identification)標簽和電磁射頻支持的基于無線傳感器網(wǎng)絡(luò)的智能傳感器節(jié)點集成方法。Ragnoli等[9]提出一種基于LoRa的落石監(jiān)測無線傳感器網(wǎng)絡(luò)。
Viola-Jones[10]算法是能夠?qū)崟r處理且效果較好的人臉檢測算法。 Howard等[11]使用深度可分離卷積來構(gòu)建輕量級深度神經(jīng)網(wǎng)絡(luò)。Szegedy等[12]提出Inception的網(wǎng)絡(luò)結(jié)構(gòu)。Bodla等[13]提出Soft-NMS(soft-non max suppression)算法,通過高斯函數(shù)接收2個目標檢測候選框的交并比IoU(intersection over union),并做出不同程度的懲罰。
系統(tǒng)硬件結(jié)構(gòu)如圖1所示,經(jīng)過LoRa傳輸以后,物聯(lián)網(wǎng)服務(wù)對網(wǎng)關(guān)所接收到的數(shù)據(jù)包進行管理。
所提系統(tǒng)的LoRa節(jié)點包括:① 用于結(jié)構(gòu)的慣性測量單元(inertial measurement unit,IMU)節(jié)點,其實現(xiàn)了GPS(global positioning system)單元,便于定位,可以作為工人的跟蹤器;② 基于RFID的門訪問控制節(jié)點。結(jié)構(gòu)節(jié)點每隔60 min通過LoRa 物理層向網(wǎng)關(guān)發(fā)送報文。跟蹤器節(jié)點是一個DraginoLGT-92設(shè)備,是一種基于LoRa技術(shù)的開源GPS跟蹤器,用于緊湊和低重量格式的數(shù)據(jù)傳輸。
為了監(jiān)控高速公路施工現(xiàn)場的入口,基于超高頻RFID標簽開發(fā)了一個自主系統(tǒng)。每個工人的頭盔上都貼有合適的標簽,當經(jīng)過大門下方時,系統(tǒng)會檢測到工人,并將人員信息添加到現(xiàn)場人員列表中。
所提LOD模型與Cayenne互聯(lián)網(wǎng)平臺進行信息交互,實時監(jiān)控工人是否佩戴安全帽,以保障工人的生命安全。
圖1 系統(tǒng)硬件結(jié)構(gòu)
無線傳感器網(wǎng)絡(luò)的結(jié)構(gòu)節(jié)點安裝在腳手架桿和正在進行維護施工操作的房屋結(jié)構(gòu)上,如圖2所示。
圖2 無線傳感器網(wǎng)絡(luò)的結(jié)構(gòu)節(jié)點
結(jié)構(gòu)節(jié)點是由協(xié)調(diào)微控制器、運動和環(huán)境傳感器、UART(universal asynchronous receiver-transmitter)到USB(universal serial bus)接口、GPS調(diào)制解調(diào)器、連接到5 V太陽能電池板的電池管理系統(tǒng)以及供電和配電網(wǎng)絡(luò)組成的電子系統(tǒng)。微控制器為STM32L,由于其低功率工作模式可達幾微安,特別適合電池供電的應(yīng)用,因此也適用于基于采集的無線傳感器網(wǎng)絡(luò)。結(jié)構(gòu)節(jié)點塊方案如圖3所示。
圖3 結(jié)構(gòu)節(jié)點塊方案
Bq21040單電池充電集成電路通過太陽能收集或直接從USB連接為電池充電。與傳感器節(jié)點相關(guān)的電路由低降差穩(wěn)壓器以3.3 V供電。半導體的運動傳感器,電源為3.3 V,通過I2C連接到微控制器。傳感器可以基于電源模式在不同的分辨率設(shè)置下工作。在正常模式下,分辨率為4 mg/位±2 g刻度。設(shè)備上安裝Ublox MAX-7Q GPS調(diào)制解調(diào)器獲取經(jīng)緯度定位狀態(tài),并通過UART與單片機相接。Semtech SX1276 LoRa模塊為使用擴頻通信的長程技術(shù)的收發(fā)器。串行外設(shè)接口用于將該單元連接到微控制器,電源為3.3 V,該模塊-148 dBm的高靈敏度允許在低鏈路強度應(yīng)用中進行通信。ISM柔性天線2JF0115P用于LoRa通信。溫度和濕度以及氣壓也由結(jié)構(gòu)節(jié)點通過I2C總線上的BME680進行測量。溫度測量是0~65 ℃±1 ℃,濕度測量精度為±3%相對濕度(relative humidity,RH),每年典型漂移0.5% RH;氣壓測量精度為±0.12 hPa,每年典型漂移±1 hPa。使用補償閥確保箱內(nèi)氣壓與箱外氣壓在同一水平。
因為施工現(xiàn)場工人長期處于移動狀態(tài),且施工現(xiàn)場環(huán)境復雜,所以圖片的分辨率往往不高。因此,提出一種基于輕量級網(wǎng)絡(luò)的低分辨率人臉檢測算法(light-weight object detection,LOD),其應(yīng)用深度可分離卷積取代標準卷積,引入感受野模塊,使用LOD-NMS算法、Mish激活函數(shù),針對亞洲人的頭部特征比例設(shè)置合適的先驗框,在小分辨率圖片輸入情況下,實現(xiàn)了精度和速度的平衡。本文中所使用的LOD算法是在SSD(single shot MultiBox detector)算法[14]的基礎(chǔ)上進行輕量化改進得到的。采用基于深度可分離卷積和輕量級人臉檢測算法,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
輕量級網(wǎng)絡(luò)結(jié)構(gòu)包含6組卷積塊,每組卷積塊均包含不同數(shù)量的卷積和一個注意力模塊。引入 RFB(receptive field block)模塊是為了增大特征的感受野;引入 CBAM 注意力模塊[13]可以有效利用網(wǎng)絡(luò)中的通道和空間上的注意力,將檢測分支由原始的6個降為4個,并根據(jù)亞洲人人臉的具體情況設(shè)計先驗框的形狀和大小,大幅減少先驗框的數(shù)量。
輸入的特征圖的大小為H×W×M,卷積核尺寸為DK×DK×M×N,標準卷積的計算量和參數(shù)量如式(1)、式(2)所示。
NDWS=H×W×M×DK×DK×N
(1)
PDWS=M×DK×DK×N
(2)
式(1)—(2)中:H為圖片高度;W為圖片寬度;M為輸入通道數(shù);DK為卷積核尺寸;N為卷積核數(shù)量;NDWS為標準卷積的計算量;PDWS為標準卷積的參數(shù)量。
深度卷積和點卷積組合而成深度可分離卷積,其對常規(guī)卷積做了一個細微的改動,可以使參數(shù)數(shù)量下降。相當于用較小的精度損失換取內(nèi)存使用量的減少,并降低計算量,從而使得標準卷積神經(jīng)網(wǎng)絡(luò)能夠在大部分計算設(shè)備上運行。
圖4 LOD算法框架
如圖4所示,LOD算法首先使用深度卷積,逐個通道提取特征信息,經(jīng)過深度卷積后,得到的特征圖的數(shù)量與輸入層通道數(shù)相同。分通道計算后,考慮不同通道之間的信息,需要進行點卷積來重新組合特征圖。點卷積的卷積核的尺寸為1×1×M,M表示輸入層的通道數(shù),輸出特征圖和卷積核的數(shù)量是相同的。這一步驟進行的卷積運算會把前一步生成的特征圖在深度方向上作加權(quán)組合處理,生成新的特征圖。深度可分離卷積的計算量和參數(shù)量如式(3)、式(4)所示:
NDWS=H×W×M×DK×DK×N+
H×W×M×N
(3)
PDWS=M×DK×DK+M×N
(4)
使用深度可分離卷積之后的計算量與標準卷積的計算量的比值如式(5)所示。
(5)
式中:NDWS為深度可分離卷積計算量;NSTD表示標準卷積的計算量。
從式(5)可以發(fā)現(xiàn),相同的輸入的情況下,使用深度可分離卷積所需的參數(shù)量和計算量更少,同時能得到相同數(shù)量的特征圖輸出,因此深度卷積計算效率遠遠優(yōu)于普通卷積。
SSD通過設(shè)置不同尺度和形狀的先驗框,根據(jù)先驗框的偏移量得到物體位置,因此先驗框的數(shù)量會影響模型大小和計算量。先驗框用于標識人臉,通過調(diào)整先驗框的長寬比例減少檢測分支和先驗框數(shù)量。
RFB模塊通過設(shè)計一個新的結(jié)構(gòu)來提升感受野,并將其嵌入到SSD網(wǎng)絡(luò)中,模擬人類視覺的感受野來增強網(wǎng)絡(luò)的特征提取能力。
Mish激活函數(shù)是一種自正則的非單調(diào)神經(jīng)激活函數(shù),其函數(shù)表達式及導數(shù)表達式如式(6)、式(7)所示。
f(x)=x×tanh[ln(1+ex)]
(6)
(7)
式中:ω(x)=4(x+1)+4e2x+e3x+ex(4x+6),δ(x)=2ex+e2x+2。相比ReLU函數(shù),Mish 函數(shù)更加平滑,更有助于提高模型的泛化能力和模型收斂的速度,同時更好地傳播信息。其次,通過式(6)可以看出,Mish函數(shù)無上限有下限,不會出現(xiàn)梯度消失的問題,在訓練過程也不會使函數(shù)值封頂從而導致飽和。
NMS(multi-person pose estimation)算法直接將大于閾值的人臉框刪除,但是可能會導致檢測不夠準確。而LOD-NMS不是直接將其刪除,而是利用一個權(quán)重函數(shù),對相鄰區(qū)域內(nèi)(IoU超過閾值)的檢測框的分數(shù)進行調(diào)整,并做出不同程度的懲罰,結(jié)合懲罰的力度大小對目標物的置信度進行修改。這使得LOD-NMS可以取得更好的識別效果。
算法1LOD-NMS算法
輸入:B= {b1,…,bN},S= {s1,…,sN};B為初始檢測框列表;
S包含相應(yīng)的檢測分數(shù);
Nt為閾值
輸出:D,S.
begin
1.D← {};
2.whileB≠?do
3.m← argmaxS;
4.M←bm;
5.D←D∪M;
6.B←B-M;
7. forbi∈Bdo
8.ifIoU(M,bi)≥Ntthen
9.si←si*f(IoU(M,bi));
10.end
11.end
12.end
13.returnD,S;
end
LOD-NMS算法基本思想為:集合D用于保存經(jīng)過LOD-NMS抑制建議的框,初始化為空集;然后,遍歷整個集合,當B不為空時,按照建議框得分從高到低進行排序,集合M是按照得分高低排列的建議框;依次取出去掉最高得分建議框的所有框,并分別計算這些框與M的IoU;如果IoU(M,bi) 得分大于閾值Nt,使用權(quán)重函數(shù)f(IoU(M,bi)) 對得分進行衰減。如果有其他檢測框與檢測框M有重疊情況,該重疊框的分數(shù)會衰減,重疊度越高,分數(shù)衰減越嚴重。根據(jù)判定條件IoU(M,bi)≥Nt,將得分較小的si去掉。最后,返回LOD-NMS算法得到的建議框及該建議框的得分。
算法復雜性分析:在算法1中,已知初始檢測框列表數(shù)量為n,則算法的整體時間復雜度為O(n2)。
3.3.1數(shù)據(jù)集
1) WIDER FACE數(shù)據(jù)集,包括32 203張圖片,標注393 703張人臉。根據(jù)事件場景的類型將數(shù)據(jù)集分為61個類別,對于每類事件,隨機選擇40%、10%、50%的比例劃分到訓練集、測試集和驗證集。
2) 在高速公路施工現(xiàn)場收集的1 030張工人施工時的人臉照片,此數(shù)據(jù)集在本文中命名為WORKER FACE。
3.3.2實驗設(shè)置
實驗軟硬件環(huán)境包括:操作系統(tǒng)為Ubuntu 16.04,CPU為Intel(R) Core(TM) i7-13700K CPU@3.40 GHz,GPU為NVIDIA RTX 3090,24 GB。深度學習框架選擇Pytorch,在網(wǎng)絡(luò)訓練過程中使用隨機梯度下降優(yōu)化,動量設(shè)置為0.9,權(quán)重衰減為0.000 5。學習速率從0.001開始,經(jīng)過5個輪次后上升到0.01。
3.3.3評價標準
人臉檢測任務(wù)中的精確率和召回率通過混淆矩陣計算得到,其中TP表示工人佩戴安全帽被檢測正確,檢測框的置信度大于設(shè)定的閾值;FP表示背景被當作工人佩戴安全帽檢測出來,屬于誤檢;FN表示工人佩戴安全帽被檢測為背景,檢測框的置信度小于設(shè)定的閾值,屬于漏檢;TN表示背景被檢測正確,一般不做考慮。
是否佩戴安全帽檢測的評價標準主要采用平均精度(averageprecision,AP)來評價。 精確率(precision)是被判斷為正例的樣本中,其真實值也為正例的概率;召回(recall)是真實值為正例的樣本中,預測正確的概率,如式(8)、式(9)所示:
precision=TP/(TP+FP)
(8)
recall=TP/(TP+FN)
(9)
3.3.4消融實驗
為了驗證RFB模塊、CBAM模塊、Mish激活函數(shù)和LOD-NMS對LOD模型性能的影響,在WIDER FACE數(shù)據(jù)集上設(shè)計消融實驗。實驗結(jié)果如圖5所示。
圖5 不同模型在WIDER FACE數(shù)據(jù)集上的AP性能
Baseline表示最基礎(chǔ)的人臉識別模型,也就是只調(diào)整了檢測分支和先驗框個數(shù)之后的模型。驗證集根據(jù)邊緣框的檢測情況劃分為 easy,medium和hard 3個難度等級。在easy子集中,Baseline取得不錯的預測性能,在新的模塊不斷加入之后,模型的平均精度越來越高,進一步驗證了每一個模塊的重要性。當RFB模塊加入后,平均精度漲幅較大,說明RFB模塊對模型性能的影響較大。隨著預測難度等級的不斷上升,模型的平均精度表現(xiàn)逐步變差,但是即使在hard子集中模型也能達到0.46左右的平均精度,這是非常理想的性能,即在高速公路的施工現(xiàn)場,完全能夠識別出工人是否佩戴安全帽,以保障他們的生命安全。
同時在WIDER FACE數(shù)據(jù)集上和主流算法性能進行對比,實驗結(jié)果如表1所示。
表1 不同模型平均預測精度
觀察得知,相比于模型規(guī)模相近的LFFD、SSD-Mobilenetv1[15]和RetinaFace[16],LOD的模型準確率更高。在easy子集中,LOD模型的表現(xiàn)非常好,平均精度達到80%以上。在medium子集上,LEFT[17]與LOD模型相差無幾,但LOD模型略微低于LEFT模型,這是因為LOD模型采用的骨干網(wǎng)絡(luò)比LEFT模型小一些,對內(nèi)存的消耗也更小。在hard子集上,LOD模型展示出了性能優(yōu)勢,平均精度高于其他3個模型,進而證明LOD模型在實際高速公路施工現(xiàn)場中的可行性更強。真實數(shù)據(jù)集與公開數(shù)據(jù)集結(jié)合訓練,LOD模型預測結(jié)果如圖6所示。
將WIDER FACE結(jié)合WORKER FACE數(shù)據(jù)集進行訓練,LOD模型取得了最佳的預測性能。因為WORKER FACE數(shù)據(jù)集中包含很多工人戴著安全帽的人像圖,用其對模型提前預訓練,使得LOD模型平均精度從0.478(WIDER FACE數(shù)據(jù)集)提升到0.493(WIDER FACE+WORKER FACE數(shù)據(jù)集)。
圖6 不同數(shù)據(jù)集結(jié)合的訓練預測性能曲線
使用Cayenne web服務(wù)實現(xiàn)了一個遠程監(jiān)控web平臺,使高速公路施工現(xiàn)場管理人員能夠觀察工人和機器的運行狀態(tài)以及結(jié)構(gòu)元件參數(shù)。結(jié)構(gòu)節(jié)點報告GPS位置,傾斜角度是根據(jù)沿著3個空間軸的加速度測量數(shù)據(jù)計算得到的,如式(10)所示。
(10)
圖7顯示了4 d由結(jié)構(gòu)節(jié)點的加速度計感應(yīng)到的傾斜變化數(shù)據(jù),相對于安裝在腳手架管道上的一個元件,腳手架管道已經(jīng)改變了它的位置,沿著超過90°的軸旋轉(zhuǎn)。
圖7 利用腳手架元件測量的傾角變化
使用本文中所提系統(tǒng),高速公路施工管理人員可以將真實場景傳感器數(shù)據(jù)集成到BIM(building information modeling)系統(tǒng)中,以獲得優(yōu)化的投影操作、安全性增強和現(xiàn)場的總體改進。作業(yè)人員使用傾斜數(shù)據(jù)來監(jiān)測腳手架設(shè)備和關(guān)鍵施工點的結(jié)構(gòu)健康狀況。高速公路施工現(xiàn)場分為三片區(qū)域,便于出入管理和控制。每個區(qū)域都相對于一個定義良好的區(qū)域,RFID訪問監(jiān)控節(jié)點位于各自的入口大門。圖8為RFID訪問監(jiān)視儀表板主界面,扇區(qū)由不同顏色標識。
圖8 RFID節(jié)點監(jiān)控儀表板
提出了一個遠程廣域網(wǎng)多技術(shù)融合的高速公路施工智能監(jiān)控架構(gòu)及系統(tǒng),通過部署不同傳感器節(jié)點和電子設(shè)備,實現(xiàn)在真實獨立場景中對工作人員、工具、重型機械的自主監(jiān)測和智能跟蹤。站點人員可以通過在線儀表板訪問數(shù)據(jù),進行管理操作。此外,提出了LOD模型,用于檢測施工現(xiàn)場的工人是否佩戴安全帽,其結(jié)果與Cayenne互聯(lián)網(wǎng)平臺進行信息交互,實時監(jiān)控工人是否佩戴安全帽,保障工人的生命安全。