史健婷, 李 瑾
(黑龍江科技大學 計算機與信息工程學院, 哈爾濱 150022)
近年來,智慧礦山的一個重要環(huán)節(jié)就是煤炭智能開采,實現(xiàn)無人化開采是終極目標[1-3]。落實綜采工作面的無人開采模式,能夠增強煤礦開采工作的安全性[4]。在開采的過程中,采煤機作為開采的重要設(shè)備,其智能化程度直接影響開采的智能化水平[5]。采煤機截割巖石會損壞截齒,影響采煤的進程,增加成本。為提高開采的效率,實現(xiàn)無人化開采,深度學習技術(shù)開始應用到智能開采中[6]。利用深度學習分割綜采工作面的煤巖圖像,準確找出煤巖的分界線,使采煤機可以根據(jù)煤巖的分布情況自動調(diào)整截割位置和深度,提升開采效率[7]。在利用深度學習處理煤巖圖像方面,華同興等[8]將基于Faster R-CNN的目標檢測算法用于煤巖識別與煤層定位。張斌等[9]將基于回歸方程的深度學習目標檢測算法YOLOv2與線性成像模型相結(jié)合并通過該算法智能識別與定位井下采集煤巖圖像。司壘等[10]將基于U-NET網(wǎng)絡(luò)改進的CRSnet網(wǎng)絡(luò)應用在煤巖圖像處理上。筆者通過改進傳統(tǒng)U-NET++算法,利用殘差網(wǎng)絡(luò)來提升識別精度,以實現(xiàn)煤巖圖像語義分割。
U-NET神經(jīng)網(wǎng)絡(luò)[11-12]是一種對稱的全卷積神經(jīng)網(wǎng)絡(luò)。U-NET++[13]是將不同尺寸的U-NET結(jié)構(gòu)融入到了一個網(wǎng)絡(luò)里,其優(yōu)勢是可以抓取不同層次的特征,將它們通過特征疊加的方式整合,使融合時的特征圖尺度差異更小。U-NET++結(jié)構(gòu)[13]如圖1所示。
圖1 U-NET++結(jié)構(gòu)Fig. 1 U-NET++ structure
U-NET++網(wǎng)絡(luò)是綜合了每層信息,且長連接和短連接并存的結(jié)構(gòu),導致計算量增加很多,因此,利用U-NET++的結(jié)構(gòu)特點,采用“剪枝”操作對數(shù)據(jù)集進行預測,以此提升運算速度?;跉埐罹W(wǎng)絡(luò)的思想,在U-NET++網(wǎng)絡(luò)中加入類似Res2Net[14]的殘差結(jié)構(gòu),提高分割結(jié)果的精度。
第一步是“剪枝”操作,根據(jù)U-NET++的結(jié)構(gòu)可以看出,它在每一個深度的U-NET中都添加了深監(jiān)督,U-NET++L1、L2、L3和L4模型[13]如圖2所示。如果L1的分割結(jié)果足夠好,就不必要再運行下面的L2、L3和L4,就可以將其余的剪掉。通過實驗得到,L3的結(jié)果是最好的,因此,文中采用U-NET++L3作為對數(shù)據(jù)集進行預測的網(wǎng)絡(luò)模型。
圖2 U-NET++L1~L4模型Fig. 2 U-NET + + L1-L4 model
第二步是利用Res2Net的思想,在U-NET++模型中加入雙層殘差連接,如圖3所示。由圖3可見,殘差結(jié)構(gòu)首先將原來的輸入圖像按其通道數(shù)平均分為三組,將第一組特征直接輸出,將第二組特征通過3×3的卷積之后輸出,將第三組特征與第二組的輸出特征進行殘差連接后再通過3×3的卷積之后輸出,最后將三組輸出結(jié)果進行通道拼接,通過1×1的卷積層,將這些特征融合后進行輸出,計算公式為
(1)
式中:y——輸出;
x——均分后的每一組特征;
Ki——每組的卷積操作;
s——分組的組數(shù)。
圖3 殘差結(jié)構(gòu)Fig. 3 Residual structure
文中將上述殘差結(jié)構(gòu)加入到U-NET++網(wǎng)絡(luò)模型中,通過這個操作,可以更好獲得不同尺度上的信息,從而得到更準確分割結(jié)果。文中使用的網(wǎng)絡(luò)為R2U-NET++,具體結(jié)構(gòu)如圖4所示。
圖4 R2U-NET++網(wǎng)絡(luò)結(jié)構(gòu)Fig. 4 R2U-NET++ network structure
煤巖圖像數(shù)據(jù)集較為稀缺,實驗所用數(shù)據(jù)來源于黑龍江科技大學礦業(yè)工程學院,選出符合分割條件的數(shù)據(jù),剔除單一的煤圖像與巖石圖像,共得到可用圖像100張,接著將這些圖像通過切分、旋轉(zhuǎn)、添加噪聲與去噪等操作擴張數(shù)據(jù)集到1 000張,添加噪聲主要采用的是隨機噪聲、高斯噪聲和椒鹽噪聲。如圖5~7所示。
圖5 隨機噪聲Fig. 5 Random noise
圖6 高斯噪聲Fig. 6 Gaussian noise
圖7 椒鹽噪聲Fig. 7 Salt and pepper noise
圖像處理中常用的特征分為顏色、紋理、形狀及空間關(guān)系特征。通過實驗得出在煤巖圖像處理中,顏色和紋理特征在進行預測時表現(xiàn)最優(yōu)。
顏色特征是基于像素點的特征,描述了圖像或圖像區(qū)域?qū)矬w的表面特性。在煤巖圖像中,煤的顏色較深,巖石的顏色較淺。小部分巖石與煤的顏色相近,便通過紋理特征進行分析。紋理特征是一種物體表面特性,與顏色特征不同,紋理特征是不基于像素點的,需要在包含多個像素點的區(qū)域進行統(tǒng)計計算。紋理特征不會由于局部的偏差而無法匹配,對噪聲有較強的抵抗能力。在煤巖圖像中,由于煤的密度小于巖石的密度,煤的紋理相比于巖石的紋理較為稀疏,具體如圖8所示。
圖8 煤巖特征對比Fig. 8 Comparison of coal and rock characteristics
利用labelme軟件對得到的數(shù)據(jù)進行打標簽處理,最終得到的結(jié)果如圖9所示。
圖9 制作的樣本標簽Fig. 9 Sample label
數(shù)據(jù)處理之后對數(shù)據(jù)集進行劃分,將700張樣本作為訓練集,300張樣本作為測試集。按照文中所需網(wǎng)絡(luò)輸入的需求,將標記之后產(chǎn)生的json修改為png格式,再進行刪減、歸一化,最后輸入到網(wǎng)絡(luò)之中產(chǎn)生結(jié)果。
文中所使用的硬件為Intel i7、NVIDIA GeForce RTX 2060顯卡、16G內(nèi)存、6G顯存,軟件系統(tǒng)包括Windows10操作系統(tǒng)和CUDA11.0 pytorch 框架。
將數(shù)據(jù)導入到網(wǎng)絡(luò)框架中,訓練后得到訓練好的權(quán)重,通過測試獲得最終的分類結(jié)果,與其他網(wǎng)絡(luò)模型對比分析分割結(jié)果。網(wǎng)絡(luò)訓練過程中損失值(Loss)的收斂曲線如圖10所示。由圖10可知,R2U-NET++和U-NET++穩(wěn)定下來的損失值范圍都在0.01~0.10之間,R2U-NET++的穩(wěn)定性更好,從收斂情況來看,網(wǎng)絡(luò)訓練的結(jié)果比較理想。
圖10 R2U-NET++與U-NET++的Loss曲線Fig. 10 Loss curve of R2U-NET++ and U-NET++
測試時間如表1所示。由表1可以看出,在同等硬件設(shè)施的條件下(RTX2060),對測試集進行測試,得到文中所使用的網(wǎng)絡(luò),每張圖片的預測速度約0.008 s,相比于傳統(tǒng)的U-NET++模型速度快了0.002 s左右。由于本網(wǎng)絡(luò)測試時使用了包含類似3層U-NET的網(wǎng)絡(luò),在測試用時上還是不如傳統(tǒng)的U-NET網(wǎng)絡(luò)模型用時少。
表1 測試時間
在訓練結(jié)束后,使用PA(Pixel accuracy)和IOU(Intersection over union)這兩個圖像分割基本評價指標進行對比。PA為像素精度,即預測正確的像素量占總像素的比例,PA的值越大表明分割正確的像素值越高,分割效果越好,PA計算公式為
(2)
式中:k——圖像像素類別的數(shù)量;
Pii——原本為i類同時預測i類的像素總數(shù);
Pij——原本為i類被預測j類的像素總數(shù)。
ηIOU為交并比,即像素預測部分與真實部分的交集比上并集,ηIOU指標越高,表示預測結(jié)果和標定結(jié)果的重合率越高,并且不重合的區(qū)域越少,計算公式為
(3)
式中:S1——網(wǎng)絡(luò)預測為巖石的區(qū)域;
S2——標注為巖石的區(qū)域。
文中對U-NET++網(wǎng)絡(luò)與文中所改進的R2U-NET++網(wǎng)絡(luò)進行對比,在環(huán)境指標各項相同的條件下,對比結(jié)果如表2所示。
表2 R2U-NET++與U-NET++的性能對比
由表2可知,改進后的R2U-NET++像素精度為0.88,交并比為0.793,U-NET++像素精度為0.86,交并比為0.789,可以看出改進后的R2U-NET++在像素精度和交并比上優(yōu)于U-NET++。圖11為R2U-NET++與U-NET++網(wǎng)絡(luò)的準確率曲線,由圖11可以看出,準確率在訓練次數(shù)越來越多的情況下趨于穩(wěn)定,R2U-NET++網(wǎng)絡(luò)穩(wěn)定在0.88,U-NET++網(wǎng)絡(luò)穩(wěn)定在0.86,R2U-NET++準確率優(yōu)于U-NET++。將R2U-NET++與其它網(wǎng)絡(luò)進行測試對比,得到的對比結(jié)果如表3所示。
圖11 準確率曲線Fig. 11 Accuracy curve
表3 R2U-NET++與FCN、U-NET的性能對比
由表3可以看出,R2U-NET++像素精度為0.88,交并比為0.793,由于準確率和召回率是互相影響的,高準確率會造成低召回率,高召回率會造成低準確率,因此,綜合分析R2U-NET++在所對比的網(wǎng)絡(luò)中表現(xiàn)最好。關(guān)于三個網(wǎng)絡(luò)的實際測試分割結(jié)果可視化的對比如圖12~15所示。
圖12 原圖Fig. 12 Original
圖13 FCN分割結(jié)果Fig. 13 FCN segmentation result
圖14 U-NET分割結(jié)果Fig. 14 U-NET segmentation result
圖12為分割前的原圖,圖13為通過FCN網(wǎng)絡(luò)進行分割后的結(jié)果圖,圖14為通過U-NET網(wǎng)絡(luò)進行分割后的結(jié)果圖,圖15為通過R2U-NET網(wǎng)絡(luò)進行分割后的結(jié)果圖。由圖13~14可以看出,FCN和U-NET網(wǎng)絡(luò)對于添加噪聲后的圖片邊緣處理比較模糊,容易將煤分割成巖石或者將巖石分割成煤。由圖15可以看出,R2U-NET++網(wǎng)絡(luò)分割結(jié)果對邊緣處理最為細致,分割結(jié)果最優(yōu)。最后對圖像分割結(jié)果進行二值化處理,煤圖像用像素為0的黑色表示,巖石圖像用像素為255的白色表示,結(jié)果如圖16所示。
圖15 R2U-NET++分割結(jié)果Fig. 15 R2U-NET++ segmentation result
圖16 二值化結(jié)果Fig. 16 Binary result
對煤巖分割結(jié)果圖像二值化處理后,在綜采工作面上采煤機便可以通過像素值來判斷煤與巖石的位置,實現(xiàn)煤巖識別。
(1)文中提出了一種基于U-NET++網(wǎng)絡(luò)模型的圖像分割算法,用于煤巖混合圖像的分割。通過改進U-NET++網(wǎng)絡(luò)模型,剪枝操作節(jié)約了訓練與測試的運算時間,殘差結(jié)構(gòu)增強了特征信息的傳遞能力,提高了網(wǎng)絡(luò)對邊緣特征分割的準確率。
(2)通過優(yōu)化網(wǎng)絡(luò)模型,提升了R2U-NET++在煤巖圖像分割的性能,分割時間縮短了0.002 s/張,分割結(jié)果準確度提升2%。