呂秉略 李忠峰 奚崢皓 姚英茂 季菁菁
(1.上海工程技術大學電子電氣工程學院 上海 201620)(2.營口理工學院電氣工程學院 營口 115014)
隨著節(jié)能減排在國家發(fā)展戰(zhàn)略中的地位日益突出,碳達峰與碳中和的發(fā)展目標對國家能源結構提出了更高的要求。煤炭資源作為我國能源結構中至關重要一環(huán),對其高效利用成為了必然要求[1~2]。提高煤炭資源的利用效率需要對煤巖的組分進行有效的識別與區(qū)分。煤巖的組分主要分為鏡質組、惰質組與半鏡半絲組。由于煤巖顯微圖像各組分形態(tài)特征多樣,目前的煤巖組分分析主要采用人工分析方式[3~4]。但需要分析人員具有一定專業(yè)性,能對顯微組分進行準確區(qū)分,且長時間工作時,分析精度將會下降。
近來,已有學者通過計算機視覺和圖像處理方式進行煤巖組分識別與分析任務。文獻[5]利用機器學習方法結合圖像處理技術對煤巖顯微圖像進行識別。通過隨機森林算法實現(xiàn)了90.44%的識別準確率,同時利用K-means算法進行區(qū)域分割。文獻[6]基于高斯改進K-means聚類方法對煤巖顯微組分進行分割。文獻[7]根據(jù)對煤巖顯微圖像的亮度值測定特征,提出了基于空間域數(shù)字圖像處理方法的煤巖分析。文獻[8]提出利用自適應Gamma校正來改善煤巖顯微圖像的光照變化導致的識別效果降低問題。然而,這些方法主要以圖像灰度值或顏色信息作為煤巖顯微組分的判斷依據(jù),無法根據(jù)組分的形態(tài)特征進行有效識別與分割。此外,因不同煤巖顯微圖像的灰度值分布不同,通常仍需人工選取灰度值作為分類的判斷標準。
隨著深度學習在計算機視覺領域的發(fā)展,諸多研究者針對圖像分割問題提出了相應的模型。相較于傳統(tǒng)圖像處理方法[9~10],使用深度網(wǎng)絡模型的圖像分割算法更關注于圖像的紋理特征信息。文獻[11]提出的Mask-RCNN模型基于區(qū)域選擇方法進行圖像分割。FCN 網(wǎng)絡模型[12]通過卷積下采樣與反卷積上采樣的方式對圖像進行像素級的分類從而實現(xiàn)語義分割。但該方法需要大量樣本進行模型訓練。UNet網(wǎng)絡模型[13]則是在FCN 網(wǎng)絡結構基礎上進行改進,通過反卷積方式進行上采樣,同時通過同一層級的跳躍連接方式進行特征融合。該方法在醫(yī)學圖像分割領域展現(xiàn)出了優(yōu)秀效果,且對訓練樣本數(shù)量的需求較小。Zhou Z 等[14]在UNet模型上對跳連的方式進行了改進,提出UNet++網(wǎng)絡模型,針對每一級都增加了上采樣結構,從而為模型提供不同層級的特征信息。
本文以文獻[14]為基礎,針對圖像分割方法進行煤巖顯微圖像組分分析任務的精度較低問題,使用UNet++網(wǎng)絡模型與Lovasz-Softmax 損失相結合的方法進行改進。提出的方法在多種煤巖組分的識別中更加準確,各組分間的邊界清晰,受煤巖顯微圖像中組分占比不均問題影響較小。
將如圖1 所示的UNet++網(wǎng)絡模型用于煤巖顯微圖像。節(jié)點Xi,j表示對xn進行一次卷積下采樣或反卷積上采樣。其中,i 為下采樣結果對應的采樣層級,共5次,即0 ≤i≤4。j為同一層級需要進行跳躍連接的節(jié)點序號,1 ≤j≤i-1。采樣的輸出結果為。通過UNet++網(wǎng)絡中的下采樣卷積與上采樣反卷積計算,可對xn進行像素類別映射得到最終的分割結果,從而實現(xiàn)對煤巖顯微圖像的組分分割。
圖1 UNet++網(wǎng)絡模型結構
從模型首層X0,0處輸入xn,依式(1)進行計算。
xn經(jīng)過節(jié)點{X0,0,X1,0,X2,0,X3,0,X4,0},通過帶有激活函數(shù)的卷積下采樣計算?(·)進行下采樣,再經(jīng)過{X3,1,X2,2,X1,3,X0,4}進行反卷積上采樣計算。其中,Τ(·)表示反卷積上采樣,[·]表示特征級聯(lián),即跳躍連接過程,s為同一層級中先于當前節(jié)點計算的節(jié)點序號。
跳躍連接可以將煤巖顯微圖像中的高分辨率信息引入到上采樣所得的結果中,從而保證分割精度。以模型的首層為例,其跳躍連接結果如圖2 所示。
圖2 UNet++模型首層跳躍連接示意圖
針對煤巖顯微圖像中多類別組分分割問題,本文使用Lovász-Softmax 損失函數(shù)[16]進行模型的訓練。令y?表示章節(jié)2 所提UNet++模型中首層反卷積上采樣節(jié)點的輸出分割結果x0,jn,相應的標注結果y*=y*n。Lovász-Softmax 利用y?與y*的交并比(Intersection over Union,IoU)進行損失計算,使得模型可通過訓練對IoU 進行優(yōu)化,從而提升煤巖中各組分的分割精度。
依據(jù)式(3)計算煤巖圖像中第c 類煤巖組分所對應的交并比Jc。
此時,各像素點根據(jù)是否被誤分類得到對應的{0,1}離散值,對應損失函數(shù)為離散函數(shù),需要將其擴展為連續(xù)函數(shù)以進行梯度下降優(yōu)化。
其中,gp表示第p 個像素對應的交并比系數(shù)。該系數(shù)向量g(m)的計算過程如表1。
表1 交并比系數(shù)向量g計算偽代碼
對所有煤巖組分類別的IoU 損失loss 進行求和,可得Lovász-Softmax 損失函數(shù)L,如式(12),并作為式(2)中的Lj從而實現(xiàn)對所有煤巖組分類別的損失計算。
相比于交叉熵模型訓練方法,Lovász-Softmax損失函數(shù)直接對煤巖圖像分割結果的交并比進行優(yōu)化,使模型能對各組分的紋理差異進行區(qū)分,獲得組分間的清晰邊界,實現(xiàn)煤巖顯微圖像多類別組分的分割。
本文基于PyTorch 框架進行UNet++模型的搭建與訓練,實驗平臺的硬件與軟件設置如表2。
表2 平臺硬件與軟件配置
本文實驗采用7 張人工標記的760×760 分辨率灰度煤巖顯微圖像對模型訓練。因顯微圖像較少,實驗中將每張圖像依分辨率38×38 進行切分,即將單張煤巖顯微圖像樣本切分成400 張小塊樣本,總計2800 張小塊樣本。此外,模型采用Adam優(yōu)化器進行參數(shù)優(yōu)化,學習率設為1×10-4,權重衰減設為1×10-8,Batch size 設為512。模型共訓練1000個epoch。
本文通過式(13)計算對分割結果與人工標記圖像的平均交并比(mIoU)來評價模型對煤巖顯微圖像組分的分割精度:
其中,pc1,c2為將類別c1預測為c2的像素數(shù),c1為真實值,c2為預測值。當模型對圖像進行分割的結果越接近標記區(qū)域,mIoU 值越接近1,分割效果越好。
此外,本文將所提方法的分割結果及各組分占比與人工標記結果進行比較,以評價本文方法的準確性。其中,煤巖顯微組分占比計算如式(14),V、I、S、B 分別為鏡質組、惰質組、半鏡半絲組、背景組占比:
本文另選4 張煤巖顯微圖像用作測試。其分別表示:僅含有鏡質組、僅含有惰質組、僅含有半鏡半絲組,以及3 種組分均包含的情況。煤巖顯微圖像、對應人工標記圖像、UNet++分割效果、交叉熵+UNet++算法分割效果、K-means算法分割效果如圖3所示。
圖3 煤巖顯微圖像原圖示例與各分割算法結果圖
從圖3可以看出,UNet++所得到的煤巖組分分割結果與人工標記的組分區(qū)域最為接近。UNet++結合交叉熵算法則因背景組占比較大,導致無法區(qū)分煤巖組與背景組,對紋理較為相似的半鏡半絲組與惰質組的分割效果同樣較差。而K-means 算法只能根據(jù)灰度圖像的像素值將煤巖顯微圖像分割成四類,無法根據(jù)各類組分的紋理特征進行區(qū)分。同時,K-means 算法只關注圖像顏色,導致在不同圖像上分割的分類中心取值不同,無法自動判斷煤巖組分。
通過4.2 節(jié)中的式(14)的評價方法,將分割結果中各煤巖組分的占比與人工標記的各組分占比進行比較,結果如表3所示。
表3 本文方法與人工標記的組分占比計算分析
從表3 可看出本文所提算法得到的煤巖各組分占比與人工標記組分占比的平均差值均小于3%。對于僅含有惰質組的煤巖顯微圖像,本文所提算法與標記的惰質組占比相差3.98%,半鏡半絲組和鏡質組均相差低于2%,這表明本文所提算法能夠將惰質組與其他組分準確區(qū)分。對于僅含有鏡質組或僅含有半鏡半絲組的煤巖顯微圖像,本文所提方法所得占比與人工標注結果相差均相差小于5%,表明本文所提方法對于紋理相似的煤巖組分也能有效地區(qū)分。對于三種組分均含有的煤巖顯微圖像樣本,本文方法與人工標記的組分占比相接近,差值均低于3%。
依據(jù)4.2 節(jié)中的mIoU 計算方法計算本文方法與人工標記結果的mIoU 值,對四張測試圖像進行分割精確度評估,結果如表4。
表4 本文方法所得分割結果mIoU值
從表4 中可以看到,對于選取的四張煤巖顯微樣本圖像,本文方法得到的分割結果mIoU 值均在90%以上,表明分割結果與人工標注區(qū)域接近,分割效果較好。
本文基于UNet++模型結合Lovász-Softmax 損失函數(shù)進行模型訓練,使模型能對煤巖顯微圖像進行有效準確的組分識別與分割。本文所提算法與UNet++結合交叉熵方法就模型訓練比較,本文所提算法獲得的各煤巖組分分類更加準確;與K-means 算法相比,本文所提算法無需人工參與,分割準確且受圖像灰度值變化影響較小。實驗結果表明,由本文所提算法得到的煤巖顯微組分識別結果與人工標注組分占比差異在3%以內,且mIoU均在90%以上,具有良好的煤巖顯微組分分割與分析效果。但由于算法前期采用切分原圖方式獲得煤巖樣本,使分割結果有著明顯的網(wǎng)格效應,后續(xù)工作中將針對該問題進行研究。