劉宏宇, 周 慧
(大連東軟信息學院大數據科學系, 遼寧 大連 116023)
目前,全球海運業(yè)快速發(fā)展,因船只碰撞導致的溢油事故頻發(fā),而溢油監(jiān)測是溢油應急管理和決策支持的主要部分[1-3]。
隨著機器學習算法的廣泛應用,溢油的分類和檢測也越來越多地應用機器學習方法[4-5]。例如,FINGAS等[6]使用馬爾可夫隨機場算法的油膜識別準確率為86.5%。XU等[7]采用局部自適應閾值和SVM分類器進行溢油識別。在帶標簽油膜樣本充足的情況下,上述方法是有效的。但在實際應用中,油膜標簽數據較少而無標簽數據容易獲取。通過大量未標記數據提升學習器性能,是目前應用最為廣泛的半監(jiān)督學習方法[8]。
本文首先采用最大相關-最小冗余(mRMR)算法提取更具鑒別力的油膜特征,其次在標簽數據較少的情況下,利用自適應置信度的半監(jiān)督決策樹進行溢油識別,最后采用公開數據集進行實驗證明本文所提分類器具有較好的泛化能力。
在溢油識別的研究過程中,需要結合不同類別的圖像特征,而不是依賴于單一特征,主要包括幾何特征、統(tǒng)計特征、紋理特征等[9]。通常依靠經驗選擇溢油特征,但是僅憑經驗難以得到合適的特征集,尤其是特定油種。特征選擇算法是解決上述問題的有效手段之一[10]。利用mRMR算法對候選特征進行有效選擇,計算特征與目標變量之間的最大相關性,以及特征間的最小冗余性,利用互信息度量對特征進行評價,從特征集合中篩選出合適的特征子集。溢油特征選擇的具體過程如下。
(1)計算最大相關性與最小冗余度。最大相關性體現特征對類別的區(qū)分能力,具體是找到一個包含|S|個特征的特征集S,使得S中的所有特征與類別的相關性最大化;最小冗余度考慮特征之間最小相似性,具體是找到一個包含|S|個特征的特征集S,使得S中的每個特征之間是相互最小相似。
(1)
(2)
其中,S為特征子集,C={c1,c2,c3,…,cn}為類別變量,xi、xj為第i、j個特征,I為c(xi,xj)的相關函數,即互信息,公式如下:
(3)
(2)利用增量搜索方法尋找近似最優(yōu)的特征。假設已有特征集Sm-1,并且xi∈X-Sm-1,maxΦ(D,R)作為特征評價標準,其中Φ=D(S,C)/R(S),則mRMR評價條件如下:
(4)
(3)根據mRMR評價和排序結果,從初始的特征集中提取最具有分辨性的特征子集,組成輸入特征向量X,X=(x1,x2,…,xn)T。
在眾多的監(jiān)督學習分類算法中,決策樹是非常有效且應用較為廣泛的經典算法之一,具有參數少、容易解釋、適合集成等優(yōu)點。決策樹中的內部結點稱為決策結點,每個決策結點包含1個測試條件,并根據測試結果發(fā)射2個或2個以上的分支;樹中的葉子結點被稱為預測結點,每個預測結點對應1個類別(分類樹)。待預測的樣本從樹根出發(fā),依據自身輸入屬性值和當前決策結點的測試條件決定流向哪個分支,當到達預測結點后,便得到預測結果。同時,決策樹從根到葉子結點路徑上的測試條件的提取可以認為是一條規(guī)則,一棵訓練好的決策樹容易轉化為一系列預測規(guī)則。
自適應的半監(jiān)督決策樹采用模糊聚類的方法劃分無標簽樣本,該劃分方法將樣本到各個分類目標(即簇心)的距離作為優(yōu)化目標。自適應的半監(jiān)督決策樹完成一次劃分后,樣本到各個簇心的距離同樣能反映該樣本隸屬于各個相應簇的程度。對于一個樣本來說,它與哪個分類目標的距離越近,則它對相應類別的隸屬程度就越高。同時,一個樣本對不同簇隸屬程度間的差異,也能反映該樣本劃分的模糊程度。如圖1中μ1、μ2和μ3分別表示三個簇的中心,無標簽樣本x1、x2與μ1的距離分別小于它們與μ2、μ3的距離。從聚類的角度看,x1、x2都屬于簇C1;但從模糊聚類的角度看,x1與μ1的距離遠遠小于其與μ2、μ3的距離,x2與μ1的距離僅略小于其與μ2的距離。說明x2分簇模糊程度要高于x1的分簇模糊程度。
當使用自適應半監(jiān)督決策樹預測一個無標簽樣本時,樣本從根結點出發(fā),需要經過多次劃分直至到達葉子結點。在每次劃分中,需要計算該樣本與當前結點所有子結點表示簇的中心的距離,該樣本墜入具有最近距離的相應分支。與此同時,最近距離與次近距離的比值可以同時被計算求得,這個比值在這里被定義為該樣本在本輪劃分中的模糊度。假設圖1中的樣本x1與μ1、μ2和μ3的距離分別為0.1、1和2,樣本x1本輪的劃分模糊度為0.1/1=0.1,假設圖1中樣本x2與μ1、μ2和μ3的距離分別為0.4、0.5和2.3,樣本x2本輪的劃分模糊度為0.4/0.5=0.8。
預測時,當無標簽樣本經歷多次劃分到達葉子結點后,該樣本的各輪劃分模糊度已經被計算,這些模糊度的平均值就是關于這個樣本的預測模糊度,可用于衡量對該樣本預測的置信程度。預測模糊度越低,表示預測置信度越高。公式(5)和公式(6)給出了樣本x預測模糊度的計算方法。
(5)
dis(i,x,μ)=(x-μ)TC-1(x-μ)
(6)
公式(5)和公式(6)中,x為mRMR特征選擇方法提取溢油圖片的灰度統(tǒng)計特征和紋理統(tǒng)計特征,fuzziness(x)表示樣本x獲得的預測模糊度,ns表示樣本x被劃分的次數,dis(i,x,μnearest1)和dis(i,x,μnearest2)分別表示第i輪劃分中樣本x與最近簇心和次近簇心的距離,C為特征向量x協(xié)方差矩陣,C=E{[x-E(x)][x-E(x)T]}。
實驗利用訓練集提取特征向量并根據訓練模型識別遙感圖像中的油膜與非油膜。獲取溢油特征后,利用mRMR算法進行特征提取,并且分別利用決策樹和SVM兩個分類模型驗證特征的有效性。不同的特征提取數量對應的油膜識別準確率如表1所示。
通過實驗結果可以看出,利用mRMR計算特征之間的相關性,并從候選特征中篩選合適的特征子集,當特征選擇個數為8個時,在不同的分類算法中,溢油識別效果都能達到最好。最終提取的8個特征在油膜和非油膜的對比結果如圖2所示。
(a)角二階矩
(b)熵
(c)紋理局部相似性
(d)細長度
(e)灰度能量
(f)角能量
(g)灰度方差
(h)灰度均值圖2 mRMR特征選擇結果Fig.2 mRMR feature selection results
利用SAR圖像進行海面溢油區(qū)域檢測過程中,無標簽的雷達圖像樣本大量存在,而有標簽樣本卻很難獲得,因此需要采用半監(jiān)督學習算法。為了模擬標簽數據較少的場景,僅使用5.0%、7.5%、10.0%、15.0%和20.0%的標簽樣本比例作為訓練樣本,不同標簽樣本比例下自適應置信度半監(jiān)督決策樹模型的識別準確率比決策樹模型分別高13.6%、7.5%、5.8%、5.6%和5.4%。不同標簽樣本比例下的識別準確率如表2所示。
在5.0%、7.5%、10.0%、15.0%和20.0%的標簽樣本比例下,自適應半監(jiān)督決策樹的最終模型識別準確率分別為77.9%、79.2%、79.4%、80.3%和83.9%,說明利用自適應半監(jiān)督決策樹多次自訓練后,基本能夠學習到油膜的特征并識別出油膜圖像。
表3中,經過mRMR特征選擇后,本文模型在不同標簽樣本比例下都有最好的表現,并且識別準確率進一步提升。在5.0%標簽樣本比例下,本文模型的識別準確率比SVM高30.8%,比決策樹提高22.4%;在7.5%標簽樣本比例下,本文模型的識別準確率比SVM和決策樹分別提升了31.1%和15.7%;在10.0%標簽樣本比例下,本文模型的識別準確率比SVM和決策樹分別提升了22.7%和15.1%;在15.0%標簽樣本比例下,本文模型的識別準確率比SVM和決策樹分別提升了24.1%和15.6%;在20.0%標簽樣本比例下,本文模型的識別準確率比SVM和決策樹分別提升了22.4%和12.3%。以上數據說明,在標簽數據較少的情況下,自適應半監(jiān)督決策樹通過挖掘無標簽數據中的信息,獲得了性能更好的分類模型。相比監(jiān)督學習分類模型 SVM 和決策樹的識別準確率,本文模型在不同標簽樣本比例下平均提升了 26.22%和 16.22%。
為解決溢油檢測過程中油膜標簽數據較少的問題,本文采用mRMR提取油膜標簽的有效特征,然后在半監(jiān)督決策樹學習模型中引入自適應置信度,采用基于模糊聚類的方法衡量樣本預測的置信程度,最終獲得具有較好泛化能力的分類器。在不同的標簽樣本比例下分別進行分類實驗的結果表明,采用自適應置信度的半監(jiān)督決策樹模型能夠有效地提高油膜識別準確率;在標簽樣本比例較低時,模型的提升效果更為明顯。