楊曉旭+高巍+顧颋
摘 要
2013年賈揚清博士在Github上發(fā)布了一款深度學(xué)習(xí)框架“Caffe”,為眾多研究人員和工程師們提供了一套簡單易用且性能強大的深度學(xué)習(xí)開源框架。本文首先對Caffe框架簡單介紹,其次闡述深度學(xué)習(xí)中應(yīng)用的卷積神經(jīng)網(wǎng)絡(luò)原理,最后介紹如何利用Caffe框架進行圖像分類。
【關(guān)鍵詞】深度學(xué)習(xí) Caffe框架 卷積神經(jīng)網(wǎng)絡(luò) 圖像分類
1 Caffe框架
目前“特征提取+分類器”的框架模式仍然是在模式識別領(lǐng)域中最經(jīng)典的框架,Caffe框架亦是如此。通過提取圖像的特征,將圖像的特征圖像數(shù)據(jù)送入分類器中進行分類,最后實現(xiàn)識別分類。而作為深度學(xué)習(xí)框架的Caffe框架,與傳統(tǒng)的機器學(xué)習(xí)相比,在對原始圖像進行特征提取時,用的則是類似人類大腦的神經(jīng)元組成的神經(jīng)網(wǎng)絡(luò),不需要人工設(shè)定特征提取,機器自動學(xué)習(xí)就可獲得。它的框架是將簡單模塊多層堆疊,大多數(shù)模塊都是具有學(xué)習(xí)能力的,能計算非線性輸入-輸出映射,也就是激活函數(shù)。多個非線性層構(gòu)成的系統(tǒng)可以實現(xiàn)非常復(fù)雜的函數(shù),具有非常好的泛化能力和魯棒性。
2 卷積神經(jīng)網(wǎng)絡(luò)的原理
Caffe的全稱是Convolutional Architecture for Fast Feature Embedding,意思是快速特征嵌入的卷積結(jié)構(gòu),它實現(xiàn)了前饋卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)(CNN)。卷積神經(jīng)網(wǎng)絡(luò)是一種多層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),訓(xùn)練更簡單,泛化能力比相鄰層用全連接好,是目前廣泛應(yīng)用的深度模型。
卷積神經(jīng)網(wǎng)絡(luò)比一般神經(jīng)網(wǎng)絡(luò)多了一個結(jié)構(gòu),這個結(jié)構(gòu)就是由卷積層和子采樣層(pooling layer)構(gòu)成的特征提取器。網(wǎng)絡(luò)中,每個卷積層是由若干個特征圖(feature map)組成的,每個特征圖使用不同的卷積核連接到上一卷積層特征圖的局部部分。但同個特征圖是共用一個卷積核的,即權(quán)值共享。所謂權(quán)值共享,就是圖像在做卷積時,如果圖像某一部分的統(tǒng)計特性與其他部分相同,那么這部分學(xué)習(xí)到的特征就可以使用到相同特征的其他部分上,這就意味著它具有位置無關(guān)性。另外,對相似度高的圖像組,由于局部像素高度相關(guān),也更易檢測出特征,提高了效率。子采樣也叫池化,它的作用是將不同位置的相同或相似度高的特征聚合統(tǒng)計,降低計算量,通常有平均池化和最大值池化兩種方法。
在Caffe中,利用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型時,卷積層實現(xiàn)了權(quán)值共享,比全連接層的計算量大,參數(shù)量小,這也就實現(xiàn)了降低參數(shù)的目的。當(dāng)然,因為卷積層計算量比例大,參量比例小,而全連接層正好相反,因此在考慮優(yōu)化參數(shù)時,全連接層是更好的方向,而當(dāng)要考慮優(yōu)化計算量時,則把重點放在卷積層。
3 圖像分類
圖像分類問題看似簡單,實則很深,而且應(yīng)用廣泛。實際上,目標(biāo)檢測、識別、分割等計算機視覺問題都可以看成是圖像分類問題。
本文以兩個實際用例對利用Caffe框架進行圖像分類作簡單介紹,通過現(xiàn)場采集的部分樣本圖片,用以訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型。此傳輸線用例的數(shù)據(jù)集由十萬張圖片組成,分為四類:絕緣子正常、脫落,導(dǎo)線正常、斷股。在實際應(yīng)用中,據(jù)此來判斷傳輸線是否存在問題,在應(yīng)用前,實驗得到的結(jié)果驗證精確度達到100%,實際應(yīng)用中,識別準(zhǔn)確率達到99.8%,這是由于在實際應(yīng)用中傳輸線周遭環(huán)境的突然變化,如惡劣天氣等。
圖1是該用例系統(tǒng)的算法流程圖。首先,輸入待識別的圖像到設(shè)備中,再對輸入圖像進行預(yù)處理,主要是修定圖像大小,以方便提取特征進行下一步的檢測識別。
圖2所示是電力系統(tǒng)中線路開關(guān)閉合的監(jiān)測情況實時顯示,實際應(yīng)用中,識別正確率達到98.5%。
4 結(jié)束語
本文簡單介紹了Caffe框架,闡述了卷積神經(jīng)網(wǎng)絡(luò)的原理,并用實際用例簡單說明了如何利用Caffe進行圖像分類識別。從傳輸線系統(tǒng)和電力線路開關(guān)系統(tǒng)的實際應(yīng)用情況來看,其效果是非常好的,檢測精確率都很高。
參考文獻
[1]鄭胤,陳權(quán)崎,章毓晉.深度學(xué)習(xí)及其在目標(biāo)和行為識別中的新進展[J].中國圖象圖形學(xué)報,2014,19(02):175-184.
[2]Jia Y,Shelhamer E,Donahue J,et al. Caffe: Convolutional ar-chitecture for fast feature embedding[C].Proceedings of the ACM International Conference on Multimedia.ACM,2014:675-678.
作者簡介
楊曉旭(1972-),男,碩士學(xué)位。高級工程師。研究方向為變電站自動化。
高?。?973-),男,大學(xué)學(xué)歷。研究方向為變電站自動化。
顧颋(1979-),男,大學(xué)學(xué)歷。研究方向為變電站自動化。
作者單位
國電南瑞科技股份有限公司 江蘇省南京市 211106endprint