尹蕊(北京交通大學(xué)計算機與信息技術(shù)學(xué)院,北京100044)
基于多尺度卷積神經(jīng)網(wǎng)絡(luò)的場景標(biāo)記
尹蕊
(北京交通大學(xué)計算機與信息技術(shù)學(xué)院,北京100044)
場景標(biāo)記是一種非常具有廣泛實用價值的應(yīng)用。無論在體育直播視頻中增加虛擬廣告,還是在某影像當(dāng)中檢測與識別關(guān)鍵物體,場景標(biāo)記都是這些應(yīng)用的核心問題。解析圖片的難點在于目標(biāo)識別,也即在整個圖片背景環(huán)境中將每個像素所屬的景物標(biāo)記出來。這一過程存在如下問題:如何準確地描述圖像信息并被計算機識別,采用什么樣的訓(xùn)練方式才能更加準確和高效地進行學(xué)習(xí)。針對以上問題,本文使用多尺度卷積神經(jīng)網(wǎng)絡(luò)來訓(xùn)練圖像以提取圖像特征并用于測試集。
我們有這樣的經(jīng)驗,圖像場景當(dāng)中對象的結(jié)構(gòu)尺度有大有小,若能在特征提取階段從多尺度鄰域中來提取,就會比從單一尺度當(dāng)中提取到更多的視覺信息,有可能增加局部特征當(dāng)中所帶的上下文信息,從而增加了特征提取階段對圖像信息描述的準確度,如圖1所示。
卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)方法的一種,是當(dāng)下圖像識別的主要研究方法。其核心思想是將局部感受野、權(quán)值復(fù)制與空間子采樣這三種結(jié)構(gòu)結(jié)合起來獲得某種程度上的位移、尺度和形變的不變性。在本質(zhì)上,卷積神經(jīng)網(wǎng)絡(luò)是一種輸入到輸出的映射,它能夠?qū)W習(xí)大量的輸入和輸出之間的映射關(guān)系,而并不需要任何輸入和輸出之間的精確數(shù)學(xué)表達式,只要用已知的模式對卷積網(wǎng)絡(luò)加以訓(xùn)練,網(wǎng)絡(luò)就具有輸入輸出對之間的映射能力。卷積網(wǎng)絡(luò)實行的學(xué)習(xí)算法是有監(jiān)督的,故其樣本集的格式為(輸入向量,理想輸出向量)這樣的向量對。開始訓(xùn)練前,所有的權(quán)都應(yīng)該用一些不同的小隨機數(shù)進行初始化?!靶‰S機數(shù)”用來保證網(wǎng)絡(luò)不會因權(quán)值過大而飽和,而導(dǎo)致訓(xùn)練失?。弧安煌眲t用來保證網(wǎng)絡(luò)的正常學(xué)習(xí)。
圖1
近些年,研究者采用過很多方法來解決圖像解析問題。其中,許多方法依靠馬爾科夫隨機域 (MRFs,Markov Random Fields)、條件隨機域 (CRFs,Condition鄄al Random Fields)或其他圖像模型來保證對象標(biāo)記的連續(xù)性和上下文的相關(guān)性。還有一些方法采用超像素或其他分割方法將圖像預(yù)分割為候選碎片,并從每個碎片或其他相鄰的碎片連接當(dāng)中提取特征和類別。
Socher等人提出了一種方法:使用一種訓(xùn)練得到的評分函數(shù)以貪心的方式來然后聚合分割。這種方法的創(chuàng)新之處就在于兩個連接分割的特征向量是由各自分割通過訓(xùn)練函數(shù)得到的特征向量計算得到的。他們也使用深度學(xué)習(xí)來得到特征提取部分,但其特征提取部分是在人工選取特征的基礎(chǔ)上做的。人工選取特征的方法費時費力,而且選取特征時還需要專業(yè)知識,能否選取準確還需要經(jīng)驗和運氣,因此還是需要由具有自動選取特征的深度學(xué)習(xí)方法來代替人工。
在機器視覺領(lǐng)域,為簡化或改變圖像的表示形式,使圖像更易于分析,又產(chǎn)生了圖像分割的做法,通常用于刻畫圖像中的物體和邊界。圖像分割(Segmentation)指的是圖像被細分為若干圖像子區(qū)域(也稱超像素)的過程。更準確地來說,它是對圖像中每個像素加標(biāo)簽(label)的過程。
圖像分割使得具有相同標(biāo)簽的像素具有某種共同的視覺特性。因此,一些研究者利用各種圖像分割(如分割樹)方法,將原始像素聚合成超像素(superpixel)。如,Russell等人利用對已標(biāo)記圖片處理所得的分割樹進行分割。Carreira等人則使用超像素對圖片進行分割。
之前,D.Grangier等人在場景解析中使用過卷及神經(jīng)網(wǎng)絡(luò)。他們將未處理的原始像素作為輸入進行訓(xùn)練,所得到的分類正確率還是令人滿意的。但還能夠綜合各種方法的優(yōu)勢以提高對象識別的正確率。
特征提取階段中以輸入圖像的視野(image patch)為單位對卷積神經(jīng)網(wǎng)絡(luò)進行輸入,通過卷及神經(jīng)網(wǎng)絡(luò)完成轉(zhuǎn)換 f:IRP→IRQ,使得圖像視野與線性可分類的IRQ可形成映射。然而,這里有一些問題:由于景物的尺寸有大有小,同樣大小的視野窗口很難提供充足的描述,使得學(xué)習(xí)器輸入的信息不全。另外,若固定使用較大的視野窗口則會增加輸入的維度,訓(xùn)練數(shù)據(jù)是有限的,因此就有必要增加學(xué)習(xí)算法當(dāng)中的常量個數(shù)。通常,采用池化方法來達到這樣的目的,但卻會降低學(xué)習(xí)模型對景物的定位與描述,同時也會使得卷積神經(jīng)網(wǎng)絡(luò)的規(guī)模變得非常大。
故本文用高斯圖像金字塔來進行多尺度處理來解決這些問題。各尺度輸入共享有同樣參數(shù)的卷積神經(jīng)網(wǎng)絡(luò),這樣保證圖像視野窗口在大小一樣的情況下,各像素包含的背景信息不同,達到更精細表示的效果。對于大小為w×i的圖像I,高斯金字塔Gj由I的幾個分辨率減小的高斯圖像 Ii(i是下標(biāo),下同)組成,其中,i= {0,1,…,j}代表金字塔的層數(shù)。圖像Ii的大小為(w/2i)× (h/2i)。圖像Ii是通過對圖像Ii-1進行隔行隔列采樣而得到的圖。獲得高斯金子塔的過程如圖2所示。
圖2
特征提取由卷積(Convolutions)層完成,前一層輸入的局部感受野與每個神經(jīng)元相連,其特征被提取,而后與其他局部感受野的特征間的位置關(guān)系也隨之相對獨立的確定下來,采用卷積運算的一個重要原因就是它可增強原信號特征并降低噪音;特征映射由子采樣(Subsampling)層完成,根據(jù)圖像局部相關(guān)性原理,對圖像進行子抽樣,減少數(shù)據(jù)處理量的同時保留有用信息特征,特征映射平面有多個且各神經(jīng)元權(quán)值均相等,這樣減少了網(wǎng)絡(luò)自由參數(shù)的個數(shù),降低了網(wǎng)絡(luò)參數(shù)選擇的復(fù)雜度,簡化了卷積網(wǎng)絡(luò)。其過程如圖3所示。
圖3
將卷積層和子采樣層放大來看,一個完整的卷積采樣過程如下圖4所示。其中,卷積的過程是使用一個可訓(xùn)練的濾波器fx卷積輸入圖像,再增加一個bx的偏置。子采樣的過程與卷積類似,將每相鄰的四個像素求和變?yōu)橐粋€像素之后再通過權(quán)值Wx+1加權(quán),加偏置bx+1,最后經(jīng)過一個激活函數(shù)(一般是Sigmoid函數(shù))進行激活。這樣可以得到一個大小近似縮小到原先1/4的特征映射圖Sx+1。最初的階段是對輸入圖像做卷積,而后的卷積目標(biāo)就變成了特征映射。子采樣層可看作是一種模糊濾波器,起二次特征提取的作用。隱層與隱層之間空間分辨率遞減,而每層所含的平面數(shù)遞增,這樣可用于檢測更多的特征信息。
圖4
本實驗使用的數(shù)據(jù)是“Stanford Background”,它包含了715幅以室外為背景的圖,其中共有9個類別需要標(biāo)注出來,分別是天空、樹木、道路、草坪、水域、建筑、山巒、前景物(因前景物種類太多,為避免訓(xùn)練時間成本,故統(tǒng)一歸為前景物)和未知類。每幅圖的尺寸都近似320×240個像素,且都至少有一個前景物。數(shù)據(jù)集使用三重交叉驗證得到其中572個作為訓(xùn)練集圖片,另外143個作為測試集圖片。此實驗當(dāng)中有若干需要解釋意義的參數(shù)如表1。
對于nhu,pools和conk三個參數(shù)的實驗組合和結(jié)果如表2所示。
由實驗結(jié)果說明:多尺度卷積神經(jīng)網(wǎng)絡(luò)能夠提高場景解析的正確率,但并非網(wǎng)絡(luò)深度越大,正確率就能越高,訓(xùn)練的正確率與具體問題的復(fù)雜程度和網(wǎng)絡(luò)構(gòu)造及參數(shù)設(shè)置都相關(guān)。
表1 實驗參數(shù)意義
場景解析的方法有很多,卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的一種方法值得深入研究。但因其網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、參數(shù)個數(shù)多、運算空間大,因此一直沒有十分有效的訓(xùn)練方法。但就場景解析這一問題,提高正確率還有很多技巧可以增加,如景物分割等。
[1]C.Farabet,C.Couprie,L.Najman,Y.LeCun.Scene Parsing with Multiscale Feature Learning,Purity Trees,and Optimal Covers.Proc. Int'l Conf.Machine Learning,June 2012.
[2]王濤,查紅彬.計算機視覺前沿與深度學(xué)習(xí)[J].中國計算機學(xué)會通訊,2015,4.
[3]R.Socher,C.C.Lin,A.Y.Ng,C.D Manning.Parsing Natural Scenes and Natural Language with Recursive Neural Networks.Proc.26th Int'l Conf.Machine Learning,2011.
Multiscale;Convolutional Networks;Scene Labeling;Deep Learning
Scene Labeling Based on Multiscale Convolutional Network
YIN Rui
(School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044)
1007-1423(2016)06-0048-04
10.3969/j.issn.1007-1423.2016.06.011
尹蕊(1990-),女,河南鄭州人,碩士研究生,研究方向為深度學(xué)習(xí)
2015-12-17
2016-02-16
場景標(biāo)記是將圖片中的像素按照其所屬景物的種類來識別并進行標(biāo)記。傳統(tǒng)學(xué)習(xí)算法將訓(xùn)練集圖片和某種學(xué)習(xí)機制相結(jié)合,利用后者的特點來提高訓(xùn)練正確率。提出一種基于多尺度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練已知圖像及其標(biāo)記的方法,用測試集圖片來驗證其標(biāo)記正確率。通過在Ubuntu系統(tǒng)上搭建快速機器學(xué)習(xí)環(huán)境Torch7來實現(xiàn)圖片像素的場景標(biāo)記。
多尺度;卷積神經(jīng)網(wǎng)絡(luò);場景標(biāo)記;深度學(xué)習(xí)
Scene labeling is a method which we label each pixel in an image with the category of the object it belongs to.The traditional learning algorithms combine the family of images with some method which is used to improve accuracy of training.Presents a method that uses a multiscale convolution network trained from pixels with label known and gets verified by the test set of graph.The system is built on Ubuntu by Torch7 which is a kind of sharp environment for machine learning.