夏海蛟,譚毅華
(1.華中科技大學(xué)自動(dòng)化學(xué)院,湖北 武漢 430074;2.多譜信息處理技術(shù)國(guó)家級(jí)重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430074)
近年來(lái),隨著深度人工神經(jīng)網(wǎng)絡(luò)在模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域的眾多比賽中獲得成功[1,2],其無(wú)監(jiān)督特征提取的能力受到廣泛關(guān)注。深度學(xué)習(xí)在目標(biāo)和行為識(shí)別中出現(xiàn)新進(jìn)展[3],在目標(biāo)檢測(cè)、圖像分割和視頻跟蹤等任務(wù)中涌現(xiàn)出大量的模型,其網(wǎng)絡(luò)結(jié)構(gòu)的層數(shù)越來(lái)越多,相應(yīng)的實(shí)驗(yàn)性能也更優(yōu)越[4,5],相當(dāng)多的研究專注深度學(xué)習(xí)的加速及其應(yīng)用。目前,深度學(xué)習(xí)在國(guó)內(nèi)受到學(xué)術(shù)界和工業(yè)界的廣泛重視[6]。然而,深度網(wǎng)絡(luò)的訓(xùn)練和參數(shù)調(diào)整是技巧性的工作[7],需要大量的樣本,而且隨著深度的增加,模型復(fù)雜度的提高,應(yīng)用模型提取特征和識(shí)別時(shí)的計(jì)算復(fù)雜度也很高,這在一定程度上影響了深度學(xué)習(xí)在一些對(duì)速度要求很高或有標(biāo)記數(shù)據(jù)有限的應(yīng)用場(chǎng)合中的推廣。
深度學(xué)習(xí)通過(guò)組合低層特征形成更加抽象的高層表示屬性類別或特征,層層逼近,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。文獻(xiàn)[8]中,Bengio等人介紹,有人為深度置信網(wǎng)(Deep Belief Net)引入貪心逐層無(wú)監(jiān)督學(xué)習(xí)算法,認(rèn)為深度結(jié)構(gòu)相比淺層結(jié)構(gòu)和單隱含層神經(jīng)網(wǎng)絡(luò)更有效。Hinton[9]指出,高維數(shù)據(jù)通過(guò)訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換成低維編碼以重建高維輸入向量,提出梯度下降法,微調(diào)自編碼網(wǎng)絡(luò)(Autoencoder)的權(quán)重,從而為深度網(wǎng)絡(luò)的構(gòu)建建立了可行性基礎(chǔ)。文獻(xiàn)[10]認(rèn)為池化能實(shí)現(xiàn)圖像轉(zhuǎn)換的不變性、更加緊湊的表達(dá)和對(duì)噪聲和雜亂更好的魯棒性。同時(shí),應(yīng)用池化的CNN(Convolutional Neural Network)在ImageNet分類任務(wù)上的效果非常成功,大量的圖像識(shí)別方案均基于此框架構(gòu)建[2]。目前的特征學(xué)習(xí)算法要求謹(jǐn)慎地選擇多個(gè)超參數(shù),如學(xué)習(xí)速率、動(dòng)力、稀疏懲罰和權(quán)重衰減等等,這為構(gòu)建理想的特征抽取網(wǎng)絡(luò)帶來(lái)了困難[7]。文獻(xiàn)[7,11]發(fā)現(xiàn),當(dāng)選擇K-means聚類算法形成視覺(jué)詞典后,從無(wú)標(biāo)簽數(shù)據(jù)中提取特征,在多個(gè)數(shù)據(jù)集下測(cè)試,結(jié)果表明,其識(shí)別準(zhǔn)確率勝過(guò)采用高斯混合模型GMM(Gaussian Mixture Model)、稀疏自編碼(Sparse Autoencoder)和稀疏受限玻爾茲曼機(jī)(Sparse Restricted Boltzmann Machine)等方法。因此,聚類算法作為學(xué)習(xí)無(wú)監(jiān)督特征的基礎(chǔ)具有一定的價(jià)值。
文獻(xiàn)[12]發(fā)現(xiàn),對(duì)基于視覺(jué)詞典抽取的特征,進(jìn)一步使用一個(gè)好的前饋非線性編碼器進(jìn)行編碼,比將更多的資源用在訓(xùn)練上能取得更好的效果。這也給出了提示,選擇更好的編碼器有助于提升無(wú)監(jiān)督特征學(xué)習(xí)的性能。文獻(xiàn)[13]也提出單個(gè)獨(dú)立單元處理具有局限性,多個(gè)局部空間的組合包含神經(jīng)網(wǎng)絡(luò)中高層的語(yǔ)義信息。這也是K-means聚類后可以取得較好的特征表達(dá)的原因,但這種空間信息的利用仍然存在一定的冗余。文獻(xiàn)[14]利用正交匹配追蹤OMP(Orthogonal Matching Pursuit)算法在分解的每一步對(duì)所選擇的全部原子進(jìn)行正交化處理,使得在精度要求相同的情況下,OMP算法的收斂速度更快,是一種十分有效的去除冗余的方法。
綜合上述思想、問(wèn)題和方法的優(yōu)缺點(diǎn),特征挖掘的層次化問(wèn)題并未給出詳細(xì)的討論。因此,在文獻(xiàn)[9]的基礎(chǔ)上,本文通過(guò)引入OMP算法和采用有效的編碼器來(lái)提升單層網(wǎng)絡(luò)的網(wǎng)絡(luò)性能。另外,利用K-means算法簡(jiǎn)單快速的特點(diǎn),構(gòu)造用于抽取多級(jí)特征的視覺(jué)詞典,形成與輸入圖像進(jìn)行卷積的濾波器集合,然后在抽取的第一級(jí)特征上進(jìn)行平均值池化操作,實(shí)現(xiàn)特征降維,同時(shí)使特征具備圖像變換的不變性。接著,在第一級(jí)特征的基礎(chǔ)上,抽取第二級(jí)的特征,進(jìn)行空間金字塔池化操作[15],放入2范數(shù)軟間隔支撐向量機(jī)L2-SVM分類器中,訓(xùn)練出分類器參數(shù);采用交叉驗(yàn)證的方式,識(shí)別測(cè)試樣本。
無(wú)監(jiān)督特征學(xué)習(xí)的一般流程是:先從一組無(wú)標(biāo)簽數(shù)據(jù)中學(xué)習(xí)視覺(jué)詞典,然后用學(xué)習(xí)到的視覺(jué)詞典提取數(shù)據(jù)的特征。K-means無(wú)監(jiān)督特征學(xué)習(xí),就是利用K-means聚類算法從大量的無(wú)標(biāo)簽樣本中學(xué)習(xí)出視覺(jué)詞典,然后提取特征。
在大量的圖像塊上,采用K-means聚類算法生成視覺(jué)詞典,選擇性地采用OMP算法對(duì)生成的視覺(jué)詞典正交化,然后權(quán)值編碼,得到圖像的特征,如圖1所示。
Figure 1 Feature extraction圖1 特征提取
為了減少空間信息的冗余,將K-means生成的視覺(jué)詞典作為初值,放入OMP算法[12]中,對(duì)視覺(jué)詞典進(jìn)行正交化。正交化前和正交化后的視覺(jué)詞典如圖2所示。
Figure 2 Visual dictionary圖2 視覺(jué)詞典
得到視覺(jué)詞典后,進(jìn)而提取樣本特征,即圖1的權(quán)值編碼過(guò)程。這里考慮兩種編碼器:軟編碼器[7]和軟閾值編碼器[12]。
在軟編碼器的權(quán)值編碼過(guò)程中,權(quán)值向量z由圖像塊x到每個(gè)視覺(jué)單詞的投影構(gòu)成,每個(gè)權(quán)值系數(shù)zk的計(jì)算過(guò)程如式(1)所示。
zk=‖x-D(k)‖2
(1)
其中,zk表示權(quán)值向量z的第k個(gè)元素,D(k)表示視覺(jué)詞典的第k個(gè)視覺(jué)單詞。
文獻(xiàn)[12]表明,對(duì)權(quán)值向量進(jìn)一步使用式(2)的變換可增強(qiáng)特征的辨識(shí)表達(dá)能力。
fk=max{0,μ(z)-zk}
(2)
其中,μ(z)表示權(quán)值向量z中所有元素的平均值,fk、zk表示特征向量f和權(quán)值向量z中的第k個(gè)元素。通過(guò)式(2),特征向量中約一半的元素置為0,保證了特征向量的稀疏性。
而軟閾值編碼器如式(3)所示。
fj=max{0,D(j)Tx-α}
fj+d=max{0,-D(j)Tx-α}
(3)
其中,D(j)表示視覺(jué)詞典中的第j個(gè)視覺(jué)單詞,d表示視覺(jué)詞典中視覺(jué)單詞的個(gè)數(shù),α為固定閾值,fj和fj+d分別表示特征向量f的第j維和第j+d維元素。
首先,對(duì)圖像預(yù)處理后,學(xué)習(xí)出視覺(jué)詞典。訓(xùn)練階段,提取特征并池化,經(jīng)過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化后,得到特征矢量。單級(jí)計(jì)算結(jié)構(gòu)模型見(jiàn)圖3。相比于文獻(xiàn)[7],在單級(jí)計(jì)算結(jié)構(gòu)的編碼過(guò)程中,采用軟閾值編碼器代替軟編碼器。
Figure 3 Single-stage computational structure圖3 單級(jí)計(jì)算結(jié)構(gòu)
學(xué)習(xí)時(shí),將向量還原成原始大小的圖像,隨機(jī)選取感受野大小的圖像塊。在所有圖像上循環(huán)采集,直到達(dá)到期望數(shù)量t。每個(gè)圖像塊為屬于RN空間的向量,其中N=w×w×k,k為圖像的通道數(shù)。構(gòu)造一個(gè)含t個(gè)圖像塊的數(shù)據(jù)集,X={x(1),…,x(t)},這里x(i)∈RN,i為圖像塊的編號(hào)。
為了增強(qiáng)每張圖像的亮度和對(duì)比度,在白化之前,先對(duì)每個(gè)圖像塊進(jìn)行亮度和對(duì)比度的歸一化。如式(4)所示,每個(gè)圖像塊x(i)上每個(gè)像素的灰度值,減去灰度的均值,然后除以標(biāo)準(zhǔn)差。另外,為了避免分母為0和抑制噪聲,給方差增加一個(gè)小的常數(shù)。對(duì)于[0,255]的灰度圖,一般給方差加10。
(4)
其中,mean(x(i))表示圖像塊灰度的均值,var(x(i))表示圖像塊的方差。
因?yàn)镵-means趨向于學(xué)習(xí)低頻類邊緣的特征[7],但是由于鄰域像素的相關(guān)性會(huì)很強(qiáng),而不是分散開(kāi)聚類中心以更均勻地展開(kāi)數(shù)據(jù),因而這樣的特征不會(huì)有很好的識(shí)別效果。因此,先用白化來(lái)去除數(shù)據(jù)的相關(guān)性,以驅(qū)使K-means在正交方向上分配更多的聚類中心。
實(shí)現(xiàn)白化的一個(gè)比較簡(jiǎn)單的方法是ZCA(Zero-phase Component Analysis)白化。先計(jì)算數(shù)據(jù)點(diǎn)的均值,對(duì)數(shù)據(jù)點(diǎn)的協(xié)方差矩陣進(jìn)行特征值分解,然后對(duì)數(shù)據(jù)點(diǎn)進(jìn)行白化。計(jì)算公式如下:
(5)
使用視覺(jué)詞典將N維的圖像塊映射到K維空間。對(duì)于一個(gè)n×n×d的圖像,采用大小為ω×ω,步長(zhǎng)為s的滑動(dòng)窗,計(jì)算滑動(dòng)過(guò)程中每個(gè)子塊的特征,生成((n-ω)/s+1)×((n-ω)/s+1) ×K的特征圖。
為了獲得局部旋轉(zhuǎn)和平移的不變性,同時(shí)降低特征維數(shù),對(duì)第一級(jí)特征圖,使用大小為p×p,步長(zhǎng)為s的平均值池化(如圖4所示),平均值池化公式如下:
avg(i:s:i+p-1,j:s:j+p-1,:)
(6)
其中,i表示行坐標(biāo),j表示列坐標(biāo)。
Figure 4 Average pooling圖4 平均值池化
對(duì)第二級(jí)特征圖,進(jìn)行尺度為[1,2,3]的空間金字塔最大值池化,即將特征圖分別等分成1份、4份和9份(如圖5所示),每份取最大值拼接起來(lái),作為特征圖的最終表達(dá),計(jì)算過(guò)程如式(7)所示。
Figure 5 Partitions of the feature map圖5 特征圖分塊
(7)
其中,C={C1,C2,…,C13,C14},C1表示一張?zhí)卣鲌D,C2,C3,C4,C5表示特征圖分成4等份,C6,C7,…,C13,C14表示特征圖平均分成9等份。
在每一級(jí)結(jié)束之前,先將數(shù)據(jù)標(biāo)準(zhǔn)化。數(shù)據(jù)標(biāo)準(zhǔn)化類似于亮度和對(duì)比度歸一化,只是數(shù)據(jù)標(biāo)準(zhǔn)化針對(duì)矩陣中圖像的每一維做操作,標(biāo)準(zhǔn)化過(guò)程如式(8)所示。
(8)
其中,X為特征矩陣,mean(X)為特征矩陣的列均值,var(X)為特征矩陣的方差。為避免分母為0,給標(biāo)準(zhǔn)差加一個(gè)常數(shù)0.01。
數(shù)據(jù)標(biāo)準(zhǔn)化后,隨同正確標(biāo)記的標(biāo)簽,進(jìn)入L2-SVM分類器訓(xùn)練,得到分類器參數(shù)。
在圖像上利用圖3所示的單級(jí)計(jì)算結(jié)構(gòu)進(jìn)行第一級(jí)提取,提取出的特征作為輸入進(jìn)行第二級(jí)提取,然后用提取出來(lái)的特征矢量訓(xùn)練L2-SVM分類器,得出圖像的分類結(jié)果,計(jì)算識(shí)別率。
構(gòu)建的兩級(jí)計(jì)算結(jié)構(gòu)在第一級(jí)中采用平均值池化,第二級(jí)采用空間金字塔池化,在結(jié)構(gòu)上不同于先前K-means構(gòu)建的結(jié)構(gòu)。兩級(jí)計(jì)算結(jié)構(gòu)如圖6所示,兩級(jí)計(jì)算結(jié)構(gòu)的視覺(jué)詞典如圖7所示。
Figure 6 Two-stage computational structure圖6 兩級(jí)計(jì)算結(jié)構(gòu)
Figure 7 Two-stage visual dictionary圖7 兩級(jí)視覺(jué)詞典
構(gòu)建兩級(jí)計(jì)算結(jié)構(gòu)的難點(diǎn)在于,在大樣本數(shù)據(jù)集上,第一級(jí)的特征圖通道數(shù)多,圖像塊維數(shù)高,計(jì)算量大,第二級(jí)的特征圖通道數(shù)多,輸出特征矢量維數(shù)高,對(duì)計(jì)算機(jī)硬件有要求。以兩級(jí)模型為例,大樣本數(shù)據(jù)集中包含50 000幅圖像,第一級(jí)特征圖通道數(shù)為200個(gè),第二級(jí)中圖像塊維數(shù)為7 200維,第二級(jí)輸出特征圖通道數(shù)為800,特征矢量為11 200維,矩陣大小為50000×11200,對(duì)計(jì)算機(jī)內(nèi)存有一定的要求,內(nèi)存至少需要8 GB,在大樣本數(shù)據(jù)集上應(yīng)用存在困難,因此建立自選數(shù)據(jù)集進(jìn)行測(cè)試。
5.1.1 自選數(shù)據(jù)集
數(shù)據(jù)集中部分圖像來(lái)自谷歌地圖,部分來(lái)自航空?qǐng)D像。在同一場(chǎng)景摳取1 000個(gè)建筑物、1 000個(gè)非建筑物作為學(xué)習(xí)和訓(xùn)練的數(shù)據(jù)集,截取481個(gè)建筑物和481個(gè)非建筑物作為測(cè)試數(shù)據(jù)集。為了檢驗(yàn)網(wǎng)絡(luò)的泛化能力,在不同場(chǎng)景截取230個(gè)建筑物和230個(gè)非建筑物。部分樣本如圖8所示,圖8中建筑物和非建筑物圖像各20個(gè),前兩行為建筑物,后兩行為非建筑物。
Figure 8 Building and non-building samples圖8 建筑物和非建筑物樣本
5.1.2 CIFAR-10[16]
CIFAR-10數(shù)據(jù)集由60 000幅大小為32×32的彩色圖像組成,分成10類,每類6 000幅,有50 000幅訓(xùn)練圖像和10 000幅測(cè)試圖像。數(shù)據(jù)集分成5個(gè)訓(xùn)練批次和1個(gè)測(cè)試批次,每個(gè)批次含10 000幅圖像。測(cè)試批次在每一類中隨機(jī)選取1 000幅,訓(xùn)練批次以隨機(jī)的次序包含余下的圖像,但是有些訓(xùn)練批次中,一類包含的圖像多過(guò)另一類。訓(xùn)練批次在每一類上包含5 000幅圖像。
圖9是數(shù)據(jù)集中圖像的類別,每一類隨機(jī)選取10幅。
Figure 9 Classes and randomly-selected samples圖9 類別和隨機(jī)樣本
5.1.3 VOC2012[17]
VOC2012數(shù)據(jù)集由含8 331幅彩色圖像的訓(xùn)練集和含8 351幅彩色圖像的測(cè)試集組成。訓(xùn)練集包含15 002個(gè)樣本,測(cè)試集包含15 092個(gè)樣本。所有的樣本分成20類,每類包含的圖像數(shù)目各不相同。圖10是數(shù)據(jù)集中圖像的類別和樣本。
Figure 10 Classes and samples圖10 類別和樣本
將分類出來(lái)的標(biāo)簽與正確的標(biāo)簽做比較,然后用總數(shù)減去不正確的標(biāo)簽數(shù)目后除以總數(shù),得到正確的識(shí)別率,作為評(píng)價(jià)指標(biāo),如式(9)所示。
(9)
其中,Acc表示準(zhǔn)確率,T表示正確分類的標(biāo)簽數(shù),F(xiàn)表示錯(cuò)誤分類的標(biāo)簽數(shù)。
在自選數(shù)據(jù)集上,除了正確的識(shí)別率外,另加上精度作為評(píng)價(jià)指標(biāo)。如式(10)和式(11)所示,精度是被分為正確的建筑物(或非建筑物)個(gè)數(shù)占建筑物(或非建筑物)總數(shù)的比例。
(10)
(11)
其中,PreT為建筑物精度,PreN為非建筑物精度,TP表示建筑物正確分類的數(shù)目,F(xiàn)P表示建筑物錯(cuò)誤分類的數(shù)目,TN表示非建筑物正確分類的數(shù)目,F(xiàn)N表示非建筑物錯(cuò)誤分類的數(shù)目。
實(shí)驗(yàn)平臺(tái)硬件處理器為Intel(R) Core(TM) i5-6400 CPU @ 2.71 GHz,內(nèi)存為8.00 GB。實(shí)驗(yàn)在CIFAR-10、自選數(shù)據(jù)集和VOC2012上分別進(jìn)行。
5.3.1 CIFAR-10
單級(jí)計(jì)算結(jié)構(gòu)在32×32大小的三通道自然圖像上,采集400 000個(gè)大小為6×6的感受野圖像塊,經(jīng)過(guò)預(yù)處理后,使用K-means算法學(xué)習(xí)出含有1 600個(gè)視覺(jué)單詞的視覺(jué)詞典。
在訓(xùn)練圖像上,同樣使用6×6大小,步長(zhǎng)為1的滑動(dòng)窗采樣,經(jīng)過(guò)預(yù)處理后,進(jìn)行軟編碼,將108維空間映射到1 600維空間中,將映射后大小為27×27×1600的特征圖分成四個(gè)象限,對(duì)每個(gè)象限求和得到6 400維的特征。將50 000幅圖像放入L2-SVM分類器中訓(xùn)練,得到分類器參數(shù)。最后,用10 000幅圖像測(cè)試。
為了檢驗(yàn)不同的編碼對(duì)實(shí)驗(yàn)效果的影響,采用軟閾值編碼代替軟編碼,得到新的測(cè)試效果。
將視覺(jué)詞典理解為以視覺(jué)單詞為基的空間,那么將空間正交化能提高特征表達(dá)的準(zhǔn)確性,而K-means算法采用的是統(tǒng)計(jì)學(xué)原理,并不能保證基空間的正交性。因此,在運(yùn)用K-means算法后,以K-means算法結(jié)果作為初值,再進(jìn)行OMP運(yùn)算,形成新的K-O結(jié)構(gòu),得到一組實(shí)驗(yàn)結(jié)果。
同時(shí),為了分析實(shí)驗(yàn)效果的優(yōu)劣,算法與稀疏編碼SC(Sparse Coding)算法[12]以及當(dāng)前熱門的CNN算法進(jìn)行比較。利用卷積神經(jīng)網(wǎng)絡(luò)工作臺(tái)CNNWB(Convolutional Neural Network Work Bench)代碼,得到一組數(shù)據(jù),如表1所示,最后的數(shù)據(jù)結(jié)果表明,使用軟編碼器的結(jié)構(gòu),準(zhǔn)確率為77.35%,而使用軟閾值編碼器的結(jié)構(gòu),準(zhǔn)確率達(dá)到78.69%,加上OMP后,準(zhǔn)確率上升到79.25%,高于SC算法和CNN算法的分類準(zhǔn)確率,但是低于NIN網(wǎng)絡(luò)的分類準(zhǔn)確率。表1中Triangle代表軟編碼,T代表軟閾值編碼。
5.3.2 自選數(shù)據(jù)集
將圖像歸一化成大小為32×32的三通道圖像,第一級(jí)采集400 000個(gè)大小為6×6的圖像塊,預(yù)處理后,學(xué)習(xí)出含100個(gè)視覺(jué)單詞的視覺(jué)詞典。訓(xùn)練數(shù)據(jù)使用軟閾值編碼得到大小為27×27×200的特征圖,采用大小為3×3,步長(zhǎng)為3的局部平均值池化,得到9×9×200的特征圖,數(shù)據(jù)標(biāo)準(zhǔn)化后得到第一級(jí)輸出,作為第二級(jí)的輸入。在第二級(jí)計(jì)算時(shí),感受野大小不變,采集100 000個(gè)圖像塊,學(xué)習(xí)出含400個(gè)視覺(jué)單詞的視覺(jué)詞典,使用軟閾值編碼器進(jìn)行第二級(jí)卷積特征提取,得出的特征圖大小為4×4×800,進(jìn)行尺度為[1,2,3]的空間金字塔最大值池化,得到14×800=11200維的向量,數(shù)據(jù)標(biāo)準(zhǔn)化后進(jìn)入線性分類器L2-SVM訓(xùn)練。測(cè)試階段,進(jìn)行兩級(jí)特征提取,使用L2-SVM分類器分類,采用正確的識(shí)別率和精度作為評(píng)價(jià)指標(biāo)。
Table 1 Recognition results of CIFAR-10表1 CIFAR-10上的識(shí)別率
為了檢驗(yàn)效果,分別采用軟編碼器和軟閾值編碼器,將數(shù)據(jù)集用于K-means、OMP、 SC、K-O、隨機(jī)采集圖像塊方法RP(Random Patches)[12]、K-means與OMP視覺(jué)詞典合并的網(wǎng)絡(luò)、K-means與OMP的并行網(wǎng)絡(luò)上,得到各自正確的識(shí)別率。另外,在MatConvNet[19]平臺(tái)上,將Lenet[20]和NIN[18]網(wǎng)絡(luò)應(yīng)用于數(shù)據(jù)集上,得到兩組正確的識(shí)別率。實(shí)驗(yàn)結(jié)果如表2和表3所示,其中Triangle代表軟編碼,T代表軟閾值編碼。
如表2所示,在同一場(chǎng)景下,K-means-2layers(T)結(jié)構(gòu)的識(shí)別率為97.82%,與單級(jí)計(jì)算結(jié)構(gòu)K-means(T)相當(dāng),高于其他大多數(shù)的結(jié)構(gòu);在不同場(chǎng)景下,K-means-2layers(T)結(jié)構(gòu)的識(shí)別率為90.43%,高于單級(jí)計(jì)算結(jié)構(gòu)的88.70%,僅低于RP(Triangle)結(jié)構(gòu)和SC(Triangle)結(jié)構(gòu),但高于同樣采用T編碼器的RP(T)和SC(T)結(jié)構(gòu),表現(xiàn)出較好的泛化能力;在混合場(chǎng)景下,K-means-2layers(T)結(jié)構(gòu)的識(shí)別率為95.43%,高于多數(shù)結(jié)構(gòu)。在三種情形下,兩級(jí)計(jì)算結(jié)構(gòu)的識(shí)別率高于Lenet結(jié)構(gòu)和NIN結(jié)構(gòu)的。
如表3所示,在同一場(chǎng)景下,建筑物與非建筑物的識(shí)別精度相當(dāng);在不同場(chǎng)景下,非建筑物的識(shí)別精度高達(dá)99.57%,明顯高于建筑物的識(shí)別精度;最終,非建筑物的識(shí)別精度在混合場(chǎng)景下高于建筑物的識(shí)別精度。
Table 2 Recognition results of self-selection dataset表2 自選數(shù)據(jù)集識(shí)別率
Table 3 Precision results of self-selection dataset表3 自選數(shù)據(jù)集精度
深度學(xué)習(xí)網(wǎng)絡(luò)的識(shí)別率在中等數(shù)據(jù)集上未能表現(xiàn)出明顯優(yōu)勢(shì)原因可能是:數(shù)據(jù)集規(guī)模不夠,導(dǎo)致網(wǎng)絡(luò)無(wú)法充分地收斂。訓(xùn)練參數(shù)如表4所示,表中學(xué)習(xí)率前30次為0.5,到40次為0.1,最后5次為0.02。
Table 4 Training parameters of deep learning表4 深度學(xué)習(xí)訓(xùn)練參數(shù)
5.3.3 VOC2012[17]
K-means單級(jí)計(jì)算結(jié)構(gòu)在15 002個(gè)樣本上進(jìn)行訓(xùn)練,然后在15 092個(gè)樣本上測(cè)試,得出準(zhǔn)確率。同時(shí),將單級(jí)計(jì)算結(jié)構(gòu)中的軟閾值編碼代替軟編碼,得到新的結(jié)果。另外,將K-mean單級(jí)計(jì)算結(jié)構(gòu)與K-O結(jié)構(gòu)、SC算法、Lenet算法和NIN算法進(jìn)行比較,結(jié)果如表5所示。
Table 5 Recognition results of VOC2012表5 VOC2012結(jié)果
由表5可以看出,對(duì)于VOC2012數(shù)據(jù)集來(lái)說(shuō),單級(jí)計(jì)算結(jié)構(gòu)更換編碼器對(duì)準(zhǔn)確率影響不大,但是加入OMP算法后網(wǎng)絡(luò)準(zhǔn)確率由58.81%上升到59.20%,高于Lenet和NIN結(jié)構(gòu)。
VOC2012數(shù)據(jù)集上兩級(jí)計(jì)算結(jié)構(gòu)的平均準(zhǔn)確率超過(guò)Lenet和NIN結(jié)構(gòu),但未能超過(guò)單級(jí)計(jì)算結(jié)構(gòu)的原因是:在視覺(jué)詞典原子數(shù)目固定的情況下,樣本數(shù)目的缺少,使得采樣空間不能充分地表達(dá)圖像,導(dǎo)致平均準(zhǔn)確率下降。
[1] Schmidhuber J. Deep learning in neural networks:An overview[J].Neural Networks,2015,61:85-117.
[2] Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]∥Proc of Advances in Neural Information Processing Systems,2012:1097-1105.
[3] Zheng Yin,Chen Quan-qi,Zhang Yu-jin.Deep learning and its new progress in object and behavior recognition [J].Journal of Image and Graphics,2014,19(2):175-184.(in Chinese)
[4] Szegedy C, Liu W,Jia Y,et al.Going deeper with convolutions[C]∥Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2015:1-9.
[5] He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C]∥Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778.
[6] Yu Kai,Jia Lei,Chen Yu-qiang,et al.Deep learning:Yesterday,today,and tomorrow [J].Journal of Computer Research and Development,2013,50(9):1799-1804.(in Chinese)
[7] Coates A,Ng A Y.Learning feature representations withk-means[M]∥Neural Networks:Tricks of the Trade.Heidelberg:Springer,2012:561-580.
[8] Bengio Y,Lamblin P,Popovici D,et al.Greedy layer-wise training of deep networks[C]∥Proc of Advances in Neural Information Processing Systems,2007,19:153-160.
[9] Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
[10] Boureau Y L, Ponce J,LeCun Y.A theoretical analysis of feature pooling in visual recognition[C]∥Proc of the 27th International Conference on Machine Learning (ICML-10),2010:111-118.
[11] Coates A,Lee H,Ng A Y.An analysis of single-layer networks in unsupervised feature learning[C]∥Proc of International Conference on Artificial Intelligence and Statistics, 2011:215-223.
[12] Coates A, Ng A Y. The importance of encoding versus training with sparse coding and vector quantization[C]∥Proc of the 28th International Conference on Machine Learning,2011:921-928.
[13] Szegedy C,Zaremba W,Sutskever I,et al.Intriguing properties of neural networks[C]∥Proc of International Confer-
ence on Learning Representations,2014:6199.
[14] Pati Y C,Rezaiifar R,Krishnaprasad P S.Orthogonal matching pursuit:Recursive function approximation with applications to wavelet decomposition[C]∥Proc of the 27th Annual Asilomar Conference on Signals,Systems and Computers,1993:40-44.
[15] Bo L,Ren X,Fox D.Unsupervised feature learning for RGB-D based object recognition[C]∥Proc of Experimental Robotics,2013:387-402.
[16] Krizhevsky A, Nair V, Hinton G.The CIFAR-10 dataset [DB /OL].[2013-11-14].http://www.cs.toronto.edu/~kriz/cifar.html.
[17] Everingham M,Van Gool L,Williams C K I,et al.The PASCAL visual object classes (VOC) challenge[J].International Journal of Computer Vision,2010,88(2):303-338.
[18] Lin M,Chen Q,Yan S.Network in network[C]∥Proc of International Conference on Learning Representations,2014:4400.
[19] Vedaldi A,Lenc K.Matconvnet:Convolutional neural networks for Matlab[C]∥Proc of the 23rd ACM International Conference on Multimedia,2015:689-692.
[20] LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[21] He K,Sun J.Convolutional neural networks at constrained time cost[C]∥Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2015:5353-5360.
附中文參考文獻(xiàn):
[3] 鄭胤,陳權(quán)崎,章毓晉.深度學(xué)習(xí)及其在目標(biāo)和行為識(shí)別中的新進(jìn)展[J].中國(guó)圖象圖形學(xué)報(bào),2014,19(2):175-184.
[6] 余凱,賈磊,陳雨強(qiáng),等.深度學(xué)習(xí)的昨天,今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013,50(9):1799-1804.