張 濤,唐 華,張?zhí)鹛?/p>
(湖北工業(yè)大學信息技術中心,湖北 武漢430068)
計算機的快速發(fā)展以及大數(shù)據時代的到來,人們對各種圖像的需求量也隨之加大,為應對需求,各大軟件提供的圖像數(shù)量也不斷增加[1-2]。為快速分類圖像,節(jié)省傳統(tǒng)方式所消耗的人力、物力以及時間等,將圖像根據不同的類型、特點等因素劃分開來[3]。圖像分類作為圖像應用領域的研究熱點,對圖像的存儲、信息安全等都有著積極的作用[4]。
文獻[5]提出基于優(yōu)化視覺詞袋模型的圖像分類方法,該方法在Means算法的基礎上聚類處理提取的SIFT特征,構建視覺測點,對圖像類別與視覺單詞之間存在的相關性和視覺單詞之間存在的語義相似性進行計算,在圖像分類過程中引入加權系數(shù)對重要程度進行衡量,根據衡量結果實現(xiàn)圖像分類,該方法對特征紋理不多的圖像進行分類時會產生錯誤匹配,無法獲得圖像的深度特征,導致圖像分類結果的真陽性率較低。文獻[6]提出基于多分辨率Trace變換的圖像分類方法,該方法利用變換后的Trace進行圖像分類。首先,為獲取高頻邊緣以及低頻特征的不同頻率子圖,在Trace變換中投入變換后的小波,并對所采集的圖像非下采樣小波變換,獲取所采集圖像的邊緣信息以及融合特征;最后利用獲取到的圖像融合特征完成對圖像的分類操作。該方法的假陽性率較高,導致圖像的分類效果不理想。文獻[7]提出基于GLCM-GMRF紋理特征和深度置信網絡的圖像分類方法,該方法以圖像的紋理特點作為先決條件,反射各個像素之間的關系以及不同類型圖像的獨有特點,根據GLCM-GMRF特點、DBN SAR方法以及RADAR-SAT-2數(shù)據,分別利用GLCM以及GMRF獲取空間灰度特點,并根據獲取到的特點構建鄰域像素組合以完成圖像分類。該方法在圖像分類過程中獲取的灰度特點無法描述圖像的深度特征,導致該方法假陽性率較高。
綜上所述,為更準確地進行圖像分類,提出基于深度神經網絡訓練優(yōu)化與算法的圖像分類方法。實驗表明,該方法真陽性率相對較高、假陽性率相對較低。
基于FCM算法對圖像進行分割處理,具體操作步驟如下:
1)為了處理量子化粒子并完成種群位置初始化操作,利用量子位實數(shù)編碼將c個隨機獲得的樣本數(shù)據組建成最初的聚類中心向量,并用其代表粒子位置,重復執(zhí)行r次;
2)隨機選擇粒子的全局和個體最優(yōu)位置;
3)通過下式計算粒子對應的適應度
(1)
4)通過下式對粒子在深度神經網絡中的位置進行更新:
Δθij(t+1)=ωΔθij(t)+c1r1(Δθl)+c2r2(Δθg)
(2)
式中,Δθg表示種群的最新最優(yōu)位置和當下全局最優(yōu)位置兩者間的角度之差,[0,1]區(qū)間的隨機數(shù)是r1、r2,常數(shù)由c1和c2表示,Δθij(t)表示粒子的最新個體最優(yōu)位置和當下最優(yōu)位置兩者間的角度之差,其計算公式如下:
5)根據量子理論在粒子個體最優(yōu)位以及當前轉角向量不變的情況下交換概率;
6)為達到最大迭代數(shù)或者符合收斂條件,將對第3)步進行循環(huán)操作;
7)對FCM算法的參數(shù)進行初始化操作,并將最優(yōu)個體的解碼數(shù)據作為初始聚類核心;
8)根據上述方法對圖像進行分割操作;
9)結束圖像分割。
在進行圖像去噪時,學習型字典大多利用所采集圖像的局域投入訓練[9]。所研究方法利用全局以及學習型兩類字典來對圖像進行去噪操作。以上兩類字典在圖像內容有所變化時,圖像性能也會隨之變化。為提升圖像的去噪效果,在所采集圖像的紋理數(shù)量居多時可利用學習型字典;相反,如結構占比高時,則利用全局字典對圖像進行去噪操作。
基于深度神經網絡訓練與優(yōu)化算法的圖像分類方法在圖像分割的基礎上對圖像進行去噪處理。把所采集的圖像通過方法2劃分為兩個部分,分別是紋理和結構。根據不同的方法對上述兩個部分進行去噪,從而達到預期效果。但是這種方法也存在一定的問題,例如學習型字典的速度相對較慢。為解決此問題,利用雙稀疏方法將學習型、固定兩類字典進行結合,并保證在不影響去噪效果的基礎上,對去噪流程進行了優(yōu)化,具體步驟如下:
1)通過MCA算法提取所采集圖像的紋理;
2)利用雙稀疏字典將1)中提取的紋理進行去噪操作;
3)根據差值法提取圖像結構,采用K-SVD對該結構去噪;
4)完成圖像的去噪。
采用與上述K-SVD不同的方法獲取字典,由雙稀疏字典產生的函數(shù)計算方法為:
(3)
(4)
(5)
當實驗所采集的樣本信號較大時,上述式(4)的復雜度以及計算量相對增加。為解決該問題,對公式進行優(yōu)化
(6)
(7)
(8)
進一步對上式進行優(yōu)化
(9)
上述公式中EK和實驗中采集的樣本的長度一致,通過求解上式,實現(xiàn)圖像的稀疏去噪。
基于深度神經網絡訓練與優(yōu)化算法的圖像分類方法,利用深度神經網絡提取圖像的深度特征,并在多核學習的基礎上實現(xiàn)深度特征的融合,采用支持向量機構建分類器,實現(xiàn)圖像的分類。具體如下:
為了深度提取圖像特征,需要構建一個卷積神經網絡,隨后抽取卷積層中的特點作為深度特征。
1)通過下式(10)(11)構建數(shù)據集并對采集的圖像進行標記;
lm=[lm1,lm2,…,lmN]
(10)
La=[La1,La2,…,LaN]
(11)
式中,N代表圖像類型的數(shù)量,lm 代表數(shù)據集合,La代表對圖像進行標記的標簽,lmi=(i=1,2,…,N)代表第i類集合,Lai代表標簽的集合。
2)將樣本分為訓練集合和實驗集合兩部分,分別用Tr和Te來表示。將所有圖像設為n,再取出一部分用m表示,作為第一部分,剩下的n-m則為第二部分。由此得出如下兩個公式
Tr=[Tr1,Tr2,…,TrN]
(12)
Te=[Te1,Te2,…,TeN]
(13)
式中,TrN代表擁有m圖像的第i類訓練集合,TeN代表擁有n-m圖像的第i類實驗集合。
3)構建卷積神經網絡,由L1~L5標記1-5層,第1、2、5層分別涵蓋卷積層以及池化層,第3、4層都只有一個卷積層,由fc6、fc7表示的6、7為全連接層。
4)根據所收集的實驗樣本進行實驗。將樣本數(shù)據放置到步驟3)中開始實驗并輸出數(shù)值,如果l層是卷積層,得出如下公式
(14)
如果l層是池化層或者全連接層,分別得出如下公式
(15)
如果卷積神經網絡訓練中實驗樣本為Ii(i=1,2,…,N×m),那么在神經網絡訓練中,N為采集的圖像,m代表所有種類都需要有投入實驗的圖像。與此同時,Ii事實上不只有一個標簽
(16)
(17)
根據所有樣本誤差,得出如下公式
(18)
(19)
將E0最小化,同時利用梯度下降法更新W,如下式
(20)
5)獲得第6、7層的結果分別為fe_fc6、fe_fc7,輸出的結果中均分別包含該層所有特征圖像。
6)把第5)步中獲得的兩種不同的輸出結果作為高層特征,完成圖像深度特征的提取。
多核學習的意思是將最優(yōu)基本核以及核函數(shù)進行比較,并將比較出的最優(yōu)核函數(shù)分類以獲取最優(yōu)結果[10-11]。首先構建一個多核學習環(huán)境,再將提取的深度圖像特征放入進行自我適應與融合操作。在這個操作中,復雜程度和多核學習的整合分類可能會受到參數(shù)的影響,為解決這一問題,對參數(shù)的選取進行篩選,選取少量且較好的參數(shù)作為基本核函數(shù)[12],公式如下
(21)
式中,μ為帶寬數(shù),xi與xj分別代表卷積層特點中第i、j張圖像。
建立一個由M=10組成的融合核。融合已添加固定核函數(shù)且擁有不同高層特征的兩類圖像。計算方式如下
(22)
實驗所選圖像參數(shù)的表達缺陷問題被更改為核函數(shù)權重以及基本核的選取問題。在這個過程中,根據半無限線性規(guī)劃訓練法優(yōu)化該函數(shù)組合并獲得了最優(yōu)核函數(shù),利用最優(yōu)核函數(shù)實現(xiàn)深度特征的適應與融合。
采用支持向量機構建圖像分類器:
(23)
式中,g(xj)代表MKL-SVM中第j個預計的圖像標簽參數(shù),Num代表采集參數(shù)的數(shù)量,在不同情況下輸入Num有不同的表達方式,在測試集和訓練集時分別為N×(n-m)、N×m。ai、yi分別表示被優(yōu)化后的參數(shù)和投入訓練中采集樣本的數(shù)量,Km(xi,xj)在該公式中代表核函數(shù)。
為獲得圖像分類的結果,將融合后的測試集中圖像的特征輸入MKL-SVM高分辨圖像分類器中,完成圖像分類。
為了驗證基于深度神經網絡訓練與優(yōu)化算法的圖像分類方法的整體有效性,需要對基于深度神經網絡訓練與優(yōu)化算法的圖像分類方法進行測試。本次實驗的實驗環(huán)境參數(shù)如下:處理器:英特爾E5-2603 v2@1.80GHz八核、內存:380GB、硬盤:IT HDD、操作系統(tǒng):Ubuntu 16.04 LTS 64位、編程語言:Python2.7、學習庫:OpenCV、深度學習框架:Keras。分別采用基于深度神經網絡訓練與優(yōu)化算法的圖像分類(方法1)、基于優(yōu)化視覺詞袋模型的圖像分類方法(方法2)和基于多分辨率Trace變換的圖像分類方法(方法3)進行測試,對3種方法的真陽性率以及假陽性率進行對比,測試結果如圖1和圖2所示。
圖1 方法1、方法2、方法3的真陽性率
圖2 方法1、方法2、方法3的假陽性率
分析圖1、圖2中的數(shù)據可知,在多次迭代測試中,方法1的真陽性率高于方法2和方法3的真陽性率,而假陽性率低于方法2和方法3的假陽性率,表明方法1的分類效果優(yōu)于其它兩種方法。因為方法1在深度神經網絡充分獲取了圖像的深度特征,同時對圖像的不同特點進行自我適應及融合等,將融合后的特征輸入圖像分類器中,實現(xiàn)圖像分類,在提高圖像分類效果的同時又能保證分類的準確性。
圖像分類作為計算機視覺領域的重要研究之一,在計算機的高速發(fā)展狀態(tài)下得到了極大重視。伴隨著人們對圖像日常應用要求的提高,傳統(tǒng)的圖像分類方法已經無法滿足人們對圖像的大量需求。在上述背景下研究圖像分類方法,可以提高圖像分類的準確率以及分類效果等。當前圖像分類方法存在真陽性率低、假陽性率高等問題,提出基于深度神經網絡訓練與優(yōu)化算法的圖像分類方法,通過深度神經網絡訓練與優(yōu)化算法的方法選取大量具有不同特征的圖像進行訓練,在提高了圖像分類效果的同時又降低了圖像分類的錯誤率。