魏 彬
(陜西鐵路工程職業(yè)技術(shù)學(xué)院,渭南 714000)
圖像對象的分類和檢測是計算機視覺中最基本的兩個問題。當(dāng)前,行業(yè)內(nèi)關(guān)于機器學(xué)習(xí)領(lǐng)域的核心是對象分類及檢測,在人臉識別,安全領(lǐng)域的行人檢測,智能化視頻分析、行人跟蹤、對象識別、車輛交通事故現(xiàn)場的交通統(tǒng)計、交通逆行檢測、車輛牌照檢測識別以及基于內(nèi)容的圖像分析的互聯(lián)網(wǎng)、相冊自動分類等已得到了應(yīng)用。
基于深度學(xué)習(xí)的圖像識別技術(shù)已經(jīng)應(yīng)用到人們?nèi)粘I畹母鱾€方面,而圖像識別中的核心手段為分類與識別,集成深度學(xué)習(xí)等機器學(xué)習(xí)技術(shù),提升了圖像分類及識別的效率。在文獻(xiàn)[1]中,Soheil等人提出了多模式任務(wù)驅(qū)動的字典學(xué)習(xí)圖像分類算法,該算法通過以字典原子的稀疏線性組合作為輸入信號,已經(jīng)成功地用于重新構(gòu)建和鑒別性的任務(wù);雖然該方法大多是針對單模態(tài)場景而開發(fā)的,但最近的研究已經(jīng)證明了基于多模態(tài)輸入的聯(lián)合稀疏表示的特征級融合的優(yōu)點。R Ji[2]的研究團隊提出了一種新的基于光譜空間約束的高光譜圖像分類方法,主要用于處理像素譜和空間約束的關(guān)系。文獻(xiàn)[3]中,作者對腹側(cè)視覺流的前饋層次模型進行了研究,主要應(yīng)用于功能腦圖像的分類。
關(guān)于圖像對象分類以及識別問題的研究主要分為三個層次:實例級、類級和語義級。①實例級:由于圖像特征中的光照、拍攝角度、拍攝距離、拍攝對象本身所具備其它特征,造成在對象識別過程中產(chǎn)生較大的變化,視覺識別算法的執(zhí)行存在較大的困難;②類級別:困難和挑戰(zhàn)往往來自于三個方面,第一個是課堂上的差異,即同一類型對象顯著特征有較大的差異,同時在實例級中提到的各種動態(tài)變化和背景干擾,但在實際的拍攝過程中,攝影對象是不可能處于靜態(tài)環(huán)境,因此由于復(fù)雜的識別環(huán)境造成難以識別的問題;③語義層面:與視覺語義相關(guān)的圖像,難度水平通常很難處理,尤其對于當(dāng)前的計算機視覺技術(shù),面臨最大的問題是解決多重穩(wěn)定性特征。因此,為了解決上述缺陷和不足,本文提出了一種新的基于圖像多特征提取和改進的SVM(Support vector machine,SVM)圖像識別算法,并對其進行了理論分析和數(shù)值分析[4-7]。
針對圖像多特征的特性,單一特征只能描述圖像的部分屬性,因此只能片面的描述圖像,缺乏足夠的特征信息來區(qū)分圖像。本文所提出的綜合特征提取方法,第一步是對圖像的基本特征進行目標(biāo)分類和框架檢測,包含兩個辦法,一種是基于興趣點檢測,另一種是集中提取。興趣點檢測實現(xiàn)過程是定制相關(guān)檢測標(biāo)準(zhǔn),如以具有明顯特征的局部紋理像素—邊、角、塊等;然而近年來使用較多的對象分類領(lǐng)域是集中提取方法,主要從圖像的固定步長、規(guī)模、大局部特征的數(shù)量等方面,大量的局部描述雖然具有更高的冗余度,但更豐富的信息相比興趣點檢測更好的性能。
業(yè)內(nèi)核心的圖像分類算法是綜合了多種特征、提取辦法和興趣點檢測相融合,這種處理方式是通過對大量冗余特征進行處理完成特征提取,提升了有用信息的利用。事實上,今年來廣泛使用的圖像識別方法(深度學(xué)習(xí))的核心問題是視覺信息處理過程中綜合特征集的設(shè)計,綜合特征集的合并可以參考以下方程:
對于圖像集中提取的特征中包含了大量的冗余和噪聲,因此為了實現(xiàn)圖像特征表達(dá)的魯棒性,業(yè)界利用特征變換算法對底層進行編碼設(shè)計,實現(xiàn)圖像特征更健壯及區(qū)別性特征的表達(dá),許多研究工作都集中在尋找更強大的特征編碼方法。矢量量化編碼通過一個小的特征集來描述底層的特征,局部特征在實際圖像中往往具有一定的模糊性,下面的公式給出了正弦變換的過程。
對于一個大型的特性集,相關(guān)聯(lián)的對象通常只有一些功能,例如,自行車的核心特征部分,如車輪、車把和視覺特征是密切相關(guān)的。稀疏編碼后的局部特征可能會以不同的視覺語言做出回應(yīng),而不連續(xù)性的轉(zhuǎn)換造成編碼特征的不匹配,對最終的圖像識別率有較大影響。為了解決這個問題,本文結(jié)合PCNN技術(shù)來獲得更高的精度,PCNN 的結(jié)構(gòu)是二維的神經(jīng)元,每個神經(jīng)元都與圖像中對應(yīng)的像素相連接。在如下公式中描述了神經(jīng)元與圖像特征的連接表述。
在局部流形上編碼重構(gòu)的基本特征,既解決了編碼不連續(xù)性特征的問題,也不會保持稀疏矩陣的特點。在編碼中約束的局部特性,原理上提升額字符編碼過程問題的連續(xù)性,如圖1所示為PCNN模型流程圖。
圖1 PCNN的基本模型Fig.1 PCNN basic model
與傳統(tǒng)的基于重構(gòu)的特征編碼方法不同,F(xiàn)isher矢量編碼同時結(jié)合了生產(chǎn)模型和判別式模型的能力,記錄了局部特征和視覺詞的差異及二階之間的區(qū)別??臻g特征組合在集成操作的特征集合中,通過編碼的特征,可分析得出特征向量的表達(dá)式。在絕大多數(shù)收斂性能的情況下最大聚集比一般的好,也是分類中使用最廣泛的。不再使用視覺詞匯來描述局部特征,而是用一個加權(quán)、有效地解決視覺詞歧義問題,提高物體識別精度的方法來描述。稀疏編碼的最小平方重構(gòu),在一個完整的過程中通過加入稀疏約束完成稀疏性反應(yīng)的實施。一般來說,利用對象分類算法按照手工特征或全局特征進行圖像整體描述,然后通過分類器識別是否有某個對象,對象的檢測任務(wù)比較復(fù)雜如下公式描述該特征,如圖2所示為特征提取的過程描述[8-9]。
圖2 特征提取過程Fig.2 Feature extraction process
傳統(tǒng)的分類算法是采用SVM 進行分類,通過圖像特征提取到特征表達(dá)式形成后,形成固定維度 向量,隨后是完成對圖像的分類。分類器包含支持向量機(SVM)、k-鄰居、神經(jīng)網(wǎng)絡(luò)、隨機森林等,SVM主要在圖像分類實現(xiàn)中使用,通過研究一個完整的稀疏特征,可以在高維特征空間中利用線性支持向量機(SVM)來提高線性分離特征。隨著對象分類研究的深入,視覺詞匯量的增加,圖像的表達(dá)維度也在增加,這樣的高維數(shù)據(jù),與數(shù)以萬計的數(shù)據(jù)樣本相比,與傳統(tǒng)的模式分類問題有很大的不同。
為了保持?jǐn)?shù)據(jù)中最重要的數(shù)據(jù),需要設(shè)置隱藏層單元數(shù)量小于數(shù)據(jù)輸入的維度,實現(xiàn)數(shù)據(jù)維度的減少和特征編碼。首先從對可見層的原始輸入開始,訓(xùn)練一個單一的物質(zhì),然后將物質(zhì)重量的第一層固定作為一個新的可視層。通過貪婪的無監(jiān)督訓(xùn)練,可使整個DBN 模型[10-11]獲得一個更好的初始值,然后通過生產(chǎn)或判別方法添加標(biāo)簽信息,對整個網(wǎng)絡(luò)監(jiān)管進行微調(diào),進一步提高網(wǎng)絡(luò)性能。
相關(guān)研究證明,在以信息量作為基本變量前提下,采用多分類機器學(xué)習(xí)算法比單分類機器學(xué)習(xí)算法的泛化能力更優(yōu)。雖然該算法具有較好的泛化能力,但通常包含大量冗余信息,極大得降低了泛化學(xué)習(xí)能力的效率。此外,許多特征組合將導(dǎo)致更高維度,而特征維度的上升將導(dǎo)致SVM 訓(xùn)練和測試被占用的時間增長。因此,在使用圖像分類算法時,需要減少提取特征的維數(shù),去掉特征中的冗余信息。
圖3 所提方法的流程圖Fig.3 Flow chart of the proposed method
在詞包模型設(shè)計過程中,利用神經(jīng)網(wǎng)絡(luò)的卷積層設(shè)計原理,實現(xiàn)特征編碼及運算的收斂層和詞包模型的收斂性,兩者的區(qū)別在于詞包模型中只包含一個有效地卷積模型和收斂層,并用表達(dá)式的形式使用無監(jiān)督學(xué)習(xí)特征的模型和卷積神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)特征表達(dá)效果的提升。歐氏距離最小的表達(dá)式如下:
從模型設(shè)計角度考慮,圖像對象檢測的核心是采用組件模型的變量,對象分類模型主要采用實詞包模型,不同模型使用特征信息是不同的,圖像對象檢測更多是利用自身特征信息來完成對象分類。局部信息的對象考慮更多的結(jié)構(gòu)信息,使對象檢測和分類精度較高,但在分類過程中魯棒性較差;全局特征信息可考慮圖像的全局信息,特別是圖像的語義信息,但是信息量的增加可能導(dǎo)致精度的提高,也可能是由于冗余降低了分類的性能,但從統(tǒng)計意義上來說,它的健壯性可以得到提高,以下公式為該模型的公式化表述。
對象分類的目的是檢測是否包含所需特征的圖像;對象檢測的目的是根據(jù)特征確定圖像中對象的位置,因此對象結(jié)構(gòu)更是至關(guān)重要。在大數(shù)據(jù)時代,來自復(fù)雜變異性的海量視頻數(shù)據(jù)將對傳統(tǒng)學(xué)習(xí)方法的特點帶來巨大挑戰(zhàn);而對模型表達(dá)能力的深度學(xué)習(xí),強烈的自然數(shù)據(jù)無疑會對大數(shù)據(jù)在視覺研究的背景下產(chǎn)生巨大的影響。
為了驗證本文算法的有效性,在Windows 平臺上,選擇了Laplacian priori Matlab 2011b 環(huán)境模型、電視先驗?zāi)P秃虶MRF 先驗?zāi)P?,與算法進行了比較,實驗環(huán)境設(shè)置如表1所示:
表1 實驗環(huán)境設(shè)置表Tab.1 Experimental environment setting table
圖5 實驗結(jié)果Fig.5 Experimental results
如圖5所示為按照所設(shè)置的實驗環(huán)境進行分類的結(jié)果圖。針對目前的圖像分類方法,未能充分利用各種單一特征圖像在互補性特征與大量冗余信息的存在中提取特征之間,造成圖像分類精度不高。
圖像對象的分類和檢測是計算機視覺中最基本的兩個問題,目前已應(yīng)用了許多領(lǐng)域,如行為檢測、人臉識別、視頻圖像分析、智能交通等。機器識別的研究對于對象分類及檢測具有理論意義和應(yīng)用價值,因此,文章討論了對象分類與識別的相關(guān)聯(lián)系,并在此基礎(chǔ)上對兩種方向的學(xué)習(xí)和結(jié)構(gòu)進行了深度學(xué)習(xí)。