崔西寧,孫紅雨,李克龍
(1. 山東科技大學(xué),山東 青島 266590; 2. 西北師范大學(xué),甘肅 蘭州 730000)
圖像分類(lèi)是一種常見(jiàn)的圖像處理方法,根據(jù)圖像信息的不同特征對(duì)不同類(lèi)別的對(duì)象進(jìn)行劃分。通過(guò)計(jì)算機(jī)對(duì)圖像進(jìn)行定量分析,將圖像或每個(gè)像素或區(qū)域分成若干類(lèi)別,以代替人類(lèi)的視覺(jué)判讀。
細(xì)粒度圖像分類(lèi)是近年來(lái)計(jì)算機(jī)視覺(jué)、模式識(shí)別等領(lǐng)域的研究熱點(diǎn)之一,其為一種類(lèi)似于傳統(tǒng)圖像分類(lèi)任務(wù)的分類(lèi)方法。由于細(xì)粒度圖像的信噪比很小,而具有足夠分辨力的信息通常只存在于很小的局部區(qū)域,因此細(xì)粒度圖像的分類(lèi)比一般的圖像分類(lèi)更具挑戰(zhàn)性。該方法只需對(duì)圖像進(jìn)行分類(lèi)就可以解決局部區(qū)域的定位問(wèn)題,并在保證分類(lèi)精度的前提下,可以有效地減少計(jì)算量。
細(xì)粒度圖像的分類(lèi)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。常用的弱監(jiān)督細(xì)粒度圖像分類(lèi)方法主要有基于卷積神經(jīng)網(wǎng)絡(luò)的細(xì)粒度圖像分類(lèi)方法和基于多通道視覺(jué)注意力的細(xì)粒度圖像分類(lèi)方法等。為了達(dá)到較好的分類(lèi)效果,通常需要同時(shí)對(duì)特征進(jìn)行分類(lèi)和提取。首先,圖像中存在許多噪聲問(wèn)題,如光強(qiáng)不一致、圖像背景復(fù)雜、目標(biāo)遮擋等。這種情況嚴(yán)重影響了區(qū)域測(cè)試。在細(xì)粒度分類(lèi)問(wèn)題中,鑒別信息往往存在于細(xì)粒度的局部區(qū)域,導(dǎo)致類(lèi)間差距大、類(lèi)間差距小的現(xiàn)象。因此,上述兩種傳統(tǒng)方法充分利用了細(xì)粒度分類(lèi)問(wèn)題的特點(diǎn)得到了分類(lèi)所需的信息。但因細(xì)粒度圖像具有類(lèi)內(nèi)差距大、類(lèi)間差距小的特點(diǎn),導(dǎo)致傳統(tǒng)方法的分類(lèi)效率難以有所突破。
為此,本文基于貝葉斯算法設(shè)計(jì)了新的弱監(jiān)督細(xì)粒度圖像分類(lèi)方法。貝葉斯算法是一種基于概率和統(tǒng)計(jì)知識(shí)的分類(lèi)算法,通過(guò)對(duì)貝葉斯算法的設(shè)計(jì)和分析,可分析圖像區(qū)域和強(qiáng)區(qū)分域之間幾何關(guān)系的不同,在不同的分類(lèi)能力中找到強(qiáng)區(qū)分域,從而提高細(xì)粒度圖像分類(lèi)的精度。
常規(guī)的人工圖像特征在表達(dá)圖像信息方面的能力有限,且缺乏足夠的區(qū)分度,難以達(dá)到理想的分類(lèi)效果,限制了細(xì)顆粒圖像分類(lèi)的發(fā)展。但貝葉斯算法的出現(xiàn),成為提高細(xì)粒度圖像分類(lèi)性能的一個(gè)重要因素。
為此,對(duì)弱監(jiān)督細(xì)粒度圖像分類(lèi)方案進(jìn)行了優(yōu)化設(shè)計(jì),在充分分析弱監(jiān)督細(xì)粒度圖像特征的基礎(chǔ)上,設(shè)計(jì)了一種基于貝葉斯算法的分類(lèi)器用于細(xì)粒度圖像分類(lèi)工作,以提高圖像分類(lèi)方法的分類(lèi)效率。
監(jiān)督學(xué)習(xí)的基本方法是在訓(xùn)練函數(shù)的基礎(chǔ)上,將樣本特征映射到帶有負(fù)數(shù)的分類(lèi)空間。期望函數(shù)對(duì)未知數(shù)據(jù)保持良好的泛化性能。如果已知數(shù)據(jù)和未知數(shù)據(jù)之間沒(méi)有假定的關(guān)系,則由已知數(shù)據(jù)訓(xùn)練的分類(lèi)器可以正確預(yù)測(cè)未知數(shù)據(jù)的類(lèi)別。根據(jù)上述監(jiān)督學(xué)習(xí)理論設(shè)計(jì)弱監(jiān)督過(guò)程的基本結(jié)構(gòu)如圖1所示。
圖1 弱監(jiān)督過(guò)程簡(jiǎn)圖
弱監(jiān)控過(guò)程主要利用其自身的學(xué)習(xí)特性來(lái)完成對(duì)目標(biāo)全局和局部特征的學(xué)習(xí),不需要輸入特定區(qū)域的位置信息。該過(guò)程主要分為兩個(gè)階段:預(yù)處理階段和特征聚類(lèi)階段。在圖像預(yù)處理階段,從輸入圖像中生成大量的候選區(qū)域,并對(duì)這些區(qū)域進(jìn)行濾波以保留具有前景的候選區(qū)域。根據(jù)特征的聚類(lèi)結(jié)果,得到不同的聚類(lèi)簇,并將每個(gè)簇作為區(qū)域檢測(cè)器,從而實(shí)現(xiàn)對(duì)測(cè)試樣本的局部檢測(cè)。
輸入細(xì)粒度圖像中的任意一個(gè)目標(biāo)類(lèi),在弱監(jiān)督模型中,計(jì)算這一目標(biāo)類(lèi)的原始分?jǐn)?shù),并令其梯度等于0。然后將信號(hào)反向傳播給特征圖,并實(shí)施合并,從而獲得熱力圖。最后將熱力圖與定向反向傳播進(jìn)行逐點(diǎn)疊加,即采用雙線(xiàn)性插值對(duì)輸入圖像進(jìn)行上采樣,將定向反向傳播和視覺(jué)效果相融合,得到顯著性圖。
在此基礎(chǔ)上,利用自適應(yīng)最大類(lèi)間方差法,通過(guò)計(jì)算得到的閾值,將顯著性特征圖轉(zhuǎn)化為二值化蒙板。由此對(duì)背景與前景進(jìn)行區(qū)分,增大背景與前景的方差,更能突出圖像這兩部分的區(qū)別,設(shè)置1表示位置作為前景,0表示位置作為背景,再根據(jù)前景圖采用八連通區(qū)域標(biāo)記算法,確定目標(biāo)區(qū)域,標(biāo)注目標(biāo)坐標(biāo)。
為使特定圖形產(chǎn)生的熱度圖在原始圖形上能更直觀(guān)地表現(xiàn)出來(lái),采用了雙線(xiàn)插值法,生成與原始圖形尺寸相同的熱度圖,并與原始圖形相結(jié)合,能夠從原始圖形中顯示出不同特征的部分,大部分是在前景中,只有個(gè)別的在背景中。
雙線(xiàn)性插值的操作示意圖如圖2所示。
圖2 細(xì)粒度圖像的雙線(xiàn)性插值操作
為了得到未知函數(shù)在點(diǎn)處的值,假設(shè)函數(shù)在、、和四個(gè)點(diǎn)的值。在軸方向進(jìn)行插值操作,計(jì)算公式如下
(1)
其中,=(,),。然后在軸方向進(jìn)行插值操作,計(jì)算公式如下
(2)
綜合上述軸、軸插值操作得出雙線(xiàn)性插值結(jié)果。對(duì)于一張大小為*的顯著性圖,即對(duì)應(yīng)*位置點(diǎn),計(jì)算出一個(gè)自適應(yīng)的閾值根據(jù)閾值設(shè)計(jì),將顯著性圖轉(zhuǎn)為二值圖,公式如下
(3)
式中,,為二值化數(shù)值,,為第通道的特征圖,為計(jì)算出的闕值。
掃描利用式(3)得到的二值圖,并篩選出待合并的像素點(diǎn),對(duì)其實(shí)施有效標(biāo)記。根據(jù)獲得連通區(qū)域標(biāo)記,獲得目標(biāo)區(qū)域的定位結(jié)果。
細(xì)粒度圖像的各個(gè)部分所包含的信息量是不同的,因此,其對(duì)各種細(xì)顆粒圖像的準(zhǔn)確識(shí)別貢獻(xiàn)也不同。信息豐富的局部區(qū)域包含更多的特征信息,有助于提高對(duì)不同細(xì)粒度圖像的正確識(shí)別能力。因此,在最終的特征表達(dá)中,強(qiáng)調(diào)用更有效的信息分析局部區(qū)域的細(xì)粒度特征,用較少的信息弱化局部區(qū)域特征。
為了進(jìn)一步提高模型的分類(lèi)性能,有效地整合了不同判別區(qū)域的特征信息,并對(duì)細(xì)粒度特征進(jìn)行了不同尺度的加權(quán)和約束。
在細(xì)粒度圖像中采用不同的特征權(quán)重可以保證關(guān)鍵特征信息的處理,減少無(wú)效特征信息對(duì)最終分類(lèi)結(jié)果的干擾,從而大大提高了分類(lèi)性能。
假設(shè)輸入一段細(xì)粒度圖像序列,將其記為,其中,表示第個(gè)序列,總共包含個(gè)序列。利用3個(gè)尺度圖像的特征作為輸入序列,即的取值為3,則存在
=(+-1+)
(4)
式(4)的計(jì)算結(jié)果表示在序列中隱藏層的輸出,和分別為輸入層到隱藏層以及隱藏層到隱藏層的權(quán)重矩陣,為隱藏層的偏置,而表示激活函數(shù)。
在上述研究的基礎(chǔ)上,經(jīng)過(guò)細(xì)粒度圖像的特征提取與量化,得到的輸出結(jié)果為
=(+)
(5)
式(5)中,表示隱藏層到輸出層的權(quán)重矩陣,和分別表示輸出偏置和激活函數(shù)。在取值為3的情況下,得出的即為最終的特征量化結(jié)果。
結(jié)合上述提取的細(xì)粒度圖像特征,基于貝葉斯定理,通過(guò)訓(xùn)練大量樣本來(lái)估計(jì)后驗(yàn)概率。
使用貝葉斯分類(lèi)器必須滿(mǎn)足以下兩個(gè)條件:一是判斷分類(lèi)的類(lèi)別數(shù)是確定的,二是對(duì)于每個(gè)類(lèi)別總體的概率分布是已知的。在滿(mǎn)足上述兩個(gè)條件的情況下,設(shè)計(jì)貝葉斯分類(lèi)器的工作模式,如圖3所示。
圖3 貝葉斯分類(lèi)器工作模式圖
按照?qǐng)D3中的工作模式,定義(|)表示在已知事件發(fā)生的前提下,事件可能發(fā)生的概率,其求解公式為
(6)
貝葉斯分類(lèi)器的最終任務(wù)就是將給定的樣本對(duì)象劃分到后驗(yàn)概率最大的類(lèi)中,其過(guò)程如下
(7)
式(7)中,為細(xì)粒度圖像的類(lèi)集合,(|)表示樣本的屬性服從高斯分布對(duì)應(yīng)的函數(shù)。然后基于貝葉斯算法的運(yùn)行機(jī)理,得到分類(lèi)過(guò)程如下
(8)
式(8)中,()表示事件發(fā)生的概率,為細(xì)粒度圖像屬性的權(quán)值。
用上述設(shè)計(jì)的貝葉斯分類(lèi)器對(duì)提取并量化的弱監(jiān)督細(xì)粒度圖像特征進(jìn)行代入,對(duì)相關(guān)概率和不相關(guān)概率進(jìn)行綜合判斷,得到合適的檢索結(jié)果。設(shè)用戶(hù)反饋的相關(guān)圖像集合為,不相關(guān)圖像集合為,使用統(tǒng)計(jì)方法可以估計(jì)出概率。定義貝葉斯分類(lèi)判決式為
()=lg[(|)]-lg[(|)]
(9)
式(9)中,(|)和(|)分別表示輸入的弱監(jiān)督細(xì)粒度圖像為符合或不符合對(duì)應(yīng)圖像類(lèi)型。式(9)得出的計(jì)算結(jié)果越小,表示越符合用戶(hù)的檢索要求,即屬于對(duì)應(yīng)的分類(lèi)類(lèi)型。
以測(cè)試的基于貝葉斯算法的弱監(jiān)督細(xì)粒度圖像分類(lèi)方法的分類(lèi)效果為目的,設(shè)計(jì)對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)中,將傳統(tǒng)的基于卷積神經(jīng)網(wǎng)絡(luò)的細(xì)粒度圖像分類(lèi)方法(方法1)和基于多通道視覺(jué)注意力的細(xì)粒度圖像分類(lèi)方法(方法2)作為對(duì)比方法。實(shí)驗(yàn)過(guò)程中,需保證不同方法的運(yùn)行環(huán)境均相同。
實(shí)驗(yàn)環(huán)境基于Python語(yǔ)言開(kāi)發(fā),并利用開(kāi)源Google TensorFlow框架Keras實(shí)現(xiàn)了貝葉斯算法結(jié)構(gòu)。以開(kāi)放源代碼TransE和TransR為基礎(chǔ),采用Gensim語(yǔ)言實(shí)現(xiàn)了Word2Vec的文本分式表示學(xué)習(xí)算法,實(shí)現(xiàn)了知識(shí)庫(kù)表示學(xué)習(xí)。實(shí)驗(yàn)過(guò)程中,用代碼的形式將三種圖像分類(lèi)方法代入到主測(cè)機(jī)上。
為提高實(shí)驗(yàn)結(jié)果的可靠性,選擇caltech-101圖像庫(kù)和caltech-256圖像庫(kù)進(jìn)行分類(lèi)識(shí)別實(shí)驗(yàn)。其中,caltech-101圖像庫(kù)包含動(dòng)物、建筑物、車(chē)輛、花卉植物的101幅圖像,每個(gè)圖像包含31-800幅圖像;caltech-256圖像庫(kù)包含256個(gè)圖像,每個(gè)圖像至少包含80個(gè)圖像。
本實(shí)驗(yàn)在圖像分類(lèi)方面采用了一種通用的方法,將圖像集中的每種圖像隨機(jī)分為訓(xùn)練圖像和測(cè)試圖像。實(shí)驗(yàn)從數(shù)據(jù)庫(kù)中選取500幅細(xì)粒度圖像,其中動(dòng)物圖像101幅,建筑物圖像122幅,植物圖像92幅,車(chē)輛圖像98幅,人物圖像87幅。
在細(xì)粒度圖像分類(lèi)性能檢驗(yàn)中,主要應(yīng)用的指標(biāo)為分類(lèi)效率。該指標(biāo)由分類(lèi)精度和分類(lèi)時(shí)間開(kāi)銷(xiāo)兩部分組成。其中,分類(lèi)精度主要是分類(lèi)樣本中正確分類(lèi)樣本數(shù)量占總實(shí)驗(yàn)數(shù)量的比值。而分類(lèi)時(shí)間開(kāi)銷(xiāo)為樣本圖像輸入到分類(lèi)結(jié)果輸出的時(shí)間。
為了保證時(shí)間開(kāi)銷(xiāo)的統(tǒng)計(jì)精度,采用調(diào)取圖像分類(lèi)運(yùn)行后臺(tái)數(shù)據(jù)的方式得出測(cè)試結(jié)果。為了避免實(shí)驗(yàn)操作對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生的影響,進(jìn)行多次實(shí)驗(yàn),并通過(guò)求解平均值的方式得出分類(lèi)精度的計(jì)算結(jié)果。
為避免實(shí)驗(yàn)結(jié)果過(guò)于單一,在相同的實(shí)驗(yàn)環(huán)境下,重復(fù)進(jìn)行4次實(shí)驗(yàn)。
3.4.1 細(xì)粒度圖像分類(lèi)精度對(duì)比結(jié)果
將三種不同分類(lèi)方法輸出的圖像分類(lèi)結(jié)果與設(shè)置的數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行比對(duì),得出有關(guān)于圖像分類(lèi)精度的對(duì)比結(jié)果,如表1所示。
表1 圖像分類(lèi)精度對(duì)比數(shù)據(jù)表
結(jié)合表1中的數(shù)據(jù)可以得到,基于卷積神經(jīng)網(wǎng)絡(luò)的細(xì)粒度圖像分類(lèi)方法和基于多通道視覺(jué)注意力的細(xì)粒度圖像分類(lèi)方法的分類(lèi)精度分別為0.9305和0.9705,而本研究設(shè)計(jì)的基于貝葉斯算法的弱監(jiān)督細(xì)粒度圖像分類(lèi)方法的平均分類(lèi)精度為0.9885,明顯高于兩種對(duì)比方法。
3.4.2 細(xì)粒度圖像分類(lèi)時(shí)間開(kāi)銷(xiāo)對(duì)比結(jié)果
對(duì)圖形分類(lèi)起止時(shí)間的調(diào)取和計(jì)算,得出不同分類(lèi)方法時(shí)間開(kāi)銷(xiāo)的測(cè)試對(duì)比結(jié)果,如表2所示。
表2 時(shí)間開(kāi)銷(xiāo)對(duì)比數(shù)據(jù)表(s)
根據(jù)平均值的計(jì)算原理可知,基于卷積神經(jīng)網(wǎng)絡(luò)的細(xì)粒度圖像分類(lèi)方法的平均時(shí)間開(kāi)銷(xiāo)為11.575s,基于多通道視覺(jué)注意力的細(xì)粒度圖像分類(lèi)方法的平均時(shí)間開(kāi)銷(xiāo)為9.575s,而本文方法的平均時(shí)間開(kāi)銷(xiāo)為5.55s。
綜上所述,相比于兩種傳統(tǒng)的細(xì)粒度圖像分類(lèi)方法,本文方法的分類(lèi)精度有所提高,且消耗的分類(lèi)時(shí)間有所縮短。因此可知,基于貝葉斯算法的弱監(jiān)督細(xì)粒度圖像分類(lèi)方法的分類(lèi)效率有所提升。
圖像作為最直觀(guān)的信息來(lái)源之一,在軍事、醫(yī)學(xué)、科技和人們?nèi)粘9ぷ?、學(xué)習(xí)和生活中都產(chǎn)生了重要影響。目前,挖掘圖像細(xì)粒度信息已難以滿(mǎn)足社會(huì)生產(chǎn)及人們的日常工作需求,對(duì)細(xì)粒度圖像展開(kāi)有效分類(lèi)至關(guān)重要。
本研究基于貝葉斯算法的應(yīng)用,在傳統(tǒng)分類(lèi)方法的基礎(chǔ)上,將細(xì)粒度圖像的分類(lèi)精度進(jìn)一步提高,并通過(guò)實(shí)驗(yàn)證明了該方法具有較高的應(yīng)用價(jià)值。