張揚睿,王卓燃,崔子琦,傅于窈,程世強,王偉,白晨陽
(中國礦業(yè)大學(北京)機電與信息工程學院,北京100083)
圖像自動標注是通過計算機自動分析和識別圖像,并為圖像標注標簽的技術(shù)。圖像自動標注有著人工標注無法企及的優(yōu)點,例如標注速度快,能克服人工標注的主觀性等。當前的標注方法主要有四類:①基于分類管理思想的圖像標注。它把圖像分割分類,是一種需要監(jiān)督的機器學習研究方法。②基于相關(guān)模型的圖像自動標注。它通過建立圖像分割子區(qū)域與語義關(guān)鍵詞間的概率相關(guān)模型來進行相關(guān)工作。③基于半監(jiān)督模型的圖像自動標注。它應用于圖像信息巨大的情況。④基于圖模型的自動標注。它在解決多標簽分類問題中,建立了相互映射關(guān)系,為解決多標簽分類問題提供了新的思路方向,例如,改進的BR(Binary Relevance)算法[1]。圖像自動標注技術(shù)雖然在理論上已經(jīng)取得了很大的進展,但是在應用到現(xiàn)實復雜場景時還是存在標注準確率不高等問題。實際上,標注標簽之間通常具有一定的相關(guān)性。例如,“藍天”和“白云”、“沙灘”和“大海”經(jīng)常同時出現(xiàn)在一幅圖像中。如何挖掘標簽之間的相關(guān)性是提高圖像標注準確率的重要方法之一。本文介紹了一種基于條件隨機場(Conditional Random Field,CRF)的圖像標注方法,可以挖掘標注標簽之間的相關(guān)性。具體而言,在圖像分割階段把圖像分割成若干區(qū)域,每一個分割的區(qū)域都對應一個標簽,從而將圖像自動標注問題轉(zhuǎn)換成關(guān)于區(qū)域的分類問題,然后采用條件隨機場模型完成圖像標注工作,通過條件隨機場模型挖掘標簽相關(guān)性。
圖1 基于條件隨機場的圖像標注方法流程圖
基于條件隨機場的圖像標注方法的核心思想是利用條件隨機場對經(jīng)過聚類后的圖像特征和標簽序列進行訓練,以區(qū)域為單位對圖像進行自動標注,圖1 是基于條件隨機場模型的圖像自動標注算法的流程圖,包含如下三步。
(1)首先采用Mean-Shift 算法對進行圖像進行分割,即將一副圖像劃分成若干區(qū)域。
(2)然后對圖像劃分網(wǎng)格提取圖像特征并建立視覺詞袋模型。首先對每幅圖像進行網(wǎng)格劃分并基于網(wǎng)格提取圖像特征,然后對網(wǎng)格特征進行聚類得到網(wǎng)格類別的集合,接著基于(1)中劃分的圖像區(qū)域統(tǒng)計區(qū)域網(wǎng)格類別頻數(shù),并再次對這些頻數(shù)向量進行聚類從而得到視覺詞袋,即實現(xiàn)將圖像信息“文本化”。
(3)在圖像訓練集上訓練基于條件隨機場模型的圖像自動標注模型,在訓練好的模型上輸入圖像測試集以完成圖像自動標注。上述步驟的詳細原理如1.1-1.3 小節(jié)所示。
Mean-Shift 算法是一種高效的聚類統(tǒng)計迭代方法,該算法完全依靠空間樣本點,不需要先驗知識且收斂速度快,具有很強的穩(wěn)健性,因此被廣泛應用于圖像分割、視頻追蹤等領(lǐng)域[2]。在圖像中以中心點x為初始迭代點,按一定半徑選定半徑區(qū)域內(nèi)的點xi,求出中心點x到所有點xi的向量的均值,通過平均向量確定下一個新的中心點。算法不斷地迭代并記錄下所有收斂點[3]。均值漂移算法可描述為:在D維空間中給定n個樣本點(x1,x2,…,xn),在x處的均值漂移向量的數(shù)學表達式為:
在Mean-Shift 向量中,h表示中心點的區(qū)域范圍大小,k表示該區(qū)域內(nèi)樣本點的數(shù)量。在圖像領(lǐng)域中,Sh是一個半徑為h的圓形區(qū)域,滿足以下條件:
因此依據(jù)各像素點的收斂點不同可劃分出一個個小區(qū)域。在這些小區(qū)域的基礎(chǔ)上可繼續(xù)進行圖像合并。圖像合并主要合并一些收斂的中心點,這些中心點位置相鄰并且灰度值相差不大。均值漂移算法的優(yōu)點是可以自動調(diào)整,積分收斂速度即運動矢量的大小取決于概率密度函數(shù)的梯度。當趨近極值時,平均位移向量減小,對于均勻分布的核密度函數(shù),收斂可以在有限的步驟內(nèi)完成。經(jīng)過Mean-Shift 算法進行分割后,可以得到圖像集的區(qū)域集合:
其中,D為圖像集區(qū)域集合,R為區(qū)域,N1為圖像數(shù)量,Mi為第i幅圖像的區(qū)域數(shù)量。
(1)特征提取
對原始圖像集的每幅圖像劃分大小相同的網(wǎng)格,并對每幅圖像基于網(wǎng)格進行特征提取[4]??梢允褂妙伾狈綀D、顏色矩、Gabor 紋理特征、SIFT 算法[5]提取的形狀特征組成圖像的特征向量。顏色直方圖描繪的每種顏色所占在每個網(wǎng)格所占比例;顏色矩描述顏色的分布;Gabor 紋理可以在頻域不同尺度、不同方向上提取相關(guān)的特征;SIFT 算法可以得到網(wǎng)格的形狀特征。建立每一個網(wǎng)格的特征向量f=(f1,f2,f3,f4),f1,f2,f3,f4子向量分別表示基于網(wǎng)格的顏色直方圖、顏色矩、Gabor紋理和形狀特征,則特征提取后的網(wǎng)格特征向量集為:
N1為圖像數(shù)量,N2為每幅圖像的網(wǎng)格數(shù)量,每幅圖像會有N2個特征向量fi j,特征提取得到的網(wǎng)格特征向量集將作為詞袋模型的輸入進行聚類。
(2)建立詞袋模型
詞袋模型最初是用在自然語言處理的文本分類中的一個模型,將文本文檔看作是一個特征向量[6]。詞袋模型應用于圖像時圖像被看做為一個文本(即若干視覺詞匯的集合),這些視覺詞匯是圖像的“圖像特點”。建立詞袋模型的步驟如下:
①特征提取:如1.2(1)所述,得到網(wǎng)格特征向量的集合。
②單詞本的生成:使用K-Medoids 算法[7]對網(wǎng)格特征向量進行聚類,得到K1種不同的網(wǎng)格類別。對經(jīng)過1.1 小節(jié)分割后的每幅圖像統(tǒng)計每個區(qū)域的網(wǎng)格分布情況,計算第i幅圖像的第j個區(qū)域中第p類網(wǎng)格的頻率,用K1(網(wǎng)格類別數(shù))維的分布向量表示,每一維度表示這個區(qū)域中這種類別的網(wǎng)格的頻數(shù):
代表第i幅圖像的第q個網(wǎng)格的類別,代表第i幅圖像的第q個網(wǎng)格所在的區(qū)域。將每個區(qū)域都進行網(wǎng)格頻數(shù)分布計算,得到網(wǎng)格頻數(shù)分布向量數(shù)據(jù)集:
其中,N1為圖像數(shù)量,Mi為第i幅圖像的區(qū)域數(shù)量。
③檢索最匹配視覺單詞:通過對②得到的每個區(qū)域的網(wǎng)格頻數(shù)分布向量K-Medoids 聚類后得到由K 個視覺單詞組成的詞典(也稱為詞袋),可表示為:
vi表示視覺單詞。本文采用最近鄰搜索算法,搜索出與每幅圖像的每個區(qū)域相似度最高的單詞。
圖2 鏈式條件隨機場
條件隨機場模型是基于概率圖模型的分類學習方法,它是在隱馬爾可夫模型和最大熵模型(Maximum Entropy Model,MEM)相結(jié)合的基礎(chǔ)上,針對這兩種方法的缺陷逐步提出改進而來[8]。條件隨機場是條件概率分布模型P(Y|X)[9],X 與Y 的關(guān)系如圖2 所示。這個條件概率分布模型是在給定一組觀測序列X=(x1,x2,…,xZi) 的條件下求另一組標簽序列Y=(y1,y2,…,yZi)的概率,條件隨機場的參數(shù)化形式為:
式中,Z(X,θ)=∑Yexp{∑c?Cφc(Yc,X,θ)} 為全部序列集合的歸一化元素。
式中,tk和sl分別是定義在無向圖邊上和節(jié)點上的特征函數(shù),分別為狀態(tài)轉(zhuǎn)移特征和狀態(tài)特征,λk,μl是特征函數(shù)tk,sl對應的權(quán)值。在定義特征函數(shù)階段,可以將節(jié)點處的特征函數(shù)的初始值都設置為1,將邊上的特征函數(shù)的初始值也設置為1。由于每個特征函數(shù)都分配有權(quán)重參數(shù),因此在訓練的時候,如果節(jié)點之間的特征不存在依賴關(guān)系,則該特征函數(shù)的權(quán)重參數(shù)會在訓練結(jié)束后趨近于0。這種設定簡化了條件隨機場的建立過程。
構(gòu)建條件隨機場模型,需要先建立條件隨機場對應的無向加權(quán)圖,圖模型中每一個觀察點對應一個圖像區(qū)域。為了訓練特征權(quán)重參數(shù)θ,需要輸入1.2 小節(jié)得到的區(qū)域網(wǎng)格頻數(shù)分布向量vi的序列作為觀測序列X,以及圖像區(qū)域?qū)臉撕炐蛄斜硎镜趇幅圖像第j個區(qū)域的標簽?;贑RF 模型的圖像自動標注算法就是用條件隨機場模型來表示區(qū)域的頻數(shù)分布向量集X與標簽序列Y之間的關(guān)系[10],圖像標注過程就是為每一個區(qū)域分配一個標簽yi。CRF 模型在訓練集上確定模型的參數(shù)后,對于測試集能夠?qū)o定的觀察序列X輸出合適的標簽序列Y,該標簽序列使得條件概率P(Y|X)最大。
圖像自動標注技術(shù)是當前機器學習的研究熱點。本文介紹了一種基于條件隨機場的圖像自動標注方法,該方法包含圖像分割、特征提取、構(gòu)建詞袋模型以及基于條件隨機場模型進行圖像標注的完整流程。由于條件隨機場模型的狀態(tài)轉(zhuǎn)移特征函數(shù)可以表示標簽之間的依賴關(guān)系,因此該模型可以處理標簽間的相關(guān)性問題。