關(guān)帥鵬,于海陽,楊震,周明,賴英旭
(北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)
海報(bào)被視為一種強(qiáng)有力的宣傳載體,在大眾日常生活、生產(chǎn)管理及科學(xué)研究等領(lǐng)域扮演著重要的角色。主題明確、精心設(shè)計(jì)的海報(bào)不但能夠吸引觀眾的注意力,而且對(duì)于主題信息的表達(dá),也能夠準(zhǔn)確完整的呈現(xiàn)。海報(bào)設(shè)計(jì)中,使用圖像編輯工具輔助設(shè)計(jì),這與圖像合成的理念十分契合,即從一張或多張圖像中分割場(chǎng)景項(xiàng)并將其無縫地粘貼到另一張背景圖像內(nèi),通過對(duì)圖像、文字、空間等要素進(jìn)行完整的結(jié)合,使得背景圖像獲得額外的信息傳遞效果。與普通圖像相比,合成的圖像能在時(shí)間和空間上獲得額外的表述,能夠更加完整地表達(dá)圖像需求者的意愿。Johnson等[1]實(shí)現(xiàn)了一種圖像合成系統(tǒng),通過定義文字標(biāo)注和文本元素區(qū)域的方式,把標(biāo)注后的圖像存入數(shù)據(jù)庫,在數(shù)據(jù)庫內(nèi)檢索相關(guān)圖像并根據(jù)畫布提供的位置信息合成目標(biāo)圖像,該方法從標(biāo)注的數(shù)據(jù)庫中檢索圖像,僅適用于風(fēng)景類的圖像合成,適用范圍小,且用戶無法自適應(yīng)地改變圖像合成結(jié)果。Chen等[2]使用手繪草圖和文字標(biāo)注的組合信息從互聯(lián)網(wǎng)搜索引擎中檢索圖像,并將圖像元素按照手繪草圖中的布局信息拼接至背景的對(duì)應(yīng)位置實(shí)現(xiàn)圖像合成,該方法忽略了前景圖像間的布局信息,最終合成結(jié)果中不可避免地會(huì)出現(xiàn)肉眼可見的邏輯錯(cuò)誤。
海報(bào)圖像合成主要涉及2個(gè)問題,即如何準(zhǔn)確地獲取目標(biāo)圖像,以及如何分割將其無縫地糅合到目標(biāo)圖像中。根據(jù)圖像檢索中啟發(fā)性信息的不同,可將圖像檢索大致分為基于文本和基于內(nèi)容的檢索方法?;谖谋镜臋z索方法實(shí)質(zhì)上把圖像檢索映射成文本檢索的方式,對(duì)圖像內(nèi)容反映的信息理解進(jìn)行文本標(biāo)注,實(shí)現(xiàn)圖像與文本的信息等價(jià),通過文本檢索實(shí)現(xiàn)圖像檢索。基于內(nèi)容的圖像檢索方法不再使用文本信息作為描述符,而是結(jié)合特定算法提取圖像顏色、紋理、輪廓等一系列內(nèi)容特征,根據(jù)圖像本身的內(nèi)容進(jìn)行檢索,這種對(duì)圖像檢索的處理技術(shù)更準(zhǔn)確。世界上第一個(gè)基于內(nèi)容的商用圖像檢索系統(tǒng)是IBM的QBIC系統(tǒng)[3],該系統(tǒng)的語義識(shí)別是通過人工完成的,導(dǎo)致許多圖像的度量化比較差。麻省理工學(xué)院也在基于內(nèi)容圖像檢索領(lǐng)域研發(fā)了圖像檢索系統(tǒng),即Photobook[4]。針對(duì)從源圖像中分割場(chǎng)景項(xiàng)并將其無縫地粘貼到目標(biāo)圖像的問題,Agarwala等[5]提出了一個(gè)經(jīng)典的、交互式的計(jì)算機(jī)輔助圖像合成框架,框架包括2部分:使用圖像分割(image segmentation)提取候選圖形,緊接著使用圖像融合實(shí)現(xiàn)無縫融合(seamless cloning)。在圖像檢索完之后,如何對(duì)圖像進(jìn)行分割處理也是重要的研究熱點(diǎn)之一。Bezdek[6]在圖像分割中使用了聚類的方法,通過圖像像素間的相似程度把圖像劃分成若干區(qū)域子集,該方法的缺點(diǎn)在于大多數(shù)算法需要事先定義簇的個(gè)數(shù)(圖像分割塊數(shù)),并且特征選擇單一,沒有考慮像素的細(xì)節(jié)結(jié)構(gòu),分割效果不盡人意。Boykov和Jolly[7]利用圖分割模型對(duì)能量函數(shù)進(jìn)行最優(yōu)化求解,提出了一種交互式圖像分割算法,通過用戶手動(dòng)指定像素所屬類,來實(shí)現(xiàn)圖像的二值分割。在此基礎(chǔ)上,Rother等[8]提出了GrabCut算法,該算法引入高斯混合模型對(duì)前景、背景元素進(jìn)行建模,進(jìn)一步簡(jiǎn)化了使用者的操作難度,降低了對(duì)圖像分割的計(jì)算量。Felzenszwalb和Huttenlocher[9]在圖論的基礎(chǔ)上研究如何進(jìn)行圖像分割,提出了一種基于最小生成樹的改進(jìn)算法,將同一子圖內(nèi)部的差異性和子圖之間的差異性相組合,實(shí)現(xiàn)像素在聚類時(shí)的自適應(yīng)閾值選擇,形成若干個(gè)彼此差異最大的臨界子圖,完成對(duì)圖像的分割處理。圖像無縫融合是指將2個(gè)或者2個(gè)以上的源圖像進(jìn)行糅合,達(dá)到對(duì)同一場(chǎng)景圖像的完美表達(dá)。目前,比較流行的有基于Alpha和基于梯度場(chǎng)的無縫融合算法。Wang和Cohen[10]利用掩碼分割目標(biāo)區(qū)域,并將目標(biāo)圖像區(qū)域與背景圖像根據(jù)α分量(圖像透明度)進(jìn)行疊加獲得無縫的融合結(jié)果。在前景和背景圖像光照和紋理特征相差較大時(shí),Alpha融合算法將會(huì)產(chǎn)生明顯的人工融合間隙。為了解決上述問題,F(xiàn)attal等[11]提出了梯度域的圖像編輯方法,通過求解圖片梯度場(chǎng)和對(duì)比值的壓縮,構(gòu)建泊松方程的形式,實(shí)現(xiàn)在動(dòng)態(tài)范圍內(nèi)圖像的壓縮。在此基礎(chǔ)上,Pérez等[12]提出了泊松圖像編輯方法,通過狄利克雷邊界條件達(dá)到對(duì)泊松方程的求解。在保留前景圖像梯度信息的同時(shí),保證圖像在梯度域上的連續(xù),這樣就保證了前景和背景圖像間光照和紋理特征一致。
除上述2個(gè)典型問題,本文在系統(tǒng)中額外加入人像布局推薦來輔助對(duì)以人像為主題的圖像進(jìn)行構(gòu)圖設(shè)計(jì)。人像布局推薦是一個(gè)新興的研究領(lǐng)域,前景人像區(qū)域和背景區(qū)域之間的位置、大小等布局信息關(guān)系到合成圖像是否真實(shí)合理。人像布局推薦的目標(biāo)是通過調(diào)整前景圖像、背景圖像間相對(duì)的大小、位置信息將前景圖像毫無違和感地嵌入另一張背景圖像中,使圖像合成更真實(shí)。在圖像編輯中,設(shè)計(jì)圖像的布局結(jié)構(gòu)屬于開放性問題,具有一定的難度。Inaba等[13]利用場(chǎng)景間關(guān)系確定元素項(xiàng)位置,通過計(jì)算數(shù)據(jù)庫中111個(gè)場(chǎng)景標(biāo)簽間距離,統(tǒng)計(jì)出關(guān)鍵字標(biāo)簽的概率分布,達(dá)到生成元素位置的效果。Bhattacharya等[14]通過學(xué)習(xí)大量用戶數(shù)據(jù)來獲取圖像美學(xué)的支持向量回歸模型,通過空間重組來提高照片的視覺美感,用于輔助用戶改進(jìn)圖像的構(gòu)圖選擇。Zhang等[15]通過構(gòu)建大量專業(yè)照片提取代表美學(xué)空間構(gòu)圖的人像注意力和幾何構(gòu)圖特征。根據(jù)背景的相似性,為新的背景自適應(yīng)地挑選相似背景下的人像作為參考圖像,實(shí)現(xiàn)人像姿態(tài)和位置的推薦。Wang[16]和Rawat[17]等在此基礎(chǔ)上,收集上千幅構(gòu)圖良好的人像照片,從構(gòu)圖良好的圖像中學(xué)習(xí)人像的審美構(gòu)圖規(guī)律,結(jié)合美學(xué)構(gòu)圖規(guī)則,同時(shí)利用背景內(nèi)動(dòng)態(tài)視覺元素實(shí)現(xiàn)版面平衡的方法,構(gòu)建了一個(gè)輔助攝影系統(tǒng)來實(shí)現(xiàn)針對(duì)不同背景下的人像布局推薦。
本文設(shè)計(jì)了一個(gè)基于關(guān)鍵字的海報(bào)自動(dòng)合成系統(tǒng),其整體框架如圖1所示。按照合成流程可將系統(tǒng)分為以下3個(gè)階段。
圖1 海報(bào)自動(dòng)合成系統(tǒng)流程Fig.1 Procedure of automatic poster synthesis system
1)圖像檢索階段。主要是對(duì)目標(biāo)圖像的前景、背景圖像的準(zhǔn)備,用戶通過提供關(guān)鍵字標(biāo)簽或文本信息來進(jìn)行相關(guān)目標(biāo)圖像的提取,為后續(xù)圖像融合提供素材。
2)圖像布局設(shè)計(jì)階段。用于輔助用戶對(duì)人像元素進(jìn)行布局設(shè)計(jì),優(yōu)化圖像構(gòu)圖,保證圖像信息準(zhǔn)確快速的表達(dá)。考慮使用基于統(tǒng)計(jì)的正規(guī)則和基于美學(xué)的負(fù)規(guī)則進(jìn)行雙向的線性組合來量化背景下的人像布局評(píng)分,實(shí)現(xiàn)人像布局推薦。
3)圖片融合階段。是系統(tǒng)的最后一步,按照布局設(shè)計(jì)的方案將圖像素材檢索提供的前景和背景圖像進(jìn)行無縫融合即可實(shí)現(xiàn)圖像合成。將無縫融合的結(jié)果返回給用戶,以供用戶選擇。
系統(tǒng)需要建立2個(gè)數(shù)據(jù)庫:第1個(gè)是通過互聯(lián)網(wǎng)搜索引擎實(shí)時(shí)獲取前景、背景圖像的在線數(shù)據(jù)庫,用于圖像檢索階段;另1個(gè)是事先建立的離線海報(bào)數(shù)據(jù)庫,用于圖像布局設(shè)計(jì)階段。根據(jù)上述對(duì)系統(tǒng)的分析,基于關(guān)鍵字的海報(bào)自動(dòng)合成系統(tǒng)主要由以下模塊組成:
1)圖像下載。圖像下載模塊負(fù)責(zé)對(duì)目標(biāo)圖像、背景元素等的獲取。系統(tǒng)依托互聯(lián)網(wǎng)搜索引擎,根據(jù)用戶提供的文本信息下載對(duì)應(yīng)的圖像數(shù)據(jù),按照特定規(guī)則將圖像存儲(chǔ)建立數(shù)據(jù)庫,為后續(xù)的復(fù)雜性過濾和一致性排序提供數(shù)據(jù)源。
2)復(fù)雜性過濾。復(fù)雜性過濾模塊設(shè)置的目的是:一方面可以過濾錯(cuò)誤圖像,提升檢索效率;另一方面還能消除內(nèi)容復(fù)雜的圖像,保證在后續(xù)圖像分割和融合過程中產(chǎn)生更好的效果。
3)一致性排序模塊。一致性排序通過提取圖像內(nèi)容的多維度特征,并對(duì)圖像特征進(jìn)行內(nèi)容一致性排序來達(dá)到二次檢索的效果,進(jìn)一步提升檢索的性能。
4)人像布局推薦模塊。人像布局推薦可輔助用戶進(jìn)行海報(bào)的布局設(shè)計(jì)。從構(gòu)圖規(guī)律和美學(xué)常識(shí)的角度,為不同的人像與背景的組合生成恰當(dāng)?shù)牟季謧溥x。
5)圖像融合模塊。圖像融合是將從前景目標(biāo)區(qū)域無縫融合至背景圖像中的過程,提供最終的海報(bào)合成結(jié)果。
本文將自動(dòng)的圖像檢索和人像布局推薦作為系統(tǒng)的重點(diǎn)核心內(nèi)容,將圍繞上述各模塊進(jìn)行深入的分析和人性化的設(shè)計(jì)。
本文采用基于信息熵差的關(guān)鍵字提取算法[18]進(jìn)行文本處理。該算法提出文章關(guān)鍵詞是以聚類的形式存在的,按照每個(gè)詞出現(xiàn)間距是否大于閾值劃分為內(nèi)外2種模式,通過計(jì)算2種模式下的信息熵差來實(shí)現(xiàn)關(guān)鍵字提取。
關(guān)鍵詞標(biāo)簽一旦確定,通過互聯(lián)網(wǎng)搜索引擎下載對(duì)應(yīng)圖像。在后續(xù)的工作中,將按照特定的標(biāo)準(zhǔn)分別處理背景和前景圖像。首先,是內(nèi)容一致性,即不論是前景還是背景圖像,圖像內(nèi)容都應(yīng)該與對(duì)應(yīng)的關(guān)鍵字標(biāo)簽一致;其次,考慮內(nèi)容復(fù)雜性,對(duì)于背景圖像,圖像內(nèi)容應(yīng)該盡可能保持簡(jiǎn)單,為前景元素的加入保留足夠的開放空間;而前景圖像涉及后續(xù)目標(biāo)區(qū)域的自動(dòng)分割,應(yīng)該盡量選擇算法自動(dòng)分析相對(duì)可靠的圖像。在圖像下載過程的同時(shí),對(duì)收集到的所有圖像進(jìn)行預(yù)處理,刪除下載失敗或像素較低的模糊圖像,為最終的圖像合成提供高質(zhì)量的圖像素材。
在進(jìn)行復(fù)雜性過濾算法設(shè)計(jì)時(shí),本文使用圖的分割算法[9]來進(jìn)行語義分割。該算法是一種基于圖的貪心聚類算法,不僅考慮了同一子圖內(nèi)部的差異性,還考慮了子圖與子圖間的差異性。算法的關(guān)鍵在于像素聚類時(shí)能夠?qū)崿F(xiàn)自適應(yīng)閾值。然后使用一種基于短連接的深度學(xué)習(xí)顯著性檢測(cè)算法[19]。該算法通過在HED(holisticallynested edge detection)架構(gòu)內(nèi)引入跳層結(jié)構(gòu)的短連接,充分利用了從全卷積網(wǎng)絡(luò)提取的多層次和多尺度特征,為每一層提供更高級(jí)的表征,實(shí)現(xiàn)在復(fù)雜區(qū)域捕獲較為顯著的物體。
對(duì)于背景圖像,直接根據(jù)全圖分割的段數(shù)對(duì)圖像進(jìn)行排序,返回復(fù)雜性得分。對(duì)于前景圖像,首先判斷顯著性檢測(cè)結(jié)果,如果圖像內(nèi)顯著區(qū)域的數(shù)量大于3,則會(huì)被認(rèn)定為過于復(fù)雜,將會(huì)直接被刪除。然后將語義分割得到的結(jié)果和顯著性檢測(cè)得到的結(jié)果相組合,計(jì)算顯著區(qū)域邊緣的分割段數(shù)。前景圖像的復(fù)雜性檢測(cè)效果如圖2所示。在這種情況下,若圖像內(nèi)任意一個(gè)顯著區(qū)域邊緣段數(shù)大于20,系統(tǒng)認(rèn)為該圖像背景復(fù)雜,直接丟棄。
圖2 復(fù)雜性過濾過程Fig.2 Process of complexity filtering
對(duì)于前景圖像而言,每個(gè)圖像中可能包含一個(gè)或多個(gè)對(duì)象,因此對(duì)圖像全局提取特征是不合適的。如果只對(duì)圖像的目標(biāo)區(qū)域提取內(nèi)容特征,便可獲取更為準(zhǔn)確的特征描述。系統(tǒng)使用Grab-Cut來實(shí)現(xiàn)圖像目標(biāo)區(qū)域和背景的二值分割。GrabCut是以GraphCut圖分割算法為基礎(chǔ)改進(jìn)而得到的交互式圖像分割算法,其在分割初始化時(shí)加入了大量的用戶先驗(yàn)知識(shí)和主觀需求,從而實(shí)現(xiàn)更加準(zhǔn)確的目標(biāo)區(qū)域分割效果。圖3展示了GrabCut的基本用法。用戶需要使用矩形框手動(dòng)標(biāo)記前景區(qū)域即可實(shí)現(xiàn)圖像分割,在分割的過程中,用戶可根據(jù)主觀需求對(duì)前景和背景像素進(jìn)行額外的標(biāo)注,以改善分割結(jié)果。
圖3 GrabCut算法交互過程Fig.3 Interaction process of GrabCut algorithm
GrabCut采取RGB顏色空間,通過高斯混合模型對(duì)圖像前景及圖像背景中的像素進(jìn)行建模。GrabCut算法用于分割的Gibbs能量函數(shù)定義為
式中:α為透明度系數(shù),當(dāng)像素為前景時(shí)取值1,為背景時(shí)取值0;k∈{1,2,…,k},k為GMM 中高斯分量的個(gè)數(shù);θ={πk,uk,Σk},元素分別為每個(gè)高斯分量對(duì)應(yīng)的權(quán)重系數(shù)、均值和協(xié)方差;U和V分別表示區(qū)域項(xiàng)和能量邊界懲罰,計(jì)算式如下:
式中:參數(shù)γ=50;β由圖像的對(duì)比度決定;區(qū)域項(xiàng)U用于表示透明度系數(shù)α對(duì)于像素的相似程度,可由所有像素D(αn,kn,θ,zn)求和得到,D(αn,kn,θ,zn)由式(3)計(jì)算得到,具體表示為該像素屬于前景或背景的概率負(fù)對(duì)數(shù);邊界懲罰項(xiàng)V表示為鄰域像素m和n之間由于不連續(xù)所帶來的懲罰,通過像素m與n之間的歐氏距離,來對(duì)像素之間的相似性進(jìn)行衡量,如果兩鄰域像素的相似性越大,說明領(lǐng)域像素處于同一背景或同一前景的概率越大,所對(duì)應(yīng)的邊界項(xiàng)表示的能量值則越小。通過不斷進(jìn)行分割估計(jì)和模型參數(shù)的學(xué)習(xí),將Gibbs能量函數(shù)E降低到最小值實(shí)現(xiàn)最佳分割。
GrabCut是一種和用戶可以交互的圖像分割算法,考慮到該算法無法滿足實(shí)時(shí)性要求比較高的場(chǎng)合,本文將顯著性檢測(cè)和GrabCut結(jié)合來實(shí)現(xiàn)圖像自動(dòng)分割[20]。首先,對(duì)原始圖像進(jìn)行顯著性檢測(cè),通過設(shè)定適當(dāng)?shù)拈撝但@取顯著區(qū)域二值圖像。對(duì)于背景簡(jiǎn)單的圖像,顯著性檢測(cè)的結(jié)果往往聚集在目標(biāo)前景區(qū)域上,這也是使用復(fù)雜性檢測(cè)過濾圖像的目標(biāo)之一。然后,使用圖像的顯著區(qū)域?qū)rabCut算法進(jìn)行初始化,并重復(fù)迭代運(yùn)行分割算法,實(shí)現(xiàn)目標(biāo)區(qū)域的分割?;贕rabCut的自動(dòng)分割算法訓(xùn)練過程可以總結(jié)如下:
1)使用顯著性檢測(cè)得到目標(biāo)前景區(qū)域,并將目標(biāo)區(qū)域形態(tài)學(xué)擴(kuò)張10次。
2)使用目標(biāo)區(qū)域?qū)Ω咚够旌夏P瓦M(jìn)行初始化,目標(biāo)區(qū)域外的其他區(qū)域設(shè)定為背景區(qū)域,區(qū)域內(nèi)設(shè)置為待定的未知區(qū)域。
3)使用K-means算法將標(biāo)定的圖像前景和圖像背景像素聚為k類,k為GMM中高斯分量個(gè)數(shù),一般情況取5,初始化GMM參數(shù)θk={πk,uk,Σk}的值。
4)以最小化D(αn,kn,θ,zn)的規(guī)則判斷每個(gè)像素所屬的GMM分量。
5)根據(jù)式(2)計(jì)算區(qū)域項(xiàng)U(α,k,θ,z)。
6)根據(jù)式(5)計(jì)算邊界項(xiàng)懲罰V(α,z),其中參數(shù)γ=50,β由圖像的對(duì)比度決定。
7)構(gòu)建s-t圖,對(duì)圖像使用最大流、最小割算法進(jìn)行處理,得到能量函數(shù)E最小峰值。
8)迭代執(zhí)行步驟3)和步驟7)直至收斂。
9)使用bordermatting平滑圖像分割后的邊緣,這樣就實(shí)現(xiàn)了結(jié)合顯著性檢測(cè)和GrabCut的圖像目標(biāo)區(qū)域自動(dòng)提取,目標(biāo)區(qū)域的提取結(jié)果將會(huì)同源圖像一并返回給用戶,用戶可以通過手動(dòng)指定背景及前景像素的方式來修正圖像提取結(jié)果。
GrabCut算法偽代碼如下:
1:輸入圖像{I1,I2,…,IH}2:AimReg:rect←Significance detection method 3:Repeat:4:do:5:class k←clustering(foreground&background)6:GMM←initialize 7:Reg:U(α,k,θ,z),Bp:V(α,z)←calculate 8:cut_graph←maximum_flow(gr,source,sink)9:E←mix 10:while:函數(shù)收斂或達(dá)到迭代次數(shù)11:end循環(huán)12:使用bordermatting平滑圖像分割后的邊緣13:輸出結(jié)果
在一致性排序算法設(shè)計(jì)中,檢索結(jié)果的準(zhǔn)確性取決于對(duì)特征的精確描述,特征提取的重點(diǎn)在于全面性和準(zhǔn)確性。針對(duì)不同的應(yīng)用場(chǎng)景,提出了以下3種圖像特征提取方法:HSV顏色直方圖特征、HOG特征及人像姿態(tài)特征。
2.2.1 HSV顏色直方圖
本文基于HSV色彩空間建立顏色直方圖。如圖4所示,HSV顏色空間可以通過一個(gè)倒立的圓錐體來形象地解釋說明,其包含感知三要素:色調(diào)(H)、飽和度(S)、亮度(V)。亮度對(duì)應(yīng)圖中長(zhǎng)軸,從黑到白順序表示像素明暗度;飽和度對(duì)應(yīng)離開長(zhǎng)軸的距離,是顏色的深淡度的體現(xiàn);色調(diào)對(duì)應(yīng)圍繞長(zhǎng)軸的角度,是影響人的視覺判斷重要元素。
圖4 HSV顏色空間Fig.4 Space of HSV color
顏色直方圖是對(duì)圖像的不同顏色區(qū)間統(tǒng)計(jì)的像素?cái)?shù)量分布[21],其不考慮像素顏色的所處位置,僅與顏色在整幅圖像中所占的比例相關(guān)。顏色直方圖方法可定義為
式中:N為在圖像內(nèi)的所有像素點(diǎn)總數(shù)量;nk為相同區(qū)間內(nèi)的像素?cái)?shù)量。使用HSV顏色直方圖量化顏色空間可以按照以下步驟[22]:
1)根據(jù)人眼對(duì)顏色近似程度的視覺辨別能力,將色調(diào)劃分為8個(gè)不同的區(qū)間,飽和度和亮度空間分別劃分為3個(gè)量化區(qū)間。
2)根據(jù)像素所屬色彩的范圍對(duì)圖像進(jìn)行量化,此時(shí)每個(gè)小區(qū)間成為直方圖的一個(gè)簇,這樣色彩空間被量化成有限的離散級(jí)數(shù)。
3)按照轉(zhuǎn)換式(7)將顏色空間三要素對(duì)應(yīng)的向量參數(shù)合并至一維特征向量之中。
式中:Qs和Qv分別為分量S和V的量化級(jí)數(shù),本文Qs=3,Qv=3。
式(7)即變化為
構(gòu)成了 72 維向量的一維直方圖:L[0,1,…,71]。之后進(jìn)行歸一化處理,就可以通過向量L來衡量圖像的顏色特征。
2.2.2 HOG特征
梯度方向直方圖(histogram of oriented gradients,HOG)算子是Dalal和Triggs[23]提出的一種基于統(tǒng)計(jì)圖像局部梯度走向和梯度強(qiáng)度分布的特征描述符。HOG核心思想是:圖像中目標(biāo)物體邊緣位置通常能夠直觀地反映像素梯度。利用梯度做直方圖來進(jìn)行信息的統(tǒng)計(jì),這種方法能夠直觀地對(duì)區(qū)域目標(biāo)的外在特征進(jìn)行合理的反映。以64×64像素的圖像I為例,對(duì)應(yīng)的HOG特征提取步驟如下[24-25]:
1)圖像分割。將初始圖像等分為8×8的cell,并把4個(gè)相鄰2×2的cell組成block。
2)色彩和伽馬歸一化。采用gamma校正方法對(duì)圖像進(jìn)行歸一化,該操作能減低光線變化和圖像的局部陰影所造成的影響。
3)計(jì)算每個(gè)像素的梯度方向和大小。該方法能有效地捕獲了圖像的輪廓和紋理信息,同時(shí)進(jìn)一步弱化光照、陰影等因素的干擾。圖像中像素點(diǎn)(x,y)的橫向梯度H(x,y)及縱向梯度V(x,y)計(jì)算如下:
該點(diǎn)梯度大小G(x,y)和梯度方向θ(x,y)分別為
4)根據(jù)每個(gè)像素點(diǎn)的梯度方向,利用雙線性內(nèi)插法將cell內(nèi)像素幅值累加到直方圖中,并以block為單位把特征向量首尾相連。當(dāng)把梯度方向均分為9塊,即可得到一個(gè)64×9維的HOG特征向量。
2.2.3 人像姿態(tài)特征
人像姿態(tài)識(shí)別對(duì)于描述人體姿態(tài)、區(qū)分人體行為至關(guān)重要。姿態(tài)估計(jì)使用人體骨架的形式對(duì)一個(gè)人的體態(tài)進(jìn)行描述。骨架是一組坐標(biāo)點(diǎn),通過對(duì)軀干、頭部等的關(guān)鍵點(diǎn)識(shí)別,將其連接起來用于描述人物的姿態(tài)。為了提升人像圖像的檢索效率,本文使用開源人體姿態(tài)識(shí)別項(xiàng)目 Open-Pose[26-28]進(jìn)行二維姿態(tài)檢測(cè)。OpenPose是基于深度學(xué)習(xí)開發(fā)的開源庫,可以實(shí)現(xiàn)對(duì)人臉關(guān)鍵點(diǎn)、人手的關(guān)鍵點(diǎn)及人身體的主要關(guān)節(jié)點(diǎn)的實(shí)時(shí)多人定位。圖5為人體關(guān)鍵點(diǎn)示意圖。每個(gè)人像的二維的姿態(tài)特征可由36維特征向量表示:
圖5 人像姿態(tài)特征Fig.5 Feature of human pose
2.2.4 基于Meanshift的一致性排序
為了提高檢索的精度和準(zhǔn)確性目標(biāo),通過對(duì)圖片內(nèi)容一致性重新排序來達(dá)到目標(biāo)。不同于常規(guī)的基于內(nèi)容的圖像檢索方法,本文通過對(duì)候選圖像進(jìn)行聚類,使用簇中心代替示例圖像,用戶無需額外提供任何示例圖像,即可通過關(guān)鍵字標(biāo)簽實(shí)現(xiàn)圖像檢索。
系統(tǒng)選擇均值漂移(Meanshift)聚類算法進(jìn)行聚類操作。Meanshift算法[29]是局部密度最大值的迭代梯度上升法,使用均值漂移向量代表樣本中心點(diǎn)局部密度增長(zhǎng)的最快方向,將收斂于同個(gè)局部密度最大處的樣本劃分為同一簇類實(shí)現(xiàn)數(shù)據(jù)聚類。Meanshift算法先在特征空間中隨機(jī)初始化超球面,在每次迭代中,超球面都朝著均值偏移矢量的方向移動(dòng),移動(dòng)過程中,所有出現(xiàn)在超球面內(nèi)的數(shù)據(jù)屬于此類的訪問頻率加1。均值偏移矢量的計(jì)算如下:
式中:yt為第t次迭代的球面中心;x為屬于集合內(nèi)Θ半徑為λ的球面中的特征點(diǎn)。圖6表示了Meanshift算法超球面初始化到收斂的過程。Meanshift算法通過引入窗口半徑λ,避免事先定義聚類數(shù)量k,故Meanshift算法僅需定義參數(shù)λ即可實(shí)現(xiàn)聚類。超球面最終將收斂于局部密度極大值點(diǎn),并通過判斷當(dāng)前簇中心在閾值范圍內(nèi)是否已經(jīng)存在其他簇中心確定數(shù)據(jù)所屬簇類,如果存在其他簇,將2類數(shù)據(jù)合并,否則當(dāng)前簇中心成為新的聚類。當(dāng)所有數(shù)據(jù)均被標(biāo)記訪問時(shí)算法停止,并按照簇類的訪問頻率劃分?jǐn)?shù)據(jù)歸屬簇類。通過Meanshift算法得到最大簇后,計(jì)算得到簇中心。按照簇內(nèi)圖像與簇中心之間的距離排序。對(duì)于顏色直方圖而言,使用卡方距離相較于歐氏距離能夠獲得更好的檢索效果。故針對(duì)顏色特征使用卡方距離重排序,卡方距離為
圖6 Meanshift算法迭代過程Fig.6 Iterative process of Meanshift algorithm
對(duì)其他特征使用歐氏距離排序,計(jì)算如下:
使用對(duì)應(yīng)距離公式來表示內(nèi)容一致性評(píng)分,將一致性得分標(biāo)準(zhǔn)化為介于(0,1)之間的值。這樣每張圖像都被賦予對(duì)應(yīng)特征下的一致性得分。根據(jù)不同情況獲取對(duì)應(yīng)特征下的分?jǐn)?shù):對(duì)于背景圖像使用顏色特征獲取一致性得分,并與復(fù)雜性得分相結(jié)合作為背景圖像排序的最終評(píng)分依據(jù);對(duì)于前景圖像同時(shí)建立HSV顏色直方圖特征和HOG特征,如果目標(biāo)對(duì)象是人物還將額外使用姿態(tài)特征,將圖像特征對(duì)應(yīng)的一致性分?jǐn)?shù)線性組合,對(duì)數(shù)據(jù)集內(nèi)圖像進(jìn)行一致性排序,按照排序結(jié)果返回圖像,這樣就實(shí)現(xiàn)了“從無到有”的圖像檢索。
圖像的無縫融合應(yīng)該盡可能地保證合成的圖像真實(shí)自然,減少明顯的拼接痕跡。本文提供了Alpha融合和泊松圖像編輯2種無縫融合方案供用戶選擇。
2.3.1 Alpha融合算法
Alpha融合是按照α向量(圖像透明度)來混合前景像素和背景像素的圖像處理技術(shù)。首先,把背景像素BP和前景像素FP按照RGB三個(gè)顏色通道分離,分別對(duì)各個(gè)顏色進(jìn)行以下處理:將前景像素乘上α的值,同時(shí)把背景像素與α的反值相乘。然后,在對(duì)應(yīng)的顏色通道上,將處理結(jié)果相疊加。最后,把求得的疊加結(jié)果除以α的最大值獲取融合圖像的像素值CP:
Alpha融合算法的效果很大程度上取決于前景圖像的掩膜mask值,當(dāng)前景圖像的掩膜不夠精確時(shí),會(huì)導(dǎo)致前景圖像邊緣處的錯(cuò)誤結(jié)果。此外,Alpha融合算法是在像素級(jí)別對(duì)圖像進(jìn)行操作,無法處理圖像之間的色彩和紋理變化。當(dāng)背景與前景圖像的紋理差別很大,以及在不同的光照條件下,往往會(huì)出現(xiàn)明顯的邊界,產(chǎn)生不真實(shí)融合效果。
2.3.2 泊松圖像編輯
泊松圖像編輯是在梯度域求解前景和背景重疊區(qū)域的像素,利用前景區(qū)域的梯度和背景圖像的邊界值構(gòu)造求解帶Dirichlet邊界條件的泊松方程,利用拉普拉斯算子插值重構(gòu)重疊部分的像素。如圖7所示,B和Ω分別代表背景圖像和背景中的重疊區(qū)域,泊松圖像編輯的目標(biāo)是將前景圖像的目標(biāo)區(qū)域U無縫融合至背景B中,即求解融合后重疊區(qū)域Ω的像素值f。通過使邊界?Ω處梯度變換盡可能小,避免因過渡不自然而出現(xiàn)明顯的融合間隙,實(shí)現(xiàn)真實(shí)自然的融合效果。
圖7 泊松圖像編輯原理Fig.7 Schematic diagram of Poisson image editing
為了保證圖像融合后重疊區(qū)域內(nèi)變化平滑及無明顯的可見邊界,重疊區(qū)域Ω內(nèi)梯度變換應(yīng)盡可能得平緩,即梯度應(yīng)盡可能得小。因此,Ω內(nèi)的像素值f應(yīng)滿足:
式中:Δ表示拉普拉斯算子。為了保持原圖像的紋理特征,需要將梯度矢量場(chǎng)T加入到式(19)中,對(duì)當(dāng)前的梯度域加以限制,這樣就得到了擴(kuò)展的最小值問題。公式更新為
最優(yōu)解滿足Dirichlet邊界條件下的泊松方程:
式(22)是T=(u,v)的離散形式。在彩色圖像的泊松編輯方程求解中,合成圖像的顏色在不同通道將被獨(dú)立構(gòu)成一個(gè)泊松方程求解。Ω的邊界滿足:
式中:Np為背景內(nèi)像素p的四連通鄰居集;<p,q>為p和Np內(nèi)q的像素對(duì)。泊松方程就轉(zhuǎn)化為了離散的二次最優(yōu)化問題,如下:
式中:vpq為T在[p,q]上的投影。根據(jù)最優(yōu)性條件,其最優(yōu)解滿足:
通過對(duì)線性方程求得的解為目標(biāo)區(qū)域內(nèi)的像素值,這樣就實(shí)現(xiàn)了圖像的無縫融合。
同類型的電影海報(bào)具有相似的人像分布規(guī)律?;谶@種考慮,本文建立基于統(tǒng)計(jì)的正規(guī)則,即從構(gòu)圖良好的圖像中提取共通的構(gòu)圖規(guī)律。正規(guī)則建立的過程可概括為海報(bào)分類、使用高斯混合模型對(duì)各類別下人像分布建模和高斯混合模型參數(shù)估計(jì)3部分。
先對(duì)海報(bào)進(jìn)行聚類,再對(duì)不同類別的人像進(jìn)行單獨(dú)的位置建模,提取電影海報(bào)的布局分布規(guī)律。在此,考慮了多個(gè)方面的分類準(zhǔn)則,如不同電影類別的海報(bào)應(yīng)該具備獨(dú)特的風(fēng)格,大眾審美會(huì)隨著時(shí)間的推移發(fā)生變化,電影海報(bào)也會(huì)隨著改變。電影的類別和時(shí)間線都可以作為電影分類的標(biāo)準(zhǔn),但不論是電影類別的差異還是藝術(shù)認(rèn)知的改變,人像分布和背景圖像的內(nèi)容特征都是緊密相關(guān)的。海報(bào)制作者在進(jìn)行人像布局設(shè)計(jì)時(shí),前景人像與背景圖像之間的協(xié)調(diào)搭配都是應(yīng)該考慮的第一要素。故選擇依據(jù)圖像背景內(nèi)容特征對(duì)電影海報(bào)進(jìn)行分類。首先,切除海報(bào)內(nèi)人像和其他前景元素,使用內(nèi)容感知算法填充背景上的空白區(qū)域。然后,建立背景圖像的內(nèi)容特征??紤]到有些海報(bào)內(nèi)可能沒有明顯的顯著元素,故考慮依據(jù)圖像顏色特征進(jìn)行分類。建立背景的HSV顏色直方圖特征,并使用K-means聚類算法[30]對(duì)填充的背景分類。該算法的一個(gè)特征是每次迭代都需要計(jì)算所有樣本與質(zhì)心之間的相似度,在數(shù)據(jù)規(guī)模較大時(shí),算法的時(shí)間開銷比較大。
海報(bào)分類完成后,分別對(duì)每類背景的人像布局關(guān)系進(jìn)行分析,在這里同時(shí)考慮人像的位置坐標(biāo)和尺寸。建立一個(gè)生成概率模型來訓(xùn)練每個(gè)場(chǎng)景類別的位置、大小分布,使用高斯混合模型來擬合人像布局分布。高斯混合模型作為廣泛應(yīng)用的聚類模型之一,使用多個(gè)高斯分布作為參數(shù)模型,并將其線性組合來刻畫數(shù)據(jù)的一般分布。對(duì)于任何場(chǎng)景類別I,本文將人像布局信息表示為x(I)=(x,y,r)T,其中(x,y)表示人物在圖像中的平均位置,r表示人像的面部尺寸。給定場(chǎng)景Ik的人像布局x(Ik)的概率分布可以表示為
式中:N(x|μ,Σ)為高斯概率密度函數(shù);wk、μk、Σk分別為混合模型中的第k維高斯向量的權(quán)重、均值、協(xié)方差矩陣。
本文使用貝葉斯信息準(zhǔn)則[31](Bayesian information criterion)來估計(jì)高斯混合分量的數(shù)量。使用 最 大 期 望(expectation-maximization,EM)算法[32]估計(jì)所有背景類別的高斯混合模型參數(shù)(wk,μk,Σk)。EM算法是通過迭代進(jìn)行極大似然估計(jì)(maximum likelihood estimation)的優(yōu)化算法,通常用于對(duì)包含隱變量或缺失數(shù)據(jù)的概率模型進(jìn)行參數(shù)估計(jì)。EM 算法包括2個(gè)步驟:E-step和M-step。在E-step計(jì)算中,通過評(píng)估對(duì)隱藏變量的現(xiàn)有估計(jì)值,計(jì)算E-step中最大似然估計(jì)值:
在M-step計(jì)算中,通過把E-step上求得的最大似然值最大化操作后,來計(jì)算參數(shù)的值。每個(gè)類的潛在變量平均值μk、協(xié)方差Σk和先驗(yàn)值wk更新如下:
式中:Tk為給定場(chǎng)景類別Ik的海報(bào)總數(shù)量。Mstep計(jì)算更新的參數(shù)結(jié)果將被重新應(yīng)用于E-step的計(jì)算中,2個(gè)步驟迭代的交替運(yùn)行,模型收斂時(shí)的結(jié)果即可表示人像概率分布.
不同的背景圖像具備獨(dú)特的特點(diǎn),這些特點(diǎn)決定了不適合人像的位置區(qū)域。對(duì)于不同前景和背景的組合,人像布局推薦應(yīng)該隨之改變。本文受到攝影中美學(xué)常識(shí)的啟發(fā),總結(jié)建立了3條負(fù)規(guī)則[33]。
1)區(qū)域規(guī)則。指人像圖像應(yīng)盡可能少地覆蓋其他前景元素和背景中的顯著區(qū)域。區(qū)域規(guī)則確保了在構(gòu)圖設(shè)計(jì)時(shí)的前景元素間主次分明、簡(jiǎn)潔明了。如果前景元素間出現(xiàn)相互覆蓋的情況,圖像可能會(huì)出現(xiàn)視覺上的邏輯錯(cuò)誤;而背景中的顯著區(qū)域往往是相對(duì)重要的部分,表現(xiàn)了圖像的視覺特點(diǎn),人像與背景顯著區(qū)域保留一定的空間。首先,使用本文設(shè)計(jì)的顯著性檢測(cè)方法檢測(cè)圖中顯著區(qū)域。然后,通過式(33)量化顯著區(qū)域負(fù)規(guī)則以評(píng)估顯著區(qū)域與人像布局間的合理性。
式中:M為顯著區(qū)域的二元掩碼,可由3.1節(jié)的方法生成,或者由用戶手動(dòng)標(biāo)注;RectW為在位置W處放置時(shí)對(duì)象所占據(jù)的矩形區(qū)域;符號(hào)&為與操作,該操作計(jì)算對(duì)象所覆蓋的突出區(qū)域。
2)直線規(guī)則。直線規(guī)則是指背景內(nèi)的直線不應(yīng)穿透人像的頭部。畫面中線條是構(gòu)圖的骨架,是整個(gè)畫面造型的經(jīng)絡(luò)。畫面中線條結(jié)構(gòu)的走勢(shì)能夠很好地襯托照片內(nèi)容的表現(xiàn),起到美化照片的作用。本文采用霍夫變換(Hough transform)[34]檢測(cè)背景中的長(zhǎng)直線。霍夫變化被認(rèn)為是目前最通用也是效果最好的直線檢測(cè)算法。
圖8展示了霍夫直線檢測(cè)流程。首先,將圖像中的所有像素點(diǎn)(坐標(biāo)值)投影到參數(shù)坐標(biāo)系下;然后,在參數(shù)坐標(biāo)系中搜索極值點(diǎn),確定代表直線的峰值點(diǎn)個(gè)數(shù)和坐標(biāo)。當(dāng)候選的線段被識(shí)別出來時(shí),將歸屬于同一條直線的線段相連接,檢測(cè)直線的起始點(diǎn)和終點(diǎn)。這樣就實(shí)現(xiàn)了霍夫變換下的直線檢測(cè):
圖8 霍夫直線檢測(cè)流程Fig.8 Process of Hough line detection
3)滅點(diǎn)規(guī)則。滅點(diǎn)規(guī)則是指人像主體不應(yīng)該覆蓋背景的滅點(diǎn)。在線性延展中,從起點(diǎn)出發(fā),如果多條平行線向遠(yuǎn)處延展時(shí),最終總是近似相交于一點(diǎn),該點(diǎn)稱之為滅點(diǎn)。滅點(diǎn)反映了圖像深度的漸變和透視表現(xiàn)力,如果背景出現(xiàn)滅點(diǎn),應(yīng)盡量減少人像源點(diǎn)和背景滅點(diǎn)間的相互覆蓋,避免影響以視覺感官為線性走勢(shì)的空間次序。
二維空間中的滅點(diǎn)概念如圖9所示,場(chǎng)景中的每一個(gè)滅點(diǎn)都有其對(duì)應(yīng)的滅線,這樣滅點(diǎn)檢測(cè)就能轉(zhuǎn)換為同組的直線檢測(cè)。本文在進(jìn)行滅點(diǎn)檢測(cè)時(shí),采用了J-Linkage算法。J-Linkage算法最初由Toldo和Fusiello[35]提出,屬于多模型點(diǎn)聚類算法,是現(xiàn)階段滅點(diǎn)檢測(cè)中最優(yōu)的算法。算法核心在于構(gòu)造優(yōu)先集矩陣及對(duì)矩陣的優(yōu)化計(jì)算。優(yōu)先集矩陣一般為N×M 的布爾矩陣,假定有N條直線集合和M 個(gè)滅點(diǎn)集合。優(yōu)先級(jí)矩陣描述了每條直線和每個(gè)假設(shè)滅點(diǎn)之間的連續(xù)性關(guān)系。優(yōu)先級(jí)矩陣優(yōu)化迭代的過程就是對(duì)直線分類的過程。首先,判斷不同直線間的優(yōu)先級(jí)是否相交,將相交的直線直接劃分為同類直線。然后,使用Jaccard距離合并不同類別下的直線。Jaccard距離可用于判斷2個(gè)集合間的差異性,表達(dá)式如下:
圖9 滅點(diǎn)概念Fig.9 Concept of vanishing point
式中:A、B為2個(gè)不同的直線集合。通過計(jì)算優(yōu)先集矩陣內(nèi)所有直線集合間的Jaccard距離,將Jaccard距離最小的集合組合為同一集合。重復(fù)迭代上述操作,直到優(yōu)先集矩陣內(nèi)所有直線集合間的Jaccard距離均為1。這種情況下,所有直線集合間的差異化達(dá)到最大,也就實(shí)現(xiàn)了直線間的分類。
通過式(36)量化滅點(diǎn)規(guī)則以評(píng)估顯著區(qū)域與人像布局間合理性。其中,Z表示滅點(diǎn)的二維坐標(biāo)。
對(duì)于用戶自己確定的背景圖像,首先,提取圖像像的HSV顏色直方圖特征L,通過比較特征L與背景簇中心Ik,選擇距離最小的簇Ik作為該圖像的類別,根據(jù)該類別下的人像分布概率,根據(jù)式(37)計(jì)算出正規(guī)則得分。然后,檢測(cè)圖像內(nèi)顯著區(qū)域、直線和滅點(diǎn),根據(jù)式(38)將3條負(fù)向規(guī)則組合構(gòu)成負(fù)規(guī)則得分。
最終將正負(fù)規(guī)則結(jié)合起來,即可獲得該背景下的人像布局得分:
只有當(dāng)一個(gè)位置同時(shí)滿足正規(guī)則和負(fù)規(guī)則,該位置才會(huì)獲得一個(gè)相對(duì)較高的雙向規(guī)則總分?jǐn)?shù),這個(gè)位置才會(huì)被推薦給用戶。
4.1.1 圖像檢索效果測(cè)試
從互聯(lián)網(wǎng)社交媒體中準(zhǔn)確地發(fā)現(xiàn)圖像是一個(gè)極富挑戰(zhàn)性的研究熱點(diǎn)。本文為了對(duì)系統(tǒng)進(jìn)行有效的評(píng)估,采取人工分別對(duì)互聯(lián)網(wǎng)直接返回的結(jié)果、復(fù)雜性方案過濾后的結(jié)果及內(nèi)容一致性排序后的結(jié)果的假陽率(false positive rate,F(xiàn)PR)進(jìn)行評(píng)估。假陽率計(jì)算式為
假陽率表示為負(fù)樣本被識(shí)別為真樣本事件發(fā)生的概率。為了驗(yàn)證基于互聯(lián)網(wǎng)的圖像檢索方法的有效性,使用幾個(gè)例子測(cè)試了圖像檢索系統(tǒng)。圖10展示了本文方法檢索的結(jié)果。本文的圖像均來源于互聯(lián)網(wǎng)搜索引擎,對(duì)于每個(gè)關(guān)鍵字標(biāo)簽,使用Google Image自動(dòng)下載500張圖像,經(jīng)過復(fù)雜性過濾、一致性排序后返回前100張圖像作為圖像素材用于后續(xù)圖像合成。如表1所示,在使用搜索引擎返回的前100張圖像中,假陽率平均約為81%,即只有約19%的圖像是符合目標(biāo)預(yù)期的。經(jīng)過圖像復(fù)雜性過濾、和一致性排序后,假陽率分別降低至71%、26%。
圖10 圖像檢索結(jié)果Fig.10 Results of image retrieval
表1 圖像檢索結(jié)果Table 1 Results of image retrieval
對(duì)于前景圖像,觀察到復(fù)雜性過濾主要篩除了一些拼接的圖像和少量背景復(fù)雜的圖像,對(duì)于提升準(zhǔn)確率而言表現(xiàn)的并不出色。然而,它對(duì)于一致性排序的提升卻非常重要,因?yàn)樗WC圖像在自動(dòng)分析時(shí)可以獲得良好的分割效果,這對(duì)于內(nèi)容一致性排序的提升是非常顯著的。由于本文加入了姿態(tài)估計(jì),在檢索具有特定動(dòng)作的人物,如“Goalkeeper”時(shí)檢索效果也有所提升。另外,在使用互聯(lián)網(wǎng)引擎進(jìn)行圖像檢索時(shí),適當(dāng)?shù)膶?duì)關(guān)鍵字標(biāo)簽添加適當(dāng)?shù)膭?dòng)詞或并列詞,如“Manthrow frisbee”和“Jump dog”來獲取目標(biāo)圖片是非常有幫助的。由于所有數(shù)據(jù)是依托互聯(lián)網(wǎng)搜索引擎獲取的,系統(tǒng)依然受制于初步檢索的結(jié)果。例如,在檢索某類人物時(shí),將關(guān)鍵字標(biāo)簽定義為“Prince”,檢索結(jié)果多是明星或現(xiàn)代皇室成員,這顯然與用戶預(yù)期不同。因此,推薦用戶在檢索過程中同時(shí)添加多個(gè)并列的關(guān)鍵字標(biāo)簽或根據(jù)返回的結(jié)果交互性地修正關(guān)鍵字標(biāo)簽來提高檢索的準(zhǔn)確率。
4.1.2 圖像無縫融合效果測(cè)試
本節(jié)主要對(duì)圖像融合算法的效果進(jìn)行測(cè)試。圖像合成包括圖像目標(biāo)區(qū)域的分割和無縫融合2步,本文提供了自動(dòng)的圖像提取,系統(tǒng)根據(jù)抓取結(jié)果主動(dòng)生成前景掩碼。如果用戶對(duì)自動(dòng)提取的結(jié)果不滿意,可手動(dòng)實(shí)現(xiàn)圖像抓取。
圖11為Cheetah和Polar bear的源圖像、Alpha融合結(jié)果和泊松圖像編輯的融合效果??梢园l(fā)現(xiàn),在面對(duì)不同的前景、背景組合時(shí),2個(gè)算法都表現(xiàn)出了各自的特點(diǎn)。Alpha融合能保證源圖像本身的特點(diǎn)不被改變,在圖像的紋理或光照條件相差較大,會(huì)產(chǎn)生不真實(shí)的融合效果。泊松圖像編輯能保持前景和背景之間保持一致的紋理及光照條件,這會(huì)導(dǎo)致圖像發(fā)生失真的現(xiàn)象。在給出的2例融合結(jié)果中,采用的不同融合算法各有各自的優(yōu)勢(shì),用戶可以根據(jù)不同需求選擇適合的場(chǎng)景進(jìn)行融合,從而達(dá)到更好的融合效果。
圖11 圖像無縫融合結(jié)果Fig.11 Results of seamless integration of image
4.2.1 人像布局推薦效果測(cè)試
在圖像合成中,進(jìn)行人像布局推薦是新研究的問題,采用了基于雙重規(guī)則的人像布局推薦系統(tǒng)對(duì)背景圖像生成人像布局推薦。首先,使用TMDB官方API收集海報(bào)10 000張,共收集以人像為主題的海報(bào)3 574張。然后,提取圖像背景的HSV顏色直方圖特征,并使用K-means將海報(bào)分為8類,利用高斯混合模型進(jìn)行建模,對(duì)應(yīng)類別下的人像概率分布如圖12所示。
圖12 人像分布Fig.12 Distribution of human position
根據(jù)3條反向規(guī)則,檢測(cè)背景的顯著區(qū)域、直線和滅點(diǎn)。圖13展示了顯著區(qū)域、直線和滅點(diǎn)的檢測(cè)結(jié)果。需要說明的是,系統(tǒng)提供了手動(dòng)標(biāo)注的方式來修正檢測(cè)結(jié)果。
圖13 負(fù)規(guī)則檢測(cè)結(jié)果Fig.13 Results of negative rule detection
將雙向規(guī)則的最終結(jié)果得分圖相加即可得到最終的推薦結(jié)果。目前,沒有明確的指標(biāo)衡量人像推薦結(jié)果,只能通過人工來評(píng)判推薦結(jié)果的合理性。系統(tǒng)將人像推薦的結(jié)果直接應(yīng)用于圖像合成中,輔助用戶進(jìn)行圖像布局設(shè)計(jì)。
圖14展示了正規(guī)則、負(fù)規(guī)則及雙向規(guī)則組合下的推薦結(jié)果。默認(rèn)情況下,系統(tǒng)會(huì)根據(jù)給定的前景人像關(guān)鍵字標(biāo)簽數(shù)量,自動(dòng)實(shí)現(xiàn)對(duì)應(yīng)的人像布局推薦。用戶可在手動(dòng)地添加非人像元素或?qū)θ讼裨匚恢眠M(jìn)行自定義的修改。每當(dāng)一張前景圖像加入到背景內(nèi),背景圖像下的該區(qū)域?qū)⒈欢x為顯著區(qū)域。這樣就避免了人像之間與物體之間的相互重疊,預(yù)防最終合成結(jié)果由于圖像間的覆蓋而出現(xiàn)的邏輯錯(cuò)誤。
圖14 人像布局推薦結(jié)果Fig.14 Results of human position recommendation
4.2.2 系統(tǒng)整體測(cè)試
將圖像檢索、人像布局推薦和圖像融合組合在一起,對(duì)整個(gè)系統(tǒng)的使用效果進(jìn)行了測(cè)試。對(duì)系統(tǒng)的多個(gè)應(yīng)用場(chǎng)景示例進(jìn)行測(cè)試。最終生成結(jié)果如圖15所示。①用戶輸入Cinderella的文本故事,根據(jù)關(guān)鍵字篩選結(jié)果,使用“Royalprince”和“Bride”作為關(guān)鍵字人物標(biāo)簽,將“Garden”作為背景標(biāo)簽。檢索到對(duì)應(yīng)圖像后,將所需的物體摳取出來,并通過人像布局推薦結(jié)果將目標(biāo)圖像粘貼到了新的背景中。②用戶直接輸入“Manthrow”和“Jump dog”前景關(guān)鍵字標(biāo)簽,以及“Park”的背景關(guān)鍵字標(biāo)簽。其中,“Manthrow”為前景人物標(biāo)簽,“Jump dog”為普通的前景標(biāo)簽。③用戶將“Ski man”設(shè)置為前景人物標(biāo)簽,“Polar bear”作為普通的前景標(biāo)簽,“Snow field”作為背景標(biāo)簽。④用戶輸入The Wonderful Wizard of Oz的文本故事信息,系統(tǒng)將“Little girl dorothy”、“Tin woodman robot”和“Scarecrow”作為前景關(guān)鍵字,將“Forest”作為背景關(guān)鍵字。其中,將“Little girl dorothy”設(shè)定為人物標(biāo)簽,其他均為普通標(biāo)簽。用戶需要手動(dòng)為普通的前景元素定義位置和大小信息,隨著普通前景元素的加入,人像布局推薦結(jié)果也會(huì)隨之改變。系統(tǒng)會(huì)自適應(yīng)地為所有的前景人物推薦布局信息,并根據(jù)人臉的尺寸自動(dòng)縮放圖像,實(shí)現(xiàn)前景人物元素的自動(dòng)拼接。從上述4個(gè)例子中可以發(fā)現(xiàn),依靠本文系統(tǒng)能夠根據(jù)文本信息“從無到有”地實(shí)現(xiàn)目標(biāo)圖像合成,并且所合成的圖像十分真實(shí)自然。
圖15 系統(tǒng)整體結(jié)果Fig.15 Final result of system
本文提出了一種基于關(guān)鍵字的海報(bào)自動(dòng)合成系統(tǒng),并設(shè)計(jì)了圖像檢索、圖像布局及圖像融合的具體方案。在圖像檢索階段,本文設(shè)計(jì)了文本和內(nèi)容的雙重過濾方案,該方案采用復(fù)雜性過濾和一致性排序的方法實(shí)現(xiàn)從海量的圖像庫中準(zhǔn)確快捷地檢索圖像的目的,降低了檢索過程中的假陽率,為用戶提供了精準(zhǔn)快捷的圖像檢索手段。在圖片布局設(shè)計(jì)階段,本文設(shè)計(jì)了一種基于雙向規(guī)則的人像布局推薦方案,該方案采用正負(fù)規(guī)則組合的方法提升了海報(bào)設(shè)計(jì)中人像布局中前景人像與背景圖像之間的協(xié)調(diào)度。在圖片融合階段,采用顯著性檢測(cè)和GrabCut相結(jié)合的算法解決了GrabCut算法不能實(shí)時(shí)處理的問題,實(shí)現(xiàn)了圖像實(shí)時(shí)高效的自動(dòng)分割,并且提供了Alpha融合結(jié)果和泊松圖像編輯的融合2種融合方法供不同場(chǎng)景選擇。