劉尚旺,張新明,張非
改進(jìn)字體自適應(yīng)神經(jīng)網(wǎng)絡(luò)的圖像字符編輯方法
劉尚旺1,2*,張新明1,2,張非1,2
(1.河南師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,河南 新鄉(xiāng) 453007;2.智慧商務(wù)與物聯(lián)網(wǎng)技術(shù)河南工程實(shí)驗(yàn)室(河南師范大學(xué)),河南 新鄉(xiāng) 453007)( ? 通信作者電子郵箱shwl2012@hotmail.com)
在當(dāng)今國際化的社會,作為國際通用語言的英文字符及中文環(huán)境下的拼音字符出現(xiàn)在眾多公共場合。當(dāng)這些字符出現(xiàn)在圖像中時(shí),尤其在風(fēng)格復(fù)雜的圖像中時(shí),難以直接對其進(jìn)行編輯修改。針對上述問題,提出了一種改進(jìn)文字生成網(wǎng)絡(luò)(FANnet)的圖像字符編輯方法。首先,利用基于直方圖對比度(HC)的顯著性檢測算法改進(jìn)自適應(yīng)字符檢測(CAD)模型,準(zhǔn)確提取出用戶所選擇的圖像字符;接著,根據(jù)FANnet,生成與源字符字體幾乎一致的目標(biāo)字符的二值圖;然后,通過所提出的局部顏色分布(CDL)遷移模型,遷移源字符顏色至目標(biāo)字符;最后,生成與源字符字體結(jié)構(gòu)和顏色變化均高度一致的目標(biāo)可編輯修改字符,從而達(dá)到字符編輯目的。實(shí)驗(yàn)結(jié)果表明,在MSRA-TD500、COCO-Text和ICDAR數(shù)據(jù)集上,所提方法的結(jié)構(gòu)相似性(SSIM)、峰值信噪比(PSNR)和歸一化均方根誤差(NRMSE)平均值分別為0.776 5、18.321 1 dB和0.435 8,相較于基于字體自適應(yīng)神經(jīng)網(wǎng)絡(luò)的場景文本編輯器(STEFANN)算法分別提高了18.59%、14.02%和降低了2.97%,相較于多模態(tài)小樣本字體遷移模型MC-GAN算法(輸入1個字符時(shí))分別提高了30.24%、23.92%和降低了4.68%;而且針對字體結(jié)構(gòu)和顏色漸變分布比較復(fù)雜的實(shí)際場景圖像字符,所提方法的編輯效果也較好。該方法可以應(yīng)用于圖像重利用、圖像字符計(jì)算機(jī)自動糾錯和圖像文本信息重存儲。
字體自適應(yīng)神經(jīng)網(wǎng)絡(luò);圖像字符編輯;直方圖對比度;顯著性檢測;顏色遷移;字體結(jié)構(gòu)
字體風(fēng)格遷移與文字生成是人工智能的一個重要研究領(lǐng)域,無論是實(shí)景圖還是電子矢量圖,總包含可以幫助讀者更好理解圖像中上下文語義和場景內(nèi)容的文字信息。當(dāng)一幅圖像中的文字發(fā)生錯誤或需要修改時(shí),與直接在文本中編輯、修改文字不同,直接在圖中進(jìn)行修改非常困難,究其原因如下:在計(jì)算機(jī)視覺中,首先,一幅圖像包含的文字信息畢竟有限,能夠提取的視覺信息數(shù)據(jù)難以滿足生成模型所需條件;其次,圖像在不同自然場景下往往呈現(xiàn)出亮度、對比度、陰影、透視形變和背景復(fù)雜度等不同特征;最后,文字字體設(shè)計(jì)要求數(shù)據(jù)集內(nèi)每一種文字的風(fēng)格相同且具有視覺一致性,而建立這樣的數(shù)據(jù)集往往需要消耗大量的人力和物力。因此,如何通過有限規(guī)模的字符集,使計(jì)算機(jī)自動生成與源字符具有相同物理結(jié)構(gòu)和視覺效果的其他字符是當(dāng)前計(jì)算機(jī)視覺領(lǐng)域中的研究熱點(diǎn)。
國內(nèi)外研究人員對圖像文字領(lǐng)域的研究多集中于場景圖像文字識別和分類工作,較少關(guān)注圖像文字編輯技術(shù)[1-2]。這是因?yàn)閳D像文字編輯技術(shù)涉及到圖像源字符提取、小樣本圖像文字生成以及背景結(jié)構(gòu)風(fēng)格遷移等關(guān)鍵技術(shù)。于是,在圖像文字間具有相同結(jié)構(gòu)特征的前提下進(jìn)行不同圖像文字間的風(fēng)格遷移工作,與單一的圖像文字生成工作相比往往受到更多的關(guān)注[2]。然而,在完成圖像文字編輯工作中,尤其圖像風(fēng)格復(fù)雜時(shí),如何準(zhǔn)確地提取源字符、如何根據(jù)圖像中有限的樣本圖像生成與其結(jié)構(gòu)特征相似的目標(biāo)圖像字符,以及如何使編輯后的圖像文字在顏色特征和背景風(fēng)格特征上與原圖像保持高度一致性,是圖像文字編輯技術(shù)的研究難點(diǎn)[1]。
針對上述問題,如何生成與源字符在結(jié)構(gòu)特征上具有高度視覺一致性的目標(biāo)字符是研究的關(guān)鍵,這將直接影響后續(xù)的圖像字符顏色特征遷移的準(zhǔn)確性和最終目標(biāo)圖像字符與其他字符的視覺一致性。在當(dāng)前有關(guān)文字生成方面的研究中,最先采用的是基于幾何特征的文字合成算法[3-4]。這種基于幾何特征的算法只能用于特定的字體拓?fù)浣Y(jié)構(gòu),無法生成大量不同字體的文字。隨著生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks, GANs)模型的出現(xiàn),文字生成問題主要采用基于生成對抗模型的相關(guān)算法來解決,即從一個特定或隨機(jī)的數(shù)據(jù)集中針對特定文字生成未知文字。然而,即使基于GANs的相關(guān)算法可以完成目標(biāo)文字生成工作,將其直接應(yīng)用于實(shí)景圖像依然面臨著許多困難。首先,在具有復(fù)雜背景的實(shí)景圖中準(zhǔn)確地進(jìn)行文本文字識別工作本身就極具挑戰(zhàn)性。大多數(shù)基于GANs的字體生成算法需要對一個確定的源文字進(jìn)行精準(zhǔn)的識別[5],其過程中的誤差累積會直接影響后續(xù)目標(biāo)文字生成的準(zhǔn)確性。其次,圖像中的文本文字通常融合了多種特征,例如尺寸、顏色、結(jié)構(gòu)等。圖像文字受到光線、角度等外部條件的影響,將經(jīng)歷不同程度的透視形變(perspective distortion)。因此,一些基于GANs的算法[6-7]需要通過大量同一字體類型的觀察數(shù)據(jù)來提高生成數(shù)據(jù)的置信度,同時(shí)在生成算法前需要進(jìn)行嚴(yán)格的透視消除步驟。Shamir等[8]提出了一種基于特征約束的字體設(shè)計(jì)算法,在該算法中,需要用戶來提取特征和約束,缺乏自動性。Suveeranont等[9]提出了一種基于實(shí)例的字體自動生成算法,可以從用戶自定義的實(shí)例中自動生成新字體;然而,這種方法只注重字體的幾何特征,忽略了字體形變等因素,生成的字體容易出現(xiàn)扭曲。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,研究人員開始采用深度學(xué)習(xí)技術(shù)來解決字體生成問題。Tenenbaum等[10]提出了雙線性分解(bilinear factorization),可以將內(nèi)容與風(fēng)格特征進(jìn)行分割并應(yīng)用于字體生成。Phan等[4]提出了概率統(tǒng)計(jì)(statistical models)的方法,將少量的字體集生成一套完整的字體。Baluja[11]在一小組字符上成功地使用深度學(xué)習(xí)模型來區(qū)分字體,并生成了相同風(fēng)格的字符。Bernhardsson[12]以公開收集的5萬字體作為訓(xùn)練集,通過調(diào)整隱變量(latent variable)的參數(shù)來產(chǎn)生不同的字體;但是,這種通過少量樣本生成的結(jié)果存在很大的誤差,例如在生成字體時(shí)遺漏了“Q”的尾部。Azadi等[13]提出了leave-one-out的訓(xùn)練方法,可以通過少量字符生成其他字符;但該方法生成的字體更加關(guān)注整體字體風(fēng)格,對于文字內(nèi)部顏色特征關(guān)注較少。Bu?ta等[14]提出了采用端到端的方式,將少量已有藝術(shù)字符通過 GAN生成相同風(fēng)格的其他字符。
實(shí)景圖像文字編輯是基于小樣本風(fēng)格遷移的圖像文字生成技術(shù),其實(shí)現(xiàn)的準(zhǔn)確性不僅要求目標(biāo)文字與源文字間風(fēng)格相同,同時(shí)要求修改后圖像與原圖像的視覺一致性。因此,如何總結(jié)改進(jìn)現(xiàn)有的相關(guān)工作,并實(shí)現(xiàn)圖像文字編輯,是當(dāng)前的研究難點(diǎn)。目前有關(guān)圖像文字編輯的研究工作相對較少。Project Naptha[15]是一款基于光學(xué)字符識別(Optical Character Recognition, OCR)的在線圖像文字識別、提取、翻譯、編輯、擦除的chrome插件;但其編輯功能,只是簡單地進(jìn)行圖像文字識別和擦除后,與目標(biāo)文字替換,無法保證與原圖像風(fēng)格一致。吳亮[16]提出了通過設(shè)計(jì)前景文字遷移網(wǎng)絡(luò)、背景擦除網(wǎng)絡(luò)和前景背景融合網(wǎng)絡(luò)這三個網(wǎng)絡(luò)來實(shí)現(xiàn)實(shí)景圖像文字編輯工作,但是在編輯過程中每一個網(wǎng)絡(luò)出現(xiàn)的差錯都會在下一個網(wǎng)絡(luò)中累積,消耗成本較高。Roy等[17]首次提出了基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[18]的文字生成網(wǎng)絡(luò)FANnet(Font Adaptive Neural network),實(shí)現(xiàn)了基于字體自適應(yīng)神經(jīng)網(wǎng)絡(luò)的場景文本編輯器(Scene Text Editor using Font Adaptive Neural Network, STEFANN)模型;由于其在源文字提取階段無法很好地識別字體結(jié)構(gòu)或顏色特征復(fù)雜的實(shí)景圖像字符,因此FANnet準(zhǔn)確率不高,無法很好地實(shí)現(xiàn)圖像字符編輯工作。
綜上,為了滿足對圖像字符的直接編輯、修改需求,本文提出了一種改進(jìn)文字生成網(wǎng)絡(luò)FANnet的圖像字符編輯方法。該方法采用基于CNN[18]的文字生成網(wǎng)絡(luò)FANnet為基本網(wǎng)絡(luò)框架,可以避免GANs方法[19]中需要對圖像中文本字符事先進(jìn)行精確檢測識別的步驟。CNN在對具有復(fù)雜視覺特征的圖像進(jìn)行風(fēng)格遷移和結(jié)構(gòu)生成等方面有著廣泛的應(yīng)用[20];不同于GANs,CNN不需事先判定圖像中的文字內(nèi)容,目標(biāo)字符生成的正確性主要取決于網(wǎng)絡(luò)輸入的源字符是否能夠被準(zhǔn)確分割。為解決由于圖像源字符過分割或欠分割造成的FANnet生成字符不精準(zhǔn)的問題,提出了基于直方圖對比度(Histogram Contrast, HC)的顯著性檢測算法的自適應(yīng)字符分割模型,對其進(jìn)行改進(jìn);該模型中,通過最大穩(wěn)定極值區(qū)域(Maximally Stable Extremal Regions, MSER)[21]對圖像文本區(qū)域進(jìn)行檢測,并根據(jù)實(shí)景圖像的特點(diǎn),自適應(yīng)地從閾值分割與HC顯著性檢測算法中選擇碼本。同時(shí),為了保證修改后的圖像與原圖像具有一致的視覺平滑性,本文還提出了一種局部顏色分布(Colors Distribute-based Local, CDL)遷移模型,保證目標(biāo)文字與源文字具有相同的顏色特征;該顏色遷移模型不僅可以應(yīng)用于純色字體,對于具有漸變色或復(fù)雜顏色的字符顏色遷移也具有較好的效果。最后,在MSRA-TD500、COCO-Text和ICDAR數(shù)據(jù)集上,驗(yàn)證了本文方法相較于當(dāng)前圖像字符編輯生成相關(guān)先進(jìn)算法STEFANN、多模態(tài)小樣本字體遷移模型MC-GAN(Multi-Content GAN)具有更好的字體風(fēng)格一致效果。
本文的主要工作包括以下幾方面:
1)設(shè)計(jì)了一種改進(jìn)FANnet的圖像字符編輯模型,其字符編輯效果與原圖像保持了高度視覺一致性。
2)提出了一種基于HC顯著性檢測的改進(jìn)自適應(yīng)字符檢測(Character Adaptive Detection, CAD)模型,可以根據(jù)源字符圖像幾何結(jié)構(gòu)特征自適應(yīng)地從HC顯著性檢測算法與閾值分割算法中選擇碼本。
3)提出了一種CDL遷移模型。該模型通過顏色復(fù)雜度判別算法設(shè)定閾值將源字符顏色分類,自適應(yīng)選擇基于最大值的純色遷移算法與基于雙線性插值的復(fù)合色遷移算法,保證了目標(biāo)字符與源字符顏色特征的一致性。
本文所提圖像字符編輯方法的工作流程如圖1所示。
圖1 本文圖像字符編輯方法的工作流程
為避免相似顏色被量化產(chǎn)生不同顯著值導(dǎo)致產(chǎn)生噪聲,使用平滑操作將相似顏色的顯著值進(jìn)行加權(quán)平均成為一個顏色集:
為此,提出了自適應(yīng)目標(biāo)判別模型:
圖2 自適應(yīng)字符檢測算法流程
圖3 FANnet結(jié)構(gòu)
當(dāng)源字符被判定為純色時(shí),僅對目標(biāo)字符進(jìn)行純色遷移,局部顏色遷移模型流程如圖4所示。
圖4 局部顏色分布遷移模型流程
實(shí)驗(yàn)平臺的硬件環(huán)境為:CPU為Intel 酷睿i7 7700HQ 2.8 GHz;內(nèi)存為DDR4 16 GB;顯卡為NVIDIA Quadro M1200 (顯存4 GB)。實(shí)驗(yàn)平臺的軟件環(huán)境為:操作系統(tǒng)為Ubuntu release 20.04;深度學(xué)習(xí)環(huán)境為TensorFlow-gpu 1.14.0;數(shù)據(jù)可視化工具為Matplotlib 2.2.0;編程語言為Python 3。
本文實(shí)驗(yàn)分為四部分:1)對源字符提取模型進(jìn)行性能分析。2)對改進(jìn)FANnet與原FANnet進(jìn)行性能分析及實(shí)驗(yàn)結(jié)果對比。3)根據(jù)純色圖像文字以及復(fù)雜色圖像文字的顏色特點(diǎn),分別展示局部顏色遷移模型在實(shí)際場景應(yīng)用中具有一定的普適性和準(zhǔn)確性。4)相關(guān)方法實(shí)驗(yàn)對比分析。對比實(shí)驗(yàn)中,由于當(dāng)前針對小樣本圖像文字生成算法,以及圖像文字顏色結(jié)構(gòu)特點(diǎn)的局部顏色遷移算法較少,因此為充分驗(yàn)證本文方法的實(shí)用性和準(zhǔn)確性,在實(shí)驗(yàn)設(shè)計(jì)中分別對圖像字符生成步驟、圖像文字顏色遷移步驟、以及整體實(shí)驗(yàn)結(jié)果進(jìn)行實(shí)驗(yàn)對比。
為解決由于圖像源字符分割誤差造成的FANnet生成字符不精準(zhǔn)的問題,提出了基于HC顯著性檢測算法的自適應(yīng)字符分割模型,并對其進(jìn)行改進(jìn)。FANnet[17]是基于卷積神經(jīng)網(wǎng)絡(luò)的圖像文字生成網(wǎng)絡(luò),具有結(jié)構(gòu)簡單、所需樣本信息少的特點(diǎn),且可以有效避開圖像預(yù)處理中對圖像文字識別的步驟,從而提高了生成文字的準(zhǔn)確性。在FANnet中,生成文字圖像的準(zhǔn)確性與源字符提取二值圖的準(zhǔn)確性成正相關(guān)。傳統(tǒng)的閾值分割法采用固定閾值,加上不同因素的影響,會導(dǎo)致分割出來的源字符圖像輪廓不佳、欠分割或過分割等情況,例如圖像整體亮度過大或過小、源字符內(nèi)部顏色特征復(fù)雜而背景紋理相對簡單、背景顏色亮度大于字符顏色亮度等。同時(shí)閾值分割法往往需要用戶交互不斷調(diào)整閾值來保證源字符提取效果,而在自然場景圖像中確定區(qū)域的文字部分通常符合背景紋理簡單且文字顏色突出的特點(diǎn)。為彌補(bǔ)這一缺陷,在源文字提取階段采用基于HC的目標(biāo)顯著性檢測算法對確定區(qū)域中的文字部分進(jìn)行目標(biāo)分割。HC目標(biāo)顯著性檢測算法[23]主要依據(jù)像素間的色彩差異來分配像素的顯著值,在效果上具有速度快、細(xì)節(jié)精確、邊界清晰的特點(diǎn)。
本文對1 000張自然場景下含有文本的圖像進(jìn)行文字區(qū)域確定和HC目標(biāo)顯著性檢測,其正確率達(dá)87.4%。因此,HC算法對于大多數(shù)自然場景下的文字圖像具有較好的準(zhǔn)確性。對于中文語言環(huán)境下的英文字符,因?yàn)槠湓趫D像中所占比例或所占像素較少,當(dāng)一次性修改多個字符時(shí),HC算法無法精準(zhǔn)地將每個源字符與背景信息分開,此時(shí)通過自定義閾值的分割方法性能更優(yōu)。本文在源字符提取階段將HC目標(biāo)顯著性檢測算法與自定義閾值法相結(jié)合,并設(shè)定條件使源字符提取模型可以自適應(yīng)地選擇HC目標(biāo)顯著性檢測算法或閾值分割算法的結(jié)果作為碼本,在提高了源字符提取準(zhǔn)確性的同時(shí),減少了用戶交互操作。本文源字符自適應(yīng)提取模型的典型結(jié)果如圖5所示。
圖5 源字符自適應(yīng)提取模型典型結(jié)果
圖5中,源圖像字符分割任務(wù)需要考慮由于亮度、對比度、陰影、透視形變和背景復(fù)雜度等因素造成的影響。因此,在實(shí)驗(yàn)過程中針對以上幾方面因素,對HC顯著性檢測算法及閾值分割算法的性能分別進(jìn)行討論,分析出的結(jié)論如下:1)當(dāng)受到亮度影響時(shí),如背景亮度大于源字符內(nèi)部顏色亮度(如圖5(a)~(d)中第2列和第4列所示),以及源字符具有復(fù)雜顏色紋理特征時(shí)(如圖5(a)~(d)中第8列和第15列所示),由于HC顯著性檢測算法受亮度影響小且主要提取原理為圖像顏色對比度,因此,與傳統(tǒng)的閾值分割法相比,HC顯著性檢測算法往往能夠更加準(zhǔn)確地提取出源文字字符的幾何結(jié)構(gòu)特征。2)HC顯著性檢測算法為避免結(jié)果圖像顏色塊狀化,將相似顏色統(tǒng)一為顏色集并賦予相同顯著值。因此,當(dāng)編輯區(qū)域內(nèi)有多個連通分量,且文字字符尺寸較小或所占像素點(diǎn)較少時(shí),尤其是針對中文語言環(huán)境下的英文注釋(如圖5(a)~(d)中第7列、第12列和第14列所示),以及實(shí)際生活場景中字符相較于背景亮度過高(如圖5(a)~(d)中第10列所示),HC顯著性檢測算法會導(dǎo)致結(jié)果圖像出現(xiàn)過分割的情況,以至于無法識別編輯區(qū)域內(nèi)不同的連通分量。此時(shí)通過用戶交互,傳統(tǒng)的閾值分割法反而可以更好地提取出編輯區(qū)域內(nèi)的每一個連通分量。3)當(dāng)字符內(nèi)部顏色簡單,且與背景顏色相差較大時(shí)(如圖5(a)~(d)中第1列、第3列、第5列、第6列和第9列所示),HC顯著性檢測算法和閾值分割法效果相似。
最后,通過碼本判別機(jī)制從HC顯著性檢測算法與閾值分割HC顯著性檢測算法分別計(jì)算出的碼本中擇優(yōu)選擇,并融合MSER算法計(jì)算出的碼本得到最終的源字符提取圖。當(dāng)出現(xiàn)由于欠分割導(dǎo)致的碼本判別錯誤時(shí),只需用戶通過鍵盤輸入適當(dāng)調(diào)整閾值分割法中的閾值即可進(jìn)行碼本的重計(jì)算和判別機(jī)制的重判斷。在實(shí)驗(yàn)過程中,通過對COCO-Text數(shù)據(jù)集中選取863張包含自然場景下室內(nèi)、室外英文字符的圖像進(jìn)行字符提取實(shí)驗(yàn),由于HC顯著性檢測算法和閾值分割算法可以優(yōu)缺點(diǎn)互補(bǔ),其成功率可達(dá)88.6%。
2)目標(biāo)字符生成結(jié)果評估。FANnet可以實(shí)現(xiàn)通過一個特定的源字符生成與其幾何特征相同的任意目標(biāo)字符。實(shí)驗(yàn)中,在數(shù)據(jù)集中隨機(jī)選擇300個不同字體的字符“A”作為源字符,生成26個與“A”相同結(jié)構(gòu)特征的目標(biāo)字符。通過結(jié)構(gòu)相似性(Structural SIMilarity, SSIM)算法計(jì)算每個生成字符與其真值圖的相似度分?jǐn)?shù),并計(jì)算相同字符的平均SSIM值[27]。SSIM是一種衡量兩幅圖像相似度的指標(biāo),用均值進(jìn)行亮度的估計(jì),用標(biāo)準(zhǔn)差進(jìn)行對比度的估計(jì),用協(xié)方差進(jìn)行結(jié)構(gòu)相似程度的度量。
單通道的平均SSIM分?jǐn)?shù)值如圖6所示。
圖6 FANnet與CAD FANnet生成字符圖像的灰度平均SSIM值
從圖6中可以看出,與自定義閾值分割結(jié)果作為FANnet的輸入相比,通過源字符目標(biāo)檢測模型自適應(yīng)擇優(yōu)選取后的源字符二值圖使生成字符的SSIM分值平均上升0.1,表明基于HC顯著性檢測的改進(jìn)自適應(yīng)目標(biāo)檢測模型有助于提高準(zhǔn)確性。在生成結(jié)果中,字符“I”生成結(jié)果相對較好,這是因?yàn)樽址癐”本身結(jié)構(gòu)簡單,幾何特征不明顯,而字符“M”和“W”生成效果相對較差,究其原因是在測試集生成過程中字符“M”和“W”為保持與源字符質(zhì)心相同導(dǎo)致整體字符尺寸較大,真值圖中為保持視覺一致性將字符“M”和“W”相對縮小。實(shí)驗(yàn)結(jié)果顯示,本文方法所得生成字符平均SSIM值可達(dá)0.730 8,而原FANnet為0.605 8。
FANnet與CAD FANnet生成字符的部分結(jié)果對比如圖7所示。在圖7中,隨機(jī)從數(shù)據(jù)集中選取了三種字體的大寫字符集,每一組實(shí)驗(yàn)中,分別將經(jīng)典閾值分割算法和自適應(yīng)源字符目標(biāo)檢測模型提取后的源字符掩碼作為FANnet網(wǎng)絡(luò)的輸入,并將生成結(jié)果與真值圖進(jìn)行對比。實(shí)驗(yàn)結(jié)果表明,通過自適應(yīng)源字符目標(biāo)檢測模型提取后的源字符,可以更大程度保留源字符的結(jié)構(gòu)特征,使生成結(jié)果更加準(zhǔn)確。
圖7 FANnet與CAD FANnet生成字符結(jié)果對比
本文所提出的基于顏色復(fù)雜度判別的顏色遷移算法,主要是針對圖像字符內(nèi)部顏色特征的遷移模型,可以很好地將源字符內(nèi)部顏色特征遷移至與其幾何結(jié)構(gòu)不一致的目標(biāo)字符二值圖中,然后利用顏色復(fù)雜度判別機(jī)制將源字符顏色特征分為純色圖和漸變色圖,并根據(jù)分類結(jié)果分別進(jìn)行相應(yīng)顏色遷移。部分顏色遷移結(jié)果如圖8所示。
圖8 基于局部顏色分布遷移模型的部分結(jié)果
該實(shí)驗(yàn)中,通過人工標(biāo)記的方式將1 000張圖像分為純色圖與漸變色圖。然后,對其進(jìn)行區(qū)間為[0.1,0.9]、步數(shù)為0.01的閾值計(jì)算。實(shí)驗(yàn)結(jié)果表明,當(dāng)閾值在區(qū)間[0.25,0.30]時(shí)正確率最高。針對尺寸小、所占像素點(diǎn)少的字符可以適當(dāng)減小閾值,針對色差小、沒有明顯顏色差別的漸變色可以適當(dāng)提高閾值。
針對復(fù)雜色字符圖像,本文方法既能對具有漸變顏色的字符圖像進(jìn)行顏色遷移,又能對具有明顯紋理特征的字符圖像進(jìn)行顏色遷移,可以最大限度保留源字符內(nèi)部紋理特征,如圖10所示。另外,針對純色圖像,本文方法還可以很好地進(jìn)行邊緣去噪,提取并遷移主要顏色特征,使目標(biāo)字符與源字符保持視覺一致性。
圖9 不同下圖像字符顏色判斷正確率
圖10 含有漸變顏色和復(fù)雜紋理的字符圖像顏色遷移效果
為更好地展示本文模型的優(yōu)越性,分別對圖像字符生成步驟、圖像字符顏色遷移步驟,以及整體圖像字符編輯結(jié)果進(jìn)行對比。
1)圖像字符生成對比實(shí)驗(yàn)。MC-GAN方法[15]主要采用端到端的方案,通過同一類型少量英文字符的輸入,生成與其類型相同的其余字符。FANnet可以通過輸入一張?jiān)醋址祱D,生成與其相同幾何結(jié)構(gòu)特征的任一字符,其生成字符的準(zhǔn)確性主要取決于源字符二值圖是否提取準(zhǔn)確。因此,進(jìn)行MC-GAN、FANnet與CAD FANnet的對比,實(shí)驗(yàn)結(jié)果如圖11所示。
圖11 生成字符結(jié)果對比
實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)輸入源字符個數(shù)為1時(shí),本文方法生成的目標(biāo)圖像字符結(jié)構(gòu)相較MC-GAN方法更貼近真值圖,如圖11(b)所示,其中,輸入字符均為“A”。然而,隨著MC-GAN方法中輸入源字符數(shù)量的增加,其在目標(biāo)字符邊界形狀以及字符幾何結(jié)構(gòu)生成結(jié)果上要略優(yōu)于CAD FANnet,如圖11(a)所示,其中FANnet與本文方法輸入源字符均為“A”,MC-GAN輸入字符由矩形框標(biāo)出。
2)圖像字符顏色遷移對比實(shí)驗(yàn)。目前,沒有專門的顏色字符顯著圖數(shù)據(jù)庫。因此,通過選取谷歌字體數(shù)據(jù)集中100種不同字體圖像,二值化后與不同顏色碼本做矩陣元素點(diǎn)乘,得到顏色字符數(shù)據(jù)集:包含624張純色圖和1 976張漸變色圖。目前已有的局部顏色遷移方法主要針對源色彩圖像向目標(biāo)灰度圖像的遷移,而對于色彩圖像向二值圖遷移有效的方法較少。將本文的自適應(yīng)局部顏色遷移方法和Colornet方法進(jìn)行對比實(shí)驗(yàn)。Colornet為Roy等[17]提出的二值圖像顏色生成網(wǎng)絡(luò),選取不同字體和顏色特征字符圖“A”和與其同字體的目標(biāo)二值字符圖作為本文方法和Colornet方法的輸入。部分對比結(jié)果如圖12所示,由圖12可以看出,相較于Colornet方法,本文方法直接在原圖像素點(diǎn)上進(jìn)行操作,避免了顏色生成步驟。因此,在視覺上本文方法更符合原圖像顏色特征,而Colornet方法生成的顏色偏暗或含有明顯顏色噪聲,從而導(dǎo)致字符幾何結(jié)構(gòu)發(fā)生改變。
圖12 顏色遷移結(jié)果對比
基于這些結(jié)果圖,通過計(jì)算其與真值圖在RGB通道內(nèi)的結(jié)構(gòu)相似性指數(shù)進(jìn)行評價(jià),得到具有顏色特征的平均SSIM(Color Average SSIM, CASSIM)曲線,如圖13所示。
圖13 基于RGB的CASSIM
圖13中,本文方法的顏色平均SSIM分?jǐn)?shù)值可達(dá)到0.835 7,而Colornet方法為0.774 7。當(dāng)源字符圖像為漸變色圖時(shí),本文方法主要通過基于雙線性差值的方式獲得顏色碼本后對目標(biāo)字符進(jìn)行顏色遷移。因此,當(dāng)字符為“I”“J”“L”時(shí),由于其字符尺寸在顏色碼本中所占比例相較其他字符較小,無法從中獲得足夠的顏色特征,從而導(dǎo)致SSIM分?jǐn)?shù)偏低。
3)整體圖像字符編輯對比實(shí)驗(yàn)。本文模型與STEFANN字符編輯模型[17]的對比結(jié)果如圖14所示。圖14中,均將字符“A”作為源字符輸入,分別將本文方法和STEFANN字符編輯方法結(jié)果與真值圖對比。由于STEFANN字符編輯模型主要取決于源字符提取的準(zhǔn)確性,當(dāng)其源字符在提取過程中出現(xiàn)差錯時(shí)將直接影響目標(biāo)字符的幾何結(jié)構(gòu)和尺寸大小。本文基于HC顯著性檢測算法的自適應(yīng)字符分割模型,很好地解決了由于源圖像字符分割誤差而造成的目標(biāo)圖像字符生成不準(zhǔn)確的問題。另外,本文模型在字符編輯過程中避免了文字字符檢測步驟和顏色生成步驟,這樣不僅可以減少由文字字符識別出現(xiàn)的錯誤,還提高了文字編輯速度。
圖14 含有顏色特征的字符生成結(jié)果對比
本文方法主要針對實(shí)際場景中圖像文字的字符編輯。由于實(shí)景圖往往缺乏目標(biāo)圖像的真值圖,對整幅圖像進(jìn)行客觀的定量指標(biāo)衡量非常困難,故采用單獨(dú)目標(biāo)圖像字符定量分析法進(jìn)行客觀的模型對比。實(shí)驗(yàn)主要分3個步驟:1)提取圖像中所有源字符反白圖;2)分別采用MC-GAN算法、基于字體自適應(yīng)神經(jīng)網(wǎng)絡(luò)的場景文本編輯器(STEFANN)算法和本文算法生成目標(biāo)字符反白圖;3)將目標(biāo)字符反白圖與源字符反白圖進(jìn)行相關(guān)定量分析。步驟2)中,所得目標(biāo)反白圖分別與圖像中所含源字符反白圖語義相同。步驟3)中,使進(jìn)行定量分析的目標(biāo)字符與源字符反白圖具有相同語義信息,即將此源字符圖像作為真值圖,以得到相關(guān)定量指數(shù)。典型的實(shí)驗(yàn)結(jié)果如圖15所示。
為更加客觀地對比模型的優(yōu)劣,通過歸一化均方根誤差(Normalized Root Mean Square Error, NRMSE)、峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)和在RGB通道內(nèi)的平均結(jié)構(gòu)相似性(ASSIMRGB)指標(biāo)進(jìn)行評價(jià)。
圖15 真實(shí)場景下目標(biāo)圖像字符對比
NRMSE主要通過計(jì)算目標(biāo)圖像與原圖像之間像素值的偏差平均值來客觀地評價(jià)兩者之間的區(qū)別,其值越小表示兩圖像之間的差距越小,如式(18)~(19)所示:
PSNR用于衡量圖像有效信息和噪聲之間的比率,是評價(jià)圖像質(zhì)量的測量指標(biāo),其值越大表明兩圖像之間的誤差越小,如式(20)所示:
ASSIMRGB是一種用衡量RGB顏色空間圖像的相似度指標(biāo),分別計(jì)算圖像RGB顏色空間中的3個不同SSIM值,取其平均來衡量兩幅圖像的相似度,如式(21)~(22)所示:
其中:
在定量指標(biāo)計(jì)算過程中,共在MSRA-TD500、COCO-Text和ICDAR數(shù)據(jù)集中選擇含有文字信息的圖像43幅,從每幅圖像中選擇1~10個字符進(jìn)行定量指數(shù)計(jì)算。每個輸入源字符生成除自身外、與其余源字符相同語義的目標(biāo)字符圖像,共得約8 500對字符圖像。最后,對計(jì)算結(jié)果進(jìn)行排序,取中值作為最終定量評價(jià)指標(biāo)。當(dāng)輸入字符數(shù)為1時(shí),輸入字符相同。
定量評價(jià)指標(biāo)結(jié)果如表1所示。從表1可以看出,NRMSE值相對降低,而PSNR、ASSIMRGB相對提高,均表明相較于MC-GAN和STEFANN方法,本文方法可以明顯提高目標(biāo)字符在幾何結(jié)構(gòu)上生成的準(zhǔn)確性。
表1 不同方法定量評價(jià)指標(biāo)結(jié)果
本文模型主要針對實(shí)景圖像中文本文字進(jìn)行編輯修改,相較于當(dāng)前傳統(tǒng)圖像字符生成算法[3-4,6-7]具有一定的優(yōu)越性,與STEFANN字符編輯方法和Project Naptha方法[15]進(jìn)行的對比實(shí)驗(yàn)結(jié)果如圖16所示。
圖16 實(shí)景圖像字符編輯結(jié)果對比
圖16中,在原圖像中用矩形框標(biāo)注編輯字符。實(shí)驗(yàn)發(fā)現(xiàn),Project Naptha方法在OCR[28]識別圖像文字成功的基礎(chǔ)上才可以進(jìn)行字符編輯,否則會出現(xiàn)亂碼、無法修改等情況,如圖16第10列所示,其圖像修復(fù)結(jié)果同樣影響字符的編輯,如圖16第7列、第8列、第9列所示。其次,Project Naptha方法在進(jìn)行文字修改時(shí)無法指定字符修改,導(dǎo)致運(yùn)行成本增加且修改效果下降,如圖16第1~4和7列所示。另外,Project Naptha方法無法生成與原圖像文本字符相同字體的文字,導(dǎo)致編輯后圖像視覺效果與原圖相差較大,如圖16第4列、第6列所示。對于STEFANN字符編輯方法,進(jìn)行編輯時(shí)需要大量人工交互操作來提取源文字。源文字提取和顏色生成步驟的錯誤將直接影響生成字符的幾何結(jié)構(gòu)和顏色特征,如圖16(b)所示。
本文方法通過對源文字提取技術(shù)的改進(jìn),極大提高了FANnet生成網(wǎng)絡(luò)的準(zhǔn)確性,在后續(xù)顏色遷移步驟中改進(jìn)了單一的像素點(diǎn)放大,并采用自適應(yīng)純色和漸變色的顏色遷移方法。在實(shí)景圖中,不論純色圖還是漸變色圖或是具有簡單紋理特征的文字圖像均能產(chǎn)生較好的效果,使最終結(jié)果圖更加逼真,如圖16(c)所示。
為驗(yàn)證本文方法的實(shí)際應(yīng)用能力,將本文方法應(yīng)用于實(shí)際生活圖像。驗(yàn)證數(shù)據(jù)通過相機(jī)拍攝、百度下載等渠道獲取,部分實(shí)驗(yàn)結(jié)果如圖17所示。其中,修改字符通過矩形框標(biāo)注,當(dāng)圖列為上下時(shí),上方為原圖,下方為編輯后圖像;當(dāng)圖列為左右時(shí),左方為原圖,右方為編輯后圖像。在實(shí)際場景圖像和電子設(shè)計(jì)圖像中,所含有的字符信息往往是有限的,本文方法可以從有限的字符結(jié)構(gòu)及顏色中提取特征并遷移到目標(biāo)字符。因此對于多數(shù)含有文本字符的自然場景圖像和電子圖像,本文方法都可以很好地進(jìn)行文字編輯,保證與原圖像高度視覺一致。對于一些挑戰(zhàn)性較強(qiáng)的圖像,如中文字符環(huán)境下英文或拼音字符尺寸較?。▓D17中字符“K”改為“G”)、字體邊界顏色模糊(圖17中字符“LU”改為“RD”),因拍攝角度導(dǎo)致的字體形狀不規(guī)則(圖17中字符“AHEAD”改為“THERE”)、光線過亮(圖17中字符“P”改為“T”)或過暗(圖17中字符“SH”改為“LL”),字符內(nèi)部顏色紋理復(fù)雜(圖17中字符“S”改為“B”)等,本文方法均有較好的編輯效果。
圖17 不同真實(shí)場景圖像應(yīng)用圖像字符編輯方法結(jié)果
本文主要研究在自然環(huán)境下對文本文字圖像進(jìn)行字符級別的文字編輯工作,字符編輯在圖像文本糾錯、重存儲和圖像重利用等方面具有廣泛的應(yīng)用。本文設(shè)計(jì)了基于字符級的實(shí)景圖像文字編輯模型,可以在圖像編輯過程中編輯單個或同時(shí)編輯多個字符文字,不僅保證了編輯效果,同時(shí)減小了運(yùn)行成本。文字生成步驟中采用了基于CNN的FANnet,避免了一般GAN網(wǎng)絡(luò)中對文字的檢測步驟,同時(shí)通過本文提出的基于HC顯著性檢測的改進(jìn)自適應(yīng)目標(biāo)檢測模型對FANnet進(jìn)行了改進(jìn),提高了生成目標(biāo)字符的準(zhǔn)確性。在顏色遷移步驟中,有針對性地對源字符顏色特征進(jìn)行提取,并通過顏色復(fù)雜度判別機(jī)制來減少顏色噪聲的生成與遷移。最后,在MSRA-TD500、COCO-Text、ICDAR數(shù)據(jù)集和百度下載、相機(jī)拍攝的圖像上進(jìn)行字符編輯操作,結(jié)果表明本文模型在視覺感受和相關(guān)評價(jià)指標(biāo)(SSIM、NRMSE、PSNR上分別達(dá)到0.776 5、0.435 8和18.321 1 dB)上相較其他先進(jìn)算法STEFANN、MC-GAN有明顯優(yōu)勢。
由于字體數(shù)據(jù)集的限制,本文在訓(xùn)練FANnet的過程中采用的字體訓(xùn)練集較少含有夸張藝術(shù)風(fēng)格的字體,因此當(dāng)文字圖像含有復(fù)雜藝術(shù)風(fēng)格時(shí)往往無法較好地生成目標(biāo)字符。其次,本文所提出的顏色遷移模型是生成顏色碼本后將顏色特征遷移至目標(biāo)字符二值圖中。因此當(dāng)目標(biāo)字符的幾何結(jié)構(gòu)較為簡單時(shí),如“I”“J”等,無法很好地從顏色碼本中提取出足夠的顏色特征。最后,由于FANnet主要針對英文字符進(jìn)行訓(xùn)練和生成,對中文字符的生成效果有限。因此,如何從有限的中文字符中提取特征并生成目標(biāo)字符、如何解決由于漢字?jǐn)?shù)量龐大造成的訓(xùn)練困難和在顏色遷移步驟中如何更好地保留源圖像的顏色風(fēng)格是接下來的研究重點(diǎn)。
[1] 范一華,鄧德祥,顏佳.基于色彩空間的最大穩(wěn)定極值區(qū)域的自然場景文本檢測[J].計(jì)算機(jī)應(yīng)用,2018,38(1):264-269,294.(FAN Y H, DENG D X, YAN J. Natural scene text detection based on maximally stable extremal region in color space [J]. Journal of Computer Applications, 2018, 38(1): 264-269, 294.)
[2] 張礦,朱遠(yuǎn)平.基于超像素融合的文本分割[J].計(jì)算機(jī)應(yīng)用,2016,36(12):3418-3422.(ZHANG K, ZHU Y P. Text segmentation based on superpixel fusion [J]. Journal of Computer Applications, 2016, 36(12): 3418-3422.)
[3] CAMPBELL N D F, KAUTZ J. Learning a manifold of fonts [J]. ACM Transactions on Graphics, 2014, 33(4): Article No.91.
[4] PHAN H Q, FU H, CHAN A B. FlexyFont: learning transferring rules for flexible typeface synthesis [J]. Computer Graphics Forum, 2015, 34(7): 245-256.
[5] LIAO J, YAO Y, YUAN L, et al. Visual attribute transfer through deep image analogy [J]. ACM Transactions on Graphics, 2017, 36(4): Article No.120.
[6] GATYS L A, ECKER A S, BETHGE M. Image style transfer using convolutional neural networks [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 2414-2423.
[7] LYU P Y, BAI X, YAO C, et al. Auto-encoder guided GAN for Chinese calligraphy synthesis [C]// Proceedings of the 2017 14th IAPR International Conference on Document Analysis and Recognition. Piscataway: IEEE, 2017: 1095-1100.
[8] SHAMIR A, RAPPOPORT A. Feature-based design of fonts using constraints [C]// Proceedings of the 1998 International Conference on Raster Imaging and Digital Typography, LNCS 1375. Berlin: Springer, 1998: 93-108.
[9] SUVEERANONT R, IGARASHI T. Example-based automatic font generation [C]// Proceedings of the 2010 International Symposium on Smart Graphics, LNCS 6133. Berlin: Springer, 2010: 127-138.
[10] TENENBAUM J B, FREEMAN W T. Separating style and content with bilinear models [J]. Neural Computation, 2000, 12(6): 1247-1283.
[11] BALUJA S. Learning typographic style: from discrimination to synthesis [J]. Machine Vision and Applications, 2017, 28(5/6): 551-568.
[12] BERNHARDSSON E. Analyzing 50k fonts using deep neural networks [EB/OL]. [2021-03-03]. https://erikbern.com/2016/01/21/analyzing-50k-fonts-using-deep-neural-networks.html.
[13] AZADI S, FISHER M, KIM V, et al. Multi-content GAN for few-shot font style transfer [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7564-7573.
[14] BU?TA M, NEUMANN L, MATAS J. Deep TextSpotter: an end-to-end trainable scene text localization and recognition framework [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2223-2231.
[15] KEVIN K. Project Naptha [EB/OL]. [2021-03-03]. https://projectnaptha.com/.
[16] 吳亮.基于GAN的文字編輯技術(shù)的研究[D].武漢:華中科技大學(xué),2019:7-17.(WU L. Research on text editing technology based on GAN [D]. Wuhan: Huazhong University of Science and Technology, 2019: 7-17.)
[17] ROY P, BHATTACHARYA S, GHOSH S, et al. STEFANN: scene text editor using font adaptive neural network [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 13225-13234.
[18] EGMONT-PETERSEN M, DE RIDDER D, HANDELS H. Image processing with neural networks — a review [J]. Pattern recognition, 2002, 35(10): 2279-2301.
[19] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets [C]// Proceedings of the 2014 27th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2014: 2672-2680.
[20] DOSOVITSKIY A, SPRINGENBERG J T, TATARCHENKO M, et al. Learning to generate chairs, tables and cars with convolutional networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 692-705.
[21] CHEN H Z, TSAI S S, SCHROTH G, et al. Robust text detection in natural images with edge-enhanced maximally stable extremal regions [C]// Proceedings of the 2011 18th IEEE International Conference on Image Processing. Piscataway: IEEE, 2011: 2609-2612.
[22] CHENG M M, MITRA N J, HUANG X L, et al. Global contrast based salient region detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 569-582.
[23] OTSU N. A threshold selection method from gray-level histograms [J]. IEEE Transactions on Systems, Man, and Cybernetics, 1979, 9(1): 62-66.
[24] KARATZAS D, SHAFAIT F, UCHIDA S, et al. ICDAR 2013 robust reading competition [C]// Proceedings of the 2013 12th International Conference on Document Analysis and Recognition. Piscataway: IEEE, 2013: 1484-1493.
[25] Google Inc. Google fonts [EB/OL]. [2021-03-03]. https://fonts.google.com/.
[26] KINGMA D P, BA J L. Adam: a method for stochastic optimization [EB/OL]. [2021-03-03]. https: //arxiv.org/pdf/1412. 6980.pdf.
[27] WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity [J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
[28] SMITH R. An overview of the tesseract OCR engine [C]// Proceedings of the 2007 9th International Conference on Document Analysis and Recognition. Piscataway: IEEE, 2007: 629-633.
LIU Shangwang, born in 1973, Ph. D., associate professor. His research interests include image processing, computer vision.
ZHANG Xinming, born in 1963, M. S., professor. His research interests include intelligent optimization algorithm, image segmentation.
ZHANG Fei, born in 1987, Ph. D., lecturer. Her research interests include machine learning, adversarial learning.
Image character editing method based on improved font adaptive neural network
LIU Shangwang1,2*, ZHANG Xinming1,2, ZHANG Fei1,2
(1,,453007,;2(),453007,)
In current international society, as the international language, English characters appear in many public occasions, as well as the Chinese pinyin characters in Chinese environment. When these characters appear in the image, especially in the image with complex style, it is difficult to edit and modify them directly. In order to solve the problems, an image character editing method based on improved character generation network named Font Adaptive Neural network (FANnet) was proposed. Firstly, the salience detection algorithm based on Histogram Contrast (HC) was used to improve the Character Adaptive Detection (CAD) model to accurately extract the image characters selected by the user. Secondly, the binary image of the target character that was almost consistent with the font of the source character was generated by using FANnet. Then, the color of source characters were transferred to target characters effectively by the proposed Colors Distribute-based Local (CDL) transfer model based on color complexity discrimination. Finally, the target editable characters that were highly consistent with the font structure and color change of the source character were generated, so as to achieve the purpose of character editing. Experimental results show that, on MSRA-TD500, COCO-Text and ICDAR datasets, the average values of Structural SIMilarity(SSIM), Peak Signal-to-Noise Ratio (PSNR) and Normalized Root Mean Square Error (NRMSE) of the proposed method are 0.776 5, 18.321 1 dB and 0.435 8 respectively, which are increased by 18.59%,14.02% and decreased by 2.97% comparing with those of Scene Text Editor using Font Adaptive Neural Network(STEFANN) algorithm respectively, and increased by 30.24%,23.92% and decreased by 4.68% comparing with those of multi-modal few-shot font style transfer model named Multi-Content GAN(MC-GAN) algorithm(with 1 input character)respectively. For the image characters with complex font structure and color gradient distribution in real scene, the editing effect of the proposed method is also good. The proposed method can be applied to image reuse, image character computer automatic error correction and image text information restorage.
Font Adaptive Neural network (FANnet); image character editing; Histogram Contrast (HC); salience detection; color transfer; font structure
This work is partially supported by Key Program of Henan Province Science and Technology Project (192102210290), Basic Research Program of Key Scientific Research Project of Higher Educations of Henan Province (21A520022).
1001-9081(2022)07-2227-12
10.11772/j.issn.1001-9081.2021050882
2021?05?27;
2021?11?24;
2021?12?21。
河南省科技攻關(guān)計(jì)劃項(xiàng)目(192102210290);河南省高等學(xué)校重點(diǎn)科研項(xiàng)目基礎(chǔ)研究計(jì)劃項(xiàng)目(21A520022)。
TP391.41; TP183
A
劉尚旺(1973—),男,河南新鄉(xiāng)人,副教授,博士,CCF會員,主要研究方向:圖像處理、計(jì)算機(jī)視覺; 張新明(1963—),男,湖北孝感人,教授,碩士,CCF會員,主要研究方向:智能優(yōu)化算法、圖像分割; 張非(1987—),女,河南南陽人,講師,博士,主要研究方向:機(jī)器學(xué)習(xí)、對抗性學(xué)習(xí)。