李農(nóng)勤,楊維信
基于生成式對抗神經(jīng)網(wǎng)絡(luò)的手寫文字圖像補全
李農(nóng)勤1,楊維信2,3
(1. 東華理工大學(xué)經(jīng)濟與管理學(xué)院,江西 南昌 330013;2.華南理工大學(xué)電子與信息學(xué)院,廣東 廣州 510641;3. 牛津大學(xué)數(shù)學(xué)研究所,牛津 OX26GG)
手寫文字圖像補全是圖像補全問題中一個重要研究分支,其難點在于圖片中具有無約束書寫風(fēng)格的文字的結(jié)構(gòu)關(guān)系補全。為了模擬實際中復(fù)雜和困難的應(yīng)用情景,在圖像補全研究工作的啟發(fā)下,針對大類別、小樣本、多風(fēng)格、未知語種等復(fù)雜情況下進(jìn)行手寫象形文字圖像補全。采用全局和局部一致性保持的生成式對抗神經(jīng)網(wǎng)絡(luò)(GLC-GAN)。在大類別多風(fēng)格的手寫文字圖像補全中,補全圖片往往因可能的補全候選很豐富而導(dǎo)致補全區(qū)域模糊不清。為此,提出兩級補全系統(tǒng):第一級粗補全模塊考慮文字結(jié)構(gòu)的完整性,第二級細(xì)補全模塊實現(xiàn)文字的清晰化、細(xì)致化。通過在大類別手寫漢字?jǐn)?shù)據(jù)庫CASIA-HWDB1.1上的實驗,驗證了該兩級系統(tǒng)的有效性,同時分析系統(tǒng)在不同書寫風(fēng)格和不同缺失區(qū)域情況下的補全效果。
生成式對抗網(wǎng)絡(luò);手寫文字;圖像補全;結(jié)構(gòu)補全;自監(jiān)督學(xué)習(xí)
圖像補全(image completion)是對圖片中缺失或受污染的部分進(jìn)行填充,使得填充后的圖片盡可能完整和逼真。圖像補全是近年來在機器學(xué)習(xí)領(lǐng)域中非常熱門的研究課題,在圖片修復(fù)、編輯或重構(gòu)等應(yīng)用中起到重要作用[1-3]。圖像補全需要注重圖片中內(nèi)容的紋理和語義結(jié)構(gòu)關(guān)系。目前較多研究針對自然場景圖片中的紋理信息的補全,補全后圖片比較逼真[1-2,4]。在對圖片內(nèi)容的結(jié)構(gòu)補全上,目前較多的研究工作在人臉圖片上展開[2,4]。通過對大量歸整后的人臉圖片進(jìn)行訓(xùn)練,人臉上缺失(故意挖空)部分能夠被補全,保持了人臉的結(jié)構(gòu)的完整性。然而,目前的大部分方法在面對具有強語義結(jié)構(gòu)關(guān)系同時又復(fù)雜多變的物體時,補全結(jié)果不佳[5]。例如文獻(xiàn)[2]最后展示了人體圖像補全時出現(xiàn)的錯誤,其中頭部像素難以合理補全。文字補全問題是圖像補全的一個分支,與自然場景中紋理信息的補全不同,文字補全重點需要解決的是結(jié)構(gòu)關(guān)系信息的補全,可以作為研究結(jié)構(gòu)信息補全的重要研究對象。文字補全除了具有重要科研意義外,還具有很高的社會應(yīng)用價值。諸如埃及象形文字、蘇美爾文、古印度文和中國甲骨文、中國古體字等象形文字,其書寫載體一般是石頭、石壁、龜甲、竹簡等。受到長期自然因素和人為因素的影響,書寫載體會有不同程度的侵蝕和破損,載體上的文字也隨之出現(xiàn)部分缺失情況,此時,文字圖像補全的工作能在一定程度上緩解這種不利影響。進(jìn)一步地,對于未破譯的象形文字,由于文本內(nèi)容無法獲取,人工的文字補全將因為不能運用文本間的語言模型而變得更加困難,此時更能體現(xiàn)無類別標(biāo)記的文字圖片自動補全研究的意義。為了研究圖片中的結(jié)構(gòu)關(guān)系的自動補全問題,輔助歷史考古應(yīng)用場景中的文字圖片分析,本文著重研究手寫文字圖像補全,簡稱手寫文字補全或文字補全。
現(xiàn)有的針對文字補全的研究[6-7]主要是在0到9的10類數(shù)字圖片上進(jìn)行的,主要利用MNIST數(shù)據(jù)集[8]或SVHN街景房屋號碼數(shù)據(jù)集[9],其每類數(shù)字均有大量的訓(xùn)練樣本,例如MNIST中每類數(shù)字有6 000個手寫數(shù)字樣本;SVHN數(shù)據(jù)集共有 73 257張訓(xùn)練圖片,其中每張圖片展示了一個或多個印刷體數(shù)字。大量的訓(xùn)練數(shù)據(jù)給深度學(xué)習(xí)模型的優(yōu)化帶來便利,使得最后數(shù)字圖像補全效果很好。然而,實際應(yīng)用中的文字圖片情況非常復(fù)雜:①常用文字的類別數(shù)遠(yuǎn)遠(yuǎn)大于10類,大類別數(shù)使得類與類之間的相似程度也大幅提升;②大類別數(shù)的數(shù)據(jù)集在采集過程中不能保證每類文字都有大量的訓(xùn)練樣本;③手寫文字與較為規(guī)整的印刷體文字相比,擁有各式各樣的書寫風(fēng)格,大大增加了補全的復(fù)雜程度。
鑒于目前針對上述復(fù)雜文字情況下的圖像補全研究的缺乏,本文的研究問題限定為大類別、小樣本、多風(fēng)格、未知語種的手寫象形文字補全。又鑒于漢字是上古時期各大文字體系中唯一傳承至今的文字,本文采用漢字作為研究對象。相比于目前其他語言的文字而言,漢字的類別數(shù)特別大,例如GB18030-2005收入的漢字個數(shù)達(dá)到七萬多個,其中最常用的漢字也有3 755個;而且,漢字是目前世界上使用人數(shù)最多的文字,不同人書寫風(fēng)格各異,造成手寫漢字?jǐn)?shù)據(jù)的多樣性,因此也提高了文字補全的復(fù)雜性。實際歷史文檔的應(yīng)用場景中,往往會出現(xiàn)未知語種的象形文字;為了模擬這種情況,本文研究文字補全只使用每個漢字樣本的圖片像素信息,并不使用漢字的類別標(biāo)簽信息。最后,大部分歷史文檔在收集和整理中存在困難,這也往往造成可供研究的文字樣本較為缺乏,因此,本文研究采用小樣本的文字?jǐn)?shù)據(jù)進(jìn)行實驗。
在自然圖片的補全中,目前很多研究方法采用了生成式對抗網(wǎng)絡(luò)[10]。其中,文獻(xiàn)[2]中基于全局和局部一致性保持的生成式對抗網(wǎng)絡(luò)(global and local consistent generative adversarial networks,GLC-GAN)在圖片的判別網(wǎng)絡(luò)中設(shè)計了2條支路,分別從全局和局部的角度來衡量待填充部分的完整性和逼真程度,促使生成網(wǎng)絡(luò)得到的填充部分能兼顧全局完整和局部逼真。受到該工作的啟發(fā),考慮到在文字補全中全局結(jié)構(gòu)信息的重要性,本文采用GLC-GAN模型來實現(xiàn)無約束手寫文字的補全。針對大類別無類別標(biāo)簽手寫文字補全中遇到的補全區(qū)域圖片的模糊問題,提出兩級補全方案:第一級補全模塊結(jié)合全局和局部考慮各種可能的補全情況得到模糊的粗補全;第二級補全模塊則進(jìn)一步將圖片做細(xì)致化、清晰化處理。通過在手寫數(shù)據(jù)集CASIA-HWDB1.1[11]上進(jìn)行實驗,驗證了本文方法的有效性,同時探究和分析了GLC- GAN模型在不同的書寫風(fēng)格和不同的缺失區(qū)域情況下的填充補全效果。
生成式對抗網(wǎng)絡(luò)(generative adversarial network, GAN)最初是為了訓(xùn)練基于卷積神經(jīng)網(wǎng)絡(luò)的生成網(wǎng)絡(luò)而設(shè)計的一種自監(jiān)督學(xué)習(xí)方法[10]。其中自監(jiān)督是指該網(wǎng)絡(luò)的訓(xùn)練無需額外數(shù)據(jù)標(biāo)簽信息作為監(jiān)督信號,僅通過判斷生成產(chǎn)物的真實程度來優(yōu)化模型。一般來說,GAN由網(wǎng)絡(luò)和網(wǎng)絡(luò)2部分組成,即生成網(wǎng)絡(luò)(generative network)和判別網(wǎng)絡(luò)(discriminative network)。圖像補全中,生成網(wǎng)絡(luò)通過將給定的圖片作為輸入,輸出一張補全圖片。判別網(wǎng)絡(luò)則負(fù)責(zé)判別由補全的圖片是否“真實”。GAN的訓(xùn)練過程是和兩者的相互迭代博弈和促進(jìn)的過程,最終理想狀態(tài)是判別網(wǎng)絡(luò)難以判定生成圖片的真?zhèn)危凑J(rèn)為此時的能生成能以假亂真的圖片。
對于圖像補全任務(wù),不僅需要令填補的部分圖片內(nèi)部更加逼真,而且還需要使填補后的全圖也更加連貫和逼真。為此,文獻(xiàn)[2]設(shè)計了全局和局部一致性保持的GAN框架。該框架下,判別網(wǎng)絡(luò)由2個分支組成:全局分支1和局部分支2。2個分支網(wǎng)絡(luò)的最后一層瓶頸特征經(jīng)過拼接后,再通過一個全連接層,得到一個數(shù)值范圍在0到1之間的置信度輸出。在GLC-GAN的訓(xùn)練中,網(wǎng)絡(luò)的優(yōu)化包含了2種損失函數(shù):加權(quán)均方誤差損失函數(shù)L[12]和GAN損失函數(shù)[10]。其中,L的計算公式為
其中,為完整的無缺失的圖片;M為缺失區(qū)域位置的掩膜;(,M)為生成網(wǎng)絡(luò)的輸出圖片;⊙為對應(yīng)位置元素相乘。由此可見,L是衡量真實圖片和偽造的圖片之間的差異。對于另一部分,GAN的訓(xùn)練是min-max優(yōu)化過程,目標(biāo)函數(shù)為
其中,為判別網(wǎng)絡(luò);M為隨機缺失區(qū)域位置的掩膜。結(jié)合2種損失函數(shù),GLC-GAN模型最終的目標(biāo)函數(shù)為
文字補全的關(guān)鍵要素是結(jié)構(gòu)合理和圖片清晰,盡管通過GLC-GAN能夠使得結(jié)構(gòu)更加合理,但補全圖片的模糊現(xiàn)象仍然顯著。對于一般圖片的紋理補全任務(wù)中,缺失區(qū)域四周的鄰近紋理信息給補全圖片帶來很多紋理約束,因此較容易補全得到清晰逼真圖片;然而對于注重結(jié)構(gòu)關(guān)系的文字而言,圖片中缺失區(qū)域之外的剩余部分僅能夠提供有限的結(jié)構(gòu)約束,換句話說,缺失區(qū)域可供選擇的補全圖片的搜索范圍很大。進(jìn)一步地,對于手寫體文字,就算是一般被視為具有相同結(jié)構(gòu)的同類別文字,也會因為多樣的書寫風(fēng)格的存在,在缺失區(qū)域呈現(xiàn)多樣的補全圖片候選。
為了使補全區(qū)域清晰化,引入基于GLC-GAN的兩級補全模塊:第一級GAN注重結(jié)構(gòu)的合理,第二級GAN注重圖片的清晰。圖1展示兩級手寫文字補全網(wǎng)絡(luò)的總框圖。
第一級GLC-GAN網(wǎng)絡(luò)基本上采用1.1小節(jié)的架構(gòu),但對于網(wǎng)絡(luò)中標(biāo)記為1的樣本不再是數(shù)據(jù)庫中真實樣本,而是在真實樣本基礎(chǔ)上,對局部區(qū)域進(jìn)行高斯模糊,得到局部模糊樣本。局部模糊區(qū)域的抽取規(guī)則和缺失區(qū)域一致,高斯模糊的窗長參數(shù)是在預(yù)設(shè)定的范圍內(nèi)的隨機值(本文在一半的訓(xùn)練迭代中選取[3,15]內(nèi)的隨機奇數(shù)值作為高斯模糊的窗長,另一半的迭代中采用原始圖片,即不進(jìn)行高斯模糊操作)。局部模糊樣本相對于真實樣本而言,在第一級的判別網(wǎng)絡(luò)中,為生成網(wǎng)絡(luò)輸出圖片的清晰程度提供了容忍度,從側(cè)面增大了網(wǎng)絡(luò)做出判決的難度,使第一級的不再只關(guān)注圖片的清晰,而更多是去考慮補全后圖片在結(jié)構(gòu)上是否合理,進(jìn)而促進(jìn)第一級生成網(wǎng)絡(luò)給出結(jié)構(gòu)合理的補全結(jié)果。
圖1 兩級手寫文字補全系統(tǒng)的總框圖
第二級GLC-GAN網(wǎng)絡(luò)是清晰化補全模塊。在訓(xùn)練中,的輸入是隨機生成的局部模糊樣本(高斯模糊窗長取[11,51]范圍內(nèi)隨機奇數(shù)),監(jiān)督信號則是數(shù)據(jù)庫中的真實樣本。在實際應(yīng)用中,的輸入是第一級生成網(wǎng)絡(luò)輸出的較模糊的粗補全圖片,輸出則作為最終的補全結(jié)果。值得一提的是,訓(xùn)練階段采用隨機生成的局部模糊樣本是因為該模塊只需專注于在不改變圖片文字內(nèi)容的前提下,使圖片清晰化,而不需要考慮如何改變文字結(jié)構(gòu)。
圖1中,給定一個完整書寫的大小的原始文字圖片,隨機生成一張大小的二值掩膜,掩膜中數(shù)值為1的正方形區(qū)域代表被污染后文字的缺失區(qū)域,區(qū)域的位置和大小是隨機的。此時,帶缺失區(qū)域的文字圖片便可通過文字圖片和掩膜計算得到
帶缺失區(qū)域的文字圖片經(jīng)過第一級GAN的生成網(wǎng)絡(luò)后得到粗補全圖片。圖片經(jīng)過第二級GAN的生成網(wǎng)絡(luò)后得到細(xì)補全圖片,即最終補全結(jié)果。本文所有GAN都采用上一小節(jié)介紹的GLC-GAN,即判決網(wǎng)絡(luò)包括全局分支和局部分支:前者的輸入是粗補全圖片(對于第二級GAN則是圖片),后者的輸入則是由預(yù)定義二值掩膜從對應(yīng)的全局圖中抽取出的局部區(qū)域圖。本文中的GLC-GAN模型的相關(guān)超參數(shù)與文獻(xiàn)[2]中的大體一致,不同之處在于:①由于文字圖片比自然場景圖片未見太多紋理細(xì)節(jié),因此圖片被統(tǒng)一歸一化成128×128的大??;②在訓(xùn)練階段,隨機缺失區(qū)域的邊長大小是32到64之間的隨機值,即缺失區(qū)域最大占原圖的四分之一,最小占原圖的十六分之一。
CASIA-HMDB1.1[11]是經(jīng)典的脫機手寫漢字?jǐn)?shù)據(jù)庫。脫機表示手寫漢字?jǐn)?shù)據(jù)是以圖片形式呈現(xiàn)。該數(shù)據(jù)庫包含了3 755類的常用漢字,每類漢字大約由300位書寫者提供樣本。本文實驗?zāi)M特殊且困難情況下的文字補全,主要針對大類別、小樣本、多風(fēng)格、未知語種的象形。為了體現(xiàn)大類別,實驗考慮了數(shù)據(jù)庫中所有類別(即3 755類)的漢字。為了模擬小樣本、多風(fēng)格應(yīng)用場景,在模擬訓(xùn)練階段只使用前20位書寫者的樣本,其余書寫者的手寫樣本都用于效果的檢驗。為了突出未知語種的情況,所有樣本的類別標(biāo)簽信息均未用于本文的實驗中,本文模型都是通過自監(jiān)督學(xué)習(xí)得到。
由于不同個性風(fēng)格的存在,相同類別(即相同結(jié)構(gòu))的文字在書寫中也會呈現(xiàn)多樣化,此時文字補全的難度也有差異。如圖2所示9組補全結(jié)果,每組結(jié)果來自同類別且由不同書寫者提供的漢字。本文掩膜中的缺失區(qū)域固定在中心位置,且區(qū)域大小為40×40或50×50,粗補全輸出圖是在只采用一級GLC-GAN下得到最終補全效果,即在該GLC-GAN的訓(xùn)練中只利用原始真實樣本作為判決網(wǎng)絡(luò)的正樣本。
圖2 不同書寫風(fēng)格的漢字樣本的兩級補全效果
由圖2每組結(jié)果可見,大部分情況下,雖然帶缺失區(qū)域的圖會在一定程度上影響人們對文字的辨別,但經(jīng)過輸入生成網(wǎng)絡(luò)后得到補全圖都能較好地恢復(fù)文字的缺失信息。雖然圖相比于原圖常呈現(xiàn)細(xì)節(jié)差異,但大部分情況下結(jié)構(gòu)信息的補全較為合理。圖3(a)展示了在某些筆畫整體缺失的情況下,仍能夠補全缺失筆畫。再者,通過對比圖和圖,可見本文提出的兩級補全方法能明顯抑制補全區(qū)域的模糊情況,改善補全圖片的清晰度。圖3(b)放大顯示3個模糊像素被抑制的例子。手寫文字補全問題非常具有挑戰(zhàn),圖3(c)展示了一些補全效果不佳的例子,由其中前2個的例子可見,“寞”字在缺失中間的“艸”和“曰”后,可供候選的補全文字較多,如“賓”或“實”字,此時補全結(jié)果可能和原始文字具有不同的類別。第3,4個例子展示了補全區(qū)域出現(xiàn)冗余筆畫的情況。最后一個例子則展示了在粗補全模塊結(jié)果非常模糊的情況下,本文的細(xì)補全模塊無法使圖片清晰化。這些問題值得進(jìn)一步研究和解決。
(a) 筆畫整體缺失情況下的文字補全效果(b) 細(xì)補全模塊抑制 模糊像素例子(c) 補全效果不佳的例子
除了文字的多樣書寫風(fēng)格外,缺失區(qū)域的位置和大小對文字補全的影響也很大。圖4中,第1行展示不同缺失區(qū)域位置和大小的掩膜,接下來4行則展示了4個漢字樣本在不同的掩膜作用下的缺失區(qū)域的補全效果。缺失區(qū)域從小到大依次設(shè)定為30,40和50。如圖所示,當(dāng)缺失區(qū)域為30×30時,生成網(wǎng)絡(luò)能夠較好地補全文字,但隨著缺失區(qū)域擴大至50×50,補全變得困難,例如“藹”字的“艸”字頭缺失筆畫段或是“啊”字在缺失“口”部件時均難以填補。其中的原因可能是,“藹”去掉“艸”字頭后是“謁”字,“啊”字去掉“口”字旁后是“阿”字,即這類漢字缺失某些區(qū)域后并不是無意義的筆畫集合,而是變成了另一個類別的漢字,此時帶缺失區(qū)域的漢字在模型看來仍然是逼真且合理的漢字,因此模型難以對其進(jìn)行補全。與之相反,如圖4中的“愛”字,由于在數(shù)據(jù)集的3 755類中具有較少的相似類別,因此就算缺失區(qū)域達(dá)到50×50大小,補全效果仍然較好。另外,當(dāng)缺失區(qū)域是在文字中風(fēng)格特殊的部件或筆段的位置時,雖然補全后漢字的類別能夠大致保持不變,但特殊風(fēng)格被恢復(fù)的難度較大,例如圖中“按”字中“扌”的連筆風(fēng)格在缺失補全后丟失。
圖4 不同缺失區(qū)域位置和大小下的文字補全效果
本文針對大類別、小樣本、多風(fēng)格、未知語種的手寫象形文字,采用全局和局部一致性保持的生成式對抗網(wǎng)絡(luò)實現(xiàn)了帶缺失區(qū)域的文字圖像補全。針對結(jié)構(gòu)圖片的補全中遇到的模糊問題,本文提出兩級補全模塊,第一級模塊偏重文字的結(jié)構(gòu)補全,第二級模塊專注文字補全的清晰化。通過大量的實驗,驗證了本文解決方案的有效性;同時,對不同大小和位置的缺失區(qū)域的實驗分析可知,書寫風(fēng)格趨于大眾化的、相似字較少的漢字在缺失補全后的效果更佳。
之后的研究工作可從以下3個方向展開:①在類別標(biāo)簽輔助下的文字補全研究。文字類別標(biāo)簽的輔助下,可以考慮使用類似InfoGAN[13]加入分類器,通過分類器的類別監(jiān)督信息,使生成網(wǎng)絡(luò)趨向于輸出更容易識別的補全文字圖片,甚至將補全后文字的易識別性(即識別輸出的置信度大小)作為衡量結(jié)構(gòu)信息補全效果的評價指標(biāo)。②在語料輔助下的文字補全研究。通過對某語種的大量語料進(jìn)行統(tǒng)計分析,可以得到該語種的語義模型,一元語義模型就可以在單字補全中引入文字在日常使用的頻繁程度;多元語義模型能夠在篇幅級別的文字補全中考慮上下文信息,從而減少補全時模棱兩可的情況,改善補全模糊問題。③書寫風(fēng)格保持的手寫文字補全。一般的生成網(wǎng)絡(luò)會盡可能給出大眾化的補全結(jié)果,但實際應(yīng)用中有時會期望補全后文字能夠保持風(fēng)格不變;解決方案可以考慮在判別網(wǎng)絡(luò)中加入書寫風(fēng)格一致性的監(jiān)督信號。
[1] YANG C, LU X, LIN Z, et al. High-resolution image inpainting using multi-scale neural patch synthesis [C]// 2016 The IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 3.
[2] IIZUKA S, SIMO-SERRA E, ISHIKAWA H. Globally and locally consistent image completion [J]. ACM Transactions on Graphics, 2017, 36(4): 1-4.
[3] 王坤峰, 茍超, 段艷杰, 等. 生成式對抗網(wǎng)絡(luò)GAN的研究進(jìn)展與展望[J]. 自動化學(xué)報, 2017, 43(3): 321-332.
[4] YU J, LIN Z, YANG J, et al. Generative image inpainting with contextual attention [EB/OL]. (2018-03-21). [2019-09-17]. https://arxiv.org/abs/1801. 07892.
[5] HUY V V, DUONG N Q K, PEREZ P. Structural inpainting [EB/OL]. (2018-03-27). [2019-09-17]. https://arxiv.org/abs/1803.10348.
[6] PATRICIA V, JOAN S, COLOMA B. Semantic image inpainting through improved wasserstein generative adversarial networks [EB/OL]. (2018-12-03). [2019-09-17]. https://arxiv.org/abs/1812.01071.
[7] KALTWANG S, SAMANGOOEI S, REDFORD J, et al. Imagining the unseen: Learning a distribution over incomplete images with dense latent trees [EB/OL]. (2018-08-14). [2019-09-17]. https://arxiv.org/abs/1808. 04745.
[8] LECUN Y. The MNIST database of handwritten digits [EB/OL]. (1998-11-01). [2019-09-17]. http://yann. lecun. com/exdb/mnist.
[9] NETZER Y, WANG T, COATES A, et al. Reading digits in natural images with unsupervised feature learning [C]//In Neural Information Processing Systems Workshop on Deep Learning and Unsupervised Feature Learning. New York: Curran Associates, 2011: 5.
[10] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets [C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. New York: Curran Associates, 2014: 2672-2680.
[11] LIU C L, YIN F, WANG D H, et al. CASIA online and offline Chinese handwriting databases [C]//2011 IEEE International Conference on Document Analysis and Recognition. New York: IEEE Press, 2011: 37-41.
[12] PATHAK D, KR?HENBüHL P, DONAHUE J, et al. Context encoders: Feature learning by inpainting [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 2536-2544.
[13] CHEN X, DUAN Y, HOUTHOOFT R, et al. Infogan: Interpretable representation learning by information maximizing generative adversarial nets [C]//In Advances in Neural Information Processing Systems. New York: Curran Associates, 2016, 2172-2180.
Handwritten Character Completion Based on Generative Adversarial Networks
LI Nong-qin1, YANG Wei-xin2,3
(1. School of Economics and Management, East China University of Technology, Nanchang Jiangxi 330013, China; 2. School of Electronic and Information Engineering, South China University of Technology, Guangzhou Guangdong 510641, China; 3. Mathematical Institute, University of Oxford, Oxford OX26GG)
Handwritten character completion is an important research topic in image completion. Its challenge comes from the completion of the structural relationships in handwritten characters with unconstrained handwritten styles. To simulate the complicated and difficult situations in the real-world applications, the paper focuses on handwritten pictographic characters with large category, small sample size, multiple unconstrained handwritten styles, and unknown language (i.e., with no access to the class label of each character). Inspired by the progress in natural image completion, the generative adversarial network with global and local consistency was leveraged to achieve handwritten character completion. Under the circumstances of large category and various writing styles, the completion areas of character completion suffer from low-fidelity because of the large number of potential completion candidates. To solve this problem, a two-stage character completion system was proposed: the first stage is coarse-grained completion module ensuring the completeness of the character; the second stage is fine-grained completion module improving the sharpness and details of characters. Extensive experiments were conducted on CASIA-HWDB1.1 to validate the effectiveness of the two-stage system and analyze the completion performance under different writing styles and different conditions of missing area.
generative adversarial network; handwritten character; image completion; structure completion; unsupervised learning
TP 391
10.11996/JG.j.2095-302X.2019050878
A
2095-302X(2019)05-0878-07
2019-04-22;
2019-06-09
李農(nóng)勤(1960-),男,江西廣昌人,副教授,碩士。主要研究方向為運作管理等。E-mail:nqli@ecit.en
楊維信(1990-),男,廣東廣州人,研究員,博士后。主要研究方向為機器學(xué)習(xí)、計算機視覺等。E-mail:wxy1290@163.com