劉曉童, 趙夢(mèng)玲, 王桂榮, 金小峰
(延邊大學(xué) 工學(xué)院,吉林 延吉 133002)
朝鮮語(yǔ)古籍具有多文種混排的特點(diǎn),尤其以中朝兩種文字混排的情況居多.目前,朝鮮語(yǔ)標(biāo)注數(shù)據(jù)集的匱乏是影響研究朝鮮語(yǔ)古籍文字識(shí)別的關(guān)鍵因素之一.由于人工標(biāo)注數(shù)據(jù)存在效率低和成本高的問(wèn)題,因此如何利用自動(dòng)標(biāo)注方法來(lái)構(gòu)建朝鮮語(yǔ)古籍文字圖像數(shù)據(jù)集,并以此為進(jìn)一步研究朝鮮語(yǔ)古籍文字的識(shí)別方法和實(shí)現(xiàn)朝鮮語(yǔ)古籍?dāng)?shù)字化具有重要的意義.為此,一些學(xué)者對(duì)此進(jìn)行了研究.例如:蘇向東[1]針對(duì)蒙古文古籍標(biāo)注數(shù)據(jù)集匱乏的情形,提出了一種半自動(dòng)樣本選取方法.研究顯示,該方法可有效提高無(wú)標(biāo)注數(shù)據(jù)的標(biāo)注效率,但對(duì)未標(biāo)注數(shù)據(jù)集只能進(jìn)行粗分類(lèi).姜麗[2]提出了一種基于BIRCH 和改進(jìn)K 中心點(diǎn)算法的古籍漢字圖像聚類(lèi)方法.研究顯示,該方法可對(duì)古籍漢字圖像進(jìn)行有效分類(lèi),但作者未利用該方法構(gòu)建標(biāo)注數(shù)據(jù)集.Yang等[3]針對(duì)手寫(xiě)數(shù)據(jù)集提出了DCN 方法,研究顯示該方法可有效提高圖像的聚類(lèi)質(zhì)量.王暢等[4]提出了一種將聚類(lèi)和跟蹤相融合的人臉圖像數(shù)據(jù)集的構(gòu)建方法,研究顯示該方法可提升人臉數(shù)據(jù)集的生成效率和準(zhǔn)確率.Yan等[5]針對(duì)因標(biāo)注數(shù)據(jù)集匱乏導(dǎo)致視覺(jué)任務(wù)研究受限的問(wèn)題,提出了Clusterfit方法.研究顯示,該方法可顯著提高預(yù)訓(xùn)練模型提取視覺(jué)特征的魯棒性,且模型運(yùn)用少量的與預(yù)訓(xùn)練任務(wù)相關(guān)的特定信息即可進(jìn)行聚類(lèi),從而使提取的特征更適合于下游任務(wù).
DeepCluster[6]是一種可擴(kuò)展的無(wú)監(jiān)督學(xué)習(xí)聚類(lèi)方法.由于該方法將無(wú)監(jiān)督聚類(lèi)與深度神經(jīng)網(wǎng)絡(luò)相融合,因此其具有不需要借助已標(biāo)注數(shù)據(jù)或特定領(lǐng)域先驗(yàn)知識(shí)的優(yōu)點(diǎn),并可將學(xué)習(xí)到的通用特征應(yīng)用于下游分類(lèi)任務(wù)中.基于此,本文利用DeepCluster聚類(lèi)方法提出了一種朝鮮語(yǔ)古籍文字圖像的聚類(lèi)方法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的有效性.
DeepCluster網(wǎng)絡(luò)模型的總體網(wǎng)絡(luò)架構(gòu)如圖1所示.模型的輸出由聚類(lèi)和分類(lèi)兩個(gè)分支構(gòu)成,且這兩個(gè)分支共享卷積網(wǎng)絡(luò)的參數(shù).聚類(lèi)分支的任務(wù)是將卷積網(wǎng)絡(luò)提取的特征輸入到聚類(lèi)模型K-means[7]中進(jìn)行聚類(lèi).其過(guò)程為:首先,利用主成分分析法對(duì)卷積網(wǎng)絡(luò)輸出的特征向量進(jìn)行降維;然后,對(duì)降維的特征向量進(jìn)行線性轉(zhuǎn)換和L2歸一化;最后,利用K-means對(duì)特征向量進(jìn)行聚類(lèi)(每個(gè)聚類(lèi)分配一個(gè)偽標(biāo)簽),以此獲得圖像的聚類(lèi)結(jié)果.在對(duì)輸入樣本進(jìn)行分類(lèi)的過(guò)程中,模型通過(guò)誤差的反向傳播來(lái)調(diào)整卷積網(wǎng)絡(luò)的參數(shù).
圖1 DeepCluster網(wǎng)絡(luò)模型的結(jié)構(gòu)
DeepCluster網(wǎng)絡(luò)模型雖然能夠在訓(xùn)練過(guò)程中實(shí)現(xiàn)收斂,但由于其參數(shù)采用的是交替迭代聚類(lèi)和分類(lèi)的更新方式,因此在學(xué)習(xí)過(guò)程中會(huì)得到一些沒(méi)有意義的平凡解,進(jìn)而會(huì)導(dǎo)致模型在聚類(lèi)過(guò)程中出現(xiàn)空簇和參數(shù)平凡化的問(wèn)題[8].為了避免得到平凡解,本文首先對(duì)由卷積網(wǎng)絡(luò)提取的n×d維特征進(jìn)行Kmeans聚類(lèi),以此得到k個(gè)簇,并將其作為初始的偽標(biāo)簽(形式為k維的one-hot編碼);然后,通過(guò)交替使用式(1)和式(2)對(duì)特征進(jìn)行聚類(lèi),以此生成偽標(biāo)簽;最后,通過(guò)預(yù)測(cè)生成的偽標(biāo)簽來(lái)更新網(wǎng)絡(luò)參數(shù).
式(1)中,fθ(·)為卷積網(wǎng)絡(luò)映射函數(shù),θ為映射函數(shù)的參數(shù),xn為訓(xùn)練樣本,yn∈{0,1}k為xn對(duì)應(yīng)的標(biāo)簽;式(2)中,l(·)為多項(xiàng)邏輯損失函數(shù),gw(·,·)為預(yù)測(cè)偽標(biāo)簽的參數(shù)化分類(lèi)器函數(shù).
基于DeepCluster的朝鮮語(yǔ)古籍文字圖像聚類(lèi)模型的結(jié)構(gòu)如圖2所示.由于朝鮮語(yǔ)古籍文字圖像具有樣本稀少的特點(diǎn)(屬于小型數(shù)據(jù)集),所以本文在模型中選用了AlexNet卷積網(wǎng)絡(luò).
圖2 基于DeepCluster的朝鮮語(yǔ)古籍文字圖像聚類(lèi)模型的結(jié)構(gòu)
圖3為典型的AlexNet卷積網(wǎng)絡(luò)的結(jié)構(gòu)圖.該網(wǎng)絡(luò)由5個(gè)卷積層和3個(gè)全連接層組成,各卷積層(從左至右)分別有96、256、384、384和256個(gè)濾波器.由于將批處理規(guī)范化作為歸一化網(wǎng)絡(luò)層能夠減少對(duì)初始化的高度依賴和提高網(wǎng)絡(luò)的泛化能力,以及能夠使參數(shù)之間的聯(lián)系保持不變(參數(shù)范圍為0~1),因此本文在DeepCluster中用批處理規(guī)范化代替了AlexNet卷積網(wǎng)絡(luò)中的局部響應(yīng)歸一化層.另外,由于常用的無(wú)監(jiān)督方法通常不能直接將圖像域中的不同顏色作為標(biāo)簽,所以本文模型采用基于Sobel濾波器的固定線性變換來(lái)去除圖像域中的不同顏色和增加其局部的對(duì)比度[9].
圖3 AlexNet卷積網(wǎng)絡(luò)的結(jié)構(gòu)
本文模型對(duì)朝鮮語(yǔ)古籍文字圖像進(jìn)行聚類(lèi)的流程為:
1)生成初始標(biāo)簽.首先,對(duì)AlexNet卷積網(wǎng)絡(luò)架構(gòu)進(jìn)行隨機(jī)權(quán)重初始化,并移除最后一個(gè)全連接層;然后,利用網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取,并前向傳遞參數(shù),以此獲取圖像模型的第2個(gè)全連接層的特征向量.由AlexNet卷積網(wǎng)絡(luò)的結(jié)構(gòu)可知,此時(shí)網(wǎng)絡(luò)輸出的特征向量的維度為4096,如圖4所示.對(duì)N張圖像重復(fù)上述操作過(guò)程即可得到一個(gè)[N,4096]的圖像特征矩陣.
圖4 簡(jiǎn)化后的AlexNet卷積網(wǎng)絡(luò)對(duì)文字圖像進(jìn)行特征提取的示意圖
2)生成偽標(biāo)簽.首先,采用主成分分析法對(duì)圖像特征進(jìn)行降維,使特征矩陣由4096維減少至256維;然后,對(duì)降維之后的特征進(jìn)行L2 歸一化處理,以此得到N幅圖像的矩陣[N,256];最后,利用K-means對(duì)預(yù)處理后的特征進(jìn)行聚類(lèi),以此獲得圖像及其對(duì)應(yīng)的聚類(lèi)類(lèi)別.由此獲得的集群類(lèi)別結(jié)果即為訓(xùn)練模型的偽標(biāo)簽.生成偽標(biāo)簽的過(guò)程如圖5所示.
圖5 模型通過(guò)特征聚類(lèi)生成偽標(biāo)簽的示意圖
3)判別預(yù)測(cè)標(biāo)簽和真實(shí)集群標(biāo)簽.首先,創(chuàng)建新批次的圖像,以此使每個(gè)待聚類(lèi)的圖像有均等被包含于簇內(nèi)的機(jī)會(huì);然后,對(duì)待聚類(lèi)的圖像進(jìn)行隨機(jī)增強(qiáng),以此得到圖像和其相應(yīng)的集群;最后,對(duì)模型進(jìn)行訓(xùn)練(批量大小為256),并運(yùn)用交叉熵?fù)p失對(duì)比模型的預(yù)測(cè)標(biāo)簽和真實(shí)集群的標(biāo)簽,以此使得模型能夠?qū)W習(xí)到有用的特征.模型判別標(biāo)簽的過(guò)程如圖6所示.
圖6 模型判別標(biāo)簽的示意圖
為了提高網(wǎng)絡(luò)的整體學(xué)習(xí)性能和獲得更多的有效圖像特征,在將圖片輸入模型之前,本文利用對(duì)輸入圖像進(jìn)行隨機(jī)水平翻轉(zhuǎn)、隨機(jī)大小變換以及縱橫比的裁剪等方式對(duì)數(shù)據(jù)進(jìn)行了增強(qiáng).
對(duì)圖像執(zhí)行聚類(lèi)時(shí),首先確定被訓(xùn)練的類(lèi)別數(shù)量.確定的集群類(lèi)別數(shù)量雖然越多越可對(duì)未標(biāo)注的圖像進(jìn)行更細(xì)粒度的分組,但為了便于對(duì)聚類(lèi)結(jié)果進(jìn)行人工判別和標(biāo)注,本文依據(jù)現(xiàn)存的朝鮮語(yǔ)字符類(lèi)別數(shù)量(11172個(gè))以及通過(guò)設(shè)置不同類(lèi)別數(shù)量進(jìn)行聚類(lèi)試驗(yàn),最終將朝鮮語(yǔ)古籍文字圖像的聚類(lèi)簇?cái)?shù)設(shè)置為20000個(gè).
本文所用數(shù)據(jù)集來(lái)源于《同文類(lèi)解》《闡義昭鑒諺解》和《諺解胎產(chǎn)集》3本朝鮮語(yǔ)古籍.對(duì)這3本古籍進(jìn)行掃描后共獲得文本圖像875張,其中《同文類(lèi)解》160張,《闡義昭鑒諺解》555張,《諺解胎產(chǎn)集》160張.在上述古籍中,《同文類(lèi)解》收錄了對(duì)應(yīng)漢語(yǔ)的朝鮮語(yǔ)對(duì)譯詞和對(duì)應(yīng)滿語(yǔ)的朝鮮語(yǔ)對(duì)譯詞,《諺解胎產(chǎn)集》由朝鮮語(yǔ)和漢語(yǔ)兩種語(yǔ)言書(shū)寫(xiě),《闡義昭鑒諺解》為手寫(xiě)朝鮮語(yǔ)版本.對(duì)上述古籍文本圖像進(jìn)行文字圖像切割后共得到303167張文字圖像.圖7是切分的部分文字圖像的樣例.
圖7 部分朝鮮語(yǔ)古籍文字圖像的示例
實(shí)驗(yàn)硬件環(huán)境為Intel(R) Core(TM) i7-7820X CPU+NVIDIA GeForce RTX 2080(8GB顯存),軟件環(huán)境為Python 3.7.13+Pytorch 1.12.1.
聚類(lèi)結(jié)果評(píng)價(jià)指標(biāo)采用準(zhǔn)確率和標(biāo)準(zhǔn)化互信息(NMI)[8].NMI的計(jì)算公式為:
其中:A和B為隨機(jī)變量;I(A;B)為A和B的互信息,I(A;B)=H(A)-H(A|B);H(·)為隨機(jī)變量的信息熵.由式(3)可知:若A和B相互獨(dú)立,則NMI(A;B)= 0;若由A可確定B,或由B可確定A,則NMI(A;B)= 1.
實(shí)驗(yàn)數(shù)據(jù)集采用由上述切割得到的無(wú)標(biāo)注的303167張文字圖像.實(shí)驗(yàn)中,設(shè)置批量大小為256,初始聚類(lèi)簇?cái)?shù)為20000.圖8為NMI值隨迭代輪次的變化趨勢(shì).由圖8可以看出:NMI值隨迭代輪次的增加而呈增大趨勢(shì).模型在訓(xùn)練初期時(shí),由于卷積網(wǎng)絡(luò)未能提取文字圖像的有效特征,因此導(dǎo)致聚類(lèi)效果較差,表現(xiàn)為NMI值較小.當(dāng)?shù)喆沃饾u增加時(shí),模型通過(guò)不斷更新卷積網(wǎng)絡(luò)的參數(shù),進(jìn)而不斷提高了模型對(duì)不同類(lèi)別特征的提取能力和聚類(lèi)效果,表現(xiàn)為NMI值逐漸增大.當(dāng)?shù)喆芜_(dá)到500時(shí)(NMI=0.89),曲線上升趨勢(shì)趨于穩(wěn)定,表明此時(shí)模型已收斂.
圖8 NMI值隨迭代輪次的變化趨勢(shì)
圖9是模型訓(xùn)練穩(wěn)定時(shí)部分聚類(lèi)結(jié)果中的簇.由圖9可以看出,圖像盡管受到了多種干擾(如尺寸不同、切分不準(zhǔn)確以及噪聲等),但模型的聚類(lèi)結(jié)果仍是準(zhǔn)確的.
圖9 聚類(lèi)結(jié)果的部分示例
為了驗(yàn)證本文方法的優(yōu)越性,將本文方法與DCN方法進(jìn)行了對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)中,均使用上述切分的數(shù)據(jù)集(303167張無(wú)標(biāo)注的朝鮮語(yǔ)古籍文字圖像).實(shí)驗(yàn)結(jié)果見(jiàn)表1.由表1可以看出,本文方法的準(zhǔn)確率和NMI值比DCN 方法分別提高了15.32個(gè)百分點(diǎn)和0.180.該結(jié)果表明,本文方法對(duì)文字圖像的聚類(lèi)性能顯著優(yōu)于DCN 方法對(duì)文字圖像的聚類(lèi)性能.
表1 本文方法和DCN 方法的聚類(lèi)結(jié)果
研究表明,本文提出的基于DeepCluster的朝鮮語(yǔ)古籍文字圖像聚類(lèi)方法的準(zhǔn)確率和NMI值比DCN 方法分別提高了15.32個(gè)百分點(diǎn)和0.180,因此該方法可為構(gòu)建朝鮮語(yǔ)古籍?dāng)?shù)據(jù)集提供參考.在今后的工作中,我們將探討適用于小樣本朝鮮語(yǔ)古籍?dāng)?shù)據(jù)集的聚類(lèi)方法,以進(jìn)一步提高構(gòu)建小樣本標(biāo)注數(shù)據(jù)集的有效性.