尚雪蓮,梁傳君
(新疆工程學(xué)院計(jì)算機(jī)工程系,新疆維吾爾自治區(qū) 烏魯木齊 830011)
盡管自模式識(shí)別(Pattern Recognition,PR)起就開(kāi)始研究手寫(xiě)文本識(shí)別(Handwritten Text Recognition,HTR),但是當(dāng)前的先進(jìn)系統(tǒng)[1]尚不能產(chǎn)生完全自動(dòng)化高品質(zhì)轉(zhuǎn)錄,導(dǎo)致集成自動(dòng)化HTR 系統(tǒng)成為專(zhuān)家轉(zhuǎn)錄過(guò)程中的一種輔助工具,這種集成背后的思想是減少生成轉(zhuǎn)錄所需花費(fèi)的精力,同時(shí)確保高準(zhǔn)確性水平,此方法通常稱(chēng)為計(jì)算機(jī)輔助轉(zhuǎn)錄(Computer-Aided Transcription,CAT)[2]。
本文提出一種新算法用于預(yù)測(cè)HTR 系統(tǒng)識(shí)別單詞的錯(cuò)誤率,該算法主要有2 個(gè)優(yōu)點(diǎn):1)更精確估計(jì)每個(gè)單詞的錯(cuò)誤;2)對(duì)整個(gè)單詞塊執(zhí)行錯(cuò)誤估計(jì),比前一行的估計(jì)更準(zhǔn)確。本算法將當(dāng)前研究中執(zhí)行最好的技術(shù)進(jìn)行合并,在2 份真實(shí)手寫(xiě)文本文件上評(píng)估本文的CAT 系統(tǒng),結(jié)果表明用戶所花費(fèi)的精力與本算法所估計(jì)的接近。
手寫(xiě)文本文件的交互式轉(zhuǎn)錄可以容忍預(yù)定義的錯(cuò)誤量以節(jié)省注釋過(guò)程中人工所花費(fèi)的精力。為成功完成任務(wù),轉(zhuǎn)錄方法涉及多種技術(shù),例如主動(dòng)學(xué)習(xí)、半監(jiān)督學(xué)習(xí)或錯(cuò)誤率預(yù)測(cè)。合并主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)對(duì)于本文的CAT 系統(tǒng)來(lái)說(shuō)確實(shí)有必要,因?yàn)槠淇梢詫?shí)現(xiàn)最大化提高轉(zhuǎn)錄準(zhǔn)確性并最小化用戶花費(fèi)的精力。不少文獻(xiàn)已經(jīng)研究了他們的組合,例如ASR[3]、圖像檢索[4]等,這些學(xué)習(xí)技術(shù)背后的核心理念是利用置信度測(cè)量(Confidence Measure,CM)[5]來(lái)測(cè)量每個(gè)假說(shuō)的不確定性。對(duì)于HTR 的例子,低置信度值的識(shí)別單詞可能是錯(cuò)誤的,而高置信度單詞往往是正確識(shí)別,因此低置信度單詞是監(jiān)督的候選,而高置信度單詞很可能用于系統(tǒng)適配(再訓(xùn)練)。在用戶監(jiān)督識(shí)別單詞方面,最成功的方法之一是基于前綴的方法[6],該算法的主要思想是改善樣本上的系統(tǒng)假說(shuō)并重計(jì)算受限于正確前綴的最佳系統(tǒng)假說(shuō)。首先用戶驗(yàn)證第一個(gè)不正確單詞的系統(tǒng)假說(shuō)的前綴,然后利用驗(yàn)證的前綴和用戶糾正的單詞通過(guò)約束搜索過(guò)程來(lái)預(yù)測(cè)剩余前綴,重復(fù)這個(gè)過(guò)程直到修訂完整個(gè)轉(zhuǎn)錄。該算法是許多處理各種不同應(yīng)用程序的研究的基礎(chǔ),例如HTR[7]、ASR[3]或語(yǔ)義樹(shù)標(biāo)注[8]。有效利用有限量用戶監(jiān)督的技術(shù)中,首先必須估計(jì)識(shí)別單詞組的錯(cuò)誤率,然后決定監(jiān)督花費(fèi)的精力以實(shí)現(xiàn)用戶期望的錯(cuò)誤率。本文以錯(cuò)誤率預(yù)測(cè)(Error Prediction,EP)作為轉(zhuǎn)錄結(jié)果的錯(cuò)誤率,EP 通常用于實(shí)際應(yīng)用程序,在這些應(yīng)用程序中,EP 估計(jì)通常采用CM 來(lái)驗(yàn)證給定任務(wù)上的系統(tǒng)性能,例如文獻(xiàn)[9]在HTR 中使用基于支持向量回歸的EP 系統(tǒng),其中利用估計(jì)決定是否已識(shí)別文本可讀性不夠,然而該系統(tǒng)的穩(wěn)定性有待進(jìn)一步改善。文獻(xiàn)[10]提出了基于動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DWT)的手寫(xiě)識(shí)別算法,該算法保留著次序約束,并使用DWT 算法降低計(jì)算復(fù)雜度,改善了系統(tǒng)穩(wěn)定性,然而,該算法的識(shí)別率較低。文獻(xiàn)[11]開(kāi)發(fā)了一種EP 估計(jì)算法,在CAT 方法中為HTR 使用它,雖然HTR 系統(tǒng)不會(huì)超過(guò)定義的錯(cuò)誤率閾值,提高了手寫(xiě)體識(shí)別率,但這種估計(jì)過(guò)度使用了用戶監(jiān)督。文獻(xiàn)[12]提出一種光學(xué)字符識(shí)別方法,開(kāi)發(fā)了一種啟發(fā)式方法,動(dòng)態(tài)調(diào)整給定用戶定義的錯(cuò)誤率閾值,使結(jié)果基于動(dòng)態(tài)置信度區(qū)間,進(jìn)一步提高了手寫(xiě)體識(shí)別率。文獻(xiàn)[13]提出一種新的基于組合結(jié)構(gòu)特征的自由手寫(xiě)體數(shù)字識(shí)別算法,通過(guò)擴(kuò)展的字符結(jié)構(gòu)特征識(shí)別算法自動(dòng)、魯棒地提取手寫(xiě)體數(shù)字字符端點(diǎn)、分叉點(diǎn)、橫線等多種結(jié)構(gòu)特征,并組合應(yīng)用這些結(jié)構(gòu)特征構(gòu)造決策樹(shù)完成手寫(xiě)體字符的自動(dòng)識(shí)別,提高識(shí)別率的同時(shí)具有較好的魯棒性,然而,該算法的文本文件轉(zhuǎn)錄效率較低。因此,本文提出一種手寫(xiě)體識(shí)別誤差與用戶花費(fèi)平衡算法,該算法包含在轉(zhuǎn)錄手寫(xiě)文本文件的交互式方法中,以主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)技術(shù)有效利用了用戶交互。
HTR 中,通常測(cè)量的錯(cuò)誤是單詞錯(cuò)誤率(Word Error Rate,WER)[14],利用式(1)計(jì)算WER:
式(1)中,S,I,D 是轉(zhuǎn)換識(shí)別轉(zhuǎn)錄到參考轉(zhuǎn)錄所需元素編輯操作E(替換、插入和刪除)的最小數(shù)目,N 是參考轉(zhuǎn)錄中的單詞數(shù)。
為了確定所需的監(jiān)督級(jí)別以達(dá)到期望的WER,分別用加號(hào)和減號(hào)超指數(shù)表示變量的有監(jiān)督和無(wú)監(jiān)督部分。給定一組無(wú)監(jiān)督識(shí)別單詞R-,WER-計(jì)算如下:
式(2)中,E-和N-分別表示無(wú)監(jiān)督部分的編輯數(shù)和參考單詞數(shù)。
假設(shè)WER-可估計(jì)為之前監(jiān)督識(shí)別單詞的基礎(chǔ),研究中假設(shè)監(jiān)督部分中錯(cuò)誤出現(xiàn)的頻率與無(wú)監(jiān)督部分中一致,識(shí)別單詞和參考單詞之間的比率也相同。
這個(gè)假設(shè)是識(shí)別單詞中錯(cuò)誤數(shù)比率的上界,隨著更多塊加入到訓(xùn)練集,這個(gè)比率應(yīng)該下降。通過(guò)這個(gè)假設(shè),確保了最終轉(zhuǎn)錄中錯(cuò)誤估計(jì)低于用戶定義的錯(cuò)誤閾值。
因此如果用式(3)表示的假設(shè)代替式(2)表示的假設(shè),估計(jì)無(wú)監(jiān)督部分中的WER 為:
本算法中該估計(jì)有一個(gè)主要缺點(diǎn),即進(jìn)行錯(cuò)誤估計(jì)時(shí),系統(tǒng)會(huì)讓用戶糾正一些識(shí)別單詞,使得錯(cuò)誤低于用戶定義的WER 閾值。即使當(dāng)WER 計(jì)算準(zhǔn)確時(shí),它仍考慮對(duì)具有同一編輯數(shù)的計(jì)算有貢獻(xiàn)的所有單詞。
但實(shí)踐中所有識(shí)別單詞的錯(cuò)誤并不均勻分布,為了說(shuō)明這個(gè)問(wèn)題,本文在RODRIGO 數(shù)據(jù)庫(kù)上執(zhí)行了一個(gè)識(shí)別實(shí)驗(yàn),如圖1 所示。首先使用本文的HTR系統(tǒng)自動(dòng)識(shí)別行塊,然后根據(jù)它們的CM 在x 軸上從左到右排序識(shí)別單詞,應(yīng)該注意的是CM 基本上定義為后驗(yàn)概率,因此它們的值范圍從0 到1。期望的置信度測(cè)量與每個(gè)單詞的正確性相關(guān)聯(lián),這種方式下,低置信度單詞很可能不正確,而高置信度單詞很大程度上是正確的。擁有參考轉(zhuǎn)錄時(shí),能識(shí)別不正確識(shí)別的單詞,計(jì)算增加置信度單詞組中累積錯(cuò)誤(y 軸)的百分比,這組單詞由其大小表征,百分比相對(duì)于識(shí)別單詞總數(shù)(x 軸底部),或那組中CM 最高值(x 軸頂部)。圖1 中出現(xiàn)的4 條曲線表示可替代錯(cuò)誤估計(jì)。
圖1 識(shí)別單詞對(duì)誤差的影響
圖1 中,以置信度測(cè)量(CM)排序的識(shí)別單詞集上錯(cuò)誤的累積分布,比較由標(biāo)記為Real 的曲線表示的實(shí)際錯(cuò)誤分布與基于CM 的其他錯(cuò)誤估計(jì)。標(biāo)記為Real 的曲線假設(shè)事先已知參考轉(zhuǎn)錄,它占用了以CM 為序的單詞組中錯(cuò)誤的累積百分比,正如預(yù)期,錯(cuò)誤更可能出現(xiàn)在低置信度單詞上,累積了大部分錯(cuò)誤。標(biāo)記為Mean 的曲線沒(méi)有訪問(wèn)參考轉(zhuǎn)錄,假設(shè)識(shí)別單詞之中錯(cuò)誤不均勻分布,因此根據(jù)式(4)估計(jì)累積錯(cuò)誤。
考慮錯(cuò)誤估計(jì)上的CM 很合理,如上所述,計(jì)算CM 為后驗(yàn)概率,它測(cè)量識(shí)別單詞可能正確的概率,給定其對(duì)應(yīng)的單詞圖像。類(lèi)似地,1 減去后驗(yàn)概率直接表示識(shí)別單詞錯(cuò)誤的期望值,可用于錯(cuò)誤估計(jì)器。圖1 中標(biāo)記為CM 的曲線表示基于每個(gè)單詞CM 的錯(cuò)誤估計(jì),如圖所示,直接運(yùn)用時(shí),這個(gè)錯(cuò)誤估計(jì)器表現(xiàn)不佳,因?yàn)榇蟀俜直炔徽_單詞分配有高置信度值,事實(shí)上,超過(guò)40%的識(shí)別單詞的置信度為1。
可以考慮錯(cuò)誤估計(jì)為一種分類(lèi)問(wèn)題,其中CM 用于分類(lèi)識(shí)別單詞為正確或不正確[15],然后由為CM定義的閾值執(zhí)行分類(lèi),認(rèn)為閾值之下的所有單詞不正確,而那些閾值以上的單詞視作正確。標(biāo)示為CER的曲線表示使用基于CM 的分類(lèi)器得到的錯(cuò)誤估計(jì),調(diào)整其閾值,以?xún)?yōu)化驗(yàn)證集上分類(lèi)錯(cuò)誤率(Classification Error Rate,CER),如圖所示,它也產(chǎn)生了較差估計(jì),因?yàn)閹缀?5%的錯(cuò)誤出現(xiàn)在優(yōu)化閾值之上,這種經(jīng)驗(yàn)研究表明,置信度測(cè)量不能直接用于預(yù)測(cè)識(shí)別單詞組上的錯(cuò)誤。
基于CM 的錯(cuò)誤估計(jì)問(wèn)題略微緩解了之前的研究,運(yùn)用式(3)逐步量化CM,由于以前的研究是順序處理(行到行),所以假設(shè)所有行上的錯(cuò)誤不均勻分布,但是不超出同一行單詞,然后對(duì)于每一行,按它們的CM 排序識(shí)別單詞,并分配不同的錯(cuò)誤區(qū)間。例如,第1 區(qū)間對(duì)應(yīng)于每一行最低置信度單詞,第2 區(qū)間對(duì)應(yīng)于第2 低置信度單詞,第3 區(qū)間對(duì)應(yīng)于第3 低置信度,第4 區(qū)間包括剩余單詞。但是,這種錯(cuò)誤估計(jì)效果不佳,因?yàn)樗僭O(shè)置信度區(qū)間數(shù)目有限和每行上錯(cuò)誤均勻分布。后文稱(chēng)這種錯(cuò)誤估計(jì)器為以行為基礎(chǔ)。
為了克服上述問(wèn)題,既要保證較低的錯(cuò)誤率,又要盡量減少每個(gè)單詞的編輯操作數(shù),因此,提出一種新的錯(cuò)誤估計(jì)算法對(duì)這2 個(gè)目標(biāo)進(jìn)行平衡。該算法需要實(shí)現(xiàn)用戶事先定義的WER 閾值,目標(biāo)是在滿足WER 閾值的情況下盡可能地減少用戶編輯操作數(shù)E,根據(jù)式(1),單詞總數(shù)一定的情況下,若要使用戶需要花費(fèi)的編輯操作數(shù)E 越少(即監(jiān)督精力越少),只需使預(yù)測(cè)的錯(cuò)誤率盡可能地接近用戶定義的閾值。因此,提出的算法通過(guò)估計(jì)每個(gè)識(shí)別單詞的編輯操作數(shù)預(yù)測(cè)行塊中的錯(cuò)誤率,稱(chēng)作以塊為基礎(chǔ)的算法。給定R-個(gè)識(shí)別單詞的塊,令I(lǐng)-為塊中不正確單詞數(shù),E-為轉(zhuǎn)換識(shí)別單詞到其參考所需的編輯操作數(shù),則α 計(jì)算如下:
式(5)是編輯操作數(shù)和不正確識(shí)別單詞之間的比率,α 變量是出于一個(gè)錯(cuò)誤單詞可能引起不只一個(gè)編輯操作的事實(shí),可能會(huì)出現(xiàn)多個(gè)單詞的插入。
計(jì)算式(2)中編輯操作數(shù)E-為:
式(6)中,E[I-]是不正確識(shí)別單詞的期望值,因?yàn)閰⒖嫁D(zhuǎn)錄不可用。
給定識(shí)別單詞塊R-,令yi∈ {0,1} 為隨機(jī)變量,其表明單詞i 正確(yi=0)或不正確(yi=1)。類(lèi)似地,令xi∈R 為第i 個(gè)識(shí)別單詞的CM,假設(shè)yi遵循概率為的伯努利分布,即yi~),塊中錯(cuò)誤數(shù)I-可估計(jì)為:
其期望值為:
錯(cuò)誤數(shù)的期望值可計(jì)算為:
這些假設(shè)之下,識(shí)別單詞塊中估計(jì)的錯(cuò)誤數(shù)計(jì)算為每個(gè)單詞可能不正確的概率總和,以其CM 乘以α為條件,最后,將式(2)、式(3)、式(6)和式(9)放在一起,WER 的估計(jì)為:
明顯地,監(jiān)督的上一個(gè)塊中必須估計(jì)項(xiàng)p(yi=1|xi),簡(jiǎn)單計(jì)算這項(xiàng)為:
式(11)是CM 為x 的單詞不正確的頻率。
但是,事件{y,x}的分布非常稀疏,不能為x 的所有可能值估計(jì)這個(gè)后驗(yàn)概率,估計(jì)為概率直方圖,其中,x 的域劃分為一個(gè)有限區(qū)間數(shù)。
圖2 區(qū)域間數(shù)對(duì)誤差的影響
以置信度測(cè)量(CM)排序的識(shí)別單詞集上錯(cuò)誤的累積分布,比較實(shí)際錯(cuò)誤分布與基于塊的估計(jì),研究區(qū)間數(shù)的影響。為了分析區(qū)間數(shù)對(duì)錯(cuò)誤估計(jì)準(zhǔn)確性的估計(jì),本文執(zhí)行了與圖1 描述實(shí)驗(yàn)相同的實(shí)驗(yàn),采用等大小區(qū)間,區(qū)間數(shù)目為1、2、28 和32。圖2 表示基于塊的方法和真實(shí)分布之間錯(cuò)誤估計(jì)的比較,正如觀察到的,僅考慮一個(gè)區(qū)間等價(jià)于式(4)中平均錯(cuò)誤估計(jì),不同的是,數(shù)目或增量的每個(gè)增量產(chǎn)生了錯(cuò)誤的更好估計(jì),正如觀察到的,考慮后驗(yàn)計(jì)算中32 個(gè)置信區(qū)間產(chǎn)生整個(gè)分布上錯(cuò)誤的準(zhǔn)確估計(jì)。
本文給出在2 份舊手寫(xiě)文本文件稱(chēng)作GERMANA 和RODRIGO 上的實(shí)驗(yàn)結(jié)果。對(duì)2 份文件進(jìn)行數(shù)字化,并由古文字學(xué)專(zhuān)家注釋?zhuān)赓M(fèi)供研究使用。一方面,GERMANA 是一份1981 年的764 頁(yè)的西班牙語(yǔ)手稿,大部分包含手寫(xiě)書(shū)法文字,有分離良好的行,高達(dá)6 種不同語(yǔ)言。另一方面,RODRIGO 是一份853 頁(yè)的完全西班牙語(yǔ)書(shū)寫(xiě)的手稿,雖然其大小和布局類(lèi)似于GERMANA,但其年代更久遠(yuǎn)(1545 年),其書(shū)寫(xiě)樣式明顯受哥特式影響,表1 為2 份文件的一些基本統(tǒng)計(jì)。
表1 GERMANA 和RODRIGO 統(tǒng)計(jì),詞匯百分比對(duì)應(yīng)于運(yùn)行單詞百分比,沒(méi)有出現(xiàn)在訓(xùn)練集中
本文執(zhí)行這2 份文件的交互式轉(zhuǎn)錄,將它與非交互式方法基準(zhǔn)比較,基準(zhǔn)非交互式方法(S)對(duì)應(yīng)于一個(gè)應(yīng)用程序,其中完全轉(zhuǎn)錄文件第一部分所花費(fèi)的用戶精力固定,然后用這個(gè)第一監(jiān)督部分訓(xùn)練HTR 系統(tǒng),最后用訓(xùn)練的HTR 系統(tǒng)自動(dòng)轉(zhuǎn)錄剩余文件。將該算法視作基準(zhǔn),因?yàn)樗ǔJ菓?yīng)用于這些任務(wù)的第一種方法,沒(méi)有使用交互式轉(zhuǎn)錄形式。另一方面,本文在交互式實(shí)驗(yàn)中,比較了2 類(lèi)錯(cuò)誤估計(jì)方法(如式(4))。本文在第2 節(jié)中描述了新基于塊的錯(cuò)誤估計(jì)方法,由于以前的文獻(xiàn)中涉及的錯(cuò)誤估計(jì)假說(shuō)重計(jì)算未使用,本文執(zhí)行了一個(gè)實(shí)驗(yàn)來(lái)研究其對(duì)結(jié)果的影響。
之前的研究中呈現(xiàn)了假說(shuō)重計(jì)算,其中測(cè)試了不同策略。本研究中利用了最佳執(zhí)行策略,即所謂的延遲,這種策略中,同一行所有用戶交互執(zhí)行完成之后,執(zhí)行假說(shuō)重計(jì)算,錯(cuò)誤預(yù)測(cè)方法和假說(shuō)重計(jì)算組合產(chǎn)生4 種不同方法:基于行(L)、基于行和假說(shuō)重計(jì)算(L+D)、基于塊(B)、基于塊和假說(shuō)重計(jì)算(B+D)。
采用這4 種方法進(jìn)行交互式轉(zhuǎn)錄文件,給定多個(gè)用戶定義的WER 閾值,也就是系統(tǒng)平衡所花費(fèi)的監(jiān)督精力,選擇WER 閾值,考慮2 份文件中每行的平均單詞數(shù),GERMANA 和RODRIGO 中的行平均有11 個(gè)單詞,由于它們由一個(gè)作者在定義好的模板上書(shū)寫(xiě)。然后,本文考慮2 份文件的交互式轉(zhuǎn)錄,用戶選擇4個(gè)不同WER 閾值:9%(平均每行一個(gè)不正確單詞)、18%(平均每行2 個(gè)不正確單詞)、27%和36%。必須指出的是,已知與真實(shí)用戶的交互很昂貴,本文的目的是研究許多不同參數(shù)的系統(tǒng)行為,用自動(dòng)過(guò)程仿真用戶監(jiān)督,具體而言,監(jiān)督識(shí)別單詞時(shí),仿真用戶執(zhí)行的編輯操作最小數(shù),按照識(shí)別和參考轉(zhuǎn)錄之間的最小距離路徑。
由于文件的順序結(jié)構(gòu),執(zhí)行轉(zhuǎn)錄任務(wù)從文件頭進(jìn)行到文件尾,一方面,基準(zhǔn)方法中,拆分文件為1000個(gè)行塊,第1 塊用于訓(xùn)練初始系統(tǒng),從頭開(kāi)始到調(diào)整預(yù)處理、訓(xùn)練和識(shí)別參數(shù)。所有這些優(yōu)化參數(shù)在剩余實(shí)驗(yàn)中保持不變,之后從第2 塊開(kāi)始轉(zhuǎn)錄直到到最后。本文從第1 塊到當(dāng)前塊訓(xùn)練一個(gè)系統(tǒng),并使用它來(lái)識(shí)別剩余部分,然后測(cè)量結(jié)果文件的WER。必須注意的是,這個(gè)錯(cuò)誤是自主系統(tǒng)產(chǎn)生的錯(cuò)誤測(cè)量,其輸出尚未受監(jiān)督,同時(shí),對(duì)于交互式實(shí)驗(yàn),每個(gè)數(shù)據(jù)庫(kù)劃分為3200 行的7 個(gè)連續(xù)塊,除了第1 塊,它僅包含1000 行,而最后一塊,還包括最后剩余行。本文的交互式實(shí)驗(yàn)中塊數(shù)目有限,相比基準(zhǔn)有較高的計(jì)算成本。每個(gè)數(shù)據(jù)庫(kù)上執(zhí)行的實(shí)驗(yàn)設(shè)置如下:第1 塊專(zhuān)用于從頭開(kāi)始訓(xùn)練系統(tǒng),調(diào)整預(yù)處理、訓(xùn)練、錯(cuò)誤預(yù)測(cè)和識(shí)別參數(shù),所有這些優(yōu)化參數(shù),除了與錯(cuò)誤預(yù)測(cè)相關(guān)的那些,剩余實(shí)驗(yàn)中參數(shù)保持不變,從第2 塊開(kāi)始到最后一塊,每個(gè)新塊處理過(guò)程如下:
①自動(dòng)識(shí)別塊,估計(jì)CM;
②根據(jù)錯(cuò)誤估計(jì)方法監(jiān)督其識(shí)別單詞。
1)基于行的方法。對(duì)于每個(gè)識(shí)別行,單詞以置信度為序,從置信度最低的單詞到置信度最高的單詞,系統(tǒng)估計(jì)所有無(wú)監(jiān)督單詞的錯(cuò)誤,如果超過(guò)了錯(cuò)誤閾值,則監(jiān)督單詞。最后,每次處理單詞,就更新一次錯(cuò)誤預(yù)測(cè)模型參數(shù)。
2)基于塊的方法。系統(tǒng)使用第2 節(jié)描述的方法估計(jì)整個(gè)塊上期望的錯(cuò)誤,然后用戶監(jiān)督以CM 為序的識(shí)別單詞,不同于行序,直到剩余單詞中錯(cuò)誤低于定義閾值。由于文件的塊分割,基于塊的方法通過(guò)獨(dú)立調(diào)整每個(gè)塊的錯(cuò)誤來(lái)調(diào)整整個(gè)文件上的錯(cuò)誤,例如,調(diào)整所有塊的WER 到9%,能實(shí)現(xiàn)9%的WER閾值。
①在方法中使用假說(shuō)重計(jì)算,一旦執(zhí)行用戶監(jiān)督,系統(tǒng)重計(jì)算其受限于最新監(jiān)督單詞的最佳假說(shuō),并再次計(jì)算CM。
②一旦處理完整個(gè)塊,添加它到訓(xùn)練集,以監(jiān)督和高置信度單詞完全重訓(xùn)練系統(tǒng),在這個(gè)階段,也訓(xùn)練了基于塊的方法的錯(cuò)誤預(yù)測(cè)模型。
圖3 GERMANA 數(shù)據(jù)庫(kù)上的執(zhí)行結(jié)果
GERMANA 數(shù)據(jù)庫(kù)上執(zhí)行的交互式轉(zhuǎn)錄實(shí)驗(yàn)的WER 結(jié)果,用戶花費(fèi)有限精力的情況下每種方法所示的最終轉(zhuǎn)錄的單詞錯(cuò)誤率(WER),右上角所示的特寫(xiě)表示交互式方法。
圖4 RODRIGO 數(shù)據(jù)庫(kù)上的執(zhí)行結(jié)果
RODRIGO 數(shù)據(jù)庫(kù)上執(zhí)行的交互式轉(zhuǎn)錄實(shí)驗(yàn)的WER 結(jié)果,用戶花費(fèi)有限精力的情況下每種方法所示的最終轉(zhuǎn)錄的單詞錯(cuò)誤率(WER),右上角所示的特寫(xiě)表示交互式方法。
圖3 和圖4 表示2 種語(yǔ)料庫(kù)上的實(shí)驗(yàn)結(jié)果,x 軸測(cè)量花費(fèi)的監(jiān)督精力,這計(jì)算為參考單詞監(jiān)督的百分比,一旦用戶需要檢查它,該單詞受監(jiān)督,這包括監(jiān)督正確識(shí)別單詞的情況。y 軸測(cè)量WER 方面產(chǎn)生轉(zhuǎn)錄的質(zhì)量,這些圖的虛對(duì)角線表示文件的人工轉(zhuǎn)錄,例如,坐標(biāo)(50,50)的點(diǎn)是轉(zhuǎn)錄文件50%單詞的結(jié)果,這將留下剩余未轉(zhuǎn)錄的單詞,產(chǎn)生50%的WER。類(lèi)似地,最佳結(jié)果對(duì)應(yīng)于與2 個(gè)軸接近的曲線,其中花費(fèi)的精力最少,獲得的轉(zhuǎn)錄最佳。
每條曲線代表每種交互式方法的結(jié)果,每條曲線的每個(gè)點(diǎn)表示整個(gè)實(shí)驗(yàn)的結(jié)果,例如,RODRIGO 中沒(méi)有假說(shuō)重計(jì)算以行為基礎(chǔ)的方法的第二個(gè)點(diǎn)對(duì)應(yīng)于用戶定義WER 閾值為36%的實(shí)驗(yàn)。但是,由于不理想的WER 預(yù)測(cè),產(chǎn)生的WER 為27%,遠(yuǎn)遠(yuǎn)低于用于定義的WER 閾值,花費(fèi)的監(jiān)督精力為21%。
從圖中可以觀察到,所有交互式方法獲得的結(jié)果優(yōu)于監(jiān)督方法,必須注意的是,監(jiān)督和交互式方法之間的差異在統(tǒng)計(jì)學(xué)上顯著,如自舉評(píng)估,這個(gè)差異主要由主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)組合引起,它智能化選擇必須監(jiān)督的單詞,然后包括到訓(xùn)練數(shù)據(jù)中。事實(shí)上,所有交互式實(shí)驗(yàn)根據(jù)他們的CM 選擇單詞,這與系統(tǒng)不確定性直接相關(guān)。還可以觀察到,如通常出現(xiàn)在主動(dòng)學(xué)習(xí)應(yīng)用程序的情況[16],主動(dòng)學(xué)習(xí)技術(shù)引起的改進(jìn)隨著可用用戶監(jiān)督量的增加而減小。
盡管所有交互式方法能有效運(yùn)用用戶花費(fèi)的精力,但是它們之間存在顯著差異,這種差異的主要原因可由錯(cuò)誤預(yù)測(cè)方法解釋。正如在2 種語(yǔ)料庫(kù)中所觀察到的,基于監(jiān)督的方法和基于行的方法產(chǎn)生的結(jié)果之間幾乎沒(méi)什么差別,這是由于置信區(qū)間的不明確和受行內(nèi)監(jiān)督單詞的約束。
新提出的基于塊的方法的2 個(gè)特征克服了基于行的方法中的問(wèn)題:1)新估計(jì)方法顯著改善了錯(cuò)誤估計(jì);2)以塊級(jí)別決定單詞監(jiān)督,不限制在行級(jí)別,從而以更好的決策選擇塊中低置信度單詞。
本文的實(shí)驗(yàn)中,如圖3 和圖4 所示,基于塊的方法在系統(tǒng)性能和有效利用用戶花費(fèi)精力2 方面改進(jìn)了基于行的方法,例如,以相同轉(zhuǎn)錄錯(cuò)誤在RODRIGO中比較2 種方法花費(fèi)的監(jiān)督精力。這里,觀察基于塊的實(shí)驗(yàn),9%的WER 閾值產(chǎn)生約9%WER 的轉(zhuǎn)錄,需要花費(fèi)51.1%的監(jiān)督精力,相反,使用相同閾值,在基于行的實(shí)驗(yàn)中,產(chǎn)生7%的WER,需要花費(fèi)更多的監(jiān)督精力,為67%。另一方面,在花費(fèi)相同監(jiān)督精力下,比較2 種方法產(chǎn)生的錯(cuò)誤,觀察到花費(fèi)22.5%用戶精力時(shí),基于行的方法將獲得27%WER 的轉(zhuǎn)錄,而基于塊的方法得到的轉(zhuǎn)錄僅包含20%的WER。類(lèi)似的改進(jìn)從GERMANA 上執(zhí)行的實(shí)驗(yàn)中也能觀察到,自舉評(píng)估表明基于行的方法和基于塊的方法產(chǎn)生的結(jié)果之間的差異在統(tǒng)計(jì)學(xué)上顯著。
圖3 和圖4 中還包括運(yùn)用假說(shuō)重計(jì)算時(shí)2 種方法的結(jié)果。RODRIGO 中,可以觀察到執(zhí)行的所有實(shí)驗(yàn)中重計(jì)算改善了2 種方法的結(jié)果,但是,對(duì)基于行的方法的改進(jìn)更大,因?yàn)檫@種方法上的錯(cuò)誤比基于塊的方法上的錯(cuò)誤更多。相反,GERMANA 中,可以觀察到當(dāng)花費(fèi)的監(jiān)督精力較少時(shí)假說(shuō)重計(jì)算僅略微改進(jìn)了結(jié)果,這個(gè)問(wèn)題的主要原因是GERMANA 中所用的顯示空白建模解決了“未登錄詞匯”(OOV)問(wèn)題。GERMANA 中,僅考慮空白字符(或空格)分割的單詞,這種方法通過(guò)在字典中連接單詞能產(chǎn)生一些OOV,例如,單詞“natural”由字符“n-a-t-u-r-a-l”或“na-t-u-r-a-l-空格”生成。通過(guò)識(shí)別2 個(gè)單詞:“natural”后面沒(méi)有空格、“mente”后面有空格,能識(shí)別單詞“naturalmente”。假說(shuō)重計(jì)算的另外一個(gè)問(wèn)題是提出的2 個(gè)方法中沒(méi)有考慮錯(cuò)誤估計(jì),其結(jié)果是最終轉(zhuǎn)錄中的錯(cuò)誤低于用戶定義的WER 閾值,從而需要花費(fèi)輕微的監(jiān)督精力。
本文還執(zhí)行了一個(gè)額外實(shí)驗(yàn)來(lái)評(píng)估執(zhí)行效果最佳的方法中用戶監(jiān)督的有效性,即(B +D)方法(見(jiàn)圖5),這個(gè)實(shí)驗(yàn)中,執(zhí)行2 份文件的交互式轉(zhuǎn)錄,但是考慮了一種情況,即用戶調(diào)整用戶花費(fèi)的精力量而不是WER 閾值。
圖5 GERMANA 和RODRIGO 數(shù)據(jù)庫(kù)上的執(zhí)行結(jié)果
GERMANA 和RODRIGO 數(shù)據(jù)庫(kù)上執(zhí)行的交互式轉(zhuǎn)錄實(shí)驗(yàn)的WER 結(jié)果,用戶花費(fèi)有限精力的情況下每種方法所示的最終轉(zhuǎn)錄的單詞錯(cuò)誤率(WER),右上角所示的特寫(xiě)表示結(jié)果。
這種情況下,系統(tǒng)的目標(biāo)是生成最佳可能轉(zhuǎn)錄,給定用戶花費(fèi)的精力。除了錯(cuò)誤估計(jì)方法,遵循同樣的交互式方法,通過(guò)均勻分布用戶在塊上花費(fèi)的精力來(lái)決定哪個(gè)單詞受監(jiān)督,以此來(lái)替代錯(cuò)誤估計(jì)方法。然后,對(duì)于每個(gè)塊,系統(tǒng)請(qǐng)求用戶監(jiān)督最小置信度對(duì)應(yīng)的單詞,該算法產(chǎn)生的結(jié)果可直接與以前實(shí)驗(yàn)中獲得的結(jié)果相比較,因?yàn)槲ㄒ坏牟顒e是用戶在每個(gè)塊上花費(fèi)的精力。
本算法對(duì)每個(gè)塊運(yùn)用可變監(jiān)督數(shù),這取決于塊內(nèi)估計(jì)的錯(cuò)誤,但是后面的方法在所有塊中均勻分布用戶花費(fèi)的精力。本文通過(guò)比較固定數(shù)監(jiān)督和可變數(shù)監(jiān)督來(lái)給出結(jié)構(gòu)。轉(zhuǎn)錄2 個(gè)語(yǔ)料庫(kù)GERMANA 和RODRIGO,使用有同一錯(cuò)誤閾值的最佳方法(B +D),監(jiān)督第一個(gè)塊時(shí)使用前述固定用戶花費(fèi)精力的方法(U),其余塊分別為10%、20%、30%和40%,結(jié)果如圖5 所示。
可以觀察到2 種方法的曲線重疊,從中可以得出2 個(gè)結(jié)論:1)在固定錯(cuò)誤數(shù)或用戶所花費(fèi)精力的情況下,交互式轉(zhuǎn)錄方法對(duì)所有情況有效;2)即使每個(gè)塊上監(jiān)督數(shù)固定和可變?cè)赪ER 和監(jiān)督單詞百分比2 方面獲得的結(jié)果類(lèi)似,但是不正確監(jiān)督單詞數(shù)目方面有顯著差異。本文提出的進(jìn)一步分析結(jié)果顯示,監(jiān)督數(shù)可變時(shí)比固定時(shí)能監(jiān)督更多不正確單詞,這是因?yàn)橄到y(tǒng)仍在學(xué)習(xí)時(shí),第1 塊的監(jiān)督度更高。相反,每個(gè)塊監(jiān)督數(shù)固定的情況下,處理剩余塊時(shí),系統(tǒng)訓(xùn)練的越好,系統(tǒng)更可能請(qǐng)求用戶監(jiān)督正確單詞,浪費(fèi)了可用的用戶精力。
最后,觀察到基于塊的錯(cuò)誤估計(jì)方法的準(zhǔn)確性隨著考慮用于計(jì)算其參數(shù)的塊的增多而降低。這主要是由訓(xùn)練這些參數(shù)所用的數(shù)據(jù)引起,因?yàn)閮H考慮了由用戶監(jiān)督的識(shí)別單詞,而HTR 系統(tǒng)可以通過(guò)持續(xù)重訓(xùn)練來(lái)改進(jìn)性能。錯(cuò)誤估計(jì)方法忽視了這個(gè)改進(jìn),從而在后續(xù)塊中產(chǎn)生了較差的估計(jì),該問(wèn)題可以通過(guò)僅使用后n 個(gè)塊來(lái)訓(xùn)練錯(cuò)誤估計(jì)方法加以解決。
實(shí)驗(yàn)在PC 機(jī)上運(yùn)行,主要配備為3.30 GHz 主頻、4.0 G 內(nèi)存的i3-3220 CPU,仿真軟件為Matlab 2011b,使用2 份舊手寫(xiě)文本文件GERMANA 和RODRIGO,各選取其中100 頁(yè),使用同一錯(cuò)誤閾值,進(jìn)行實(shí)驗(yàn)比較各組合算法的時(shí)間復(fù)雜度。表2 和表3 為2 個(gè)文本文件下的各階段運(yùn)行時(shí)間結(jié)果,可以看出B+D 組合算法運(yùn)行時(shí)間最短,印證了前文的推理。表4 為本算法與其他算法總運(yùn)行時(shí)間的比較,從表4 可以看出,本算法的用戶所花精力和轉(zhuǎn)錄時(shí)間最短。
表2 在GERMANA 文本文件的結(jié)果
表3 在RODRIGO 文本文件的結(jié)果
表4 本算法與其他優(yōu)秀算法的運(yùn)行時(shí)間比較
本文描述了一種容忍用戶定義的錯(cuò)誤量的HTR交互式算法,提出了一種估計(jì)一組識(shí)別單詞WER 的算法,該算法通過(guò)計(jì)算單詞相對(duì)于其CM 所期望的錯(cuò)誤來(lái)估計(jì)識(shí)別單詞所期望的編輯操作數(shù)。該錯(cuò)誤估計(jì)算法包括在CAT 算法中,借助主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)技術(shù)有效利用用戶監(jiān)督,連同假說(shuō)重計(jì)算,以用戶監(jiān)督作為新搜索約束。在2 個(gè)真實(shí)手寫(xiě)文本文件轉(zhuǎn)錄上進(jìn)行了實(shí)驗(yàn),結(jié)果表明提出的算法在系統(tǒng)性能和用戶花費(fèi)精力減少2 個(gè)方面顯著優(yōu)于現(xiàn)有算法。本文還測(cè)量了執(zhí)行用戶監(jiān)督時(shí)假說(shuō)重計(jì)算產(chǎn)生的改進(jìn),假說(shuō)重計(jì)算改進(jìn)了WER 結(jié)果,但是需要用戶花費(fèi)更多精力,因?yàn)楸疚牡腻e(cuò)誤估計(jì)算法中不考慮假說(shuō)重計(jì)算糾正單詞。
使用信息理論指標(biāo)[17],考慮假說(shuō)重計(jì)算能獲得錯(cuò)誤估計(jì)中的另一個(gè)改進(jìn)。雖然執(zhí)行了更準(zhǔn)確的錯(cuò)誤估計(jì),但進(jìn)一步分析表明,提出的算法可能由于所用訓(xùn)練數(shù)據(jù)而使性能下降,更好的想法是更好地選擇訓(xùn)練數(shù)據(jù)來(lái)估計(jì)與下一塊類(lèi)似的錯(cuò)誤分布。下步工作可以考慮錯(cuò)誤估計(jì)參數(shù)在線適配,每次監(jiān)督一個(gè)單詞,并將其應(yīng)用于一些應(yīng)用程序中。
[1]瑪依熱.聯(lián)機(jī)手寫(xiě)維吾爾文字母識(shí)別方法[J].模式識(shí)別與人工智能,2013,25(6):979-986.
[2]Revuelta-Martínez A,Rodríguez L,García-Varea I.A computer assisted speech transcription system[C]// Proceedings of the Demonstrations at the 13th Conference of the European Chapter of the Association for Computational Linguistics.Berlin.2012:41-45.
[3]嚴(yán)軍.空間手寫(xiě)識(shí)別特征提取研究[D].杭州:浙江大學(xué),2012.
[4]何永叢,劉文波,張弓,等.基于NSCT 的旋轉(zhuǎn)不變紋理圖像檢索算法[J].中國(guó)圖象圖形學(xué)報(bào),2011,16(1):79-83.
[5]Sanchis A,Juan A,Vidal E.A word-based Na?ve Bayes classifier for confidence estimation in speech recognition[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(2):565-574.
[6]姚正斌,丁曉青,劉長(zhǎng)松.基于統(tǒng)計(jì)的動(dòng)態(tài)規(guī)劃算法在聯(lián)機(jī)漢字切分中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2011,28(7):2592-2594.
[7]Wang Qiufeng,Yin Fei,Liu Chenglin.Unsupervised language model adaptation for handwritten Chinese text recognition[J].Pattern Recognition,2014,47(3):1202-1216.
[8]Sánchez-Sáez R,Leiva L A,Sánchez J A,et al.Interactive predictive parsing using a web-based architecture[C]// Proceedings of the NAACL HLT 2010 Demonstration Session.Association for Computational Linguistics Stroudsburg.2010:37-40.
[9]丁世飛,齊丙娟,譚紅艷.支持向量機(jī)理論與算法研究綜述[J].電子科技大學(xué)學(xué)報(bào),2011,40(1):2-10.
[10]Mouchère H,李錦鵬,Viard-Gaudin C,et al.多筆畫(huà)聯(lián)機(jī)手寫(xiě)字符識(shí)別的動(dòng)態(tài)時(shí)間規(guī)正算法[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,41(7):107-113.
[11]Serrano N,Sanchis A,Juan A.Balancing error and supervision effort in interactive-predictive handwriting recognition[C]// Proceedings of the 15th International Conference on Intelligent User Interfaces.2010:373-376.
[12]劉毅,毛震東,張冬明,等.低質(zhì)量漢字的分塊搜索兩級(jí)識(shí)別法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2012,24(2):170-175.
[13]Farhad M M,Hossain S M,Khan A S,et al.An efficientoptical character recognition algorithm using artificial neural network by curvature properties of characters[C]//2014 International Conference on Informatics,Electronics& Vision(ICIEV).2014:1-5.
[14]Sanchez-Cortina I,Serrano N,Sanchis A,et al.A prototype for interactive speech transcription balancing error and supervision effort[C]// Proceedings of the 2012 ACM international conference on Intelligent User Interfaces.2012:325-326.
[15]Haiyang L I,Zheng T,Zheng G,et al.Confidence measure based on context consistency using word occurrence probability and topic adaptation for spoken term detection[J].IEICE Transactions on Information and Systems,2014,97(3):554-561.
[16]邵忻.基于跨領(lǐng)域主動(dòng)學(xué)習(xí)的圖像分類(lèi)方法[J].計(jì)算機(jī)應(yīng)用,2014,34(4):1169-1171.
[17]Feenstra R C,Li Z,Yu M.Exports and credit constraints under incomplete information:Theory and evidence from-China[J].Review of Economics and Statistics,2014,96(4):729-744.