• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于多重規(guī)則和路徑評(píng)價(jià)的在線(xiàn)中英文手寫(xiě)識(shí)別方法

    2022-03-12 05:56:32付鵬斌劉鵬輝楊惠榮董澳靜
    計(jì)算機(jī)工程 2022年3期
    關(guān)鍵詞:手寫(xiě)中英文字符

    付鵬斌,劉鵬輝,楊惠榮,董澳靜

    (北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)

    0 概述

    中英文混合文本識(shí)別是一個(gè)涉及字符切分、分類(lèi)和識(shí)別的復(fù)雜上下文問(wèn)題。目前,對(duì)于印刷體中英文混合文本識(shí)別的研究成果較多,且識(shí)別率較高[1-2]。在手寫(xiě)文本識(shí)別方面,文獻(xiàn)[3]將輸入的手寫(xiě)中文文本行切分為字符片段,動(dòng)態(tài)構(gòu)建候選序列,并通過(guò)結(jié)合多種上下文信息搜索最佳路徑,實(shí)時(shí)得到識(shí)別結(jié)果。文獻(xiàn)[4]基于半馬爾科夫條件隨機(jī)場(chǎng)構(gòu)建識(shí)別候選序列,自然融合候選片段置信度、幾何和語(yǔ)義得分進(jìn)行路徑評(píng)價(jià),并提出一種前后向陣列修剪算法,減少使用語(yǔ)言模型訓(xùn)練的計(jì)算量。文獻(xiàn)[5]提出一種結(jié)合三元語(yǔ)言模型緊湊的CNNBLSTM 方法,使用多階段訓(xùn)練方法實(shí)現(xiàn)多感受野機(jī)制,該方法達(dá)到了業(yè)界前沿的效果。文獻(xiàn)[6]開(kāi)發(fā)了“谷歌”在線(xiàn)手寫(xiě)識(shí)別系統(tǒng),支持22 種腳本和97 種語(yǔ)言,實(shí)現(xiàn)了快速、高準(zhǔn)確度的識(shí)別。文獻(xiàn)[7]開(kāi)發(fā)了在線(xiàn)手寫(xiě)識(shí)別系統(tǒng),支持102 種語(yǔ)言,識(shí)別效果較好。但上述在線(xiàn)手寫(xiě)文本識(shí)別方法的研究[8]以及相關(guān)識(shí)別的研究[9-11]僅能支持單一語(yǔ)言的文本識(shí)別,缺乏對(duì)中英文混合手寫(xiě)文本識(shí)別的支持。在商業(yè)領(lǐng)域,絕大多數(shù)國(guó)內(nèi)輸入法不支持中英文混合手寫(xiě)識(shí)別。法國(guó)公司Myscript 開(kāi)發(fā)的手寫(xiě)筆記軟件nebo 支持中英文混合手寫(xiě)識(shí)別,且識(shí)別效果在業(yè)界處于較高水平,但軟件收費(fèi)且核心識(shí)別技術(shù)不對(duì)外公開(kāi)。因此,亟待研究一種有實(shí)用價(jià)值的在線(xiàn)中英文混合手寫(xiě)識(shí)別技術(shù)。

    本文提出一種在線(xiàn)中英文混合手寫(xiě)文本識(shí)別方法,使用基于多重規(guī)則的切分算法得到字符片段,并在分類(lèi)算法中進(jìn)行中英文片段分類(lèi)。在此基礎(chǔ)上,結(jié)合自然語(yǔ)言模型和動(dòng)態(tài)規(guī)劃算法得到字符序列,分別送入基于CNN 的在線(xiàn)手寫(xiě)識(shí)別模型,最終得到中英文混合手寫(xiě)文本識(shí)別結(jié)果。

    1 預(yù)處理

    聯(lián)機(jī)手寫(xiě)數(shù)據(jù)通常是通過(guò)手寫(xiě)板、手寫(xiě)筆或鼠標(biāo)得到的按書(shū)寫(xiě)筆畫(huà)排序的點(diǎn)數(shù)據(jù)序列。在無(wú)約束情況下,手寫(xiě)文本常常會(huì)出現(xiàn)字符粘連、交錯(cuò)、噪聲點(diǎn)以及文本行書(shū)寫(xiě)傾斜的情況,影響識(shí)別效果。特別是文本行的傾斜,會(huì)對(duì)后續(xù)文本切分和識(shí)別帶來(lái)嚴(yán)重的影響,因此預(yù)處理階段的重要工作除了降噪外就是進(jìn)行文本行的傾斜矯正。由于文本行的字符中心大致符合直線(xiàn)擬合趨勢(shì),因此采用最小二乘法對(duì)手寫(xiě)文本行進(jìn)行傾斜矯正。

    令每個(gè)筆畫(huà)的點(diǎn)坐標(biāo)序列為P[(x0,y0),(x1,y1),…,(xn,yn)],則該筆畫(huà)中心點(diǎn)為。對(duì)文本行中所有筆畫(huà)中心點(diǎn)(xi,yi),0

    結(jié)合最小二乘法思想:

    求得擬合直線(xiàn)后,計(jì)算文本行中心點(diǎn),計(jì)算公式如式(6)所示:

    其中:xmin,xmax分別為文本行點(diǎn)坐標(biāo)序列中x的最小值和最大值。

    擬合直線(xiàn)與水平面的夾角為α,文本行圍繞中心點(diǎn)進(jìn)行中心旋轉(zhuǎn)α度。傾斜矯正效果如圖1 所示。

    圖1 傾斜矯正效果Fig.1 Tilt correction effect

    2 中英文混合文本分割

    由于預(yù)處理后得到的筆畫(huà)序列包含中、英文字符且可能存在字符重疊、粘連問(wèn)題,因此需要進(jìn)行字符切分,且字符切分算法的好壞將直接影響文本識(shí)別結(jié)果。欠切分方法得到的字符片段可能包含多個(gè)字符,會(huì)導(dǎo)致識(shí)別錯(cuò)誤,而過(guò)切分方法得到的字符片段通常包含單個(gè)字符或單個(gè)字符的子片段,可通過(guò)合并算法獲得正確字符。因此,本文結(jié)合字符筆畫(huà)的幾何特征和空間特征,設(shè)計(jì)了基于多重規(guī)則和路徑評(píng)價(jià)的中英文混合文本分割算法。

    2.1 基于多重規(guī)則的中英文手寫(xiě)文本切分

    對(duì)于在線(xiàn)手寫(xiě)文本而言,文本的切分就是筆畫(huà)序列的正確分割和整合。本文結(jié)合水平相對(duì)位置、垂直重疊率、面積重疊率對(duì)筆畫(huà)進(jìn)行整合,相關(guān)定義如下:

    定義1垂直重疊率是相鄰兩個(gè)筆畫(huà)在垂直方向重疊的比率。

    根據(jù)定義1 進(jìn)行筆畫(huà)整合的示意圖如圖2(a)所示,其中:lo為兩筆畫(huà)重疊長(zhǎng)度;la為筆畫(huà)a1的長(zhǎng)度;lb為筆畫(huà)b1的長(zhǎng)度。

    定義2面積重疊率是相鄰兩個(gè)筆畫(huà)或筆畫(huà)組合片段的最小外包矩形面積的重疊部分與兩塊面積中較小者的比值,其計(jì)算公式如式(8)所示:

    根據(jù)定義2進(jìn)行筆畫(huà)整合的示意圖如圖2(b)所示,其中:So為重疊面積;Sc為筆畫(huà)c的最小外包矩形的面積;Sd為筆畫(huà)組合片段d的最小外包矩形的面積。

    圖2 筆畫(huà)整合示意圖Fig.2 Schematic diagram of stroke integration

    切分算法使用相鄰兩筆策略,假設(shè)2 個(gè)相鄰筆畫(huà)a和b,a書(shū)寫(xiě)在前,b書(shū)寫(xiě)在后,手寫(xiě)文本的筆畫(huà)序列使用如下規(guī)則進(jìn)行整合:

    規(guī)則1水平相對(duì)位置規(guī)則。若筆畫(huà)b的最右端在筆畫(huà)a最右端的左側(cè),則認(rèn)為2 個(gè)筆畫(huà)屬于同一字符片段,進(jìn)行筆畫(huà)整合,如圖2(a)中a1和b1。

    規(guī)則2垂直重疊率規(guī)則。若筆畫(huà)a和筆畫(huà)b的垂直重疊率超過(guò)閾值(本文取50%),則認(rèn)為2 個(gè)筆畫(huà)屬于同一字符片段,進(jìn)行筆畫(huà)整合,如圖2(a)a2和b2所示。

    根據(jù)上述兩個(gè)規(guī)則,筆畫(huà)序列中的某些筆畫(huà)已完成了整合,稱(chēng)為筆畫(huà)組合片段;若2 個(gè)相鄰筆畫(huà)或筆畫(huà)組合片段c和d不滿(mǎn)足規(guī)則1、2,如圖2(b)所示,則需使用如下規(guī)則進(jìn)一步整合:

    規(guī)則3面積重疊率規(guī)則。若c和d的面積重疊率超過(guò)閾值(本文取40%),認(rèn)為2 個(gè)筆畫(huà)或筆畫(huà)組合片段屬于同一字符片段,進(jìn)行筆畫(huà)整合。

    筆畫(huà)整合完成之后,若筆畫(huà)組合片段的寬度值超過(guò)閾值(本文取筆畫(huà)片段高度的1.8 倍),則認(rèn)為該筆畫(huà)存在連筆情況,應(yīng)進(jìn)行切分。

    根據(jù)大量統(tǒng)計(jì)和相關(guān)文獻(xiàn)[12]的研究可知,中文字符中的大部分連筆筆畫(huà)均具有一個(gè)明顯的特征,即存在一個(gè)較長(zhǎng)的、方向穩(wěn)定的筆畫(huà),且筆畫(huà)的書(shū)寫(xiě)方向?yàn)閺淖笙路降接疑戏健2粌H中文連筆字符具有這個(gè)特征,而且英文也具有同樣特征。另外,英文還有一種連筆情況,即字符筆畫(huà)的書(shū)寫(xiě)方向?yàn)閺淖笊戏降接疑戏健_B筆筆畫(huà)還具有相同的位置特征,即連筆筆畫(huà)的位置位于整個(gè)筆畫(huà)的中間部位。依據(jù)這2 個(gè)特征就可以找到字符連筆筆畫(huà)并進(jìn)行切分。

    本文使用八方向特征來(lái)處理字符連筆的切分。八方向特征是特征提取中常用的方法[13],它是四方向特征(水平、垂直、斜上、斜下)的細(xì)化,能夠較好地提取8 個(gè)方向的筆畫(huà),八方向分解圖如圖3 所示,字符連筆情況多出現(xiàn)在D7、D8 的方向特征圖中。

    圖3 八方向分解Fig.3 8-direction decomposition

    八方向特征圖是通過(guò)計(jì)算字符點(diǎn)序列中每個(gè)點(diǎn)的方向生成。給定某一字符中的某個(gè)坐標(biāo)點(diǎn)pk,前一點(diǎn)為pk-1,后一點(diǎn)為pk+1,它的方向向量計(jì)算公式如下:

    得到方向向量Vk后,將其投影到8 個(gè)方向上并進(jìn)行向量分解,得到八方向特征圖。

    針對(duì)字符連筆書(shū)寫(xiě)情況,本文設(shè)計(jì)了一種檢測(cè)連筆筆畫(huà)并切分的方法,具體步驟如下:

    步驟1連筆檢測(cè)。計(jì)算字符筆畫(huà)或筆畫(huà)組合片段的寬度值,如果寬度值大于閾值,那么認(rèn)為該筆畫(huà)或筆畫(huà)組合片段存在連筆情況,篩選出該筆畫(huà)或筆畫(huà)組合片段,如圖4 所示,其中詞組“中國(guó)”是一筆寫(xiě)出來(lái)的。

    圖4 筆畫(huà)篩選示意圖Fig.4 Diagrammatic sketch of stroke filter

    步驟2根據(jù)篩選出的連筆筆畫(huà)生成對(duì)應(yīng)的八方向特征圖,并根據(jù)連筆方向情況選擇D7、D8 方向圖,如圖5 所示。

    圖5 特征方向圖搜索Fig.5 Search for feature direction diagrams

    步驟3搜索連筆筆畫(huà)。在特征方向圖中,搜索到的范圍內(nèi)較長(zhǎng)的連續(xù)點(diǎn)序列即為連筆筆畫(huà),W為特征方向圖的寬度。

    步驟4連筆筆畫(huà)切分。在現(xiàn)有研究中,切分點(diǎn)大多采用連筆筆畫(huà)的中點(diǎn),且在切分過(guò)程中并不會(huì)刪除連筆區(qū)域的冗余點(diǎn)坐標(biāo)數(shù)據(jù),即只做切分,不做其他處理。但是,冗余的點(diǎn)坐標(biāo)數(shù)據(jù)對(duì)字符識(shí)別準(zhǔn)確率有一定影響。因此,本文定位2 個(gè)切分點(diǎn),并刪除連筆部分的冗余筆跡,即2 個(gè)切分點(diǎn)中間的點(diǎn)坐標(biāo)數(shù)據(jù)做刪除處理。切分點(diǎn)的位置定在筆畫(huà)的除連筆部分剩余其他部分的最小外包矩形與字符筆跡的交點(diǎn)上,如圖6 所示,圖中圓圈為確定的2 個(gè)切分點(diǎn)。

    圖6 確定切分點(diǎn)示意圖Fig.6 Schematic diagram of determining the point of division

    經(jīng)過(guò)以上步驟,得到字符連筆切分的效果如圖7所示。

    圖7 連筆切分效果圖Fig.7 Effect drawing of continuous pen segmentation

    預(yù)處理完成的手寫(xiě)文本筆畫(huà)序列通過(guò)水平相對(duì)位置、垂直重疊率、面積重疊率3 個(gè)規(guī)則進(jìn)行整合,之后進(jìn)行連筆檢測(cè)并切分,最終得到切分完成的中英文字符片段序列,切分算法如算法1 所示。

    算法1基于多重規(guī)則的中英文手寫(xiě)切分算法

    2.2 基于幾何特征和識(shí)別置信度的字符片段分類(lèi)算法

    由于兩種語(yǔ)言類(lèi)別數(shù)相差較大、字符結(jié)構(gòu)不同、相關(guān)度不高,混合識(shí)別不能達(dá)到較好的效果。因此,通過(guò)基于多重規(guī)則的切分算法得到的字符片段需要進(jìn)行中英文分離,把分離后的中、英文字符片段序列進(jìn)行合并,之后分別送入單語(yǔ)言模型進(jìn)行識(shí)別。中英文混合字符片段的分離通過(guò)基于筆畫(huà)個(gè)數(shù)、寬高比、中心偏離距離、平滑度等幾何特征和字符片段識(shí)別置信度相結(jié)合的分類(lèi)算法來(lái)完成。

    如圖8 所示,本文提取的字符片段幾何特征包括字符片段的寬度、高度、寬高比、筆畫(huà)個(gè)數(shù)、字符間距、中心偏移距離、平滑度。具體定義如下:

    圖8 幾何特征提取Fig.8 Geometric feature extraction

    h:字符片段的高度值。

    w:字符片段的寬度值。

    hw:字符片段的寬高比值。

    n:字符片段的筆畫(huà)個(gè)數(shù)。

    d:字符片段間的距離。

    定義4文本行高度估計(jì)值H。對(duì)所有筆畫(huà)按高度值升序排序;如果輸入筆畫(huà)數(shù)小于閾值β,則H取所有筆畫(huà)中的高度值最大的筆畫(huà)高度。如果輸入筆畫(huà)數(shù)大于閾值β,則H取筆畫(huà)序列中高度值較大的1/2 筆畫(huà)的平均值。設(shè)置閾值β(本文為10)是為了防止輸入筆畫(huà)過(guò)少,導(dǎo)致H估算偏差較大。

    定義5中心偏移距離z。字符片段中心點(diǎn)與文本行中心線(xiàn)的距離,字符片段中心點(diǎn)在文本行中心線(xiàn)下方為負(fù)值,在文本行中心線(xiàn)上方為正值。

    定義6字符片段的筆跡平滑度k,反映了書(shū)寫(xiě)筆跡的彎曲程度。每個(gè)筆畫(huà)上隨機(jī)選擇5 個(gè)點(diǎn),計(jì)算每個(gè)點(diǎn)的局部曲率值,假設(shè)筆畫(huà)L由坐標(biāo)點(diǎn)構(gòu)成,則對(duì)應(yīng)的方程為y=f(x),筆畫(huà)L在點(diǎn)M(x,y)處切線(xiàn)的斜率為y′=tanα,則

    定義7識(shí)別置信度是為了估計(jì)字符識(shí)別結(jié)果的準(zhǔn)確性。本文識(shí)別置信度為卷積神經(jīng)網(wǎng)絡(luò)輸出的Softmax 概率值。

    根據(jù)以上特征,本文設(shè)計(jì)了基于幾何特征的粗分類(lèi)器和基于識(shí)別置信度的細(xì)分類(lèi)器。

    將以下4 個(gè)特征作為粗分類(lèi)器的主要依據(jù):

    1)中文字符片段的筆畫(huà)個(gè)數(shù)明顯多于英文字符片段;

    2)中文字符片段的高度高于英文字符;

    3)英文字符片段筆跡的平滑度高于中文字符;

    4)英文字符中心點(diǎn)位于文本行中心線(xiàn)下方。

    粗分類(lèi)器能夠?qū)⒋蟛糠肿址握_分類(lèi),而無(wú)法分類(lèi)的字符片段將進(jìn)入細(xì)分類(lèi)器。細(xì)分類(lèi)器包含了基于CNN 的在線(xiàn)手寫(xiě)英文識(shí)別模型和在線(xiàn)手寫(xiě)漢字識(shí)別模型。進(jìn)入細(xì)分類(lèi)器后,每個(gè)字符片段將會(huì)得到2 個(gè)模型對(duì)應(yīng)的識(shí)別置信度,若手寫(xiě)漢字識(shí)別模型的識(shí)別置信度較大,則歸為中文片段,否則歸為英文片段。具體的字符片段分類(lèi)算法如算法2所示。

    算法2基于幾何特征和識(shí)別置信度的分類(lèi)算法

    針對(duì)算法2 中分類(lèi)器的限定條件作如下說(shuō)明:在一般情況下,英文字符的筆畫(huà)最多為3 個(gè),若n≥5,可以認(rèn)為該字符片段為中文;若hw<1,z<0,d≥行高,即字符片段的寬度小于高度、字符片段的中心點(diǎn)位于文本行中心線(xiàn)的下方且字符片段間的距離相對(duì)較大,可以認(rèn)為該字符片段為英文;經(jīng)過(guò)對(duì)大量英文字符的平均曲率進(jìn)行計(jì)算統(tǒng)計(jì),發(fā)現(xiàn)k的最小值約為0.4,若k≥0.6,可以認(rèn)為該字符片段為英文,若k≤0.2,則認(rèn)為該字符片段為中文。

    2.3 結(jié)合自然語(yǔ)言模型和動(dòng)態(tài)規(guī)劃算法的路徑評(píng)價(jià)

    通過(guò)上述文本切分和字符片段分類(lèi)的算法,得到了字符串基本切分片段,由于中文字符筆畫(huà)數(shù)多、結(jié)構(gòu)復(fù)雜,且大部分字符不能一筆完成,因此字符片段中存在欠合并的現(xiàn)象。所以,本文結(jié)合自然語(yǔ)言模型和動(dòng)態(tài)規(guī)劃的路徑評(píng)價(jià)算法搜索最優(yōu)的字符合并路徑?;谧址巫R(shí)別框架,首先將一個(gè)字符串切分為基本片段,接著將一個(gè)或者多個(gè)基本片段合并為候選字符,生成候選識(shí)別網(wǎng)絡(luò),如圖9 所示。候選字符首先被基于CNN 的在線(xiàn)手寫(xiě)中、英文字符識(shí)別模型進(jìn)行識(shí)別并得到識(shí)別置信度;然后結(jié)合自然語(yǔ)言模型,通過(guò)路徑評(píng)價(jià)算法得到路徑評(píng)分;最后,使用路徑搜索算法選出評(píng)分最優(yōu)的合并路徑,得到合并完成的待識(shí)別字符序列。

    圖9 部分候選識(shí)別網(wǎng)絡(luò)Fig.9 Part of the candidate identification network

    對(duì)于自然語(yǔ)言概率模型而言,假設(shè)文本行S的識(shí)別結(jié)果為R=(R1,R2,…,Rn),以P(S)代表該識(shí)別結(jié)果的概率,則概率評(píng)估函數(shù)為:

    根據(jù)鏈?zhǔn)椒▌t,概率評(píng)估函數(shù)可轉(zhuǎn)化為:

    由于輸入法對(duì)識(shí)別時(shí)間要求較高,考慮到計(jì)算量以及語(yǔ)料庫(kù)的大小,本文使用N-gram 模型的二元語(yǔ)言模型來(lái)計(jì)算式(16)的概率,因此:

    其中:每個(gè)字符出現(xiàn)的概率只取決于前一個(gè)字符。

    本文訓(xùn)練的自然語(yǔ)言概率模型所使用的數(shù)據(jù)庫(kù)為搜狗實(shí)驗(yàn)室公開(kāi)發(fā)布的搜狐新聞數(shù)據(jù)(SogouCS)以及全網(wǎng)新聞數(shù)據(jù)(SogouCA)。在不考慮其他模型的情況下,自然語(yǔ)言模型概率最大的字符組合即為最佳的識(shí)別路徑。如圖10 所示,為字符片段通過(guò)計(jì)算自然語(yǔ)言模型概率得到的最優(yōu)識(shí)別路徑。

    圖10 二元語(yǔ)言模型路徑Fig.10 Binary language model path

    對(duì)字符片段組合加以規(guī)則約束,可以減少候選片段組合的數(shù)量,進(jìn)而提高路徑搜索效率。本文定義規(guī)則如下:

    1)候選字符合并個(gè)數(shù)不超過(guò)3 個(gè);

    2)候選字符合并后的寬度不超過(guò)高度的2 倍;

    3)待合并的2 個(gè)候選字符的水平距離不超過(guò)候選字符寬度的1.5 倍。

    基于規(guī)則的組合策略,對(duì)候選字符片段進(jìn)行組合,一次組合稱(chēng)為路徑s。組合后的片段分別提取特征得到X=(x1,x2,…,xn),如果假設(shè)字符串識(shí)別結(jié)果為R=(r1,r2,…,rn),那么該識(shí)別結(jié)果的后驗(yàn)概率[14]為:

    其中:P(s|X)代表在獲取特征X的情況下組合路徑s的后驗(yàn)概率,P(R|Xs)代表在獲取組合路徑s的情況下識(shí)別結(jié)果R的后驗(yàn)概率。

    考慮到字符片段組合后包含大量的路徑以及能夠避免大量的計(jì)算,最優(yōu)結(jié)果可以近似計(jì)算為:

    其中:P(s|X)以判斷該字符是否有效切分來(lái)表示當(dāng)前路徑的概率。由于本文使用的文本行數(shù)據(jù)庫(kù)沒(méi)有切分點(diǎn)數(shù)據(jù),以及加入了基于規(guī)則的組合策略,因此本文沒(méi)有使用該分類(lèi)器的概率值。

    因?yàn)楸疚淖R(shí)別技術(shù)主要應(yīng)用于輸入法,沒(méi)有考慮符號(hào)、數(shù)字等其他字符,所以沒(méi)有使用幾何模型,僅使用了單字符識(shí)別概率值和自然語(yǔ)言模型。P(R|Xs)可以表示為:

    其中:p為常數(shù);p(ri|xi)為字符分類(lèi)的結(jié)果;p(R)為自然語(yǔ)言模型的結(jié)果。

    考慮到不同分類(lèi)器的權(quán)重問(wèn)題以及克服路徑長(zhǎng)度的影響,本文使用了修正的片段寬度加權(quán)方法,通過(guò)公式兩邊取對(duì)數(shù),并在每一項(xiàng)前加入權(quán)值來(lái)解決權(quán)重問(wèn)題;通過(guò)歸一化字符片段寬度以及語(yǔ)言模型對(duì)整個(gè)長(zhǎng)度做歸一化來(lái)克服路徑長(zhǎng)度的影響。計(jì)算公式如下:

    其中:wi代表第i個(gè)路徑中片段的寬度;代表單字符分類(lèi)器概率結(jié)果的對(duì)數(shù)值;代表自然語(yǔ)言模型的概率結(jié)果的對(duì)數(shù)值;λ1為自然語(yǔ)言模型參數(shù)。

    通過(guò)路徑評(píng)價(jià)算法得到本次組合的評(píng)分,接下來(lái),要從所有組合路徑中選擇一條評(píng)分最高的路徑。雖然采用了基于規(guī)則的組合策略對(duì)字符片段組合加以約束,但仍有大量的組合方式。若對(duì)全部的組合方式進(jìn)行計(jì)算,文本識(shí)別性能將會(huì)變得極為低效。所以,快速有效的路徑搜索算法對(duì)提高文本識(shí)別的性能至關(guān)重要。路徑評(píng)價(jià)函數(shù)是計(jì)算所有候選字符得分的加和值,取最大加和值的字符路徑為最優(yōu)路徑,因此可以使用動(dòng)態(tài)規(guī)劃算法進(jìn)行路徑搜索,在搜索的中間節(jié)點(diǎn)中保留一條最優(yōu)路徑,從而使路徑搜索快速且有效。路徑搜索的算法如算法3 所示。

    算法3路徑搜索算法

    3 基于CNN 的在線(xiàn)手寫(xiě)字符識(shí)別

    在文字識(shí)別領(lǐng)域,CNN 模型取得了巨大的成功[15-17]。本文把前述分割得到的中、英文字符序列分別送入CNN 模型并進(jìn)行訓(xùn)練識(shí)別。

    3.1 CNN 模型

    單字符的識(shí)別采用了經(jīng)典的CNN模型LeNet-5[18-19],并在其基礎(chǔ)上進(jìn)行改進(jìn):

    1)輸入輸出層:輸入尺寸修改為本文輸入尺寸,后續(xù)各層的尺寸相應(yīng)改變,在輸出層添加Softmax 激活函數(shù),從而加速模型收斂,緩解Sigmoid 函數(shù)發(fā)生梯度消失的問(wèn)題。

    2)卷積層、池化層:當(dāng)分類(lèi)數(shù)越大時(shí),模型所需要的特征信息也相對(duì)增多,于是增加模型的層數(shù)和特征圖數(shù)量;按照兩層卷積層、一層池化層的組合排列,添加了6 層卷積層和2 層池化層,特征圖的數(shù)量從50 到400 逐層增加。卷積層采用3×3 大小的濾波器,池化層采用2×2 的濾波器。

    3)全連接層:本文采用2 個(gè)全連接層,每層有1 024 個(gè)單元。由于訓(xùn)練樣本有限、模型參數(shù)過(guò)多、模型層次過(guò)深,導(dǎo)致訓(xùn)練時(shí)易發(fā)生過(guò)擬合現(xiàn)象。為避免該現(xiàn)象的發(fā)生,本文加入了dropout 算法。

    基于以上改進(jìn),本文設(shè)計(jì)并實(shí)現(xiàn)了14 層CNN 模型,模型包括8 層卷積層、4 層池化層、2 層全連接層,如圖11 所示。

    圖11 CNN 模型結(jié)構(gòu)Fig.11 Structure of CNN model

    3.2 在線(xiàn)手寫(xiě)英文字符識(shí)別

    由于英文字符類(lèi)別數(shù)較少,因此本文將提取的單字符特征圖作為網(wǎng)絡(luò)模型的輸入。

    對(duì)手寫(xiě)字符進(jìn)行線(xiàn)性插值、平滑、歸一化等預(yù)處理后,通過(guò)計(jì)算該字符的最小外包矩形得到字符邊界,將其平均分為12×12=144 塊,使該字符的所有點(diǎn)坐標(biāo)落入小方塊中,統(tǒng)計(jì)每個(gè)小方塊中字符點(diǎn)坐標(biāo)的個(gè)數(shù),若個(gè)數(shù)大于0,則該方塊的特征值為1,否則為0;得到12×12 的特征圖,特征圖提取過(guò)程如圖12所示。最終,把得到的特征圖作為CNN 的輸入。

    圖12 特征圖提取Fig.12 Feature map extraction

    模型訓(xùn)練的數(shù)據(jù)集為哈爾濱工業(yè)大學(xué)收集的HIT-OR3C[20]中的Letter 子集以及華南理工大學(xué)收集的SCUT-COUCH2009[21]英文字母子集。

    3.3 在線(xiàn)手寫(xiě)中文漢字識(shí)別

    文中用于在線(xiàn)手寫(xiě)中文漢字識(shí)別的流程大致分為3 個(gè)步驟:預(yù)處理,特征提取,CNN 訓(xùn)練識(shí)別。

    首先,對(duì)字符進(jìn)行預(yù)處理。主要有長(zhǎng)寬比映射關(guān)系歸一化、平滑、線(xiàn)性插值、加入虛擬筆畫(huà)等,加入虛擬筆畫(huà)有助于字形的區(qū)分(這里的虛擬筆畫(huà)是指上一筆結(jié)束點(diǎn)和下一筆起始點(diǎn)之間的連線(xiàn),也就是當(dāng)書(shū)寫(xiě)完成當(dāng)前筆畫(huà)后準(zhǔn)備書(shū)寫(xiě)下一筆畫(huà)時(shí),筆尖脫離紙面在空中劃出的軌跡),如圖13 所示。

    圖13 虛擬筆畫(huà)Fig.13 Virtual stroke

    然后,將預(yù)處理后得到的字符點(diǎn)坐標(biāo)序列進(jìn)行方向分解,生成D1~D8 這8 個(gè)方向的特征,即點(diǎn)坐標(biāo)的八方向特征圖提取。

    雖然CNN 在數(shù)據(jù)處理時(shí),不需要顯式構(gòu)造特征,但原圖輸入最具有代表性,且將對(duì)最終的分類(lèi)結(jié)果產(chǎn)生積極的影響。因此,本文把8 方向特征圖加上原圖構(gòu)成9 通道特征圖(由9 張32×32 像素的圖組成)作為CNN 的輸入,如圖14 所示。

    圖14 9 通道特征圖Fig.14 9 channel characteristic diagram

    模型訓(xùn)練的數(shù)據(jù)集為中科院收集的CASIAOLHWDB 1.0[22]、CASIA-OLHWDB 1.1 以及HIT-OR3C的中文子集。

    4 實(shí)驗(yàn)與結(jié)果分析

    本文所提在線(xiàn)中英文混合手寫(xiě)文本識(shí)別方法通過(guò)預(yù)處理、文本切分、字符片段分類(lèi)、字符片段合并以及單字符識(shí)別,最終得到文本識(shí)別結(jié)果,識(shí)別流程如圖15 所示。

    圖15 本文方法識(shí)別流程Fig.15 Identification procedure of the method in this paper

    4.1 實(shí)驗(yàn)數(shù)據(jù)

    選用公開(kāi)的在線(xiàn)手寫(xiě)中文文本數(shù)據(jù)集CASIAOLHWDB2.0-2.2[23]以及本文采集的在線(xiàn)混合手寫(xiě)中英文文本行數(shù)據(jù)集OH-C_E_TextDB,并將常用中文字詞和英文單詞隨機(jī)重組為文本樣本,共計(jì)3 000條,30 名采集人員(大學(xué)生10 名,研究生10 名,教師10 名)進(jìn)行手寫(xiě)數(shù)據(jù)采集,每人隨機(jī)采集100 條。部分文本樣本如表1 所示。

    表1 部分樣本數(shù)據(jù)Table 1 Partial sample data

    4.2 結(jié)果分析

    本文通過(guò)切分正確率Rc和切分有效率Rν來(lái)驗(yàn)證過(guò)切分算法的性能,計(jì)算公式如下:

    其中:Mc表示真實(shí)切分點(diǎn)與正確切分點(diǎn)的匹配個(gè)數(shù),即正確切分個(gè)數(shù);Mt表示真實(shí)切分點(diǎn)總數(shù);Mz表示所有切分點(diǎn)的個(gè)數(shù)。Rc的值越大說(shuō)明命中正確切分點(diǎn)的數(shù)量越多,Rν的值越大說(shuō)明字符出現(xiàn)過(guò)切分的情況更少。

    表2 和表3 分別給出了本文切分算法及其他切分算法在CASIA-OLHWDB 2.0-2.2 數(shù)據(jù)集、OH-C_E_TextDB 數(shù)據(jù)集上的切分性能測(cè)試結(jié)果。

    表2 不同方法在CASIA-OLHWDB 2.0-2.2 數(shù)據(jù)集下的切分對(duì)比實(shí)驗(yàn)結(jié)果Table 2 Experimental results of segmentation comparison of different methods under CASIA-OLHWDB 2.0-2.2 data set

    表3 不同方法在OH-C_E_TextDB 數(shù)據(jù)集下的切分對(duì)比實(shí)驗(yàn)結(jié)果Table 3 Experimental results of segmentation comparison of different methods under OH-C_E_TextDB data set

    通過(guò)表2 和表3 的對(duì)比實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),本文切分算法相比其他切分算法的切分正確率、切分有效率均有所提高,并且減少了切分耗時(shí)。相比表2,本文切分算法在表3 的切分正確率、切分有效率有所提升,而其他2 種切分算法均有所下降。究其原因,發(fā)現(xiàn)OH-C_E_TextDB 數(shù)據(jù)集中有大量的英文連筆和中文連筆數(shù)據(jù),而其他2 種算法對(duì)字符連筆情況處理效果較差,尤其是英文連筆的切分。圖16 給出了3 種切分方法在實(shí)際數(shù)據(jù)中的對(duì)比圖。通過(guò)實(shí)驗(yàn)結(jié)果可知,本文切分算法不僅對(duì)在線(xiàn)手寫(xiě)中文文本行切分有效,而且對(duì)包含字符連筆的在線(xiàn)混合手寫(xiě)中英文文本行切分有較好的切分效果。

    圖16 不同切分方法在實(shí)際數(shù)據(jù)中的對(duì)比Fig.16 Comparison of different segmentation methods in actual data

    為證明本文方法的有效性,采用字符串編輯距離的思想,具體用了3 個(gè)評(píng)判標(biāo)準(zhǔn):文本行識(shí)別率(Row Rate,RR),文本正確率(Correct Rate,CR),文本精確率(Accurate Rate,AR),計(jì)算公式如下:

    其中:Tr代表識(shí)別完全正確的文本行數(shù);Tz代表識(shí)別的總文本行數(shù);Nt代表每行真實(shí)文本個(gè)數(shù);De代表真實(shí)字符與識(shí)別結(jié)果對(duì)比的刪除錯(cuò)誤數(shù)目;Se代表真實(shí)字符與識(shí)別結(jié)果對(duì)比的替換錯(cuò)誤數(shù)目;Ie代表真實(shí)字符與識(shí)別結(jié)果對(duì)比的插入錯(cuò)誤數(shù)目。

    在OH-C_E_TextDB 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法對(duì)在線(xiàn)混合手寫(xiě)中英文文本的識(shí)別正確率、文本識(shí)別精確率以及文本行識(shí)別率分別可達(dá)93.67%、92.25%、91.53%,驗(yàn)證了本文在線(xiàn)中英文混合手寫(xiě)文本識(shí)別方法的有效性。

    把本文識(shí)別方法應(yīng)用到在線(xiàn)輸入系統(tǒng)中,該系統(tǒng)利用動(dòng)態(tài)維護(hù)候選字符序列的思想,進(jìn)行實(shí)時(shí)切分識(shí)別。對(duì)系統(tǒng)進(jìn)行實(shí)時(shí)性分析發(fā)現(xiàn),每當(dāng)新筆畫(huà)輸入時(shí),系統(tǒng)動(dòng)態(tài)更新筆畫(huà)序列并進(jìn)行切分、分類(lèi)、合并以及識(shí)別,當(dāng)抬筆時(shí)間超過(guò)1 s 時(shí),系統(tǒng)判定字符輸入結(jié)束并立即輸出識(shí)別結(jié)果。系統(tǒng)識(shí)別效果如圖17所示。圖18展示了輸入“online 手寫(xiě)中English 混合識(shí)別”的具體識(shí)別過(guò)程。由圖18 可知,字符連筆可以被正確分割并識(shí)別;在書(shū)寫(xiě)中文字符“識(shí)”的過(guò)程中,先寫(xiě)‘讠’,系統(tǒng)更容易認(rèn)為是英文字符‘i’,而當(dāng)把另一部分‘只’書(shū)寫(xiě)完成后,正確識(shí)別為“識(shí)”。

    圖17 在線(xiàn)中英文手寫(xiě)識(shí)別效果Fig.17 Online Chinese and English handwriting recognition effect

    圖18 文本識(shí)別過(guò)程Fig.18 Text recognition process

    5 結(jié)束語(yǔ)

    針對(duì)多數(shù)在線(xiàn)輸入法不支持中英文混合手寫(xiě)文本識(shí)別的問(wèn)題,本文提出一種在線(xiàn)中英文混合手寫(xiě)文本識(shí)別的新方法。通過(guò)切分文本得到字符片段,并使用分類(lèi)算法對(duì)字符片段進(jìn)行分類(lèi)。此外,結(jié)合自然語(yǔ)言模型和動(dòng)態(tài)規(guī)劃算法將字符片段合并為字符序列,并通過(guò)在線(xiàn)手寫(xiě)識(shí)別模型得到中英文混合手寫(xiě)文本識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果表明,相比其他切分算法,本文算法對(duì)在線(xiàn)手寫(xiě)中文文本行及包含字符連筆的在線(xiàn)混合手寫(xiě)中英文文本行均能較好地進(jìn)行切分,在線(xiàn)中英文混合手寫(xiě)文本識(shí)別正確率達(dá)93.67%。但本文研究的文本識(shí)別方法沒(méi)有考慮標(biāo)點(diǎn)符號(hào)、數(shù)字等特殊字符,下一步將通過(guò)研究中文、英文、數(shù)字、符號(hào)4 種類(lèi)別的識(shí)別方法,完善本文模型。

    猜你喜歡
    手寫(xiě)中英文字符
    手寫(xiě)比敲鍵盤(pán)更有助于學(xué)習(xí)和記憶
    尋找更強(qiáng)的字符映射管理器
    我手寫(xiě)我心
    《古脊椎動(dòng)物學(xué)報(bào)(中英文)》編委會(huì)
    抓住身邊事吾手寫(xiě)吾心
    第35卷(2020年)A輯中英文總目次
    字符代表幾
    一種USB接口字符液晶控制器設(shè)計(jì)
    電子制作(2019年19期)2019-11-23 08:41:50
    消失的殖民村莊和神秘字符
    基于集成學(xué)習(xí)的MINIST手寫(xiě)數(shù)字識(shí)別
    電子制作(2018年18期)2018-11-14 01:48:08
    德清县| 隆子县| 上高县| 平安县| 年辖:市辖区| 英吉沙县| 讷河市| 登封市| 西藏| 博野县| 鲜城| 香港| 柳州市| 准格尔旗| 容城县| 龙里县| 昌宁县| 泽州县| 乐安县| 宝坻区| 澎湖县| 绥江县| 怀集县| 武宣县| 井研县| 武陟县| 云梦县| 原阳县| 金门县| 阜城县| 甘孜县| 仙居县| 凤庆县| 吉木萨尔县| 乡城县| 泰兴市| 大荔县| 依兰县| 通许县| 江口县| 淮安市|