楊娜娜, 哈力旦·阿布都熱依木, 伊力亞爾·達(dá)吾提
(新疆大學(xué) 電氣工程學(xué)院,新疆 烏魯木齊830047)
維吾爾語是新疆維吾爾自治區(qū)一種重要的少數(shù)民族語言,其識(shí)別技術(shù)將被運(yùn)用到文檔識(shí)別、網(wǎng)絡(luò)安全監(jiān)控、檔案管理、視頻會(huì)議和文獻(xiàn)檢索等各個(gè)領(lǐng)域,由于維吾爾語文字本身的書寫和句法構(gòu)成方式的特殊性,其識(shí)別方法與相對(duì)成熟的漢語、英語識(shí)別方法不盡相同,因此,維吾爾語的文字識(shí)別研究具有重要意義。目前的維吾爾語識(shí)別方法主要有:文獻(xiàn)[1]提出了運(yùn)用決策方法對(duì)抽取到的樣本特征與樣本庫進(jìn)行匹配的方法,該方法識(shí)別率并不太理想;文獻(xiàn)[2]提出了基于字符歸一化的雙投影互相關(guān)性匹配識(shí)別算法,這種算法對(duì)特定情況下的識(shí)別效果良好,但是識(shí)別樣本與匹配樣本有字體、灰度、傾斜角度等差異時(shí),識(shí)別效果不佳,文獻(xiàn)[3]提出了基于 HMM的維吾爾語識(shí)別方法,該法具有不錯(cuò)的識(shí)別效果,該法需要對(duì)維吾爾語常用詞建模,訓(xùn)練樣本需求量大,迭代運(yùn)算量大且識(shí)別時(shí)間長(zhǎng)。
由加拿大英屬哥倫比亞大學(xué)的Lowe D G教授提出的尺度不變特征 SIFT 算法因其良好的特性,近年來已成為國(guó)內(nèi)外圖像處理和計(jì)算機(jī)視覺研究領(lǐng)域的熱點(diǎn)之一[4]?;赟IFT描述子的匹配方法已被成功地應(yīng)用到了很多領(lǐng)域,如目標(biāo)識(shí)別、全景圖拼接,從運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)等[5]。
統(tǒng)一尺度的字符樣本模板無法解決自然場(chǎng)景或光學(xué)圖像中提取的維吾爾語字符尺度差異大造成的匹配困難問題,因此,本文首先對(duì)測(cè)試圖像進(jìn)行預(yù)處理,然后提取其水平和垂直灰度投影相關(guān)性和筆畫數(shù)特征進(jìn)行預(yù)分類,對(duì)預(yù)分類結(jié)果與測(cè)試圖像進(jìn)行基于SIFT尺度不變特征的圖像配準(zhǔn)。
本文的識(shí)別對(duì)象是圖像中的維吾爾語字符,因此,要將句子切分成以字符為單位的圖像。句子中既有獨(dú)立形式的字符(不與其他字符相連)也有連寫字符構(gòu)成的連體段。首先統(tǒng)計(jì)原始圖像的垂直方向灰度直方圖分布,垂直投影的像素點(diǎn)空白區(qū)域?yàn)橐患?jí)切點(diǎn),對(duì)切分后的圖像進(jìn)行連通域標(biāo)記,一般連體段連通域長(zhǎng)度為獨(dú)立字符連通域長(zhǎng)度的2倍以上,然后對(duì)連體段再次進(jìn)行垂直投影,選擇垂直投影密度最小的區(qū)域?yàn)槎?jí)切點(diǎn)。經(jīng)過2次切分后得到以字符為單位的維吾爾語文字圖像,然后對(duì)字符圖像進(jìn)行降噪與灰度化處理并歸一化為統(tǒng)一尺寸。字符切分如圖1。
圖1 維吾爾語字符切分
提取字符圖像的水平、垂直方向灰度分布投影相關(guān)性特征和筆畫特征作預(yù)分類。
維吾爾語包含32個(gè)字母,大部分字母由于其在詞語中位置的不同又分別具有獨(dú)寫、首寫、中寫和尾寫4種形式,這樣32個(gè)字母就衍生出128種字符[6]。首先,建立包含所有維吾爾語字符的樣本庫,樣本庫中的字符字體均為最常用的維吾爾語字UkijTuz,存儲(chǔ)標(biāo)號(hào)為該字母在維吾爾語字母表中對(duì)應(yīng)的位置序號(hào)。
然后提取測(cè)試圖像和樣本字符的水平與垂直方向灰度積分投影,測(cè)試圖像及其雙投影如圖2所示。
圖2 維吾爾語字符a的首寫形式及其垂直和水平方向投影
將測(cè)試圖像雙方向投影與樣本圖像雙方向投影的相關(guān)性,雙投影相關(guān)性曲線如圖3所示。
圖3 測(cè)試圖像與樣本字符雙投影相關(guān)性曲線
將這2個(gè)投影相關(guān)性序列按元素大小降序排列,分別取2個(gè)序列前30位元素的交集為預(yù)選結(jié)果。
維吾爾語書寫過程中一個(gè)完整的筆畫在字符圖像中表現(xiàn)為一個(gè)連通域,筆畫數(shù)特征是對(duì)歸一化后的字符圖像進(jìn)行二值化和連通域標(biāo)記,連通域個(gè)數(shù)即為筆畫數(shù)。筆畫數(shù)特征檢測(cè)如圖4所示。
圖4 筆畫數(shù)特征
維吾爾語字符最少由1筆構(gòu)成,最多由5筆構(gòu)成。提取雙投影相關(guān)性檢測(cè)后的候選結(jié)果的筆畫數(shù)特征,并與測(cè)試圖像的筆畫特征對(duì)比,排除不同筆畫數(shù)的圖像,其余樣本字符為預(yù)分類結(jié)果。
在對(duì)原始文字圖像進(jìn)行降噪處理和字符切分的過程中,難免會(huì)造成失真,而且不同的原始圖像中切分出的字符圖像尺度差異很大。尤其測(cè)試圖像與樣本字符字體不同時(shí),預(yù)分類方法無法準(zhǔn)確得出唯一的識(shí)別結(jié)果。圖像尺度差異和字體差異會(huì)影響識(shí)別效果,因此,將測(cè)試圖像與預(yù)分類結(jié)果依次進(jìn)行基于SIFT的圖像配準(zhǔn),最終可獲得更佳的識(shí)別效果。
基于 SIFT 算法的特征圖像配準(zhǔn)可大致分為關(guān)鍵點(diǎn)的檢測(cè)、描述子的構(gòu)造和匹配3個(gè)過程。
為了使特征具有尺度不變性,關(guān)鍵點(diǎn)檢測(cè)是在多尺度空間完成的,高斯卷積核是實(shí)現(xiàn)尺度變換的唯一線性變換核,一幅圖像在不同尺度下的尺度空間定義為圖像I(x,y)與高斯核G(x,y,σ)的卷積[5,7],如下式所示
L(x,y,σ)=G(x,y,σ)?I(x,y).
(1)
為有效檢測(cè)出尺度空間中的穩(wěn)定特征點(diǎn),引入高斯差分函數(shù)D(x,y,σ),相減得到DOG (difference of Gaussians)金字塔多尺度空間表示。對(duì)DOG尺度空間每個(gè)點(diǎn)與相鄰尺度和相鄰位置的點(diǎn)比較,得到的局部極值位置即為關(guān)鍵點(diǎn)所處的位置和對(duì)應(yīng)的尺度,如式(2)所示
D(x,y,σ)=L(x,y,kσ)-L(x,y,σ).
(2)
其中,k為一個(gè)常量。
方向描述子的構(gòu)造包括特征點(diǎn)的方向分配和生成特征描述子。
關(guān)鍵點(diǎn)坐標(biāo)為(x,y)處的梯度幅值M(x,y)和方向θ(x,y)分別由如式(2)、式(3)[7,8]計(jì)算得出
M(x,y)=
(3)
(4)
在以特征點(diǎn)為中心的鄰域窗口內(nèi),采用梯度方向直方圖表示其鄰域像素的梯度方向統(tǒng)計(jì)值。梯度方向范圍為 0°~360°,其中每 10°在直方圖中表示一個(gè)柱,共有 36 柱。梯度方向直方圖的峰值是該特征點(diǎn)的主方向。當(dāng)梯度方向直方圖中存在主峰值能量 80 %的以上的峰值時(shí),該峰值所對(duì)應(yīng)的方向作為輔方向。特征點(diǎn)可以有一個(gè)主方向和多個(gè)輔方向,這樣可以提高特征匹配的穩(wěn)定性。
對(duì)任意一個(gè)關(guān)鍵點(diǎn),在其所在的尺度空間 (即高斯金字塔結(jié)構(gòu)的某一層),取以關(guān)鍵點(diǎn)為中心的16像素×16像素大小的鄰域,采用高斯加權(quán)法在 4×4的圖像小塊上計(jì)算 8 個(gè)方向的梯度方向直方圖,然后對(duì)其根據(jù)位置依次排序,這樣就構(gòu)成了一個(gè)4×4×8=128維的向量,該向量就是SIFT描述子。
測(cè)試圖像的SIFT方向描述子如圖5所示。
圖5 測(cè)試圖像的SIFT方向描述子圖像
利用特征點(diǎn)的特征描述符向量之間的 Euclid 距離作為特征點(diǎn)的匹配度量,Euclid 距離最小的2個(gè)特征點(diǎn)可以認(rèn)為是匹配的候選點(diǎn)對(duì)[5]。然后,用最小的Euclid 距離除以第二小的Euclid 距離,如果其比值小于一定閾值,則認(rèn)為候選點(diǎn)對(duì)就是匹配點(diǎn)對(duì);否則,認(rèn)為是錯(cuò)誤的匹配點(diǎn)對(duì)。
識(shí)別過程如圖6所示。
圖6 維吾爾語識(shí)別流程
圖7以與樣本字符不同字體的字母f為例說明此過程。
圖7 字母f的獨(dú)寫形式識(shí)別過程
測(cè)試圖片中字符字體和樣本字符字體在筆畫結(jié)尾處有幾何形態(tài)差異(圖8),經(jīng)過雙投影相關(guān)性檢測(cè),標(biāo)號(hào)為053,057,117的樣本圖像保留下來,這3個(gè)樣本的水平和垂直投影是與測(cè)試圖片的雙投影最相關(guān)的,然后對(duì)這3個(gè)樣本與測(cè)試圖像進(jìn)行筆畫數(shù)特征比對(duì),035和117號(hào)樣本與測(cè)試圖片筆畫特征相同,均為2筆,而057號(hào)樣本為3筆,因此,剔除057號(hào)樣本。最后預(yù)分類樣本依次與測(cè)試圖像進(jìn)行基于SIFT方向描述子的配準(zhǔn)(圖9),測(cè)試圖片與053號(hào)樣本的匹配點(diǎn)數(shù)為32,與117號(hào)樣本匹配點(diǎn)數(shù)為28,不但匹配點(diǎn)數(shù)相對(duì)較少并且無匹配率高,因此,053號(hào)樣本圖像視為正確的匹配結(jié)果,輸出對(duì)應(yīng)的維吾爾語字符為識(shí)別結(jié)果。
當(dāng)從圖片中切分出的測(cè)試圖像尺度與樣本字符差異較大時(shí)[9](如圖8所示),一些特征點(diǎn)提取算法,如Harris[10]無法捕捉到測(cè)試圖像的特征,而SIFT算法仍然可以提取到關(guān)鍵點(diǎn)。
圖8 尺度差異
圖9 切分圖像的SIFT特征描述子
在100幅包含不同尺度和字體的測(cè)試圖像中,利用本文方法可以成功識(shí)別出其中83幅,該方法的識(shí)別周期為預(yù)分類的時(shí)間(0.998 624 s)加SIFT圖像配準(zhǔn)的時(shí)間(0.077 s)共約1.076 s,耗時(shí)少,且識(shí)別效率高。
本文利用SIFT特征對(duì)旋轉(zhuǎn)、尺度縮放、亮度變化的保持不變性,解決了在維吾爾語識(shí)別過程中切分字符尺度不統(tǒng)一帶來的模板匹配困難問題。首先對(duì)測(cè)試圖片和模板字符進(jìn)行雙投影相關(guān)性檢測(cè),然后對(duì)與測(cè)試圖像相關(guān)性較高的模板字符進(jìn)行筆畫數(shù)特征提取,得到預(yù)分類結(jié)果,最后將預(yù)分類結(jié)果依次與測(cè)試圖片進(jìn)行SIFT特征檢測(cè)及配準(zhǔn)得到識(shí)別結(jié)果,實(shí)驗(yàn)表明該方法具有良好的識(shí)別效果。
參考文獻(xiàn):
[1] 曹志宏.維吾爾文字聯(lián)機(jī)手寫體識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D].烏魯木齊:新疆大學(xué),2007.
[2] 萬金娥.基于字符歸一化雙投影互相關(guān)性匹配識(shí)別算法[J].計(jì)算機(jī)應(yīng)用,2013,33(3) : 645-647.
[3] 皮桂林.基于 HMM 的聯(lián)機(jī)手寫維文單詞識(shí)別方法研究[D].烏魯木齊:新疆大學(xué),2012.
[4] Lowe D G.Distinctive image features from scale-invariant key-points[J].International Journal of Computer Vision,2004,60(2):91-110.
[5] 王程冬.SIFT 算法在點(diǎn)云配準(zhǔn)中的應(yīng)用[J].傳感器與微系統(tǒng),2012,31(2):149-152.
[6] 艾力·居麥,哈力旦·A,黃 浩.視頻圖像中維吾爾文字的識(shí)別研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(36):190-192.
[7] Zhao Wanlei,Rennes Inria.Flip-invariant SIFT for copy and object detection[J].Image Processing,2012,22(3):980-991.
[8] Mikolajczyk K,Schmid C.Scale & affine invariant interest point detectors[J].International Journal of Computer Vision,2004,200(1):63-86.
[9] 鄧任任,哈力旦·A.維吾爾文字自適應(yīng)角度定位[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(3):1121-1125.
[10] 馮政壽,王美清.基于Harris與改進(jìn)SIFT算法的圖像匹配算法[J].福州大學(xué)學(xué)報(bào):自然科學(xué)版,2012,40(2):176-180.