沈敏胤 楊亮 趙哲萱
摘要:以三維掃描為基礎(chǔ)的圖像識別和三維重建在文物領(lǐng)域作用顯著,應(yīng)用日廣。本文使用kinect深度相機配合文字識別算法探究了這一技術(shù)在古文字識別方面的作用。通過Kinect相機掃描文字,接著對文字的點云數(shù)據(jù)進行分析,最后使用相應(yīng)的Matlab程序進行識別,獲得古文字對應(yīng)的簡體中文漢字。
關(guān)鍵詞:Kinect; 點云配準;Matlab;圖像識別;古代文字
1 kinect傳感器
Kinect 是微軟公司開發(fā)的一款獲取 3D 體感信息的設(shè)備, 它由多陣列麥克風(fēng)、RGB 彩色攝像頭、紅外線CMOS攝影機和紅外發(fā)射器組成。位于中間位置的是RGB彩色攝影頭,可以采集640×480的彩色圖像,1s內(nèi)可以采集30幀圖像。紅外線發(fā)射器和紅外線CMOS攝影機分別位于傳感器的兩側(cè),構(gòu)成3D結(jié)構(gòu)光深度感應(yīng)器,可以測量被測物體與攝像機之間的距離(即深度數(shù)據(jù)采集)。內(nèi)部的陣列式麥克風(fēng),用來實現(xiàn)語音辨識和定位聲源位置等功能。
2 識別原理
Kinect 設(shè)備與普通攝像頭的區(qū)別在 于紅外線發(fā)射和紅外線接收功能,通過這個功能,Kinect 可以獲取場景的深度信息。
Kinect 1.0 獲取深度圖像是基于 Light Coding[12] 技術(shù), 該技術(shù)是將紅外線光均勻分布投射在被測物體和空間中, 之后光譜將發(fā)生扭曲,反射出隨機的斑點,即散斑。再通過紅外攝像頭讀取空間和物體上的每個散斑。這些散斑有著高度隨機性,而且隨著距離的變化而變化。在得到原始數(shù)據(jù)后, 使用設(shè)備中的 PS1080 芯片計算出具有深度信息的圖像. Kinect 2.0 則是基于 Time Of Flight (TOF) 技術(shù)獲取深度圖像, TOF 技術(shù)是通過向目標發(fā)射連續(xù)的特定波長的紅外光線脈沖, 經(jīng)過傳感器接收待測物體傳回的光信號, 計算光線往返的飛行時間或相位差得到待測物體的 3D 深度信息. 相比于 Kinect 1.0, 采用了 TOF技術(shù)的 Kinect 2.0 獲取深度圖像的精度更高, 被外界光影響的概率更低, 針對環(huán)境光具有更強的抗干擾性, 因此本文選用 Kinect 2.0。
3古文字的提取識別
本文中所提到的古文字是指,雖然時代久遠,有從甲骨文到篆書隸書的演化,但都可以識別并將其轉(zhuǎn)化為現(xiàn)代的簡體中文,就比如我國先秦的篆書,漢代的隸書,這些文字構(gòu)造結(jié)構(gòu)與六書基本一致,傳統(tǒng)上我們可以從他的文字本身觸發(fā),對文字進行分析和判斷,通過一些古文字的工具書字典,從最簡單的字和數(shù)字開始,進行逐一辨認,通過已經(jīng)成熟的matlab程序進行識別。
但是由于古文字的繁多,以及文字復(fù)雜,沒有過硬的專業(yè)知識,以及豐富的經(jīng)驗,實踐很難在短時間內(nèi)正確的翻譯出來,因此是一件耗時耗力的工作。
于是我們在這基礎(chǔ)上提出用現(xiàn)代的方法,對古代文字進行識別,我們先用相機,對這些出土印有文字的的文物進行拍照,對我們項目要求,所以我們使用的是kinet深度相機,可以從6D位姿的角度識別處理圖像,獲得全面、細節(jié)完善的文字筆畫信息,然后通過matlab程序,把其中的文字字符給提取出來,使用色階增加黑場,提高對比度,銳化方法使文字變得盡量清晰,完成文字的識別,然后將識別出來的圖案輸入程序,再通過比對大量已經(jīng)建立的古文字數(shù)據(jù)庫,找出最匹配的古文字,輸出終端,再進行下一個古文字的識別。這樣就能在短時間里對考古的文物中的古文字進行識別。
4實驗結(jié)果與分析
我們對20幾張照片進行了拍照,之后使用Matlab,中間的連字符程序,把一些有間斷的模糊的的斷點連接成單詞,字母和漢字進行識別,大約有超過70%的字可以完全的識別出來,其余的20%多的字可以通過其他的程序,過濾掉低通濾噪聲和高通噪聲的干擾,以及銳化等處理后進行有效的識別出來,還有5%左右的程序需要經(jīng)過更加復(fù)雜的程序進行圖像處理,方能清晰地進行閱讀,還有2%不到的字母單詞或者數(shù)字,尚末識別清楚,從這個來看,使用相機進行拍照和Matlab程序進行數(shù)字圖像識別,跟人肉眼識別的結(jié)果幾乎差別不大不足的地方,可以從精度和分辨率入手也可以寫識別對外部環(huán)境有要求(即光線太暗,字體筆畫太細,沒有龐大的數(shù)據(jù)庫,不能很好識別等)之后我們將會與其他學(xué)院的同學(xué)們一起合作,把數(shù)據(jù)庫和識別的深度學(xué)習(xí)機器統(tǒng)一起來,使我們這個識別的精度更高,更精準。
當然,我們這個識別還是存在很多問題的,首先是在器材上面,我們是使用的kincet相機的深度相機的分辨率為512X424,并且相機的固有敏感度存在一定的問題。這個相機的分辨率是比較低的,不能進行精確掃描,下一步的話,我們將會使用,分辨率更高的相機進行再一次的識別實驗,同時,這個相機對光線的要求還是比較大的,在只使用連字符未能掃描識別出來的,20%的單詞和字母中,很多都是由于光線問題而導(dǎo)致的,此外,文字和背景的顏色對比度,灰度銳度等一些問題也會導(dǎo)致文字的識別不出來,還有由于相機的距離和識別文字的數(shù)量的關(guān)系導(dǎo)致的,部分某些數(shù)字,它的筆畫寬度比較小,小于能識別的范圍,這個問題將會在之后的討論中進行解決
同時,在識別方面,由于經(jīng)費問題我們的識別,是由五位,沒有拿到需要識別圖片準確譯文的同學(xué)進行肉眼觀察,把他們觀察的結(jié)果寫在紙上,之后使用對照比對等手段進行,檢查出來的,所以具有一定的實驗誤差。
5 結(jié)束語
基于 Kinect 的古文字識別是一個新穎而又充滿意義的課題。本文使用 Kinect與 matlab 完成了一套用戶功能完備,識別準確的古文字識別方案。該系統(tǒng)主要通過 Kinect 來獲取文字數(shù)據(jù),通過對數(shù)據(jù)的分析與綜合識別出文字對應(yīng)的現(xiàn)代文字,然后得出正確的文字結(jié)果。在相信這可以在文物領(lǐng)域中發(fā)揮很好的作用。
參考文獻:
[1]李文怡,張蜓,楊潔.三維掃描及快速成型技術(shù)在文物修復(fù)中的應(yīng) 用[J].文博,2012(6):78-81.
[2]? Reddy G D, Saggau P. Fast three-dimensional laser scanning scheme?using acousto-optic deflflectors.[J].Proc Spie, 2005, 10(6):4379-4386.
[3]? Xie HY, Zhong YQ. Structure-consistent customized virtual?mannequin? reconstruction? from? 3D? scans? based? on?optimization.? Textile? Research? Journal,? 2020,? 90(7 –8):?937–950. [doi: 10.1177/0040517519883957]
[4] 吳劍鋒, 蔣濛婷, 馬夢鑫, 等. 基于點云融合算法的 Kinect?三維重建技術(shù)及其應(yīng)用研究. 計算機應(yīng)用與軟件, 2018,?35(8): 260–264. [doi: 10.3969/j.issn.1000-386x.2018.08.047]
[5] Zhao L, Shen XK, Long X. Robust wrinkle-aware non-rigid?registration? for? triangle? meshes? of? hand? with? rich? and?dynamic? details.? Computers? &? Graphics,? 2012,? 36(5):?577–583. [doi: 10.1016/j.cag.2012.03.035
作者介紹:
沈敏胤,男,出生于2000年六月,漢族,上海人,揚州大學(xué)本科在讀,自動化專業(yè)
基金項目:本文系2020年江蘇省揚州大學(xué)大學(xué)生創(chuàng)新創(chuàng)業(yè)項,項目編號X20200389