摘 ?要:為了提高教師教案設(shè)計(jì)能力和教學(xué)能力,山東華宇工學(xué)院(以下簡(jiǎn)稱“本?!保┐媪袅嗽S多優(yōu)秀的手寫版紙質(zhì)教案,但是紙質(zhì)教案的共享和借鑒會(huì)受限制,本文提出的利用OCR技術(shù)進(jìn)行數(shù)字化加工,實(shí)現(xiàn)了紙質(zhì)化教案的數(shù)字化形態(tài);方便教師共享、學(xué)習(xí)、引用,以便于縮減備課時(shí)間,提高課堂教學(xué)效果。
關(guān)鍵詞:紙質(zhì)教案;數(shù)字化;OCR技術(shù)
中圖分類號(hào):TP391.43 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)18-0054-03
Abstract:In order to improve the ability of teacher’s plan design and teaching,Shandong Huayu University of Technology (hereinafter referred to as “our university ”) has retained many excellent handwritten paper-based teaching plans,but the sharing and reference of paper-based teaching plans will be limited. In this paper,OCR technology is used for digital processing to realize the digital form of paper-based teaching plans. It is convenient for teachers to share,learn and quote,so as to reduce the time of preparing lessons and improve the effect of classroom teaching.
Keywords:paper teaching plan;digitalization;OCR technology
0 ?引 ?言
隨著信息化的普及,手寫的紙質(zhì)教案也被打印的電子教案逐步代替。在教學(xué)過程中,教師會(huì)隨時(shí)記錄教學(xué)過程中遇到的問題和解決的方案,所以很多手寫的紙質(zhì)教案具有很高的借鑒價(jià)值,為了讓這些教案發(fā)揮優(yōu)勢(shì),讓更多的教師從中得益,就有必要把手寫的教案進(jìn)行數(shù)字化加工,實(shí)現(xiàn)其形態(tài)的電子化,這樣會(huì)方便傳輸和共享,便于教師學(xué)習(xí)和借鑒。本文以本校電子信息工程學(xué)院教案數(shù)字化加工項(xiàng)目為例,闡述OCR技術(shù)在教案加工過程中的應(yīng)用。
1 ?對(duì)OCR的理解
OCR是Optical Character Recognition的縮寫,即光學(xué)字符識(shí)別,是指利用電子設(shè)備查看打印或者手寫的字符,需要檢測(cè)相對(duì)暗或者亮的對(duì)比度以確定其字體的形狀,并且用字符識(shí)別的方式將形狀翻譯成計(jì)算機(jī)文字的過程。OCR一般分為兩大步驟:圖像處理以及文字識(shí)別。圖像處理,即對(duì)通過掃描儀存儲(chǔ)到計(jì)算機(jī)的圖像進(jìn)行預(yù)處理,處理工作包括灰度化、二值化、降噪、傾斜矯正、文字切分等子步驟;圖像預(yù)處理過后,后期將通過文字特征來識(shí)別提取文字。
2 ?手寫教案數(shù)字化轉(zhuǎn)換所需要的硬件和軟件
筆者認(rèn)為,漢字識(shí)別可以有兩種方式:即編程實(shí)現(xiàn)和OCR漢字識(shí)別軟件;如果用Java編程實(shí)現(xiàn),可以利用網(wǎng)絡(luò)提供的開源的類庫,例如Tess4J,Tess4J項(xiàng)目自帶英文字體庫,所以要識(shí)別中文信息,還需要下載中文簡(jiǎn)體字體庫。Tess4J項(xiàng)目部分代碼如下:
public static String teachingWord(String imagePath)
{
try {
File image = new File(imagePath);
BufferedImagetextImage = ImageIO.read(image);
Tesseract instance = Tesseract.getInstance ();
instance.setDatapath("C:\\Program Files (x86)\\Tesseract-OCR\\tessdata");//需要有對(duì)比的語言庫
instance.setLanguage("chi_sim");// 手寫的文字識(shí)別
String words = null;
words = instance.doOCR(textImage);
return words;
}
catch (Exception e)
{
e.printStackTrace();
}
}
但是這種方式比較適合少量的圖像文字識(shí)別。對(duì)于教案這種大批量的文字識(shí)別,可以直接利用網(wǎng)絡(luò)中的漢字識(shí)別軟件,通過一臺(tái)電腦便可以完成。如果有文字量較大,可以加上掃描儀,在掃描的過程中進(jìn)行識(shí)別。不同的掃描儀可能附帶的OCR漢字識(shí)別軟件不一樣,例如捷速OCR中文版文字識(shí)別軟件、清華紫光OCR等等。OCR軟件的種類不是很多,因?yàn)閷?duì)手寫字的識(shí)別還不是很成熟,其使用方法稍微有所不同。
3 ?利用OCR技術(shù)進(jìn)行數(shù)字化的流程
為提高教師設(shè)計(jì)教案和提高課堂教學(xué)的能力,本校在每學(xué)年都會(huì)進(jìn)行教案和教學(xué)評(píng)比,在此期間,留存了很多優(yōu)秀的手寫版紙質(zhì)教案。為了讓青年教師更快地學(xué)習(xí)和提高,學(xué)校順應(yīng)數(shù)字化潮流,對(duì)于一些有價(jià)值的、手寫的紙質(zhì)版文件,進(jìn)行數(shù)字化加工工作,方便傳播和借鑒。本文以《Mysql數(shù)據(jù)庫技術(shù)》為例,建立一個(gè)索引篇名為“Mysql數(shù)據(jù)庫”的數(shù)字化教案需要的信息包括教案的課程名稱、學(xué)年學(xué)期、教師姓名、專業(yè)、班級(jí)、教材、理論或?qū)嵺`學(xué)時(shí)等等。如果采取教師自己錄入信息的方式,會(huì)花費(fèi)大量的時(shí)間和精力,而且容易出現(xiàn)錯(cuò)字,影響其他教師借鑒,使用OCR技術(shù)進(jìn)行字符識(shí)別,就可以大大節(jié)省時(shí)間和成本,下面以圖1為例,簡(jiǎn)述OCR技術(shù)在實(shí)際運(yùn)用中的大致流程。
3.1 ?教案圖像掃描輸入
在教案的數(shù)字化轉(zhuǎn)換過程中,首先需要掃描,掃描時(shí)要設(shè)置參數(shù),合適的參數(shù)設(shè)置能使圖像質(zhì)量更加趨向于OCR識(shí)別的要求,提高識(shí)別率和正確率。設(shè)置分辨率時(shí),分辨率過小,像素點(diǎn)在單位尺寸上的分布就少,足夠的圖形信息不容易甚至無法獲得,導(dǎo)致識(shí)別率低;但分辨率太高,也會(huì)使識(shí)別率較低,因?yàn)榻贪冈跁鴮憰r(shí)可能用力不均勻,過高的識(shí)別率會(huì)導(dǎo)致在掃描過程中把一個(gè)整體的字識(shí)別成幾部分,出現(xiàn)錯(cuò)誤,并且保存時(shí)圖像文件會(huì)很大,占用更多的存儲(chǔ)空間。實(shí)際操作時(shí),可能會(huì)根據(jù)情況反復(fù)調(diào)整,最終可以將分辨率鎖定在300dpi左右。對(duì)于色彩模式的選擇,由于教案通常為黑色,過多的顏色只會(huì)變成干擾信息,所以可以采用黑白二值模式。由于紙質(zhì)教案存放時(shí)間久,文字可能會(huì)變淺,紙張也可能變黃,所以要處理掃描后的圖像,首先要設(shè)置為灰度的色彩模式,將圖像劃分為不同的灰度級(jí)別,其次要通過某種算法將其灰度值以下的像素點(diǎn)都認(rèn)定為白色,使其能黑白分明。不同教師的教案,亮度和對(duì)比度會(huì)有差別,需要調(diào)整亮度和對(duì)比度,所以為了改善圖像質(zhì)量,進(jìn)一步提高OCR的識(shí)別率,對(duì)于書寫字跡比較淡,筆跡較細(xì)的教案,可以適當(dāng)調(diào)低亮度;文字小、筆畫粗的調(diào)高亮度。調(diào)節(jié)亮度的同時(shí),文字也會(huì)一起變淡,所以還要提高對(duì)比度,使文字和紙張區(qū)別度高一些。調(diào)節(jié)亮度和對(duì)比度,目的是使文字和紙張黑白分明,有利于增加OCR的識(shí)別率。
3.2 ?對(duì)圖像進(jìn)行預(yù)處理
掃描的時(shí)候由于各種情況,可能會(huì)出現(xiàn)圖像模糊、畸變、斷筆、粘連、傾斜等問題,所以需對(duì)其進(jìn)行預(yù)處理??墒褂肞hotoshop或其他工具,對(duì)圖像進(jìn)行糾偏和去污處理,這樣可減少后期文字識(shí)別時(shí)遇到的字跡模糊不清楚等問題。
3.3 ?圖像版面分析
圖像版面分析即識(shí)別圖像的區(qū)域?qū)傩?,是橫排文字還是豎排文字、表格還是圖片、規(guī)則版面還是不規(guī)則版面等。
3.4 ?對(duì)文字進(jìn)行切分
需要自動(dòng)切分和人工切分的參與。對(duì)圖像的初步識(shí)別可以通過計(jì)算機(jī)進(jìn)行自動(dòng)切分,按照字符每一行的上界限、下界限、每個(gè)字符的左右邊界將文字自動(dòng)切割成獨(dú)立的個(gè)體。自動(dòng)切分可能會(huì)出現(xiàn)偏差或錯(cuò)誤,所以自動(dòng)切分完成后,要對(duì)文字進(jìn)行校對(duì),利用人工切分在切割有誤的地方重新切分,以保證句子的完整性。
3.5 ?對(duì)文字進(jìn)行特征識(shí)別
根據(jù)每個(gè)文字的固定特征,對(duì)文字進(jìn)行識(shí)別,通過特殊特征的提取,例如筆畫位置、交叉點(diǎn)數(shù)等結(jié)構(gòu)特征,就可以得到字符。
3.6 ?人工校對(duì)
初步得到的字符通過對(duì)比文字?jǐn)?shù)據(jù)庫,可以得到文字。文字比對(duì)識(shí)別需人工干預(yù)進(jìn)行錯(cuò)字標(biāo)改。除此之外,還要進(jìn)行人工校對(duì),人工校對(duì)也是比較重要的環(huán)節(jié),幾乎可以把全部的錯(cuò)誤進(jìn)行改正。
3.7 ?成品輸出保存
文字校對(duì)結(jié)束后,可以根據(jù)內(nèi)容進(jìn)行格式排版,確認(rèn)無誤后,便可以導(dǎo)出需要的文件格式,即Word文檔,至此便完成了數(shù)字化工作。
4 ?運(yùn)用OCR技術(shù)進(jìn)行手寫教案識(shí)別時(shí)遇到的問題
4.1 ?手寫教案行列分布不均勻
由于手寫教案的行列分布不均勻,在進(jìn)行自動(dòng)切分時(shí),會(huì)導(dǎo)致有時(shí)切分成功率不高,需要再次進(jìn)行人工切分。
4.2 手寫教案單個(gè)文本規(guī)則性差
手寫的紙質(zhì)教案和印刷體不同,印刷體大多都是規(guī)則的字體,因?yàn)檫@些字體都是計(jì)算機(jī)自己生成再通過打印技術(shù)印刷到紙上。在印刷體的識(shí)別上有其獨(dú)特的干擾:在印刷過程中字體很可能變得斷裂或者墨水粘連,使得OCR識(shí)別異常困難。當(dāng)然這些都可以通過一些圖像處理的技術(shù)盡可能地還原,進(jìn)而提高識(shí)別率。但手寫體文本因?yàn)槊總€(gè)人的寫字風(fēng)格不一樣,所以規(guī)則性比較差,雖然肉眼可以識(shí)別,但是計(jì)算機(jī)很難識(shí)別,有的老師的教案由于字體的原因,識(shí)別率太低,需要進(jìn)行反復(fù)的參數(shù)設(shè)置和預(yù)處理等過程,花費(fèi)很長(zhǎng)的時(shí)間。筆者認(rèn)為,要解決這個(gè)難題,機(jī)器需要針對(duì)某一種字體有自學(xué)習(xí)的能力,才能識(shí)別相似的字體,提高識(shí)別率。
5 ?結(jié) ?論
在手寫紙質(zhì)教案數(shù)字化存儲(chǔ)過程中,應(yīng)用OCR技術(shù)可以有效地提高工作效率,減少不必要的工作量。通過運(yùn)用OCR技術(shù)進(jìn)行手寫紙質(zhì)教案的數(shù)字化存儲(chǔ),實(shí)現(xiàn)了文字識(shí)別功能,提高了資料加工的效率,為手寫教案的存檔、共享、傳播和借鑒提供了方便。
參考文獻(xiàn):
[1] 劉明英.檔案數(shù)字化過程中OCR技術(shù)的應(yīng)用分析 [J].中國(guó)高新技術(shù)企業(yè),2017(5):55-56.
[2] 郭軍.基于數(shù)字掃描儀性能的文本型數(shù)字圖像OCR識(shí)別準(zhǔn)確度提高策略研究 [J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2017(9):118-120.
[3] 常參參.基于OCR技術(shù)的通用證件識(shí)別系統(tǒng) [D].南昌:南昌大學(xué),2018.
[4] 范義斌,許為,楊志鵬.基于OCR技術(shù)的原始單據(jù)管理系統(tǒng)設(shè)計(jì) [J].中國(guó)外資,2018(11):84.
[5] 姜嘉佳.OCR技術(shù)在報(bào)刊加工中的應(yīng)用分析 [J].科技傳播,2019,11(10):159-160.
[6] 劉寧波,李剛,張華強(qiáng).基于OCR技術(shù)的發(fā)票自動(dòng)識(shí)別校驗(yàn)系統(tǒng)設(shè)計(jì) [J].電腦知識(shí)與技術(shù),2019,15(11):6-7.
作者簡(jiǎn)介:李艷杰(1978-),女,漢族,山東德州人,講師,碩士,研究方向:數(shù)據(jù)挖掘技術(shù)。