邱治涵 王嘉豪 李文煒 王東燦
摘要:信息化教育方式的多樣化應(yīng)用是教育教學(xué)創(chuàng)新的重要體現(xiàn),而文字識別技術(shù)在電子信息教學(xué)方面起著不可忽視的作用。針對傳統(tǒng)的紙質(zhì)試卷保存方式存在的易丟失、易損壞等弊端問題,設(shè)計實(shí)現(xiàn)了基于Tesseract-OCR引擎的將紙質(zhì)型試題轉(zhuǎn)化電子型試題的智能文字識別移動智能終端軟件。本軟件在擁有支持對常見題型的智能轉(zhuǎn)換功能外,還提供試題網(wǎng)絡(luò)共享、在線試題批閱等功能。
關(guān)鍵詞:灰度處理; 雙峰法; Tesseract-OCR; 試題生成;文字識別
中圖分類號:TP391? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)26-0047-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
1 引言
隨著文字識別技術(shù)的迅速發(fā)展,其相關(guān)領(lǐng)域的應(yīng)用在人們?nèi)粘I钪械玫搅藰O大的認(rèn)可。將紙質(zhì)型的試題通過拍照轉(zhuǎn)化成電子型試題的應(yīng)用方式,可以有效地解決用戶在長時間學(xué)習(xí)的過程中將試卷損壞或遺落,造成后期對應(yīng)試題的復(fù)習(xí)、總結(jié)練習(xí)不便的問題。同時隨著智能移動設(shè)備的普及,電子信息化成為主要的教育發(fā)展趨勢本文綜合國內(nèi)各考試試卷的試題題型,設(shè)計與實(shí)現(xiàn)了基于Tesseract-OCR引擎的線下試卷拍照轉(zhuǎn)化為線上試卷的移動智能端軟件。
2 Tesseract概述
在當(dāng)前主流文字識別技術(shù)中,Tesseract作為主要被使用的開源引擎之一,是20世紀(jì)80年代中期由惠普實(shí)驗(yàn)室開發(fā)、谷歌公司維護(hù)的開源OCR(Optical Character Recognition , 光學(xué)字符識別)引擎[1]。在這些年Tesseract引擎更新了3.0的版本之后,其與Microsoft Office Document Imaging(MODI)相比,開始支持長短時記憶神經(jīng)網(wǎng)絡(luò)(LSTM),可以通過不斷的數(shù)據(jù)集進(jìn)行訓(xùn)練訓(xùn)練,將文字識別的準(zhǔn)確率不斷提高,現(xiàn)已經(jīng)支持對一百多門語言的文字進(jìn)行識別處理。
3 軟件總體設(shè)計
3.1 功能需求
本軟件主要實(shí)現(xiàn)的功能是用戶通過拍照上傳試題圖片的方式,在本地生成對應(yīng)文字識別后的電子型試題,同時包括對試題內(nèi)容的修改、共享功能等實(shí)現(xiàn),主要功能模塊如下。
1) 注冊模塊:新用戶在軟件的賬戶注冊頁面,填寫相關(guān)用戶信息,向系統(tǒng)進(jìn)行提交并反饋對應(yīng)注冊號狀態(tài)。
2) 登錄模塊:用戶在軟件登錄頁面填寫賬戶名和密碼,向系統(tǒng)提交請求后,自動進(jìn)行身份校驗(yàn),如果賬戶名與密碼匹配成功則進(jìn)入軟件首頁,否則提示登錄失敗的原因和重新填寫信息的語句。
3) 圖片上傳模塊:用戶在移動端首頁點(diǎn)擊相機(jī)形狀的按鈕,通過拍照的方式將紙質(zhì)試題的內(nèi)容上傳,在上傳過程中用戶可以調(diào)用圖片剪切功能,對需要上傳的圖片大小進(jìn)行調(diào)整,然后向系統(tǒng)發(fā)出請求。
4) 試題共享模塊:用戶在“個人試題中心”可以選擇試題將其添加入共享區(qū);已添加至共享區(qū)的試卷可被其他用戶查看與使用。如果用戶在本地共享后的試題發(fā)生了修改,共享區(qū)對應(yīng)的試題內(nèi)容也發(fā)生改變。
5) 試題內(nèi)容修改功能:用戶在試卷上傳完成后,可以在試卷對應(yīng)的修改功能區(qū)對其進(jìn)行修改。
6) 試題文字識別模板:該模板作為此軟件的核心模板,它需要根據(jù)用戶上傳的圖片進(jìn)行文字的提取,并按照圖片對應(yīng)的題型轉(zhuǎn)化成電子試題。為保證試題文字識別的準(zhǔn)確率,系統(tǒng)將會優(yōu)先從已有的試題庫中進(jìn)行文字匹配,將其反饋給用戶,用戶可以拒絕選擇試題庫識別的試題,選擇當(dāng)前拍照所轉(zhuǎn)化的電子試題。圖1為試題生成軟件的功能模板。
3.2 非功能需求
1) 實(shí)時性:用戶對試題修改完成后,共享區(qū)中對應(yīng)分享的試卷同步修改,保證其他用戶在使用時的實(shí)時性與準(zhǔn)確性。
2) 可靠性:針對具體模塊的數(shù)據(jù)庫,指定備份與恢復(fù)機(jī)制。建立多級系統(tǒng)日志功能,將對應(yīng)產(chǎn)生的事件或錯誤信息進(jìn)行記錄。保證用戶上傳試卷的完整性與軟件的使用可靠度。
3) 獨(dú)立性:每個用戶正在使用的試卷都獨(dú)立的保存在本地,無網(wǎng)絡(luò)請求,保證了用戶使用的穩(wěn)定性的需求,同時減輕了服務(wù)器被頻繁訪問帶來的壓力。
3.3 用戶需求
用戶在登錄成功后將出現(xiàn)一個氣泡導(dǎo)航欄,其包括三個部分,首頁部分主要使用的功能是拍照上傳并生成對應(yīng)的試題,第二個部分為所有用戶共享部分,可以拉取個人所需要的試題至本地保存,最后一部分為個人試題部分,包含有個人上傳的信息和生成、拉取的電子試題。
3.4 試題生成流程設(shè)計
用戶在使用試題拍照功能模塊的時候,將首先對其的身份進(jìn)行校驗(yàn),判斷其是否成功登錄,如果未登錄將會跳轉(zhuǎn)至登錄頁面。校驗(yàn)成功后調(diào)用相機(jī)的拍照功能,同時可以對所拍的圖片進(jìn)行大小截取。然后將圖片向系統(tǒng)進(jìn)行提交后,開始文字識別,生成對應(yīng)的電子試題,用戶可以選擇除軟件智能轉(zhuǎn)化的試題外,還可以選擇從試題數(shù)據(jù)庫中匹配的相關(guān)試題。圖2為試題生成流程圖。
4 文字識別
服務(wù)器對用戶上傳的圖片進(jìn)行文字識別試題生成的過程:
1) 服務(wù)器在接收到用戶的發(fā)出的照片請求后,首先對圖片進(jìn)行灰度轉(zhuǎn)化,將彩色的圖像進(jìn)行灰度處理,對每個像素點(diǎn)進(jìn)行顏色的RGB值(0~255之間)的轉(zhuǎn)換,同時對轉(zhuǎn)化后的RGB值的三個分量進(jìn)行YUV顏色模型求解,再全部儲存在對應(yīng)的矩陣中,繼而建立灰度圖,其中YUV顏色模型為:Y=0.3R+0.58G+0.11B[2]。圖3為上傳的測試試題原圖片。
2) 完成灰度圖的轉(zhuǎn)化后,將轉(zhuǎn)化后的灰度圖進(jìn)行二值化處理:對灰度圖對應(yīng)的矩陣中的值進(jìn)行處理,將像素值小于K值的點(diǎn)設(shè)為0轉(zhuǎn)化為黑色,將像素點(diǎn)大于等于K值的點(diǎn)設(shè)為255轉(zhuǎn)化為白色,其中闕值K采用雙峰法進(jìn)行計算[3],并根據(jù)數(shù)組中數(shù)值大小進(jìn)行間距分割。圖4為二值化處理并間隔計算后的結(jié)果圖。