李文濤,戴 永,彭喻杰,謝建斌
(湘潭大學(xué)智能計(jì)算與信息處理教育部重點(diǎn)實(shí)驗(yàn)室,湖南湘潭411105)
多文種融合文字書(shū)寫(xiě)教學(xué)知識(shí)及其自動(dòng)生成方法
李文濤,戴 永,彭喻杰,謝建斌
(湘潭大學(xué)智能計(jì)算與信息處理教育部重點(diǎn)實(shí)驗(yàn)室,湖南湘潭411105)
多文種融合文字書(shū)寫(xiě)教學(xué)系統(tǒng)的教學(xué)資源具有多語(yǔ)源的特點(diǎn),但存在知識(shí)點(diǎn)數(shù)據(jù)類(lèi)型多、計(jì)算結(jié)構(gòu)復(fù)雜等不足。為此,依據(jù)不同文種文字書(shū)寫(xiě)的異性與共性規(guī)律,提出基于文字書(shū)寫(xiě)過(guò)程計(jì)算的知識(shí)點(diǎn)自動(dòng)生成方法。將多文種的筆畫(huà)、筆畫(huà)關(guān)系、部件關(guān)系等計(jì)算元按共享、分類(lèi),給出各類(lèi)計(jì)算元編碼空間的計(jì)算方法,定義面向各文種通用的文字書(shū)寫(xiě)過(guò)程計(jì)算模型,設(shè)計(jì)并實(shí)現(xiàn)計(jì)算模型中各計(jì)算元編碼的自動(dòng)生成算法。實(shí)驗(yàn)結(jié)果表明,該方法能準(zhǔn)確識(shí)別各種知識(shí)要素,筆畫(huà)及各類(lèi)關(guān)系的識(shí)別正確率達(dá)到98.3%,與人工編碼相比,錄入速率提高15%,冗碼率降低23%。
多文種融合;文字書(shū)寫(xiě)教學(xué);知識(shí)點(diǎn);文字書(shū)寫(xiě)過(guò)程計(jì)算模型;計(jì)算元;自動(dòng)編碼
作為文字書(shū)寫(xiě)自動(dòng)教學(xué)系統(tǒng)[1-2],文字書(shū)寫(xiě)教學(xué)知識(shí)是實(shí)現(xiàn)系統(tǒng)教學(xué)功能的必備資源。教學(xué)知識(shí)研究包括兩方面內(nèi)容,即知識(shí)庫(kù)結(jié)構(gòu)與知識(shí)點(diǎn)。知識(shí)庫(kù)結(jié)構(gòu)研究已趨成熟[3-4],單文種知識(shí)點(diǎn)的構(gòu)造方法已進(jìn)入實(shí)用階段,如文獻(xiàn)[5]采用筆畫(huà)以及筆畫(huà)書(shū)寫(xiě)順序作為知識(shí)點(diǎn)結(jié)構(gòu)來(lái)指導(dǎo)英文字母書(shū)寫(xiě);文獻(xiàn)[9]按筆畫(huà)與筆畫(huà)關(guān)系知識(shí)點(diǎn)結(jié)構(gòu)設(shè)計(jì)了基于關(guān)系圖的漢字匹配算法指導(dǎo)漢字書(shū)寫(xiě)。知識(shí)點(diǎn)構(gòu)建方法分手動(dòng)和自動(dòng)兩大類(lèi),知識(shí)面窄、量少時(shí)可以采用手動(dòng),多文種融合使得知識(shí)點(diǎn)數(shù)據(jù)類(lèi)型多、計(jì)算結(jié)構(gòu)復(fù)雜及知識(shí)量大等,為提高工作效率與知識(shí)正確率應(yīng)采用自動(dòng)方法。本文依據(jù)不同文種書(shū)寫(xiě)過(guò)程所具備的公共與獨(dú)特形態(tài)、公共與獨(dú)特規(guī)則,提出多文種文字書(shū)寫(xiě)教學(xué)的通用教學(xué)知識(shí)點(diǎn)結(jié)構(gòu)及其自動(dòng)生成的方法。將各文種的筆畫(huà)與關(guān)系分為共享及獨(dú)特兩大類(lèi);設(shè)計(jì)綜合兩類(lèi)的編碼結(jié)構(gòu);給出各類(lèi)計(jì)算元編碼空間的計(jì)算方法,定義文字書(shū)寫(xiě)過(guò)程計(jì)算模型,實(shí)現(xiàn)知識(shí)點(diǎn)主導(dǎo)筆順、錯(cuò)交筆順、錯(cuò)離筆順等的自動(dòng)編碼,缺省的融合文種含漢字、英文、漢語(yǔ)拼音。
筆畫(huà)、筆畫(huà)關(guān)系、部件關(guān)系是文字結(jié)構(gòu)的要素,也是文字書(shū)寫(xiě)教學(xué)的基本內(nèi)容。不同文種有各自的筆畫(huà)、筆畫(huà)關(guān)系、部件關(guān)系集合,在形態(tài)及書(shū)寫(xiě)過(guò)程等方面雖獨(dú)具特色但也不可避免會(huì)形成相交內(nèi)容。
其中,α(·)表示多文種共享的筆畫(huà)數(shù)目;β(·)表示由“·”個(gè)文種的共享筆畫(huà)構(gòu)成的集合,記共享筆畫(huà)數(shù)量為:
用f(us)表示A個(gè)文種的獨(dú)特筆畫(huà)數(shù)目:
A種文種融合后的筆畫(huà)全集記為:
各筆畫(huà)子集之間無(wú)交集。
同理可計(jì)算融合后總的筆畫(huà)關(guān)系子集數(shù)量F(sr)、部件關(guān)系子集數(shù)量F(pr)。分別用λ(·),χ(·)依次表示共享筆畫(huà)關(guān)系、部件關(guān)系的數(shù)目,用φ(·),φ(·)分別依次表示共享筆畫(huà)關(guān)系、部件關(guān)系元素構(gòu)成的集合,共享筆畫(huà)關(guān)系數(shù)量f(ssr)和共享部件關(guān)系數(shù)量f(spr)計(jì)算結(jié)構(gòu)與式(2)相同。獨(dú)特筆畫(huà)關(guān)系數(shù)量f(usr)和獨(dú)特部件關(guān)系數(shù)量f(upr)計(jì)算結(jié)構(gòu)與式(3)相同。A種文種融合后的筆畫(huà)關(guān)系、部件關(guān)系全集分別依次記為φ,φ,各子集關(guān)系描述類(lèi)同β。用L表示文種,表1給出A種文種筆畫(huà)的共享與獨(dú)特情況分析,筆畫(huà)關(guān)系、部件關(guān)系分析結(jié)構(gòu)類(lèi)同,即將筆畫(huà)子集的β,w分別依次用φ,r*和φ,rρ替代便可。
表1 A種文種融合筆畫(huà)共享與獨(dú)特情況
為適用多文種通用的部件描述,部件分割采用定制法,即當(dāng)緊鄰前后2條筆畫(huà)的空間位置關(guān)系超出所在系統(tǒng)設(shè)置的分析能力,稱(chēng)其為具有不可計(jì)算性,并認(rèn)為此2條筆畫(huà)處于2個(gè)相鄰的部件中,在2條筆畫(huà)間插入部件關(guān)系符。
教學(xué)知識(shí)點(diǎn)通用的基本內(nèi)容與結(jié)構(gòu)如圖1所示。
圖1 通用的文字書(shū)寫(xiě)教學(xué)知識(shí)點(diǎn)結(jié)構(gòu)
第2字段為被教學(xué)文字的標(biāo)準(zhǔn)編碼,如漢字采用國(guó)標(biāo)GB2312-80編碼(區(qū)位碼),英文字母采用ASCII碼等;第3字段、第4字段用于文字書(shū)寫(xiě)質(zhì)量分析[7];第5字段用于產(chǎn)生文字語(yǔ)音碼[8]。第1字段是被練習(xí)文字書(shū)寫(xiě)過(guò)程的計(jì)算結(jié)構(gòu),計(jì)算元為筆畫(huà)、筆畫(huà)關(guān)系、部件關(guān)系等要素,為本文的重點(diǎn)研究對(duì)象。
3.1 元編碼計(jì)算
對(duì)計(jì)算元編碼應(yīng)滿(mǎn)足的基本要求為:(1)不同計(jì)算元有明顯的數(shù)值段;(2)能體現(xiàn)不同文種共享與獨(dú)特計(jì)算元的區(qū)別;(3)具有能自動(dòng)適用于文種增加和計(jì)算元補(bǔ)充的編碼變換機(jī)制等。
采用10進(jìn)制數(shù)字編碼。以筆畫(huà)編碼為基準(zhǔn)編碼,單粒度占用編碼范圍為1~(f(ss)+f(us)),當(dāng)粒度為m時(shí),編碼范圍為1~m×(f(ss)+f(us)),考慮筆畫(huà)的擴(kuò)充,設(shè)置編碼裕量。記ε(ss),ε(us)分別依次為共享、獨(dú)特筆畫(huà)編碼裕量,則確認(rèn)的筆畫(huà)編碼范圍為1~m×(f(ss)+ε(ss)+f(us)+ε(us)),最大值需j位表示,個(gè)位為1高位為j-1個(gè)0是首條共享筆畫(huà)的編碼。編碼數(shù)目為m×(f(ss)+ε(ss)+f(us)+ε(us))。w的最高位位值用bitmax表示,令B1為對(duì)應(yīng)于筆畫(huà)關(guān)系r*類(lèi)編碼,當(dāng)w(bitmax)+b≤9,b∈{1,2,…,8},B1取j位,且w(bitmax)<B1(bitmax)≤w(bitmax)+b,低j-1位編碼全取0;否則B1取j+1位,B1(bitmax)=1,低j位編碼全取0。確認(rèn)的r*類(lèi)編碼范圍為B1(bitmax)×10(j-1 orj)~[B1(bitmax)× 10(j-1∩or∩j)+(f(ssr)+ε(ssr)+f(usr)+ε(usr))],ε(ssr),ε(usr)分別依次為共享、獨(dú)特筆畫(huà)關(guān)系編碼裕量。B1(bitmax)×10(j-1 or j)為首個(gè)共享筆畫(huà)關(guān)系的編碼。從文字書(shū)寫(xiě)教學(xué)的角度出發(fā),筆畫(huà)關(guān)系編碼需進(jìn)行多層次空間關(guān)系描述。設(shè)建立e層空間關(guān)系,r*編碼的完整結(jié)構(gòu)定義為B1(B2B3…Be+1),B2B3…Be+1為空間關(guān)系細(xì)分描述碼,Bi是對(duì)Bi-1的進(jìn)一步細(xì)分(i∈{2,3,…,e+1},Bi∈{0,1,…,9}),e+1越大,空間關(guān)系描述越精細(xì)。設(shè)b2b3…be+1依次分別對(duì)應(yīng)B2B3…Be+1的取碼數(shù)量,筆畫(huà)關(guān)系編碼數(shù)目為(f(ssr)+ε(ssr)+f(usr)+ε(usr))×b2× b3…×be+1。部件關(guān)系與筆畫(huà)關(guān)系的接碼及其編碼原理基本類(lèi)似筆畫(huà)關(guān)系與筆畫(huà),不同之處在于部件關(guān)系編碼的結(jié)尾碼字標(biāo)注的該部件與后續(xù)多少部件構(gòu)成該關(guān)系編碼所標(biāo)注的關(guān)系,用x表示結(jié)尾碼,其缺省值為1,x無(wú)當(dāng)前空間標(biāo)識(shí)作用,因此不影響編碼數(shù)量。
算法1 編碼空間生成
輸入 m,f(ss),f(us),ε(ss),ε(us),f(ssr),f(usr),ε(ssr),ε(usr),e(sr),f(spr),f(upr),ε(spr),ε(upr),e(pr)
3.2 結(jié)構(gòu)計(jì)算
文字書(shū)寫(xiě)過(guò)程的計(jì)算內(nèi)容及其關(guān)系定義為:主導(dǎo)筆順||錯(cuò)交筆順||錯(cuò)離筆順。
圖2 文字示例
以Q表示文字的書(shū)寫(xiě)過(guò)程計(jì)算結(jié)構(gòu),書(shū)寫(xiě)過(guò)程中的定制部件記為M,Q定義為:
為便于式(5)各計(jì)算元的分類(lèi)輸入與庫(kù)存管理、筆順跟蹤及逆跨分析等,按后綴波蘭式結(jié)構(gòu)重排計(jì)算元。去掉“+”號(hào),用Q(B)表示Q的后綴波蘭式,于是:
將式(6)表示為向量,即有:
通過(guò)對(duì)文字標(biāo)準(zhǔn)書(shū)寫(xiě)結(jié)構(gòu)的跟蹤生成W,R,WEC,WEL。
4.1 主導(dǎo)筆順碼鏈的生成
主導(dǎo)筆順碼鏈生成是基礎(chǔ)。跟蹤主導(dǎo)筆順不但要給出W,R,還要為生成WEC,WEL準(zhǔn)備筆畫(huà)數(shù)據(jù)。R中既有r*,也有rρ,兩者的生成方法有較大區(qū)別。4.1.1 筆畫(huà)與筆畫(huà)關(guān)系編碼
借鑒已有成果[9-10]對(duì)當(dāng)前書(shū)寫(xiě)筆畫(huà)wi(i=2,3,…,k)進(jìn)行識(shí)別,將識(shí)別結(jié)果的筆畫(huà)編碼有序存入W。在wi,wi-1之間進(jìn)行e+1次計(jì)算分析,將r*i-1的屬性編碼有序存入R。當(dāng)wi,wi-1之間無(wú)法在系統(tǒng)中找到相應(yīng)的計(jì)算模型分析時(shí),在wi,wi-1之間預(yù)置部件分割的通用標(biāo)志。寫(xiě)完文字最后一條筆畫(huà),即i=k,W生成結(jié)束;R中r*有確定的代碼,但其中需進(jìn)一步分析;提供k行筆跡數(shù)據(jù)陣列S[k, lmax],lmax為該字最長(zhǎng)的筆畫(huà)筆跡點(diǎn)數(shù)量。
4.1.2 部件關(guān)系編碼
部件關(guān)系依托R,S[k,lmax]分析。設(shè)R中存在m個(gè)。在R中搜素到(j=1,2,…,m),在S[k,lmax]中獲取Mj,Mj+1所含w,利用φ元素所適用的計(jì)算模型分析關(guān)系,將分析結(jié)果對(duì)應(yīng)的編碼有序存于位置。第1輪均按x=1建立部件關(guān)系,第2輪進(jìn)行跨部件關(guān)系分析,即如果關(guān)系與關(guān)系相同,則x+1。依次類(lèi)推,直至j=m-2。
4.2 錯(cuò)交筆順向量的生成
文字書(shū)寫(xiě)主導(dǎo)筆順正確,進(jìn)行錯(cuò)交碼對(duì)偶預(yù)測(cè)。在S[k,lmax]中,對(duì)于wi,wj(i>j+1,i,j∈{1,2,…,k}),將wi兩端點(diǎn)的筆段按其形態(tài)進(jìn)行延伸,對(duì)所有的wj(j∈{i-2,i-3,…,1})進(jìn)行十字交關(guān)系分析,形成初選筆畫(huà)書(shū)寫(xiě)序號(hào)構(gòu)成的十字交序號(hào)對(duì)偶序列,借助共享工作容器進(jìn)行對(duì)偶元素去留分析,分析模型為S[k,lmax]。
即將wi端點(diǎn)到wi,wj交點(diǎn)距離最短的那一對(duì)(i,j)有序填入WEC。dis(wi-endp,w iw j-Inters)為wi端點(diǎn)到wi,wj十字交點(diǎn)的距離計(jì)算函數(shù)。
4.3 錯(cuò)離筆順向量生成
對(duì)于書(shū)寫(xiě)結(jié)構(gòu)確認(rèn)正確的W,設(shè)其存在q對(duì)有可能產(chǎn)生錯(cuò)離的筆畫(huà),在S[k,lmax]中取第τ對(duì)可能產(chǎn)生錯(cuò)離的wi,wj(i>j+1,i,j∈{1,2,…k}),記為wiτ,wjτ,τ=1,2,…,q,識(shí)別wiτ,wjτ之間的關(guān)系,并根據(jù)類(lèi)別選擇ξ,將對(duì)應(yīng)的編碼、當(dāng)前(i,j)和ξ一起構(gòu)成結(jié)構(gòu),將此結(jié)構(gòu)先存儲(chǔ)在共享工作容器內(nèi)。如此,完成q對(duì)筆畫(huà)的錯(cuò)離碼鏈在WEL中的生成。
4.4 算法設(shè)計(jì)
知識(shí)碼鏈的生成過(guò)程分為2個(gè)階段,第1階段是跟蹤文字書(shū)寫(xiě)過(guò)程實(shí)時(shí)生成W、R中的r*及S[k,lmax];第2階段是基于S[k,lmax]生成R中的rρ與WEC,WEL。主要步驟如下:
算法2 Q(B)生成
Step1 讀入當(dāng)前書(shū)寫(xiě)筆畫(huà)數(shù)據(jù);
Step2 對(duì)筆畫(huà)數(shù)據(jù)進(jìn)行前置處理[11],并有序存入S[k,lmax];
Step3 識(shí)別當(dāng)前筆畫(huà),將對(duì)應(yīng)的筆畫(huà)編碼有序存入W;
Step4 對(duì)于非第1條筆畫(huà),分析其與前條筆畫(huà)的關(guān)系,存在關(guān)系,將關(guān)系碼有序存入R;不存在則存入部件分割標(biāo)注;
Step5 是否有文字寫(xiě)完信息,無(wú)則轉(zhuǎn)Step1;
Step6 基于S[k,lmax]查詢(xún)部件分割標(biāo)志,識(shí)別部件關(guān)系,將關(guān)系碼替代分割標(biāo)志符;
Step7 基于預(yù)測(cè)錯(cuò)交筆畫(huà),將預(yù)測(cè)的錯(cuò)交筆畫(huà)的序號(hào)對(duì)偶有序存入WEC;
Step8 基于S[k,lmax]預(yù)測(cè)錯(cuò)離筆畫(huà),將預(yù)測(cè)的錯(cuò)離筆畫(huà)的4元結(jié)構(gòu)有序存入WEL;
Step9 結(jié)束。
實(shí)驗(yàn)平臺(tái)主要硬件模塊包括7英寸觸摸屏及S3C2440A,32 bit ARM 920T內(nèi)核及其控制器,標(biāo)準(zhǔn)配置64 MB NAND-FLASH,標(biāo)準(zhǔn)配置64 MB SDRAM等。軟件開(kāi)發(fā)環(huán)境為VS2005,操作系統(tǒng)為W ince 5.0,開(kāi)發(fā)語(yǔ)言為C++。以漢字(L1)、英文(L2)、漢拼(L3)融合為例,即A=3。3文種融合的相關(guān)信息結(jié)構(gòu)如表2所示。
表2 3文種計(jì)算元共享與獨(dú)特內(nèi)容及其對(duì)應(yīng)的編碼空間
表2中沒(méi)有參數(shù)的子集欄目表明該子集為空。取筆畫(huà)粒度m=2,即筆畫(huà)規(guī)模按長(zhǎng)、短2種狀態(tài)設(shè)置,f(ss)+f(us)=72,取ε(ss)=10,ε(us)=17,編碼空間為001~198;筆畫(huà)關(guān)系空間采用3-3細(xì)分編碼,即e(sr)= 2,b2=3,b3=3,B2,B3∈{0,1,2}f(ssr)=4,f(usr)=5,取ε(ssr)=2,ε(usr)=9,編碼空間為20 000~21 922;部件關(guān)系空間采用3區(qū)位細(xì)分編碼,即e(pr)=1,b2=3,B2∈{0,1,2},f(spr)=2,f(upr)=1,取ε(spr)=2,ε(upr)= 5,編碼空間為3 000x~3 192x。3類(lèi)計(jì)算元編碼空間欄給出由算法1生成的相應(yīng)類(lèi)計(jì)算元編碼空間。圖3所示為“體”、“E”字的書(shū)寫(xiě)教學(xué)知識(shí)形態(tài)或模板結(jié)構(gòu)及其Q(B)的生成內(nèi)容。
對(duì)于模板“體”,寫(xiě)完第1條筆畫(huà),筆跡點(diǎn)坐標(biāo)數(shù)據(jù)被記錄于S[1],筆畫(huà)識(shí)別模塊將該識(shí)別結(jié)果“008”存于Cstroke(筆畫(huà)碼)容器,并在圖3(a)界面的W子窗口顯示;第2條寫(xiě)完,筆跡數(shù)據(jù)放入S[2],識(shí)別結(jié)果“006”放入前條筆畫(huà)編碼之后。依據(jù)S[1]、S[2]進(jìn)行第2條筆畫(huà)、第1條筆畫(huà)關(guān)系識(shí)別,該關(guān)系為T(mén)字交關(guān)系,生存的編碼為“20311”,存于Crelation(關(guān)系碼)容器,并顯示于圖3(a)的R子窗口。第3畫(huà)“短橫”與第2畫(huà)“長(zhǎng)豎”本系統(tǒng)無(wú)法確定兩者空間關(guān)系,在第2畫(huà)之后插入部件分割標(biāo)志代碼p,將兩者定制在兩個(gè)緊鄰部件中,并記錄該標(biāo)志在Crelation中序號(hào)。如此直至第7條筆畫(huà)即該字的最后一條筆畫(huà)寫(xiě)完,主導(dǎo)筆順的Cstroke生成結(jié)束,Crelation筆畫(huà)關(guān)系編碼生成完畢,但部件關(guān)系待進(jìn)一步分析確定?!绑w”的書(shū)寫(xiě)數(shù)據(jù)S[k,lmax]如表3所示,其中,k=7,lmax=42,xmax=63,xmin=19,ymax= 62,ymin=24。
圖3 文字書(shū)寫(xiě)教學(xué)知識(shí)生成實(shí)例
表3 “體”字S[k,lmax]
根據(jù)記錄的標(biāo)注符在Crelation中的序號(hào),第1輪按序進(jìn)行由標(biāo)注符分割的筆畫(huà)子集(部件)之間的關(guān)系識(shí)別。該文字只記錄了1個(gè)標(biāo)注符,且序號(hào)為2,即圖3(a)“體”在書(shū)寫(xiě)過(guò)程中被定制為M 1和M 22個(gè)部件,M 1?{S[1],S[2]},M 2?{S[3],S[4],S[5],S[6],S[7]}。利用均質(zhì)比較法識(shí)別M 1,M 2關(guān)系為居中左右關(guān)系,賦予30011碼,該碼存于Crelation容器,并顯示在圖3(a)的R子窗口。
從S[3]開(kāi)始進(jìn)行錯(cuò)交預(yù)測(cè)。端點(diǎn)筆段長(zhǎng)度取5,延伸步長(zhǎng)取2,延伸長(zhǎng)度至文字最值邊線,預(yù)測(cè)結(jié)果存入Cerrorc(錯(cuò)交碼)容器,并顯示在圖3(a)的WEC子窗口。從S[3]開(kāi)始進(jìn)行錯(cuò)離預(yù)測(cè),十字交取ξ=0,點(diǎn)與筆畫(huà)T字交取ξ=2,端點(diǎn)T字取ξ=5,預(yù)測(cè)結(jié)果存入Cerrorl(錯(cuò)離碼)容器,并顯示在圖3(a)的WEL子窗口。
圖3(b)為英文大寫(xiě)字母“E”的書(shū)寫(xiě)模板及其Q(B),該字存在一對(duì)預(yù)測(cè)錯(cuò)交筆畫(huà),無(wú)錯(cuò)離結(jié)構(gòu)。
對(duì)30個(gè)英文字母、30個(gè)漢語(yǔ)拼音字母、340個(gè)漢字進(jìn)行編碼實(shí)驗(yàn),正確率達(dá)到98.3%,錄入速率與人工編碼比較,效率提高15%,冗碼率如圖4所示,字?jǐn)?shù)越多,人工冗碼率越大,而自動(dòng)編碼較平穩(wěn)。
圖4 手動(dòng)與自動(dòng)生成知識(shí)點(diǎn)冗碼率對(duì)比
教學(xué)知識(shí)點(diǎn)的自動(dòng)生成是多文種融合的文字書(shū)寫(xiě)教學(xué)系統(tǒng)核心技術(shù)之一。教學(xué)知識(shí)點(diǎn)的內(nèi)容結(jié)構(gòu)具有雙重性,過(guò)于簡(jiǎn)單生成容易,但影響教學(xué)效果和質(zhì)量,乃至系統(tǒng)的實(shí)用性;過(guò)于復(fù)雜又會(huì)導(dǎo)致系統(tǒng)的存儲(chǔ)、速度、算法復(fù)雜度等開(kāi)銷(xiāo)增大。本文方法在文獻(xiàn)[1]系統(tǒng)中得到應(yīng)用,編碼與建模方法按文獻(xiàn)[12-13]等予以改進(jìn),結(jié)構(gòu)分析方法借鑒文獻(xiàn)[14-15]等進(jìn)行優(yōu)化,相應(yīng)的教室系統(tǒng)見(jiàn)文獻(xiàn)[16]。
本文從人們書(shū)寫(xiě)文字的共性出發(fā),提煉不同文種文字的共享結(jié)構(gòu)與獨(dú)特結(jié)構(gòu)進(jìn)行探索,給出多文種融合的計(jì)算元數(shù)量及其編碼空間計(jì)算規(guī)則;提出多文種通用的基于筆畫(huà)、筆畫(huà)關(guān)系及部件關(guān)系等計(jì)算元的文字書(shū)寫(xiě)過(guò)程計(jì)算模型;設(shè)計(jì)并實(shí)現(xiàn)了知識(shí)點(diǎn)各字段的生成算法。實(shí)驗(yàn)結(jié)果表明,該方法筆畫(huà)及各類(lèi)關(guān)系識(shí)別的正確率達(dá)到98.3%,錄入效率提高15%。
[1] 戴 永,劉任任,王求真,等.可聯(lián)網(wǎng)交互的多功能規(guī)定格式習(xí)字系統(tǒng)及方法:中國(guó),ZL201010149767.2[P]. 2010-09-01.
[2] Hammadi M,Bezine H,Njah S,et al.Towards an Educational Tool for Arabic Handwriting Learning[C]// Proceedings of IEEE ICEELI'12.Wacington D.C.,USA:IEEE Press,2012:1-6.
[3] Kherallah M,Bouri F,Alimi A M.On-line Arabic Handwriting Recognition System Based on Visual Encoding and Genetic Algorithm[J].Engineering Applications of Artificial Intelligence,2009,22(1):153-170.
[4] 鄢 琦,駱仁波,皮佑國(guó).無(wú)字庫(kù)智能造字中漢字基元的統(tǒng)計(jì)分析與預(yù)測(cè)[J].計(jì)算機(jī)研究與發(fā)展,2012,22(4):33-36.
[5] 戴 永,王心覺(jué),張維靜,等.面向指導(dǎo)的自由式英文字母書(shū)寫(xiě)跟蹤[J].湘潭大學(xué)自然科學(xué)學(xué)報(bào),2012,34(2):85-89.
[6] Hu Z,Leung H,Xu Y.Automated Chinese Handwriting Error Detection Using Attributed Relational Graph Matching[C]//Proceedings of ICWL'08.Berlin,Germ any:Springer,2008:344-355.
[7] 王 耀,戴 永.規(guī)定格式文字書(shū)寫(xiě)練習(xí)質(zhì)量普適評(píng)價(jià)[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(29):69-72.
[8] 孫廣武,戴 永,喻世東,等.音素關(guān)聯(lián)的多文種語(yǔ)音融合編碼方法[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(19):217-221.
[9] Liu C L,Jaeger S,Nakagawa M.Online Recognition of Chinese Characters:The State-of-the-art[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2004,26(2):198-213.
[10] Tan C K.An Algorithm for Online Strokes Verification of Chinese Characters Using Discrete Features[C]// Proceedings of the 8th International Workshop on Frontiers in Handwriting Recognition.Wacington D.C.,USA:IEEE Press,2002:339-344.
[11] 覃冰梅,戴 永,樊 亮.面向聯(lián)機(jī)書(shū)寫(xiě)指導(dǎo)的觸摸筆跡信息前置處理[J].計(jì)算機(jī)應(yīng)用研究,2012,29(9):3365-3368.
[12] Chen Tieling,Dylon E,M a Jun.Binary Search Tree with Vine[J].Natural Science Journal of Xiangtan University,2013,35(3):1-8.
[13] 余 英,羅永超,程明寶.帶分批的一類(lèi)具有惡化加工時(shí)間的排序問(wèn)題的算法研究[J].湘潭大學(xué)自然科學(xué)學(xué)報(bào),2013,35(2):14-16.
[14] 任 昆,戴 永,王求真,等.上下文感知手寫(xiě)數(shù)學(xué)公式結(jié)構(gòu)分析[J].湘潭大學(xué)自然科學(xué)學(xué)報(bào),2014,36(2):85-91.
[15] 游應(yīng)德,李成大.一種邊界梯度組合的圖像識(shí)別技術(shù)與分割方法[J].湘潭大學(xué)自然科學(xué)學(xué)報(bào),2014,36(2):99-103.
[16] 喻世東,戴 永,王求真,等.適用于文字書(shū)寫(xiě)教學(xué)教室系統(tǒng)的嵌入式局域網(wǎng)協(xié)議[J].計(jì)算機(jī)工程,2014,40(9):284-290.
編輯 索書(shū)志
Multilingual Integration Text Writing Teaching Know ledge and Its Automatic Generation Method
LI Wentao,DAIYong,PENG Yujie,XIE Jianbin
(Key Laboratory of Intelligent Computing and Information Processing,Ministry of Education,Xiangtan University,Xiangtan 411105,China)
The teaching resources features of multilingual integration writing teaching system expresses asmultilingual sources leading to data types of know ledgemore,comp lex calculation structures,greater know ledge and so on.According to heterosexual and common rule of writing in different languages,the method is proposed based on the know ledge automatic generation of the calculating of writing on the process.The Computing elements including stroke,stroke relations,component relations are classified by sharing,unique,and the calculation method of all kinds of computing elements coding space is given,the general writing on the process of calculating model which is know ledge structure for the various text types is defined,the automatic generation algorithm of each computing element coding in calculation model is designed and realized.Experimental results show that the generation method can accurately identify various know ledge elements,correct identification rate of strokes and various relations reaches 98.3%,the rate of entry improves 15%efficiency compared with manual coding,redundancy rate decreases by 23%.
multilingual integration;text writing teaching;know ledge point;calculation model of text writing process;computing element;automatic coding
李文濤,戴 永,彭喻杰,等.多文種融合文字書(shū)寫(xiě)教學(xué)知識(shí)及其自動(dòng)生成方法[J].計(jì)算機(jī)工程,2015,41(11):218-223,231.
英文引用格式:Li Wentao,Dai Yong,Peng Yujie,et al.Multilingual Integration Text Writing Teaching Know ledge and Its Automatic Generation Method[J].Computer Engineering,2015,41(11):218-223,231.
1000-3428(2015)11-0218-06
A
TP18
10.3969/j.issn.1000-3428.2015.11.038
湖南省教育廳基金資助項(xiàng)目(13C914);湖南省“十二五”重點(diǎn)學(xué)科建設(shè)基金資助項(xiàng)目。
李文濤(1986-),男,碩士研究生,主研方向:知識(shí)處理,智能系統(tǒng);戴 永,教授;彭喻杰,講師;謝建斌,碩士研究生。
2014-10-10
2014-11-29 E-m ail:liw entaoss@sohu.com