唐心亮,王 靖,王震洲
(1.河北科技大學(xué)人事處,河北石家莊 050018;2.唐山師范學(xué)院計(jì)算機(jī)科學(xué)系,河北唐山063000;3.河北科技大學(xué)信息科學(xué)與工程學(xué)院,河北石家莊 050018)
基于馬爾科夫鏈模型的論文格式審查系統(tǒng)
唐心亮1,王 靖2,王震洲3
(1.河北科技大學(xué)人事處,河北石家莊 050018;2.唐山師范學(xué)院計(jì)算機(jī)科學(xué)系,河北唐山063000;3.河北科技大學(xué)信息科學(xué)與工程學(xué)院,河北石家莊 050018)
提出一種基于圖像處理審查論文格式的方法,該方法依據(jù)論文電子版文檔圖像像素點(diǎn)間的相關(guān)性,應(yīng)用馬爾科夫鏈模型分割文檔圖像為正文、標(biāo)題和圖片部分,在人工設(shè)定的論文格式規(guī)則基礎(chǔ)上,對(duì)論文的每頁圖像進(jìn)行分類審查,可有效提高論文格式審查效率。
論文格式審查;圖像分割;馬爾科夫鏈;格式規(guī)則
隨著中國(guó)高等教育進(jìn)入大眾化階段,普通本科生、研究生以及各類學(xué)位的攻讀人數(shù)逐年增加,論文格式審查工作也逐年繁重。格式審查費(fèi)時(shí)費(fèi)力,然而,目前國(guó)內(nèi)外尚無具體的論文格式審查系統(tǒng)的研究和應(yīng)用成果。近年來,圖像處理技術(shù)在各領(lǐng)域得到廣泛應(yīng)用,筆者結(jié)合該技術(shù)提出一種審查論文格式的方法。
由于不同學(xué)校的論文格式要求各異,論文不同部分的格式要求也不盡相同,因此論文審查難度較大。為了提高論文檢測(cè)的速度和準(zhǔn)確性,同時(shí)滿足論文審查技術(shù)的適應(yīng)性,筆者提出的審查論文格式的技術(shù)主要包括2部分。1)圖像分割:用馬爾科夫鏈模型對(duì)被測(cè)論文電子版文檔進(jìn)行分割,分割出每頁圖像的正文、標(biāo)題、圖片部分。2)格式審查:手工設(shè)定的論文格式規(guī)則,在此基礎(chǔ)上提取不同分割區(qū)域中文檔圖像對(duì)應(yīng)的特征值,不同的區(qū)域使用不同的格式審查方法,分割出來被測(cè)論文進(jìn)行分類審查,若不滿足其對(duì)應(yīng)的審查方法,表示未通過審查,并使用紅色標(biāo)記。該方法不僅能滿足不同論文規(guī)則的要求,而且有效地提高了論文審查效率和準(zhǔn)確性。論文格式審查流程如圖1所示。
論文原始圖像在采集過程中會(huì)引入噪聲,減弱了論文圖像中的信息,影響圖像分割和格式審查效果,針對(duì)該問題筆者采用均值濾波和中值濾波的方法對(duì)圖像進(jìn)行去噪處理,提高圖像信噪比。但是在圖像的去噪過程中會(huì)平滑原始圖像的邊緣,文獻(xiàn)[1]中提出了基于二維小波變換的圖像增強(qiáng)算法,筆者結(jié)合該算法實(shí)現(xiàn)對(duì)去噪后的論文文檔圖像的增強(qiáng),為后續(xù)圖像分割和格式審查奠定基礎(chǔ)。
經(jīng)過圖像預(yù)處理之后的論文文檔圖像,應(yīng)用馬爾科夫鏈分類器實(shí)現(xiàn)圖像的分割。馬爾科夫鏈(Markov-Chain)[2]是指具備系統(tǒng)在將來發(fā)生某件事的條件概率與其過去發(fā)生的事件無關(guān),只與系統(tǒng)的當(dāng)前狀態(tài)相關(guān)的隨機(jī)過程。如果隨機(jī)過程{(X t),t∈T},其中,時(shí)間集合T=0,1,2,…。設(shè)定i對(duì)應(yīng)t時(shí)刻隨機(jī)過程X t的狀態(tài),即X t=i,此時(shí)X t+1在時(shí)刻t+1的狀態(tài)j的概率分布P ij只與X t在前一時(shí)刻t的狀態(tài)i有關(guān),即有
圖1 論文格式審查流程圖Fig.1 Flow chat of paper format examination
將采集到的論文電子版文檔圖像視為是1個(gè)向量的集合,每個(gè)像素點(diǎn)將對(duì)應(yīng)某個(gè)向量的分量,2個(gè)像素點(diǎn)間的相關(guān)性則可使用某種條件概率來描述,1頁論文圖像就可視作多個(gè)滿足條件概率的連續(xù)狀態(tài)的集合,因此采用馬爾科夫鏈模型(Markov-Chain模型)[3]進(jìn)行圖像分割的方法是可行的。
由于每頁論文文檔圖像的標(biāo)題、正文和圖片等的位置不固定,計(jì)算對(duì)論文文檔圖像進(jìn)行蛇形掃描,得到論文文檔圖像向量Y,Y= (y1,y2,…,y i,…,y n),其中yi,yi+1代表相鄰的2個(gè)像素點(diǎn),使用nij(Y)來表征相鄰的像素點(diǎn)從值i到j(luò)跳變的次數(shù),則可得到其跳變概率為P(y i→y j)=P(nij),令Pij=P(nij)[4],即可計(jì)算出文檔圖像像素點(diǎn)跳變的概率分布矩陣P。
利用監(jiān)督學(xué)習(xí)的方法,通過大量的論文文檔圖像對(duì)馬爾科夫鏈模型進(jìn)行訓(xùn)練,分割出圖像中正文、標(biāo)題和圖片幾部分。
根據(jù)上述對(duì)論文文檔圖像分割方法,將一篇待檢測(cè)文檔圖像進(jìn)行分割,分割結(jié)果如圖2所示,其中圖2a)為待測(cè)文檔的原圖像,圖2b)、圖2c)、圖2d)分別為使用馬爾科夫鏈分類器分割原圖像后對(duì)應(yīng)的圖片部分、正文區(qū)域、標(biāo)題部分。圖像分割的正確結(jié)果為下一步格式審查奠定了基礎(chǔ)。
圖2 論文圖像分割結(jié)果Fig.2 Results of paper image segmentation
分別將前面分割出來的結(jié)果進(jìn)行審查。論文格式可以根據(jù)要求手動(dòng)輸入到系統(tǒng)中,系統(tǒng)根據(jù)不同的格式規(guī)則要求,對(duì)相應(yīng)的待測(cè)文檔進(jìn)行審查,這里以前面分割出來的正文圖像部分為例,進(jìn)行格式審查。
論文正文格式設(shè)置不同必然影響字的寬度和高度,因此將處理后正文圖像進(jìn)行再次分割,切分出正文圖像中的行信息,進(jìn)而分割出每行字符,然后比對(duì)該正文格式規(guī)則下的字符高度和寬度,實(shí)現(xiàn)對(duì)正文文本格式的審查。
1)行切分
同一個(gè)字在不同正文格式設(shè)置時(shí)的高度是不一樣的,例如字體格式的設(shè)置,即使是同一字號(hào)設(shè)置,字形不一致,該字的寬度、高度也不盡相同,因此可以通過比較每個(gè)字符的高度和寬度,來判定該字是否符合正文格式要求。經(jīng)過訓(xùn)練得到該字正文格式下的平均高度和寬度的參考值H,G。系統(tǒng)需要對(duì)該格式下正確的文本進(jìn)行訓(xùn)練,得到該格式下字符高度、寬度的波動(dòng)范圍值ΔH,ΔG。設(shè)文字的高度的極值分別為Hmax=H+ΔH,Hmin=H-ΔH;設(shè)文字的寬度的極值分別為Gmax=G+ΔG,Gmin=G-ΔG。設(shè)定第i行第j個(gè)字的左邊界為j a,右邊界為jb,上邊界為ha,下邊界為hb,若該字符滿足(Gmin≤jb-ja≤Gmax)&&(Hmin≤hbha≤Hmax),則認(rèn)定該字符滿足格式要求,可通過格式審查;若不滿足上述條件,則將該正文部分字體顏色設(shè)為紅色輸入,表示未通過該規(guī)則下的格式審查。
以河北科技大學(xué)學(xué)位論文正文格式要求為例,在系統(tǒng)中手工輸入格式要求,字體為小四號(hào)宋體,首行縮進(jìn)2個(gè)字符,行距最小值為20磅。設(shè)定格式之后,對(duì)該規(guī)則下的正確文檔圖像進(jìn)行訓(xùn)練,得到特征值Gmin,Gmax,Hmin,Hmax,然后對(duì)待測(cè)文檔進(jìn)行格式審查,審查結(jié)果如圖3所示,其中圖3a)為待測(cè)文檔圖像,文檔中部分正文格式不符合該格式要求,圖3b)為格式審查輸出結(jié)果,不符合格式要求的文檔部分使用紅色(圖中虛字)進(jìn)行標(biāo)記。
提出一種基于圖像處理的論文格式審查技術(shù),將電子版的論文圖像采集到系統(tǒng)中,利用文檔圖像相鄰像素點(diǎn)之間的相關(guān)性,結(jié)合馬爾科夫鏈分類器對(duì)每頁論文文檔圖像進(jìn)行分割,得到圖像中的圖片、正文、標(biāo)題部分。手工設(shè)定論文中的格式要求,提取此格式下論文中的特征值,審查被測(cè)論文格式,不僅提高了論文檢測(cè)的速度和正確性,而且具有適應(yīng)性。
圖3 正文文檔圖像格式審查結(jié)果Fig.3 Results of examination of text format
[1]楊 靜.基于小波變換的低對(duì)比度圖像增強(qiáng)方法[J].計(jì)算機(jī)時(shí)代(Computer Era),2011(1):10-12.
[2]劉紹輝,孫建超,姚鴻勛.一種改進(jìn)的基于馬爾科夫鏈的擴(kuò)頻圖像隱寫分析方法[J].中國(guó)科學(xué)院研究生院學(xué)報(bào)(Journal of the Graduate School of the Chinese Academy of Science),2011,28(5):690-695.
[3]宋錦萍,侯玉華,楊曉藝,等.基于小波域多狀態(tài)隱馬爾科夫樹模型的自適應(yīng)正文圖像分割算法[J].電子學(xué)報(bào)(Chinese Journal of Electronices),2007,35(1):118-122.
[4]杜新宇,劉光耀.基于馬爾科夫鏈的光側(cè)圖像自動(dòng)判讀方法[J].計(jì)算機(jī)工程與應(yīng)用(Computer Engineering and Applications),2008,44(28):246-248.
[5]常丹華,何耘嫻,苗 丹.中英混排文檔圖像粘連字符分割方法的研究[J].激光與紅外(Laser &Infrared),2010,40(12):1 369-1 373.
[6]許倫輝,陳衍平,修科鼎.基于圖像處理的靜態(tài)車牌識(shí)別技術(shù)[J].江西理工大學(xué)學(xué)報(bào)(Journal of Jiangxi University of Science and Technology),2011,23(1):47-50.
[7]楊 霈.基于小波分析的字符圖像分割技術(shù)[J].太原科技大學(xué)學(xué)報(bào)(Journal of Taiyuan University of Science and Technology),2007,28(4):288-290.
[8]韓立華,王學(xué)軍,王曉芬.多特征融合及SVM相關(guān)反饋技術(shù)在教育資源圖像檢索中的應(yīng)用[J].河北科技大學(xué)學(xué)報(bào)(Journal of Hebei University of Science and Technology),2010,31(3):240-244.
[9]楊麗娟,劉教民,王震洲,等.基于分塊幀差的視頻圖像運(yùn)動(dòng)檢測(cè)[J].河北科技大學(xué)學(xué)報(bào)(Journal of Hebei University of Science and Technology),2006,27(1):89-92.
Examination of paper format based on Markov-Chain model
TANG Xin-liang1,WANG Jing2,WANG Zhen-zhou3
(1.Personnel Department,Hebei University of Science and Technology,Shijiazhuang Hebei 050018,China;2.Department of Computer Science,Tangshan Normal University,Tangshan Hebei 063000,China;3.College of Information Science and Engineering,Hebei University of Science and Technology,Shijiazhuang Hebei 050018,China)
A method of examining paper format based on image segmentation was proposed.According to the relevance of pixels in the image of electronic paper,paper image was segmented into title,text and pictures by using Markov-Chain model.And every paper image can be examined in accordance with segmentation followed by manually setting the paper format rules.The test results indicate that it is helpful to improve the efficiency of examining paper format.
examination of paper format;image segmentation;Markov-Chain;format rules
TP392
A
1008-1542(2012)05-0434-05
2012-05-28;
2012-09-06;責(zé)任編輯:李 穆
河北省自然科學(xué)基金資助項(xiàng)目(F2012208004);河北科技大學(xué)校立基金資助項(xiàng)目(XL201027)
唐心亮(1977-),男,河北成安人,講師,博士研究生,主要從事計(jì)算機(jī)應(yīng)用方面的研究。