喬新軍 蘭州女子中專,甘肅省 730020
數(shù)字水印在文檔圖像中的應(yīng)用研究
喬新軍 蘭州女子中專,甘肅省 730020
在分析二值圖像文檔水印技術(shù)研究動(dòng)態(tài)的基礎(chǔ)上,通過(guò)對(duì)漢字特點(diǎn)的分析,發(fā)現(xiàn)橫、豎筆畫頻繁交匯出現(xiàn)-拐點(diǎn)。基于此,提出一種新的應(yīng)用于漢字文本圖像的簡(jiǎn)便水印方法:在漢字筆畫橫豎交叉的拐點(diǎn)處加入水印,并利用MatLab進(jìn)行仿真實(shí)驗(yàn),討論和分析了這一算法較傳統(tǒng)的完全基于格式的文本數(shù)字水印的優(yōu)點(diǎn)。
數(shù)字水?。晃臋n圖像;拐點(diǎn);筆畫
隨著計(jì)算機(jī)、打印機(jī)和掃描儀等設(shè)備的應(yīng)用和普及,書刊、雜志和報(bào)紙的網(wǎng)上發(fā)行和其他一些專用文檔的網(wǎng)上傳輸已成為現(xiàn)實(shí)并繼續(xù)高速發(fā)展。數(shù)字圖書館和檔案館以電子形式保存了大量受版權(quán)保護(hù)的文章、雜志、書籍以及其他資料如商業(yè)文件、電子檔案、法律證據(jù)、傳真文檔、證書等。所有這些數(shù)字資料很多以二值圖像形式出現(xiàn)。二值圖像以其占用空間小、符合人類閱讀習(xí)慣等特點(diǎn)在網(wǎng)絡(luò)出版業(yè)、企業(yè)、法庭案館等領(lǐng)域得到廣泛應(yīng)用。與其他形式的多媒體信息一樣,其版權(quán)保護(hù)也是一個(gè)非常重要的問(wèn)題。
本文結(jié)合漢字結(jié)構(gòu)特點(diǎn),針對(duì)二值文本圖像設(shè)計(jì)了一種新的漢字文本水印算法。在對(duì)數(shù)字水印技術(shù)包括起源、定義、分類及魯棒水印和脆弱水印在應(yīng)用中用于版權(quán)保護(hù)和內(nèi)容認(rèn)證存在的基本問(wèn)題,對(duì)文本圖像的概念、分類、框架以及評(píng)價(jià)準(zhǔn)則進(jìn)行研究的基礎(chǔ)上;提出了一種在二值漢字文本圖像中嵌入信息的水印算法,算法根據(jù)漢字結(jié)構(gòu)特點(diǎn),即使用頻率最多的橫、豎在漢字中廣泛匯交出現(xiàn)的拐點(diǎn),嵌入水印信息,構(gòu)成水印化文本圖像。
1.1 漢字的結(jié)構(gòu)特點(diǎn)
每種文字在結(jié)構(gòu)上都有其獨(dú)特之處,如阿拉伯文中有較多的“點(diǎn)”、英文有明顯的質(zhì)心等,漢字同樣也有自己顯著的特征。
由于漢字是一種頗具特色的文字,其結(jié)構(gòu)獨(dú)特、字體多樣。因此,中文文本比西文文本可插入標(biāo)記的可辨認(rèn)空間大,實(shí)施文本水印有更大的優(yōu)勢(shì)。研究中文文本的數(shù)字水印,應(yīng)在西文文本的基礎(chǔ)上,結(jié)合中文文本的特點(diǎn)進(jìn)行研究。
我國(guó)漢字是象形字,是一種圖,是由“原始圖畫→不規(guī)則圖形線條→ 橫、豎、撇、捺、折五種規(guī)范的筆畫”演化而來(lái)。
圖1 漢字的重復(fù)性很大
我國(guó)1980年頒布了的《信息交換用漢字編碼字符集-基本集》中包括常用簡(jiǎn)體中文漢字6763個(gè)(其中一級(jí)漢字3775個(gè),二級(jí)漢字3008個(gè)),約占漢字累計(jì)使用頻度的99.99%,即在日常生活和工作中所使用或遇到的漢字出現(xiàn)在該字符集中,如圖1所示。
筆畫是漢字最小的結(jié)構(gòu)單位,筆畫的書寫形狀叫做筆形。通行的分類方法是把漢字的筆形分為“橫、豎、撇、捺、折”五個(gè)大類,這種分類方法將“提”歸入“橫”,“豎鉤”歸入“豎(丨)”,“點(diǎn)”歸入“捺”等。中國(guó)文字改革委員會(huì)和武漢大學(xué)計(jì)算機(jī)科學(xué)系合作對(duì)《辭海》(1979年版)所收正體字(11834字)的筆形進(jìn)行統(tǒng)計(jì),如表1。
表1 漢字筆畫使用頻率統(tǒng)計(jì)
可知其中出現(xiàn)次數(shù)最多的是“橫”和“豎”兩畫,使用頻率最高的是“橫”(包括“提”),占30.30%;“豎”、“撇”和“折”的使用頻率大體接近:“豎”占19.30%的頻率、“撇”占15.74%的頻率、“折”占17.95%的頻率;頻率最低的筆畫是“捺”,它和“點(diǎn)”共占16.64%的頻率。
五筆編碼正是依據(jù)漢字的這些特點(diǎn)形成的,如圖2五筆字根表。
由圖2可知,“橫”、“豎”兩畫往往相互交匯形成十字交叉結(jié)構(gòu)(特別是130個(gè)成字字根),如圖3。
據(jù)統(tǒng)計(jì),這種十字交叉結(jié)構(gòu)大量存在于漢字文檔中,見(jiàn)表2。
1.2 基于漢字筆畫的水印技術(shù)
基于漢字筆畫的水印技術(shù)主要是針對(duì)漢字文本變換成圖像格式而提出的一種水印化方法。漢字的基本筆畫包括橫、豎、撇、捺、折及標(biāo)點(diǎn)符號(hào)等,這些是組成漢字的基本筆畫。在對(duì)漢字的修改中,考慮漢字中的橫、豎、撇、捺、折的基本特征,對(duì)最普遍的筆畫撇、捺、點(diǎn)等進(jìn)行修改,修改選取在黑色像素區(qū)域的45°或135°方向,由于人眼對(duì)這些方向的視覺(jué)不太敏感,故選擇一些漢字文本像素上的特征變化來(lái)嵌入水印信息。
對(duì)于二值圖像而言,隱藏信息的一個(gè)關(guān)鍵問(wèn)題如何找到合適的嵌入位置,同時(shí)不影響圖像的視覺(jué)效果。根據(jù)漢字在結(jié)構(gòu)和筆畫特點(diǎn),提出一種新的漢字文檔圖像數(shù)字水印算法:基于漢字拐點(diǎn)的水印算法,該算法以漢字橫、豎畫交叉點(diǎn)旁的四個(gè)相鄰拐點(diǎn)為水印嵌入位置,實(shí)現(xiàn)對(duì)漢字文檔圖像加入水印,并對(duì)其的魯棒性進(jìn)行了測(cè)試和分析。
表2 隨機(jī)抽取的6幅二值漢字圖像中“十”字結(jié)構(gòu)的數(shù)量
1.3 嵌入水印的預(yù)處理
本文使用的文檔圖像是二值圖像。獲取原始的文檔圖像是本文算法的第一步。通常采用光學(xué)的辦法(CCD攝像機(jī),光學(xué)掃描儀等),得到的圖像是字符的像素描述。像素描述的重要參數(shù)是分辨率,分辨率包括空間(二維平面)分辨率和灰度分辨率,前者反映了像素描述在空間上的精細(xì)程度,而后者則反映了像素描述在灰度(色彩)空間的精細(xì)程度。由于空間分辨率的高低對(duì)字符質(zhì)量影響較大,因此要認(rèn)真選擇。一般掃描后得到的文本圖像不適合直接提取信息,之前需要進(jìn)行一些預(yù)處理。預(yù)處理的主要包括去除椒鹽噪聲、傾斜校正、二值化等。
1.4 基于漢字拐點(diǎn)的水印算法
我們稱位于“十”結(jié)構(gòu)交匯點(diǎn)四個(gè)拐角的內(nèi)部點(diǎn)為拐點(diǎn),如圖4所示。由圖2可知,其中以Ⅲ象限拐點(diǎn)居多。
圖4 不同位置的拐點(diǎn)
設(shè)橫畫和豎畫交叉點(diǎn)在Matlab像素坐標(biāo)系下的坐標(biāo)為(r,c),則以下4種十字交叉結(jié)構(gòu)的拐點(diǎn)坐標(biāo)分別(r-1,c+1)、(r-1,c-1)、(r+1.c+1)和(r+1,c-1)。
圖2 五筆字根表
圖3 橫和豎畫交匯成“十“字結(jié)構(gòu)
這樣我們就利用漢字文檔圖像中的拐點(diǎn)對(duì)JPEG壓縮具有強(qiáng)魯棒性的特點(diǎn),把一幅二值文檔圖像的所有Ⅲ象限拐點(diǎn)作為水印空間,根據(jù)二值圖像失真度標(biāo)準(zhǔn)DRDM改變部分拐點(diǎn)的像素值,達(dá)到嵌入水印信息的目的。
1.5 仿真結(jié)果分析
通常情況下,傳輸過(guò)程對(duì)文本的攻擊與圖像受到的攻擊不同,圖像可能遭受JPEG壓縮、平滑、濾波等攻擊,而文本攻擊則可能有輕微的文字移動(dòng),標(biāo)點(diǎn)符號(hào)修改,不影響文本語(yǔ)義的痕跡污染等方面。對(duì)上述各種可能的情況進(jìn)行模擬實(shí)驗(yàn),并通過(guò)提取水印和相關(guān)性度量。發(fā)現(xiàn)嵌入水印后,文本圖像的視覺(jué)質(zhì)量略有下降,但難以察覺(jué),只有當(dāng)文件放大后, 如“于”字, 才能發(fā)現(xiàn)其中的微小差別,一般情況下,文件非法盜用者不可能發(fā)現(xiàn)整篇文本的水印所在處,說(shuō)明水印算法具有可行性。
通過(guò)MatLab仿真實(shí)驗(yàn)分析和驗(yàn)證拐點(diǎn)對(duì)JPEG壓縮的魯棒性,仿真實(shí)驗(yàn)的分析結(jié)果表明該水印算法對(duì)JPEG壓縮、高斯噪音攻擊和椒鹽噪音攻擊具有較好的魯棒性。但這種二值漢字文本水印方案也存在許多需要進(jìn)一步改進(jìn)的地方。首先這種水印方案主要針對(duì)印刷體的漢字文本圖像,其次對(duì)不同字體和不同字號(hào)的漢字需要分別使用不同的模板來(lái)確定特征點(diǎn)或筆畫的端點(diǎn),第三還不能完全實(shí)現(xiàn)水印信息的盲檢測(cè)。
二值圖像占用空間少、符合人類閱讀習(xí)慣等特點(diǎn)決定了二值圖像無(wú)論是在過(guò)去、現(xiàn)在還是將來(lái)都將會(huì)在相關(guān)領(lǐng)域得到廣泛應(yīng)用,因此,在二值圖像中嵌入水印信息是一個(gè)具有挑戰(zhàn)性的研究領(lǐng)域,針對(duì)二值文檔圖像的數(shù)字水印研究具有重要的應(yīng)用價(jià)值和理論意義。
可以預(yù)見(jiàn)期刊的網(wǎng)絡(luò)發(fā)行將會(huì)是一個(gè)主要趨勢(shì)。期刊的網(wǎng)絡(luò)發(fā)行大大提高了生產(chǎn)和流通速度,降低了出版成本,發(fā)行的范圍更廣,覆蓋面更寬。隨著互聯(lián)網(wǎng)的發(fā)展,政府文件的分發(fā)將逐漸轉(zhuǎn)向網(wǎng)絡(luò),還有政府上網(wǎng)工程中將有更多的文件出現(xiàn)在網(wǎng)上,一旦出現(xiàn)惡意篡改,而無(wú)法證明真?zhèn)?,后果是無(wú)法設(shè)想的。對(duì)于電子商務(wù)中的一些經(jīng)濟(jì)合同文本等也存在著這些問(wèn)題。因此,研究數(shù)字文本的保護(hù)方法對(duì)互聯(lián)網(wǎng)時(shí)代的政府工作和電子商務(wù)具有重要作用。
[1]王麗娜,張煥國(guó).信息隱藏技術(shù)與應(yīng)用.湖北:武漢大學(xué)出版社,2003,25-32
[2]尹浩,林闖,邱鋒,等.數(shù)字水印技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2005,42(7):1093-109
[3]張勇,等數(shù)字水印技術(shù)及發(fā)展.南京:南京解放軍理工大學(xué)學(xué)報(bào),2003:4(3)
[4]Su J K, Hartung F, Girod B.Digital watermarking of text, image and video documents.Computer and Graphics, 1998;22:687?695
[5]劉瑞禎,譚鐵牛.?dāng)?shù)字圖像水印研究綜述.通信學(xué)報(bào),2000,21(8):46-52
[6]孫圣和,陸哲明,牛夏牧.數(shù)字水印技術(shù)及應(yīng)用[M].北京:科學(xué)出版社, 2004
[7] Brassil J T, Low S, Maxemchuk N F.Copyright proceeding for the electronic distribution of text document.Proceedings of IEEE, 1999;11(12):1181-1196
[8]李剛,楊杰.一種基于二值印刷圖像的數(shù)字水印方案.上海交通大學(xué)學(xué)報(bào),2005 ,39(4):570-573
10.3969/j.issn.1001-8972.2011.23.044
喬新軍,1980年5月生,男,漢,甘肅榆中人,碩士,研究方向:數(shù)字水印。