周文劍 林浩文 鐘健
(廣州理工學(xué)院,廣東 廣州 510540)
現(xiàn)代社會(huì)萬(wàn)物互聯(lián),時(shí)代的網(wǎng)絡(luò)化、信息化在給生活帶來(lái)便捷的同時(shí),也引發(fā)了各類關(guān)于信息安全與法理方面的問(wèn)題。數(shù)字媒體和電子產(chǎn)品出現(xiàn)的同時(shí),更多關(guān)于數(shù)字產(chǎn)品的侵權(quán)行為也愈發(fā)猖獗,但是過(guò)往的版權(quán)保護(hù)方式已然過(guò)時(shí),其僅僅只是對(duì)數(shù)字產(chǎn)品本身進(jìn)行一些加密操作,基于密碼學(xué)的方式雖然達(dá)到了保密性的要求,卻也只能確保數(shù)字產(chǎn)品在傳輸過(guò)程中的安全性,卻沒(méi)有對(duì)數(shù)字作品的盜版行為做防范和監(jiān)管,沒(méi)有辦法防止二次傳播,非法拷貝,對(duì)盜版源追溯等。所以本文以數(shù)字水印在文本中的應(yīng)用入手,希望能管中窺豹研究出可追述處理的大數(shù)據(jù)資源共享問(wèn)題。
結(jié)合百度詞條的解釋:數(shù)字水印是一種使用計(jì)算機(jī)算法將安全信息掛載嵌入數(shù)據(jù)或者說(shuō)媒體文件的保護(hù)信息。數(shù)字水印技術(shù),它可以理解為基于內(nèi)容的編碼組織的信息隱藏技術(shù),它在確保原始數(shù)據(jù)的原有使用價(jià)值不變的同時(shí),將某些識(shí)別信息(即數(shù)字水印)直接嵌入所要保護(hù)的數(shù)據(jù)之中,同時(shí)水印本身也不容易被發(fā)現(xiàn)和被修改。但是它是可以被數(shù)據(jù)提供者識(shí)別和辨認(rèn)的,提取水印能夠向內(nèi)容的作者和購(gòu)買者確認(rèn)隱藏在數(shù)據(jù)載體中的信息,從而確保傳輸?shù)男畔⒒蛘咝畔⑤d體是否被篡改。數(shù)字水印是一種有效的維護(hù)數(shù)據(jù)的共享和安全的有效性的方法。數(shù)字水印在對(duì)數(shù)據(jù)進(jìn)行保護(hù)的時(shí)候維護(hù)其可審查性,確??勺匪菪院桶鏅?quán)保護(hù),同時(shí)也是信息技術(shù)領(lǐng)域的一個(gè)重要領(lǐng)域和研究方向。
針對(duì)文本數(shù)字水印,一般將文本分成三類進(jìn)行討論:
(1)非格式化文本,即純文本文件,例如計(jì)算機(jī)程序的源碼文件或 ASCII 等,這類文件被廣泛用于記錄信息,只因?yàn)榻Y(jié)構(gòu)簡(jiǎn)單,無(wú)格式信息,但也因此很難嵌入水印信息——這類文件沒(méi)有可以嵌入標(biāo)識(shí)信息的冗余空間;
(2)格式化文本,是與純文本相對(duì),這類文本除了文本信息以外,還有很多標(biāo)記文本格式的信息,具有風(fēng)格、排版等信息,如字體、顏色、大小、行間距、段落縮進(jìn)及其他版面布局信息等。文本的格式多種多樣,常見(jiàn)的有Word、WPS、PDF、RTF、PostScript 等高級(jí)文檔,在本文中主要討論基于格式化文本的數(shù)字水印技術(shù);
(3)用像素矩陣來(lái)表示內(nèi)容的文檔圖像,這類文檔圖像通常以二值圖像形式表示,與彩色圖像相比具備一些自身所固有的特性:其一是色彩單一,所有圖像都是黑白色,其二是內(nèi)容形式簡(jiǎn)單,主要包括漢字、英文字母及一些常用標(biāo)點(diǎn)符號(hào)等。
文本是文本數(shù)字水印所依附的載體對(duì)象,因而只要涉及到文本的地方都有可能用到文本數(shù)字水印技術(shù)。隨著信息社會(huì)的推進(jìn)及網(wǎng)絡(luò)的普及,互聯(lián)網(wǎng)成為人們獲取信息資源的重要途徑之一。如何有效保護(hù)網(wǎng)絡(luò)上豐富的文學(xué)書籍、電子文件、期刊雜志等文本類資源的版權(quán),是新環(huán)境下網(wǎng)絡(luò)出版等應(yīng)用領(lǐng)域亟需解決的問(wèn)題,而文本數(shù)字水印技術(shù)在這些應(yīng)用領(lǐng)域可以發(fā)揮積極作用。目前,文本數(shù)字水印技術(shù)在電子文本文件的網(wǎng)絡(luò)發(fā)行中應(yīng)用較廣。出于互聯(lián)網(wǎng)上所存在的大量電子文本文件(如書籍、文章和雜志等)都需要版權(quán)保護(hù),若向這些文件中嵌入能標(biāo)識(shí)文件版權(quán)信息的數(shù)字水印,則在文件后續(xù)的分發(fā)過(guò)程中,可將其水印信息作為版權(quán)糾紛的證據(jù),能有效打擊盜版侵權(quán)行為、推動(dòng)數(shù)字作品網(wǎng)絡(luò)發(fā)行的發(fā)展。目前,CNKI 等數(shù)字圖書館、起點(diǎn)、晉江小說(shuō)等文學(xué)作品網(wǎng)站都采用了文本數(shù)字水印技術(shù)。
文本數(shù)字水印技術(shù)在數(shù)字版權(quán)保護(hù)中的應(yīng)用主要有:所有者鑒別、所有權(quán)驗(yàn)證、交易跟蹤、內(nèi)容認(rèn)證、拷貝控制和設(shè)備控制。
(1)所有者鑒別
在出版的作品中都會(huì)附有文本版權(quán)聲明,用于宣示版權(quán)歸屬,但對(duì)于作品所有者鑒別具有一定局限性。首先,在作品拷貝時(shí)很容易忽略或去除這些版權(quán)聲明。例如,某盜用者拷貝一本書或其某幾頁(yè)時(shí),一般不會(huì)復(fù)印前頁(yè)的版權(quán)聲明,如此版權(quán)聲明的作用并沒(méi)有得到體現(xiàn)。而利用文本水印技術(shù),可以將代表作品版權(quán)所有者身份的水印信息隱藏到作品當(dāng)中,只要作品的用戶擁有水印檢測(cè)器,就能夠識(shí)別出含水印作品的所有者,即使作品所附的版權(quán)聲明被去除,水印依然能夠被檢測(cè)到,從而達(dá)到了所有者鑒別的目的。相對(duì)于文本版權(quán)聲明,數(shù)字水印具備透明性,以及與其被嵌作品的不可分離性,使得數(shù)字水印更利于在所有者鑒別中使用。
(2)所有權(quán)驗(yàn)證
利用文本數(shù)字水印驗(yàn)證版權(quán)所有者信息也是文本數(shù)字水印技術(shù)的--項(xiàng)應(yīng)用。由于傳統(tǒng)的文本版權(quán)聲明極易被偽造和篡改,而無(wú)法解決所有權(quán)驗(yàn)證問(wèn)題,解決辦法之-是建立一個(gè)公共產(chǎn)品庫(kù),用戶需注冊(cè)后才能拷貝相應(yīng)的數(shù)字產(chǎn)品,但由于注冊(cè)費(fèi)用高而不為人們所普遍采用。為了省去注冊(cè)費(fèi)用,人們可以使用文本數(shù)字水印來(lái)保護(hù)版權(quán),在發(fā)生版權(quán)糾紛時(shí),以提取的水印作為證據(jù),驗(yàn)證作品版權(quán)歸屬。同時(shí)為了增強(qiáng)所有權(quán)驗(yàn)證的安全級(jí)別,可以嚴(yán)格限制水印檢測(cè)器的使用權(quán)限,如果攻擊者未獲得水印檢測(cè)器,則很難去除作品中的水印信息。另一方面,攻擊者也可能再次向作品中嵌入水印信息以覆蓋作品中的原有水印或附加新的水印,使得數(shù)字產(chǎn)品中同時(shí)也存在攻擊者的標(biāo)識(shí)信息。解決此問(wèn)題的方法是,鑒別方要尋找出作品的傳播渠道,證明一個(gè)數(shù)字作品是從另一作品得來(lái),而不是直接根據(jù)作品中包含的水印信息驗(yàn)證版權(quán)。這種水印系統(tǒng)能夠間接驗(yàn)證存在爭(zhēng)議的數(shù)字產(chǎn)品的版權(quán)歸屬,因?yàn)榘鏅?quán)所有者擁有包含水印產(chǎn)品的原始產(chǎn)品而攻擊者沒(méi)有。
(3)交易跟蹤
在交易跟蹤過(guò)程中,文本數(shù)字水印主要是用來(lái)鑒別合法獲得數(shù)字產(chǎn)品后,對(duì)產(chǎn)品進(jìn)行非法傳播的人。利用數(shù)字水印可對(duì)作品所經(jīng)歷的拷貝交易進(jìn)行記錄,跟蹤每個(gè)作品交易的傳送者和接收者。另外作品的創(chuàng)作者或所有者可根據(jù)不同版本的作品嵌入不同的水印標(biāo)識(shí),若作品在發(fā)行過(guò)程中被盜用,則可以根據(jù)作品中的水印跟蹤作品的傳播渠道,找出非法傳播者。
(4)內(nèi)容認(rèn)證
內(nèi)容認(rèn)證是指將簽名信息嵌入到作品內(nèi)容中,用于日后檢查作品內(nèi)容是否被篡改,以保護(hù)作品的完整性,一般使用的是脆弱性水印。出于文本文檔的可編輯性,使得人們對(duì)數(shù)字作品的篡改變得容易而頻繁,因而保護(hù)作品的原創(chuàng)性和完整性是當(dāng)前亟需解決的問(wèn)題。消息認(rèn)證問(wèn)題的研究在密碼學(xué)領(lǐng)域里已比較成熟,其中數(shù)字簽名是應(yīng)用最廣的認(rèn)證方法,若消息被篡改過(guò),則通過(guò)與原始簽名對(duì)比便可發(fā)現(xiàn)其已被篡改。然而由于這些簽名信息是單獨(dú)存在的,須將它們傳送給認(rèn)證方。由于網(wǎng)絡(luò)傳輸?shù)牟话踩?,使得簽名容易丟失或被攻擊者截獲,而影響作品的后續(xù)認(rèn)證。因此,利用數(shù)字水印技術(shù)直接將簽名插入到作品中,隨同作品一起分發(fā)而無(wú)須單獨(dú)傳送,便可避免簽名丟失的問(wèn)題。
(5)拷貝控制
前面所述的文本數(shù)字水印應(yīng)用都是在不合法行為發(fā)生之后起作用,例如交易跟蹤系統(tǒng)只能在作品被非法拷貝之后才能識(shí)別出對(duì)手身份,而最理想的版權(quán)保護(hù)方法是能夠防止非法拷貝行為的發(fā)生??截惪刂苿t是專注于防止他人對(duì)受版權(quán)保護(hù)的內(nèi)容進(jìn)行非法拷貝。通常加密是防止非法拷貝的常用手段,經(jīng)過(guò)特定加密算法加密后的作品,能夠使未擁有解密密鑰的人即使獲得作品也無(wú)法使用。但是,人們通常希望作品可以被瀏覽而不被非法拷貝,此時(shí)即可將水印嵌入到內(nèi)容中,使用水印來(lái)限制錄制設(shè)備不能錄制什么內(nèi)容。錄制設(shè)備需要安裝水印檢測(cè)器,如果設(shè)備在輸入端檢測(cè)到“禁止拷貝”水印,則拷貝操作會(huì)被禁用。
(6)設(shè)備控制
設(shè)備控制是在設(shè)備制造過(guò)程中引入水印檢測(cè)功能,使設(shè)備具備在檢測(cè)到內(nèi)容中的相關(guān)水印時(shí)作出反應(yīng)的能力。目前市面上已經(jīng)存在這類產(chǎn)品,例如Digimarc 集團(tuán)公司推出的MediaBridge系統(tǒng),該系統(tǒng)可將水印嵌入到雜志廣告、票據(jù)、包裹等已印刷、發(fā)售的圖像中。如果使用 MediaBridge 系統(tǒng)嵌入水印的圖像被數(shù)碼攝像機(jī)再次拍攝,則PC 機(jī)的 MediaBridge 軟件便會(huì)設(shè)法打開(kāi)一個(gè)指向相關(guān)網(wǎng)站的鏈接,進(jìn)而控制圖像的使用。
數(shù)字水印技術(shù)的應(yīng)用只有滿足一定的條件,才能成為版權(quán)保護(hù)和產(chǎn)品數(shù)字完整性認(rèn)證以及數(shù)據(jù)可追溯的系統(tǒng)的核心。一個(gè)安全可靠的水印系統(tǒng)一般應(yīng)滿足如下要求:
(1)隱蔽性
也稱不可感知性,也就是說(shuō),在正常視覺(jué)條件下,水印是不可見(jiàn)的,水印的存在不會(huì)影響載體本身的視角效果可確保其可視性的完整,即水印處理系統(tǒng)不應(yīng)產(chǎn)生任何明顯的數(shù)據(jù)修改。
(2)魯棒性
水印一定很難消除(希望不可能消除),當(dāng)然,理論上只要足夠理解嵌入水印的過(guò)程,任何水印都可以被移除,但是如果只是部分理解水印的底層原理,任何嘗試破壞或移除水印的行為都會(huì)導(dǎo)致數(shù)據(jù)載體等出現(xiàn)偏差或者損害甚至不可用。
(3)抗篡改性
與魯棒性的要確保的抗毀壞不同,抗篡改性是要確保水印的完整性以及正確性,也就是指已經(jīng)嵌入載體的水印應(yīng)不能被攻擊者修改與偽造。對(duì)魯棒性有較高要求的系統(tǒng)或者應(yīng)用,往往也是要求其抗篡改性也要很強(qiáng)。在版權(quán)的保護(hù)應(yīng)用中,要將抗篡改性維護(hù)的足夠好是比較艱難的一件事。
(4)水印容量
水印的容量指的是,嵌入水印的信息量必須能夠完整地表示出數(shù)據(jù)內(nèi)容的創(chuàng)建者和購(gòu)買者以及所有擁有者的標(biāo)志信息,同時(shí)也要包含其相應(yīng)的購(gòu)買鏈路。只有這樣在發(fā)生版權(quán)糾紛或數(shù)據(jù)倒賣追溯的時(shí)候,才能根據(jù)水印的信息來(lái)回溯本真,打擊盜版和違法行為。
(5)安全性
應(yīng)確保嵌入數(shù)據(jù)的水印的保密性有所保障,同時(shí)誤檢測(cè)率也要確保處于足夠低。水印的數(shù)據(jù)形式可以多種多樣(包括多媒體、文檔、軟件等)。所有的水印至少都該有嵌入和提取對(duì)應(yīng)的系統(tǒng)。
(6)低錯(cuò)誤率
縱使在無(wú)網(wǎng)絡(luò)或網(wǎng)絡(luò)波動(dòng)失真和沒(méi)受到攻擊的情況下,也要求不能檢測(cè)出水印。在不存在水印的時(shí)候,檢測(cè)出水印的概率必須要非常小。
本文主要研究針對(duì)格式化文本的數(shù)字水印技術(shù),文本數(shù)字水印通常結(jié)合文本結(jié)構(gòu)和內(nèi)容的特性,以一定的方式改變文本的編碼內(nèi)容或編碼格式從而實(shí)現(xiàn)水印信息的嵌入,既可以標(biāo)識(shí)和驗(yàn)證數(shù)字版權(quán)信息等,也可進(jìn)行追溯文本數(shù)據(jù)的非法傳播。
下面介紹水印信息嵌入基本步驟為:
(1)編碼轉(zhuǎn)化,將水印信息用Unicode 編碼轉(zhuǎn)換為二進(jìn)制序列;
(2)編碼擴(kuò)展,對(duì)水印信息Unicode 編碼嵌入奇偶校驗(yàn)和漢明糾錯(cuò)碼;
(3)編碼統(tǒng)計(jì),對(duì)水印信息編碼進(jìn)行統(tǒng)計(jì)得到基調(diào)編碼;
(4)文本分行分段,根據(jù)編碼長(zhǎng)度提取文本的有效行,并對(duì)有效行進(jìn)行合理分隔成段;
(5)構(gòu)建基調(diào)參考行,對(duì)第一個(gè)有效行按是否下移按基調(diào)代碼進(jìn)行行距調(diào)整;
(6)水印嵌入,對(duì)其他有效行結(jié)合水印信息編碼,按是否與基調(diào)行代碼一致進(jìn)行行距調(diào)整。
水印信息的提取是水印信息嵌入文本載體的反過(guò)程,對(duì)紙質(zhì)文檔進(jìn)行掃描得到各行分段質(zhì)心變化,對(duì)文本有效行針對(duì)基調(diào)參考行進(jìn)行質(zhì)心檢測(cè),不變時(shí)表示與基調(diào)行一致,否則相反.包括多媒體、文檔、軟件等或文本類,或圖像類,或視頻和音頻等各種數(shù)據(jù)可以很輕松被非法拷貝和傳播,使數(shù)據(jù)所有者的知識(shí)產(chǎn)權(quán)得不到有效的保護(hù),這無(wú)疑會(huì)損害數(shù)字內(nèi)容生產(chǎn)者、銷售者以及消費(fèi)者的正常利益。但是數(shù)字水印技術(shù)在這方面的應(yīng)用就很有效防止和打擊這種行為,如何在其他數(shù)字內(nèi)容下實(shí)現(xiàn)魯棒性更強(qiáng)的數(shù)字水印的嵌入是我們接下來(lái)的研究重點(diǎn)。