• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種簡(jiǎn)單實(shí)用的中文信息隱寫算法

      2013-07-19 08:14:50孫新梅黃劉生
      關(guān)鍵詞:總表辭典繁體字

      孫新梅,孟 朋,黃劉生,3

      1.淮北職業(yè)技術(shù)學(xué)院,安徽 淮北 235000

      2.中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 國(guó)家高性能計(jì)算中心,合肥 230026

      3.中國(guó)科學(xué)技術(shù)大學(xué) 蘇州研究院,江蘇 蘇州 215123

      一種簡(jiǎn)單實(shí)用的中文信息隱寫算法

      孫新梅1,孟 朋2,黃劉生2,3

      1.淮北職業(yè)技術(shù)學(xué)院,安徽 淮北 235000

      2.中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 國(guó)家高性能計(jì)算中心,合肥 230026

      3.中國(guó)科學(xué)技術(shù)大學(xué) 蘇州研究院,江蘇 蘇州 215123

      1 引言

      信息隱寫[1]是信息安全的重要研究方向之一。信息隱寫主要研究如何將秘密信息嵌入已知載體,可用于保密通信以及版權(quán)保護(hù)等。當(dāng)前網(wǎng)絡(luò)通信中保證信息安全的手段仍以傳統(tǒng)的加密為主,但加密后的信息是混亂的二進(jìn)制信息,在被監(jiān)視的情況下很容易識(shí)別并破壞。信息隱寫技術(shù)掩蓋了隱秘信息的存在,大大地增強(qiáng)了信息傳輸、存儲(chǔ)的安全性。

      信息隱寫的載體一般指電子載體,可以是圖像、視頻和文本等。由于文本媒體在互聯(lián)網(wǎng)上的廣泛使用,以文本為載體的信息隱寫技術(shù)越來越受到研究人員的關(guān)注。當(dāng)前以文本為載體的信息隱寫大體可以分為三類:基于排版,基于語法和基于語義。

      基于排版的信息隱寫算法通過對(duì)載體文本的排版方式進(jìn)行細(xì)微修改來嵌入秘密信息。例如對(duì)文本的字間距[2],行間距[3],字體格式[4]等等進(jìn)行細(xì)微調(diào)整,在人眼不易覺察的情況下嵌入秘密信息?;谂虐娓袷降碾[寫算法的最大弱點(diǎn)是不抗重寫攻擊,如果隱寫文本被重新排版或重寫一遍,那么隱寫信息也隨之消失。

      基于語法的信息隱寫算法通過模仿自然語言的語法結(jié)構(gòu),生成類似自然語言的文本,在生成文本的過程中隱寫進(jìn)秘密信息。這類算法主要有基于Markov鏈的隱寫方法[5],基于句子模板的隱寫方法[6]和基于文章樣式的隱寫方法[7]等。這類算法雖然可以抵抗重寫攻擊,但是算法生成的文本沒有完整的意義,并且可以通過統(tǒng)計(jì)分析等方法對(duì)載體文本實(shí)現(xiàn)自動(dòng)化的檢測(cè)[8-10]。

      基于語義的信息隱寫算法通過對(duì)載體文本的部分單詞進(jìn)行同義詞替換[11-12]、部分或全部句子進(jìn)行同義轉(zhuǎn)換等方式,在盡量保持載體文本語義不變的前提下嵌入秘密信息。這類算法雖然目標(biāo)是盡量保持載體文本語義不變,但實(shí)現(xiàn)起來非常困難。因?yàn)槊總€(gè)單詞在特定的場(chǎng)景下有特定的意義,簡(jiǎn)單的同義詞替換很難保證原文的意義。句子的同義轉(zhuǎn)換更是涉及自然語言處理方面的難題,實(shí)現(xiàn)起來非常困難。

      基于文本的信息隱寫算法和語言相關(guān),不同語言的算法一般不可通用。中文作為世界上歷史最悠久、使用人數(shù)最多的語言之一,其豐富多彩的語言現(xiàn)象為文本信息隱寫提供了優(yōu)越的條件。例如,中文中的正體詞和異形詞顯現(xiàn)(正體詞-異形詞):義正詞嚴(yán)-義正辭嚴(yán)、余暉-余輝 邀功-要功、熱中-熱衷、疲塌-疲沓等等,正體詞和異形詞音義完全相同,甚至有時(shí)異形詞的使用頻率甚至超過了正體詞;簡(jiǎn)化字和繁體字在不同的地方同時(shí)使用,甚至相當(dāng)一部分人同時(shí)使用繁體字和簡(jiǎn)化字。這些現(xiàn)象都可能為信息隱寫技術(shù)所利用,因此有必要引起足夠的重視。

      本文設(shè)計(jì)了一個(gè)簡(jiǎn)單實(shí)用的中文信息隱寫算法,并研究了算法的嵌入率以及安全性等問題,以期引起大家對(duì)文本信息隱寫的重視,算法具有如下優(yōu)點(diǎn):

      (1)嵌入率可以通過隱寫信息的分段長(zhǎng)度靈活調(diào)整,可以根據(jù)需要選擇分段長(zhǎng)度,提高安全性和隱蔽性。

      (2)算法保證了載體文本的語義完全不變,實(shí)現(xiàn)起來簡(jiǎn)單。

      (3)算法不僅對(duì)電子文本,打印文本,手寫文本等皆適用,而且算法能抵抗對(duì)載體文本進(jìn)行的重新排版等傳統(tǒng)攻擊方法。

      2 背景介紹

      由于歷史的原因,很多漢字有著兩種或兩種以上的書寫形式。具體來說,1964年國(guó)務(wù)院公布的《簡(jiǎn)化字總表》,共包含2 236個(gè)簡(jiǎn)化字,是大陸通行的簡(jiǎn)化字,這2 236個(gè)簡(jiǎn)化字有至少兩種書寫形式:簡(jiǎn)化字和繁體字。據(jù)統(tǒng)計(jì),我們?nèi)粘i喿x的文字,平均每3個(gè)字就有一個(gè)是《簡(jiǎn)化字總表》規(guī)定的簡(jiǎn)化字。由于特殊的歷史和政治原因,當(dāng)前簡(jiǎn)化字主要在大陸地區(qū)使用,而繁體字主要在臺(tái)港澳以及海外繼續(xù)使用。近年來,隨著兩岸交流的密切展開以及兩岸文字統(tǒng)一的需要,大陸民眾對(duì)繁體字產(chǎn)生了很大的熱情,而在臺(tái)灣等地區(qū)學(xué)習(xí)和使用簡(jiǎn)化字的人數(shù)也不斷增多,因此繁體字和簡(jiǎn)化字混用的顯現(xiàn)普遍存在并且有增多趨勢(shì)。根據(jù)“中國(guó)語言文字使用情況調(diào)查”的結(jié)果[13],截至20世紀(jì)末,有3.84%的人是繁體字和簡(jiǎn)化字并用。從網(wǎng)上也可以看到,大量的網(wǎng)頁(yè)是繁簡(jiǎn)并用,特別像網(wǎng)絡(luò)論壇、網(wǎng)上聊天室等對(duì)文字格式?jīng)]有嚴(yán)格要求的網(wǎng)站。

      隨著漢字編碼方式的進(jìn)步,漢字的編碼范圍也在不斷增大,很多編碼方式可以同時(shí)包含簡(jiǎn)化字和繁體字,如GBK和GB18030等編碼方式。由于輸入方式的進(jìn)步,采用一種輸入法輸入簡(jiǎn)化字和繁體字幾乎同樣簡(jiǎn)單,同時(shí)輸入以及顯示簡(jiǎn)化字和繁體字已經(jīng)沒有任何困難,這為繁體字和簡(jiǎn)化字的混用提供了便利的條件。

      3 算法描述

      3.1 簡(jiǎn)單替換的隱寫算法

      目標(biāo)是對(duì)一篇載體文本(只含簡(jiǎn)化字或繁體字的普通文本,本文以簡(jiǎn)化字載體文本說明算法過程),通過簡(jiǎn)化字與繁體字的替換來實(shí)現(xiàn)信息隱寫。最簡(jiǎn)單方法:首先將待隱寫信息轉(zhuǎn)化為“0”和“1”的序列,然后規(guī)定《簡(jiǎn)化字總表》中的簡(jiǎn)化字代表“0”,繁體字代表“1”,對(duì)載體文本中的文字根據(jù)需要隱寫的信息進(jìn)行繁體字和簡(jiǎn)化字替換就可以隱寫進(jìn)去秘密信息。這種方式執(zhí)行過程描述如下:

      首先根據(jù)1964年國(guó)務(wù)院公布的《簡(jiǎn)化字總表》構(gòu)造一個(gè)替換辭典,替換辭典保留《簡(jiǎn)化字總表》中一對(duì)一的簡(jiǎn)化字和相應(yīng)繁體字,去除一對(duì)多的字和多對(duì)多的字。

      隱寫過程:

      對(duì)載體文本中每個(gè)替換辭典中的文字,根據(jù)當(dāng)前需要隱寫的信息進(jìn)行替換。如果需要嵌入“0”,則保持簡(jiǎn)化字不變;如果需要嵌入“1”,那么將簡(jiǎn)化字替換為相應(yīng)的繁體字;不在替換辭典中的文字保持不變。進(jìn)行替換后的文本就是一篇含有隱寫信息的載密文本。

      提取過程:

      從載密文本中依次讀取文字,如果文字為替換辭典中的簡(jiǎn)化字則提取“0”,繁體字則提取“1”,不在繁簡(jiǎn)字總表中的字直接讀取下一個(gè)字。

      例如對(duì)字符串“GB2312碼是中華人民共和國(guó)國(guó)家漢字信息交換用編碼”進(jìn)行信息隱寫,假設(shè)需要隱寫的秘密信息為“01010110”,那么采用簡(jiǎn)單替換方式隱寫后的載密文本為:“GB2312碼是中華人民共和國(guó)國(guó)家漢字信息交換用編碼”。

      這種嵌入方式的好處是嵌入率比較高,弊端是嵌入簡(jiǎn)單,比較容易辨認(rèn)。例如相鄰的“國(guó)國(guó)”一個(gè)簡(jiǎn)化字,一個(gè)繁體字,因此這種嵌入方式安全性較低。

      3.2 高效替換的隱寫算法

      對(duì)進(jìn)行保密通信的雙方來說,字符串“GB2312碼是中華人民共和國(guó)國(guó)家漢字信息交換用編碼”,可以認(rèn)為其代表字符串本身表達(dá)的信息,也可以認(rèn)為其代表“26”(因?yàn)槠淇偣埠?6個(gè)字符),當(dāng)然也可以認(rèn)為其代表其他的數(shù)字或者符號(hào)。只要發(fā)送方和接收方采用相同的解釋方式,就可以通過對(duì)載體文本進(jìn)行“解釋”達(dá)到傳遞秘密信息的目的。

      將一篇載體文本完全不作修改,而只靠“解釋”來實(shí)現(xiàn)秘密通信,在通信量很小的情況下,完全可以實(shí)現(xiàn)。假設(shè)要進(jìn)行最大通信量為20 bit的秘密通信,用220個(gè)不同的載體文本,其中每個(gè)載體文本代表一種信息,那么就可以實(shí)現(xiàn)對(duì)載體文本完全不用修改來傳遞秘密信息。但是當(dāng)通信量大的時(shí)候,很難只用“解釋”的辦法來實(shí)現(xiàn)信息隱寫。

      下面提出一種折中的方法,首先將待隱寫的信息分解為固定長(zhǎng)度的信息段,然后對(duì)每個(gè)信息段采用“解釋”的辦法進(jìn)行隱寫,以實(shí)現(xiàn)在修改盡量少的文本的前提下嵌入秘密信息。

      假設(shè)待隱寫的信息正好可以分解為多個(gè)長(zhǎng)為N的分組,“解釋”隱寫的方法如下:將每個(gè)分組轉(zhuǎn)化為一個(gè)10進(jìn)制D,對(duì)載體文本每經(jīng)過D個(gè)替換辭典中的簡(jiǎn)化字,將一個(gè)簡(jiǎn)化字替換為繁體字。

      隱寫算法和還原算法的描述如下所示(算法假設(shè)載體文本足夠長(zhǎng),可以容納秘密信息),圖1和圖2分別是隱寫算法和還原算法的流程圖。

      圖1 隱寫算法流程圖

      圖2 還原算法流程圖

      隱寫算法描述:

      步驟1設(shè)置搜索開始位置為 -1:P=-1。

      步驟2從載體文本當(dāng)前搜索位置開始,找到下一個(gè)替換辭典中的字W,P=P+1。

      步驟3如果P等于當(dāng)前待隱寫的信息D(D為長(zhǎng)度為N的待隱寫信息對(duì)應(yīng)的10進(jìn)制數(shù))。那么將W替換為繁體字,否則轉(zhuǎn)步驟2。

      步驟4如果信息隱寫完畢,則算法終止,否則P=-1,轉(zhuǎn)步驟2。

      還原算法描述:

      步驟1設(shè)置搜索開始位置為 -1:P=-1。

      步驟2從載體文本當(dāng)前搜索位置開始,找到下一個(gè)替換辭典中的字W,P=P+1。

      步驟3如果W是繁體字,那么將P保存為提取信息,否則轉(zhuǎn)步驟2。

      步驟4如果提取完畢,則算法終止,否則P=-1,轉(zhuǎn)步驟2。

      高效替換算法的最大優(yōu)點(diǎn)就是每替換一個(gè)字符,可以隱寫Nbit的信息,而且N可以根據(jù)需要靈活選擇,N越大,載體文本被替換的文字越稀少,載密文本的隱蔽性也越強(qiáng);N越小,嵌入率越高。

      4 算法分析和應(yīng)用

      4.1 嵌入率分析

      據(jù)統(tǒng)計(jì),我們?nèi)粘i喿x和使用的文字,平均每3個(gè)字就有一個(gè)為《簡(jiǎn)化字總表》中規(guī)定的簡(jiǎn)化字[14],如果采用簡(jiǎn)單替換的方法,平均每3個(gè)字嵌入1 bit,那么嵌入率約為2.1%;如果采用高效替換的方式,假設(shè)分段長(zhǎng)度為L(zhǎng),則平均每3×(2L-1+0.5)個(gè)字嵌入Lbit信息,那么嵌入率約為:

      圖3為高效替換算法的嵌入率示意圖。

      圖3 高效替換算法嵌入率示意圖

      4.2 安全性分析

      本文所設(shè)計(jì)算法最大優(yōu)點(diǎn)是保證載體文本語義完全不變,抗重寫攻擊,嵌入率可靈活調(diào)整,因此傳統(tǒng)的攻擊方法對(duì)該算法是完全無效的。對(duì)該算法檢測(cè)的唯一依據(jù)是文本是否同時(shí)使用了簡(jiǎn)化字和繁體字,但是由于相當(dāng)一部分人同時(shí)使用兩種字體,因此這種檢測(cè)方法會(huì)導(dǎo)致大量正常文本被誤判為載密文本,仍然無法準(zhǔn)確區(qū)分正常文本和載密文本。為了增加算法安全性,替換辭典可以僅選擇經(jīng)?;煊玫姆斌w字和簡(jiǎn)化字,另外也可以進(jìn)行正體詞和異形詞替換等更安全的隱寫方式。

      由于文本的冗余空間少,嵌入率低,當(dāng)前基于文本的隱寫算法很少,文本信息隱寫很少引起大家注意,因此基于文本的信息隱寫成功率也較高。

      5 總結(jié)

      本文提出了一種基于繁體字、簡(jiǎn)化字替換的中文信息隱寫算法,它首先根據(jù)經(jīng)常被混用的簡(jiǎn)化字和繁體字構(gòu)造一個(gè)替換辭典,并對(duì)隱寫信息按一定長(zhǎng)度進(jìn)行分段,然后采用“解釋”的思想一次嵌入多位信息。算法嵌入率可以根據(jù)需要靈活選擇,同時(shí)保證了載體文本語義完全不變。本文的算法可以抵抗對(duì)載體文本的重新排版等傳統(tǒng)攻擊方法。

      由于文本的冗余空間比較低,而且涉及自然語言處理的知識(shí),基于文本的信息隱寫比以圖像和視頻為載體的信息隱寫涉及更多的困難和挑戰(zhàn),因此基于文本的信息隱寫相關(guān)成果很少。本文通過分析和研究中文的使用特點(diǎn),設(shè)計(jì)了一個(gè)簡(jiǎn)單的隱寫算法,希望提高大家對(duì)文本信息隱寫的重視。

      [1]Bennett K.Linguistic steganography:survey,analysis,and robustness concerns for hiding information in text,CERIAS tech report 2004-13[R].Purdue University,2004.

      [2]Brassil J Τ,Low S,Maxemchuk N F.Copyright protection for electronic distribution of text documents[J].Proceedings of the IEEE(USA),1999,87(7):1181-1196.

      [3]Brassil J,Low S,Maxemchuk N,et al.Electronic marking and identification techniques to discourage document copying[C]// Proc Infocom,Τoronto,Canada,1994:1278-1287.

      [4]Leary P.Τhe second cryptographic Shakespeare:a monograph wherein the poems and plays attributed to William Shakespeare are proven to contain the enciphered name of the concealed author,F(xiàn)rancis Bacon[M].2nd ed.Omaha,NE:Westchester House,1990.

      [5]吳樹峰.信息隱藏技術(shù)研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2003.

      [6]Maher K.ΤEXΤO[EB/OL].[2012-09-21].ftp://ftp.funet.fi/pub/crypt/ steganography/texto.tar.gz.

      [7]Mark C.Hiding the hidden:a software system for concealing ciphertext as innocuous text[D].University of Wisconsin-Milwaukee,1997.

      [8]Chen Zhili,Huang Liusheng,Yu Zhenshan,et al.Linguistic steganography detection using statistical characteristics of correlations betweenwords[C]//LNCS 5284:InformationHiding 2008,USA,2008:224-235.

      [9]Chen Zhili,Huang Liusheng,Yu Zhenshan,et al.A statistical algorithm for linguistic steganography detection based on distribution of words[C]//ARES2008,Spain,2008:558-563.

      [10]Chen Zhili,Huang Liusheng,Yu Zhenshan,et al.Effective linguistic steganography detection[C]//CIΤ Workshops,Australia,2008:224-229.

      [11]Bergmair R.Τowards linguistic steganography:a systematic investigation of approaches,systems,and issues,A-4061[R]. Vienna,Austria:University of Derby,2004.

      [12]Atallah M J,McDonough C J,Raskin V,et a1.Natural language processing for information assurance and security:an overview and implementations[C]//Proc of the 9th ACM/ SIGSAC New Security Paradigms Workshop.New York:ACM,2000:51-65.

      [13]語文出版社.中國(guó)語言文字使用情況調(diào)查資料[M].北京:語文出版社,2006.

      [14]郭曙綸.簡(jiǎn)化字與繁體字筆畫數(shù)的動(dòng)態(tài)統(tǒng)計(jì)與比較[J].北華大學(xué)學(xué)報(bào),2009,l0(2):50-56.

      SUN Xinmei1,MENG Peng2,HUANG Liusheng2,3

      1.Huaibei Vocational and Τechnical College,Huaibei,Anhui 235000,China
      2.Τhe National High Performance Computing Center,College of Computer Science and Τechnology,University of Science& Τechnology China,Hefei 230026,China
      3.Suzhou Institute for Advanced Study,University of Science&Τechnology China,Suzhou,Jiangsu 215123,China

      Information Hiding(IH)is an important research direction of information security.IH mainly researches how to embed secret information into carriers,in order to achieve the objectives of secure communication,watermarking,and so on.Τhis paper analyzes the current status of IH based on text and its shortcomings.A novel information hiding algorithm based on substitution of different forms of Chinese characters is proposed.It splits the secret information,and then embeds the sector information into the carrier text by explanation.Τhe sector length can be adjusted according to application requirements.Τhe highest embedding rate of the algorithm is about 2%.In addition,this algorithm can resist traditional attacking method such as re-layout.

      information hiding;simplified Chinese characters;traditional Chinese characters;section

      信息隱寫是信息安全的重要研究方向之一,其主要研究如何將秘密信息嵌入到特定載體之中,以達(dá)到安全通信或版權(quán)保護(hù)等目的。分析了文本信息隱寫的研究現(xiàn)狀和存在的不足,設(shè)計(jì)了一種基于簡(jiǎn)化字、繁體字替換的中文信息隱寫算法。算法對(duì)隱寫信息進(jìn)行分段,通過“解釋”的方式嵌入分段信息,分段長(zhǎng)度可以根據(jù)不同的應(yīng)用需要靈活調(diào)整,算法最高嵌入率約為2%。另外,算法可以抵抗對(duì)載體文本的重新排版等傳統(tǒng)攻擊方法。

      信息隱寫;簡(jiǎn)化字;繁體字;分段

      A

      ΤP393

      10.3778/j.issn.1002-8331.1211-0242

      SUN Xinmei,MENG Peng,HUANG Liusheng.Simple and practical information hiding algorithm for Chinese text.Computer Engineering and Applications,2013,49(15):88-91.

      國(guó)家自然科學(xué)基金重大研究計(jì)劃(No.90818005);國(guó)家自然科學(xué)基金(No.60773032,No.60703071);教育部博士點(diǎn)基金(No.2006CB303006);江蘇省自然科學(xué)基金(No.BK2007060)。

      孫新梅,女,副教授,高工,主要研究方向?yàn)殡姎庾詣?dòng)化,計(jì)算機(jī)科學(xué)與技術(shù)等;孟朋(1983—),男,博士研究生,主要研究方向?yàn)樾畔踩?;黃劉生(1957—),男,教授,博士生導(dǎo)師,主要研究方向?yàn)樾畔踩咝阅芩惴?,分布式?jì)算等。

      2012-11-21

      2013-01-05

      1002-8331(2013)15-0088-04

      CNKI出版日期:2013-01-29 http://www.cnki.net/kcms/detail/11.2127.ΤP.20130129.1543.015.html

      猜你喜歡
      總表辭典繁體字
      哈哈鏡
      2016年西藏自治區(qū)一般公共預(yù)算收支決算總表
      2016年寧夏回族自治區(qū)一般公共預(yù)算收支決算總表
      2016年浙江省一般公共預(yù)算收支決算總表
      亞魯辭典
      2017年2期《IQ辭典》答案
      2017年1期《IQ辭典》答案
      2016年12期《IQ辭典》答案
      臺(tái)網(wǎng)友鼓動(dòng)“繁體字申遺”
      馮小剛建議讓繁體字回歸課本
      斗六市| 西乌珠穆沁旗| 项城市| 东港市| 汾阳市| 泰顺县| 应用必备| 浑源县| 嘉义市| 前郭尔| 富民县| 新平| 大足县| 卢湾区| 武乡县| 大安市| 安顺市| 桑植县| 雅安市| 永丰县| 马鞍山市| 漠河县| 兴业县| 皋兰县| 沙坪坝区| 临邑县| 关岭| 南木林县| 甘孜| 平顶山市| 温泉县| 蓬安县| 修水县| 红安县| 定襄县| 二连浩特市| 苏州市| 公主岭市| 牡丹江市| 土默特左旗| 阜城县|