• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      文檔數(shù)字化加工中各種壓縮格式的比較研究

      2014-04-29 00:00:00郭嵩

      摘 要:根據(jù)作者多年數(shù)字化加工的經(jīng)驗(yàn),從壓縮格式的算法、存儲(chǔ)、質(zhì)量、成本及數(shù)字化加工標(biāo)準(zhǔn)等方面進(jìn)行調(diào)查比較,給出常用的幾種數(shù)字化加工系統(tǒng)所采用的壓縮算法的建議。

      關(guān)鍵詞:文檔數(shù)字化加工:圖像壓縮算法:圖像存儲(chǔ)格式:成本

      中圖分類號(hào):TP399

      一切由文字、圖表、聲像等形式組成的材料都可以叫做文件,已經(jīng)辦理完畢的、具有保存價(jià)值的文件按照一定的邏輯規(guī)律整理形成的信息單元就稱之為檔案。檔案在不同時(shí)期有著不同的載體,上到石器時(shí)代的石刻,下到工業(yè)社會(huì)的照片、影片、唱片、錄音帶、錄像,直到20世紀(jì)中期以后出現(xiàn)的磁帶、磁盤(pán)、光盤(pán)等載體、依賴計(jì)算機(jī)系統(tǒng)存取并可以在網(wǎng)絡(luò)上傳輸?shù)碾娮游募?,都是具有保存價(jià)值的檔案[1]。電子檔案的產(chǎn)生、是檔案領(lǐng)域一次翻天覆地的革命,直接帶來(lái)了檔案工作的運(yùn)作方式、基本理論甚至是思維等方面的巨大改變。

      目前,社會(huì)各階層、各部門(mén)都著手于信息化的工作,曾經(jīng)堆積如山的檔案文檔成為必須進(jìn)行處理的對(duì)象,作者在工作過(guò)程中,針對(duì)各種客戶群的需求及客觀現(xiàn)實(shí)問(wèn)題的不同,對(duì)圖像需要采取的壓縮算法進(jìn)行了一些比較與研究,主要討論幾個(gè)具有代表性的目標(biāo)群體為:圖書(shū)館、醫(yī)院、保險(xiǎn)公司。

      1 數(shù)字化加工常用的圖像壓縮算法

      1.1 黑白二值圖像的壓縮算法

      黑白文稿的壓縮較常用的幾種壓縮技術(shù)是:JBIG、JBIG2、MH、MMR、MR。

      (1)MH編碼:是Group 3 Fax之中最基本的編碼方式,是一種一維編碼方案;(2)MR編碼:也是Group 3 2D編碼方式,與MH的區(qū)別在于,同時(shí)在水平和垂直方向進(jìn)行壓縮,屬于二維壓縮技術(shù),壓縮效率比MH提高35%左右;(3)MMR編碼:Group 4編碼,在壓縮效率上跟MR是一樣的;(4)JBIG編碼:JBIG2可以方便的嵌入到TIFF文件中,壓縮性能一般比G4壓縮少3-5倍,比JBIG1少2-4倍[2]。但是JBIG有些算法涉及到版權(quán)問(wèn)題,在應(yīng)用中會(huì)產(chǎn)生費(fèi)用問(wèn)題,支持的掃描儀也不多,加工單位會(huì)因?yàn)榻?jīng)濟(jì)需要在JBIG2與G4之間做取舍。

      1.2 灰度圖像和彩色圖像的壓縮算法

      對(duì)于灰度圖像和彩色圖像的壓縮,目前較常用的幾種壓縮技術(shù)是:JPEG、LZW、BMP。

      (1)JPEG:JPEG可以壓縮任何連續(xù)色調(diào)的靜止圖片,兼容性也很強(qiáng),可用于大部分通用的計(jì)算機(jī)平臺(tái),硬件要求不高,得到近乎完美的圖像質(zhì)量[2]。JPEG是一種有損壓縮方式,若壓縮比選擇過(guò)大圖像質(zhì)量會(huì)大幅下降;(2)JPEG2000:是一種新的圖像標(biāo)準(zhǔn),可以向下兼容JPEG,JPEG2000可以同時(shí)支持有損和無(wú)損壓縮,具有很高的壓縮率,比JPEG高約30%左右;(3)BMP:是Windows操作系統(tǒng)中標(biāo)準(zhǔn)圖像文件格式,兼容性很強(qiáng),但是對(duì)圖像幾乎不進(jìn)行壓縮,導(dǎo)致文件占用磁盤(pán)空間過(guò)大,不建議采用這種壓縮格式;(4)LZW:LZW對(duì)于任意寬度和像素位長(zhǎng)度的圖像,都具有穩(wěn)定的壓縮過(guò)程,壓縮和解壓縮速度較快,對(duì)硬件的要求也不高。

      2 文檔數(shù)字化加工中數(shù)據(jù)的存儲(chǔ)特點(diǎn)

      2.1 文檔數(shù)字化加工的流程

      數(shù)字化加工流程如圖1:

      圖1

      2.2 圖像壓縮在數(shù)字化加工中的作用

      所謂圖像壓縮,即采用特殊的編碼方式保存圖像數(shù)據(jù),減少存儲(chǔ)空間的占用,節(jié)約存儲(chǔ)成本,提高信息傳播速度。在文檔的數(shù)字化過(guò)程中,產(chǎn)生的數(shù)據(jù)主要是圖像數(shù)據(jù)和識(shí)別產(chǎn)生的文本數(shù)據(jù),文本數(shù)據(jù)對(duì)存儲(chǔ)空間的占用并不大,主要是圖像數(shù)據(jù)的存儲(chǔ)需要合適的壓縮技術(shù)。該壓縮技術(shù)即要滿足圖像的還原率、壓縮率,還要對(duì)硬件、壓縮解壓的速度、格式的通用度,用戶的需求等方面進(jìn)行綜合考量。

      2.3 數(shù)字文檔的存儲(chǔ)格式

      能滿足雙層存儲(chǔ)的電子文檔格式,首推雙層PDF格式。PDF經(jīng)中國(guó)國(guó)家國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)批準(zhǔn)成為正式的中國(guó)國(guó)家標(biāo)準(zhǔn),已成為數(shù)字化信息事實(shí)上的一個(gè)工業(yè)標(biāo)準(zhǔn)。采取PDF作為電子文檔的存儲(chǔ)格式,避免了標(biāo)準(zhǔn)不統(tǒng)一造成的互操作性差,共享共建困難。

      PDF是一種可移植性的文檔格式,他能擺脫操作系統(tǒng)平臺(tái)的限制,所以通用性更高,也就是說(shuō),PDF文件不管是在Windows,Unix還是在蘋(píng)果公司的Mac OS操作系統(tǒng)中都是通用的。這一性能使它成為在Internet上進(jìn)行電子文檔發(fā)行和數(shù)字化信息傳播的理想文檔格式。越來(lái)越多的電子圖書(shū)、產(chǎn)品說(shuō)明、公司文告、網(wǎng)絡(luò)資料、電子郵件開(kāi)始使用PDF格式文件。

      雙層PDF格式文件包含文本層和圖像層,并且位置上下對(duì)應(yīng)。經(jīng)掃描儀掃描錄入的圖像經(jīng)過(guò)去污、糾偏等處理作為圖像層;圖像進(jìn)行OCR識(shí)別,經(jīng)人工校對(duì)之后,作為文本層,合成雙層PDF文件。這樣,既可以100%保留原始版面效果(包括公章、簽名),又可以通過(guò)下層的文字信息支持選擇、復(fù)制、全文檢索等功能。因此,雙層PDF同時(shí)兼顧視覺(jué)效果和檢索方便性,極大地方便了電子文件的管理,達(dá)到數(shù)字化加工系統(tǒng)的存儲(chǔ)目標(biāo)。

      在PDF文件中,圖像點(diǎn)陣信息以壓縮數(shù)據(jù)流的形式存在,PDF通過(guò)過(guò)濾器(filter)對(duì)數(shù)據(jù)流解碼,與本文研究相關(guān)的過(guò)濾器如表1所示[3]:

      對(duì)于上述的圖像壓縮格式,都可以將元數(shù)據(jù)流直接嵌入PDF文件,不需要重新編碼。對(duì)于TIFF文件需要針對(duì)具體的壓縮算法,將真正的圖像數(shù)據(jù)抽取出來(lái)嵌入PDF文件。因?yàn)長(zhǎng)ZW算法有專利權(quán)問(wèn)題,導(dǎo)致很多軟件放棄了對(duì)LZW的支持,改用被開(kāi)源的其他算法,基于通用性的考慮,不建議采用該算法作為數(shù)字化加工采用的壓縮格式。

      3 不同客戶群選擇不同的壓縮算法

      3.1 圖書(shū)館

      二維平面材料是圖書(shū)館館藏資源的主體,根據(jù)其不同的特征和屬性,有如下文獻(xiàn)類型[4]:(1)圖書(shū)、期刊、論文集;(2)報(bào)紙、海報(bào)、年畫(huà)、剪紙;(3)照片印制品;(4)現(xiàn)代方志、家譜、畫(huà)冊(cè)。

      根據(jù)數(shù)字化目的和要求的不同,圖書(shū)館的數(shù)字圖像被分為三個(gè)級(jí)別:(1)A——檔案典藏級(jí):檔案保存及必要時(shí)出版印刷用,不上網(wǎng),可以做位格式轉(zhuǎn)換和復(fù)制的母本,文件不壓縮;(2)P——復(fù)制加工級(jí):加工復(fù)制各種精度、大小的屏幕瀏覽圖像的木本文件。由A級(jí)文件1:1轉(zhuǎn)換生成具有較高的精度和較大的尺寸;(3)D——瀏覽級(jí):可供普通讀者網(wǎng)上訪問(wèn),下載和打印,像素不超過(guò)顯示器支持范圍即可。還有一種縮略圖也屬于該級(jí)別,其分辨率、像素更低。

      依據(jù)上訴的級(jí)別要求,建議采用的壓縮算法如表2所示:

      黑白圖像通常采用G4算法,若用戶對(duì)于存儲(chǔ)空間的要求苛刻,則采取JBIG2方式,但是該方式涉及版權(quán)費(fèi)用問(wèn)題及掃描儀選型問(wèn)題。

      灰度、彩色圖像采用JPEG2000算法,因?yàn)镴PEG2000可以同時(shí)支持有損與無(wú)損壓縮,輕松實(shí)現(xiàn)二者的切換,而JPEG只能支持有損壓縮,不滿足圖書(shū)館的圖像要求,且市面上流行的掃描儀均支持JPEG2000壓縮格式。

      3.2 醫(yī)院

      醫(yī)院數(shù)字化的一個(gè)重點(diǎn)就是醫(yī)療圖像的數(shù)字化,由于醫(yī)療圖像的特殊性,對(duì)圖像的壓縮要求跟其他用戶不同,比如美國(guó)曾頒布法令要求醫(yī)療處理采用的圖像不可以使用無(wú)損壓縮,因?yàn)閴嚎s產(chǎn)生的不清晰會(huì)導(dǎo)致醫(yī)生誤診。即使采取無(wú)損壓縮也只有2:1或者4:1這樣的低壓縮比。醫(yī)用膠片需要專用掃描儀輸入,存儲(chǔ)格式一般選擇JPEG2000,因?yàn)樵摳袷郊粗С譄o(wú)損壓縮,又支持有損壓縮,壓縮性能很高。

      另外提到醫(yī)療圖像不得不提到DICOM標(biāo)準(zhǔn),DICOM圖像文件是醫(yī)學(xué)影像傳輸和存儲(chǔ)的專用標(biāo)準(zhǔn)。在醫(yī)療圖像數(shù)字化加工中,如何將醫(yī)療膠片轉(zhuǎn)換為DICOM設(shè)備能接受的格式,是進(jìn)行醫(yī)療影像數(shù)字化加工必須研究的課題。

      目前很多醫(yī)療影像數(shù)字化加工軟件支持DICOM格式的轉(zhuǎn)換,DICOM作為一種圖像醫(yī)療存儲(chǔ)和傳輸?shù)臉?biāo)準(zhǔn),所存儲(chǔ)的信息不僅包含圖像信息,還包含很多醫(yī)療和通訊相關(guān)信息,而且,存儲(chǔ)的圖像信息是未經(jīng)壓縮的,所以DICOM文件都很大,不便于遠(yuǎn)程網(wǎng)絡(luò)傳輸。醫(yī)療數(shù)字化加工可以針對(duì)DICOM及JPEG2000兩者的取舍或者技術(shù)融合進(jìn)行項(xiàng)目設(shè)計(jì)。

      3.3 保險(xiǎn)公司

      保險(xiǎn)公司這種單據(jù)特別多的客戶群,他們進(jìn)行檔案數(shù)字化的目的在于,建立精確索引,方便查詢、快速統(tǒng)計(jì)分析。

      在處理較多單據(jù)的數(shù)字化加工中,不采用雙層形式,只需要將表單圖像跟內(nèi)容在數(shù)據(jù)庫(kù)一一對(duì)應(yīng)即可,圖像采用有損、適度壓縮的JPEG、JPEG2000格式即可滿足要求。單據(jù)輸入系統(tǒng)還可以根據(jù)需要預(yù)設(shè)單據(jù)的信息提取區(qū)域,并將提取區(qū)域的信息進(jìn)行OCR識(shí)別轉(zhuǎn)換,轉(zhuǎn)換后的文本信息經(jīng)校對(duì)后,自動(dòng)歸類到對(duì)應(yīng)的數(shù)據(jù)庫(kù)中。

      參考文獻(xiàn):

      [1]馮惠玲,張輯哲.檔案學(xué)概論[M].北京:人民大學(xué)出版社,2001.

      [2]吳樂(lè)南.數(shù)據(jù)壓縮原理與應(yīng)用[M].北京:電子工業(yè)出版社,2003.

      [3]Adobe公司.PDF Reference 5th edition[Z].

      [4]孫一剛.數(shù)字圖書(shū)館資源加工規(guī)范體系的建設(shè)[R/OL].

      [5]林福宗.多媒體技術(shù)基礎(chǔ)[M].北京:清華大學(xué)出版社,2000.

      作者簡(jiǎn)介:郭嵩(1979-),女,江蘇南京人,工程碩士,計(jì)算機(jī)中級(jí)職稱,研究方向:電子影像技術(shù)及云計(jì)算等領(lǐng)域。

      作者單位:上海網(wǎng)穗數(shù)碼科技有限公司,上海 200062

      界首市| 固阳县| 浦北县| 新安县| 蓝山县| 博白县| 花莲市| 石林| 越西县| 勐海县| 清涧县| 中方县| 门头沟区| 什邡市| 曲麻莱县| 嘉祥县| 类乌齐县| 洪湖市| 舞阳县| 桦甸市| 甘洛县| 南城县| 习水县| 乌拉特前旗| 内江市| 孙吴县| 耿马| 工布江达县| 平度市| 陵川县| 蒙山县| 喀喇沁旗| 常山县| 平果县| 会泽县| 东源县| 和林格尔县| 炎陵县| 石阡县| 始兴县| 囊谦县|