張楠 姜琳
聲像檔案是檔案的一個重要組成部分,各級檔案部門均存儲著海量的聲像檔案,它們價值巨大、利用率高。然而隨著科技進(jìn)步,傳統(tǒng)載體聲像檔案所依賴的存儲載體、數(shù)據(jù)模式、傳遞方式逐漸落后乃至淘汰,檔案管理的數(shù)字化程度正在不斷提高。目前,各檔案館正在進(jìn)行傳統(tǒng)聲像檔案的數(shù)字化轉(zhuǎn)存工作,形成大量音、視頻數(shù)字化檔案,與此同時,新媒體時代海量數(shù)字化音視頻檔案信息不斷涌入,使得音視頻檔案的存儲量從GB級、TB級到PB級激增?,F(xiàn)代化檔案管理中音視頻檔案的收集、壓縮、海量固態(tài)存儲技術(shù)及備份系統(tǒng)已經(jīng)逐步開始在我國各級檔案部門著手應(yīng)用,但音像檔案高質(zhì)量數(shù)字化轉(zhuǎn)存,以及數(shù)字化音視頻安全穩(wěn)定存儲和傳輸,仍是檔案管理工作中的重點和難點。
國內(nèi)對音視頻檔案的研究則相對較晚。2010 年國家檔案局頒發(fā)了《數(shù)字聲像檔案著錄規(guī)則(征求意見稿)》,從國家層面開始對音視頻檔案進(jìn)行規(guī)范化管理。2017年國家檔案局出臺了《錄音錄像檔案數(shù)字化規(guī)范》《錄音錄像類電子檔案元數(shù)據(jù)方案》,這兩個文件規(guī)定了錄音檔案和錄像檔案數(shù)字化的技術(shù)和管理要求,為全國各級檔案部門開展錄音錄像檔案數(shù)字化工作提出了具體的要求。目前我國音視頻檔案的數(shù)字化實踐一般均由地方發(fā)起和參與,一些代表性的實踐成果與探索也均集中在地方性檔案機(jī)構(gòu)中,例如青島市檔案館制定的《電子檔案管理技術(shù)標(biāo)準(zhǔn)(試行)》,明確提出了視頻檔案應(yīng)采用MPEG-2編碼標(biāo)準(zhǔn)進(jìn)行壓縮,采集比特率為4Mb/s。
現(xiàn)代數(shù)字化檔案管理中音視頻存儲器的形式多樣,不同存儲器可能產(chǎn)生的不同類型和原因的干擾,數(shù)字化過程中的熱電現(xiàn)象也可能導(dǎo)致噪聲干擾。本文基于糾錯碼原理,從存儲器底層結(jié)構(gòu)分析引起差錯的根本原因,減少音視頻在轉(zhuǎn)換和存儲的過程中受到各種類型噪聲的干擾,對海量音視頻檔案數(shù)字化存儲技術(shù)進(jìn)行可靠性改進(jìn),對音視頻檔案數(shù)據(jù)提供可靠性編碼保護(hù),改善音視頻檔案的存儲保管現(xiàn)狀。
利用信息編碼技術(shù)和檔案數(shù)字化技術(shù)相結(jié)合的方式,將數(shù)字化處理后形成的海量音視頻數(shù)字化信息進(jìn)行編碼存儲和可靠性數(shù)據(jù)還原,對目前檔案館單純地進(jìn)行音視頻檔案數(shù)字化轉(zhuǎn)換是有效補(bǔ)充和功能完善,實現(xiàn)海量音視頻檔案信息采集、安全存儲、信息還原,使保存的信息更加可靠,極大提高數(shù)據(jù)還原率,并可在大容量、超大容量檔案數(shù)據(jù)信息采集、存儲、利用,檔案數(shù)據(jù)異地備份及因突發(fā)故障或極端自然災(zāi)害等引發(fā)的檔案數(shù)據(jù)損失還原方面發(fā)揮重要作用。
通過對音視頻檔案信息實測表明,數(shù)據(jù)傳輸過程中的突發(fā)錯誤以及海量存儲芯片的軟錯誤是對存儲可靠性影響比較嚴(yán)重的因素。考慮到音視頻檔案數(shù)據(jù)對可靠性要求很高,同時檔案數(shù)據(jù)存儲和傳輸要求一定的保密性,基于此,確定研究的基本方案采用兼顧有效性和可靠性的RS-LT級聯(lián)碼作為主要編碼方式,采用RS碼(Reed-solomon Codes)作為外碼,LT碼(Lubu Transform Codes)作為內(nèi)碼。LT碼是一種實用的數(shù)字噴泉碼,也稱為“無率碼”,是一類基于圖的線性糾刪碼。傳統(tǒng)音視頻檔案信息經(jīng)模數(shù)轉(zhuǎn)化,一般還要進(jìn)行數(shù)據(jù)壓縮,轉(zhuǎn)化為二進(jìn)制數(shù)字信號進(jìn)入編碼器,我們設(shè)定好原始的數(shù)據(jù)包大小,編碼器產(chǎn)生有效的任意數(shù)量編碼包,接收端在足夠時間的條件下收到足夠數(shù)量的編碼包用來譯碼,得到原始數(shù)據(jù)。如果把海量音視頻檔案信息比作一個數(shù)據(jù)“噴泉”,只要接收到滿足數(shù)量的“水滴”,就可以恢復(fù)文件,可以應(yīng)對大容量存儲過程中的信道質(zhì)量不穩(wěn)定的問題,既能提高海量數(shù)據(jù)存儲的可靠性,又充分節(jié)省存儲空間。外碼采用RS編碼,可以通過提高系統(tǒng)糾錯能力來進(jìn)一步提高LT碼的可譯碼概率,并提高系統(tǒng)恢復(fù)碼元的實時性。同時LT碼對信號的糾刪處理,又相對提高了RS碼的糾錯能力。
音視頻存儲改進(jìn)技術(shù)實現(xiàn)基于糾錯碼原理,從存儲器底層結(jié)構(gòu)分析引起存儲數(shù)據(jù)錯誤的根本原因,對海量音視頻檔案數(shù)字化存儲技術(shù)進(jìn)行可靠性改進(jìn),研究原則是強(qiáng)調(diào)技術(shù)實用、軟件功能實現(xiàn),同時兼顧可擴(kuò)展能力。
(一)工作原理
根據(jù)《錄音錄像檔案數(shù)字化標(biāo)準(zhǔn)》規(guī)定,視頻編碼格式采用H.264、MPEG-2 IBP,音頻文件格式采用WAVE格式。首先選定實驗外碼的編碼設(shè)計指標(biāo):MPEG-2或H.264壓縮格式的視頻檔案數(shù)據(jù),JPEG圖像采用RS(255,223);無壓縮的音頻檔案數(shù)據(jù)和高壓縮率的音頻檔案數(shù)據(jù)分別采用RS(48,32)和RS(32,16)。內(nèi)碼的編碼較簡單,依據(jù)相應(yīng)的公式生成度分布,將不同的數(shù)據(jù)包求異或和,生成編碼包。
音視頻檔案信息通過轉(zhuǎn)換、信息采集、壓縮等處理后進(jìn)入編碼通道,分別進(jìn)行兩級級聯(lián)編碼,編碼完成后可安全存儲,回放時重新通過接口匹配,然后進(jìn)行解碼,完成對音視頻檔案數(shù)據(jù)可靠性改進(jìn)存儲與還原。音視頻檔案數(shù)據(jù)還原時通過LT譯碼器和RS譯碼器進(jìn)行譯碼,實現(xiàn)數(shù)據(jù)還原和信息回放。
(二)音視頻信息編譯碼單元的設(shè)計實現(xiàn)
音視頻檔案存儲改進(jìn)方案采用RS-LT級聯(lián)編碼。首先定義緩存區(qū),讀取數(shù)據(jù)并按照存儲信息碼字及中間結(jié)果所需的緩存大小進(jìn)行存儲,編碼單元進(jìn)行LT碼編碼后的編碼包進(jìn)入RS編碼流程,以信息塊為單位進(jìn)行數(shù)據(jù)的編碼,占位標(biāo)志busy有效,表示正在進(jìn)行編碼數(shù)據(jù)處理,發(fā)送結(jié)束之后撤銷占位標(biāo)識。這里L(fēng)T碼是實現(xiàn)難點,編碼過程有三個步驟:首先確定度分布函數(shù);然后采用均勻分布來隨機(jī)選取度值d,最后將d個不同的數(shù)據(jù)包進(jìn)行異或,得到編碼分組,不斷重復(fù)上面的步驟,就可以得到無限多個編碼分組。RS碼是一種非常成熟的糾錯碼,編碼主要的步驟就是求出有限域中的余式,這里不再做具體描述。
LT碼譯碼采用Belief Propagation算法迭代譯碼。度分布函數(shù)的選擇對LT譯碼質(zhì)量至關(guān)重要,本文采用Robust Soliton分布。首先根據(jù)收集到的編碼符號找到d=1 的輸出,調(diào)用BP 算法,不同節(jié)點信息進(jìn)行迭代實現(xiàn)譯碼;循環(huán)判斷,將度值為1的編碼包地址送給譯碼模塊進(jìn)行譯碼,若遍歷完成未找到度值為1的編碼包則中止,重復(fù)遍歷迭代。RS譯碼器采用Bjorck-Pereyra算法來實現(xiàn)系數(shù)矩陣為范德蒙矩陣的線性方程組的快速算法,運(yùn)用以范德蒙矩陣為系數(shù)陣的線性方程組的快速算法,可以減少求解過程中的運(yùn)算量,大大提高譯碼效率。數(shù)據(jù)接收完畢之后,以信息塊為單位,在余數(shù)對優(yōu)選的基礎(chǔ)上進(jìn)行外部RS譯碼。譯碼結(jié)束之后撤銷占位標(biāo)識,完成數(shù)傳終端設(shè)備譯碼通道處理。
在全面加快檔案數(shù)字化進(jìn)程的背景下,聲像檔案的數(shù)字化最為復(fù)雜多樣,難度最大,是檔案管理發(fā)展的短板。目前國內(nèi)檔案管理的軟硬件環(huán)境參差不齊,在音視頻檔案數(shù)字化過程中受干擾影響、可靠長期保存及應(yīng)對突發(fā)故障干擾方面存在理論和技術(shù)難題,通過可靠性改進(jìn)將信息編碼技術(shù)與檔案工作深度融合,在信號采集過程中,大大降低突發(fā)干擾對采集效果的影響,采用軟件編譯碼方法,可以有效降低誤碼率,增強(qiáng)數(shù)據(jù)存儲的抗干擾能力,將海量音視頻檔案信息進(jìn)行高效編碼存儲和可靠性數(shù)據(jù)還原,是解決音視頻檔案長期可靠保存的良好途徑?!盎ヂ?lián)網(wǎng)+”時代開放共享檔案信息資源成為加強(qiáng)檔案機(jī)構(gòu)自身建設(shè)的重要工作內(nèi)容,檔案機(jī)構(gòu)的服務(wù)創(chuàng)新、檔案信息資源的深度開發(fā)利用也將產(chǎn)生更廣泛區(qū)域間的檔案信息交流。音視頻檔案存儲技術(shù)的可靠性改進(jìn)研究能夠提高信息傳輸?shù)目煽啃裕⑶揖邆浜芎玫谋C苄阅?,在未來智慧檔案管理中有廣泛的應(yīng)用前景。
作者單位:青島大學(xué)檔案館
基金項目:本文系2019年度山東省檔案科技項目“海量音視頻檔案存儲技術(shù)可靠性改進(jìn)研究”(項目編號:2019-17)的研究成果。