余曉忠
視音頻信號的數(shù)字化壓縮技術要點簡述
余曉忠
(作者單位:新疆新聞出版廣電局安全監(jiān)測中心)
本文介紹了視音頻信號的數(shù)字化過程,對視音頻信號數(shù)字化的編碼方式、取樣格式和壓縮編碼技術要點進行分析。
視音頻信號;數(shù)字化;壓縮技術
數(shù)字電視由于有著圖像傳輸質量好、頻譜利用率高、節(jié)省發(fā)射功率、易于實現(xiàn)信號存儲和處理等優(yōu)點,自誕生后迅速取代模擬電視得到了廣泛應用。
模擬視音頻信號實現(xiàn)數(shù)字化需完成取樣、量化、編碼三個過程,稱為脈沖編碼調制PCM(Pulse Code Modulation)。
取樣,是指在時間(或空間)上用有限個取樣點來代替連續(xù)無限的坐標位置。根據(jù)奈奎斯特取樣定理,取樣頻率必須大于等于2倍模擬信號的最高頻率,在接收端通過低通濾波器恢復離散的模擬樣值序列。
量化,是對取樣得到的樣值序列的幅度進行離散化處理,將連續(xù)變化的無窮多個樣值的幅度用有限的近似樣值的幅度來表示,把離散脈沖的幅度進行舍零取整的過程。量化的級數(shù)的多少取決于量化比特數(shù)的多少,量化比特數(shù)越多,量化級越多,產生的量化誤差越小,解碼后恢復的模擬信號失真也越小。一般每增加或減少1 bit,就使量化信噪比增加或減少6 dB。對于音頻和視頻信號,通常采用非均勻量化,小信號時量化間隔小些,大信號時量化間隔隨之大一些,使信噪比趨于一致。
編碼是指用一組組二進制數(shù)依次表示一個個量化后的脈沖幅度值,并把它們排列起來組成數(shù)據(jù)信息流的過程。
2.1視頻信號的編碼方式
視頻信號的編碼分為復合編碼與分量編碼兩種。
復合編碼是將復合彩色全電視信號直接進行數(shù)字化,編碼成PCM信號。由于取樣頻率與副載波頻率間的差拍造成的干擾影響圖像質量,復合編碼已經淘汰。
分量編碼是對三基色信號R、G、B分量或者是對亮度信號Y和兩個色差信號R-Y和B-Y分別進行數(shù)字化,編碼成二進制的脈沖編碼調制PCM信號,然后以時分復用的方式混合在一起,構成PCM分量編碼信號。其優(yōu)點是編碼與電視制式無關,便于電視制式轉換和統(tǒng)一;由于對分量分別編碼,采用時分復用方式混合在一起,從而有效地避免了亮/色互相串擾,可獲得高質量的圖像。
2.2視頻信號的取樣格式
視頻信號數(shù)字化時分為625行/50場制式和525行/60場制式。一副完整的圖像都是通過兩場隔行掃描完成的,一幅圖像既有水平掃描又有垂直掃描。取樣點通常采用正交結構,為了滿足正交結構,要求取樣頻率必須是行頻率的整數(shù)倍。為了實現(xiàn)兩種掃描制式的兼容,采用同一種取樣頻率,即625行頻和525行頻的整數(shù)倍,同時還要滿足奈奎斯特取樣定理,確定亮度信號取樣頻率為13.5MHz。
由于色差信號的帶寬比亮度信號的帶寬窄的多,為了降低碼率,在分量編碼時兩個色差信號的取樣頻率可以低一些。為了滿足不同應用場合對圖像質量的要求,亮度和色差信號的取樣頻率可以有不同的比例組合,即不同的取樣格式。通常將3.375 MHz作為最低的基準頻率。
4∶4∶4格 式, 即Y∶(B-Y)∶ (R-Y)=13.5 MHz∶ 13.5 MHz∶ 13.5 MHz,適用于高質量圖像信號源;
4∶2∶2格 式, 即Y∶(B-Y)∶(R-Y)=13.5MHz∶6.75MHz∶6.75MHz,適用于標準清晰度電視(SDTV)演播室中;
4∶2∶0格式,即Y∶(B-Y) ∶(RY)=13.5 MHz∶3.375 MHz∶3.375 MHz,其實質上為4∶1∶1格式,適用于SDTV信源編碼中。
2.3數(shù)字電視信號的碼率
國際電信聯(lián)盟的無線電委員會(稱為ITU-R)數(shù)字演播室標準CCIR-601,確定了以分量編碼4∶2∶2標準作為演播室彩色電視信號數(shù)字編碼的國際標準,對彩色電視信號的編碼方式、取樣頻率、取樣結構等都做了明確的規(guī)定。625行/50場和525行/60兩種制式的亮度信號每行取樣點分別為864個和858個,有效取樣點數(shù)均為720個,取樣頻率為13.5MHz,行逆程取樣點數(shù)分別為144個138個。兩個色差信號每行分別取樣432和429行,有效取樣點均為360個,取樣頻率為6.75 MHz,行逆程取樣點分別為72個和69個。
標準清晰度數(shù)字電視(SDTV)的碼率=亮度信號的碼率+2個色差信號的碼率 =13.5 MHz×10 bit+2×6.75 MHz×10 bit=270 Mbit/s(取10 bit量化)
高清晰度數(shù)字電視(HDTV)的碼率=亮度信號的碼率+2個色差信號的碼率=1485 Mbit/s(亮度信號取樣頻率為74.25 MHz,取10 bit量化)
2.4音頻信號的數(shù)字化
音頻信號都是復合信號,基本參數(shù)有頻率、幅度和帶寬。頻率決定音調高低,幅度決定聲音的大小或強弱,帶寬決定音頻信號的頻率范圍。人耳能聽到的最大頻率范圍是10 Hz~20kHz。衡量音頻信號數(shù)字化有三個指標:取樣頻率的大小、量化比特數(shù)、聲道的多少。取樣頻率通常為11.05kHz、20.05kHz、44.1kHz、48 kHz等,常采用8比特和16比特量化;聲道數(shù)可分為單聲道、雙聲道(立體聲)、環(huán)繞立體聲(5聲道)。
數(shù)字音頻存儲量=取樣頻率×量化比特數(shù)×聲道數(shù)/8bit(字節(jié))
壓縮編碼技術就是在發(fā)送端對數(shù)字信號進行變換處理的一種方法,其目的是去掉數(shù)字信號中冗余信息(數(shù)據(jù)),盡可能地降低信號的數(shù)碼率,形成一個傳輸效率更高的數(shù)字信號。數(shù)字信號首先進入預測編碼器,消除數(shù)據(jù)中的統(tǒng)計相關冗余,包括空間相關與時間相關冗余,再經過變換編碼,把時域信號變換為空間域(頻域)信號,實現(xiàn)碼率的壓縮。之后再通過量化編碼、熵編碼及緩沖器進一步壓縮數(shù)碼率,并保證數(shù)碼率以平穩(wěn)的速率達到與信道容量相匹配。緩沖器輸出的信號再通過多工時分復用器與伴音、同步及其他輔助數(shù)據(jù)信號組成復合信號,最后送入信道編碼器。
預測編碼:又稱差分脈沖調制編碼(Differential Pulse Code Modulation,DPCM)。利用某種數(shù)學模式和已經傳輸?shù)南袼刂担〝?shù)據(jù))進行預測,預測出一個與當前傳輸?shù)南袼刂迪嘟咏墓烙嬛?,進而把當前要傳輸?shù)南袼刂禍p去預測值,得到一個誤差值,將誤差值編碼后傳輸出去。在接收端將收到的誤差值解碼后,再與預測值相加,即可得到當前要傳輸?shù)南袼刂怠?/p>
變換編碼:基本思想是不直接對空間域圖像數(shù)據(jù)進行編碼,而是首先將原來空間域上的圖像數(shù)據(jù)變換到另一個正交向量空間(變換域或頻域)中,得到相應的一組變換系統(tǒng),然后對這些變換系數(shù)進行量化、編碼和傳輸,又稱為正交變換編碼。常用的變換編碼有離散傅立葉變換和離散余弦變換DCT(Discrete Cosine Transform)。為了避免傅立葉變換的復數(shù)運算,常采用DCT變換,將一幅圖像分為多個8×8個像素樣值的子像塊,即64個點的離散信號,通過DCT輸出64個正交基信號,每個正交基信號的幅值稱為DCT系數(shù)。由于高頻分量DCT系數(shù)經常為0,僅對低頻分量系數(shù)進行量化編碼,大大壓縮了數(shù)據(jù)量。
熵編碼:又稱統(tǒng)計編碼,是一種無損編碼。常用的有霍夫曼編碼,先把信源符號按出現(xiàn)的概率由大到小順序排列,然后按相反的順序分配碼字的長度。缺點是要求事先知道各信源符號出現(xiàn)的概率,否則效率會明顯下降。
數(shù)字視頻的運動補償編碼:是一種幀間預測編碼,具有較大的數(shù)碼壓縮率,是運動圖像視頻編碼國際標準(H.261、MPEG-1、MPEG-2)采用的關鍵技術之一。幀間預測編碼基本原理是選擇前一幀作為預測參考幀,在傳輸前一幀的基礎上,只要傳輸前幀與后一幀對應像素的差值信號,在接收端只要將前一幀與差值相“加”,同樣能得到后一幀。
運動補償編碼主要解決兩個問題,即運動估計和運動補償。運動估計就是對運動物體從前一幀到后一幀位移的方向和像素數(shù)做出估計,也就是求出運動矢量。運動補償就是對運動物體的位移量進行補償。
[1]吳恩學.數(shù)字電視實用技術[M].北京:教育科學出版社,2009.
[2]車晴,王京玲.衛(wèi)星廣播技術[M].北京:中國傳媒大學出版社,2015.