張海濤,郭大波
(山西大學(xué)商務(wù)學(xué)院 信息學(xué)院,山西 太原 030031)
在計(jì)算機(jī)行業(yè)里媒體(medium)有兩種含義:其一是指?jìng)鞑バ畔⒌妮d體,如語(yǔ)言、文字、圖像、視頻、音頻等;其二是指存貯信息的載體,如ROM、RAM、磁帶、磁盤、光盤等,目前,主要的載體有CD-ROM、VCD、網(wǎng)頁(yè)等。多媒體是近幾年出現(xiàn)的新生事物,正在飛速發(fā)展和完善之中。我們所提到多媒體技術(shù)中的媒體主要是指前者。多媒體技術(shù)(Multimedia Technology)是利用計(jì)算機(jī)對(duì)文本(text)、圖形(graphics)、圖像(image)、聲音(sound)、動(dòng)畫(cartoon)、視頻(video)等多種信息綜合處理,并建立邏輯關(guān)系和人機(jī)交互作用技術(shù)。多媒體技術(shù)所涉及的對(duì)象是計(jì)算機(jī)技術(shù)的產(chǎn)物,而其它的單純事物,如電影、電視、音響等均不屬于多媒體技術(shù)的范疇。它極大地改變了人們獲取信息的傳統(tǒng)方法,符合人們?cè)谛畔r(shí)代的閱讀方式。多媒體技術(shù)的發(fā)展改變了計(jì)算機(jī)的使用領(lǐng)域,使計(jì)算機(jī)由辦公室、實(shí)驗(yàn)室中的專用品變成了信息社會(huì)的普通工具,廣泛應(yīng)用于工業(yè)生產(chǎn)管理、學(xué)校教育、公共信息咨詢、商業(yè)廣告、軍事指揮與訓(xùn)練,甚至家庭生活與娛樂(lè)等領(lǐng)域[1]。
多媒體通信(multimedia communication)是多媒體技術(shù)與通信技術(shù)的有機(jī)結(jié)合,突破了計(jì)算機(jī)、通信、電視等傳統(tǒng)產(chǎn)業(yè)間相對(duì)獨(dú)立發(fā)展的界限,是計(jì)算機(jī)、通信和電視領(lǐng)域的一次革命。它在計(jì)算機(jī)的控制下,對(duì)多媒體信息進(jìn)行采集、處理、表示、存儲(chǔ)和傳輸。多媒體通信系統(tǒng)的出現(xiàn)大大縮短了計(jì)算機(jī)、通信和電視之間的距離,將計(jì)算機(jī)的交互性、通信的分布性和電視的真實(shí)性完美地結(jié)合在一起,向人們提供全新的信息服務(wù)[2]。多媒體通信的基本框架如圖1所示。
圖1 多媒體通信的基本框架
多媒體通信的流程為:首先將CCD采集的視頻信號(hào)或由麥克風(fēng)采集的聲音信號(hào)進(jìn)行帶限濾波,然后進(jìn)行 A/D(Analog to Digital)變換,即抽樣、量化、編碼,將模擬信號(hào)變換成數(shù)字比特流。DSP芯片的輸入是A/D變換后得到的以抽樣形式表示的數(shù)字信號(hào),DSP(DM6437)芯片對(duì)輸入的數(shù)字信號(hào)進(jìn)行某種形式的處理,如數(shù)字濾波、壓縮編碼、降噪等。根據(jù)不同的應(yīng)用,處理后的數(shù)據(jù)就可進(jìn)行網(wǎng)絡(luò)傳輸或存儲(chǔ)[3]。同時(shí),數(shù)字信號(hào)再經(jīng)解碼、D/A(Digital to Analog)變換轉(zhuǎn)換為模擬樣值,之后再進(jìn)行內(nèi)插和平滑濾波就可得到連續(xù)的模擬波形,輸出至顯示設(shè)備或音響設(shè)備。
多媒體通信系統(tǒng)有以下幾個(gè)技術(shù)難點(diǎn):
顯示技術(shù):真彩色高分辨率顯示技術(shù)、三維技術(shù);
處理技術(shù):壓縮技術(shù)包括語(yǔ)音壓縮、圖像壓縮、視頻壓縮;
識(shí)別技術(shù):包括語(yǔ)音識(shí)別、人臉識(shí)別、手語(yǔ)識(shí)別;
傳輸技術(shù):流媒體技術(shù)P2P技術(shù)。
多媒體面臨兩個(gè)難題:
第一,信息的獲取,包括過(guò)采樣帶來(lái)的冗余、數(shù)據(jù)的傳輸和數(shù)據(jù)的存儲(chǔ);
第二,信息的表達(dá),包括準(zhǔn)確和豐富兩個(gè)方面。
云天化集團(tuán)是以化肥及現(xiàn)代農(nóng)業(yè)、玻纖新材料、磷礦采選及磷化工、石油化工、商貿(mào)及制造服務(wù)、產(chǎn)業(yè)金融6大產(chǎn)業(yè)為重要發(fā)展方向的省屬國(guó)有綜合性產(chǎn)業(yè)集團(tuán)。近年來(lái),集團(tuán)主動(dòng)融入和服務(wù)國(guó)家“一帶一路”倡議,主動(dòng)對(duì)外開放轉(zhuǎn)型升級(jí),努力發(fā)揮自身優(yōu)勢(shì),實(shí)施“國(guó)際化運(yùn)營(yíng)、本土化經(jīng)營(yíng)”,推動(dòng)企業(yè)不斷邁向高質(zhì)量發(fā)展。
文中重點(diǎn)討論視頻壓縮技術(shù)。
信息是事物本原的描述,單位是信息熵。數(shù)據(jù)是事物(在X系統(tǒng)中)的紀(jì)錄,單位是字節(jié)/比特。數(shù)據(jù)量不等于信息量,數(shù)據(jù)量大于等于信息量,相差的是冗余。多媒體數(shù)據(jù)的冗余有視頻冗余和音頻冗余。視頻冗余包括:均勻采樣冗余(絕大多數(shù)區(qū)域過(guò)采樣)和感知冗余(眼睛對(duì)視頻的感知是主觀的)。音頻冗余包括:均勻采樣冗余和感知冗余(耳朵對(duì)聲音頻率的感知是非線性的)。
視頻信號(hào)的相關(guān)性及信息冗余如圖2所示。
圖2 視頻信號(hào)的相關(guān)性及信息冗余
2.1.1 感知冗余
由于人眼視覺(jué)的非均勻性,使得人眼視覺(jué)對(duì)于某些空間頻率感覺(jué)遲鈍,視頻中不同頻率成分的內(nèi)容對(duì)于人眼系統(tǒng)而言,其重要性是不同的,也就是說(shuō)存在頻域冗余。例如,人眼視覺(jué)系統(tǒng)對(duì)亮度信號(hào)變化的敏感性高于色度信號(hào)變化。因此,可以對(duì)色度分量進(jìn)行下采樣,同時(shí)可保持主觀視覺(jué)質(zhì)量不變。YUV 4∶2∶0色差格式就是對(duì)色度分量在水平和垂直兩個(gè)方向進(jìn)行2∶1的下采樣[4]。另一方面,對(duì)信號(hào)頻域的各個(gè)分量可以采取不同的量化步長(zhǎng),將人眼視覺(jué)不敏感的分量去除,而不會(huì)引起主觀質(zhì)量的下降。
2.1.2 空間冗余
空間冗余是指在同一幀畫面中,相鄰的像素間存在空間相關(guān)性(spatial correlation),特別是當(dāng)這些相鄰像素位于同一個(gè)視頻對(duì)象中時(shí),相關(guān)性極強(qiáng),如圖像的背景區(qū)域。通過(guò)幀內(nèi)預(yù)測(cè)編碼可以大幅度地去除圖像空間冗余,現(xiàn)代的靜態(tài)圖像壓縮技術(shù)大多數(shù)都采用了該方法。
2.1.3 時(shí)間冗余
通常對(duì)視頻序列而言,除非發(fā)生場(chǎng)景切換,否則相鄰幀在時(shí)間上都是連續(xù)的。在前后兩幀中往往包含與當(dāng)前幀相同的背景和對(duì)象。只是由于鏡頭的轉(zhuǎn)動(dòng)或視頻對(duì)象的移動(dòng)使得空間位置發(fā)生變化,運(yùn)動(dòng)越緩慢,位置的變化越小,視頻序列在時(shí)域存在極強(qiáng)的時(shí)間相關(guān)性 (temporal correlation)。
原始數(shù)據(jù)對(duì)傳輸帶寬的要求如圖3所示。
圖3 原始數(shù)據(jù)對(duì)傳輸帶寬的要求
約束條件:1)按幀(N×M 矩陣,N≥M)處理;2)對(duì)元素的表達(dá)不做限定。
工具:奇異值分解(Singular Value Decomposition,SVD)。
視頻壓縮編碼現(xiàn)狀如圖4所示。
圖4 視頻壓縮編碼現(xiàn)狀
從圖中可以看出,隨著視頻分辨率的提高,壓縮倍數(shù)也相應(yīng)地增加。VCD,DVD,HDTV視頻分辨率由低到高,壓縮倍數(shù)也由低到高。根據(jù)視頻壓縮原理的知識(shí),分辨率越高,帶來(lái)的視頻冗余就越多,從而可壓縮的部分也就越多。從圖中還能看出,在同等分辨率下,AVS/H.264壓縮編碼標(biāo)準(zhǔn)比MPEG-1和MPEG-2標(biāo)準(zhǔn)壓縮倍數(shù)要高,但是二者距離壓縮的理論上限還有很大一段距離[5]。這對(duì)科學(xué)工作者來(lái)說(shuō)是非常有理論指導(dǎo)意義的。我們?cè)谔岣邏嚎s倍數(shù),改善壓縮質(zhì)量方面還有很多要做的工作。
視頻壓縮編碼的歷史是一部平衡實(shí)時(shí)性、硬件實(shí)現(xiàn)成本、算法效率的歷史。
PAL:25幀/s=40ms內(nèi)必須完成一幀處理。NTSC:30幀/s=33.3ms內(nèi)必須完成一幀處理。KLT(Karhunen-Loeve變換的簡(jiǎn)稱,是一種正交變換)無(wú)法使用,退而求其次,使用小塊DCT(離散余弦變換)變換,加上運(yùn)動(dòng)預(yù)測(cè)以及熵編碼,構(gòu)造了混合編碼框架?;旌暇幋a框架的視頻編碼系統(tǒng)是將待編碼圖像幀劃分為N×N的塊(主要是16×16和8×8),每一個(gè)塊相對(duì)獨(dú)立地進(jìn)行處理[6]。其核心思想是利用幀內(nèi)、幀間預(yù)測(cè)方法消除視頻序列中的空域和時(shí)域冗余,利用變換編碼(如DCT)方法消除頻域冗余,最后利用統(tǒng)計(jì)編碼來(lái)消除信息熵冗余。
國(guó)外對(duì)視頻的壓縮研究較為成熟,主要有兩大機(jī)構(gòu)從事這方面的工作:ITU-T下屬的視頻編碼專家組 VCEG(Video Coding Experts Group)和ISO/IEC下屬的運(yùn)動(dòng)圖像專家組MPEG(Motion Picture Experts Group)。從1980年以來(lái)已經(jīng)制定了許多針對(duì)不同應(yīng)用的標(biāo)準(zhǔn)。ITU-T主要制定了 H.26X系列標(biāo)準(zhǔn),如 H.261,H.263,H.263+,H.263++等[7],ISO/IEC主要制定了MPEG-X 標(biāo)準(zhǔn),如 MPEG-1,MPEG-2,MPEG-4等。AVS(由數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)工作組開發(fā))是中國(guó)自主制定的音視頻編碼技術(shù)標(biāo)準(zhǔn)。AVS工作組成立于2002年6月。經(jīng)過(guò)7次AVS正式工作會(huì)議和3次視頻組附加會(huì)議,歷經(jīng)一年半的時(shí)間,審議了182個(gè)提案,先后采納了41項(xiàng)提案,2003年12月19日AVS視頻部分終于定稿。AVS視頻標(biāo)準(zhǔn)當(dāng)中具有特征行的核心技術(shù)包括:8×8整型變換、量化、幀內(nèi)預(yù)測(cè)、1/4精度像素插值、特殊的幀間預(yù)測(cè)運(yùn)動(dòng)補(bǔ)償、二維熵編碼等[8]。
文中先從媒體的概念引出多媒體技術(shù),然后又引出了多媒體通信技術(shù)。簡(jiǎn)單介紹了多媒體通信的基本框架和面臨的技術(shù)難題。然后重點(diǎn)討論了視頻壓縮技術(shù),包括視頻壓縮原理、原始數(shù)據(jù)對(duì)帶寬的要求、視頻數(shù)據(jù)可被壓縮的理論上限和壓縮編碼算法的歷史和現(xiàn)狀。通過(guò)文中研究,表明多媒體通信尚有許多技術(shù)難點(diǎn)和理論難題值得研究和克服。近年來(lái)隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展和推廣,使得多媒體通信又增加了新的內(nèi)容。多媒體通信的研究領(lǐng)域越來(lái)越廣泛,涉及的內(nèi)容也越來(lái)越深刻,多媒體通信的應(yīng)用前景一片光明。
[1]張曉燕.多媒體通信技術(shù)[M].北京:北京郵電大學(xué)出版社,2009.
[2](德)Ralf Steinmetz,(美)Klara Nahrstedt,安博一.Multimedia Systems[M].北京:清華大學(xué)出版社,2006.
[3]張小鳴.DSP控制器原理及應(yīng)用[M].北京:清華大學(xué)出版社,2009.
[4]必厚杰.新一代視頻壓縮編碼標(biāo)準(zhǔn):H.264/AVC[M].2版.北京:人民郵電出版社,2009.
[5]劉峰.視頻圖像編碼技術(shù)及國(guó)際標(biāo)準(zhǔn)[M].北京:北京郵電大學(xué)出版社,2005.
[6]張海濤.視頻壓縮編碼研究及應(yīng)用[D]:[碩士學(xué)位論文].太原:山西大學(xué),2008.
[7]肖志堅(jiān).H.264幀間編碼技術(shù)的分析與改進(jìn)[D]:[碩士學(xué)位論文].西安:西安電子科技大學(xué),2005.
[8]唐玲娜.H.264視頻解碼優(yōu)化及 DSP實(shí)現(xiàn)[D]:[碩士學(xué)位論文].成都:電子科技大學(xué),2009.