文章編號:1672-5913(2008)10-0052-03
摘要:本文討論了如何面對計算機專業(yè)的研究生,將科研意識和創(chuàng)新思維融入到“DCT編碼技術(shù)”的教學實踐中,使學生充分領會DCT變換編碼技術(shù)的理論,并能運用所學,創(chuàng)造性地解決實際問題。
關(guān)鍵詞:DCT變換;數(shù)據(jù)壓縮;創(chuàng)新思維
中圖分類號:G642
文獻標識碼:B
1 引言
變換域編碼是目前使用最廣泛的多媒體編碼技術(shù),幾乎所有的圖像和視頻壓縮標準均以變換編碼為重要工具。DCT(Discrete Cosine Transform)變換編碼因具有優(yōu)良的壓縮特性,包含了該課程描述問題和求解問題的基本方法和技術(shù),是“多媒體技術(shù)”教學的難點和重點。
DCT變換編碼技術(shù)采用完全形式化的抽象數(shù)學模型描述,有嚴格的理論基礎和邏輯演繹過程,對于圖像和視頻,這種形式化的模型有其明確的含義,但是描述的“超現(xiàn)實性”與具體的圖像對象之間的關(guān)聯(lián)使學生在心理上產(chǎn)生了一定的障礙。只有克服形式化帶來的困難,才能獲得更好的教學效果。
為此,針對DCT變換編碼理論和技術(shù)自身的特點,結(jié)合研究生的抽象思維能力和知識基礎,我們確定教學目標,瞄準目標優(yōu)化教學內(nèi)容,將理論和實踐相結(jié)合,以充分體現(xiàn)學科理工結(jié)合、科學性與工程性并重、理論與實踐并舉的教學基本要求,如圖1所示。
2 理性教育培養(yǎng)學生的科研意識和素養(yǎng)
研究生自我意識較強,創(chuàng)造思維活動處于活躍時期,有一定的知識積累和一定的能力水平,已經(jīng)具備了從事艱巨的抽象思維活動的能力。根據(jù)這一特點,課堂首先展示DCT編碼技術(shù)產(chǎn)生的歷史背景,引入該項技術(shù)的最新動態(tài),使學生從整體上把握這項技術(shù)。在內(nèi)容上突出變換編碼的基本原理和二維可分離變量的變換這些難點以及DCT變換這一重點,以變換編碼的基本原理reg;二維可分離變量的變換reg;DCT變換的順序,通過知識的傳授,培養(yǎng)學生的抽象思維和邏輯推理能力。
圖1 教學內(nèi)容與教學目標
2.1變換編碼的基本原理
在實踐中,我們發(fā)現(xiàn)學生很難理解分辨率為N×N的圖像的正交變換的本質(zhì),為了增加正交變換的教學直觀性,我們借助直觀的形象,將抽象的概念和原理引入。首先用圖2將分辨率為2×2的圖像正交變換的直觀物理意義展示出來,讓學生領會變換如何去除圖像的相關(guān)性的道理,通過2×2變換的直觀形象的幾何意義,提升學生的想象和聯(lián)想能力,通過啟發(fā)提問,讓學生將2×2的情形推廣到N×N的情形。
圖2 正交變換示意圖
通過圖2所示的2×2情形的講述,學生借助已有的知識,不難得到如下結(jié)論:正交變換可以將信號的能量集中在少數(shù)變換系數(shù)上,使信號以緊湊的方式表達。再讓學生結(jié)合以往學習數(shù)據(jù)量化和熵編碼技術(shù)所獲得的經(jīng)驗,分析信號的這種緊湊表示的優(yōu)點,這樣就使得問題變得很容易理解:采用符合人的視覺系統(tǒng)特征的標量量化方式,大多數(shù)高頻系數(shù)在量化后會很小或者為零,非零系數(shù)大部分分布在低頻區(qū),量化后的變換系數(shù)矩陣是一個稀疏矩陣,選擇適當?shù)膾呙璺绞胶挽鼐幋a可以得到高壓縮性能。
眾所周知,正交變換的種類很多,學生通常會產(chǎn)生這樣“去相關(guān)性能力最強的正交變化是什么”的疑問。教師也可以給一定的引導,讓學生能夠沿著這個思路走下去。此時分析Hadamard Transform, Haar Transform, Slant Transform, KLT(Karhunen—Loeve Transform)和DCT變換等常用的正交變換,最后得出結(jié)論:KLT變換是最佳變換,在實際中經(jīng)常采用DCT變換,特別是引出DCT變換具有可分離變量的特征。
隨著問題一個個的出現(xiàn),又一個個地被解決,接著新的問題又一個個的被提出,將課堂變成師生進行研究的場所,學生就不會僅僅看到形式化和抽象,而看到的是形式化和抽象表示的表示的內(nèi)涵,體驗這種表示的“美”,看到一個更廣闊、更豐富的世界。學生在這里不僅學到知識,還學到了大師們的思維方式,體驗科學研究的樂趣。
2.2二維可分離變量的變換
為了讓學生深刻體會DCT變換的數(shù)學表示,我們從一維正交變換到二維可分離變量變換講述變換的數(shù)學表達方式:
從泛函分析理論出發(fā),可以將連續(xù)的一維信號(如語音)看作某個一維函數(shù)空間的一個函數(shù),該信號可以用該空間基函數(shù)的線性組合形式表示,該信號在基函數(shù)下的投影就是線性組合系數(shù),當基函數(shù)是標準正交時,離散的基函數(shù)就構(gòu)成了線性向量空間的正交矩陣,該正交矩陣所對應的變換就是正交變換。
同理,二維信號(如圖像)也可以視為二維函數(shù)空間的一個函數(shù),該信號可分解為該空間對應的二維基函數(shù)的線性組合形式,為了便于圖像壓縮,通常選擇二維可分離變量的變換,即二維的基函數(shù)是可分的,這樣我們就可以按照一維的方式對圖像的列和行分別進行變換,從而大大地降低了運算的復雜度。
首先給出針對一維信號給出正交變換的表達方式,然后針對二維圖像信號,按照列和行分別進行一維正交變換,可以得到二維可分離變量變換的表達式: , 是一個 圖像, 是圖像 二維變換的結(jié)果,為了進一步剖析可分離變量變換的基函數(shù)的本質(zhì),可以推導出上述變換的等價形式:
其中 是T的列向量, 是 的行向量, 就是二維可分離變量的基函數(shù),圖像信號可由基函數(shù)的線性組合形式表示, 就是組合系數(shù)。 所對應的圖像被定義為該變換的的基圖像。
2.3DCT變換
余弦變換是傅里葉變換的一種特殊形式,對于實值偶函數(shù),其傅里葉級數(shù)中只包含余弦項,再將其離散化由此可導出離散余弦變換DCT。一維的DCT變換的基函數(shù)是:
對于圖像信號,二維DCT基函數(shù)是兩個一維的DCT基函數(shù)的張量積。二維DCT正變換和逆變換為:
DCT正變換和逆變換矩陣表示為:
圖3DCT變換的基圖像
取 , ,可以得到 DCT變換的基圖像表達。在圖像或視頻編碼中,常常采用基于塊的DCT變換,將輸入圖像分割成N×N像素大小的塊(例如4×4,8×8和16×16),為了加深學生對DCT變換的基圖像抽象表達的理解,我們將基圖像以直觀形象的方式表達出來,圖3(a)、圖3(b)分別給出了N=4,N=8的DCT變換的基圖像。
DCT變換矩陣A不會因圖像不同而改變,與KLT變換相比,DCT變換具有通用的變換矩陣,具有可分離特性,因此便于硬件實現(xiàn),同時,在壓縮性能上又可與最小方差意義下最佳變換KLT變換媲美。
3 理論與實驗相結(jié)合培養(yǎng)學生的實踐創(chuàng)新能力
為了使學生更加深入的領會“DCT編碼技術(shù)”的精髓,實踐是不可缺少的重要環(huán)節(jié),為實驗教學的順利實施,我們首先要做一些實驗之間的引導教學,我們以實例教學方式,圖文并茂,分析DCT編碼的理論的本質(zhì)與精髓。
圖4 DCT 正變換
如圖4所示,圖4(a)是一幅灰度圖,圖4(b)表示圖4(a)中白色邊框的圖像塊的像素灰度值,即圖4(b)是圖像塊的時域表示,圖4(c)是圖4(b)經(jīng)DCT變換的結(jié)果,即圖像塊的頻域表示,圖像塊可用4×4的DCT基圖像線性組合表示,其中組合系數(shù)就是圖4(c)中的16個系數(shù)。盡管正變換和逆變換數(shù)據(jù)的數(shù)量是沒有變,但變換后圖像塊的能量保持不變,并且圖像塊的能量集中在DC(Y00)和低頻部分,當只保留DC系數(shù)時,其他系數(shù)均設為0,逆變換重構(gòu)圖像的每個像素值是原圖像塊的均值,重構(gòu)的圖像如圖5(a)所示,當只保留兩個重要系數(shù)Y00和Y10,其他系數(shù)均設為0時,重構(gòu)結(jié)果為圖5(b),圖5(c)和圖5(d)是保留3個重要系數(shù)和5個重要系數(shù)重構(gòu)的結(jié)果。圖5(a)到 圖5(d),重構(gòu)的圖像塊越來越逼近原圖像塊。
通過上述內(nèi)容的討論,使同學們懂得:用量化的方法保留少量 DCT系數(shù),在有損壓縮的條件下,能夠提高壓縮性能,同時變換與量化是密不可分的,變換是無損的,而量化是有損的,孤立地考慮編碼某一個環(huán)節(jié)是錯誤的,只有統(tǒng)籌兼顧,將編碼器作為一個完整的系統(tǒng)進行設計才是合理的,而在量化和后續(xù)的熵編碼的環(huán)節(jié)及算法的復雜性方面還有很多的創(chuàng)新空間。
圖5DCT逆變換重構(gòu)圖像
與之配套的實驗是要求學生設計并實現(xiàn)一個基于DCT變換的簡單編碼器。具體內(nèi)容為:基于DCT變換的編碼器基本框架(如圖6),借鑒圖像編碼標準JPEG和H.264、MPEG-2和AVS等視頻編碼標準的幀內(nèi)預測技術(shù),結(jié)合前面課程中所學習的熵編碼、量化等多媒體壓縮理論,合理設計變換、量化、系數(shù)的掃描方式及熵編碼各個密切聯(lián)系的關(guān)鍵環(huán)節(jié),設計一個初步的編碼器系統(tǒng),最后以論文和原型系統(tǒng)的方式提交。通過這個實驗,引導學生自主學習,訓練交流表達能力,激發(fā)學生對未知世界的興趣,鼓勵學生樹立探索、研究、批判的精神。培養(yǎng)學生理論聯(lián)系實際和創(chuàng)新的能力。具體方式是將學生分成5人一組,在教師指導下完成實驗。
鼓勵學生提問、置疑,鼓勵學生批判現(xiàn)有的技術(shù)方案,特別注意理解學生提出幼稚和錯誤技術(shù)方案的原因,幫助學生剖析技術(shù)方案存在的問題,將其引導到正確的研究思路上來,最終提出自己的創(chuàng)新技術(shù),良好的師生互動為能夠促進“融教育于教學”和“教書育人”目標的實現(xiàn)。
實踐給學生提供了創(chuàng)新機會,同時恰當?shù)囊龑Ш烷_放式的要求使他們有機會體驗創(chuàng)新的樂趣。實踐中注重創(chuàng)新精神和學術(shù)規(guī)范,讓學生將實踐環(huán)節(jié)的內(nèi)容總結(jié)為一個原型系統(tǒng)和一篇論文,盡管原型系統(tǒng)是初步的、不完善的,論文質(zhì)量不一定達到發(fā)表的程度,但同學經(jīng)歷全過程,可使他們較深刻地理解知識的深層含義。
圖6基于DCT變換的編碼器基本框架
4結(jié)語
在教學實踐中,我們以探索DCT編碼技術(shù)產(chǎn)生的起因與相關(guān)研究理論和方法為目的,充分考慮DCT編碼技術(shù)的綜合、交叉和滲透的特點,將科學研究所需要的諸多元素都融入到教學中去,用科學研究的要求組織教學。將探索、批判的研究精神和創(chuàng)新意識貫穿到“DCT編碼技術(shù)”教學中,引導學生思考、求解問題,培養(yǎng)學生的科研意識和創(chuàng)新能力。
參考文獻
[1] 張旭東,盧國棟,馮健. 圖像編碼基礎和小波壓縮技術(shù)[M]. 北京: 清華大學出版社, 2004.
[2] 林福宗. 多媒體技術(shù)基礎[M]. 北京:清華大學出版社, 2002.
“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”