摘要:作為實(shí)現(xiàn)人機(jī)交互技術(shù)的必要途徑,媒體認(rèn)知技術(shù)及其領(lǐng)域受到越來越多的關(guān)注,媒體認(rèn)知實(shí)驗(yàn)課程是清華大學(xué)電子信息學(xué)科在課程體系改革過程中創(chuàng)立的一門全新課程。文章通過闡述覆蓋軟件姿勢操控、安卓平臺人臉識別等媒體信息交互基本內(nèi)容的基本項(xiàng)目,以及由學(xué)生自主提出與英特爾RealSense等許多國際一流技術(shù)接軌的實(shí)際項(xiàng)目如音樂節(jié)奏控制交互、手勢模擬電腦鍵盤等,旨在激發(fā)學(xué)生對相關(guān)研究領(lǐng)域的熱情與興趣,進(jìn)一步培養(yǎng)高層次人才的創(chuàng)新能力。
關(guān)鍵詞:媒體認(rèn)知;智能感知;RealSense;學(xué)生自主項(xiàng)目
1 媒體認(rèn)知實(shí)驗(yàn)課程簡介
信息一詞在我國由來已久,但迄今為止尚未得到普遍接受的有關(guān)廣義信息的定義,信息作為一個(gè)可以用嚴(yán)格數(shù)學(xué)公式定義的科學(xué)名詞,首先出現(xiàn)在統(tǒng)計(jì)數(shù)學(xué)中,隨后又出現(xiàn)在通信技術(shù)中。文中的信息指的是通信系統(tǒng)中用于傳輸和處理的對象,特指消息和信號的具體內(nèi)容和含義。電子信息科學(xué)與技術(shù)是以物理和數(shù)學(xué)為基礎(chǔ),研究通過電學(xué)形式表達(dá)操控信息的基本規(guī)律以及運(yùn)用這些基本規(guī)律實(shí)現(xiàn)各種電子系統(tǒng)的方法。在進(jìn)入電子時(shí)代和信息社會的今天,電子信息科學(xué)技術(shù)已滲透到各個(gè)領(lǐng)域。
2008年,Bill Gates首次提出“自然用戶界面”( natural user interface)的概念并預(yù)言人機(jī)交互在未來幾年會有很大的改觀,鍵盤和鼠標(biāo)將會逐漸被更自然的觸摸式、視覺型以及語音控制界面所替代。與此同時(shí),“有機(jī)用戶界面”( organic userinterface)也開始悄然興起,其包括生物識別傳感器、皮膚顯示器乃至大腦與計(jì)算機(jī)直接對接,這些技術(shù)無疑都給人類的生活帶來重大影響。隨著計(jì)算機(jī)技術(shù)和傳感器的普遍應(yīng)用,現(xiàn)實(shí)世界也逐漸出現(xiàn)其“數(shù)字版”的一面,而自然人機(jī)交互技術(shù)正是現(xiàn)實(shí)與虛擬世界之間的橋梁?,F(xiàn)存的或已經(jīng)比較成熟的人機(jī)交互技術(shù)主要有虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、多點(diǎn)觸控、語音識別、眼球追蹤、人臉識別、體感操作、腦機(jī)界面等。
當(dāng)遇到一個(gè)人的時(shí)候,大腦立即將注意力集中在對方身上并根據(jù)經(jīng)驗(yàn)辨識出他的身份,這一過程并不是通過數(shù)百層的決策樹實(shí)現(xiàn),而是人腦就是知道。嬰兒很難區(qū)分出兩個(gè)人的不同,但我們通過多年的學(xué)習(xí)和訓(xùn)練可以在幾分之一秒內(nèi)做到。事實(shí)上,人腦也許還能準(zhǔn)確地估摸出他們的年齡、性別、心情甚至個(gè)性,這也是讓我們成就為人類的原因之一。媒體認(rèn)知技術(shù)的目的就是創(chuàng)造類似的設(shè)備和方法,主動(dòng)觀察身邊的世界并與人類用戶操作和互動(dòng),進(jìn)行自主學(xué)習(xí),甚至可以影響人類產(chǎn)生新的文化和藝術(shù),徹底改變?nèi)祟悘耐饨鐚W(xué)習(xí)知識和與外界及其他人類互動(dòng)的手段和方式。
媒體認(rèn)知實(shí)驗(yàn)課程從媒體認(rèn)知技術(shù)出發(fā),面向電子信息學(xué)科學(xué)生設(shè)立多個(gè)全新的媒體認(rèn)知實(shí)踐項(xiàng)目與環(huán)節(jié),通過大量實(shí)踐與實(shí)驗(yàn)訓(xùn)練,幫助學(xué)生深刻理解基于數(shù)字信號處理的媒體認(rèn)知基本理論,培養(yǎng)學(xué)生在真實(shí)環(huán)境下建模和解決問題的能力。此外,自主研究環(huán)節(jié)還可極大地激發(fā)學(xué)生的學(xué)習(xí)熱情,在課內(nèi)外投入大量時(shí)間進(jìn)行媒體認(rèn)知技術(shù)相關(guān)領(lǐng)域的科學(xué)探索和研究。連續(xù)幾年的學(xué)生調(diào)查反饋數(shù)據(jù)表明,媒體認(rèn)知實(shí)驗(yàn)課程提高了學(xué)生的創(chuàng)新能力,對進(jìn)一步培養(yǎng)高層次人才具有很大的意義。
2 媒體認(rèn)知實(shí)驗(yàn)基本項(xiàng)目
人機(jī)交互的實(shí)質(zhì)是媒體信息的交互。虛擬現(xiàn)實(shí)技術(shù)是20世紀(jì)末興起的一種綜合性信息媒體處理前沿技術(shù),該技術(shù)作為新媒體和新一代人機(jī)交互技術(shù),給人類帶來了全新的認(rèn)知體驗(yàn)。虛擬現(xiàn)實(shí)技術(shù)采用多通道媒體界面技術(shù),顯示出未來人機(jī)交互的發(fā)展趨勢,即追求“人機(jī)和諧”的多維信息空間交互和自然人機(jī)交互。為了實(shí)現(xiàn)以上目標(biāo),機(jī)器需要通過多種媒體識別人的身體姿態(tài)、手勢及語音等,判斷出人的意圖。
2.1 軟件姿勢操控項(xiàng)目
英特爾的RealSense設(shè)備是一種能通過采集視覺、深度、音頻等多種媒體信息獲得手勢、語音等表征意圖的智能感知設(shè)備,可以廣泛應(yīng)用于自然互動(dòng)、沉浸式協(xié)作與創(chuàng)作等創(chuàng)新應(yīng)用,能夠幫助開發(fā)人員在游戲、娛樂和內(nèi)容創(chuàng)建交互方面實(shí)現(xiàn)新的突破。通過設(shè)計(jì)基于RealSense的一系列媒體認(rèn)知系統(tǒng)項(xiàng)目,學(xué)生可以對媒體與認(rèn)知相互作用的內(nèi)涵有更深入的理解。該項(xiàng)目的目標(biāo)是利用RealSense的骨骼節(jié)點(diǎn)跟蹤功能控制幻燈片的播放,免去演講者按鍵進(jìn)行幻燈片切換的過程;同時(shí)根據(jù)同樣的原理,預(yù)定義一些動(dòng)作實(shí)現(xiàn)幻燈片播放過程中需要的其他功能。實(shí)現(xiàn)ReaISense控制幻燈片播放的主要方法包括姿勢( pose)識別和手勢(gesture)識別,這兩種方法的本質(zhì)都是通過骨骼數(shù)據(jù)的分析識別出已經(jīng)定義好的動(dòng)作,并根據(jù)不同的動(dòng)作觸發(fā)向前、向后、首頁、尾頁等按鍵的事件,使得幻燈片能夠切換。不同之處在于姿勢識別主要對單幀數(shù)據(jù)進(jìn)行動(dòng)作識別,其流程如圖1所示;手勢識別需要對連續(xù)多幀數(shù)據(jù)進(jìn)行動(dòng)作識別,其流程如圖2所示。
2.2 安卓平臺人臉識別項(xiàng)目
該項(xiàng)目基于主成分分析( PCA)算法,利用劍橋大學(xué)AT&T實(shí)驗(yàn)室的ORL人臉數(shù)據(jù)庫中的40個(gè)人、每個(gè)人10種姿態(tài)的圖片樣本作為訓(xùn)練集,將二維人臉灰度圖像變換為一向量矩陣,隨后計(jì)算出特征集,將矩陣規(guī)范化后,求出樣本的協(xié)方差矩陣的特征值與向量,選出主成分特征向量,得到樣本的特征矩陣。安卓平臺人臉識別的流程如圖3所示。
在訓(xùn)練階段,經(jīng)過預(yù)處理規(guī)范化后的圖像矩陣每一列向量被投影到特征子空間,形成特征庫。在識別階段,待識別人臉圖像經(jīng)過預(yù)處理規(guī)范化后,同樣被投影到特征子空間,使用最近鄰法分類器歐幾里得距離作為判決分類,將距離最小的訓(xùn)練圖像與測試圖像進(jìn)行匹配。
在具體教學(xué)中,基礎(chǔ)項(xiàng)目環(huán)節(jié)每一層中的實(shí)踐項(xiàng)目都按照知識點(diǎn)的深度分解為多個(gè)基礎(chǔ)題目,幫助學(xué)生從實(shí)現(xiàn)基礎(chǔ)題目的角度出發(fā)主動(dòng)尋找解決問題需要的各個(gè)知識點(diǎn),逐步形成知識體系結(jié)構(gòu)。廣泛的題材和前沿的題目也激發(fā)了學(xué)生對相關(guān)領(lǐng)域繼續(xù)深入研究的興趣。
3 媒體認(rèn)知實(shí)驗(yàn)自主項(xiàng)目
自主項(xiàng)目是由學(xué)生提出研究題目并全部獨(dú)立設(shè)計(jì)完成的一種教學(xué)方式,在媒體認(rèn)知實(shí)驗(yàn)中作為選修環(huán)節(jié),在設(shè)計(jì)之初主要考慮和面向部分優(yōu)秀學(xué)生,但在實(shí)際教學(xué)過程中,全部學(xué)牛均主動(dòng)積極參與完成了自主項(xiàng)目環(huán)節(jié)。事實(shí)上,在學(xué)生的參與和建議下,部分學(xué)生提出的自主項(xiàng)目的成熟內(nèi)容正在逐步轉(zhuǎn)化為基本項(xiàng)目,這種教學(xué)相長的方式極大地調(diào)動(dòng)了學(xué)生的參與性、主觀能動(dòng)性和創(chuàng)造性。完成該實(shí)驗(yàn)課程后,許多學(xué)牛在研究生階段繼續(xù)從事該媒體認(rèn)知方向的研究工作,部分自主項(xiàng)目如下。
3.1 音樂節(jié)奏控制交互
音樂節(jié)奏控制交互類應(yīng)用的目的是根據(jù)音樂節(jié)奏與其提示按下不同的鍵模擬敲打鼓面或者敲打鼓邊,系統(tǒng)根據(jù)敲打鼓面或鼓邊的時(shí)機(jī)判斷該次擊打的得分并綜合得出最終評價(jià)。通過PC端進(jìn)行音樂節(jié)奏控制交互的主要問題是通過鍵盤無法很好地進(jìn)行“擊鼓”這一類型的人機(jī)交互,人通過按下某個(gè)鍵模仿?lián)艄倪@一動(dòng)作的真實(shí)感太低,不能形成很好的人機(jī)交互的用戶體驗(yàn),,通過RealSense設(shè)備實(shí)現(xiàn)手勢操作則可以極大提升該游戲的體驗(yàn)度,用戶可以直接通過做出模仿?lián)艄牡氖謩葸M(jìn)行操作,增強(qiáng)游戲體驗(yàn)的同時(shí)還能開發(fā)該游戲鍛煉身體的功效。音樂節(jié)奏控制交互項(xiàng)目界面如圖4所示。
3.2 手勢模擬電腦鍵盤
鍵盤作為人類與計(jì)算機(jī)交互的重要工具已經(jīng)有很長時(shí)間,用鍵盤幾乎可以完成與計(jì)算機(jī)的所有交流活動(dòng)。ReaISense作為一種體感感知設(shè)備能夠很好地實(shí)現(xiàn)人體和機(jī)器的交流。手勢模擬電腦鍵盤的目的是將手勢與電腦鍵盤一一對應(yīng)起來,使得用戶進(jìn)行某個(gè)手勢動(dòng)作就相當(dāng)于在電腦鍵盤上輸入對應(yīng)的鍵值。具體方案為首先對RealSense采集到的原始數(shù)據(jù)進(jìn)行判別、加工;接著使用紅外鏡頭提供的骨骼數(shù)據(jù)判斷動(dòng)作類型,發(fā)送不同指令;針對檢測到多個(gè)骨骼的問題,采用提取與設(shè)備最近的目標(biāo)作為主要操縱者的辦法提高魯棒性,同時(shí)在窗口繪出彩色視頻流輔助調(diào)試。通過用手勢替代鍵盤完成一些工作,并采用后臺\客戶端模式進(jìn)行封裝來提高系統(tǒng)易用性,理論上可以無需接觸鍵盤就完成所有鍵盤控制的工作。手勢模擬電腦鍵盤項(xiàng)目界面如圖5所示。
4 結(jié)語
媒體認(rèn)知實(shí)驗(yàn)教學(xué)課程主要涉及的內(nèi)容包括媒體數(shù)據(jù)獲取與人機(jī)交互、生物特征識別、虛擬交互行為及分析、智能感知與識別等交叉學(xué)科領(lǐng)域。通過該實(shí)驗(yàn)課程的建立,學(xué)生能夠了解國際科學(xué)界及工業(yè)界最前沿的媒體認(rèn)知及智能感知技術(shù)熱點(diǎn)和難點(diǎn)問題,掌握利用平臺的基礎(chǔ)設(shè)施和設(shè)備構(gòu)建并實(shí)施多種解決方案的技能。媒體認(rèn)知實(shí)驗(yàn)作為跨行業(yè)、跨領(lǐng)域、跨學(xué)科的電子信息前沿綜合實(shí)驗(yàn)課程,通過借助智能感知及人機(jī)交互知識作為工具和手段解決媒體信息處理、虛擬現(xiàn)實(shí)及人機(jī)交互的問題,充分挖掘和激發(fā)理工科背景的學(xué)生在交叉學(xué)科和前沿技術(shù)方面的實(shí)力和潛力,逐步實(shí)現(xiàn)“在傳統(tǒng)信息領(lǐng)域研究優(yōu)勢的基礎(chǔ)上積極拓展新興學(xué)科,在與能源、環(huán)境、生物等學(xué)科的交叉融合中尋求廣闊的創(chuàng)新空間”。