雷尚仲,張瑞秋
智能電視是移動互聯(lián)網(wǎng)迅速發(fā)展背景下形成的高科技產(chǎn)品,是計算機、網(wǎng)絡以及數(shù)字技術(shù)共同發(fā)展和融合的結(jié)果[1]。它給用戶帶來了更好的交互體驗、更豐富的視聽內(nèi)容,目前已發(fā)展成為家庭主流電視娛樂產(chǎn)品。據(jù)智研咨詢網(wǎng)發(fā)布的《2018—2024 年中國智能電視市場運行態(tài)勢及投資戰(zhàn)略咨詢報告》[2]顯示,近三年來智能電視銷量突飛猛進,繼PC電腦、智能手機和PAD 等終端后,智能電視作為大屏終端已引起了人們的廣泛垂青。
智能電視具有屏幕大、影音效果好、可參與度高、交互性強、支持個性化和偏好推送優(yōu)勢,也可作為家庭信息生活生態(tài)圈的重要入口[3]。然而由于智能電視平臺型的特點,其內(nèi)容日漸增多,操作方式亦愈復雜,從而嚴重地挑戰(zhàn)了用戶的認知負荷和使用習慣。如何解決這個難題目前已成為學界和產(chǎn)業(yè)界的熱點研究方向。近年來,隨著人工智能、計算機圖形學、語音技術(shù)和感性工學等學科技術(shù)的發(fā)展與應用,可靠高效、自然實時的自然交互逐漸成為人們關(guān)注的焦點。
自然交互指利用人的日常技能、意圖感知能力實現(xiàn)“人”與“機器”的互動,相比傳統(tǒng)人機交互,它更強調(diào)交互的自然性、人機關(guān)系的和諧性、交互途徑的隱含性及感知通道的多樣性【4】。自然交互通過聽覺、視覺、語音、手勢、表情、體態(tài)和皮膚觸覺等多通道感知實現(xiàn)人機自然、準確和快捷地交流。自然交互將人機交互從二維的桌面交互升級到整個三維物理空間,從而更加符合人們的日常生活習慣。
當前,自然人機交互是計算機領(lǐng)域重要的前沿技術(shù),涉及計算機、心理學、人體工學等多學科交叉領(lǐng)域,自然人機交互建立在對人的認知和行為能力充分理解和建模的基礎(chǔ)之上,與圖像識別、語音識別、自然語言處理等人工智能技術(shù)也有著密切的聯(lián)系[5]。20 世紀90 年代開始,人機交互進入到了多模態(tài)階段,稱為人機自然交互(HMNI)[6]。2008 年,微軟總裁比爾·蓋茨首次提出了“自然用戶界面”的概念[7],并預言人機交互在未來幾年內(nèi)會有很大地改觀,鍵盤和鼠標將逐步被自然的觸摸式、視覺型以及語音控制界面所代替。與此同時,“有機用戶界面”(Organic User Interface)也開始悄然興起,它包括生物識別傳感器、皮膚顯示器,乃至大腦與計算機的直接對接。2009 年2 月,麻省理工學院媒體實驗室的Pranav Mistry 博士后,將手勢識別、攝像頭、投影和云計算結(jié)合在一起,并命名為“第六感設備”[8],如圖1 所示。這種設備不用攜帶任何大尺寸的東西,所有的終端都濃縮在胸口的掛飾和貼在手指的“色環(huán)”中。當要拍照時,只需要用四根手指擺出一個框的形狀;當要玩賽車游戲時,只需用手抓住一張白紙,通過投影儀它會“搖身一變”成為顯示屏,可通過改變紙張的傾斜角度來控制方向。2012 年,在國際CHI會議(ACM 人機交互會議)上,微軟和華盛頓大學UbiComp Lab 實驗室的聲波(SoundWave)項目開發(fā)了一項實時的傳感技術(shù),利用電腦上的揚聲器和麥克風來感應周圍的手勢和動作,如圖2 所示。揚聲器發(fā)出的超聲波音波引起的微妙頻移的聲波。當人們在電腦前做出手勢的時候,超聲波音波就以輕微的、不同的音量和波長反射回揚聲器,隨后這些數(shù)據(jù)可用于測量速度、方位、距離、尺寸以及改變移動的頻率。該聲波技術(shù)能夠檢測多種多樣的手勢,還能直接控制現(xiàn)有的應用,無需用戶佩戴任何特別的傳感器。2012 年7 月,中國科學院深圳先進技術(shù)研究院集成所智能設計與機器視覺研究室宋展博士帶領(lǐng)的課題組在嵌入式手勢體感交互技術(shù)研究方面取得新成果,攻克了多個復雜環(huán)境下的手勢檢測與識別技術(shù)難題,并完成了嵌入式平臺下的算法優(yōu)化,使其可以在普通智能電視、手機等設備上穩(wěn)定流暢運行。該課題組所開發(fā)的嵌入式手勢識別軟件已在國內(nèi)創(chuàng)維智能電視終端上得到轉(zhuǎn)化應用。玩具巨頭美泰公司推出的MindFlex,用戶只要戴上耳機,便可用意念控制藍色漂浮小球的高低,如圖3 所示。
圖1 第六感設備
圖2 超聲波感知手勢動作
圖3 意念控制場景
目前,自然交互主要基于視覺、聽覺、觸覺、嗅覺等人體感官,一般通過多模態(tài)、多通道融合實現(xiàn)精確識別,具體涉及的交互方式見表1。
電視的發(fā)展是隨著其交互方式的改變而發(fā)展的。從20 世紀20 年代首臺電視的問世開始,電視的交互方式經(jīng)歷了多代發(fā)展。近年來,隨著互聯(lián)網(wǎng)的快速發(fā)展和計算機、人工智能、圖形學、語音等技術(shù)的成熟,從2010 年開始自然交互方式在電視上普遍有了應用。目前,智能電視有以下幾種常見的自然交互方式:語音控制、手勢或體感控制、觸摸控制、多屏互動,甚至在特定場合和領(lǐng)域還有人臉、指紋、虹膜識別,眼動、腦電控制,虛擬現(xiàn)實等方式。目前市面上大多數(shù)電視都是智能電視,而自然交互是智能電視最基本也是最核心的配置要求,通過調(diào)研各主流電視品牌的主要交互方式如表2 所示。
當前市面上的智能電視大部分依靠不同的“關(guān)鍵字”指令來進行交互,但是多個關(guān)鍵詞非常高頻率容易操作有誤。在各大電視品牌中,TCL 作為一家以“創(chuàng)意感動生活”為宗旨的電視品牌,其產(chǎn)品已經(jīng)進入第三代全場景AI 時代和免喚醒時代。TCL 全場景AI 電視具有的免喚醒功能,支持多種常用指令的免喚醒控制。例如,當用戶想看電影時,在喚醒電視之后,只要發(fā)出“好萊塢電影”“《復仇者聯(lián)盟》”“好聲音”等連貫性指令,智能電視就會迅速精準識別并執(zhí)行,能夠給用戶帶來與眾不同的交互體驗。
更有甚者,2011 年7 月18 日世界首臺腦力波電視在“上??ㄋ_帝新聞發(fā)布會”發(fā)布[9]。海爾這款劃時代電視機的遙控操作是通過一個腦波耳機完成的。這個特別的腦波耳機可以檢測到用戶的腦電波信號,識別出用戶所處的狀態(tài)并將其轉(zhuǎn)化成電視可以識別的數(shù)字信號,由此可以實現(xiàn)以人的意志來控制電視開關(guān)機、切換頻道等。2012 年4 月,長虹、海信、創(chuàng)維、TCL 等品牌都陸續(xù)推出了具備體感游戲功能的智能電視,引入了任天堂推出的體感游戲。2016年7 月28 日,長虹正式推出全球首款人工智能CHiQ(啟客)電視,向業(yè)界提出了“人工智能電視”的新概念。該人工智能電視的特點是“知道你、響應你、懂你”,不僅能辨別和響應人的指令,還具有學習功能,能自動分析每個人的喜好,找出對應的內(nèi)容和應用。通過大數(shù)據(jù)和個人數(shù)據(jù)積累,人工智能電視就能非常了解人?;谕晟频募夹g(shù)邏輯與大數(shù)據(jù)運營,長虹以物聯(lián)運營支撐平臺為依托,實現(xiàn)了自然語音交互、深度學習和應用軟件自動迭代等系統(tǒng)能力的整合。
表1 自然交互方式及其特征
表2 各品牌智能電視可支持的自然交互類型
在學術(shù)研究方面,本文通過研讀國內(nèi)外文獻資料,發(fā)現(xiàn)學界對智能電視交互方式的研究聚焦在體感、手勢和語音交互之上,尤其是基于視覺圖像的手勢交互方式頗多。例如國內(nèi)文獻:2016 年,蘭州大學王景山的碩士論文《基于語音交互的電視節(jié)目點播系統(tǒng)》介紹了構(gòu)建基于語音交互的電視節(jié)目點播系統(tǒng)的方法。2015 年,西南交通大學陳一新的碩士論文《基于Kinect 的手勢識別技術(shù)在人機交互中的應用研究》借助Kinect 體感攝像機,提出采用位置相似度權(quán)重改進DTW 算法來開發(fā)手勢識別系統(tǒng)。2014 年,華南理工大學裘索的碩士論文《基于單目攝像頭的智能電視手勢交互系統(tǒng)》針對創(chuàng)維42E790U 智能電視,基于單目攝像頭開發(fā)了一套智能電視手勢交互系統(tǒng)。2013 年,中國海洋大學王冉冉的碩士論文《基于視覺的手勢識別在智能電視上的應用研究》論述了基于2D 攝像頭將Eyesight 手勢識別技術(shù)整合到android 智能電視上,實現(xiàn)手勢控制電視。當然隨著國內(nèi)用戶體驗行業(yè)的快速興起與發(fā)展,對智能電視交互體驗方面的研究也逐漸增多。例如,2018 年崔婧、劉永翔在《智能電視的交互設計研究》一文中陳述了智能電視的發(fā)展現(xiàn)狀,從智能電視的使用環(huán)境、適用人群和使用場景角度分析智能電視的交互特點,進而總結(jié)出智能電視設計時應注重導航設計、使用情景的視覺設計和多種輸入方式的設計原則。
2014 年德國達姆施塔特工業(yè)大學(Computer Science,TU-Darmstadt)的 Niloofar Dezfuli 提出利用手掌交互表面來作為電視遙控器,從而減少手持遙控器錯位和3D 空中手勢遙控(如微軟的Kinect)視覺上帶來的疲勞感。2014 年Chen,Yen-Lin 在臺灣臺北舉行的消費者電子國際會議上提出了一套實時人眼識別和跟蹤系統(tǒng)的人機交互機制,它可以通過幫助智能電視用戶用攝像頭來提高他們的使用經(jīng)驗。該系統(tǒng)通過嵌入式應用omap4430 證明該結(jié)構(gòu)能夠有效、實時地跟蹤眼睛的位置。即使對于不均勻照明的情況下,該系統(tǒng)可以成功地高精度識別人眼。2013 年 Shen Zhiwen 在其發(fā)表在 Journal of Conver?gence Information Technology 的論文提出基于UPnP協(xié)議對智能電視實現(xiàn)多屏互動操控。2012 年美國達拉斯-沃斯堡大學(University of Texas at Dallas)的Jaeyeon Lee 博士在其論文A Long-Range Touch In?terface for Interaction with Smart TVs 提出了一種新的基于觸摸交互模型的交互方式,利用遠程裸手跟蹤模擬觸摸動作來識別操控指令[10-15]。
目前,雖然市面上的電視幾乎都標為“智能電視”,但是這種“智能化”的程度還是有差別的,尤其在交互體驗方面還是有很大的區(qū)別。例如語音交互,大多數(shù)智能電視的語音交互繁瑣,在下達操控指令時,需要不斷地頻繁喚醒,精準識別能力也有限,對話效率低,因此帶來的用戶體驗并不是很好,這也不符合自然交互的本質(zhì)與目的。當前受商家利益的驅(qū)使和消費者迎合智能化潮流的“推波助瀾”等因素的影響,很多情況下自然交互只是一種營銷概念或噱頭,而在技術(shù)實現(xiàn)和用戶體驗方面還有很大的提升空間[16]??偟膩碚f主要有以下兩方面的問題待解決:
第一是用戶體驗設計方面,智能電視交互的用戶體驗是核心問題。雖然目前前沿頂尖人機交互技術(shù)發(fā)展迅速并取得了不錯的成績,但技術(shù)應用到具體產(chǎn)品上還需要經(jīng)過設計化處理。當下智能電視的自然交互可用性、有效性和易用性整體還有提升的空間,主要存在人機交互復雜、界面信息內(nèi)容雜亂和層級繁多等體驗不佳的問題。
第二是精準識別技術(shù)優(yōu)化方面,在精準識別和多模態(tài)融合識別方面還有很大提升空間。比如語音、手勢和體感在實際操作時,并不是那么靈敏和精確,甚至還會帶來一些誤操作。目前,智能電視的自然交互方式在設計上基本是單通道,比如語音交互就只作用于語音識別,手勢交互就只作用于手勢識別,缺乏多感官的融合識別方案和綜合處理系統(tǒng)。建議利用人工智能多模態(tài)融合處理系統(tǒng)實現(xiàn)精準識別和控制(交互)。
其實智能電視發(fā)展到現(xiàn)在還是有很大進步的,在AI 交互體驗上也有較大程度的提升??v觀目前市面上的智能電視,在人工智能方面主要有三方面的體現(xiàn):(1)語音、手勢、體感等自然交互控制;(2)智能個性化內(nèi)容推薦;(3)智能家居系統(tǒng)控制。其中,交互操控是一臺智能電視最主要、也是最必不可少的功能,因此大多數(shù)智能電視的AI 功能都相當重視自然交互,通過對AI 技術(shù)的不斷更新迭代,以給用戶帶來更加人性化、差異化的交互體驗。
隨著技術(shù)的不斷發(fā)展,智能電視的交互方式也會有所變化,而且隨著計算機、人工智能、虛擬現(xiàn)實等相關(guān)技術(shù)的快速發(fā)展和成熟,相信在不久的將來又會涌現(xiàn)出大量新的交互方式,并將不斷挑戰(zhàn)人的使用習慣。但筆者認為無論交互技術(shù)怎樣發(fā)展,未來的智能電視交互操作將更加自然化,在高度智能化的同時智能電視交互的發(fā)展方向必將是多通道的智能融合、更加個性化和情感化,也就是智能電視越來越像一個人,甚至比人還聰明、體貼。
當前最熱的語音和手勢兩種新交互方式將會在近段時間得到快速的優(yōu)化發(fā)展,人工智能和情感交互將成為長期發(fā)展的趨勢,未來人與電視的交互就像人與人之間的交流那樣自然,同時電視也將具有類似人的情感和智慧,可以通過感應人的狀況智能化調(diào)整與人的交互方式。
自然交互在人工智能時代將是一個具有廣闊應用前景的高新技術(shù)領(lǐng)域,其研究范圍廣泛,但目前受諸多因素限制顛覆性突破艱難,仍存在許多有待解決的問題。為了提高智能電視系統(tǒng)的可交互性、逼真性和沉浸感,需要加強新型傳感和感知、算法建模、高性能計算和圖形圖像處理等技術(shù),同時提升在人工智能、心理學、社會學等領(lǐng)域的融合協(xié)同研究。本文通過文獻研究和考察調(diào)研相結(jié)合的方式對智能電視的自然交互進行了論述,并對有待解決的問題作了一定的分析,同時梳理了未來的發(fā)展趨勢,以期為面向萬物互聯(lián)趨勢下新的設計機遇與挑戰(zhàn)提供依據(jù)和參考。相信隨著技術(shù)的快速發(fā)展和成熟,自然人機交互將會帶給我們?nèi)祟愒陔娨暜a(chǎn)品中更完美的“視聽觸”等方面的多感融合體驗。